🔶 Quand les IA parleront comme vous et moi

14 juin 2021 /// Une innovation décryptée
David
contre Goliath

De nouveaux algorithmes d’une puissance inimaginable, des interrogations éthiques, des chercheuses licenciées par Google… Vous avez deviné, nous allons parler d’intelligence artificielle et de langage.
Yves Gingras, sociologue québécois, dénonçait en 2019 les fausses promesses de l’intelligence artificielle. Un certain nombre d’informaticiens semblent en être conscients, comme vous pourrez le constater.
Quels liens entre ces chercheurs et les Gafam (définition) ? Comment s’articule la recherche entre petits labos et géants du numérique ? Vous trouverez quelques réponses dans ce numéro !

Bonne lecture,
Lucile de TheMetaNews
PS. Un grand merci aux chercheurs François Yvon et Christophe Servan pour leur temps passé à m’expliquer le sujet en profondeur.

Si vous n’avez que 30 secondes

Le traitement du langage aujourd’hui
Un peu d’éthique chez Google
Les pionniers du domaine
Christophe Servan (Qwant) se positionne
Votre revue de presse express
Et pour finir, on mélange art et IA

En six minutes, des origines aux applications

Tout vient de la paillasse (ou presque)

Qui ouvrira la boîte noire du langage ?

Le tournant du « deep learning » a permis des progrès dans les applications mais pas forcément dans la compréhension des mécanismes du langage.

Imaginez que l’ouvre-boîte n’existe pas

Alignement des étoiles. Assiste-t-on à un tournant dans le domaine du langage ? Pour François Yvon, informaticien à Paris Saclay, c’est une certitude : d’énormes avancées ont été permises grâce à des ordinateurs plus puissants, des bibliothèques logicielles plus étoffées – deux lignes de codes suffisent aujourd’hui quand il fallait une thèse il y a 20 ans – et l’impressionnante quantité de données disponibles.

De l’ombre à la lumière. Pour Christophe Servan (▼ voir notre interview ▼), l’explosion est également du côté des usages. Traduction automatique, reconnaissance vocale, chatbot… ont accompagné l’émergence des smartphones, propulsant sur le devant de la scène des recherches initiées depuis des dizaines d’années, notamment via les Gafam : « C’est très enthousiasmant de sortir de l’anonymat ».

Un vent d’optimisme. Ce champ disciplinaire, austèrement nommé traitement automatique du langage naturel pour le différencier du langage formel des ordinateurs, est né dans les années 1950, en pleine guerre froide, au moment où les Américains cherchaient à traduire les publications soviétiques. Ce vent d’optimisme a permis de larges financements (▼ voir le trombi ▼), suivi d’une rapide désillusion. Jusqu’à sa renaissance aujourd’hui.

Cette recherche portée par les Gafam occulte d’autres aspects plus fondamentaux de la recherche sur le langage.
Pari sur les machines. Au croisement de la linguistique, de l’informatique et de l’intelligence artificielle, son objectif est à la fois de comprendre les mécanismes fondamentaux du langage et de développer des outils de traitement. Sauf que le premier objectif est un peu passé à la trappe avec l’engouement pour l’apprentissage profond (le fameux deep learning), méthode aujourd’hui majoritaire au sein de l’IA.

Heureux hasard. « L’avantage de sortir de l’approche symbolique [plus de détails ici, NDLR], c’est que l’approche numérique permet de construire des représentations plus fines des unités linguistiques », analyse François Yvon. Le nouvel algorithme GPT-3 d’OpenIA, la société d’Elon Musk, arrive ainsi à deviner le prochain mot d’une phrase, jusqu’à construire des énoncés qui ont en apparence une cohérence syntaxique et même thématique. Ce système est donc en capacité de répondre aux questions d’un utilisateur, voire de résumer des textes, par pure logique probabiliste.

Gros moyens. Tout cela est au prix du déploiement d’une véritable machine de guerre informatique (▼ voir notre chiffre ▼). Un bazooka pour ouvrir une boîte de conserve, en quelque sorte. Mais qu’y a-t-il dans la boîte ? On tarde à le savoir. Cette recherche portée par les Gafam occulte d’autres aspects plus fondamentaux de la recherche sur le langage et détourne les financements de la linguistique pure.

Issue incertaine. En effet, l’intelligence des algorithmes n’est pour l’instant qu’un leurre : si les systèmes paraissent plus intelligents qu’il y a trente ans, ils sont juste plus efficaces. « Les calculs ont été largement optimisés pour effectuer des traitements simples sur des grandes masses de données, au détriment d’analyses visant à la compréhension profondes des énoncés. Jusqu’où pourrons-nous aller dans cette voie ? », s’interroge François Yvon.
Ce qu’on sait aujourd’hui. Créer des systèmes qui assimilent nos connaissances communes et peuvent nous répondre de façon cohérente.
Ce qu’il reste à faire. Rendre ces systèmes plus éthiques (voir encadré) et essayer de percer les mystères du langage.

Et l’éthique dans tout ça ?

Pour la linguiste Emily Bender et l’informaticienne Timnit Gebru, récemment congédiée par Google pour ses travaux sur les aspects éthiques de l’IA, l’apparition de modèles de grande ampleur ne va pas sans risques. Les biais de nos sociétés (racistes, sexistes… ) ressortent de ces “perroquets stochastiques” que sont les algorithmes, les idées discriminantes ou haineuses étant potentiellement surreprésentées dans les données. Des solutions sont envisageables : filtrer certains discours de la machine, améliorer la qualité des données ou aller vers plus de transparence. Qu’y a-t-il sous le capot ? Si la plupart des algorithmes étaient auparavant en open source, le dernier GPT-3 ne l’est pas.

Un chiffre plutôt qu’un long discours
284
C’est le bilan carbone (en tonnes de CO2 !) de l’entraînement d’un modèle de langage de dernière génération (de type Transformer pour les intimes), soit près de vingt années d’émissions d’un Américain moyen. Pour le GPT-3, une quantité de données équivalente à dix fois Wikipédia passe au travers d’une centaine de couches, chaque mot étant représenté sous la forme d’un vecteur avec des centaines de milliards de paramètres. C’est pourquoi des initiatives comme la conférence SustainNLP ou de Green AI promeuvent l’efficacité des algorithmes, ce qui permettra aussi de tester leur reproductibilité.

Les grands anciens du langage

Claude Shannon Inspiré par Markov avant lui, le mathématicien Claude Shannon présente dès 1948 sa théorie de l’information, qui servira de base aux modèles de langage.

Alan Turing Alan Turing est sans conteste le père de l’intelligence artificielle avec son fameux test proposé en 1950 : une machine peut-elle se faire passer pour une humain ?

Noam Chomsky Profitant de l’engouement, le célèbre linguiste Noam Chomsky conduit à partir de 1957 des travaux fondamentaux sur la grammaire et la cognition, qui se révèleront révolutionnaires.

Joseph Weizenbaum Au sein du groupe fondé par Marvin Minsky et John McCarthy au MIT, Joseph Weizenbaum crée en 1966 le premier chatbot, ELIZA, qui réussira partiellement le test de Turing.

Quelques questions à C hristophe Servan
« Les linguistes sont de moins en moins financés »

Mieux avec moins, c’est l’objectif de ce chercheur, responsable scientifique chez Qwant. Un enjeu également présent dans la recherche académique.

Christophe Servan est également président de l’ATALA,
société savante du domaine

Quelle est la particularité du moteur de recherche Qwant ?
Chez Qwant, nous ne collectons pas les données personnelles de nos utilisateurs pour des raisons éthiques. Notre modèle d’affaires est donc différent car nous ne pouvons par exemple pas personnaliser la publicité. Nous avons aussi une approche technique différente de celle de nos concurrents [avec une puissance de calcul bien moindre que celle des Gafam, NDLR]. Le profilage qui permet de distinguer entre jaguar, voiture ou animal, grâce à l’historique, est chez Qwant impossible.

Comment se positionner dans cette course à la puissance ?
Il faut inventer des modèles plus malins. Les êtres humains apprennent à parler avec beaucoup moins de données que les récents algorithmes ! Nous nous concentrons également sur des tâches spécifiques, par exemple enrichir ou catégoriser des requêtes. Cela passe enfin par le développement de modèles de meilleure qualité, comme l’a fait Inria avec son modèle CamemBERT.

La langue française est-elle être en danger ?
Tout d’abord, les linguistes sont de moins en moins financés. On manque donc d’étude sur l’évolution de la langue française ces vingt dernières années, par exemple. De plus, le français est moins bien doté que l’anglais donc certains outils sont moins performants, voire manquants. Ce qui n’encourage pas à les utiliser ; il pourrait en effet y avoir un effet de cercle vicieux. Il faudrait encourager les publications en français, notamment dans la recherche !

La réalité du terrain

Après plusieurs postdocs, Christophe Servan est passé dans la recherche privée. Selon François Yvon, celle-ci a aspiré un grand nombre de jeunes et brillants chercheurs depuis cinq ans, coïncidant avec l’ouverture des grands centres de recherche de Google ou de Facebook. « Les Gafam dictent de plus en plus les sujets de recherche, à la fois par leur présence dans les conférences mais aussi par leur attractivité : avoir bossé sur un de leurs sujets est un atout pour pouvoir être recruté ».

Des infos en vrac Qui a déposé le plus de brevets en 2020 ? A peu près les mêmes qu’en 2019, nous dit le palmarès de l’Inpi //////////// Mardi 15 juin à 14h sera présenté le baromètre jeunes chercheurs & entrepreneuriat deeptech par BPIfrance. Avis aux intéressés //////////// La recherche « commissionnée » est-elle intègre ? Les clients et la compétition pour les financements ont de mauvaises influence sur la qualité des recherches, répond une étude parue dans Accountability in Research ////////////

Ils parlent d’inno (alors on vous en parle)

Démêlage. En décembre dernier, la chercheuse Timnit Gebru était poussée vers la sortie par Google. Mais que s’est-il vraiment passé ? Wired a enquêté et retrace l’historique.
Prospection. Trois innovations pour la future croissance, c’était le sujet d’Entendez-vous l’éco sur France Culture. Trois innovations dont nous vous avions déjà parlé : la blockchain, la 5G/6G et les technologies quantiques
Optimisme. IA encore et toujours : le boom économique est à venir, affirme deux chercheurs du domaine dans MIT Technology Review.

Et pour finir
—

Elle nous parle, mais pas que. L’IA fait aussi de l’art (même s’il n’est pas certain qu’elle le perçoive ainsi). Le collectif Obvious, qui comporte un chercheur en IA, explique sa démarche dans Brut. Crédit : Obvious

Retour aux archives