🔶 Quand les IA parleront comme vous et moi

14 juin 2021 /// Une innovation dĂ©cryptĂ©e 
David
contre Goliath

De nouveaux algorithmes d’une puissance inimaginable, des interrogations éthiques, des chercheuses licenciées par Google… Vous avez deviné, nous allons parler d’intelligence artificielle et de langage.
Yves Gingras, sociologue québécois, dénonçait en 2019 les fausses promesses de l’intelligence artificielle. Un certain nombre d’informaticiens semblent en être conscients, comme vous pourrez le constater.

Quels liens entre ces chercheurs et les Gafam (définition) ? Comment s’articule la recherche entre petits labos et géants du numérique ? Vous trouverez quelques réponses dans ce numéro !

Bonne lecture,
Lucile de TheMetaNews
 PS. Un grand merci aux chercheurs François Yvon et Christophe Servan pour leur temps passĂ© Ă  m’expliquer le sujet en profondeur.


Si vous n’avez que 30 secondes
  • Le traitement du langage aujourd’hui
  • Un peu d’Ă©thique chez Google
  • Les pionniers du domaine
  • Christophe Servan (Qwant) se positionne
  • Votre revue de presse express
  • Et pour finir, on mĂ©lange art et IA



En six minutes, des origines aux applications


Tout vient de la paillasse (ou presque)


Qui ouvrira la boîte noire du langage ?


Le tournant du « deep learning » a permis des progrès dans les applications mais pas forcément dans la compréhension des mécanismes du langage.


Imaginez que l’ouvre-boĂ®te n’existe pas

Alignement des Ă©toiles. Assiste-t-on Ă  un tournant dans le domaine du langage ? Pour François Yvon, informaticien Ă  Paris Saclay, c’est une certitude : d’Ă©normes avancĂ©es ont Ă©tĂ© permises grâce Ă  des ordinateurs plus puissants, des bibliothèques logicielles plus Ă©toffĂ©es – deux lignes de codes suffisent aujourd’hui quand il fallait une thèse il y a 20 ans – et l’impressionnante quantitĂ© de donnĂ©es disponibles.

De l’ombre Ă  la lumière. Pour Christophe Servan (â–Ľ voir notre interview â–Ľ), l’explosion est Ă©galement du cĂ´tĂ© des usages. Traduction automatique, reconnaissance vocale, chatbot… ont accompagnĂ© l’émergence des smartphones, propulsant sur le devant de la scène des recherches initiĂ©es depuis des dizaines d’annĂ©es, notamment via les Gafam : « C’est très enthousiasmant de sortir de l’anonymat ».

Un vent d’optimisme. Ce champ disciplinaire, austèrement nommĂ© traitement automatique du langage naturel pour le diffĂ©rencier du langage formel des ordinateurs, est nĂ© dans les annĂ©es 1950, en pleine guerre froide, au moment oĂą les AmĂ©ricains cherchaient Ă  traduire les publications soviĂ©tiques. Ce vent d’optimisme a permis de larges financements (â–Ľ voir le trombi â–Ľ), suivi d’une rapide dĂ©sillusion. Jusqu’à sa renaissance aujourd’hui.

 Cette recherche portĂ©e par les Gafam occulte d’autres aspects plus fondamentaux de la recherche sur le langage. 
Pari sur les machines. Au croisement de la linguistique, de l’informatique et de l’intelligence artificielle, son objectif est Ă  la fois de comprendre les mĂ©canismes fondamentaux du langage et de dĂ©velopper des outils de traitement. Sauf que le premier objectif est un peu passĂ© Ă  la trappe avec l’engouement pour l’apprentissage profond (le fameux deep learning), mĂ©thode aujourd’hui majoritaire au sein de l’IA.

Heureux hasard. « L’avantage de sortir de l’approche symbolique [plus de dĂ©tails ici, NDLR], c’est que l’approche numĂ©rique permet de construire des reprĂ©sentations plus fines des unitĂ©s linguistiques », analyse François Yvon. Le nouvel algorithme GPT-3 d’OpenIA, la sociĂ©tĂ© d’Elon Musk, arrive ainsi Ă  deviner le prochain mot d’une phrase, jusqu’à construire des Ă©noncĂ©s qui ont en apparence une cohĂ©rence syntaxique et mĂŞme thĂ©matique. Ce système est donc en capacitĂ© de rĂ©pondre aux questions d’un utilisateur, voire de rĂ©sumer des textes, par pure logique probabiliste.

Gros moyens. Tout cela est au prix du dĂ©ploiement d’une vĂ©ritable machine de guerre informatique (â–Ľ voir notre chiffre â–Ľ). Un bazooka pour ouvrir une boĂ®te de conserve, en quelque sorte. Mais qu’y a-t-il dans la boĂ®te ? On tarde Ă  le savoir. Cette recherche portĂ©e par les Gafam occulte d’autres aspects plus fondamentaux de la recherche sur le langage et dĂ©tourne les financements de la linguistique pure.

Issue incertaine. En effet, l’intelligence des algorithmes n’est pour l’instant qu’un leurre : si les systèmes paraissent plus intelligents qu’il y a trente ans, ils sont juste plus efficaces. « Les calculs ont Ă©tĂ© largement optimisĂ©s pour effectuer des traitements simples sur des grandes masses de donnĂ©es, au dĂ©triment d’analyses visant Ă  la comprĂ©hension profondes des Ă©noncĂ©s. Jusqu’oĂą pourrons-nous aller dans cette voie ? », s’interroge François Yvon.
  Ce qu’on sait aujourd’hui.  CrĂ©er des systèmes qui assimilent nos connaissances communes et peuvent nous rĂ©pondre de façon cohĂ©rente.
  Ce qu’il reste Ă  faire.  Rendre ces systèmes plus Ă©thiques (voir encadrĂ©) et essayer de percer les mystères du langage.


Et l’éthique dans tout ça ? 
Pour la linguiste Emily Bender et l’informaticienne Timnit Gebru, récemment congédiée par Google pour ses travaux sur les aspects éthiques de l’IA, l’apparition de modèles de grande ampleur ne va pas sans risques. Les biais de nos sociétés (racistes, sexistes… ) ressortent de ces “perroquets stochastiques” que sont les algorithmes, les idées discriminantes ou haineuses étant potentiellement surreprésentées dans les données. Des solutions sont envisageables : filtrer certains discours de la machine, améliorer la qualité des données ou aller vers plus de transparence. Qu’y a-t-il sous le capot ? Si la plupart des algorithmes étaient auparavant en open source, le dernier GPT-3 ne l’est pas.


Un chiffre plutĂ´t qu’un long discours
 284  
C’est le bilan carbone (en tonnes de CO2 !) de l’entraĂ®nement d’un modèle de langage de dernière gĂ©nĂ©ration (de type Transformer pour les intimes), soit près de vingt annĂ©es d’émissions d’un AmĂ©ricain moyen. Pour le GPT-3, une quantitĂ© de donnĂ©es Ă©quivalente Ă  dix fois WikipĂ©dia passe au travers d’une centaine de couches, chaque mot Ă©tant reprĂ©sentĂ© sous la forme d’un vecteur avec des centaines de milliards de paramètres. C’est pourquoi des initiatives comme la confĂ©rence SustainNLP ou de Green AI promeuvent l’efficacitĂ© des algorithmes, ce qui permettra aussi de tester leur reproductibilitĂ©.


Les grands anciens du langage
 Claude Shannon  InspirĂ© par Markov avant lui, le mathĂ©maticien Claude Shannon prĂ©sente dès 1948 sa thĂ©orie de l’information, qui servira de base aux modèles de langage.
 Alan Turing  Alan Turing est sans conteste le père de l’intelligence artificielle avec son fameux test proposĂ© en 1950 : une machine peut-elle se faire passer pour une humain ?
 Noam Chomsky  Profitant de l’engouement, le cĂ©lèbre linguiste Noam Chomsky conduit Ă  partir de 1957 des travaux fondamentaux sur la grammaire et la cognition, qui se rĂ©vèleront rĂ©volutionnaires.
 Joseph Weizenbaum  Au sein du groupe fondĂ© par Marvin Minsky et John McCarthy au MIT, Joseph Weizenbaum crĂ©e en 1966 le premier chatbot, ELIZA, qui rĂ©ussira partiellement le test de Turing. 


Quelques questions Ă  Christophe Servan
« Les linguistes sont de moins en moins financés »


Mieux avec moins, c’est l’objectif de ce chercheur, responsable scientifique chez Qwant. Un enjeu également présent dans la recherche académique.


Christophe Servan est Ă©galement prĂ©sident de l’ATALA,
société savante du domaine

Quelle est la particularité du moteur de recherche Qwant ?
Chez Qwant, nous ne collectons pas les donnĂ©es personnelles de nos utilisateurs pour des raisons Ă©thiques. Notre modèle d’affaires est donc diffĂ©rent car nous ne pouvons par exemple pas personnaliser la publicitĂ©. Nous avons aussi une approche technique diffĂ©rente de celle de nos concurrents [avec une puissance de calcul bien moindre que celle des Gafam, NDLR]. Le profilage qui permet de distinguer entre jaguar, voiture ou animal, grâce Ă  l’historique, est chez Qwant impossible.

Comment se positionner dans cette course Ă  la puissance ?
Il faut inventer des modèles plus malins. Les êtres humains apprennent à parler avec beaucoup moins de données que les récents algorithmes ! Nous nous concentrons également sur des tâches spécifiques, par exemple enrichir ou catégoriser des requêtes. Cela passe enfin par le développement de modèles de meilleure qualité, comme l’a fait Inria avec son modèle CamemBERT.

La langue française est-elle être en danger ?
Tout d’abord, les linguistes sont de moins en moins financés. On manque donc d’étude sur l’évolution de la langue française ces vingt dernières années, par exemple. De plus, le français est moins bien doté que l’anglais donc certains outils sont moins performants, voire manquants. Ce qui n’encourage pas à les utiliser ; il pourrait en effet y avoir un effet de cercle vicieux. Il faudrait encourager les publications en français, notamment dans la recherche !


La rĂ©alitĂ© du terrain 
Après plusieurs postdocs, Christophe Servan est passĂ© dans la recherche privĂ©e. Selon François Yvon, celle-ci a aspirĂ© un grand nombre de jeunes et brillants chercheurs depuis cinq ans, coĂŻncidant avec l’ouverture des grands centres de recherche de Google ou de Facebook. « Les Gafam dictent de plus en plus les sujets de recherche, Ă  la fois par leur prĂ©sence dans les confĂ©rences mais aussi par leur attractivitĂ© : avoir bossĂ© sur un de leurs sujets est un atout pour pouvoir ĂŞtre recrutĂ© Â».


 Des infos en vrac  Qui a dĂ©posĂ© le plus de brevets en 2020 ? A peu près les mĂŞmes qu’en 2019, nous dit le palmarès de l’Inpi //////////// Mardi 15 juin Ă  14h sera prĂ©sentĂ© le baromètre jeunes chercheurs & entrepreneuriat deeptech par BPIfrance. Avis aux intĂ©ressĂ©s //////////// La recherche « commissionnĂ©e » est-elle intègre ? Les clients et la compĂ©tition pour les financements ont de mauvaises influence sur la qualitĂ© des recherches, rĂ©pond une Ă©tude parue dans Accountability in Research ////////////


Ils parlent d’inno (alors on vous en parle)



Et pour finir
—

Elle nous parle, mais pas que. L’IA fait aussi de l’art (mĂŞme s’il n’est pas certain qu’elle le perçoive ainsi). Le collectif Obvious, qui comporte un chercheur en IA, explique sa dĂ©marche dans Brut. CrĂ©dit : Obvious