Imaginez que l’ouvre-boĂ®te n’existe pas
Alignement des Ă©toiles. Assiste-t-on Ă un tournant dans le domaine du langage ? Pour François Yvon, informaticien Ă Paris Saclay, c’est une certitude : d’Ă©normes avancĂ©es ont Ă©tĂ© permises grâce Ă des ordinateurs plus puissants, des bibliothèques logicielles plus Ă©toffĂ©es – deux lignes de codes suffisent aujourd’hui quand il fallait une thèse il y a 20 ans – et l’impressionnante quantitĂ© de donnĂ©es disponibles.
De l’ombre Ă la lumière. Pour Christophe Servan (â–Ľ voir notre interview â–Ľ), l’explosion est Ă©galement du cĂ´tĂ© des usages. Traduction automatique, reconnaissance vocale, chatbot… ont accompagnĂ© l’émergence des smartphones, propulsant sur le devant de la scène des recherches initiĂ©es depuis des dizaines d’annĂ©es, notamment via les Gafam : « C’est très enthousiasmant de sortir de l’anonymat ».
Un vent d’optimisme. Ce champ disciplinaire, austèrement nommĂ© traitement automatique du langage naturel pour le diffĂ©rencier du langage formel des ordinateurs, est nĂ© dans les annĂ©es 1950, en pleine guerre froide, au moment oĂą les AmĂ©ricains cherchaient Ă traduire les publications soviĂ©tiques. Ce vent d’optimisme a permis de larges financements (â–Ľ voir le trombi â–Ľ), suivi d’une rapide dĂ©sillusion. Jusqu’à sa renaissance aujourd’hui.
Cette recherche portée par les Gafam occulte d’autres aspects plus fondamentaux de la recherche sur le langage.
Pari sur les machines. Au croisement de la linguistique, de l’informatique et de l’intelligence artificielle, son objectif est à la fois de comprendre les mécanismes fondamentaux du langage et de développer des outils de traitement. Sauf que le premier objectif est un peu passé à la trappe avec l’engouement pour l’apprentissage profond (le fameux deep learning), méthode aujourd’hui majoritaire au sein de l’IA.
Heureux hasard. « L’avantage de sortir de l’approche symbolique [plus de dĂ©tails ici, NDLR], c’est que l’approche numĂ©rique permet de construire des reprĂ©sentations plus fines des unitĂ©s linguistiques », analyse François Yvon. Le nouvel algorithme GPT-3 d’OpenIA, la sociĂ©tĂ© d’Elon Musk, arrive ainsi Ă deviner le prochain mot d’une phrase, jusqu’à construire des Ă©noncĂ©s qui ont en apparence une cohĂ©rence syntaxique et mĂŞme thĂ©matique. Ce système est donc en capacitĂ© de rĂ©pondre aux questions d’un utilisateur, voire de rĂ©sumer des textes, par pure logique probabiliste.
Gros moyens. Tout cela est au prix du dĂ©ploiement d’une vĂ©ritable machine de guerre informatique (â–Ľ voir notre chiffre â–Ľ). Un bazooka pour ouvrir une boĂ®te de conserve, en quelque sorte. Mais qu’y a-t-il dans la boĂ®te ? On tarde Ă le savoir. Cette recherche portĂ©e par les Gafam occulte d’autres aspects plus fondamentaux de la recherche sur le langage et dĂ©tourne les financements de la linguistique pure.
Issue incertaine. En effet, l’intelligence des algorithmes n’est pour l’instant qu’un leurre : si les systèmes paraissent plus intelligents qu’il y a trente ans, ils sont juste plus efficaces. « Les calculs ont Ă©tĂ© largement optimisĂ©s pour effectuer des traitements simples sur des grandes masses de donnĂ©es, au dĂ©triment d’analyses visant Ă la comprĂ©hension profondes des Ă©noncĂ©s. Jusqu’oĂą pourrons-nous aller dans cette voie ? », s’interroge François Yvon.
Ce qu’on sait aujourd’hui. Créer des systèmes qui assimilent nos connaissances communes et peuvent nous répondre de façon cohérente.
Ce qu’il reste à faire. Rendre ces systèmes plus éthiques (voir encadré) et essayer de percer les mystères du langage. |