Le 9 octobre 2024, l’Académie royale des sciences de Suède décernait le Nobel de chimie à trois scientifiques de renom. David Baker, professeur à l’université de Washington aux États-Unis, en obtenait la moitié pour avoir « réussi l’exploit presque impossible de créer des types de protéines entièrement nouvelles », expliquait le communiqué officiel. Demis Hassabis et John Jumper se partageaient la seconde moitié pour le développement d’un modèle d’intelligence artificielle permettant de « résoudre un problème vieux de 50 ans : prédire les structures complexes des protéines. Ces découvertes recèlent un potentiel énorme », concluaient les sages du comité Nobel. Mais l’affiliation de ces co-lauréats en a fait réagir plus d’un. Il ne s’agit pas d’une université ni d’un organisme de recherche, mais de la filiale d’un géant du numérique : Google Deepmind. Fondée à Londres par Demis Hassabis en 2010 et rachetée en 2014 par Google, l’entreprise développe depuis huit ans à peine AlphaFold, un logiciel de prédiction des structures de protéines. Aujourd’hui largement repris par les chercheurs académiques, notamment en biochimie, l’outil a tout simplement bouleversé la discipline.
« AlphaFold n’aurait pas pu exister sans le travail de toute une communauté académique »
Élodie Laine
Grand Meccano. « Pour le grand public, c’est la première fois que l’IA est médiatisée pour une application autre qu’un chatbot », analyse Alexandre Hocquet, historien des sciences et ex-chimiste, professeur à l’université de Lorraine (nous l’avions interviewé sur l’embellissement des images en science). Loin des deep fakes et des hallucinations de ChatGPT, les méthodes d’intelligence artificielle ont semble-t-il prouvé leur utilité pour la science. Afin d’appréhender la fonction d’une protéine – ces briques élémentaires présentes dans tout le vivant –, il est nécessaire de connaître sa structure en trois dimensions. En 1972, Christian Anfinsen, tout juste lauréat du Nobel de chimie, prédisait qu’en théorie, la séquence d’acides aminés composant une protéine permettrait de prédire sa structure. S’en est suivi une quête longue de 50 ans pour trouver le meilleur moyen de calculer théoriquement ces structures 3D, ainsi que le développement de techniques expérimentales pour confronter ces prédictions à la réalité. Avec quelques succès, mais sans atteindre l’efficacité rêvée.
Effet miroir. « Pour [mesurer expérimentalement] la structure d’une protéine, ça demande une thèse », résume le docteur en chimie théorique, aujourd’hui ingénieur de recherche au CNRS, Thibaut Véry dans une présentation sur l’utilisation d’AlphaFold. Cristallographie par rayons X, IRM ou plus récemment cryomicroscopie électronique : les méthodes expérimentales sont chronophages et coûteuses. Mais lorsque la structure d’une nouvelle protéine est effectivement mesurée, c’est l’occasion de comparer les différentes méthodes de prédiction… avec un certain esprit de compet’. La plus connue ? Le Critical Assessment of Structure Prediction – ou CASP pour les intimes. Fondé en 1994 par quatre chimistes étasuniens et organisé tous les deux ans, le concours propose à la communauté de prédire des structures de protéine qui viennent d’être déterminées expérimentalement mais qui n’ont pas encore été publiées. Une centaine d’équipes de recherche y participent, avec entre deux et trois semaines pour trouver la meilleure approximation possible. La qualité de leur prédiction est mesurée par un indicateur qui donne une note entre 0 et 100, pouvant être vue comme le pourcentage d’acides aminés dont la position a été correctement déterminée.
« La façon qu’ont les protéines de se replier se prête bien à la gamification »
Alexandre Hocquet
Saint-Thomas. « Au début de CASP, les méthodes de prédiction marchaient bien sur les cibles faciles », témoigne Élodie Laine, professeure en biologie computationnelle à Sorbonne Université. Les éditions se succèdent et les chercheurs butent, les meilleurs obtenant des notes autour de 40/100. Jusqu’au jour où… En 2018, un nouveau logiciel nommé AlphaFold bat tous les records et décroche au CASP une note approchant les 60. À l’édition suivante de la compétition en 2020, la seconde version AlphaFold2 crée à nouveau l’événement avec des notes dépassant en moyenne les 90/100 sur plusieurs épreuves, dont la catégorie des protéines complexes. Google Deepmind communique fièrement : AlphaFold est selon eux LA solution à un problème sur lequel les chercheurs bloquent depuis 50 ans, et le co-fondateur de CASP John Moult lui-même le reconnaît. C’est en effet la première fois qu’une méthode basée sur de l’IA surpasse les méthodes traditionnelles basées sur des lois de la physique. Bien que sceptique au tout début, comme nombre de ses collègues, la nouvelle du Nobel en octobre 2024 n’a pas surpris Sergei Grudinin, chercheur CNRS travaillant au sein du Laboratoire Jean Kuntzmann à Grenoble : « Ce n’était qu’une question de temps. »
Robot rocks. Un combat homme-machine qui n’est pas sans rappeler le très médiatisé duel de 2017 entre le champion du monde en titre du jeu de Go, le chinois Ke Jie, et AlphaGo, développé par la même entité qu’AlphaFold : Google Deepmind. Si l’on vous en parle, vous vous en doutez, c’est que le vainqueur n’était pas humain. L’événement a marqué un tournant pour l’IA et permis un bon coup de pub à l’entreprise dirigée par un docteur en neuroscience – Demis Hassabis – qui paraît-il développe des jeux vidéo depuis son adolescence. Quel rapport avec la chimie, nous direz-vous ? « La façon qu’ont les protéines de se replier se prête bien à la gamification », analyse Alexandre Hocquet. Avec ses représentations en 3D qui tournent sur elles-même (vous verrez plusieurs exemples sur le site de CASP, très années 1990 au passage), la problématique avait dès 2008 été transformée en jeu participatif où tout un chacun pouvait contribuer à faire avancer la science en s’amusant. Le projet Foldit, débouchant sur plus de 57 000 contributions et une publication dans Nature, avait été initié avant l’avènement de l’IA par… David Baker, co-lauréat du Nobel 2024.
« AlphaFold2 a demandé l’investissement d’une trentaine d’ingénieurs pendant deux ans »
Sergei Grudinin
Hors normes. « AlphaFold n’aurait pas pu exister sans le travail de toute une communauté académique, dont le groupe de David Baker, qui a véritablement créé ce domaine de recherche qu’est le design de protéine », analyse Élodie Laine. Si les performances des modèles d’apprentissage profond – ou deep learning en anglais, la méthode d’IA utilisée pour AlphaFold et plein d’autres applications comme la reconnaissance visuelle ou vocale – impressionnent, elles reposent beaucoup sur l’humain : « AlphaFold2 a demandé l’investissement d’une trentaine d’ingénieurs pendant deux ans [32 scientifiques en plus des deux prix Nobel ont signé la publication, NDLR] », rappelle Sergei Grudinin. Et malgré sa puissance, l’IA doit être recadrée : « AlphaFold se base sur des protéines similaires connues [Thibaut Véry l’explique également dans sa présentation, NDLR] mais celles qu’il génère violent les lois de la physique, un peu comme une photo sans perspective. Il faut ensuite affiner les résultats », explique Alexandre Hocquet.
Hobby : IA. En 2022, Google Deepmind n’a pas participé officiellement à la compétition CASP – les organisateurs ont néanmoins demandé à Deepmind quelques prédictions – mais beaucoup de chercheurs se sont inspirés d’AlphaFold2, dont le code était en partie open, pour construire leur propre outil. « L’émergence de l’apprentissage profond, couronné de succès pour la prédiction des protéines, a stimulé la communauté », témoigne Élodie Laine. Aujourd’hui, les chercheurs se frottent à des simulations beaucoup plus complexes de protéines en interaction : « On peut aller plus loin et répondre à des questions très appliquées de biologie structurale », explique Sergei Grudinin qui participe à CASP depuis 15 ans. « Pour les chercheurs et notamment les théoriciens, devenir un ingénieur de l’IA peut paraître déconcertant. Mais la science progresse aussi de cette façon ! Ce n’est simplement pas la science qu’on raconte d’habitude », analyse Alexandre Hocquet.
« Google Deepmind inonde le monde académique de millions de structures prédites, pour lesquelles personne n’a de connaissance »
Alexandre Hocquet
Lire dans la matrice. Mais le sujet est loin d’être clos. L’historique Proteins Data Bank, véritable succès de la science ouverte initié dès les années 1970, ne contient qu’un peu plus de 227 000 mesures expérimentales après 50 ans d’existence. Son homologue recensant les structures protéiniques calculées, montée par Google Deepmind en coopération avec l’Institut européen de bio-informatique, a accumulé en quelques années plus de 200 millions d’entrées. Avec quelle utilité ? « Google Deepmind inonde le monde académique de millions de structures prédites, pour lesquelles personne n’a de connaissance. Elles peuvent cependant aider à la détermination expérimentale de protéines similaires », analyse Alexandre Hocquet. La communauté académique n’a pas non plus dit son dernier mot : « Une méthode expérimentale particulièrement pertinente pour les gros systèmes dynamiques est en plein essor : la cryomicroscopie électronique », explique Élodie Laine.
Hal-lu-cin-nant. Alors que 2024 a vu la sortie controversée d’une nouvelle version AlphaFold3 – lire notre encadré – la communauté scientifique attend encore de voir ses performances. La compétition CASP, ayant fait concourir les équipes cet été, divulguera dans quelques jours ses résultats qui seront ensuite présentés lors d’une conférence à Punta Cana début décembre – on imagine quelques chanceux qui profiteront d’un hôtel avec vue sur les lagons. AlphaFold3 sera-t-il à la hauteur ? « Certains témoignages d’hallucinations du modèle circulent, beaucoup doutent », nous confie Élodie Laine. Quel que soit le dénouement, le prix Nobel leur restera.
Open mais pas trop
Le scandale a éclaté dès la publication dans Nature en mai 2024 : Google Deepmind refusait de partager le code de sa nouvelle édition AlphaFold3 – alors qu’ils l’avaient fait pour AlphaFold2 – avec le soutien des éditeurs de la revue. « Un des reviewers a demandé que soit divulgué le code et s’est fait mettre à l’écart », a compris Élodie Laine en suivant son collègue Roland Dunbrack sur X. Choquée par la différence de traitement entre les chercheurs académiques forcés à l’open science et le géant du numérique qu’on en exempte, la Française a donc signé une lettre ouverte destinée aux éditeurs de Nature. Cible de la polémique, Google Deepmind avait alors promis d’ouvrir le capot dans un délai de six mois. Et la promesse a été tenue : le code a été partagé sur GitHub le 11 novembre. Mais (car il y a comme souvent un mais), son utilisation est restreinte à des usages non commerciaux et certaines informations ne seront divulguées qu’aux chercheurs académiques sur demande, comme l’explique Nature dans sa partie magazine. Il faut dire que les enjeux financiers sont de taille : « L’industrie pharmaceutique peine depuis 20 ans à découvrir de nouvelles molécules, pour lesquelles les tests cliniques sont longs et coûteux », rappelle l’historien des sciences Alexandre Hocquet. Il y a donc de grandes chances pour que Google Deepmind et Isomorphic Labs, autre filiale de Google spécialisée dans la découverte de nouveaux médicaments, cherchent à vendre à prix d’or leur nouvel outil dans un contexte où les tentatives de reproduire le code de manière transparente se multiplient – OpenFold Consortium en est un exemple.