Grenoble, 26 juin 2024. Une vingtaine d’économistes se retrouvent par une journée ensoleillée sur le campus de Saint Martin d’Hères. Pas pour un énième séminaire mais pour une activité d’un genre nouveau : tenter de répliquer des résultats publiés dans des revues prestigieuses. Chapeautée par l’Institute for Replication (I4R), une initiative internationale créée en janvier 2022 par l’économiste canadien Abel Brodeur, cette édition hexagonale est organisée par un chercheur Inrae, Paolo Crosetto (qui s’intéresse également aux revues prédatrices, nous le citions dans notre analyse sur MDPI), ainsi qu’une ingénieure d’études à l’Université Grenoble Alpes, Margaux Sinceux. Avec succès : quelques jours après l’annonce de l’événement, la jauge était déjà atteinte. Doctorants et jeunes chercheurs sont venus de partout en France et même d’Europe : Italie, Suisse, Autriche, République Tchèque… Pour la plupart, elles (les femmes représentent une bonne moitié) et ils ne se connaissent pas mais vont apprendre à travailler ensemble lors de ce “hackathon de la reproductibilité”*.
« D’habitude, on est seul devant nos ordinateurs »
Valentine Schmitz
Erreur XXL. L’enjeu est de taille : consolider les savoirs et renforcer la confiance dans les sciences économiques, une discipline dont les politiques s’emparent pour dessiner leurs programmes. Si l’erreur est humaine, elle peut avoir de lourdes conséquences. Trois ans après la publication en 2010 d’un article par Carmen Reinhart et Kenneth Rogoff, deux très influents économistes d’Harvard arguant en faveur de l’austérité pour réduire la dette publique, trois autres chercheurs ont ré-analysé leurs données… et arrivent à une conclusion différente. Le mal était fait, un certain nombre de gouvernements avaient déjà mis en place leurs politiques d’austérité. À cette époque, le partage des données brutes et/ou des fichiers d’analyse n’était pas rentré dans les mœurs et tester la réplicabilité des résultats demandait une bonne dose d’abnégation. Mais, les choses changent.
Starting blocks. Aujourd’hui, « la mise à disposition des “replication package” [comprenant les données et le code d’analyse, NDLR] permet de vérifier facilement les résultats », explique Alexandros Karakostas, professeur associé à l’École supérieure des sciences commerciales d’Angers (ESSCA), qui participe à l’événement. Cette bonne pratique est de plus en plus répandue et c’est sur ce critère qu’Abel Brodeur de l’université d’Ottawa et Anna Dreber de la Stockholm School of Economics, ont sélectionné des études à répliquer à Grenoble. En amont de ces “Replication games” (une autre édition avait eu lieu à Lyon l’an dernier), les chercheurs se sont regroupés par affinités thématiques à trois ou quatre et ont choisi une publi qu’ils sont certains de pouvoir comprendre et ré-analyser ; différents langages de programmation sont utilisés en économie, notamment R et python. L’horloge indique neuf heures du matin et sur l’écran de la visio projetée au tableau de la salle de cours, Abel Brodeur – chez qui il n’est que trois heures – et Anna Dreber introduisent la journée. Une autre moitié des participants n’ayant pas pu faire le déplacement sont connectés en visio.
« Il y a un vrai manque d’incitation pour ce genre de travail »
Abel Brodeur
Ensemble, c’est tout. « C’est agréable de rencontrer des collègues et de travailler en face à face. D’habitude, on est seul devant nos ordinateurs », témoigne Valentine Schmitz, postdoctorante à l’université catholique de Lille. Après avoir fait connaissance en vrai, les chercheurs partagent leur compréhension de l’article qu’ils ont à répliquer et se répartissent les tâches : l’une teste le code, l’autre vérifie ensuite la courbe point par point. Vincent Teixeira, doctorant à l’Université de Lorraine, connaît les difficultés de l’exercice : il donne le même genre de défi à ses étudiants de master. Par chance ici, « le partage des données et du code est particulièrement bien fait dans l’article que nous avons choisi, ce n’est pas toujours le cas. » D’autres en effet râlent : le code n’est pas complet, il va falloir écrire aux auteurs. Pour éviter aux participants de s’exposer directement, Abel Brodeur récupère les demandes et les enverra aux auteurs au nom de l’I4R.
Dans la joie. Économie circulaire, nutrition, énergie, créativité, intelligence artificielle… chaque participant a son sujet de prédilection mais tous ont un point commun : ils réalisent des expériences. En effet, ces économistes testent leurs hypothèses via des sortes de jeux qu’ils conçoivent et soumettent à un panel d’utilisateurs en ligne, via des plateformes commerciales – l’une s’appelle Prolific. Choisiriez-vous trois pommes à un euro la pièce ou deux oranges à deux euros la pièce ? Et si l’on ne vous laisse que quelques secondes pour décider ? La place des fruits sur la table a-t-elle une importance ? Karl Hauser, doctorant à cheval entre Grenoble et l’Allemagne, et ses compagnons de route critiquent l’étude qu’ils ont à reproduire mais se plient à l’exercice dans la bonne humeur : « On ne s’attend pas à trouver exactement les mêmes chiffres mais l’important est de voir si l’effet qu’ils cherchent à démontrer reste significatif. »
« C’est bien écrit mais certaines conclusions vont à l’encontre de leurs résultats »
Un groupe de “réplicateurs”
Pénalités. Alexandros Karakostas et ses deux camarades de jeu, Irene Maria Buso, postdoc à Bologne, et Luisa Lore, doctorante à Innsbruck, avaient pris de l’avance en testant par avance la “reproductibilité computationnelle”, comme on dit dans le milieu. C’est-à-dire refaire tourner le code d’analyse et tenter de retrouver, ou non, les mêmes résultats : « Des chercheurs avaient déjà mis en évidence une erreur dans le code, que les auteurs disent avoir corrigée mais ils n’ont pas redéposé la bonne version. Nous allons leur demander », explique Luisa Lore. Dans leur anglais à l’accent chantant, le trio choisit la partie du papier qu’ils vont tenter de reproduire expérimentalement : « L’objectif est d’être prêt à la fin de la journée à appuyer sur le bouton pour démarrer la collecte de données ». Un budget de 2500 dollars est alloué à chaque groupe pour financer l’expérience, provenant de la chaire d’Abel Brodeur.
Qui châtie bien. « Les résultats dépendent beaucoup de la conception de l’expérience initiale », explique Luisa Lore. Abel Brodeur a insisté sur ce point durant la réunion de préparation une semaine avant l’événement : « Vous devez respecter le protocole de départ, peu importe que vous pensiez réussir à répliquer les données ou non. » Un autre groupe composé de Dimitri Dubois, ingénieur de recherche CNRS dans un labo de l’Université de Montpellier, Simon Varaine, tout juste recruté comme maître de conférences à Grenoble et Gabriel Bayle, doctorant à l’Université de Montpellier, ne peut s’empêcher de critiquer la publication qu’ils ont choisie : « C’est bien écrit mais certaines conclusions vont à l’encontre de leurs résultats, qu’ils ont un peu mis sous le tapis », estiment-ils. « Vous n’êtes pas des évaluateurs, on ne vous demande pas de faire du peer review », prévient Abel Brodeur.
« Avec ces Replications games, nous souhaitons changer les normes académiques, et rendre ça amusant »
Abel Brodeur
À la vôtre. Fin de la journée. Les participants vont pouvoir continuer de socialiser durant le cocktail de la conférence d’économie à laquelle était adossée cette journée. Au programme des semaines à venir : collecte des données, analyse et comparaison avec les résultats de la publication originale et enfin écriture d’un rapport. Signé par l’ensemble des participants, un “metapapier” rassemblant les tests de réplicabilité de chaque groupe sera publié d’ici quelques mois, similaire à celui-ci sorti en mars 2024 après une précédente session. L’opportunité pour les participants d’ajouter une publication à leur CV. « Il y a un vrai manque d’incitation pour ce genre de travail. Avec ces Replications games, nous souhaitons changer les normes académiques, et rendre ça amusant », explique Abel Brodeur. D’autres sessions sont programmées partout dans le monde, en science politique, informatique ou en psychologie. À vous d’organiser les prochains jeux en France ?
* Les termes reproductibilité et réplicabilité possédant autant de définitions que de personne qui se penchent sur la question, nous avons choisi de les utiliser de manière indifférenciée et en précisant à chaque fois s’il s’agissait de pouvoir refaire tourner le code d’analyse sur les données partagées, ou bien de réaliser une nouvelle collecte de données et de retrouver les mêmes résultats, voire les mêmes conclusions.