Sarah Cohen-Boulakia : « On publie trop et trop vite »

Professeure à l’Université Paris-Saclay et bioinformaticienne, Sarah Cohen-Boulakia est co-fondatrice du Réseau Reproductibilité et milite pour plus de transparence dans la diffusion des productions scientifiques.

— Le 13 février 2026

Est-il simple de reproduire des résultats publiés ?

Absolument pas et ce n’est pas nouveau. En tant que scientifique, nous avons tous expérimenté au moins une fois cette impossibilité, la plupart du temps par manque d’information. Il est même parfois impossible de reproduire nos propres résultats quelques mois plus tard… Nous sommes donc dans une vraie crise : une part importante des publications ne sont pas reproductibles. L’avenir n’est pas noir, néanmoins : les chercheurs peuvent en prendre conscience et se former aux bonnes pratiques pour ensuite les appliquer. 

« La présidente de l’ERC cherchait à donner moins de gages à celles et ceux qui dénigrent la science »

Sarah Cohen-Boulakia

Cette crise de la reproductibilité est partie de la psychologie – relire notre interview de l’historienne des sciences Nicole Nelson. Comment a-t-elle touché la bioinformatique ?

Avec la démocratisation de l’informatique et le développement de la science des données, tout le monde utilise des logiciels pour l’analyse, souvent avec l’a priori que l’informatique est déterministe, ce qui est faux. L’intelligence artificielle est par exemple intrinsèquement stochastique [c’est-à-dire aléatoire, car basé sur des calculs de probabilité, NDLR]. Les résultats dépendent de l’installation, de la version du logiciel utilisé, des paramètres fixés…  Aujourd’hui, beaucoup de chercheurs utilisent Python [un langage de programmation, NDLR] mais est-ce la version 3.10 ou 3.12 ? Avec quelles librairies [des routines prêtes à l’utilisation, NDLR] ? Ces détails sont importants et en informatique aussi il faut garder une trace de ce qu’on fait. On peut ainsi utiliser l’équivalent des cahiers de laboratoire – les notebooks – ou des outils faisant une sorte de photographie de la machine afin de la reproduire sur une autre. 

Récemment la présidente du European Research Council (ERC) Maria Leptin déclarait que la crise de la reproductibilité était exagérée. Qu’en pensez-vous  ?

J’étais au départ choquée par ses propos, puis j’ai compris qu’elle minimisait la crise parce que directement associée à de la fraude, de la malhonnêteté et donc à un manque d’intégrité. La présidente de l’ERC cherche donc à donner moins de gages à celles et ceux qui dénigrent la science. Je me sens en réalité alignée avec elle mais ses propos m’ont fait réaliser qu’il faut vraiment faire de très gros efforts de formation et de pédagogie pour expliquer les différentes facettes de la reproductibilité ! 

« Reproduire à l’identique a peu de sens dans certaines disciplines »

Sarah Cohen-Boulakia

La reproductibilité varie-t-elle beaucoup d’une discipline à l’autre ? 

Il existe des sciences où reproduire à l’identique a peu de sens : Maria Leptin prend les sciences sociales et biologiques comme exemples. On ne peut pas imaginer obtenir les mêmes réponses en menant des entretiens avec des personnes différentes. On ne peut pas refaire une expérience très difficile, comme cloner une plante, en suivant simplement une suite d’instructions. Dans ces domaines, l’objectif n’est pas de reproduire à l’identique mais d’arriver aux mêmes conclusions dans un contexte similaire. En lisant les propos de Maria Leptin, on retrouve l’idée la plus importante : il faut expliquer le mieux possible comment un résultat a été obtenu, rendre les plus traçables possibles les conditions de son obtention. C’est d’abord ce manque d’information qui crée la crise. On parle de crise de la reproductibilité mais en réalité c’est la transparence qui compte et qui permettra de la résoudre. Chacun a un rôle à jouer : décideurs, éditeurs, chercheurs… 

Quelles sont les solutions : mettre en ligne les données, les protocoles ? Comment faites-vous concrètement ?

Dans notre équipe, nous utilisons des données pour la plupart ouvertes, par exemple de l’Organisation mondiale de la santé ou de bases de données biologiques ouvertes – qu’on appelle “ données primaires”. Nous les analysons et les transformons pour en faire des données dites “secondaires” que nous partageons en créditant nos sources et en tenant compte des droits de ces données primaires. Nous utilisions la plateforme Zenodo pour les partager, aujourd’hui il existe des entrepôts de données très bien conçus comme Recherche Data Gouv. L’important n’est pas de partager tout son matériel en vrac dans un fichier zip où il est souvent difficile de s’y retrouver mais de documenter ses données et d’ajouter des métadonnées, pour que le lecteur puisse facilement faire la correspondance entre l’article et les données. 

« La crainte de perdre de l’avance en partageant ses données peut exister »

Sarah Cohen-Boulakia

Cela prend du temps et les chercheurs en manquent cruellement…

En effet, documenter demande un temps assez long. Il s’agit presque d’une introspection sur notre propre démarche mais c’est très utile au final. Aujourd’hui, on publie trop et trop vite. Il faudrait évaluer les chercheurs davantage sur la qualité et la transparence plutôt que sur la quantité [l’évolution est en marche mais lente, nous vous en parlions, NDLR]. La peur du “décrochage de la France” en termes de publications scientifiques terrorise beaucoup de décideurs alors que la transparence nous permettrait d’avoir des résultats plus solides et de regagner la confiance du grand public en ces temps de désinformation. 

Est-ce le seul frein au partage des données, selon vous ?

La formation est cruciale également : il faut être au courant des enjeux, des outils… C’est pourquoi le réseau de la recherche reproductible organise des webinaires et anime des ateliers qui pourraient bientôt être proposés au catalogue des formations des écoles doctorales. La crainte de perdre de l’avance en partageant ses données peut également exister, notamment dans certaines disciplines expérimentales comme en biologie ou en physique. Reconnaître davantage le travail qui a conduit à obtenir ces données pourrait grandement aider. Mais des solutions existent comme publier les métadonnées uniquement ou des données semi-ouvertes. 

« Seuls les éditeurs peuvent imposer des bonnes pratiques »

Sarah Cohen-Boulakia

Comment faire pour que ce ne soit pas juste une case à cocher ?

Le problème advient quand le suivi des bonnes pratiques est réalisé par des personnes qui ne sont pas expertes et ne peuvent pas elles-mêmes évaluer. C’est ainsi que les éditeurs demandent aux auteurs de remplir de longs formulaires dans lesquels ils promettent de partager leurs données. Une solution serait d’habituer les reviewers à porter une attention particulière à cette question et de rédiger un paragraphe dédié dans leur rapport : le code est-il en ligne ? Est-il bien documenté ? Que peut-on améliorer ?

Vous disiez que les éditeurs ont également un rôle à jouer : lequel ?

Eux seuls peuvent imposer des bonnes pratiques. Leur intérêt est souvent de publier le plus possible [pour gagner plus d’argent via les frais de publication, nous vous en parlions pas plus tard que la semaine dernière, NDLR] ou bien des articles dans la “hype” qui vont susciter beaucoup de citations. Mais j’ai l’espoir que leur saturation par des articles générés par IA va les faire réagir. J’entendais récemment l’un d’entre eux expliquer qu’il lui fallait envoyer 45 demandes de relecture pour obtenir trois réponses positives ; les collègues sont épuisés… Si l’on reviewe moins, on publie forcément moins. Je ne propose pas de revenir à l’âge de pierre mais seulement quinze ans en arrière, pour que publier retrouve plus de sens aux yeux des scientifiques. 

« Les résultats négatifs devraient être publiés au même titre que ceux qui sont concluants »

Sarah Cohen-Boulakia

Devrait-on publier ses résultats, même quand ils sont négatifs ?

La science est faite d’essais et d’erreurs. Les résultats négatifs devraient être publiés au même titre que ceux qui sont concluants car ils disent beaucoup. Au moins, devrait-on pouvoir discuter dans un article des approches qui n’ont pas été concluantes, cela aide à mieux cerner le contexte et les limites de nos travaux. Malheureusement, les reviewers nous reprochent souvent d’être trop longs… 

Les jeunes chercheurs font-ils mieux ?

Ils sont beaucoup plus sensibles à la question, en partie parce qu’ils vivent au quotidien ces problèmes de reproductibilité : certains se sont cassé les dents durant six mois en tentant de répliquer des résultats, sans succès. Ce peut être par exemple à cause d’un problème d’interprétation dans les méthodes, qui ne sont pas toujours très explicites. Lorsque j’ai présenté les enjeux de la reproductibilité à une école d’été dans mon domaine, les doctorants étaient contents de voir le sujet abordé, se sentaient entendus. Les encadrants n’ont parfois plus les mains dans le cambouis et cela peut pousser les doctorants à cacher les problèmes de reproductibilité qu’ils rencontrent. Il faut casser cette mécanique.

« L’expertise des étudiants sur la reproductibilité est appréciée au sein des équipes de recherche »

Sarah Cohen-Boulakia

Faut-il former les étudiants dès le master ?

C’est ce que nous faisons au sein de notre master Bioinformatique à Paris-Saclay sous la forme d’un “reprohackathon” : les étudiants doivent reproduire la figure d’un article. Cela demande évidemment du travail en amont : nous sélectionnons des publications pour lesquelles les données sont accessibles et en informons les auteurs [lire leur publication, NDLR]. Les étudiants se prêtent volontiers au jeu et l’expertise qu’ils acquièrent est appréciée au sein des équipes de recherche. Quel est le meilleur moment pour se former à ces enjeux ? Les réponses varient : mes collègues de l’Inserm réfléchissent quant à eux à une certification sur la reproductibilité avant de soutenir son HDR. 

Nous avions assisté à une édition des Replication games en juin 2024 à Grenoble organisée par des économistes – relire notre papier. Pourriez-vous faire de même en bioinformatique ?

Une édition a également été organisée en octobre 2025 à Inria Paris avec des participants principalement en sciences sociales. En faire une spécifiquement en bioinformatique ferait totalement sens.

À lire aussi dans TheMetaNews

« L’éduscepticisme augmente partout »

L'ESR s'agite en ce début d’année autour de la question du financement des universités et de la démographie, pourquoi une telle inquiétude ? La situation actuelle permet d’observer à quel point notre appareil de recherche s'est construit sur la démographie étudiante :...