Quand les citations jouent à cache cache

Des petits malins ont trouvé une combine pour gonfler leur nombre de citations. La liste des chercheurs les plus cités pourrait-elle en être affectée ?

— Le 26 janvier 2024

Fin limier. Guillaume Cabanac, enseignant chercheur en informatique à Toulouse, traque depuis plusieurs années les fraudes. Il a notamment mis en lumière les phrases torturées, ces expressions traduites dans une langue puis dans l’autre qui ne veulent plus rien dire et qui révèlent bien souvent un peer review défaillant voire son absence pure et simple. En mai 2022, son attention est attirée par une étrangeté. Un papier publié dans une revue de la controversée maison d’édition Hindawi – parfois considérée comme prédatrice, épinglée pour des cas de paper mills – a été cité 107 fois… alors que seulement 62 personnes avaient téléchargé le PDF. Il en fait part sur PubPeer. Comment est-il possible qu’un papier soit plus cité que téléchargé ?

« Jusqu’en 2023, on ne savait toujours pas comment ces citations étaient apparues »

Lonni Besançon

Tous pour un. Lonni Besançon, jeune chercheur également à l’affût des fraudes – notamment celles commises par Didier Raoult et consort, ce qui l’amènera devant les tribunaux –, lit son commentaire et s’empare du sujet. En consultant Google Scholar, il réalise que le nombre de citations de l’article en question n’a jamais décollé de zéro. Il avait déjà en tête que Google Scholar n’utilisait pas les mêmes données que la plupart des autres bases bibliographiques mais n’avait jamais observé d’écart aussi grand. Le chercheur en visualisation de données analyse manuellement la grosse centaine d’articles qui font supposément référence à celui publié chez Hindawi : aucun ne le cite. 

Not a bug, a feature. Pourtant, ces citations figurent bien dans la base de Dimensions, l’entreprise qui génère le petit badge multicolore indiquant le nombre de téléchargements sur le site d’Hindawi. S’agit-il en ce cas d’un bug ? Lonni Besançon et ses futurs co-auteurs contactent Crossref, l’organisme qui délivre aux revues les identifiants uniques (DOI) pour leurs publications et collecte en retour les métadonnées associées qui sont ensuite utilisées par les grandes bases bibliographiques comme Scopus, Web of Science ou Dimensions. « Jusqu’en 2023, on ne savait toujours pas comment ces citations étaient apparues, si ce n’est que ça venait probablement des revues », explique Lonni Besançon, aujourd’hui en poste à l’Université de Linköping en Suède.

« Nous avons certaines revues à l’oeil »

Ginny Hendricks, Crossref

Citations fantômes. C’est Cyril Labbé – un autre informaticien que nous interrogions aux côtés de Guillaume Cabanac sur les articles générés automatiquement – qui va leur permettre de lever le mystère. Grâce à l’analyse automatisée sur plusieurs revues, les enquêteurs découvrent quantité de références cachées qui n’apparaissent que dans les métadonnées transmises à Crossref. Ces références vont, comme par hasard, gonfler les citations de deux chercheurs en particulier : plus de 3000 pour J. Nageswara Rao et plus de 1000 pour Bhavesh Kataria, deux chercheurs en informatique affiliés à deux établissements indiens différents. Ces citations créées de toutes pièces avantagent du même coup trois revues de la maison d’édition indienne Technoscience Academy avec entre 400 et 900 citations “en extra” chacune. Des observations consignées dans un preprint composé à huit mains et déposé en octobre 2023 sur arXiv.

Pompiers. Informé par Lonni Besançon et ses co-auteurs du pot au rose, Crossref assure que les erreurs ont été corrigées. « Les revues qui nous les ont envoyées n’ont pas été révoquées mais nous les avons à l’œil », nous répond Ginny Hendricks. Le consortium Crossref emploie environ 45 personnes et regroupe 20 000 éditeurs, petits et grands : « Il faut être membre pour obtenir un DOI », explique Ginny Hendricks, qui détaille les exigences de Crossref envers ses adhérents : l’association souhaite rester  « inclusive : Le seul éditeur que nous ayons exclu est OMICS [nous vous parlions des techniques d’approches de cet éditeur prédateur, NDLR] en 2020. »

« Nous relevons les défis d’un registre scientifique de plus en plus complexe et pollué »

Clarivate

Tâche d’huile. Au-delà de ces quelques revues indiennes, combien de papiers sont concernés par ces fausses citations ? Ni Lonni Besançon et ses co-auteurs, ni Ginny Hendricks  ne le savent aujourd’hui. Alors que les premiers réfléchissent à étendre leurs investigations, les seconds cherchent à concevoir un indicateur les alertant de telles fraudes : « Crossref collecte et met à disposition des métadonnées fiables de manière ouverte afin que les chercheurs puissent s’en saisir, les analyser et proposer des indicateurs pour ensuite décider à qui faire confiance », explique Ginny Hendricks. 

Top of the pops. Quel impact sur la fameuse liste des Highly Cited Researchers (HCR) ? Alors que l’édition 2023 de Clarivate a récompensé cet automne 7000 chercheurs (voir le témoignage de l’un d’entre eux en encadré), une question doit vous titiller : certains d’entre eux ont-ils triché ? Si des erreurs sont bien présentes dans les métadonnées de Crossref, quelles conséquences sur les HCR ? Interrogé par nos soins, Clarivate botte en touche : « Nous avons fait évoluer nos politiques d’évaluation et de sélection […] afin de relever les défis d’un registre scientifique de plus en plus complexe et pollué », renvoyant au processus détaillé exposé sur leur site et dessiné par David Pendlebury sur son blog en 2022.

« Manipuler le système est plus facile en mathématiques »

Daniel Egret

À la loupe. Ce géant de la bibliométrie, qui détient entre autres la base de données Web of Science et attribue un facteur d’impact à chaque revue via son Journal Citation Reports, affirme qu’il a « un rôle à jouer face à la montée des phénomènes menaçant l’intégrité scientifique ». Au sein du Institute for Scientific Information (ISI), le think tank de Clarivate qui gère la publication des HCR, des analystes examinent les dossiers des potentiels chercheurs très cités, à l’affût notamment de taux de publication extrêmement élevé (« plusieurs publications par semaine sur de longues périodes »), d’autocitation excessive (leur méthodologie est expliquée dans ce papier publié dans Scientometrics) ou de réseaux de citations complaisants, sans oublier les phrases torturées

Tolérance zéro. « C’est la première année que Clarivate adopte une position aussi ferme », observe Daniel Egret, astrophysicien émérite et chargé de mission évaluation à l’Université Paris Sciences et Lettres (PSL). Ce dernier pointe également l’exclusion cette année de toute une catégorie, celle des mathématiques. Du jamais vu. « Les citations étant plus rares en mathématiques qu’en biologie – une dizaine plutôt qu’une centaine –, manipuler le système est facile dans cette discipline, notamment par des jeux de “je te cite, tu me cites” » – Clarivate l’explique rapidement dans sa FAQ. La chasse à la fraude de Clarivate a entraîné l’exclusion de plus de 1000 chercheurs en 2023  – le double par rapport à 2022 –, dont les identités restent inconnues. Une source d’interrogations pour Daniel Egret et pour Lauranne Chaignon, bibliomètre à PSL, qui entame un doctorat sur les chercheurs très cités.

« Le classement HCR est trop figé : il n’intègre pas bien les chercheurs entre deux champs thématiques  »

Sylvain Delzon

Simulateur. « L’objectif est de sortir de l’effet boîte noire », explique Daniel Egret. Alors que leurs homologues allemands appellent à plus de transparence sur le classement, la petite équipe de PSL déploie des efforts conséquents pour répliquer le classement des HCR à partir des bases de données de type Web of Science auxquelles leur établissement est abonné. Avec succès. Des résultats qui leur permettent de mieux comprendre quels profils de chercheurs intègrent le fameux cercle des chercheurs très cités, à quel seuil en termes de citation et pourquoi certains en sortent.

Entre deux chaises. « Le classement HCR est trop figé : il n’intègre pas bien les chercheurs entre deux champs thématiques », explique Sylvain Delzon, chercheur Inrae à l’interface entre écologie et plant science. Classé quatre ans de suite dans la catégorie Plant & Animal Science puis dans l’interdisciplinaire Cross-field, il n’est plus HCR depuis cette année : « La catégorie Cross-field est beaucoup plus compétitive. » L’Université de Bordeaux, qui est son affiliation principale sur ses papiers (vous connaissez certainement ce jeu dans les UMR), perdra quelques points au classement de Shanghai. 

« Le “crime” profite aux revues prédatrices mais aussi aux institutions »

Lauranne Chaignon

Inspecteur dérives. Mais revenons aux fraudes. En comparant leur version du classement avec celle nettoyée des soupçons de méconduites par Clarivate, Lauranne Chaignon compte étudier des profils de chercheurs qui en sont exclus au nom de l’intégrité scientifique. Qui sont-ils et dans quelles conditions trichent-ils ? « Au-delà des dérives individuelles de chercheurs qui peuvent y gagner financièrement et dans leur carrière, le “crime” profite aux revues prédatrices mais aussi aux institutions qui veulent monter dans le classement de Shanghai… l’écosystème est très intriqué », résume-t-elle. Rendez-vous dans trois ans.

Impressions d’un néo-HCR

Marc Robert s’en doutait depuis la réception en septembre d’un email confidentiel provenant de Clarivate, la société publiant chaque année le classement des Highly cited researchers (HCR). Croyant d’abord à un spam, il avait failli mettre à la corbeille le courriel l’invitant à confirmer ses affiliations suite à sa « pré-sélection ». Ce n’est que le jour de la publication du classement des HCR, le 15 novembre 2023, que ses doutes furent levés : ce professeur de chimie à l’Université Paris Cité entrait dans la liste des chercheurs les plus cités du monde qui représentent environ un pour mille de la communauté. « Je n’ai jamais cherché à y être mais une telle reconnaissance est toujours plaisante », commente Marc Robert. Pour le chimiste, cette véritable « distinction internationale » valide un travail de long terme – il faut être bien cité sur les dix dernières années –, met en valeur le travail d’équipe et augmente sa visibilité. Être HCR ne serait pas une pression supplémentaire mais au contraire « un encouragement à travailler dans le même esprit, avec rigueur ». Une déontologie que malheureusement tous n’ont pas ou que la pression à la citation en a détourné.

À lire aussi dans TheMetaNews

Quand les chercheurs jouent les prolongations

Vous avez certainement un émérite dans votre entourage professionnel. Leur population n’a été toutefois que très peu étudiée. Une enquête de 2018, réalisée par le réseau des vice-présidents Recherche, dépendant de France Universités, auprès d'une quarantaine...

Femmes et maths : vers un amour réciproque ?

Image extraite du Théorème de Marguerite montrant une doctorante en mathématiques aux prises avec de nombreux défis personnels… et académiques – relire l'interview de la réalisatrice Anna Novion. Depuis vingt ans, c’est l’encéphalogramme plat : la proportion de femmes...

Peut-on se passer du Web of Science ?

« Beaucoup pensaient qu’il n’y avait pas d’alternative, nous venons de démontrer l’inverse », affirme fièrement Ludo Waltman, directeur du Centre for Science and Technology Studies (CWTS), qui a publié le 31 janvier 2024 une nouvelle version open du classement de...