Peut-on se passer du Web of Science ?

De nombreux établissements dépendent d’onéreuses bases de données pour piloter leur recherche. Des pionniers travaillent aujourd’hui à les remplacer par des solutions “open”.

— Le 9 février 2024

« Beaucoup pensaient qu’il n’y avait pas d’alternative, nous venons de démontrer l’inverse », affirme fièrement Ludo Waltman, directeur du Centre for Science and Technology Studies (CWTS), qui a publié le 31 janvier 2024 une nouvelle version open du classement de Leiden. Entièrement basé sur des données ouvertes, il reproduit avec succès les résultats de l’édition 2023, utilisant elle les données payantes de Web of Science. « Avant, les universités demandaient les données pour vérifier nos calculs mais nous ne pouvions pas leur communiquer », explique le chercheur en bibliométrie. Aujourd’hui, tout un chacun peut y avoir accès grâce à la base de données OpenAlex – du nom de la célèbre bibliothèque d’Alexandrie – un registre transparent de l’ensemble des productions scientifiques mondiales, toutes disciplines confondues. 

« Il est quand même aberrant que les universités ne puissent pas piloter la recherche et ses publications sans passer par des outils propriétaires »

Anne-Catherine Fritzinger, Sorbonne Université

Small bang. Promise depuis plusieurs mois, cette sortie est une petite déflagration dans le monde des bibliothèques. Ces dernières se questionnent : les établissements de recherche pourraient-ils à terme se passer des coûteuses bases de données détenues par les géants de l’édition scientifique et dont les deux plus grosses répondent au nom de Web of Science (Clarivate) ou Scopus (Elsevier) ? Sorbonne Université a donné le coup de semonce fin 2023  en ne renouvelant pas son abonnement à Clarivate pour cette année. Une décision empreinte de « courage politique » qui est « bien plus qu’un désabonnement à Web of Science », affirme Anne-Catherine Fritzinger, directrice générale des services adjointe en charge de la diffusion des savoirs et conseillère science ouverte à Sorbonne Université. 

Argent rouage. Les raisons ? En premier lieu, le coût : « Les 50 000 euros annuels auraient plus que doublé en 2024 car nous aurions dû souscrire à une nouvelle option pour les mêmes usages. » En second lieu, la qualité des données n’était pas toujours au rendez-vous. Très pensée “sciences dures”, Web of Science – WoS pour les intimes – recense mal les monographies et les productions francophones, courantes en sciences humaines et sociales. On pourrait en dire de même de Scopus, rappelez-vous notre analyse. De plus, de nombreuses erreurs se glissaient dans les affiliations : imaginez la confusion d’un étranger au système français devant tous les établissements nommés Sorbonne… Ces erreurs obligeaient les personnels en charge de la bibliométrie à passer un temps non négligeable pour corriger, encore et encore au fil des mises à jour, une base de données dont l’accès, bien verrouillé, leur était ensuite facturé.

« L’engagement du CNRS pour la science ouverte passe par un désengagement des outils propriétaires »

Alain Schuhl

Planètes alignées. Pour beaucoup, c’est en effet une histoire de principe : « Il est quand même aberrant que les universités ne puissent pas piloter la recherche et ses publications sans passer par des outils propriétaires », martèle Anne-Catherine Fritzinger. Au printemps 2023, agacée par le refus du géant américain Clarivate de leur donner accès à l’un de leurs services dans le cadre d’une collaboration, la bibliothécaire le lance comme une boutade : et si l’on arrêtait de payer de tels outils ? Six mois plus tard, l’idée a fait son chemin, les alternatives explorées et le contact pris avec OpenAlex. Alors que fin 2023 sont menées les négociations pour l’ensemble des établissements français par le consortium Couperin, sur fond d’augmentation des tarifs, la présidence de Sorbonne U est convaincue : elle ne signera pas pour trois ans de plus. 

Redéploiement. « La communauté n’était pas encore prête », estime Alain Schuhl, Directeur général délégué à la science au CNRS. L’organisme n’a pas encore osé se désabonner de Web of Science mais a franchi un premier pas, comme annoncé dans leur communiqué début janvier, en arrêtant de payer Scopus, la base détenue par Elsevier : « L’engagement du CNRS pour la science ouverte passe par un désengagement des outils propriétaires, au profit de bases libres et gratuites ». Des bases vertueuses en opposition à leur homologues commerciales qui gardent au secret les obscurs algorithmes permettant de gérer leurs données. Les 500 000 euros économisés seront investis dans le soutien à des solutions alternatives telles que OpenAlex, Dimensions, Crossref… (on mentionnait les deux derniers dans notre analyse sur les fraudes à la citation

« Le CNRS utilise encore largement Web of Science pour analyser la production scientifique à une plus grande échelle »

Alain Schuhl

Trous et raquette. Car les besoins sont toujours là, notamment dans l’évaluation de la recherche : « Le CNRS a donné un gros coup de frein sur l’utilisation d’indicateurs quantitatifs pour l’évaluation des chercheurs à l’échelle individuelle, explique Alain Schuhl, mais utilise encore largement Web of Science pour analyser la production scientifique à une plus grande échelle, celle issue des collaborations avec des universités à l’international par exemple ». Or la base propriétaire de Clarivate est loin d’être parfaite : outre le manque de données en SHS souligné par Sorbonne U, les travaux en informatique sont également mal indexés car publiés dans des comptes-rendus de conférences (les fameux proceedings en anglais) et non dans des revues classiques. 

Open bon cœur. Des défauts que comptent bien gommer les fondateurs d’OpenAlex : « La nouvelle édition open du classement de Leiden a été l’occasion de collaborer étroitement avec le CWTS pour d’améliorer nos données », explique Kyle Demes, vice-président de OurResearch qui développe OpenAlex depuis 2022 – pour la petite histoire, ils sont partis de la base de données Microsoft Academic Graph abandonnée par le géant du même nom. À but non lucratif, l’entreprise OurResearch avec ses sept employés tourne grâce à des financements caritatifs – la fondation britannique Arcadia leur avait versé plus de quatre millions de dollars en 2021 – et des services payants sur les outils qu’ils développent en open source. Unpaywall, qui vous renvoie à une version open d’un article et dont on vous parlait ici, en est un exemple.

« La qualité des données [d’OpenAlex] n’est pas encore au niveau des bases commerciales mais beaucoup de progrès ont été faits ces dernières années »

Ludo Waltman, Leiden

Du temps au temps. « La qualité des données n’est pas encore au niveau des bases commerciales comme Web of Science mais beaucoup de progrès ont été faits ces dernières années et OpenAlex va continuer à s’améliorer », explique, confiant, Ludo Waltman. Avant de rappeler que les erreurs d’affiliation ont toujours été légion au sein des bases payantes, particulièrement pour les universités françaises spécialistes des changements de nom ou de noms similaires. Pour sa “défense”, Kyle Demes pointe le volume important de métadonnées disponible sur OpenAlex, qui recense plus de 248 millions de documents – bien plus que les 90 millions annoncés par WoS. Un beau potentiel donc pour cette base qui couvre avec succès les domaines des SHS mais pêche encore sur les profils d’auteur. 

H/F, mode d’emploi. En effet, si le classement de Leiden repose sur l’identification des établissements et donc sur les affiliations, un classement comme celui des Highly Cited Researchers a lui besoin d’une identification fine des auteurs. Avec des homonymes en veux-tu en voilà, la Chine arrive bien évidemment en tête du podium des confusions. Comment suivre un auteur à travers son parcours et ses différentes affiliations ? À Leiden et chez OurResearch, la solution serait du côté du Research Organization Registry (ROR), un registre qui recense plus de 100 000 institutions et collabore actuellement avec CrossRef. Dernier détail qui n’a pas échappé à certains observateurs : le genre est passé à la trappe pour l’édition open de Leiden. Ce que Ludo Waltman reconnaît : « Déduire le genre des auteurs est un défi que nous avons décidé de ne pas prioriser. »

« Ouvrir son code source est un peu effrayant »

Kyle Demes, OpenAlex

Fin d’un temps ? Sommes-nous à un point de bascule qui signera la fin de la dépendance aux bases commerciales ? Sorbonne U témoigne d’un soutien à l’international, encore timide en France : « Les autres établissements ont signé pour trois ans mais si nous arrivons à leur prouver qu’on peut faire sans, ils ne renouvelleront peut-être pas à la prochaine échéance », présume Anne-Catherine Fritzinger. Pour le CNRS, la trajectoire est claire : « Tout a un coût, estime Alain Schuhl. Et autant le CNRS a refusé de collaborer avec Web of Science, autant il est prêt aujourd’hui à soutenir financièrement des outils en open source et open access, comme il soutient les revues diamant ».

Ce qui reste. Outre-Atlantique, les collaborations en cours et à venir, institutionnelles ou individuelles, autour d’OpenAlex suscitent l’enthousiasme : « Ouvrir son code source [celui qui fait tourner la base de données, NDLR] est un peu effrayant mais tellement satisfaisant lorsqu’un doctorant de l’autre bout du monde vient nous suggérer une amélioration », témoigne Kyle Demes. Du côté de Leiden, Ludo Waltman prévoit une transition complète vers des bases de données ouvertes dans les années à venir : « Nous voulons comparer les deux classements durant les deux prochaines années mais ensuite, OpenAlex devrait être assez robuste pour qu’on puisse se passer des bases commerciales. » À bon entendeur !

NB : Contactée par nos soins, l’entreprise Clarivate a préféré ne pas s’exprimer sur le sujet. 

Et votre liste pour le Hcéres dans tout ça ?

Bien que le tweet du Directeur général délégué à la science Alain Schuhl sur le désabonnement du CNRS à Scopus – un 1er janvier à 9h45 – ait suscité beaucoup de réactions positives, il a aussi éveillé quelques craintes. « Miser sur l’open est très bien mais comment fait-on durant la transition ? », s’interroge Simon Gascoin, chercheur au Centre d’études spatiales de la biosphère à Toulouse. Celui-ci utilisait Scopus pour dresser des listes exhaustives des productions scientifiques demandées lors des évaluations Hcéres mais aussi effectuer une veille scientifique au sein de son institut : « Scopus identifiait comme institution notre labo, ce qui permettait une requête massive des publications en un clic. » La plateforme HAL, plébiscitée par le CNRS et d’autres organismes, ne fait pas son bonheur : « Seule environ la moitié des publications du laboratoire sont sur HAL car le Cnes [une des tutelles du labo, NDLR] ne demande pas à ses chercheurs de l’utiliser. » Alain Schuhl affirme de son côté vouloir accompagner les chercheurs : « Nous avons branché ceux qui se plaignaient sur OpenAlex. Ils sont ravis ! »

À lire aussi dans TheMetaNews

Quand ChatGPT tient la plume

Écrire vos publis avec l’aide de ChatGPT ? Certains jetteront des regards outrés mais le fait est que la pratique se répand dans la littérature scientifique. Un an et demi après le lancement de l’intelligence artificielle (IA) générative par l’entreprise OpenIA, les...

Aller au labo en vélo

Vos collègues cyclistes sont unanimes : la petite reine – un surnom du vélo qui vient de la reine des Pays-Bas Wilhelmine – a grandement amélioré leur qualité de vie. Si certains inconditionnels pédalent depuis toujours, d’autres s’y sont mis plus récemment : l’année...

La longue odyssée d’Odyssée

Aujourd’hui, en recherchant “odyssée” sur internet, la première occurrence que vous renverra Google est peut-être comme chez nous une plateforme de vidéos avec des contenus complotistes. Ce sera bientôt, si tout va bien, votre nouvelle plateforme pour candidater aux...