Quand les éditeurs vous suivent à la trace

Quand il s’agit de récolter vos données personnelles, les pratiques des éditeurs varient beaucoup. Les bibliothécaires veillent au grain.

— Le 6 juin 2025

Cet article est publié en partenariat avec l’association des responsables de l’information scientifique et technique des organismes de recherche français publics ou d’utilité publique (EPRIST) sous licence CC-BY 4.0 (voir les conditions). Image : Lianhao Qu on Unsplash

« Si c’est gratuit, c’est vous le produit ! » Le phénomène est aujourd’hui bien connu : la plupart des outils numériques que nous utilisons quotidiennement – navigateur web, moteur de recherche, boîte mail, réseaux sociaux… – récoltent nos données pour les vendre et/ou proposer de la publicité ciblée. Que les éditeurs scientifiques, dont l’accès est payé par les institutions ou via les frais de publication, puissent faire de même, serait-il possible ? En effet, ces derniers ont accès à un nombre grandissant d’informations sur leurs usagers (chercheurs ou personnels des bibliothèques/services de documentation) : Qui consulte quelle publication, quand et depuis où ? Qui review ou soumet tel article ?… Avec l’incitation de plus en plus pressante (et parfois bien pratique) de créer un compte utilisateur sur les plateformes des éditeurs, regroupant ainsi toutes ses données. Des données qui valent aujourd’hui bien plus que de l’or.

« Les bibliothèques doivent être conscientes du fait que les grands acteurs de ce domaine pistent leurs usagers »

Une étude de janvier 2024

Pirates&Cie. La révélation avait fait l’effet d’un petit électrochoc en janvier 2022 : Jonny Saunders, neuroscientifique à l’université d’Oregon, découvrait l’existence de marqueurs uniques dans les métadonnées des versions PDF des publications scientifiques, permettant de tracer qui, où et quand un utilisateur avait téléchargé l’article – il en parlait sur Twitter. Accusé de surveiller les chercheurs, Elsevier se défendait quelques jours plus tard dans les colonnes de Motherboard : c’est la librairie pirate SciHub et la mise à disposition du monde entier sans “paywall” des publications qu’ils entendaient contrer. Aucune donnée sur les chercheurs n’était collectée. Une réponse qui n’a pas totalement convaincue Jonny Saunders et qui a éveillé la méfiance d’une bonne partie de la communauté. D’autres techniques existent en effet pour pister les usagers : cookies, adresses IP, empreintes digitales d’appareils…

Pertes et profits. Sensibilisés sur ces questions, les bibliothécaires allemands avaient dès 2021 Elsevier dans le radar : RELX, maison mère d’Elsevier, n’a en effet jamais caché son activité de courtier en données. Une activité basée sur la vente de données personnelles qui génère bien plus de revenus que l’activité d’édition : filiale de RELX, LexisNexis a notamment signé des contrats avec l’agence états-unienne de police douanière et de contrôle des frontières pour plus de 172 millions de dollars. Voilà qui a créé un précédent dans le monde académique : « les grands éditeurs ont mis un nouveau costume de super-vilains », écrivait le sociologue au CNRS Didier Torny sur son blog en 2022. Pour ce spécialiste des questions d’édition scientifique, par ailleurs très engagé dans le mouvement de la science ouverte, c’est la goutte d’eau qui a fait déborder le vase : « Les grosses maisons d’édition profitaient déjà gratuitement de notre travail, notamment en tant que reviewer, maintenant elles font en plus des bénéfices sur notre dos », nous confiait-il récemment.

« Alors que les bibliothécaires jouaient un rôle d’intermédiaire, les gros éditeurs ont maintenant construit des liens directs avec les chercheurs, possèdent leurs données (…) et peuvent les solliciter directement (…) »

Didier Torny, sociologue (CNRS)

Privé de quoi. En France, au sein du consortium Couperin qui regroupe les personnels des bibliothèques (pour les universités) et des centres de documentation (pour les organismes de recherche), quelques membres s’emparent du sujet. Marie Nikichine de l’Université de Montpellier Paul-Valéry et Thomas Porquet, ingénieur d’études au sein du consortium, publient un décryptage en janvier 2024 (disponible sur HAL) intitulé : Pistage et profilage des usagers par les grands éditeurs scientifiques : quels nouveaux enjeux pour les bibliothèques ? Se fondant sur les travaux de leurs collègues allemands, ils y mettent en avant de graves menaces sur la protection de la vie privée des chercheurs ayant recours aux ressources documentaires négociées au sein du consortium : « Les bibliothèques doivent donc être conscientes du fait que les grands acteurs de ce domaine pistent leurs usagers de la même manière que les plateformes de vente en ligne, les sites d’information et les réseaux sociaux. » 

Des zéros et des hommes. Il faut dire qu’une transformation en profondeur s’est opérée depuis l’arrivée du numérique dans le monde de l’édition scientifique. Lors d’un colloque organisé par Couperin en mars 2025, Didier Torny analysait le phénomène : avant, les utilisateurs se rendaient à la bibliothèque pour consulter, et éventuellement emprunter, des livres physiques. Aujourd’hui, les bibliothèques achètent l’accès à des ressources en ligne, voire des bouquets de centaines de revues, que les chercheurs vont directement consulter sur les sites des éditeurs. « Alors que les bibliothécaires jouaient un rôle d’intermédiaire, les gros éditeurs ont maintenant construit des liens directs avec les chercheurs, possèdent leurs données (coordonnées, domaines d’expertise…) et peuvent les solliciter directement (formations, proposition d’évaluation…). »

« Le RGPD est une chance car il donne un cadre »

Marie Nikichine (Université de Montpellier Paul-Valéry / Couperin)

Comploplo ? Et les conséquences n’ont pas tardé. La dite note de Couperin décrit ainsi un changement d’orientation stratégique chez les maisons d’édition, avec la volonté de monétiser des flux de données (comme d’ailleurs plein d’acteurs du web). Sans parler des opérations de rachat menant à une concentration des acteurs de l’édition : un oligopole domine le marché mondial de l’édition scientifique – dont Elsevier, Wiley et Springer Nature, relire notre analyse sur l’action en justice intentée par des chercheurs états-uniens à leur encontre. Un joyeux mélange des genres entre activités éditoriales et surveillance des chercheurs ? Les implications restent encore floues. Dans cette masse de données, les chercheurs sont-ils surveillés individuellement ? « Est-ce complotiste ou parano de l’imaginer ? » s’interroge Didier Torny. Une chose est sûre : « On ne peut plus envisager les éditeurs comme il y a 15 ou 20 ans », alerte Marie Nikichine, également docteure en histoire.

Que faire ? Première étape pour les bibliothécaires : informer et former à ces sujets, et en premier lieu leurs collègues qui négocient ou signent les contrats avec les éditeurs. Ces détails qui n’en sont pas vraiment figurent souvent dans les petits caractères de la section « politiques de confidentialité » ou dans un document carrément à côté du contrat. « Une expertise particulière est nécessaire », témoigne Marie Nikichine, à la tête du pôle logiciel au sein de Couperin. Mais les utilisateurs, en première ligne, doivent également se saisir du sujet. Une des actions possibles (voir l’encadré pour les autres) : demander aux éditeurs les données stockées vous concernant : date et lieu de connexion, type de recherche effectuée sur leur site, publications consultées ou manuscrit reviewés. Les éditeurs sont tenus de vous les fournir. « Le RGPD [Règlement général sur la protection des données établi au niveau européen, NDLR] est une chance car il donne un cadre », estime Marie Nikichine.

« Il n’existe pas à l’heure actuelle d’étude académique sur les habitudes de recherche bibliographique des chercheurs »

Didier Torny, sociologue (CNRS)

Qui est Tim ? Demander aux éditeurs ses données personnelles, Didier Torny l’a fait – il le présentait lors du Printemps Couperin en mars dernier. Le 18 février 2025, il a, non sans quelques difficultés, envoyé ses requêtes à quatre maisons d’édition : Elsevier, Springer Nature, Wiley et Taylor & Francis. Les deux dernières n’ont pas – ou presque – donné suite. La surprise est venue de Springer Nature. Un certain Tim lui a répondu en substance qu’il devait contacter les revues une par une et centraliser les données à lui fournir. « Si chaque chercheur se met à demander ses données personnelles, le pauvre Tim va être submergé », plaisantait Didier Torny. Elsevier, en revanche, a réagi promptement et lui a envoyé un fichier prêt à être utilisé dans une base de données. Ironie de l’histoire : c’est la maison d’édition épinglée pour ses pratiques en termes de confidentialité qui répond le plus vite aux exigences du RGPD…

Vivons cachés. La solution, selon le sociologue ? Côté chercheurs, boycotter les grosses maisons d’édition. Côté éditeur, mettre en place des plateformes ouvertes où aucun identifiant n’est nécessaire. Voici pour l’option radicale. Une version réformiste consisterait à mettre en place des clauses de contrat et une architecture technique afin que les données, anonymisées, restent aux mains des bibliothèques. Une démarche potentiellement fructueuse également au niveau scientifique  : « Il n’existe pas à l’heure actuelle d’étude académique sur les habitudes de recherche bibliographique des chercheurs, tout simplement car les données sont privées », regrette le chercheur. Didier Torny prend comme exemple le moteur de recherche Matilda, développé par ses soins comme une alternative ouverte à Google Scholar. Une question centrale a guidé le projet : offrir des services aux utilisateurs sans les identifier ni les tracer.

« Les négociations commerciales sont importantes mais les clauses juridiques, notamment sur les données d’usage, le sont tout autant »

Christine Weil-Miko (CNRS / Couperin)

Cookies or not cookie. Les bibliothécaires commencent à mettre le sujet sur la table lors des négociations avec les maisons d’édition. Dans sa lettre de cadrage, le consortium Couperin affiche ainsi ses exigences : les fournisseurs doivent s’engager à respecter la législation, dont le RGPD, ainsi que les recommandations de la Cnil (Commission nationale de l’informatique et des libertés). La licence type proposée par Couperin restreint quant à elle le transfert des données à caractère personnel à des sous-traitants présentant les mêmes garanties. Couperin recommande même d’aller plus loin : que les fournisseurs de contenus ou de services désactivent « tous les systèmes de collecte, d’analyse, de profilage et d’agrégation de données présents (…) à des fins de profilage ». À l’exception bien entendu des statistiques d’usages dont les bibliothèques ont besoin pour juger de la pertinence d’un abonnement. 

Et en pratique ? Les négociations avec Elsevier entamées début 2024 ont débouché en avril sur la signature d’un accord national de lecture et publication de quatre ans pour la modique somme de 33 millions d’euros – nous vous en parlions. Pour Christine Weil-Miko (CNRS) qui a mené les discussions avec Elsevier et d’autres éditeurs, « les négociations commerciales sont importantes mais les clauses juridiques, notamment sur les données d’usage, le sont tout autant. » L’objectif étant de protéger les utilisateurs, pas toujours conscients des enjeux. Arrivant à la table des négociations avec une équipe juridique conséquente, Elsevier semblait en revanche bien au fait du cadre légal. Si la maison d’édition était prête à donner des garanties, elle n’était pas forcément disposée à aller plus loin que ce que la loi l’oblige à faire (les termes du contrat sont accessibles ici). Marie Nikichine est réaliste : « la question des données d’usage n’empêche actuellement pas les établissements de signer les contrats, l’asymétrie dans les rapports de force est trop grande. » Mais la mention du respect du RGPD représente déjà une avancée en tant que telle, sur la voie des plus grandes victoires obtenues par les bibliothécaires allemands ou néerlandais.

« Chaque négociation permet d’obtenir des avancées progressives dans le domaine de la protection des données des utilisateurs »

Marie Nikichine (Université de Montpellier Paul-Valéry / Couperin)

Scouts toujours. Un groupe de travail “Pistage” existe désormais au sein du consortium Couperin afin d’outiller les négociateurs, expliquait Marie Nikichine lors du printemps Couperin. Leur est notamment mis à disposition un questionnaire à faire remplir aux éditeurs comportant une dizaine de questions : la mise en place d’une politique de RGPD conforme, l’existence d’une bannière claire pour informer les utilisateurs et recueillir leur consentement sur les cookies, la liste des partenaires qui auront accès aux données… Trois axes sont au programme de leur prochaine feuille de route : identifier précisément les mécanismes de pistage à l’oeuvre sur certaines plateformes francophones, évaluer le degré de protection prévu dans les contrats en vigueur et enfin comprendre pourquoi ces enjeux de vie privée restent encore méconnus des chercheurs et passent encore trop souvent au second plan dans les négociations. Marie Nikichine reste optimiste : « Chaque négociation permet d’obtenir des avancées progressives dans le domaine de la protection des données des utilisateurs. » 

Chercheurs, que pouvez-vous faire ?

Voici quelques conseils pour les chercheurs, concoctés par l’institution de recherche allemande Forschungszentrum Jülich (qui au passage détaille les clauses de ses contrats avec Elsevier, Wiley et Springer Nature) :

  • choisir une licence CC-BY pour ses productions scientifiques
  • cliquer sur le bouton « seulement les cookies essentiels » quand des bannières apparaissent sur les sites des éditeurs
  • lire les règlements des éditeurs (ce n’est pas la partie la plus fun, on vous l’accorde)
  • demander aux éditeurs quelles informations stockent-ils sur vous (voir l’exemple plus haut de Didier Torny)
  • éventuellement porter plainte si leurs pratiques ne sont pas en conformité avec le RGPD

À lire aussi dans TheMetaNews

Science et politique, bientôt l’heure des slows ?

Depuis quelques années, les liens entre science, société et politique semblent s’être fragilisés. Les attaques de Donald Trump depuis sa réélection à la présidence des États-Unis n’en sont que l’exemple le plus récent. Les scientifiques sont de plus en plus nombreux à...

Les jeunes docteurs sur l’autel des économies

C’est une décision budgétaire lourde de conséquences. Fin janvier 2025, le dispositif « Jeunes Docteurs » intégré au Crédit d’Impôt Recherche (CIR) a été supprimé dans le projet de loi de finances (PLF) 2025. Sa suppression, présentée comme une mesure d’économie, a...

Hcéres, ton univers impitoyable

Le ressentiment contre les évaluations menées par le Hcéres n’est pas vraiment une nouveauté dans la communauté scientifique. À chaque vague, sa polémique. Ainsi en 2022, celles de la C — passant en revue les entités du Centre de la France, de l’Est, du Sud-Est, ainsi...