dimanche 30 janvier 2011

Les nouveaux dangers de la bibliométrie

Une prépublication récente de Douglas N. Arnold et Kristine K. Fowler porte le titre évocateur de "Nefarious numbers", et apporte de nouveaux arguments à ceux qui luttent contre les utilisations abusives d'outils bibliométriques pour l'évaluation des chercheurs, des journaux scientifiques, et des institutions. D. Arnold est un spécialiste des mathématiques appliquées, K. Fowler une documentaliste spécialisée en mathématiques. Leur article contient trois types d'arguments.


Ils s'intéressent d'abord aux "impacts facteurs" des journaux. Il faut savoir que la réputation des journaux scientifiques dépend aujourd'hui largement de leur "Impact Factor" (IF), défini comme le nombre moyen de citations aux articles qu'ils publient dans les deux ans après la publication. Un journal dont l'IF est important est considéré comme particulièrement influent. Or les auteurs donnent plusieurs exemples très précis de journaux médiocres dont les éditeurs ont réussi à "tricher", par exemple en demandant aux auteurs de citer spécifiquement et largement d'autres articles parus dans le même journal, pour arriver à obtenir des IF très élevés. Ces journaux peuvent donc passer pour excellent auprès d'observateurs mal informés, par exemple des gestionnaires de haut niveau de la recherche qui connaissent nécessairement mal l'ensemble des journaux de telle ou telle discipline.

Les indicateurs bibliométriques sont utilisés non seulement pour évaluer l'importance des journaux, mais aussi, de plus en plus, pour mesurer la "qualité" des chercheurs. Le nombre de citations que reçoivent leurs articles est souvent utilisé (abusivement) comme une mesure de l'importance de leurs contributions. Or Douglas et Fowler montrent, à nouveau par des exemples très précis, qu'il est facile pour un chercheur peu scrupuleux d'utiliser une position de pouvoir (par exemple éditeur d'un journal) pour obtenir un nombre de citations considérable, qui peut le faire passer pour l'un des leaders de sa discipline alors que ses travaux n'ont qu'un intérêt médiocre.

Au-delà de ces exemples de tricheries manifestes, Arnold et Fowler montrent que, dans le domaine des mathématiques appliquées, l'Impact Factor n'est qu'une indication très imparfaite de la qualité des journaux, ou du moins qui n'est qu'imparfaitement corrélée avec les évaluations d'experts humains. Ils le font en comparant les IF de l'ensemble des journaux de mathématiques appliquées dont l'IF est connu avec la classification que leur ont attribué l'organisme d'évaluation de la recherche australien (ERA). Les graphes qu'ils donnent sont impressionnants.

On ne peut que constater la justesse des remarques de Douglas et Fowler, et même aller au-delà. Les exemples qu'ils donnent sont des tricheries caractérisées, grossières et relativement faciles à repérer. Mais au-delà on constate de plus en plus souvent des petites manipulations plus subtiles dont le résultat est d'influencer, souvent efficacement, les indicateurs bibliométriques.

C'est vrai au niveau des individus. On peut citer l'exemple d'un chercheur tout à fait respectable, mais travaillant dans un pays où les indicateurs bibliométriques jouent un rôle important, habitué, depuis plusieurs années, à écrire systématiquement aux auteurs de prépublications proches de son domaine de recherche pour leur suggérer, poliment, d'ajouter une ou deux citations à ses propres travaux. Le résultat est évidemment un nombre de citations impressionnant.

Pour les journaux, il existe des moyens plus subtils d'augmenter artificiellement l'Impact Factor. L'un des plus simple est de décaler leur date de publication : les articles sont publiés sur le site internet du journal plusieurs mois avant la date officielle de sortie du numéro où ils paraissent. Les citations qu'ilss'attirent peuvent donc "compter" pour le calcul de l'IF non pas seulement pendant les 2 ans pendant lesquels l'IF est mesuré, mais pendant quelques mois de plus. C'est particulièrement important pour les disciplines (comme les mathématiques) où le nombre de citations tend à augmenter nettement pendant plusieurs années après la publication.

Enfin on constate des manipulations au niveau des institutions. Dans certains domaines, on constate une certaine obsession pour les classements entre départements, généralement basés sur des données bibliométriques. Il est alors tentant pour un département de "tricher" pour améliorer ses indices. L'un des moyens les plus efficaces pour cela est de donner à ses chercheurs des incitations directes à publier dans telle ou telle liste de journaux, par exemple par des primes dépendant du nombre de publications dans ces journaux. Il s'ensuit une hausse mécanique et importante du nombre de publications, et donc des indices correspondants, sans que la recherche produite soit meilleure pour autant.

Au-delà de ces médiocres manipulations, il faut rappeler que l'évaluation bibliométrique des chercheurs ou des départements souffre de défauts profonds. L'un est qu'il existe des biais considérables entre disciplines : une citation en biologie cellulaire n'a absolument pas la même signification qu'en histoire, et dans une même discipline, des biais considérables existent, par exemple entre la théorie des nombre et l'analyse appliquée. L'autre est que les évaluations bibliométriques individuelles donnent des incitations perverses aux chercheurs, qui risquent de négliger les recherches profondes et parfois difficiles à publier et peu lues à court terme, pour se concentrer sur des publications rapides dans journaux à fort impact et sur la publicité de leurs travaux pour augmenter le nombre de leurs citations. Ce n'est pas comme ça que peut se faire la bonne recherche.

Il ne faut pas pour autant refuser toute utilisation de données bibliométriques, bien au contraire ; dans certains cas elles fournissent des indications utiles, par exemple pour comparer les productions de départements dans une discipline donnée, ou pour suivre l'évolution de la production scientifique d'un pays. C'est un outil utile (mais d'utilisation délicate) de politique scientifique. Ca peut être un outil utile aussi pour contrôler a posteriori un ensemble d'évaluations individuelles, et identifier les cas où des dysfonctionnements majeurs se produisent. Par contre, pour l'évaluation individuelle des chercheurs, on peut penser que l'utilisation d'outils bibliométriques présente plus de dangers que d'avantages et que les experts scientifiques, capables de lire les articles et d'évaluer la valeur de leur contenu, devraient toujours être privilégiés.



Quelques références pour aller plus loin.

2 commentaires:

  1. enfin de compte ceci doit bien arranger quelques un, car n'es pas à quoi certain de nos décidant voulait y arriver à tout prix c-à-d "Quantifier le travaille du chercheur" même au dépend de la recherche en le réduisant au simple rapport
    (publications/total de publication) x facteur = prime (ironique :) )

    on finira par tendre vers le monde des journalistes, là ou un bon article ça se déniche (stars ou paria a vous de choisir)

    RépondreSupprimer
  2. Une idee, assez naturelle, mais que j'ai jamais vu nulle part (?) ponderer par les citations IF etc. par les citations IF des articles qui citent. Je veux dire faire quelque chose d'un peu recursif, sur le principe "etre cite par un article mal cite rapporte moins". Ca arrangerrait pas mal de choses, mais j'imagine c'est assez dur de mettre en place, beaucoup de calculs etc.

    RépondreSupprimer