Par Thomas JOUNEAU (Université de Lorraine, Direction de la Documentation et de l’Edition, Bibliothèque Numérique) et Thomas PORQUET (Département Services et Prospective, Consortium Couperin).
Tous ceux qui ont eu un jour à se pencher sur les statistiques d’accès à la documentation numérique le savent : rien n’est plus délicat à manipuler que des chiffres ou des ratios qui, derrière leur apparente objectivité, posent des questions méthodologiques importantes.
Un professionnel averti en valant deux, cet article se donne pour objectif de contribuer à clarifier un peu ce qu’il est possible de faire avec ces chiffres, avec quelles limitations, et de dresser un tableau modeste des évolutions récentes et (espérons-le) à venir.
Quantifier : quoi, comment, avec quelles limites ?
Pour rappel, deux jeux de documents dominent aujourd’hui la mesure de l’usage électronique.
Le premier, peu connu et utilisé (la barrière d’accès payante n’y étant sans doute pas pour rien), est constitué par les normes ISO et AFNOR ; en particulier les normes ISO 2789 (définissant les données), 11620 (définissant une méthode de détermination d’indicateurs), et 16439 (plus récente et proposant une mesure de l’impact).
Le second, beaucoup plus connu et pratiqué puisqu’il est suivi par les plus gros éditeurs académiques de la place, est bien entendu le Code de bonnes pratiques COUNTER (ci-dessous “Code COUNTER”) créé en 2003. Sa version 5, la plus récente et devenue obligatoire depuis janvier 2019, apporte un grand nombre de changements sur lesquels nous reviendrons dans la seconde partie de cet article. Rappelons déjà les grands principes de cette “norme” ou plutôt recommandation (l’anglais n’étant pas très précis sur cette terminologie[1]) :
- une méthode de comptage unifiée qui, tout en offrant une certaine liberté d’implémentation aux éditeurs, donne des précisions techniques propres à éviter, par exemple (souvent cité), le comptage des “doubles clics” ;
- des catégories délimitées de contenus, qui se retrouvent dans les différents rapports ;
- et des rapports à la présentation homogène permettant aux bibliothèques d’avoir une vue aussi complète que possible sur l’usage de ses abonnements.
Elle est complétée depuis 2008 de la norme SUSHI permettant le moissonnage automatisé des rapports. Cette norme a été intégrée directement à la version 4 de COUNTER, son implémentation étant depuis obligatoire pour être reconnue conforme.
Ces référentiels (normes ISO, code COUNTER) informent en théorie les outils d’évaluation tels que les grandes enquêtes nationales ESGBU et ERE. C’est dans cet environnement que, lors de sa création en 2010, le groupe de travail “Statistiques d’usage” GTSU de Couperin (devenu depuis groupe de travail Indicateurs, GTI) avait rappelé ou contribué à identifier un certain nombre de limitations (apparemment) infranchissables, dont on peut dresser ici une liste des éléments les plus notables.
Premier écueil : que compte-t-on?
C’est sans doute évident mais il faut le rappeler : ce que l’on compte dans les rapports COUNTER (quelle qu’en soit la version) n’est pas un ensemble d’articles ou de livres (ou de vidéos…), mais une somme de requêtes réussies; c’est à dire un nombre de transactions informatiques entre le navigateur du lecteur et le serveur de l’éditeur. Une requête réussie représente l’affichage d’une page ou le téléchargement d’un fichier. Si un chercheur A préfère télécharger l’article en PDF sur le site de l’éditeur à chaque fois qu’il souhaite le consulter ; cependant qu’un chercheur B télécharge une seule fois un article, le stocke sur son disque dur puis ne consulte plus que cette copie locale ; le résultat du rapport ne sera évidemment pas le même. Il ne sera toutefois pas possible de distinguer les deux (on n’a pas la notion d’individu distinct dans un rapport COUNTER, seulement celui d’établissement) ni même de savoir que le second usage a eu lieu (puisqu’il est local). Dominique Rouger proposait il y a dix ans déjà [2], d’imaginer un comptage idéal de l’utilisation par “couples” chercheur-article, tout en constatant l’impossibilité technique et légale d’y parvenir. Dans cet ordre d’idée et en attendant de pouvoir faire mieux, le consortium luxembourgeois procède à une réduction [3] basée sur la session, pendant laquelle un seul accès au même article est retenu. Le “coût au téléchargement” ainsi calculé augmente mécaniquement.
De ceci découle une difficulté importante par rapport aux statistiques “traditionnelles” des bibliothèques (sous-entendu, sur les collections papier) : la quasi-impossibilité de les lier aux chiffres des rapports COUNTER. Impossible d’agréger de manière rigoureuse des statistiques de prêt et des téléchargements. Autant l’intégralité des consultations passe par les rapports COUNTER, autant la consultation en salle de livres et revues papier reste un continent le plus souvent inconnu (bien qu’il faille citer les expérimentations par comptage, sondage, ou à base de RFID et d’étagères intelligentes). Les mesures de l’usage du papier et de l’électronique sont deux voisins qui ne se parlent plus, et qui ne se sont en fait jamais vraiment parlé, déjà en raison de l’absence de données pivot par lesquelles les associer.
Second écueil : un problème de couverture
Vient ensuite le délicat problème de la couverture des éditeurs fournissant des rapports COUNTER. Très peu d’éditeurs aujourd’hui ne fournissent aucune statistique d’usage. Et parmi ceux qui le font, trois groupes peuvent être distingués :
- Ceux fournissant des rapports COUNTER “selon les règles”, et référencés en tant que tels sur le site de COUNTER. Ce sont, bien entendu, la plupart des grands éditeurs académiques anglo-saxons, mais aussi quelques français (EDP Sciences, notamment).
- Ceux fournissant des statistiques non normées selon COUNTER. Celles-ci peuvent souvent être recoupées avec les statistiques COUNTER (articles visionnés, nombre de recherches) ; parfois non (nombre de “pages” vues, nombre de “crédits” dépensés, etc.). Un tel recoupement fait abstraction des précautions de méthode imposées par COUNTER comme, par exemple, le dédoublonnage des requêtes. Les éditeurs juridiques ou de bases économiques “professionnelles” ont longtemps été surreprésentés dans ce groupe.
- Un troisième groupe, moins connu et pourtant très présent, est celui des éditeurs produisant du “pseudo-COUNTER” ou, dit autrement, des rapports COUNTER qui n’ont jamais été validés et certifiés selon la procédure imposée par le projet [4]. Là encore des précautions de méthode devraient s’imposer en théorie, même s’il faut reconnaître que peu de destinataires de ces rapports ont le temps professionnel de s’en préoccuper.
Troisième écueil : des rapports dédiés difficiles à croiser
Une des limitations importantes de COUNTER 4 tient à son évolution au fil du temps. A mesure que les nouvelles problématiques affluaient, de nouveaux rapports ont été créés pour répondre à des besoins spécifiques :
- Les éditeurs commercialisent leurs archives séparément du “courant” ? JR1a permet de cibler exclusivement celles-ci.
- Les articles en accès ouvert “voie dorée” sont de plus en plus nombreux dans des revues hybrides ou non? JR1GOA fait de même pour compter leur usage.
Cette accumulation de rapports ad hoc, si elle répond en partie à la demande, reste difficile à croiser de façon souple. Il est difficile par exemple de soustraire de façon fine les téléchargements en accès ouvert des revues hybrides sauf à opérer un travail de dentelière. Le comptage de l’usage de certains types de documents est complexe : on pense ici, en particulier, aux livres électroniques. Deux rapports dans les versions 3 et 4 de Counter les concernent, mais ne comptent pas la même chose : si le BR1 compte les titres requêtés, le BR2 compte les chapitres ou parties de livre. Impossible bien évidemment d’additionner des fourchettes et des carottes, et par conséquent, d’obtenir un tableau exhaustif de l’usage des livres électroniques acquis ou en abonnement (sauf sur la variation, éventuellement).
Ce manque de souplesse est devenu criant avec la mise à disposition des achats en licence nationale. On sait que ceux-ci prévoient le maintien à disposition des contenus sur le site de l’éditeur pour une durée de 5 ans ; distinguer l’usage des ressources “ISTEX” et “non-ISTEX” sur une plate-forme éditeur suppose donc de pouvoir filtrer et décompter les chiffres du JR1 au moyen du JR5, pour les titres et années concernés. Là encore, la tâche est complexe, et chronophage !
Quatrième écueil : qui consulte quoi?
Un niveau de consultation sur une ressource donnée ou un coût calculé à la consultation (coût à l’article, à l’ouvrage, etc.) n’a guère de valeur en soi tant qu’il n’est pas rapporté à des considérations de public visé, de politique documentaire, de place de la ressource dans la collection et l’activité générale de la bibliothèque, du centre de documentation. En l’absence de croisement des données COUNTER avec des données internes à l’établissement (coûts, effectifs par filière, etc.), une telle qualification est en principe impossible, sans compter le fait que la détention de ces informations par les éditeurs poserait d’insolubles problèmes d’utilisation de données à caractère personnel [5]. La répartition de la consultation des ressources par les chercheurs des unités mixtes de recherche (UMR), par exemple, est un angle mort susceptible de modifier de manière importante la représentation de l’usage d’une ressource.
Illustration par l’ESGBU
Le cas de l’ESGBU est une bonne illustration de certains de ces points.
Inchangés depuis de nombreuses années, les chiffres demandés dans l’onglet “Usages” et concernant la documentation acquise sont :
- le “nombre d’accès/sessions” (Us1),
- le “nombre de recherches” (Us2),
- et le “nombre d’unités vues ou téléchargées de la collection éditoriale” avec une distinction entre “livres” (Us 4), “périodiques” (Us5) et “autres” (Us 27).
Deux problèmes apparaissent immédiatement :
- le nombre de sessions (ou d’accès) n’est plus compté depuis COUNTER 4 (2012) et ne l’était de toute façon que dans le rapport sur les bases de données ;
- les unités de “livres” téléchargées peuvent être des livres entiers ou des chapitres, comme évoqué plus haut.
Pour les autres chiffres, une interprétation est nécessaire, qui implique une dispersion méthodologie et une différence probable de résultats d’un établissement à l’autre. La notice (mise à jour pour la dernière fois en 2015) n’est que d’une aide limitée. Tentons une petite liste, sur le mode : “je compte ou je ne compte pas…”.
- …les contenus en licence nationale? La notice disponible précise qu’il convient de “prendre en compte les ressources de la « Freedom Collection » acquises auprès d’Elsevier dans le cadre de la licence nationale”. On peut présumer qu’il en va de même pour les très nombreux bouquets acquis dans le cadre d’ISTEX, mais il conviendrait de prendre en compte à la fois l’usage sur la plate-forme éditeur et celle d’ISTEX.
- … l’Open Access? Cette même notice reste muette sur les comptages de l’usage des contenus en accès ouvert “voie dorée”, alors même que leur soustraction globale reste une opération simple, d’emblée effectuée par certains établissements. Ceci est regrettable alors même que les consignes sont claires pour le signalement (un titre signalé = un titre déclaré).
- … les données non-COUNTER ?
A notre connaissance aucun diagnostic n’a été effectué sur d’éventuelles disparités dans les modes de remplissage. Il nous semble toutefois qu’elles induisent un biais qui mériterait d’être corrigé. Des reformulations ont été tentées du côté de l’ADBU en 2014, sans avoir pour l’instant fait l’objet d’une implémentation ou d’une reformulation côté MESRI. Souhaitons que le travail de refonte, amorcé il y a quelque temps déjà, puisse porter ses fruits et mettre un terme à ces ambiguïtés.
De nouveaux outils, comme ezPAARSE ou la nouvelle version de COUNTER, et d’autres peut-être à venir, devraient pouvoir y aider : nous en parlerons dans la suite de cet article, à paraître à la rentrée. Restez connectés !
[1] Le Code COUNTER se décrit lui-même comme “standard”, ce qui se traduit par “norme” ; mais le projet COUNTER n’est pas (contrairement à NISO, par exemple) une agence de normalisation. On réserve en général en français l’appellation de norme aux textes produits par de telles agences et reconnus par l’ISO. Dans le cadre de cet article, nous employons plutôt le terme de “recommandation” pour désigner le Code COUNTER.
[2] ROUGER, Dominique, 2010. « Don’t let me be Miss Understood » ou les bibliothécaires lisent-ils le COUNTER dans le chiffre ? In : BOUKACEM-ZEGHMOURI, Chérifa (éd.), 2010. L’information scientifique et technique dans l’univers numérique : mesures et usages =:Academic online resources: usage and assessment: actes du colloque « Ressources électroniques académiques: mesures & usages », Lille, 26-27 novembre 2009. Association des professionnels de l’information et de la documentation. Paris : ADBS, pp. 113-128.
[3] “New metrics & open access transition” : https://www.consortium.lu/wp-content/uploads/2019/04/new-metrics-v1.3.pdf
[4] Tel est le cas pour Cairn, Europresse, …
[5] https://www.cnil.fr/fr/cnil-direct/question/une-donnee-caractere-personnel-cest-quoi