Les 20 et 21 juin 2017, l’ADBU organisait les premiers ateliers Bibliovizz à l’Anticafé Olympiades.
L’objectif ? Permettre à ses participants de paramétrer par groupe de 6 personnes des prototypes d’interfaces de visualisation de jeux de données proposés par des bibliothèques universitaires disposant d’un projet précis.
Le premier volet des restitutions finales de ces ateliers est consacré au projet de Sciences Po Paris :
Réalisé avec l’outil Omniscope (Avizua)
Pour aller plus loin > nous vous proposons de découvrir le compte-rendu de l’atelier :
Description du jeu de données
La bibliothèque de Sciences Po Paris a fourni 4 fichiers :
- 2 fichiers décrivant des usages (fichier des emprunts d’imprimés sur le campus de Paris d’août 2016 à mai 2017 pour l’ensemble des lecteurs : 65 523 lignes // fichier des logs de consultation distante des ressources électroniques pour l’ensemble des lecteurs d’août 2016 à avril 2017 : 894 000 lignes).
- 2 fichiers décrivant les usagers (étudiants : 11 017 étudiants dédoublonnés // enseignants : 19 090 enseignants). Il ne s’agit pas de l’intégralité de ces populations. Une liste d’ID d’usagers ayant soit emprunté soit consulté les ressources électroniques à distance a été constitué. Un extrait des données usagers a été fourni à la bibliothèque par les services de la Scolarité et des enseignants. Ces fichiers ont été anonymisés. Ils demeurent confidentiels cependant.
La bibliothèque n’avait jamais réussi à « joindre » ces différents fichiers auparavant en raison de leur volume.
Objectif et résultats attendus
Obtenir des informations croisées sur les consultations, les emprunts et la typologie des usagers afin d’en savoir plus sur « qui utilise quoi ». A terme, on voulait également obtenir un prototype concernant la recommandation possible sur le site portail de la bibliothèque.
Déroulé de l’atelier
L’atelier a commencé par un chargement et un nettoyage des données fournies par Sciences Po. Ce travail de fiabilisation des données étant une étape indispensable, il est intéressant d’y avoir passé du temps.
L’étape suivante a consisté à organiser les jointures entre les fichiers et à se familiariser avec le DataManager.
Le reste de l’atelier a permis d’exploiter les données et de créer des vues permettant de les valoriser : histogrammes, camemberts, graphiques, tuiles, cartes, etc.
Prise en main d’Omniscope
Omniscope s’organise en 2 volets :
- DataManager : chargement des fichiers, nettoyage des données, réalisation des jointures
- DataExplorer : choix des visualisations à partir des fichiers déposés dans le DataManager
La prise en main nécessite un accompagnement fort (idéalement une vraie formation), car l’outil est complexe à maitriser du fait de ses nombreuses potentialités.
Difficultés rencontrées / façon de les traiter
Les participants et l’animatrice, Magali Colin, ont convenu qu’il aurait sans doute fallu mieux préparer les données en amont. Les deux jours ont été juste suffisants pour explorer la création des vues. Le fichier source n’étant pas optimal, il n’a pas été possible de tirer entièrement parti de la richesse des données. Avizua a cependant continué de travailler après l’atelier et a fourni des visualisations très convaincantes aussi bien sur les consultations de ressources électroniques, que sur les emprunts.
Malheureusement, il est apparu que le fichier des prêts n’était pas complet. 65 000 lignes au lieu des 140 000 attendues. Les allers-retours en amont ont été un peu trop précipités. Après l’atelier, Sciences Po a fourni le fichier exhaustif des 140 000 lignes qu’Omniscope a remouliné pour regénérer les vues sur lesquelles le groupe avait travaillé.
Résultats obtenus
A l’issue de la fourniture, après l’atelier, de visualisations complémentaires, la bibliothèque de Sciences Po estime disposer d’un panel vraiment intéressant et complet de ce que l’on peut exploiter de ces données.
Malheureusement, nous ne nous sentons pas encore capables de charger de nouvelles données. Cela pourrait sans doute se faire dans le cadre d’une contractualisation de l’échange avec le prestataire.
Avantages et inconvénients d’Omniscope
- Inconvénients :
Complexité de la prise en main et du nettoyage des données (des opérations indispensables). Nécessité d’une véritable formation pour exploiter les nombreuses potentialités de l’outil et son langage. Nécessité d’une pratique régulière de l’outil une fois pris en main pour ne pas “oublier” les opérations principales. Nécessité de temps pour exploiter réellement les résultats obtenus.
On se rend compte qu’il faut bien cibler les paramètres à croiser, car la richesse des données fait qu’on s’y perd (trop de paramètres croisés rendent la visualisation illisible). Des données complexes avec un outil puissant mais complexe peuvent rendre la manipulation et la visualisation difficiles.
- Avantages :
la puissance de calcul et de chargement de très gros fichiers. La fiabilité des traitements. La rapidité de traitement des fichiers et les facilités pour modifier les variables.
La richesse des croisements et des visualisations possibles. Les nombreuses possibilités de tris et des filtres, qui permettent de faire varier les visualisations à partir d’un même jeu de données. La finesse des résultats obtenus et les multiples croisements possibles.
Suite souhaitée
Il aurait été bienvenu de traiter un même projet avec différents outils afin de pouvoir apprécier les qualités et inconvénients de chacun et surtout les résultats obtenus, pour ensuite choisir celui qui semble correspondre le mieux au besoin exprimé. À envisager lors des prochaines éditions de Bibliovizz ?
Compte-rendu de Cécile Touitou, responsable de la mission marketing – Bibliothèque de Sciences Po Paris