Les 20 et 21 juin 2017, l’ADBU organisait les premiers ateliers Bibliovizz à l’Anticafé Olympiades.
L’objectif ? Permettre à ses participants de paramétrer en groupe des prototypes d’interfaces de visualisation de jeux de données proposés par des bibliothèques universitaires disposant d’un projet précis.
Le quatrième volet des restitutions finales de ces ateliers est consacré au projet de l’Université Sorbonne Nouvelle – Paris 3 :

Réalisé avec l’outil Tableau (The Information Lab)
 
Pour aller plus loin > nous vous proposons de découvrir le compte-rendu de l’atelier :
Source des données
Les données traitées proviennent de Google Analytics.
Traitées par deux participants, utilisateurs de Google Analytics pour le site web de leur institution respective.
Problème : Google Analytics ne donne pas accès aux log, mais à des données déjà traitées et croisées par Google. Il existe peut-être une façon d’obtenir des données plus brutes que celles que l’on a mais aucun des participants ne sait comment faire.
Définition d’un scénario
La première journée se termine sur la définition d’un scénario de ce que nous souhaitons montrer le lendemain et qui servira de base à la création des feuilles et du tableau de bord
Objectif : outil de pilotage pour le référencement du site plutôt qu’un outil de communication
1. trafic généré par les sites référents (sur année n)
= [tableau de bord] double histogramme horizontal en vis-à-vis

  • nombre de visites
  • temps moyen des visites
  • top 10

2. trafic généré par les moteurs de recherche (sur année n)
= [tableau de bord] nuage de mots

  • termes de requêtes

3. évolution du trafic dans le temps (sur les 3 dernières années)
= [tableau de bord] triple courbe et liste de pages

  • effets saisonniers (hypothèse : dates d’examen ?)
    • isoler les périodes de pic
    • quelles sont les pages consultées ?

Création des feuilles à partir du scénario
1. trafic généré par les sites référents (sur année n)

  • Histogramme horizontal
  • Colonnes : sommes des sessions
  • Lignes : source / support + Page de destination (tri décroissant)
  • Filtres : support = referral + somme des sessions (>n) + année (date) : 2016
  • Couleur : moyenne (durée session)

Problème : bien que Tableau dispose d’un connecteur avec Google Analytics qui permet d’exporter directement les données sans passer par un téléchargement Excel par exemple, la donnée durée de session est importée dans un format non identifié que nous ne savons pas exploiter.
> L’histogramme montre les pages d’entrée (via site référent) qui ont généré le plus grand nombre de sessions (longueur des barres) et indique celles qui ont généré les sessions les plus longues (couleur).
NB : Un seul graphique a été produit à partir d’une feuille contrairement à ce qui était prévu la veille.
> Le graphe nous permet de nous poser de nouvelles questions à explorer (quelles sont les pages très fréquemment visitées pendant une durée très courtes et au contraire les pages très peu fréquentée mais sur lesquelles les visiteurs restent longtemps)
2. trafic généré par les moteurs de recherche (sur année n)
Impossible d’importer les mots-clés depuis Google Analytics et manque de pertinence : les mots-clés indiqués sont marginaux (2 000 sur 26 000)
Choix de ne pas garder cet indicateur
3. évolution du trafic dans le temps (sur les 3 dernières années)
Création de la triple courbe, puis création de la liste des pages consultées : définition d’une action pour que le graphe de temps joue le rôle de filtre sur les pages consultées. On constate des phénomènes saisonniers (pics en novembre et en mars, creux en août)
Organisation et mise en page du tableau de bord
La triple courbe est placée en tête du tableau de bord pour devenir le filtre de tous les graphes.
Problème du premier graphe prévu qui peut être porteur d’information tout seul mais n’apporte rien dans ce tableau de bord.
Export depuis GA de la consultation du site par heures de la journée (regroupement des heures par tranches : matin, après-midi, soirée, soir, nuit). Cet export constitue un nouveau jeu de données (année 2016). Il est ajouté aux données. La feuille de données montre la répartition des visites par tranche d’heure (regroupement manuel)  en 2016. Si on avait eu le temps de faire les 36 exports, on pourrait relier ce graphe au graphe des visites dans le temps pour voir évoluer en fonction du mois de l’année.
Problème des données Google Analytics : Tableau propose une intégration automatique des données GA > tests > problème de fiabilité des données.
On ne voit pas les données importées dans la source des données
+ le format des durées de données est modifié : pas exploitable
+ le croisement de certaines données crée des erreurs (durée moyenne sur la page ou les sessions)
+ le nombre de visites qui apparaît sur les graphes ne correspond pas au nombre de visites exportées sur fichier excel + page la plus consultée (/fr/) n’apparaît pas dans les fichiers excel
Pour palier ce problème, il est possible de faire différents exports de Google Analytics vers excel, puis un import des fichiers excel dans Tableau, mais cela demande un très gros travail pour obtenir les donnée temporelles (ex : si la granularité souhaitée est celle du mois : il faut faire un export pour chaque mois > 36 exports pour la période 2014-2016)
Pages consultées : les pages auraient pu être regroupées par section
Autre possibilité : traiter la page d’accueil à part : l’extraire des pages les plus consultées et l’étudier à part.
Ajout d’un Focus pour les pages de formation
Compte-rendu réalisé par le groupe en charge du traitement des données de l’Université Sorbonne Nouvelle – Paris 3

recevez tous les mois les dernières nouvelles de l'adbu !

  • Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.