Les données pour votre business

Bienvenue. S'inscrire ou s'identifier
graphe opendata

Un Graphe des thématiques de l’Open Data Français par des étudiants de l’UTC

24 août

Dans le cadre de la collaboration des équipes de recherche de Data Publica avec l’Université de Technologie Compiègne, un Graphe des thématiques de l’Open-Data Français a été réalisé par cinq étudiants. Retour sur les tenants et aboutissants de ce projet constitué à partir des données de Data Publica qui permet de comprendre quels sont les thèmes principalement couverts par l’open data en France.

 

Contexte

Ce projet a été réalisé dans le cadre de l’UV IC05 à l’UTC par cinq étudiants encadrés par Franck Ghitalla, durant le semestre de Printemps 2012 .

Objectif

L’objectif de ce projet est de mettre au point un graphe des connaissances de l’Open Data français, en se basant sur les données recueillies par Data Publica. Ce graphe permet de naviguer parmi les thématiques, mais sert aussi à retrouver les différentes publications liées à ces thématiques.

En observant le graphe, il est possible de déterminer quelles thématiques sont reliées entre-elles, et quelles thématiques sont les plus présentes au sein de l’open data français.


 Cliquez sur l’image pour accéder au graphe dans un nouvel onglet

Méthodologie

Les étudiants ont exploité les tags qui caractérisent chacune des publications Data Publica pour mettre en place leur graphe. Ces tags sont visibles sur les pages des publications, comme sur celle du “RÉSULTATS DU DEUXIÈME TOUR DE L’ÉLECTION PRÉSIDENTIELLE 2012 PAR COMMUNES”. Les mots-clefs apparaissent dans la description du jeu de données :

Les étudiants ont donc récupéré la liste complète des tags, avec les publications correspondantes. Il leur a fallu effectuer à ce moment un travail de nettoyage et de sémantique :

  • Corriger les tags mal orthographiés

  • Identifier les synonymes, pour les remplacer par un unique tag

  • Éliminer les tags de trop faible couverture

Une fois ce travail effectué, la mise en place du graphe a pu commencer :

  • Un tag correspond à un noeud

  • Si deux tags sont présents dans la même publication, un lien les relie

  • Plus un tag est présent, plus le noeud qui le représente sera gros, et plus il aura donc de chances d’être relié à un grand nombre d’autres noeuds.

Une fois tous les noeuds et liens créés, le graphe est spatialisé, c’est-à-dire que l’on cherche à disposer les noeuds les uns par rapport aux autres. Pour cela, on attribue aux noeuds une attraction entre eux, selon que deux noeuds soient très fortement reliés (souvent présents ensemble sur des publications) ou pas du tout.

Ce fonctionnement permet au final d’appréhender les zones sémantiques communes, et celles qui sont très éloignées les unes des autres.

Avec cette méthodologie, plusieurs graphes ont été créés :

  • Graphe général, tous thèmes confondus

  • Agriculture

  • Entrepreunariat

  • Transport

  • Numérique

  • Justice

  • Environnement

  • Économie

Les sous-graphes thématiques permettent de “zoomer” au sein d’une thématique distincte, pour mieux en discerner les propriétés. Chacun des sous-graphes a une couleur propre, que l’on peut retrouver dans le Graphe général.

Analyse

En observant le graphe, on retient très rapidement qu’il existe de grands thèmes très transversaux, qui distribuent des liens vers toutes les zones du graphe : entreprise par exemple :

Cette forme s’oppose à de petits noeuds très localisés à un endroit du graphe (comme single), et ne concernant qu’une thématique très précise, comme la musique (album, disque, …) :

Notre graphe général permet donc de prendre conscience des thématiques majeures et de leur écosystème, mais également des petits sous-graphes qui gravitent autour comme l’éclairage public à Paris, qui apparaît à travers des noeuds comme candélabre, éclairage ou lampadaire.

Les tags les plus présents dans Data Publica sont :

1. impôt
2. revenu
3. transport
4. entreprise
5. sexe
6. année
7. donnée
8. économie
9. âge
10. emploi

Tandis que les noeuds les plus “cités” par d’autre noeuds dans le graphe sont :

1. année
2. entreprise
3. nombre
4. sexe
5. économie
6. âge
7. europe
8. région
9. donnée
10. activité

Les tags les plus cités sont ceux qui sont le plus souvent mis en relation avec d’autres tags, et ne sont donc pas un thème en soit, mais plutôt des indications complémentaires sur le contenu de la publication. Beaucoup d’entre eux se retrouvent d’ailleurs dans les tags les plus présents, signe que ces informations complémentaires sont souvent les même : le sexe des personnes, l’année de la statistique, la région à laquelle elle correspond, etc…

Cependant, parmi les tags les plus fréquents, certains d’entre ne se retrouvent pas dans les noeuds les plus cités : impôt, revenu, transport, emploi. Ces tags là représentent de véritables thématiques “autonomes”, et par leur fréquence semble représenter l’ADN de l’open data français à l’heure actuelle. Si on s’y réfère, l’open data français parle donc essentiellement d’indicateurs socio-économiques d’une part (impôt/revenu/emploi), et de statistiques concernant le transport d’autre part.

Il sera intéressant de reproduire cette étude d’ici un an, pour déterminer si cette situation perdure, ou si les thèmes de l’open-data française auront évolués.

Utilisation

Vous pouvez choisir le graphe que vous souhaitez observer parmi le graphe général et les graphes thématiques.

Sélectionner un noeud permet de voir tous les noeuds auxquels il est connecté dans le graphe. Leurs noms apparaissent dans une liste à droite, ou au survol des noeuds dans le graphe.

En dessous, apparaît la liste des publications correspondantes à ces mots-clefs.

Attention : Sélectionner un noeud supplémentaire fait apparaitre les noeuds connectés aux noeuds déjà précédemment sélectionnés.

 


 Cliquez sur l’image pour accéder au graphe

Merci à Pierrick Boitel, Kévin Lefèvre, Perrine Letellier, Nicolas Leleu et Alain Martin pour leur travail sur ce projet.

Guillaume Lebourgeois

Source : Data Publica
Licence Creative Commons

Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.





Une réponse à Un Graphe des thématiques de l’Open Data Français par des étudiants de l’UTC

  1. Armel dit:

    Très beau travail !
    Intéressant de voir, donc que l’OpenData parle essentiellement d’indicateurs socio-économiques et de transport ou d’entreprise.

    Ce mouvement est né d’une volonté de transparence et d’ouverture des démocraties et des modes de gouvernance, pourtant ces mots-clés n’apparaissent pas en tant que thématiques. Révélateur d’une vision très business de l’OpenData ?

    On a le noeud « transpalette » mais aucun noeud « transparence » :(
    Heureusement, #participation est bien représenté : http://graph.data-publica.com/#participation

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>