Le graphe de sites français qui parlent d’Open Data
10
septembre
A quoi ressemble l’écosphère de l’open data français ? Voici un travail des équipes de Data Publica pour illustrer les liens et relations entre de nombreux sites français qui parlent d’open data.
Avertissement
L’algorithme de sélection des sites décrit ci-dessous distingue les sites qui parlent essentiellement d’open data en se basant sur le pourcentage de pages d’un site mentionnant un certain nombre de mots clés (plutôt qu’un nombre absolu qui empiriquement avait mis en avant des sites n’étant pas dédiés à ce sujet). De plus l’analyse a été faite sur le corpus Common Crawl qui malgré sa richesse ne couvre pas ni en largeur ni en profondeur l’ensemble du Web français.
Certains sites, quoi que acteurs majeurs de l’open data en France tels que Owni, Regards Citoyens, Opendata Paris et bien d’autres portails open data, n’apparaissent pas ou peu dans le Graphe.
Il faut prendre cette étude en tenant compte de ces limitations et pas comme un jugement qualitatif et quantitatif des acteurs du mouvement Open data.
Après le travail effectué par les étudiants de l’UTC sur le graphe des thématiques de l’open data, les équipes R&D de Data Publica se sont penchées sur les relations entre les acteurs qui parlent d’opendata. Issu du concours Common Crawl Code Contest (votez pour nous ICI), ce projet illustre les relations entre la plupart des sites liés à cette thématique qu’ils soient publics ou privés, citoyens ou commerciaux. Voici donc la méthode et l’analyse du graphe des sites français qui parlent d’Open Data.
Présentation
Dans le cadre du concours organisé par Common Crawl, Data Publica s’est lancé dans la réalisation d’une cartographie de l’écosphère open data français. Cette cartographie a pour objectif d’identifier les acteurs sur le web de l’open data français, leur importance et les liens qu’ils entretiennent.
Common Crawl
Common Crawl (http://commoncrawl.org/) est une organisation qui a mis en place des crawlers et un dispositif de stockage des sites crawlés, afin de permettre à tous ceux qui le souhaitent de pouvoir travailler sur des archives à l’échelle du web entier, sans avoir à souffrir de la mise en place d’une lourde architecture, et de problématiques de stockage des données recueillies.
Les données de Common Crawl sont hébergées sur Amazon EC2, pour faciliter leur accessibilité via des jobs Map/Reduce. Elles sont régulièrement rafraîchies, à une fréquence variable d’un site à l’autre.
Actuellement, la couverture de Common Crawl est encore assez faible (autour de 20% du web mondial), mais suffisamment importante pour attaquer la couche haute du web, et donc contenir une grande partie des sites facilement accessibles et/ou couramment utilisés. Il n’en reste pas moins que la couverture n’est pas exhaustive, et qu’il est donc possible que quelques acteurs soient absents de notre cartographie (tels que certains portails open data de collectivités par exemple).
Méthodologie de crawl
Par “crawl”, nous entendons ici le fait de parcourir les archives de Common Crawl, puisque ce sont eux qui s’occupent de la récolte des données.
Pour parcourir les archives nous avons mis en place des processus de Map/Reduce à l’aide du Framework Hadoop, que nous avons fait tourner sur Amazon S3. Common Crawl ne permettant pas de n’attaquer qu’un sous ensemble (comme le web français), nous avons dû parcourir l’ensemble de leurs archives pour récolter les données qui nous ont permis de construire notre graphe.
Nous n’avons cependant conservé les sites visités pour utilisation dans notre graphe que sur certains critères :
-
Le site parle en grande partie d’opendata
-
Le site est majoritairement en français
Pour ce faire, chaque site a été affublé de deux scores correspondant à ces deux critères :
-
Sopendata = Σ(popendata) / Card(s)
-
Sfr = Σ(pfr) / Card(s)
popendata : page du site s parlant d’opendata
pfr : page du site s en français
Si les deux scores sont supérieurs aux seuils que nous avons définis à partir d’échantillons de test, alors le site est conservé pour la construction du graphe.
Construction du Graphe
Sur tous les sites conservés lors du parcours de l’archive Common Crawl, nous extrayons l’ensemble des liens sortants afin de déterminer vers quels domaines ils pointent. Nous ne conservons parmi eux que les domaines faisant partie de notre ensemble de sites sélectionnés lors de l’étape précédente.
À partir des domaines extraits, nous sommes maintenant en mesure de créer deux fichiers, qui vont servir de définition de base à notre graphe :
-
fichier des domaines (id les noeuds du graphe)
-
fichier des liens entre domaines (id les arcs du graphe)
Il nous faut maintenant caractériser les noeuds, afin de transformer la cartographie en support d’analyse. Nous avons choisi pour cela deux axes différents, qui vont donner naissance à deux graphes
1. Le type d’acteurs
A. Entreprise
B. Société civile (blogs, citoyens, associations)
C. État / Collectivité
2. Le rôle des acteurs
A. Informer sur l’opendata
B. Distribuer de l’opendata
Chacun des sites web a alors été catégorisé à la main, avant de faire entrer les données du graphe dans le logiciel Gephi (https://gephi.org/), où elles ont pu être spatialisées (Algorithme Force Atlas), pour que nous puissions enfin visualiser le graphe.
Analyse de la cartographie
Graphe des types d’acteurs
Plusieurs leçons peuvent être tirées de ce graphe. La première d’entre elles, c’est la position très centrale occupée par La Fing (Fondation Internet Nouvelle Génération) et Internetactu dans l’opendata français, qui se posent véritablement comme les références de la thématique, en étant très cités par tous les autres acteurs.
Nous remarquons également la grande variété d’entreprises françaises qui travaillent sur le thème de l’opendata, mais qui sont pour le moment assez isolées les unes des autres. Elles sont par contre très connectées aux autres entités du graphe, que ce soit avec des acteurs de la Société Civile ou de l’État/Collectivités, et ont donc su s’inscrire rapidement au sein d’un écosystème dynamique.
La société civile forme pour le moment la clef de voûte de l’opendata français, et semble être un système organisé et interconnecté solide.
Par opposition, l’État français a pour le moment une présence assez disparate, avec quelques acteurs clefs de référence (data.gouv.fr, data.rennes-metropole.fr), accompagnés de quelques autres encore peu reconnus dans le graphe. Cette configuration est symptomatique de l’engagement encore timide de l’État et des pouvoirs publics locaux dans l’opendata, mais démontre également du succès des quelques initiatives qui ont pu être lancées dans le domaine.
Cette cartographie illustre donc la jeunesse d’un mouvement qui est né au sein de la société civile, et dont les entreprises et l’État n’ont commencé à s’emparer que récemment. À n’en pas douter, ce graphe va très rapidement évoluer.
Graphe des rôles d’acteurs
On note immédiatement dans ce graphe la prépondérance des sites qui parlent d’open data, sur celle des sites qui proposent de l’open data. Parmi ceux qui proposent de l’open data, on trouve essentiellement des sites de l’État français. Parmi eux une entreprise tire son épingle du jeu : c’est Data Publica, la seule qui publie des données tout en ayant un statut de référence au sein du graphe, en étant citée à de nombreuses reprises par les autres acteurs.
La publication de données open data est une activité principalement opérée par les pouvoirs publics pour le moment et qui concerne un nombre limité d’acteurs. On réalise pleinement avec ce graphe que la publication de données n’est pas encore à la hauteur de l’engouement créé par cette dynamique, preuve s’il en est que l’écosystème de l’opendata français est en pleine construction.
Ressources
L’intégralité du projet est disponible en open-source sur le github Data Publica : https://github.com/datapublica-company/opendata-graph
Une page Web est dédiée à ce projet, et facilité la visualisation et l’analyse des graphes :
http://french-opendata.data-publica.com.
Vous aimez ce projet ? Votez pour nous !
Nous sommes prêt à échanger avec vous pour toute question concernant ce projet ! Vous pouvez par ailleurs voter pour soutenir notre projet en cliquant ici
Guillaume LEBOURGEOIS
Merci à Pierrick Boitel, Perrine Letellier, et Amine Mouhoub pour leur travail sur ce projet.

Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.