Suivez toute l'actu open data, big data & dataviz grâce à notre newsletter

Close

Data Publica salue la naissance de Data.gouv.fr

 

Un long processus

Le chemin qui a donné naissance au portail des données publiques data.gouv.fr a été à la fois long et rapide. Long, car les premières préconisations pour la création d’un tel outil de modernisation ont été avancées dans le rapport Riester de février 2010. Or ce n’est que sept mois plus tard que la proposition a été officiellement annoncée en conseil des ministres et un an après le premier rapport, en février 2011, que la mission Etalab a été créée par décret du Premier Ministre. Rapide aussi, car en quelques mois seulement la mission, menée en mode start-up par Séverin Naudet et son équipe, a su tenir un calendrier serré qui a abouti à la naissance lundi dernier de data.gouv.fr.

Et une longue attente

Les attentes étaient grandes pour que la France se dote enfin d’un portail de données publiques à la hauteur de ses équivalents anglo-saxons tels data.gov (mai 2009) et data.gov.uk (janvier 2010). Par ailleurs, certaines collectivités locales avaient, elles aussi, déjà entamé cette révolution avec, par exemple, Rennes (septembre 2010), Paris (janvier 2011), le conseil général de Saône-et-Loire (CG71, septembre 2011), Nantes (novembre 2011), cette accumulation augmentant la pression sur le projet de l’Etat (voir la carte éditée par Libertic). C’était donc l’ambition de la mission Etalab que de donner naissance à un projet de grande ampleur, en évitant de décevoir l’attente et les souhaits d’une communauté active d’internautes désormais expérimentée et aguerrie aux problématiques de l’open data.

Un objectif rempli

Moins d’un an plus tard, la mission arrivait à son terme et remplissait le contrat qui lui avait été fixé : Le calendrier annoncé dès les premières semaines a été respecté, ce qui est un vrai succès. Il aura fallu rencontrer, expliquer et convaincre les différentes administrations de l’intérêt d’une telle démarche, ce qui n’a sans doute pas été simple. Mais il aura fallu également mettre en place une solution technique crédible. Dans le même temps, l’équipe réunie autour du projet aura animé plusieurs workshop, mis en place un concours et poursuivit un travail permanent de communication autour du projet pour tenir le public informé de l’état d’avancement du projet.

Data Publica et Data.gouv.fr

Pendant que se montait le portail par l’équipe d’Etalab, il nous était de plus en plus fréquemment posé la question d’une possible concurrence entre nos deux entités. Cette question n’avait pas de sens : Data Publica est une entreprise privée avec un modèle économique et Data.gouv.fr une initiative publique définissant la politique de l’état en matière d’ouverture de donnés publiques et avec mission de faire publier par les administrations des jeux de données de qualité.

Le modèle économique de Data Publica est basé sur le concept de Data Store (un site de commerce électronique où les utilisateurs trouvent des données accessibles de façon payante ou gratuite) et de développement de jeux de données sur mesure (nous construisons pour nos clients des jeux de données à partir de leur spécification et nous les leur livrons sous forme d’un abonnement).

Une grande quantité de données disponibles

Nous avons étudié l’ensemble des données accessibles sur le portail data.gouv.fr pour les référencer. Nous avons été impressionnés par la quantité de données disponibles : avec 352 000 jeux de données, le portail de l’administration française fait presque aussi bien que son concurrent américain en trois ans et ses 390 146 jeux de données et bien mieux que son concurrent anglais data.gov.uk qui culmine à environ 7 000 jeux de données.

Analyse du catalogue data.gouv.fr

Nous avons récupéré et analysé l’ensemble des données du catalogue d’Etalab au 7 décembre 2011 et nous avons identifié 352 285 jeux de données accessibles sur data.gouv.fr (merci thomas !) et dont on peut télécharger la liste ici.

De ces 352 285, 50 jeux de données n’ont pas d’url (exemple : http://www.data.gouv.fr/donnees/view/Dur%C3%A9e-du-travail-30378494), et 20 091 correspondent à des fichiers en double, triple voire quadruple.  Ainsi, 332 144 jeux de données sont actuellement disponibles en téléchargement sur data.gouv.fr

L’analyse de l’ensemble des jeux de données disponibles montre qu’une grande partie d’entre eux (281 910) sont issus de six fichiers édités par l’INSEE sur le recensement de la population. http://www.recensement.insee.fr/basesChiffresCles.action

Ces six jeux de données volumineux ont ainsi été divisés en autant de jeux données qu’il y a de communes (36 682), d’arrondissements, de cantons (de l’ordre de 4 000), de communautés de communes (de l’ordre de 2 000), de départements et de régions, portant ainsi le nombre total de jeux de données affichés à plus de 280 000.

Ce découpage a du sens si l’on considère que l’un des objectifs de data.gouv.fr est de s’adresser au grand public. Lorsque le citoyen devra effectuer une recherche sur sa commune,  il aura ainsi accès au jeu de données qui l’intéresse et le concerne. Si cet internaute avait du télécharger l’ensemble du jeu de données source et ensuite chercher à l’intérieur de cet épais fichier la donnée qui l’intéresse alors on aurait reproché à data.gouv sa lourdeur.

Le tableau ci-dessous donne le détail de ces fichiers :

  • Dans la première colonne, nous avons fait apparaître le nom du catalogue original duquel sont issus les  jeux de données.
  • Dans la seconde colonne, nous avons détaillé le nombre de jeux de données issus de chaque catalogue.
  • Dans la troisième colonne, nous détaillons le nombre de jeux de données source duquel ont été extraits les jeux de données.

Ainsi dans la première ligne par exemple, nous avons compris de notre analyse que le catalogue de l’INSEE intitulé recensement 2008, qui est divisé en 6 grandes publications a permis de générer précisemment 281 910 publications sur data.gouv.fr (281 916 si l’on compte les 6 originales).


Sur le site data.gouv.fr sont donc hébergés 1780 jeux de données : les voici classés par éditeurs originaux. Selon nous, ces fichiers sont de nouvelles publications et le résultat direct du travail d’Etalab.
Les 661 fichiers externes référencés par data.gouv.fr proviennent des sources suivantes:
Nous recommandons aussi à ceux qui veulent comprendre cet ensemble de jeux de données la lecture de l’article de Regards Citoyens qui a fait une analyse antérieure à l’annonce du lancement du site.

En conclusion, data.gouv.fr a montré sa capacité ouvrir de nouvelles données issues du secteur public et à les rendre disponibles dans des formats réutilisables, c’est ce qu’on attendait de la mission. Nous continuerons à analyser le flux de nouvelles données disponibles dans les mois qui viennent.

L’équipe Data Publica

La liste des 352 285 jeux de données est disponible ici.

3 Commentaires

  1. jerome cukier 9 décembre 2011 Répondre

    le comptage par nombre de fichiers n’a pas de sens parce qu’il n’y a pas de définition universelle de ce qu’est un jeu de données. il serait plus objectif de mesurer le volume de données en nombre de lignes par exemple.

    Cela dit, ce qui constitue l’unicité d’un jeu de données c’est les métadonnées comme vous le savez bien, et il se trouve qu’il y a 350,000+ descriptions de données dans le système, donc l’équipe est de bonne foi quand elle avance ce nombre de jeux de données.

    maitenant évidemment les fichiers auraient pu être consolidés, et j’imagine que dans une version ultérieure il y aura surtout la possibilité d’aller taper dans un cube plutôt que de télécharger des fichiers individuels.

    à titre de comparaison quand data.gov a été lancé sous les hourras et les bravos, il n’y avait que 42 jeux de données qui étaient beaucoup moins bien décrits que dans data.gouv.fr !

  2. Hacker 9 décembre 2011 Répondre

    Je pense que Jérôme a tort. En effet on ne dit pas « c’est les métadonnées » mais « ce sont les métadonnées ».

  3. Bob 9 décembre 2011 Répondre

    La qualité des méta-données est discutable étant donné qu’elles ont été générées.
    Par exemple, si l’on regarde les descriptions et mots-clefs pour la recherche « Recensement famille » : http://www.data.gouv.fr/content/search?SearchText=recensement+famille on remarque que toutes les méta-données associées aux 10 publications sont similaires.

Laissez une réponse

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Current day month ye@r *