Suivez toute l'actu open data, big data & dataviz grâce à notre newsletter

Close

Petit Lexique de l’Open Data et du Big Data

Pour vous aider à y voir plus clair dans la terminologie liée au mouvement d’ouverture des données et du Big data, Data Publica vous a préparé ce petit lexique. Pour toute suggestion, commentaire ou demande d’ajout, n’hésitez pas à nous écrire à contact@data-publica.com

 

API Application Programming Interface. Interface de programmation permettant d’accéder à une application ou à un programme. Des jeux de données peuvent être rendus accessibles ainsi, soit par téléchargement (pour les jeux de données raisonnablement stables dans le temps) soit par API (pour les jeux de données très volumineux ou très volatiles).
APIE Agence du Patrimoine Immatériel de l’Etat. Créée en 2007 pour valoriser le patrimoine immatériel de l’Etat (brevets, marques, oeuvres d’art, données, etc). Ses missions sont d’optimiser l’impact de la gestion du patrimoine immatériel sur l’économie, de tirer parti d’une meilleure valorisation des actifs pour moderniser les services publics, de soutenir la conduite des politiques publiques au profit des usagers et contribuer au désendettement, et de prémunir l’État et les usagers contre d’éventuels risques de détournement. L’APIE a été initialement chargée de mettre en place le répertoire des données publiques, mission qui a finalement été confiée à Etalab (voir plus bas).
BIG DATA Le terme de Big Data est utilisé lorsque la quantité de données qu’une organisation doit gérer atteint une taille critique qui nécessite de nouvelles approches technologiques pour leur stockage, leur traitement et leur utilisation. Volume, vitesse et variété sont souvent les trois critères qui permettent de qualifier une base de données de “Big Data”.
CADA Commission d’Accès aux Documents Administratifs, elle sert de recours aux citoyens qui ont des problèmes pour accéder aux données publiques.La CADA est une autorité administrative indépendante dont le rôle est consultatif. Elle peut aider un citoyen à obtenir un document administratif individuel qui lui a été refusé. Elle répond aux consultations des administrations qui la saisissent sur le caractère communicable ou réutilisable des documents qu’elles détiennent ou sur les modalités de leur communication ou de leur réutilisation. Elle intervient pour tous les documents détenus par un service de l’Etat, une collectivité territoriale, un établissement public ou un organisme chargé de la gestion d’un service public, que cet organisme soit public ou privé.
CKAN Comprehensive Knowledge Archive Network. Logiciel open source pour portail Open Data permettant de publier, de partager et de trouver des données. Il inclut une base de données pour cataloguer et stocker des jeux de données.
CNIL La CNIL, Commission Nationale Informatique et Liberté, est une autorité publique chargée de veiller à la protection des données personnelles. Elle dispose d’un pouvoir de contrôle et peut également sanctionner les entreprises, organisations ou individus collectant des informations personnelles qui ne respectent pas la loi informatique et liberté.
COEPIA Conseil d’orientation de l’édition publique et de l’information administrative, créé le 10 janvier 2010, placé auprès du Premier ministre, exerce une fonction d’évaluation, d’expertise et de conseil dans les domaines de l’édition publique et les publications administratives, de l’information et le renseignement administratif et de la mise à disposition des données publiques.
COMMON CRAWL Common Crawl est une fondation américaine qui effectue un crawl raisonnablement couvrant du Web et le met à disposition gratuitement de tous via Amazon Web Services (service payant)
CONSEIL NATIONAL DU NUMERIQUE Le Conseil National du Numérique a été créé par décrêt le 29 avril 2011 par le président Nicolas Sarkozy. Le Conseil National du Numérique est une commission indépendante dont la mission est d’émettre des recommandations et des avis sur les questions relatives à l’impact des technologies numériques sur l’économie et la société. Réunissant initialement 18 membres, la composition du Conseil National du Numérique a été modifiée par décrêt le 12 décembre 2012 et élargie à un collège de 30 membres composé de chercheurs, d’entrepreneurs et de membres de la société civile. Le conseil est actuellement présidé par Benoît Thieulin. Le secrétaire général de la commission est Jean-Baptiste Soufron.
CRAWL Processus de recueil d’information sur le web qui consiste à mettre en place un robot qui parcourt tout ou partie du Web, copie les pages trouvées et les stocke dans une archive. Par exemple, le métier de la société Google est de crawler et d’indexer l’ensemble du Web pour y faciliter la recherche. (Lire et télécharger le Livre Blanc de Data Publica sur le Crawling et le Scraping).
CROWDSOURCING Pratique qui correspond à faire appel à des internautes volontaires pour proposer ou créer des contenus, répondre aux questions d’autres visiteurs. Il s’agit ainsi d’une mutualisation des ressources et des compétences (par exemple Open Street Map ou Open Food Facts).
DATA TUESDAY Réunion mensuelle de la communauté Data en France fondée par Data Publica, Captain Dash et MFG Labs, et co-organisée par les pôles de compétitivité Cap Digital et Systematic et la société événementielle Cristal Festival. Une fois par mois, le Data Tuesday réunit les acteurs de l’écosystème data français pour assister à la présentation des nouveaux acteurs et des innovations dans le domaine du Big Data, de l’open data, de la dataviz et du datajournalisme.
DATA.GOUV.FR Site officiel servant de répertoire pour les données publiques du gouvernement français, qui a été mis en ligne le lundi 5 décembre 2011 par la Mission Etalab. En décembre 2013, data.gouv.fr a subi une profonde transformation, en changeant sa structure et la philosophie de son site. Elle est en effet devenue une plateforme collaborative orientée vers la communauté, au bénéfice d’une meilleurs réutilisation des données publiques.
DATA.GOV Site officiel servant de répertoire pour les données publiques du gouvernement fédéral des Etats Unis, mis en place en mai 2009. Actuellement le site répertorie près de 89 000 jeux de données.
DATA.GOV.UK Site officiel servant de répertoire pour les données publiques du gouvernement du Royaume-Uni, mis en place en septembre 2009. Actuellement plus de 17 800 jeux de données sont accessibles.
DATAJOURNALISME (ou Journalisme de données) Nouveau type de journalisme basé essentiellement sur l’utilisation des données, consistant à identifier des données intéressantes, en faire l’analyse, en extraire des informations nouvelles et en présenter éventuellement les résultats sous la forme d’une visualisation interactive. (Lire notre interview de 6 datajournalistes)
DATALIFT Projet de recherche ANR français développant et appliquant de la technologie de type Web Sémantique aux données ouvertes.
DATAVISUALISATION Aussi nommée « dataviz« , il s’agit de technologies, méthodes et outils de visualisation des données. Elle peut se concrétiser par des graphiques, des camemberts, des diagrammes, des cartographies, des chronologies, des infographies, ou même des créations graphiques inédites. La présentation sous une forme illustrée rend les données plus lisibles et compréhensibles. (Lire l’interview de Karen Bastien : « Les 3 ingrédients pour une bonne dataviz« )
DILA La Direction de l’information légale et administrative (DILA) est une direction d’administration centrale des services du Premier ministre. Issue de la fusion de la direction de la Documentation française et de la direction des Journaux officiels, elle est placée sous l’autorité du Secrétariat général du Gouvernement. La DILA exerce les missions de diffusion légale, d’édition publique et d’information administrative. Elle gère notamment les sites journal-officiel.gouv.fr, ladocumentationfrancaise.fr, service-public.fr, legifrance.gouv.fr (textes de lois), boamp.fr (appels d’offre publics), bodacc.fr (annonces civiles et commerciales) et circulaires.gouv.fr. Elle est l’une ses sources majeures de données publiques en France. Ses données sont payantes ou gratuites.
DIX PRINCIPES Énoncés par la Sunlight Foundation, ils donnent les critères auxquels les données ouvertes doivent satisfaire. Pour obéir à ces critères, les données doivent être :1. complètes ;2. primaires ;3. fraîches ;4. accessibles électroniquement ;5. lisibles par une machine ;

6. accessibles sans discrimination ;

7. respectant les standards ouverts ;

8. disponibles sous une licence claire ;

9. accessibles de façon pérenne ;

10. gratuite.

DONNEES PUBLIQUES Données collectées, maintenues et utilisées par les organismes publics pour accomplir leur mission.
DONNEES PUBLIQUES PAYANTES Même si la gratuite des données publiques est la règle, il existe un certain nombre de données publiques payantes dont la réutilisation est soumise à redevance. Parmi celles-ci on trouve par exemple : les décisions des juridictions administratives, les arrêts de la Cour de Cassation, les annonces du BALO (Bulletin Officiel des Annonces Légales Obligatoires), les annonces du BODACC (Bulletin Officiel des Annonces Civiles et Commerciales), la base de données SIRENE etc.. Près de 55 bases de données sont concernées.
DSPL DataSet Publishing Language, langage de description de jeux de données, défini par Google, structurant un jeu de données en des données CSV et un descripteur XML et permettant de visualiser les données grâce à Google Public Data Explorer. Data Publica utilise par exemple ce langage pour les 4 300 jeux de données visualisables dans son annuaire.
EPSI PLATFORM Un projet européen, financé par l’Union Européenne fournissant des nouvelles et des informations sur l’Open Data en Europe et dans le monde.
ETALAB Mission initiallement rattachée au premier ministre, proposée initialement dans le rapport Riester de novembre 2010, mise en place en 2011, chargée de mettre en oeuvre la politique d’ouverture des données de l’administration française, et de mettre en place un annuaire des données publiques françaises, data.gouv.fr. A défini en octobre 2011 la Licence Ouverte. La mission Etalab, aujourd’hui dirigée par Henri Verdier, a été rattachée en novembre 2012 au Secrétariat Général pour la Modernisation de l’Etat.
LA FING La FING, Fondation Internet Nouvelle Génération. Créée en 2000, par une équipe d’entrepreneurs et d’experts, la FING est un Think Tank français traitant l’ensemble des problèmes numérique et société. Actifs sur le sujet de l’Open Data et à l’origine du projet Mes Infos. La FING articule ses activités autour de 4 pôles d’activités : la prospective opérationnelle, l’exploration innovante, les projets déclencheurs ainsi que l’accélération d’innovateurs.
GFII Groupement Français des Industries de l’Information. Réunit des industriels de l’information et certains services publics (DILA, Archives, IGN, etc.). Un groupe de travail « données publiques » y est très actif et publie régulièrement des recommandations.
PUBLIC DATA EXPLORER Outil de stockage et de visualisation de données au format DSPL, développé et opéré par Google. Pour visualiser ses données, il faut d’abord les stocker chez Google.
HACKATHON Réunion de développeurs, designers, graphistes et autres professionnels, qui dure en général un week end durant lequel des équipes programment des applications sur des thèmes variés. Un certain nombre de hackathons sont organisés à partir de jeux de données qui fournissent le thème du hackathon.
HADOOP Infrastructure logicielle pour application big data qui inclut un système de stockage et un outil d’exécution parallèle d’applications.
INSPIRE Directive européenne concernant les données géographiques. Elle garantit l’accès à tous des ressources géographiques de chaque pays. Elle définit des standards devant assurer l’interopérabilité des applications géographiques utilisant des données venant de plusieurs pays.
JEU DE DONNEES (ou Dataset). Collection structurée et documentée de données sur laquelle les réutilisateurs s’appuient.
LIBERTIC Association Nantaise militant pour l’open data, instrumentale dans l’initiative Open Data de Nantes-Métropole. Lire l’interview de Claire Gallon.
LICENCE OUVERTE Licence pour données ouvertes (Open Licence) définie par Etalab.
LOD – LINKED OPEN DATA Données publiques ouvertes dans un format de type “Web sémantique”, où les entités ont un identificateur unique et les jeux de données sont liés entre eux par ces identificateurs. Tim Berners-Lee a défini quatre piliers pour soutenir l’initiative « Web des données » :1. utiliser des adresses URI (Uniform Resource Identifier) unique pour identifier les choses ;2. utiliser des adresses URI HTTP qui existent sur le Web ;3. fournir à travers l’URI des renseignements visibles par les humains et par les machines ;4. ajouter des URI externes aux données pour améliorer la découverte d’autres informations sur le Web.
MAP REDUCE Méthode d’exécution de programme parallèle consistant à envoyer sur chaque donnée une fonction à exécuter (map) puis à récupérer les résultats pour les intégrer dans un résultat final (reduce).
MES INFOS Projet français initié par la FING de réappropriation par les individus de leur données personnelles pour les partager éventuellement avec des offreurs de services. Cette expérimentation est directement inspirée de l’expérience britannique Mydata. Avec le projet MesInfos, chacun des 300 volontaires participant ont ainsi accès à leurs données personnelles restituées par les organisateurs partenaires du projet via une plate-forme personnelle sécurisée. Ce projet se rattache au concept du VRM (Vendor Relationship Management) où le consommateur grès son interaction avec ses fournisseurs.
NOSQL Base de Données n’obéissant pas au modèle relationnel, à fonctionnalités réduites, se prêtant bien au traitement massivement parallèle des données. De nombreux catalogues de données sont construits sur une base de données NoSQL.
NOTATION CINQ ETOILES Notation proposée par Tim Berners Lee pour mesurer le degré qualitatif des données ouvertes selon le modèle sémantique (de 1 à 5 étoiles) :* Données non filtrées, éventuellement dégradées, (par exemple, mises en ligne avec n’importe quel format) ;** Données disponibles de manière structurée, (par exemple, données tabulaires en CSV, XML, Excel, RDF) ;*** Données librement exploitables

– juridiquement (cf. licences)

– techniquement (dans les formats non-propriétaires, pas sous Excel notamment) ;

**** Données identifiées par des URL (avec date de mise à jour), afin que l’on puisse « pointer » un lien vers elles (et les retrouver éventuellement) ;

***** Données liées à d’autres données pour les contextualiser et enrichir.

ODATA Protocole d’accès aux données défini par Microsoft.
ODBL Open Data Base Licence, licence imposant la gratuité à toute donnée dérivée des données sous cette licence et autorisant une utilisation commerciale de celles-ci.
OGDI Open Government Data Initiative. Logiciel open source développé et distribué par Microsoft, fonctionnant sur la plateforme Azure et permettant à un organisme public de mettre en place un portail de mise à disposition de données ouvertes.
OKFN Open Knowledge Foundation Network, association à but non lucratif britannique oeuvrant pour l’ouverture des données, elle a notamment développé CKan.
OPEN DATA Voir “ouverture des données”.
OPEN DATA INSTITUTE L’Open Data Institute, organisation privée co-financée par le gouvernement britannique pour stimuler l’écosystème autour des données ouvertes, incuber des startups et faciliter la réutilisation des données d’entreprises privées.
ORDONNANCE DU 6/06/05 Transposant la Directive 2003 du Parlement européen et du Conseil, du 17 novembre 2003, elle a complété la loi CADA du 17 juillet 1978 en lui ajoutant un chapitre II consacré à la « réutilisation des informations publiques ».
La loi du 17 juillet 1978 trace le cadre juridique de la réutilisation des informations publiques :
– autorise toute forme de réutilisation ;
– encadre la réutilisation en définissant des principes généraux applicables en toute circonstance, au nombre desquels figure le respect des données à caractère personnel ;
– permet de subordonner cette réutilisation au paiement d’une redevance couvrant des frais autres que ceux de l’accès aux documents et à la détention d’une licence ;
– limite la possibilité de consentir des droits exclusifs de réutilisation aux nécessités du service public et impose à terme de mettre fin aux droits qui méconnaîtraient ce principe.
OUVERTURE DES DONNEES Principe selon lequel les données publiques (celles recueillies, maintenues et utilisées par les organismes publics) doivent être disponibles pour accès et réutilisation par les citoyens et les entreprises.
PSI Public Sector Information, voir données publiques.
REGARDS CITOYENS Groupe militant français oeuvrant pour l’ouverture des données, proposant un accès simplifié au fonctionnement de nos institutions démocratiques et gérant notamment les sites nosdéputés.fr, nossénateurs.fr et nosdonnées.fr. Lire l’interview de Benjamin Ooghe-Tabanou co-fondateur.
REUTILISATION Fait de prendre un jeu de données pour le visualiser, le fusionner avec d’autres jeux, l’utiliser dans une application, le modifier, le corriger, le commenter, etc.
SCRAPATHON Réunion de développeurs qui scrapent [recueillent] des sites en équipe. Les premiers scrapathons ont eu lieu à Paris et Santiago en 2013. Voir le site de l’événement.
SCRAPING Processus d’aspiration des données d’un site par un robot qui connait et utilise la structure du site pour en extraire les données. (Lire et télécharger le Livre Blanc de Data Publica sur le Crawling et le Scraping).
SDMX Statistical Data and Metadata eXchange, langage de description de jeux de données statistiques conçu par un groupe d’utilisateurs incluant l’OCDE, l’ONU, la Banque Mondiale et Eurostat.
SHARE-PSI Groupe européen, conduit par le W3C et l’Etsi, qui promeut l’Open Data auprés de la commision européenne.
SUNLIGHT FOUNDATION Fondation américaine focalisée sur l’e-gouvernenment et la transparence démocratique qui a soutenu plusieurs initiatives Open Data et a défini les dix principes des données ouvertes.
TIM BERNERS-LEE Co-inventeur du Web, inventeur du Web sémantique, très actif et impliqué dans data.gov.uk, il a notamment défini la notation en cinq étoiles pour mesurer le niveau d’ouverture de Web sémantique d’une mise en ligne de jeu de données.
VRM Vendor Relationship Management, approche duale du CRM (Customer Relationship Management) où le consommateur gère son interaction avec ses fournisseurs (voir Mes Infos)

Vous désirez en connaître davantage sur cette terminologie liée à la donnée ? Le grand lexique des données est à présent disponible. Près d’une centaine de mots régulièrement utilisés dans la presse spécialisée ou par les ingénieurs et développeurs. Small Data, Big Data, MyData ou encore Data Shaker, l’écosystème des données n’aura plus de secret pour vous. Venez le consulter et le télécharger ici.