Les données pour votre business

Bienvenue. S'inscrire ou s'identifier
article donnée payante 1

Données publiques payantes : les points de vue de Simon Chignard et de Regards Citoyens

13 septembre

Quatrième et dernière partie de notre dossier consacré aux données publiques payantes : le point de vue de Simon Chignard et de Regards Citoyens sur les problématiques liées à la gratuité des données publiques.

Simon Chignard, l’auteur  du livre « L’Open data, comprendre l’ouverture des données publiques » et l’association Regards Citoyens ont bien voulu répondre à quelques questions pour en savoir plus sur les questions que l’on peut se poser quant à la gratuité des données publiques.

Malheureusement l’IGN et LexisNexis ont été sollicités pour répondre à ces questions mais n’ont pas voulu donner suite.

 

Data Publica : Trouvez-vous normal que certaines données publiques demeurent payantes ?

Simon Chignard : La gratuité des données est devenu de fait l’un des principes de l’open data. Il est d’ailleurs intéressant de souligner que la gratuité ne figurait initialement pas parmi les 8 critères des données publiques ouvertes tels que définis fin 2008 à Sebastopol en Californie. La Sunlight Foundation – sponsor de la rencontre de Sebastopol – l’a ensuite explicitement rajouté, arguant que faire payer les données était un obstacle à la facilité de réutilisation (au même titre que les licences restrictives ou les formats de données fermés).

Il me semble que la gratuité est devenue une question de principe pour le mouvement open data … et un sujet de crispation pour les autres ! On y entend deux types d’arguments. Le premier, largement développé notamment au Royaume-Uni dans le cas de l’Ordnance Survey est celui du financement par le contribuable (le tax payer’s dollar pour les américains) : puisque les données ont déjà été financées par nos impôts, nous devrions pouvoir en disposer gratuitement. La limite de l’argumentation est que parfois les agences publiques qui produisent des données sont tenues à une certaine part d’autofinancement de leurs activités. Leur budget prévoit la vente de certaines données. Si l’on veut exiger la gratuité de l’intégralité des données, il faudrait donc imposer au législateur de prévoir un financement intégral par l’argent public… ce qui est loin d’être gagné en cette période de réduction des dépenses publiques !

Le second argument est plus subtil, puisqu’il concerne le mode de tarification des données publiques. Plusieurs études, dont celle menée par Rufus Pollock de l’Open Knowledge Foundation (à l’époque économiste à l’université de Cambridge – UK), recommandent une tarification au coût marginal. C’est-à-dire que l’on considère comme normal de prendre en compte les coûts nécessaires pour mettre à disposition les données (et non l’ensemble des coûts nécessaires pour constituer la donnée, la stocker, la maintenir, etc…). Or, en économie de l’information ce coût marginal est théoriquement nul : produire une copie d’un logiciel original coûte très cher, le reproduire ne coûte quasiment rien. D’où une argumentation en faveur de la gratuité des données. Mais là encore, c’est davantage une question de principe qu’une réalité bien établie. Les collectivités qui ont mis en ligne leurs données savent bien qu’il y a des coûts associés – sans même évoquer le coût éventuel d’un portail. Il faut documenter les jeux de données, parfois les nettoyer ou s’assurer de leur qualité … Bref ce n’est pas toujours aussi simple que d’exporter un fichier Excel en .csv !

Mais la formulation même de votre question montre bien que la gratuité est devenue une question de principe et que l’on est prié de se positionner pour ou contre … J’ai déjà eu l’occasion d’écrire qu’il me semble important de respecter la cohérence des univers de diffusion des données et clairement, pour le champ de l’open data, la gratuité en fait partie. Franchir l’étape suivante, qui serait d’imaginer que toutes les données publiques devraient être gratuites me semble déjà beaucoup plus improbable…

Regards Citoyens : Nous nous sommes réjouis de la décision primo-ministérielle de 2010 annonçant enfin la gratuité comme la règle par défaut pour les données publiques. Il reste cependant encore une cinquantaine de bases payantes et nous ne pouvons que le déplorer mais c’est le prix d’une longue culture de la donnée payante en France. On ne peut qu’espérer que l’état et ses administrations continuent progressivement à tendre vers la libre réutilisation des données publiques.

Quelles données payantes devraient prioritairement devenir gratuites ?

Simon Chignard : Par exemple celles qui présentent une valeur ou une utilité sociale. L’exemple du fichier des prix des carburants me semble assez représentatif. Si ce fichier est disponible gratuitement alors nous pouvons imaginer que les consommateurs seront mieux informés des tarifs pratiqués via de multiples applications ou sites web. Au final, il y a donc bien un bénéfice collectif à permettre une plus grande diffusion et réutilisation de ces données. En le gardant payant, on limite la diffusion de ces données à quelques acteurs et donc la société se prive collectivement d’un bénéfice …

Il y a aussi des données qui sont aujourd’hui payantes mais qui en pratique sont rarement vendues faute d’acheteurs prêts à payer le prix demandé. C’est d’ailleurs parfois le coût de la non-gratuité qui amène les acteurs publics à diffuser des données en open data.

Regards Citoyens : Difficile de répondre à cette question car il y a tout de même beaucoup de jeux de données qui restent malheureusement encore hors OpenData. Le fait que certaines données démocratiques essentielles soient encore aujourd’hui payantes est le plus grave, nous pensons notamment aux données de la Direction de l’Information Légale et Administrative (DILA) qui vend notamment les informations juridiques et légales comme le Journal officiel, les version historisées des codes de lois, les offres ainsi que les signatures des marchés publics, …

Symboliquement supprimer les redevances sur les bases des prénoms ou le registre des entreprises de l’INSEE, sur les avis de la CADA, les cartographies de l’IGN ou encore la base des prix du pétrole, promise de longue date par l’éxecutif, semblerait aussi assez naturel.

A l’inverse quelles données peut-on comprendre qu’elles demeurent payantes ?

Simon Chignard : Dans le domaine de l’urbanisme, je pense à l’exemple d’une collectivité qui a acquis pour ses propres besoins des données topographiques de très haute précision. Un géomètre qui travaille pour un promoteur immobilier a donc deux solutions : soit il mesure à nouveau avec ses propres instruments la parcelle qui l’intéresse, soit il achète les données auprès de la collectivité. Dans ce cas, demander une contribution au géomètre ne me semble pas si choquant que celà, à partir du moment où acquérir la donnée lui coûte moins cher que de la produire lui-même.

Regards Citoyens : Les données produites pour le bon fonctionnement des services publics et publiables en l’état n’ont aucune raison de pouvoir être soumises à redevance. Mais on peut comprendre que le formatage, le nettoyage, l’anonymisation ou la mise à jour régulière de certaines données puissent avoir un coût. Vient ensuite la question de l’intérêt économique de ces redevances : ne vaudrait-il pas mieux stimuler gratuitement l’innovation et donc notre système économique par la mise a disposition libre des données ?

Il existe des modèles juridiquement innovants qui permettent de s’assurer que les données publiques ne soient pas accaparées par une poignée d’acteurs économiques et puissent profiter à tous les citoyens français. Le modèle coproductif mis en place notamment par la Mairie de Paris en est un : soit les réutilisateurs s’engagent à faire profiter à tous les améliorations opérées sur les données publiques, soit, si certains d’entre eux préfèrent masquer les modifications/mélanges opérées sur les données, ils doivent participer financièrement à la politique Open Data de la ville. Nous pensons que ce modèle, dit de double licence, est particulièrement bien adapté aux données publiques.

..
Peut-on considérer que ne pas vendre des données à des acteurs économiques qui ont le moyen de payer serait un gros manque à gagner pour l’Etat ?

Simon Chignard : L’étude menée en 2010 par l’Université de Strasbourg (Bureau d’Economie théorique et appliquée) à la demande de l’APIE prenait justement en compte la capacité à payer de certains acteurs réutilisateurs des données. Si l’on se place du point de vue de la théorie économique, on peut d’ailleurs légitimement se demander pourquoi donner gratuitement des données à des acteurs qui sont prêts à payer pour les obtenir. Mais, comme je l’ai déjà souligné, le débat sur la gratuité des données est aussi une question de principe ! Pour certaines données qui demandent une infrastructure de mise à disposition particulière, je pense notamment aux API des infos temps réel pour les transports, on peut imaginer des modèles mixtes. Gratuit pour les développeurs en dessous d’un certain nombre de requêtes, puis payant pour les plus gros utilisateurs. Après tout, c’est bien ce que Google lui-même a mis en place pour son service de cartographie. En procédant ainsi, on peut espérer faciliter l’innovation par de nouveaux entrants tout en faisant contribuer les plus gourmands …

Regards Citoyens : La liste des redevances en cours pour des données publiques publiée sur data.gouv.fr en juillet dernier est malheureusement incomplète et ne mentionne que dans certains cas le nombre de licenciés ou les montants totaux collectés. Il est donc difficile de le mesurer. Cependant, les quelques exemples fournis font apparaître que les administrations elles-mêmes sont souvent clientes d’autres administrations et que de nombreux jeux de données vendus à des prix parfois exorbitants n’ont en réalité qu’un ou deux clients.

Par ailleurs, les retombées économiques de l’Open Data sont indirectes (impôts et taxes) et donc difficilement mesurables. Toutefois, il ne fait aucun doute qu’en ouvrant l’accès au plus grand nombre, l’Etat maximise le potentiel de réutilisations. Le manque à gagner viendrait plutôt du fait de restreindre les réutilisations à un petit nombre d’acteurs qui favoriserait des monopoles.

.
Avez-vous un commentaire à ajouter sur la liste des redevances payantes ?

Simon Chignard : La publication de cette liste est en soi à mettre au crédit de l’open data : on sait au moins maintenant, même de manière imparfaite, à combien s’élève les redevances et qui sont les clients des données publiques payantes. J’ai été frappé par la modicité de certains montants annoncés, ainsi les 5000 euros que Lexis Nexis verse à la CADA. Le montant est à la fois suffisamment élevé pour empêcher la réutilisation par de « petits »‘ acteurs et suffisamment faible pour ne pas constituer une source majeure de revenus pour la CADA. La situation est à peu près identique pour l’ONISEP par exemple.

J’ai aussi un commentaire sur les nombreuses réactions que cette publication a suscité. Il faut se souvenir de la situation qui prévalait il y a encore deux ans. La question des données publiques était alors traité sous l’angle d’un patrimoine immatériel à valoriser et c’est l’APIE qui était chef de file sur la question. La création de la mission Etalab, et le décret qui a suivi, marquent un changement de cap sur le sujet. Le décret Etalab fait de la gratuité le principe par défaut et oblige les ministères et les agences gouvernementales à soumettre avant le 1er juillet 2012 au COEPIA la liste des données donnant lieu à redevances. Donc il ne s’agit pas d’une liste publiée à la va-vite ou « sous le manteau » comme j’ai pu le lire. Plus intéressant à mon avis serait de se pencher sur la composition du COEPIA, car on y retrouve tous les acteurs de l’information publique, producteurs de données et éditeurs de services, qui n’ont pas d’intérêt à la gratuité des données…

Regards Citoyens : Tout est dans notre billet  :)

Relire le dossier consacré aux données publiques payantes

Licence Creative Commons
Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.





4 réponses à Données publiques payantes : les points de vue de Simon Chignard et de Regards Citoyens

  1. Nicolas dit:

    Bonjour,

    Je suis surpris, à la lecture de cet article, par le parti-pris adopté et les arguments purement théoriques utilisés pour promouvoir une « nécessaire gratuité » de toutes les données publiques, cela sans se préoccuper de la réalité que recouvrent les données publiques payantes.

    Je précise que je ne travaille pour aucun des organismes publics cités dans cet article, mais pour une société privée qui achète à certains d’entre eux quelques uns des jeux de données publiques payants couverts par le décret.

    Prenons par exemple le cas de l’INSEE, qui commercialise les données du répertoire des entreprises et établissements française (base SIRENE).

    Est-il justifié que ces données publiques-là soient payantes ?

    Il me semble que oui.

    D’abord, le cadre légal autorise une administration à faire payer ses données si elle réalise un travail significatif pour leur diffusion. Dans le cas de l’INSEE, c’est largement le cas:
    - cette administration ne se contente pas de proposer une ‘simple copie’ de sa base de données, mais propose toute une offre de fichiers adaptée aux besoins des différents réutilisateurs, avec des profondeurs de contenus et des fréquences de diffusion configurables (du quotidien au trimestriel)
    - l’INSEE consacre en outre des moyens conséquents pour assurer cette rediffusion: il existe un système informatique dédié (SIRENE Diffusion), une équipe support, un site internet, les jeux de données sont précisément documentés, …
    - enfin les équipes de l’INSEE, à Bercy et en régions, travaillent à la qualité de leur base de données, prennent en compte les remarques des utilisateurs et font évoluer tous les 4/5 ans leur offre de services.

    Il semble normal que, vu les moyens mobilisés, l’INSEE facture la rediffusion de ses données pour a minima couvrir ses coûts.

    D’autre part, on ne peut pas dire que les tarifs pratiqués -du moins par l’INSEE- représentent une barrière réelle à la réutilisation de leurs données.

    Dans le cadre du répertoire SIRENE, les licences proposées par l’INSEE pour une réutilisation de la base France Entière -y compris les mises à jour régulières et les droits de rediffusion des infos sur différents supports- se chiffrent à seulement quelques dizaines de k€.

    Pour qui connaît les prix de marché de la donnée BtoB, c’est un « prix d’ami » quand on parle d’une base nominative de 4 à 8 millions d’entités juridiques.

    Enfin, il faut bien noter que, pour des organismes comme l’INSEE, le chiffre d’affaires tiré de la vente des licences SIRENE compte de façon non négligeable dans leur budget de fonctionnement et leur permet d’assurer leurs missions de service public dans le domaine de la statistique. Pour être allé plusieurs fois à des réunions dans les locaux de l’INSEE, on ne peut pas dire qu’ils travaillent dans le luxe et l’opulence !

    Dans le climat budgétaire actuel où l’Etat doit couper des dizaines de milliards de son budget, il est certain que la suppression des ressources tirées de la vente de données publiques –si celles-ci devenaient payantes- ne serait jamais compensée budgétairement par ailleurs. Ce sera la mort de la statistique publique française.

    Au final, à choisir, entre des données publiques gratuites mais de qualité douteuse (mal structurées, souvent obsolètes ou incomplètes, non documentées et sans garantie de mise à jour) comme celles disponibles sur data.gouv.fr et des données publiques payantes qualitatives (documentées, mises à jour, pérennes) comme celles proposées par l’INSEE ou la DILA, il me semble que les acteurs de l’économie numérique devraient accepter de payer un peu pour avoir des infos de qualité et contribuer au maintien de missions de service public, plutôt que de vouloir coûte que coûte la gratuité au détriment de la qualité et de l’intérêt général.

  2. Benjamin Gans dit:

    Merci Nicolas pour ce point de vue argumenté.
    Des éditeurs de données payantes avaient justement été sollicités pour donner leur points de vue contradictoire à ce sujet. Il est dommage qu’ils n’aient pas donné suite.

  3. Ton Zijlstra dit:

    Looking at the provision side of data:
    In general data provision costs of PSB’s is much lower than 1% of their operational costs (if it is higher you are probably doing a la carte work for your data re-users), while the transaction costs of selling data typically are bigger than the revenue gained (esp if you are also doing a la carte data provisioning). In short selling data is simply not worth it for public sector bodies.

    Looking at the market side of data: price elasticity is bigger than 1, meaning lowering prices is likely to increase revenue due to rise in volume. It also means the biggest re-use market is at the bottom of the market. To really make market entry possible for all, any price is an obstacle. All price setting is therefore prejudging which type of activities with data will be viable, and which type not. The whole point is that the real innovation with open data comes from unexpected places, so no steps should be taken that a priori exclude unforeseen uses. Charging does create a priori exclusions.

    If data is used to create economic or societal value government will be handsomely paid for providing the resource anyway: through income and profit taxes for economic activity, and in lower demand on public services for societal activity.

    PSB’s that sell data often started doing so, not because they think they are in the business of selling data, but because they were told to find revenue sources to compensate for general funding budget cuts. Stopping data sales is not taking away money from PSB’s, that money was already taken away from them by their respective Minister before that.

    So, looking from both the provider side as well as the re-user side, there is no case to be made to charge for data. Government data should be free for all comers.

  4. Gildas Lemaitre dit:

    Il serait intéressant de connaître le coût réel des structures de ventes des administrations, qui coûtent souvent plus qu’elles ne rapportent… tant elles sont complexes et inefficaces.
    C’est vrai que les données ouvertes sont souvent de mauvaise qualité, voire inexploitables (exemple : la base de données des accidents de la route), ou concrètement innaccessibles (exemple : les données trafic routier), mais c’est enfin l’occasion de pointer du doigt les structures qui les génèrent et provoquer chez elles un sursaut de fierté salutaire pour les responsabiliser… et les moderniser.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>