Les données pour votre business

Bienvenue. S'inscrire ou s'identifier
data gis tip

Les blogs de Data Geek : Mathieu Rajerison, la passion de la GéoData et des représentations

11 juillet

Agronome et géomaticien, Mathieu Rajerison travaille au sein d’un pôle chargé des Statistiques et de la Géomatique dans un Service Déconcentré du Ministère de l’Ecologie, du Développement Durable et de l’Energie. Il nous fait part sur Data Publica de sa passion pour les statistiques spatiales et les représentations graphiques qu’il partage sur son blog Data & Gis Tips.

 

 

Data Publica : Quand et pourquoi as-tu créé ton blog ?

Mathieu Rajerison : C’est en 2009, alors que je m’intéressais aux solutions libres dans le domaine du spatial, que j’ai commencé mon blog. J’ai suivi l’exemple des blogs du type « tutoriels » ou « how-tos ».

Tenir un blog a un effet rétro-actif. On sert les lecteurs autant que soi-même. La rédaction d’articles m’amène à approfondir certains concepts, à partir à la découverte de pépites et à expérimenter. Ce que j’aime bien, c’est essayer de vulgariser des notions complexes. Mes lecteurs me diront si j’y arrive !

Au départ, mon blog était surtout orienté Informatique Décisionnelle dans le domaine du spatial mais le tournant est récent vers les statistiques spatiales et la représentation graphique de données. Je pressentais déjà cette progression en précédant gis (pour Geographical Information Systems) par data dans datagistips.

Cette chronologie, de l’intégration à la valorisation des données reflète l’évolution de mes centres d’intérêt. D’une certaine façon, il y a un peu de moi-même dans ce blog.

.

« Un data geek est une personne qui utilise des procédés originaux, numériques ou non, pour comprendre le monde qui l’entoure. »

 

Te considères-tu comme un data geek ?

Il existe beaucoup de terminologies pour désigner quelqu’un qui s’intéresse à ce qui environne les données: data scientist, dataist et même datasexuel !

Si je disposais de données papier intéressantes, des cartes par exemple, je les scannerais probablement afin d’en tirer quelque chose.

Je suis assez peu passionné d’objets électroniques. Mon téléphone portable est un dinosaure qui ne surfe pas sur internet. J’éprouve une émotion assez discrète face à une belle ligne de code ou une jolie expression régulière. En revanche, j’avoue être plus facilement fasciné par les statistiques et par une représentation graphique qui raconte une histoire.

Les physiciens du CERN collaborent autour de programmes composés de millions de lignes de code. La médecine thérapeutique utilise maintenant la théorie des graphes. Les généticiens font appel aux statistiques. Sont-ils des data geeks pour autant? Un data geek peut ne pas programmer. C’est le cas de Stéphanie Posavec dont les merveilleuses créations qui rappellent le design génératif sont réalisées en majeure partie à la main. On voit que les étiquettes sont vaines.

Selon moi, un data geek est une personne qui utilise des procédés originaux, numériques ou non, pour comprendre le monde qui l’entoure. Il s’agit aussi de quelqu’un qui domine les données plus qu’il ne se laisse dominer par elles. Ce qui est certain, c’est que l’opendata constitue pour lui un terrain de jeu formidable.

.
Quel est le trafic mensuel actuel ?

Depuis début 2012, mon blog bénéficie en moyenne, par mois, de 800 visites, 500 visiteurs uniques et 1000 pages vues. 30% environ des visiteurs sont des revenants (pas des zombies, hein).

Au sujet du contenu, j’évite la redondance d’informations. Par exemple, j’ai décidé il y a peu d’abandonner la rédaction de revues de presse car le site géotribu en fait de très bonnes et très complètes. Je n’interviens que lorsque j’ai quelque chose de nouveau à dire.

Mon blog est un peu à la marge, comme en témoigne le nombre relativement faible de visites. Actuellement, ce sont des recherches très spécifiques dans le domaine du spatial qui peuvent amener à le découvrir.


De quelle visualisation es-tu le plus fier ?

Il s’agit d’une carte que j’ai intitulée archipels de prospérité qui a fait l’objet d’un article sur mon blog. Cette carte faisait suite à une série de visualisations proposées par des bloggeurs: Baptiste Coulmont avec une choroplèthe, Joël Gombin avec une anamorophose.

Elle représente les différences de revenu en France sous forme de relief. Sur cette carte, on peut imaginer que les habitants de certains îlots de province doivent prendre un bateau puis enfiler des chaussures de randonnée pour rejoindre Paris.

 

La métaphore est souvent utilisée en design informationel car elle permet de sortir des cadres habituels de la représentation. Elle fait appel chez l’interprète à un patrimoine de concepts et d’objets communs, ce qui favorise son adhésion. Son emploi est assez contraint dans le domaine de la cartographie où le respect de la géométrie et de la position absolue (ou relative) d’objets géographiques est de mise.

Pour cette carte, j’ai utilisé deux logiciels: R et Quantum GIS, un formidable logiciel de cartographie. J’ai joué sur plusieurs paramètres pour le calcul de l’altitude ainsi que sur les classes de couleur afin d’obtenir le résultat final. Il manque sans doute une légende, mais il me semblait peu opportun d’en intégrer une comme il s’agit de valeurs estimées.

 

De toutes les analyses de données que tu as faites, laquelle a produit les résultats les plus étonnants ?

Il serait sans doute présomptueux de prétendre avoir été étonné par mes propres analyses, surtout que je n’en ai pas encore livré beaucoup.

Par contre, je pourrais citer des articles de bloggeurs qui m’ont assez agréablement surpris.
- C’est le cas d’Arthur Charpentier qui a rédigé des posts sur comment trouver Charlie (le gars au bonnet rouge et au t-shirt rayé que tout le monde connaît mais que tout le monde cherche) – pour cela, il a utilisé une librairie spatiale – et sur la date de naissance et de décès d’Elvis Presley.
- C’est le cas de François Guillem qui détecte les affiliations entre différentes revues en fonction des notes qu’elles attribuent aux films.
Cette incursion de la statistique dans la culture populaire, le divertissement aussi, me semble assez démonstrative du potentiel de l’opendata.
- C’est aussi celui de Baptiste Coulmont avec son billet « qui épouse qui au 19e siècle » qui illustre sous forme de réseau les filiations, les mariages en fonction des métiers que les gens pratiquaient autrefois. Cette représentation moderne parvient à faire resurgir les éléments d’un passé lointain.

Dans une de mes analyses sur le lien entre Partis d’Appartenance et Professions exercées par les candidats aux élections législatives (d’après un fichier récupéré sur votre site), on observe, via la heatmap, un lien très fort entre les candidats exerçant les « Autres Professions Libérales » et les votes Ecolos. Quelles sont ces autres professions libérales ? Peut-être cela aurait-il valu le coup de décliner davantage cette catégorie socio-professionnelle. C’est aussi un intérêt de l’opendata que de pouvoir bénéficier des suggestions des utilisateurs pour l’amélioration de standards.

« Il faut veiller à ce que les usagers ne deviennent pas à leur insu les participants d’une émission de data-réalité »

 

Sinon quels articles ont eu le plus de succès ?

L’article sur le carroyage et utilisant les données libres OpenStreetMap est pas mal lu. Cet article détaille tout le potentiel que constitue l’analyse et la représentation d’un territoire par le biais d’unités égales et comparables (grilles). L’exemple pris est celui d’analyses de densité sur la commune de Paris en utilisant Quantum GIS.

A l’avenir, je compte proposer davantage d’analyses à partir des données OSM, dont une sera sur la relation entre la présence de la nature en ville et le niveau des vie des habitants.

Les articles sur les résultats des élections réalisées grâce aux fichiers data publica ont du succès. Je pense notamment à celui sur la réalisation d’un choroplèthe du second tour sous R qui constitue un tutoriel utile pour ceux qui débutent sous le logiciel R et ses librairies spatiales.

L’article sur l’import du Modèle Numérique de Terrain de l’Institut Géographique National dans GRASS (une solution SIG extra complète) est toujours le plus lu. La question est souvent posée sur les forums, c’est pourquoi cet article a autant de popularité.

La spécificité de mon blog est de traiter de spatial ainsi que de libre. Je pense que la majorité des visiteurs sont des géomaticiens. Pourtant, les cartes n’expliquent pas tout et parfois, il est même préférable de s’en passer (un très bon article de Matthew Ericson à ce sujet). Mon blog tente de révéler des passerelles reliant la carto au monde des stats et du design de données. Il a pour ambition de présenter des techniques de valorisation de données qui pourraient paraître innovantes aux yeux d’un public non initié à celles-ci.

Autoportrait de Mathieu Rajerison

 

A quelles données aimerais-tu avoir accès ?

Opendata signifie selon moi fournir un panel d’informations assez large pour toucher le citoyen lambda. L’opendata se doit d’être populaire afin d’alimenter certains débats. L’approche bottom-up devrait être rendue possible afin que les utilisateurs suggèrent un enrichissement du patrimoine, voire dans certaines situations, contribuent à son alimentation (OpenStreetMap en situation de crise fournit ici un excellent exemple).

Pratiquant le spatial, je regrette souvent l’absence de données spatialisées ou de géoréféncement de données littérales quand ces informations ne sont pas sensibles. Essayez, tout de go, de me citer une donnée qui ne possède pas de référence spatiale. Pas évident! En réalité, toutes les données en portent, de différente classe, portée et précision.

Les données sociales m’intéressent beaucoup mais avec elles, on s’approche rapidement et de manière périlleuse du domaine privé car elles impliquent de faire de l’individu (ou de plusieurs) une unité de collecte. Il faut veiller à ce que les usagers ne deviennent pas à leur insu les participants d’une émission de data-réalité, ou ne constituent pas des bases de données mobile-isables (j’adore les jeux de mots) à des fin de monétisation.

Je m’intéresse beaucoup à la musique, notamment improvisée. Je pense que l’on pourrait produire toutes sortes d’analyses, de datavisualisations qui répondent à : quelles ont été les collaborations inédites? Quel groupe a changé le plus de fois de membres ? Où se situe Hermeto Pascoal dans l’échelle des musiciens qui pratiquent le plus d’instruments? Qu’est-ce qui caractérise le jeu de Miles Davis ? Comment a évolué le jeu de John Coltrane ? De telles données, aisément exploitables, raviraient le mélomane que je suis. Il existe un article très intéressant sur l’analyse de morceaux traditionnels.

Peu de domaines échappent finalement la « dataïsation ». Je ne serais pas étonné de voir apparaître un jour des sites opendata thématiques très spécialisés dans l’actualité, le divertissement, le cinéma, la musique, le sport. C’est déjà le cas: Open Food Facts est né, récemment, dans le domaine de l’agro-alimentaire. Ou bien ce seront des sites déjà existants qui libèreront leurs données par le biais d’API.

Il faut donc suivre avec attention cet écosystème de données qui est en train de se développer, surtout ce qui se construira sur sa base dans les espaces journalistique, économique et démocratique.

Les blogs de Data Geek (1/2): relire l’interview d’Arthur Charpentier créateur de Freakonometrics.

 

Crédit photo : Copyright Tous droits réservés par mathieu rajerison

Licence Creative Commons
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.





Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>