Les données pour votre business

Bienvenue. S'inscrire ou s'identifier
coulmont

Rubrique les blogs de Data Geeks : Baptiste Coulmont

21 août

Il ne se considère par comme un Data Geek et pourtant le sociologue Baptiste Coulmont du blog du même nom, en a toutes les caractéristiques : un appétit presque insatiable pour la donnée, un goût immodéré pour leur manipulation et un besoin irrépressible de partager ses résultats. Entretien avec le plus sociologue de nos Data Geeks.

 

Data Publica : Quand as-tu ouvert ton blog ? Quel est son trafic ?

Baptiste Coulmont : Le blog date de Juillet 2003 (bientôt dix ans). Mais ma présence sur internet remonte à octobre 1995, à mon entrée à l’Ecole normale supérieure, quand j’ai eu la possibilité de disposer d’une « homepage » sur le serveur « élèves » de l’ENS.
Difficile d’évaluer le trafic : des outils différents donnent des chiffres différents. « Awstat » me dit que coulmont.com reçoit environ 14 000 « visiteurs uniques » chaque mois (1300 visites par jour…. mais de nombreux robots y sont inclus). Moins de 20% des visites durent plus de 2 minutes.

On a l’impression à la lecture de ton blog que les votes et les prénoms sont tes données favorites, est-ce le cas ?

Récemment, oui. Mais au début du blog, mes centres d’intérêts étaient plutôt liés à la sociologie-histoire des sexualités, domaines dans lesquelles les données statistiques ne sont pas fréquentes. Les objets que j’ai abordés ensuite se prêtent plus à des traitements statistiques. Pendant la thèse, j’ai surtout abordé l’analyse de données statistiques à travers la cartographie, comme dans cet article sur les « unions civiles » au Vermont (une sorte de pacs).

Ton article sur la corrélation entre prénoms et résultats au bac a eu beaucoup de succès (cf article du Monde) dont tu as retracé le parcours, comment l’expliques-tu ?

Je pense que la répétition de l’exercice sur deux ans (2011 et 2012) a joué dans l’intérêt que des journalistes ont pu avoir. C’est peut-être parce que, deux années de suite, les mêmes types de prénom exhibaient les mêmes caractéristiques que certains journalistes ont pu être convaincus de la légitimité de ce croisement de données. La reprise rapide du billet par quelques journalistes sur twitter a indiqué à d’autres journalistes l’existence de cette petite étude.

Ci-dessous le Projet Mentions pour savoir comment se répartissent les résultats au bac des personnes qui portent votre prénom (cliquez sur l’image)

 

Quel jugement portes-tu sur le mouvement opendata ?

L’ouverture des données administratives est intéressante. Elles ne peuvent remplacer les données recueillies par enquête spécifiques (exemple : les grandes enquêtes de l’INSEE). Les grandes enquêtes par sondage renseignent mieux, et surtout, elles donnent de nombreuses informations au niveau individuel. En général, les données « opendata » ont été agrégées à une certaine échelle.

Trouves-tu que les données produites et diffusées soient d’une qualité satisfaisante ?

Je n’ai que peu d’expérience. Et surtout, la « qualité » dépendra des usages prévus pour ces données. Il doit exister plusieurs critères pour juger de la qualité.

Sinon de quelle manière faudrait-il les améliorer ?

Les données ne sont pas « neutres » : elles ne sont pas « données », mais elles ont été fabriquées. Connaître le circuit de fabrication est important pour analyser ces informations.

Quelle est ton analyse de données qui a produit les résultats les plus étonnants ?

Ce que je trouve étonnant, c’est parfois la confirmation, par l’analyse statistique, de choses que l’on connaît déjà par ailleurs… Aux lecteurs de juger. Peut-être ce graphique combinant âge et type de mariage, ou ces graphes représentant certaines relations de travail entre députés, ou les relations entre sociologues ou encore les relations entre pasteurs évangéliques noirs à Paris… J’ai d’autres surprises sous la main, mais elles n’ont pas encore été publiées.

Quelles sont, sans les dévoiler, ces surprises à venir ?

Avec Arthur Charpentier (lire l’interview), nous  allons continuer à étudier les votes par procuration. Je vais aussi étudier les prénoms donnés à des êtres non-humains (animaux de compagnie ou êtres de fiction)…

Outre les tiennes, quelle analyse de données t’a le plus marquée ?

Elles sont nombreuses et ne sont pas liées au mouvement « opendata », mais plutôt à des enquêtes sociologiques. L’interprétation des résultats des analyses de données sur la réussite scolaire par Bourdieu et Passeron, dans « Les Héritiers« , m’a fortement marqué. Les travaux sur les prénoms (de Besnard & Desplanques d’un côté, de Lieberson de l’autre) m’ont beaucoup servi. L’imagination sociologique de Boltanski dans « la dénonciation« …

De quand date ce goût pour les données ?

Ma formation de sociologue a fortement joué. La sociologie, science empirique, a besoin de données. L’un des textes fondateur de la discipline, Le Suicide d’Emile Durkheim (1897), est, pour le dire rapidement, l’une des premières analyse sociologique de données administratives. Durkheim (et son neveu, Marcel Mauss) avaient eu accès aux données individuelles sur les suicides (qui permettaient de mettre en lumière le rôle protecteur que joue la famille). Ensuite, c’est la découverte de « R« , vers 2004, qui m’a permis de disposer d’un outil formidable pour l’analyse de données.

Te considères-tu comme un Data Geek ?

Non, pas vraiment. Plutôt comme un sociologue. Je ne travaille pas qu’avec des données quantitatives, et mes connaissances statistiques et de programmation sont limitées.

Ca ne te vexe pas si on te considère comme tel, compte tenu de ton « appétit » pour les données ?

Oh, non !

A quelles données aimerais-tu avoir accès ?

1- J’aimerais pouvoir disposer d’autres données nominatives (pour travailler sur les prénoms), mais cela se heurte à l’impératif de protection de la vie privée. Ces données ne seront sans doute pas publiques, même si de nombreuses administrations disposent d’informations nominatives.
2- J’aimerais aussi énormément pouvoir disposer des résultats des élections récentes au niveau de chaque bureau de vote en France, avec le nombre de votes par procuration. Mais ces résultats sont agrégés par les préfectures au niveau de la ville… et les préfectures ne répondent pas aux demandes spécifiques (résultats ET nombre de votes par procuration). Le ministère de l’intérieur ne dispose pas de ces données (les données diffusées, en tout cas, ne contiennent aucune information sur la procuration).

Pourquoi cet intérêt particulier pour les procurations ? Un nombre (trop) élevé de procurations serait-il louche ?

C’est ce que pensent les juristes spécialisés dans le contentieux électoral. Il est vrai que certains villages corses ont eu, à certains moment, des taux très élevés. Mais je pense plutôt que, habituellement, la procuration est l’arme spécifique de celles et ceux qui sont déjà les plus disposées à voter, et qui arrivent à se mobiliser « à distance », pour voter quand bien même elles seraient loin du bureau de vote. A ce titre, les procurations nous renseignent non pas sur la démobilisation électorale, mais sur la surmobilisation !

Baptiste Coulmont

Les précédentes interviews de Data Geeks:

Source : Data Publica

Licence Creative Commons
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.





Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>