Les données pour votre business

Bienvenue. S'inscrire ou s'identifier
capt adrien

L’algorithme et la dataviz qui dévoilent les groupes d’agréments du Sénat américain

31 juillet

Du 10 au 12 juillet dernier se tenait au siège de la Banque Mondiale à Washington l’International Open Government Data Conference co-organisée par Data.gov. L’un des rares (deux) français présents à cette conférence était un jeune doctorant en informatique théorique à l’École Normale Supérieure de Lyon, Adrien Friggeri. Il était invité à présenter sa très intéressante dataviz représentant l’évolution au Sénat américain des groupes d’agréments calculés avec des algorithmes sociaux. Petit entretien avec ce Data Scientist.

 

Data Publica : Tu as réalisé une très intéressante dataviz sur les comportements de votes au Sénat américain, peux-tu nous la présenter en quelques mots ?

Adrien Friggeri : La question de base que je me posais était: « que puis-je dire, en utilisant les données de vote, de la coopération au sein du Sénat US ? » (j’ai choisi le Sénat car il présente la particularité que les sénateurs sont élus pour 6 ans, mais que tous les 2 ans, 1/3 des effectifs est renouvelé, ce qui assure une continuité dans les membres présents au sénat et ce qui facilite les choses dans l’étude de l’évolution de ce qui m’intéressait). La visualisation représente l’évolution de groupes d’agréments — calculés avec les algorithmes sociaux que j’ai développés dans le cadre de ma thèse — au cours des 8 derniers Sénats. Visuellement, le temps s’écoule de haut en bas, et on suit la progression des différents sénateurs qui de session en session appartiennent à différents groupes.

La première chose qui saute aux yeux c’est qu’il y a deux groupes, un à majorité républicaine, l’autre démocrate  : ce n’était pas a priori évident, encore une fois, les groupes sont calculés purement algorithmiquement à partir des données de vote. La seconde chose à noter est la continuité dans les groupes : ils sont assez stables dans le temps, ce qui est du à la stabilité des profils de vote (l’algorithme calcule les groupes indépendamment pour chaque session).

Cliquer sur l’image pour accéder à la dataviz interactive

 

Quel aspect voulais-tu faire ressortir de l’ensemble de ces données ?

Au final donc, il y a une corrélation forte entre les groupes d’agréments déterminés automatiquement d’un point de vue sociologique et les partis politiques. Mais si cette corrélation est forte, elle n’est pas parfaite, ainsi on retrouve parfois des démocrates dans le groupe à majorité républicaine et inversement. Ce qui est intéressant avec cette visualisation c’est qu’elle permet aussi de voir ces artefacts. Quand on rentre dans le détail, on s’aperçoit que ces sénateurs a priori « mal placés » sont en pratique plus près de l’autre bord que du leur.

 

Lesquels en particulier ont retenu ton attention ?

Il y a plusieurs cas qui ont attiré mon attention, notamment 18 démocrates qui ont été groupés avec les républicains dans le 108ème Sénat (il faut se souvenir qu’en 2003 la guerre en Irak a commencé). Mais celui qui m’a posé le plus de problème est Zell Miller, un sénateur démocrate qui a été constamment groupé avec les républicains. À tel point qu’au début j’ai pensé qu’il y avait un bug dans mon implémentation de détection de groupes. Après avoir vérifié qui était ce monsieur, j’ai compris pourquoi il était groupé de cette manière…

 

Dans quel cadre as-tu créé cette visualisation ?

Je suis actuellement en train de terminer mon doctorat en informatique théorique à l’École Normale Supérieure de Lyon (la toute fin d’ailleurs, je soutiens ma thèse à la fin du mois). Dans le cadre de mon doctorat, je me suis penché sur une des grosses problématiques en sociologie quantitative, à savoir la notion de communauté sociale — pour donner quelques exemples simples: familles, groupes de collègues, etc — pour laquelle il n’y avait pas de définition formelle. Pour faire court, j’ai trouvé une telle définition, qui a ensuite été validée par une grosse expérience socio en ligne (http://fellows-exp.com), développé des algorithmes tournant autour de cette notion de cohésion sociale pour détecter automatiquement ces groupes sociaux, etc.

 

Combien de temps as-tu mis pour la réaliser ?

C’est assez difficile à quantifier. Toute la théorie scientifique derrière a mis plusieurs années à être développée. Concernant concrètement l’analyse de données du Sénat US, à peu près un mois (entre la récupération des données, leur analyse, la création de la visualisation, etc.)

Adrien Friggeri

 

Pour quelle raison avoir choisi ce sujet ?

Par sérendipité. Il y a quelques mois, je suis tombé sur plusieurs articles dans la presse US sur la divergence croissante entre les différentes mouvances politiques au sein du congrès. Étant donné que mon sujet d’étude porte justement sur des groupes de gens en interaction je me suis dit que je devrais pouvoir valider ou invalider ces propos en utilisant des données, plutôt qu’un ressenti subjectif.

 

Comment as tu été invité à l’International Open Government Data Conference de juillet (co-organisé par la Banque Mondiale et Data.gov) pour présenter ton travail ?

Rien de bien extraordinaire. Après avoir publié la visualisation sur mon site web, j’ai reçu pas mal de retours, dont un des orgas de la conférence qui m’a suggéré de répondre au call for papers de la conférence.

 

Quel accueil as-tu reçu ?

L’accueil a été très bon. En tant que data scientist, j’ai été très surpris de voir que le focus de la conférence — dont le titre était pourtant « Putting Data to Work » — était plutôt sur la logistique mise en place pour publier des données plutôt que sur leur utilisation. Dans ce contexte, ma présentation qui au contraire exploitait des données pour en tirer des conclusions — notamment sur le fossé grandissant entre les deux grands factions du Sénat US ces 30 dernières années, résultat qui n’est pas présent dans la visualisation — m’a valu un certain nombre de conversations intéressantes. Étonnamment, la conclusion politique semblait tellement évidente aux yeux de certains qu’une petite poignée de gens se sont plus concentrés sur la visualisation elle même.

 

As-tu d’autres projets de ce type ?

En terme d’Open Data, non. Je voulais effectuer le même genre de travail sur l’Assemblée Nationale FR, mais il est impossible de récupérer facilement les données de votes — seuls des PDFs de scans sont disponibles. Ces jours ci, je me consacre entièrement au bouclage de ma thèse, quelques papiers à écrire, etc. (en parallèle de ma thèse, j’ai aussi lancé une application iPhone http://tehula.com, qui occupe mes soirées).

 

Le blog d’Adrien Friggeri

 

Licence Creative Commons
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.





Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>