Le compteur d’Orléans

Paris, métro Porte d’Orléans, octobre 2012.

Le poinçonneur des Lilas a disparu, remplacé par des machines qui oblitèrent le ticket, valident le Navigo et par la même occasion, comptent les passagers (enfin je suppose). Le métro Porte d’Orléans se trouvant au terminus de la ligne 4, les concepteurs de la station de métro ont fait le choix de ne pas mettre de portes-palières qui, tout en bloquant les resquilleurs, facilitent le comptage des passagers.

En cette heure de pointe, la station est cernée à chaque sortie par des personnes arborant des gilets rouges, rappelant les périodes de pointe des gares. Leur veste indique au passant « enquête » au dos et « comptage » en face. Ambivalence du rôle de ces enquêteurs qui se partagent la tâche du comptage des voyageurs et du sondage qualitatif qui informera la RATP de la satisfaction des usagers.

La feuille de papier de l’enquête a été remplacée par un iPad qui affiche les questions et recueille les réponses. Plus surprenant, une des personnes à la sortie utilise ses doigts pour compter les voyageurs. Probablement une solution provisoire en attente du compteur manuel du type de ceux qu’on trouve dans les avions.

Le compteur d’Orléans nous rappelle que les données ne tombent pas du ciel. Des « petites mains » comptent, évaluent et estiment le nombre de voyageurs qui passent chaque année dans les stations du métro de Paris avant que ce chiffre soit compilé avec les données récoltées de manière automatique, harmonisé et publié dans un fichier sur data.gouv.fr.

Pour vous expliquer simplement, ma thèse consiste à comprendre ce qui passe entre les deux images qui illustrent cet article.

data.gouv : fichier de la RATP trafic de voyageurs

Data.gouv.fr met à disposition un fichier qui comporte le trafic annuel de chaque station

Open Knowledge Festival 2012 : l’ouverture à toutes les sauces

Pour inaugurer ce blog qui sera mon carnet de recherche tout au long des trois ans de ma thèse, je reviens sur l’Open Knowledge Festival (OKFest) qui se tenait du 17 au 22 septembre à Helsinki. Le choix de la Finlande par l’Open Knowledge Foundation n’est pas anodin : comme beaucoup de pays nordiques (les Finlandais ne sont pas scandinaves), la Finlande se distingue par une culture de l’ouverture qui fait qu’un tel événement coïncide bien avec la culture du pays.

Les organisateurs ont pu bloquer pendant une semaine l’impressionnante école du design de l’université Aalto qui s’est avérée être le lieu idéal pour un tel événement : immenses studios de cinéma pour le hackspace, un Fab Lab dans l’université et des dizaines de salles de conférence. Avec cette logistique, l’Open Knowledge Foundation a pu voir grand : le programme s’étale sur pas moins de 13 sujets qui se sont déclinés toute la semaine.

Inspire, hack, make+meet at Open Knowledge Festival L’Open Knowledge Foundation a inscrit tous les événements sous la bannière d’un thème : « open knowledge in action ». Pour dépasser les éternelles discussions sur les vertus de l’ouverture, des verbes d’action rythmaient chacune des séquences du programme : INSPIRE, HACK, MAKE, MEET. Tour d’horizon de quelques moments forts de l’Open Knowledge Festival.

Les « makers » à l’honneur

Badge Open knowledge Festival gravé en 3D

Pour nous en mettre plein les yeux, les organisateurs ont eu l’idée de graver au laser 700 badges nominatifs sur des planches de bois. L’ « open hardware » et les « makers » ont ainsi rythmé la semaine : fabrication d’un graveur laser en quelques heures, découvertes de toutes les variétés possibles d’imprimantes 3D, visite d’un makerspace (Made in Kallio) où l’on conçoit des vêtements, on imprime des objets en 3D et on fabrique des appareils qui automatisent les cultures hydroponiques.

Pour l’instant, l’impression 3D relève du gadget mais on peut voir émerger des applications concrètes. Par exemple, cette figure de Yoda préfigure une des premières victimes des imprimantes 3D qui pourraient être l’industrie du merchandising. Bien que l’impression 3D ne produisent pas encore d’objets lisses, jusqu’à quand les détenteurs de droits d’auteurs vont-ils pouvoir vendre à prix d’or qui peuvent être facilement reproduits avec ce genre d’appareils ?

Les sciences humaines se penchent sur l’open data et son impact

La session sur la recherche sur l’open data a permis de mettre en avant des projets en sciences humaines portant sur les données publiques.

Antti Halonen, chercheur au Finnish Institute of London, nous a présenté son pasionnant papier « Being open about open data » pour lequel il a interrogé une centaine de représentants de communes britanniques ayant entrepris une démarche d’open data. Un article à remettre un perspective avec le contexte britannique où les données financières des communes sont publiques et réutilisables par défaut (voir l’excellent site OpenlyLocal).

Ses conclusions soulèvent d’intéressantes pistes à creuser pour les recherches à venir :

– l’open data a été jugé comme remplissant un objectif politique ;

– l’autorité nationale en charge de l’ouverture des données a été jugée avec défiance car les communes ont perçu cette initiative comme une manière de restreindre leurs dépenses ;

– l’intérêt général autour des données libérées était plus faible qu’attendu ;

– le terme « open » a été perçu différemment entre la communauté open data et les personnes en charge de la mise à disposition des données.

Plus largement, son papier invite à ne pas négliger la dimension politique de l’open data et l’incompréhension que peuvent susciter une démarche d’open data imposée par le haut sans concertation.

Allotment data on the Guardian

Farida Vis, chercheuse à l’Université de Leicester, présentait son travail sur les données liées aux allotments, des terrains publics qui, en Grande Bretagne, sont réservés aux citoyens pour y faire pousser des légumes. Elle a constaté que l’allocation de ces terrains faisait l’objet d’une « loterie » aux critères obscurs. Les données concernant l’allocation de ces terrains sont fragmentées, propriété à la fois des associations en charge de la gestion des terrains, des communes. Elle est alors partie à la chasse aux données, en revendiquant leur disponibilité du fait du Freedom of Information Act qui en Grande-Bretagne permet de demander l’accès et la réutilisation des données. Le site Allotment Data  regroupe des données concernant la liste d’attente, les coûts de location et d’entretien du terrain et surtout leurs conditions d’attribution. Pour Farida, ce sont des données « vraiment utiles » qui servent la population de manière très concrète. Après avoir rendu publiques les données en 2006, les tabloids se sont saisis de l’affaire et ont dénoncé les conditions opaques d’attribution des terrains. Dans ces médias grand public, Farida explique que la question de l’open data a été complètement éludée car seul comptait le scandale de l’attribution des terrains. « Drop a bit of open data« , clame-t-elle, il s’agit avant tout de parler des conditions sociales de l’accès à l’alimentation.

Simon Rogers (Guardian) : une visualisation ne suffit pas à faire du datajournalisme

L’intervention de Simon Rogers, en charge du Datablog du Guardian, a marqué le départ de la session sur le datajournalisme. Selon lui, la disponibilité des données dans des portails open data n’est pas suffisante : « Bahrein et l’Arabie Saoudite ont des portails open data, cela n’en fait pas des sociétés transparentes« . Il estime que les visualisations ne suffisent pas à donner du sens à un phénomène. Il faut raconter une histoire avec des données en s’appuyant  sur les méthodes du récit journalistique ou en utilisant les données pour raccrocher à l’histoire personnelle du lecteur. Il donne l’exemple de cet outil  qui permet à chacun d’identifier où ses revenus se situent par rapport au reste de la population britannique.

Cartes des émeutes de Londres en fonction de la pauvreté des émeutiersLes données peuvent aussi servir à questionner les préjugés qui sont communiqués dans les médias. Lors des émeutes à Londres, le Datablog a utilisé les données disponibles sur les personnes condamnées pour remettre en cause l’affirmation de David Cameron pour qui « les émeutes n’ont rien à voir avec la pauvreté ». Les datajournalistes ont choisi de se baser sur l’adresse du condamné, plutôt que sur le lieu du délit, pour montrer une corrélation entre la pauvreté et la participation aux émeutes.

Etendre l’open data à l’économie

Le hackspace de l'open knowledge festival à Helsinki

Le hackspace de l’open knowledge festival

L’OKFest a aussi permis de révéler les projets d’entreprises qui se lancent dans l’open data. Simon Redfern, qui a créé Tesobe, a présenté Open Bank qui développe une API faisant l’interface entre le système d’information d’une banque et des applications pouvant réutiliser les données des clients qui ont choisi de les libérer. Open Bank vise en premier lieu les organisations caritatives qui, du fait des dons qu’elles reçoivent, pourraient se voir exiger de donner accès aux transactions qui s’effectuent sur leurs comptes. Les particuliers pourraient aussi avoir recours à un tel service pour utiliser des applications tierces comme Fairnopoly ou MoneyGarden pour gérer leurs finances. Un projet qui s’inscrit dans la lignée de l’API du Crédit Agricole (qui a consulté Tesobe) ou de l’ambitieux projet Midata soutenu par le gouvernement britannique (dont la FING travaille sur une adaptation en France).

En guise de démo, Simon a tenu à nous présenter son application qui émet un bruit différent selon si l’argent entre ou sort du compte de sa société, et selon le montant. C’est inaudible mais ça explique le titre de sa présentation « pourquoi votre banque devrait chanter ».

Plus concrètement, Open Bank est un projet open source qui vise à créer un standard dans la diffusion des données bancaires. Il serait intéressant d’assister aux discussions musclées entre les DSI des banques qui ont la sécurité des données pour priorité et cet acteur de l’ouverture.

Dans la même veine, le barcelonais Javi Creus a résumé les avantages de l’ouverture pour des entreprises. Il revient sur quelques exemples bien connus d’entreprises ayant eu recours à l’open data ou à l’open source pour développer leurs activités : IBM qui a failli disparaitre s’il n’avait pas soutenu Linux, Google qui a envahi le marché des téléphones en quelques années avec Android… Plus surprenant, le restaurant El Bulli, réputé comme le « meilleur restaurant du monde », qui fait l’objet d’un long article dans Wired ce mois-ci,  entreprend la constitution de la Bullipedia. La elBulli Foundation, qui a remplacé le restaurant fermé en 2010, chapeautera la Bullipedia qui contiendra les recettes du restaurant, ses techniques et même les plans de certains moules utilisés dans le restaurant spécialiste de la cuisine moléculaire. Javi cite aussi l’exemple d’Arduino, le circuit imprimé qui sert à bon nombre de projets Do It Yourself actuels, dont toutes les spécifications sont ouvertes et réutilisables. Seule la marque Arduino fait l’objet d’une licence qui oblige de les entreprises à reverser 10% des revenus des ventes du circuit imprimé.

Le débat sur l’open science continue

Le mouvement open data trouve ses sources dans l’open science qui postule que les publications scientifiques et les données de recherche sous financement public doivent être publiées sous licence ouverte (Creative Commons) et réutilisables. Cette revendication a mené à la création de nombreuses revues scientifiques dites « open access ». Mais derrière cette bannière, les licences et les coûts de publication varient énormément comme le montre ce graphique de Ross Mounce qui positionne les revues selon ces deux facteurs :

Open science revues graph

L’hétérogénéité des régimes s’explique par le cout qui peut provenir de la publication et du travail de relecture par les pairs (les relecteurs sont toutefois rarement payés). Se pose alors la question du coût du gratuit : qui doit soutenir l’existence et la pérennité des revues en open access ?

Au delà de la question de l’accès ouvert aux publications, les scientifiques présents à l’OKFest sont revenus sur l’accès libre aux données de la recherche. Venu spécialement de Sidney, Mat Todd présentait un cas intéressant d’application de l’open source à la recherche pharmaceutique. Il dépeint un tableau noir de l’avenir de la recherche pharma : découvrir un médicament prend beaucoup de temps, les maladies deviennent de plus en plus difficiles à traiter et les laboratoires ne découvrent pas assez de nouveaux traitements pour rester rentables.

S’appuyant sur la métaphore bien connue de la cathédrale et du bazar, Mat Todd prône l’application des principes de l’open source à la recherche pharmaceutique. Dans le cadre du traitement de la schistosomiasis qui affecte 400 millions de personnes dans le monde contaminées par l’eau qu’elles consomment, il a expérimenté une méthode où chaque étape de sa recherche était publique, discutable et revue par des pairs sur le site The synaptic leap. Il y publie régulièrement les données de son laboratoire et l’avancée de ses recherches. Cette démarche a attiré rapidement des spécialistes qui ont déposé des micro-contributions qui ont fait avancer rapidement le projet. Les discussions avaient lieu sur le site mais aussi sur la page Google+ informelle du projet. Au terme du projet, ils sont arrivés à obtenir une manière de synthétiser le traitement de la schistomastis bien moins couteuse que les médicaments existants. Mat Tood plaide pour une science dans laquelle la publication de chacune des étapes du cycle de la recherche permettrait de disposer continument de l’avis et des remarques des spécialistes d’un champ particulier. Il appelle cela continually peer-reviewed research.

La statistique : vedette de l’OK Fest

Le rapport des Ponts sur l’open data « Pour une politique ambitieuse des données » commence par cette citation de Hal Varian, économiste en Chef chez Google « Je répète sans cesse que la profession sexy dans les dix prochaines années, ce sera statisticien. Et ce n’est pas de l’humour ». Quelques projets présentés par les grands organismes statistiques donnent, dans une certaine mesure, raison à cette prédiction.

Lors de la session sur les données du développement, l’institut national Statistics Finland a présenté son projet Findicator qui vise à faciliter l’usage des données statistiques publiques par les politiciens, leurs assistants, les journalistes et les journalistes. Le site est le fruit d’une enquête de plusieurs mois/années sur les usages de la statistique par leurs acteurs du débat public. Il permet de présenter de manière simple les données disponibles sur la Finlande, de les visualiser et renvoie vers les équivalents internationaux. L’Insee devrait s’en inspirer tant le site est simple et facilite l’accès à la statistique.

L’OCDE est venue présenter son projet Better Life Index  dans lequel chacun peut définir son indicateur de bien-être en fonction de ses critères : sécurité, éducation, économie… Ils ont recours aux services d’un data-journaliste, Moritz Stefaner, qui a eu l’idée d’une visualisation en pétale de chaque critère.

Dans la même veine, le projet Yourtopia permet à chacun de créer son propre indicateur de développement à l’échelle internationale et à l’échelle d’un pays.

Hans Rosling Open Knowledge Festival

Hans Rosling expliquait l’évolution de la population dans le monde avec des rouleaux de papier de toilettes (image : cc OKFN)

Pour conclure cet aperçu de l’Open Knowledge Festival, je voulais revenir sur l’intervention du charismatique scientifique suédois Hans Rosling qui dirige la fondation Gapminder. Le médecin suédois adepte de la data-visualisation est revenu sur la difficulté d’obtenir des données au début de son projet. Arborant une canne à pêche pour pointer les chiffres qu’ils présentent, ses visualisations et son récit pointent du doigt nos préjugés sur l’évolution des populations dans le monde et de la santé de ses habitants. Un des points les plus intéressants de son intervention, que vous pouvez retrouver dans le compte-rendu du blog du Monde « J’ai du bon data », est sa réflexion sur le rôle des données dans la manière de raconter des histoires : « Vous ne faites pas grand chose avec l’open data, vous ne faites pas grand chose avec la visualisation de données, mais ce sont deux outils formidables pour raconter des histoires. » Ramener les données à un outil pour raconter des histoires, un bon résumé du thème de ce festival : open knowledge in action.