Les coulisses de l'open data

Carnet de recherche de Samuel Goëta, doctorant en sociologie à Télécom ParisTech.

« Raw data is an Oxymoron » : les données brutes sont-elles une fiction ?

Publié le avril 30, 2013 par Samuel Goëta

La recension qui suit sera publiée dans le prochain numéro de la revue Réseaux qui portera sur les bases de données.

Lisa GITELMAN (dir.), Raw Data is An Oxymoron, Cambridge, MIT Press, 2013, 182p.

Màj : je publie moi-aussi mes « données brutes » (en tout cas primaires au sens de la Sunlight Foundation) avec mes notes sur l’ouvrage (format .mm lisible avec FreeMind)

Lors d’une conférence TED en 2008, le « père du web » Tim Berners-Lee demandait à la salle de s’exclamer « nous voulons des données brutes. » Depuis, cette revendication ne cesse de se propager sans qu’un accord ne se dessine sur la définition d’une donnée « brute ». Telle une photographie toujours cadrée et sélectionnée pour relayer un message, les données sont produites et « imaginées » selon des objectifs qui guident leur production et leur transformation, nous rappelle en introduction Lisa Gitelman, l’éditrice de cet ouvrage collectif d’étude des sciences.

L’ouvrage s’ouvre sur une réflexion sur les origines et la circulation du terme « donnée » (chapitre 1). Pour Daniel Rosenberg, « donnée » sert une fonction rhétorique : alors qu’un fait ou une preuve perdent leur qualité lorsqu’ils s’avèrent faux, une donnée reste une donnée même lorsqu’elle est contredite. En 1646, data entre dans l’Oxford English Dictionary dans sa forme plurielle après des apparitions en mathématiques et en théologie. A l’issue d’un codage manuel des occurrences du terme data dans une base de données sur les publications en anglais au 18^e siècle, Rosenberg conclut que sa signification s’enrichit du sens « d’information disponible sous forme chiffrée ». Pour autant, les deux sens se mélangent encore aujourd’hui et font la force sémantique de ce terme.

Tout comme les données « brutes » sont souvent présumées objectives, la supposée universalité et intemporalité des mathématiques font l’objet du chapitre 2. Son auteur, Travis D.Williams, s’intéresse aux premiers problèmes mathématiques et à la lecture qui peut en être faite de nos jours. Il y questionne l’idée que les chiffres ne mentent jamais et que notre subjectivité n’affecte pas la lecture que nous pouvons avoir d’un problème mathématique qui date du 16^e siècle : « ne redéfinissez pas nos mathématiques comme leurs mathématiques simplement parce que leurs détails ne sont pas pleinement lisibles selon nos conventions. » (p.48)

Les deux chapitres qui suivent s’attachent à reconstituer l’émergence de l’idée de données « brutes » au sein de divers environnements scientifiques. Dans « From Measuring Desire to Quantifying Expectations » (chapitre 3), Brine et Poovey reviennent sur les premiers travaux de l’économiste Irving Fisher. Pour eux, relire les débuts de l’analyse quantitative de l’économie doit nous rappeler que « les données économiques ne sont jamais brutes, au sens de non interprétées. » (p.61) Afin que Fisher parvienne à utiliser les données disponibles, il a dû avoir recours à une multitude d’opérations qu’on nomme de nos jours le nettoyage des données (data scrubbing). En fabriquant une donnée « nettoyée », l’économiste efface l’histoire de la donnée pour asseoir l’objectivité de son analyse.

Dans « Where Is That Moon, Anyway ? » (chapitre 4), Matthew Stanley déconstruit la présumée simplicité et objectivité de l’astronomie de positions. Alors qu’il semblerait que les paires d’angles seraient la forme la plus brute de données scientifiques, l’article montre que les observations ne deviennent des données astronomiques qu’après une analyse littéraire, historique et psychologique de textes anciens. Pour disposer du coefficient de variation séculaire de la lune, les astronomes ont dû parcourir les chroniques antiques grecques, chinoises et assyriennes à la recherche de récits d’éclipses. Dans un bel exemple de data friction selon l’expression de Paul Edwards[1], des astronomes au 20^e siècle ont réévalué le coefficient et les récits originaux des éclipses qui ont servi à son élaboration : « le texte n’a pu devenir une donnée qu’avec une connaissance précise de la grammaire latine. » (p.84)

La paire d’articles qui suit s’attèle à décrire une archéologie de la notion de bases de données. Dans « facts and FACTS »: Abolitionists’s Database Innovations » (chapitre 5), Ellen Gruber Garvey revient sur l’histoire d’American Slavery As It Is: Testimony of a Thousand Witness, un ouvrage essentiel de la cause abolitionniste constitué en grande partie par les annonces de fuites d’esclaves publiées dans les journaux du sud des Etats-Unis. American Slavery As It Is publié en 1839 a recours à un index détaillé et à des catégories pour un accès rapide à l’information. Base de données, ses auteurs ont eux aussi nettoyé les annonces pour éviter qu’elles servent à capturer les fugitifs. L’article décrit le travail accompli pour enrichir les matériaux pour en constituer une base de données et non une « collection d’anecdotes. »

Le chapitre 6 s’intéresse à la matérialité de la production du savoir à travers les pratiques d’indexation du sociologue allemand des systèmes Niklas Luhmann. Ce dernier a passé sa vie à remplir des boites entières remplies de fiches synthétisant ses lectures et les idées. Par un jeu d’indexation et de mise en relation des cartes, Luhmann est parvenu à créer un « couplage génératif de l’homme et de la machine » (p.105). Dans ce système, chaque carte représente une unité d’information distincte, indexée et reliée, une datum au sens original du terme. Les cartes indexées formeraient une « réduction » nécessaire à la construction de la théorie de la complexité de Luhmann.

L’ouvrage se termine sur une perspective actuelle étudiant l’omniprésence de la collecte de données et la complexité de la maintenance des données scientifiques. Dans le chapitre 7, Rita Raley s’intéresse au concept de dataveillance conçu comme une pratique disciplinaire de contrôle, d’agrégation et de tri des données. La collecte systématisée et quasi invisible des traces rend possible des pratiques prédictives de conjecture et prescriptives d’incitation. Face à cette nouvelle ère de la surveillance, Raley affirme l’importance de la counterveillance, un ensemble de pratiques artistiques, politiques et technologiques qui répondent à la dataveillance. Ces dispositifs exploitent des vulnérabilités ou mettent en scène la capture de données pour mieux prendre conscience de son omniprésence.

Image : Baltimore Ecosystem Study

Le dernier chapitre « Data Bite Man: The Work of Sustaining a Long-Term Study » décrit les données comme des « créatures éphémères » (p .147) menacées par la disparition ou la dégradation sans intervention humaine. Ses auteurs suivent les pratiques scientifiques d’une équipe de biologistes à Baltimore qui réalise des relevés dans une rivière. Leur objectif est de constituer une base de données dite longitudinale qui permette la comparaison au fil des années. En décrivant étape par étape la chaine qui mène à la publication de la donnée, ils invitent à une lecture qui dépasse « la fiction de la commodité des données » (p.147) qui les résume à une matière première qu’on pourrait extraire sans les travailler. La « chorégraphie ontologique » (p.148) des chercheurs vise à préserver la capacité des données à décrire le même phénomène au fil des années dans une écologie changeante. Les métadonnées jouent un rôle essentiel dans la préservation de l’archive : sans elles, les flacons remplis d’eau de la rivière ne correspondent plus aux lignes des bases de données qui les quantifient. L’article se conclut sur une réflexion perplexe sur la notion ici étudiée : à aucun moment de son cycle de vie, une forme « brute » n’apparaît selon Ribes et Jackson.

La richesse des domaines étudiés fait assurément la valeur de cet ouvrage collectif et illustre la pertinence de l’étude des sciences pour comprendre les pratiques anciennes et maintenant répandues de production et de diffusion de données. Néanmoins, les chapitres 2 et 6 égarent quelque peu le lecteur en ne s’intéressant à la notion de données « brutes » qu’en marge de leur réflexion. L’étude des pratiques scientifiques nous rappelle aussi que la notion d’objectivité souvent associée aux données dites « brutes » doit être relativisée face à l’émergence d’un nouveau positivisme de la donnée prônant l’evidence-based decision making .

Il ressort de Raw Data is An Oxymoron que la notion de données brutes reste empreinte d’un flou. Les auteurs peinent à distinguer une temporalité ou une forme qu’on pourrait qualifier de « brute » dans le cycle de vie des données. Pourtant, les acteurs qui produisent et diffusent des données ont recours à cette notion et évoquent des pratiques de « rebrutification » ce qui témoigne de son utilité, un aspect négligé par l’idée même d’une fiction des données « brutes » en filigrane tout au long de l’ouvrage. La postface de Geoffrey Bowker se termine par une réflexion sur l’impact social de l’émergence des bases de données orientées objets à la structure évanescente à la place des structures figées dans un schéma qui caractérisent les bases de données relationnelles. Si comme Ribes et Jackson l’affirment, nous avons domestiqué les données autant qu’elles nous ont domestiquées, cette évolution technique ouvre des perspectives passionnantes pour l’étude des organisations.

[1] EDWARDS Paul, A Vast Machine : Computer Models, Climate Data, and the Politics of Global Warming, Cambridge, MIT Press, 2010.

[Note de lecture] Fred Turner, Aux sources de l’Utopie Numérique

Publié le mars 22, 2013 par Samuel Goëta

Répondre

Dans Aux sources de l’Utopie Numérique, Fred Turner revisite l’histoire des origines intellectuelles et sociales d’Internet en suivant le parcours de Stewart Brand, un « entrepreneur réticulaire. » (p.41) L’ouvrage s’ouvre sur une interrogation : comment se fait-il que le mot révolution soit sur toutes les bouches à l’évocation des technologies numériques alors qu’elles étaient le symbole d’un système inhumain qui a mis le monde au bord de l’apocalypse nucléaire ? Pour y répondre, l’auteur s’attache à retracer les origines de l’utopie numérique dans la trajectoire de Stewart Brand, au croisement des mondes sociaux, des idéologies et des objets technologiques.

Vivre « sous la haute surveillance de machines pleines d’amour et de grâce »

Déclinant les « glissements politiques de la métaphore numérique », le premier chapitre souligne le rôle essentiel de la cybernétique de Norbert Wiener qui conçoit les objets techniques et les humains comme un même système socio-technique. Dessinant un monde où l’information modèle l’ordre social, la cybernétique a fondé la réflexion du jeune Stewart Brand sur la société et les médias. Avec la perspective terrifiante de l’apocalypse nucléaire et entourés d’appareils, la génération de Stewart Brand percevait la société comme une machine automatisée dont il faudra
« peser de tout [son] corps sur ses engrenages » (p.48) selon l’expression de Mario Savio.

Le poème de Richard Brautigan « Il me plaît à imaginer une écologie cybernétique où nous sommes tous libres de tout travail réunis à la nature, mêlés aux mammifères nos frères et soeurs et sous la haute surveillance de machines pleins d’amour et de grâce. »

Face à la crainte de l’aliénation de la culture adulte, deux mouvements sociaux distincts ont émergé de cette période : la Nouvelle Gauche qui lutte pour les droits civiques et se mobilise autour de l’action politique, et les Nouveaux Communalistes, un mouvement introverti tourné vers la conscience et l’intimité. De manière surprenante, ces derniers vont adopter les pratiques sociales collaboratives et l’euphorie technologique des laboratoires de recherche militaire. La cybernétique permettait aux habitants des communautés alternatives de rêver d’un mode de vie « sous la haute surveillance de machines pleines d’amour et de grâce » (p.87).

Inspiré par la microbiologie et la cybernétique, le jeune Stewart Brand perçoit les bureaucraties comme des monocultures néfastes. Il fait de la libération de l’individu un objectif personnel impérieux. Après son service militaire, il se rapproche de l’USCO, une troupe qui invente l’art du happening, une célébration de la technologie et des communautés mystiques. En découvrant les écrits de Marshall McLuhan et Buckminster Fuller, Brand perçoit la technologie comme un outil de transformation collective et individuelle. L’idéal du « designer compréhensif » proposé par Fuller façonne l’entrepreneur que deviendra Brand. Situé en dehors des laboratoires, le designer compréhensif observe les technologies qui y sont développées et les convertit en outils dédiés au bonheur humain. Par la suite, la trajectoire de Brand rencontre celle de Ken Kesey auteur de Vol au dessus d’un nid de coucou qui l’initie au LSD. En fréquentant la troupe des Merry Pranksters adeptes du trip, Brand prend conscience que les technologies militaires comme le LSD ou le stroboscope peuvent transformer l’individu et la société.

Les domes géodésiques faisaient partie du projet d’harmonie des énergies de Buckminister Fuller. Cette architecture fascinaient Stewart Brand qui organisa de nombreux événements dans des domes.

Devenir l' »égal des dieux » par l’accès aux outils

L’aventure Whole Earth démarre lors d’un trip sous LSD qui pousse Brand à imprimer des badges « pourquoi n’avons pas encore vu une photographie de la terre entière ? » Pour l’auteur, plus qu’une simple publication, le Whole Earth Catalog est une technologie intellectuelle. « Forum réseau », le catalogue propose un espace où les différentes communautés produisent à la fois de nouveaux cadres intellectuels et de nouveaux réseaux sociaux. « Objet frontière » au sens de Star et Griesemer, il circule dans plusieurs mondes sociaux et correspond au langage et aux attentes de chacun.

Avec son image de la Terre vue du ciel en couverture, le projet inspire le pouvoir divin de contempler et veut faire du lecteur l’ « égal des dieux » à l’échelle locale. Ses textes font l’éloge des leaders qui auront maitrisé les forces du système en modifiant leur esprit. L’élite cybernétique glorifiée dans le catalogue ne fait que reproduire les hiérarchies traditionnelles de la société américaine en proposant un mode de vie masculin, instruit et blanc. Ignorant les questions ethniques ou de genre, le catalogue porte aussi un regard distant sur le conflit au Vietnam.

Le quatrième chapitre évoque un changement de perception qui s’opère lorsque les ordinateurs de bureau deviennent individuels et intuitifs comme si « les appareils au travers desquels les leaders du gouvernement et de l’industrie cherchaient autrefois à contrôler le monde leur avait été arrachés des mains. » (p.176) Brand prend conscience tardivement du potentiel de l’informatique. Dans un article de 1972 dans le magazine Rolling Stone, il met les hackers sur un pied d’égalité avec les rock stars. Selon lui, cette nouvelle élite va hâter l’avénement d’une informatique personnelle et émancipatrice : « qu’ils le veuillent ou non, les ordinateurs arrivent chez les gens…c’est une bonne nouvelle, la meilleure peut être depuis les drogues psychédéliques. » (p.194) Au moment où les communautés alternatives se disloquent, le Whole Earth Catalog héberge un débat sur le rêve de colonies spatiales. Les lecteurs-contributeurs s’opposent entre la dénonciation de nouvelles bureaucraties technocratiques et ces « cathédrales pour les hippies » qui pourraient donner une seconde chance aux Nouveaux Communalistes. Un débat qui témoigne de la tentation de transférer le désir de construire un foyer communautaire vers les technologies de grande échelle.

Communauté virtuelle, influence réelle

Après l’échec de Coevolution Quarterly inspiré des théories écologistes, Brand lance en 1983 le Whole Earth Software Catalog pour identifier les meilleurs outils informatiques. Mais les longs cycles d’impression lassent Brand qui se passionne pour le système de la téléconférence informatisée du fait de sa capacité à fournir un feedback immédiat. Il lance alors le WELL qui s’appuie sur un système de bulletins électroniques (BBS). Peu coûteux, le WELL proposait un système d’auto-gouvernance qui pourrait ressusciter le rêve néo-communaliste d’une communauté de conscience partagée. A l’heure des « organisations en réseau » (Manuel Castells), le WELL devient un tremplin professionnel pour ses personnalités comme Howard Rheingold qui exporte le terme de communauté virtuelle ou John Perry Barlow qui s’accapare le mot « cyberespace » et décrit l’Internet comme une « frontière électronique. » L’arrivée de hackers sur le WELL pousse Barlow à considérer le hacking comme une composante majeure de la liberté d’expression dans le cyberespace. En réaction à leur répression par le gouvernement, il crée l’Electronic Frontier Foundation qui joue encore aujourd’hui un rôle déterminant dans la défense des libertés numériques.

A la fin des années 80, la rhétorique de la « nouvelle économie » et de la dématérialisation prend de l’ampleur. Le président Reagan affirme en 1988 : « l’invention humaine rend de plus en plus obsolètes les ressources matérielles. » (p.277) Brand est alors fasciné par Nicholas Negroponte qui présente en 1984 le projet du futur Media Lab du MIT qu’il considère comme le foyer d’une nouvelle forme de performance artistique et technologique « [faisant] de l’individu le pilote des nouvelles technologies. » (p.183) Alors que les entreprises se passionnent pour les réseaux et les organisations alternatives, Brand anime une série de conférences pour de grandes entreprises organisée par le Global Business Network (GBN). Il utilise son expérience des happenings et propose aux chefs d’entreprise une intense expérience de communion interpersonnelle. En liaison avec le WELL, Brand tente de constituer avec les membres du GBN une élite collaborative et nomade capable de distinguer des lois invisibles au coeur des systèmes naturels et économiques.

Wired à la jonction entre contre-culture et ultra-libéralisme

Les années 1990 donnent un tournant plus politique au parcours de Brand et de ses acolytes. Un républicain anti-étatiste et individualiste membre du WELL, Louis Rossetto, recrute Kevin Kelly disciple de Brand et éditeur de Coevolution Review pour créer le magazine Wired. En utilisant la rhétorique universaliste et les réseaux du Whole Earth, Wired propose un forum permettant à la nouvelle droite au sein du parti républicain de répandre ses analyses libertariennes. Le réseau y est décrit comme une œuvre de la main invisible, « une forme exaltante de métaphore pour décrire un ordre spontané. » (p.344) En 1997, comble de l’euphorie technologique qui précéda l’éclatement de la bulle Internet, Wired annonce en couverture le long boom : « 25 ans de prospérité, de liberté et d’un meilleur environnement. »

Repenser les origines de l’utopie numérique

Au delà de mettre en lumière le rôle méconnu de Stewart Brand dans la formation de l’utopie numérique et des réseaux sociaux qui l’ont portée, Fred Turner apporte une importante contribution à la compréhension des objets-frontières tels que le Whole Earth Catalog ou le WELL dans la constitution des imaginaires des techniques. L’ouvrage nous pousse à reconsidérer les sources intellectuelles d’Internet au confluent des transformations technologiques et organisationnelles des laboratoires militaires et de la pensée cybernétique. Il pèche néanmoins par sa rhétorique universalisante qui limite l’histoire sociale de l’utopie numérique à l’environnement américain de Brand et ignore ainsi les expériences de l’équipe d’Alan Turing à Bletchley Park ou l’émergence du mouvement Free/Libre Open Source autour de Richard Stallman aux Etats-Unis ou de Linus Torvald en Finlande. Forest Gump de l’Internet, Aux Sources de l’utopie numérique nous fait parcourir l’histoire américaine en suivant un esprit audacieux imprégné des idéaux et des expériences de sa jeunesse qui parvient à former les réseaux et les imaginaires des objets de notre quotidien.