« Have computer, give me data » : une petite histoire de l’open data dans les sciences du vivant

Ce billet fait suite au séminaire du projet SACRED (Approche communicationnelle des recherches sur les données) du 20 décembre pendant lequel Bruno J. Strasser du département de biologie de l’université de Genève est venu présenté ses travaux sur l’histoire des données dans les sciences.

En étudiant l’histoire des bases de données dans la science (datadriven science), Bruno J.Strasser rappelle que les pratiques et les métiers de l’ouverture des données recoupent des usages anciens de collection et de classification qui avaient cours dès le XVIème siècle dans les sciences naturalistes. Retour sur la lente émergence de nouvelles manières de produire de la connaissance.

Tous aux abris : les météorologues de la donnée annonçent le déluge 

Que ce soit Wired, The Economist ou encore Science, tous s’accordent pour annoncer un déluge de données qui mettrait à défaut notre capacité d’analyse tout en offrant un potentiel formidable d’innovation pour la science. Les métaphores font florès comme celle de la tempête de données, du tsunami de données ou l’inondation de données avec l’idée sous-jacente que nous serions démunis comme face à une catastrophe naturelle.

Dans le domaine de la science, la croissance exponentielle du volume de donnée est parfois considérée comme la fin de la science telle que nous la connaissons. Un des principaux artisans de cette vision est le magazine Wired qui n’a pas hésité à titrer en 2008 sur la « fin de la science« . Annonçant triomphalement l’arrivée d’un nouveau paradigme, Wired prétend que l’analyse de « pétabytes » de données » et la recherche de corrélations va remplacer la méthode hypothético-déductive. La recherche se réduit alors à collecter des données puis à analyser les corrélations qui sortent du traitement statistique. Cette vision rejoint les efforts insensés de Sergey Brin, co-fondateur de Google, dans la recherche en génétique d’un éventuel traitement à la maladie de Parkinson—Brin estimant avoir de très fortes probabilités d’être atteint de cette maladie à cause d’un test ADN.

De ces discours ambivalents, à la fois menaçants et porteurs d’espoir, deux prémisses semblent mettre tout le monde d’accord selon Bruno J. Strasser :

  • ce « déluge de données » est un phénomène nouveau : Strasser rappelle que ce sentiment de surcharge informationnelle (information overload) apparait dès la Renaissance et qu’à chaque fois, des techniques et des usages ont été crées pour y faire face ;  
  • ce sont les transformations technologiques qui vont permettre de donner naissance à une nouvelle ère de la science : l’histoire de la data-driven science montre bien que les facteurs humains jouent un rôle tout aussi déterminant dans l’émergence de nouvelles pratiques scientifiques.

Collectionner des données ou expérimenter : une querelle des Anciens et des Modernes ?

Cabinet de curiosité à ParisL’essor des sciences du vivant a été accompagné par l’apparition à la Rennaissance des cabinets de curiosité où étaient entreposées, classifiées et exposées des espèces hétéroclites. Amasser des plantes et des espèces naturelles était alors un divertissement commun pour la haute société de l’époque. Collectionner et montrer sa collection était un marqueur social d’érudition. Cette tradition de collection relevait principalement d’une science amateur et d’une tradition naturaliste qui aboutit au XIXe siècle aux muséums de sciences naturelles et leurs immenses collections d’espèces. Au début du XXème siècle, cette longue tradition déclina sous l’assaut de la science expérimentaliste qui consacre le laboratoire comme le seul lieu de la recherche scientifique.

Deux méthodes scientifiques et deux traditions épistémologiques divisent au milieu du XXème siècle les sciences du vivant :

  • les méthodes comparatives : collectionner, classifier, comparer, corréler ;
  • les méthodes expérimentales : observer, analyser, généraliser à partir du cas particulier.

Pour Bruno J. Strasser, la datadriven science trouve ses sources dans la tradition comparative dont les pratiques et les métiers sont similaires à celle de cette « nouvelle » manière de faire de la science.

Codifier le génome : une histoire de base de données  et d’individus

Dans une période où l’expérimentation triomphe comme la seule manière de faire de la « vraie » science, le projet de codifier et de numériser l’ADN dans les années 60 marque le retour à la tradition comparative. Enregistrer une base de données, classifier et comparer des séquences de protéines ne diffère pas des pratiques de collection et de comparaison des espèces dans la science comparative. Pour Strasser, le musée et le serveur sont deux objets standardisés qui servent à produire du savoir.

Le premier projet de constitution d’une base de données massive en génétique, l’Atlas of protein sequence, dirigé par Margaret Dayhoff fut un échec du fait de la difficulté à collecter les données venant de chaque laboratoire. Dayhoff ne parvenait pas à convaincre ses collèques de diffuser les données du génome dans sa base de données en raison d’un régime de propriété intellectuelle qui malgré un système d’accès par modem, ne permet pas la redistribution des données. Les données expérimentales sont alors un objet privé qui appartient à celui qui les a produit. Appliquant des techniques de cristallographie issues de la chimie, une discipline proche de l’industrie qui n’a pas pour habitude de diffuser ses données, le projet Protein DataBank lancé en 1969 ne parvient pas non plus à obtenir suffisamment de données et menace de fermer. Ce n’est finalement qu’à la fin des années 70 dans le Nouveau Mexique à l’Université de Los Alamos qu’un projet de base de données génétiques ne parvient à décoller. Il s’agit du projet GenBank conduit par Walter Goad, un scientifique au parcours tumultueux qui a participé sur la bombe H avant de concevoir ce projet qui comporte aujourd’hui les séquences de nucléotides de près de 300 000 espèces.  Quelles ont été les raisons du succès de ce projet ?

La recette de l’open science : échange de capitaux symboliques et apparence d’ouverture

Dès son lancement, GenBank est présenté comme un projet dans lequel l’usager est aussi contributeur. Dans les années 80, ce projet réussit le tour de force de l’open access à une époque où le partage des données des recherches n’a rien d’une évidence. Walter Goad met un place un système vertueux dans lequel il est indispensable de partager des données pour accéder aux publications. Selon Bruno J. Strasser, le succès de GenBank vient de son inspiration de la philosophie des économies morales, un système dans lequel les contributions s’équilibrent pour éviter le problème du passager clandestin (free rider)—en théorie économique, celui qui ne profite d’un système sans contribuer le mettant en péril.

Capture d’écran 2013-01-11 à 17.07.09

L’autre aspect du succès de GenBank sur lequel insiste Strasser, c’est l’apparence d’ouverture du système. « Une force importante de votre projet est son ouverture », écrit un ami de Goad dans une lettre. Pour obtenir le contrat qui a financé le lancement du projet en 1982, son concepteur ne cesse de donner des signes d’ouverture y compris en insistant sur la connexion du service au réseau Arpanet qui commence à relier les universités américaines.

Pour Strasser, le succès de GenBank réside finalement dans le registre symbolique et la communication plutôt que dans la technologie du service.

Nouvelles pratiques, nouveaux métiers

Capture d’écran 2013-01-11 à 17.13.26Avec la disponibilité de données génétiques de plus en plus importantes, de nouveaux métiers émergent, certains parlent même d’une « nouvelle espèce » de scientifiques » (« a new bride of scientists »). Les computational scientist font partie de cette nouvelle manière de faire de la science, ni vraiment expérimentale ni vraiment comparative, qui s’emploie à analyser les données que produisent d’autres. Ils revendiquent rapidement leur statut d’auteur scientifique en proposant des publications aux revues scientifiques, qui voient d’un mauvais oeil ces scientifiques qui abandonnent le microscope pour l’ordinateur en réutilisant les données mises à disposition. En 1987, le journal American Statistics réduit leur travail à cette expresion « Have computer, give me data », signe d’un malaise de la communauté scientifique devant ces chercheurs qui publient en leur nom avec les données des autres.

Autre métier déconsidéré : celui de « database curator », en charge d’enrichir les métadonnées et de nettoyer les données pour les rendre réutilisables. Strasser raconte le témoignage d’un database curator qui se plaignait que personne ne comprenait son travail à un cocktail lors d’une conférence et laissait entendre qu’il n’était pas perçu comme un collègue par ses pairs. On retrouve là une réaction commune devant le travail souvent déconsidéré des « petites mains de la société de l’information » souvent jugés comme des grattes papiers ainsi que l’expliquent Jérôme Denis et David Pontille dans leur article « Travailleurs de l’écrit, matières de l’information« .

Le projet fold.it

Aujourd’hui, l’open access est la norme pour les publications scientifiques bien que les régimes de licence et les coûts de publication dans les principales revues forment un méli-mélo incompréhensible. Les pratiques de réutilisation de données scientifiques sont désormais courantes dans la recherche ; selon Strasser, un des prochains prix Nobel de médecine pourrait même ne « jamais avoir tenu une pipette de sa vie ». Enfin, l’open science questionne le rôle du chercheur : son monopole remis en cause,  le modèle qui émerge rappelle celui des cabinets de curiosité à la Renaissance. En rompant avec l’emprise de la science expérimentale, il est possible d’envisager des formes de science ouvertes à tous. Par exemple, le projet Fold.it se présente sous la forme d’un jeu qui permet à chacun de contribuer à l’étude de la structure des protéines en résolvant des puzzle.