Skip to content

Classiques Garnier

Les données de la recherche Un objet de la recherche en sciences humaines et sociales ?

  • Publication type: Journal article
  • Journal: Études digitales
    2016 – 2, n° 2
    . Le gouvernement des données
  • Author: Cotte (Dominique)
  • Abstract: Researchers from all disciplines are subject, as part of a general movement towards transparency, to the injunction to make data and their publications open—in channels that are different from traditional channels. We should wonder about what these data mean, especially in the field of human and social sciences. The information and communication sciences are well equipped to think about the question of research data.
  • Pages: 23 to 39
  • Journal: Digital Studies
  • CLIL theme: 3157 -- SCIENCES HUMAINES ET SOCIALES, LETTRES -- Lettres et Sciences du langage -- Sciences de l'information et de la communication
  • EAN: 9782406070641
  • ISBN: 978-2-406-07064-1
  • ISSN: 2497-1650
  • DOI: 10.15122/isbn.978-2-406-07064-1.p.0023
  • Publisher: Classiques Garnier
  • Online publication: 08-12-2017
  • Periodicity: Biannual
  • Language: French
23

LES DONNÉES DE LA RECHERCHE

Un objet de la recherche
en sciences humaines et sociales ?

Soumis à des injonctions concernant le traitement et la mise à disposition de leurs « données », les chercheurs en Sciences humaines et sociales (SHS) sont en même temps particulièrement armés pour penser le phénomène et introduire une dimension réflexive.

Nous empruntons à Jean Davallon1 la notion de construction dun objet scientifique à partir de la relation qui se crée entre les objets concrets et leur manipulation comme objets de recherche par les chercheurs. Le discours général des instances de pilotage de la recherche et de la pratique scientifique tend à réifier la notion de « données de la recherche » en présentant ces dernières comme des choses acquises, déjà-là, « données » et auxquelles il conviendrait dappliquer un certain nombre dopérations, afin de les mettre à disposition dans une logique de « science ouverte ». Or, il nest rien moins évident de définir avec précision ce que sont les « données de la recherche » en SHS2. Cette contribution constitue une première proposition pour créer un cadre détude et danalyse, à la fois de ce que sont les « données de la recherche » en SHS et du positionnement que cela implique pour les chercheurs.

24

LA « DONNÉE »,
QUEST-CE QUE CEST AU JUSTE ?

En reprenant le titre dun article de blog de Sylvie Fayet nous pouvons dire que les « données » sont des « mal nommées3 ». Bruno Latour proposait demployer le terme d« obtenues4 » afin dinsister sur le processus de production qui encadre la fabrication de la donnée. Les chercheurs ne sont pas des « chasseurs-cueilleurs » qui prennent ce quils trouvent déjà là. Ils prélèvent des éléments au sein de la réalité, selon un canevas qui constitue au préalable leur hypothèse de recherche et organisent ces prélèvements pour leur donner sens ; un regard donc pré-existe et toute collecte de données est orientée au préalable, ne serait-ce que par le dispositif mis en place pour les « récolter ». Par parenthèses, on voit ici à travers le vocabulaire (collecte, récolter…) à quel point le mot « donnée » induit par lui-même cette représentation de quelque chose déjà construit et « donné » alors que tout le processus de recherche consiste à produire lobjet scientifique. Pour prendre un exemple simpliste, il faut savoir où braquer le télescope avant dobserver. Mais cest bien là en partie le cœur du sujet, dès lors que certains évoquent le passage dune science basée sur une logique hypothético-déductive, à une « data driven science5 ». On considère que, dès lors que la donnée est plus facile, moins coûteuse à produire de manière massive (à travers le « Big Data »), par le seul jeu des machines de captation, langle de vue na plus dimportance et que la détection et la hiérarchie des phénomènes ne se fait qua posteriori. On pourrait appeler cela le modèle du « radar » ou de la caméra de surveillance, il suffit de le faire tourner en permanence, et tout événement surpris dans le champ sera automatiquement signalé. Cette vision devient totalitaire si elle suppose que lon supprime alors tout angle mort et que tout peut être détecté ou surveillé de manière préventive, linterprétation venant après. Cette vision scientiste, dune science qui ne vit que par ses appareils sexprime parfaitement dans lexpression 25« données brutes » (raw data) qui suppose un matériau offert que le travail du chercheur consiste à raffiner a posteriori.

Le terme « donnée » par conséquent, nous bloque, certes. Néanmoins, même si nous savons que le langage est politique, nous devons « faire avec », car linjonction qui nous est faite, en tant que chercheurs, « douvrir nos données de recherche » suppose justement que cet objet existe. Dès lors que toutes les institutions politiques (OCDE, Ministères…) et scientifiques (CNRS, Académie des sciences…) organisent leur discours et leurs actions en prenant appui sur cette notion, ils lui donnent un corps qui nous oblige à nous en emparer, fût-ce de manière critique et à en interroger le sens. Force est pourtant de constater, comme point de départ, que les nuances proposées dans les différentes définitions qui suivent soulèvent de vraies questions dès quil sagit de cerner précisément ce dont on parle.

Ainsi pour lOCDE6, les données sont des « enregistrements factuels (chiffres, textes, images, sons) utilisés comme sources principales pour la recherche scientifique et généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant lobjet de la recherche ».

Dans le monde anglo-saxon, lUniversité de Bristol propose : « Les données, ou unités dinformation, qui sont créées au cours dune recherche, subventionnée ou non, et qui sont organisées ou formatées de telle sorte quelles soient communicables, interprétables et adaptées à un traitement souvent informatisé. »

Quant à la Royal London Society, elle avance cette définition : les données sont « des informations qualitatives ou quantitatives (…) qui sont factuelles. Ces données peuvent être brutes ou primaires (directement issues dune mesure), ou dérivées de données primaires, mais ne sont pas encore le produit danalyse ou dinterprétation autre que de calculs. »

Pour le CNRS7 (2016), les « données de la recherche » sont un sous-ensemble des « données de la science » qui, elles, incluent également 26les « résultats de la recherche » distingués à leur tour entre résultats publiés et résultats non publiés. Lidée dune complémentarité données/publications est ici prégnante, ce qui laisse penser que la reproduction dun canal de publication pour ces objets spécifiques que sont les données et les résultats intermédiaires, à côté du canal de publication des articles, et le tout dans une logique de disponibilité liée au concept de « science ouverte » est la solution. Plus problématique, à notre sens, est la définition spécifique aux SHS, fournie dans ce livre blanc et qui évoque des objets détude aussi disparates que « une chanson, un rapport dactivité dentreprise, larchitecture dun monument ». Il est clair quon est ici bien au-delà de la « donnée » produite dans le cours de lactivité de recherche, et quon englobe des notions qui sont des objets ou du matériau pour la recherche.

On voit bien ici que ce qui pouvait être identifié, dans une acception première et héritée des sciences dites « dures » de données comme séries quantitatives – et donc calculables – est considérablement élargi à une liste dobjets qui na potentiellement pas de fin, et qui mêle allègrement la notion de données et ce que, dans certaines de nos disciplines, nous appelons les corpus, les contenus ou simplement les documents. Par ailleurs, rien ici ne parle de ce que la science documentaire appelle les « métadonnées » et qui sont précieuses pour qualifier (nous dirons pour notre part « documentariser ») les jeux de données.

LOGIQUES DE DONNÉES ET EFFETS DE RETOUR
SUR LES PRATIQUES DE LA RECHERCHE

Les demandes qui nous sont faites aboutissent à mettre en visibilité une pratique qui est à la base et à la condition même dun travail de recherche : collationner un matériau détude à partir duquel des hypothèses pourront être travaillées, testées, validées ou infirmées. Comme on la vu ci-dessus, selon les disciplines et la nature même des travaux de recherche, ce matériau détude peut prendre des formes très variées, formes que la doxa va subsumer sous la notion généraliste de « données ». Dès lors elle donne à ce matériau un statu ex ante et oblige à se 27positionner en prévision de ce qui va advenir. On peut en prendre pour preuve la notion de DMP Data management plan ou plan de gestion des données (PGD) quil est demandé de réaliser en amont et qui finira (qui finit ?) par devenir un des éléments de la sélection des projets et donc de leur financement. Ceci oblige à avoir une vision réflexive sur ses propres pratiques, car ce qui était un matériau-pour-faire devient dès lors un objet singulier, un composant spécifique du cycle de la recherche sur lequel nous reviendrons plus loin.

Cependant, avant de creuser plus avant une macro typologie de ces « données de la recherche » en SHS, il convient de rappeler quels sont les principaux arguments qui sont utilisés par les partisans de louverture des données, quils soient eux-mêmes chercheurs, commanditaires de la recherche (agences, organismes de financement) ou détenteurs du pouvoir politique. Nous pouvons en recenser trois principaux :

Le premier est celui de la ré-utilisation dun matériau dont la collecte, la collation et lorganisation a mobilisé des moyens humains et financiers et qui pourrait être réutilisé. On peut ici se poser la question sur la pertinence dun argument qui dissocie, de cette façon, le matériau « donnée » de ses conditions de production et surtout de ses intentions de production. Cest à nouveau accréditer lidée quil existe des données « brutes » que lon pourrait ensuite accommoder spécifiquement selon les besoins. Nombre de disciplines des sciences physiques ou la biologie ont déjà intégré le fait que la fourniture des données est un élément de lévaluation à part entière et que tout article (envisagé comme la synthèse finale) de la recherche ne peut être soumis quaccompagné des « jeux de données » qui ont été produits au cours de linvestigation.

Le deuxième argument est celui de la mise à disposition de ces données à dautres publics que les chercheurs, notamment le « grand public », dans une perspective qui hésite entre la notion « douverture » de la science et la logique de vulgarisation. Là encore, cela impliquerait de dissocier les données et leur interprétation, et supposerait que ce matériau puisse « dire » de nouvelles choses sil est manipulé par de nouvelles mains. En même temps cela soulève la question de 28la compétence pour linterprétation de ces données. La plupart des commentaires et notamment ceux de la conférence dAmsterdam davril 20168 insistent sur le fait que des collectifs « citoyens » puissent semparer des résultats de la science qui ont des implications sociétales. Ceci sans quil y ait, sur le fond, de réflexion sur le statut réciproque de lexpertise et des « savoirs amateurs » ni que soit remise en cause la division du travail dans la recherche qui aboutit le plus souvent à une hyper-spécialisation. Lappel pour laction sur la science ouverte dAmsterdam attend de louverture les effets suivants : « Mettre fin au cercle vicieux qui force les chercheurs à publier dans les seules revues prestigieuses, et renforcer la reconnaissance pour les autres formes de communication scientifique ; une plus grande dissémination dun plus grand volume dinformation scientifique qui ne bénéficie plus seulement à la science seule, mais à la société comme un tout, y compris le monde des affaires (business community). » Ce qui est décrit ici nest rien moins que le passage dune écriture pour les pairs à une écriture pour le public. Par ailleurs cet argument laisse complètement de côté la question politique de lorganisation de la recherche et de son rapport à la société.

Enfin, un troisième argument est utilisé dans une logique de la preuve, pour lutter contre la fraude en matière scientifique (la notion stricte de « fraude », comme comportement délibéré peut être élargie à lidée de vérifier la validité et surtout la rigueur des résultats présentés).

Mais donc, à supposer que les chercheurs en SHS soient effectivement disposés à :

Réunir leurs « données » dans des ensembles clairement identifiables et lisibles

Ouvrir ces données à toute communauté désireuse den prendre connaissance ou possession

Soumettre ces données aux instances dévaluation,

29

… encore faut-il être capable de les isoler, den faire des ensembles cohérents et den documenter les usages possibles. Or, encore une fois nous risquons de nous perdre si nous nous contentons dune approche de recensement des supports. Car à supposer quune image ou une photographie soit assimilable à une donnée, son usage est évidemment complètement différent pour un archéologue, un historien dart, un sémioticien ou un analyste politique9.

Par conséquent notre proposition sera délargir la catégorisation des « données de la recherche » en Sciences humaines et sociales en prenant en compte « ce que ces données font à la recherche », en fonction de leur type général et surtout de ce quelles appellent comme « traitement » ou plutôt comme travail, de la part des chercheurs. La situation des SHS est évidemment particulière en ce quelles manipulent des objets de sens qui ne sont pas toujours réductibles à des ensembles calculables. Une des questions récurrentes qui se pose est notamment le sort à réserver à tout un matériau préparatoire qui prend la forme dobjets textuels singuliers comme les blogs, les carnets de recherche, les « conversations » dans des forums scientifiques et ainsi de suite… Certains organismes, dans leur définition de la donnée, excluent explicitement ces éléments en les identifiant à des « archives », et dautres, au contraire, en font une partie intégrante du matériau préparatoire de la recherche.

Nous envisageons alors dexaminer plusieurs types de données qui engagent des manières différentes de travailler et qui supposent des statuts différents de la « donnée ». Elles ne sont pas exclusives les unes des autres et ne semblent pas non plus caractéristiques de lune ou lautre des disciplines composant les SHS, du moins de manière catégorique.

30

LES DONNÉES DE PRÉLÈVEMENT

Identifier dans une masse de faits des indices signifiants à recouper et à traiter revient à opérer dans le réel une série de prélèvements – organisés selon une intention directrice – afin de construire une représentation. Cest sans doute lacception la plus classique de ce que nous pouvons identifier comme « données » en sciences humaines et sociales. Mais les sciences humaines et sociales « prélèvent » aussi dans la réalité à partir dautres méthodes, comme lenquête ou lentretien (selon la distinction que nous ninterrogerons pas ici entre les méthodes dites « quantitatives » et « qualitatives »). À travers ces pratiques, il est question de produire des éléments danalyse pour interroger les hypothèses émises et inscrire les résultats de ce travail dans une démarche objective. Interpréter ici linjonction qui est faite de « louverture » de ces données, pose la question de ce qui doit être mis à disposition et sous quelle forme : sagit-il des éléments premiers (terme préféré à « bruts ») recueillis lors dentretiens, dobservations ? Sagit-il de mettre à disposition directement des fichiers sons dentretiens, des transcriptions complètes, des synthèses, des verbatim ? Quid des aspects juridiques et éthiques vis-à-vis des personnes qui auront été interrogées ?

Pense-t-on que, parce que ces éléments sont dans des formats plus « lisibles » que des séries de chiffres ou des données mathématiques, ils sont ipso facto plus facilement interprétables par des publics différents ?

Il est clair que la question ouverte de la « Big Data » interroge les sciences humaines et sociales, car ce quelle nous (pré)dit cest le fait que par le jeu de capteurs, par le biais de mise en « traçabilité » des actions et des pratiques sociales dès lors quelles sont numériquement appareillées (et elles tendent à le devenir de plus en plus), il nexiste plus deffort nécessaire pour produire cette donnée. Le monde et son interprétation appartiendraient alors aux data scientists et aux seules sciences quantitatives. Cest ne pas voir ici que ces attitudes, pratiques, comportements et usages nont rien de naturel et quils sont socialement déterminés, cest ne pas voir non plus que la façon den capter les « traces » est elle-même puissamment déterminée par les technologies utilisées, lesquelles à la fois produisent, façonnent et recueillent les 31éléments quils sont censés expliquer. Les sciences humaines et sociales, et singulièrement les sciences de linformation et de la communication sont alors fondamentalement requises pour dénouer les auto-justifications, et fournir une analyse réflexive et critique.

LES DONNÉES DE DESCRIPTION OU MÉTADONNÉES

Par ailleurs, si lon se réfère au mouvement de « lopen data » qui est une autre forme dinjonction faite aux acteurs publics : ministères, collectivités…, on voit bien que les résultats de ces dépôts sont le plus souvent décevants car ils correspondent à une satisfaction minimale de la demande, sans plus defforts que le simple dépôt de fichiers. Or un tableau Excel ou une liste déléments dans un fichier PDF, sans commentaires, ni explications, ni éclairage napportent finalement pas grand-chose pour complémenter lexposé des résultats de la recherche.

Or, même si la mise en forme de ces objets premiers les rend assez souvent plus « lisibles » pour un public extérieur que les données des sciences quantitatives, il y manque des éléments dinterprétation qui peuvent rendre ces jeux de données pratiquement inopérables et irrécupérables pour autrui. A contrario, la volonté de les rendre opérables et récupérables exige un gros effort de « documentarisation » dont il faut se demander à qui il incombe : aux chercheurs eux-mêmes, aux professionnels de linformation scientifique et technique ?

La question devient bien alors celle de la façon de « donner à ses données » non pas la valeur scientifique quelles ont intrinsèquement – dès lors quon suppose quelles ont été recueillies et travaillées correctement – mais une sorte de valeur « méta-scientifique » qui les rende prêtes à une exploitation enrichie, voire à un croisement avec dautres données du même type. Par exemple si des chercheurs de différentes disciplines étudiant un même objet arrivent à des conclusions identiques à partir de méthodologies disciplinaires différentes, chacun explicite ses résultats, soit dans le corps des articles, soit dans les dossiers rendus aux instances dévaluation de lagence de financement. Mais ce qui serait vraiment intéressant serait quun lecteur, quel que 32soit le public auquel il appartienne (autres chercheurs, professionnels du domaine, grand public…) puisse bénéficier de liens qui mettent en regard à la fois les résultats, mais aussi les méthodes et le détail des éléments recueillis. Cela supposerait donc de sêtre mis daccord sur des éléments de description, des référentiels communs… Cest tout à fait possible, mais à condition dêtre effectivement en contact et dêtre au courant des recherches effectuées par dautres. On pourrait donc imaginer que les organismes de dépôt et les systèmes darchives ouvertes ne jouent pas simplement un rôle de mise à disposition mais permettent de produire des connaissances par le croisement des informations recueillies.

LES DONNÉES DENVELOPPEMENT

Cette question est au cœur des méthodes qui sont en discussion dans le cadre des « Humanités numériques » : une bonne part de ce qui est utilisé comme « terrain » par les chercheurs lest sous la forme de contenus numériques qui ne sont accessibles que par le biais de dispositifs techniques spécifiques qui constituent en même temps une « enveloppe » indispensable des contenus10. Qui cherche par exemple à analyser telle ou telle tendance ou comportement sur le web ou dans les réseaux sociaux est obligé dy être impliqué et de sintéresser à la fois au dispositif et à ce qui sy passe. Quelles sont alors les « données » à extraire pour les conserver ? Que signifie, dans une optique disons, Poppérienne, lidée de reproductibilité des résultats de la science dans un contexte où lobjet détude nest jamais exactement le même parce quil est basé sur des technologies dynamiques qui en modifient les contours à chaque instant. Contrairement au premier cas où le chercheur ou léquipe ont en quelque sorte la main sur la production de « leurs » données, ils sont ici dépendants dautres dispositifs qui influent eux-mêmes sur le sens des « données » quils proposent à lanalyse.

33

Cette question est particulièrement étudiée par les disciplines de larchive, dont la vocation est de favoriser la préservation à long terme des productions intellectuelles dune société donnée. Dans le cas des contenus numériques, la question cruciale qui se pose est celle de savoir comment pourront être « rejoués » les documents (au sens large, ou encore les œuvres) numériques, lisibles à un instant T avec une technologie, sachant que les cycles dobsolescence des supports (pensons à la disquette par exemple) et des logiciels sont de plus en plus courts. Cela suppose la mise au point de formats descriptifs qui consignent des informations portant à la fois sur les contenus, sur les conditions de production, sur les logiques de préservation11. Ces données font à leur tour lobjet de descriptions selon des référentiels reconnus par les différentes communautés qui les manipulent12.

LES DONNÉES DEXTRACTION

Un autre cas de figure concerne lapplication directe sur le support détude (un document ou un corpus…) de techniques qui relèvent de lanalyse de données, comme le Text and Data Mining (TDM). Ceci peut dailleurs avoir plusieurs objectifs : soit « faire parler » les contenus différemment en automatisant leur analyse, et donc produire une sorte de double du fonds initial avec des éléments danalyse complémentaires (par exemple des calculs doccurrence de termes, des relevés dapparitions dimages…). La question du TDM a été un des éléments cruciaux portés par la DIST du CNRS dans son livre blanc pour que la discussion parlementaire sur la loi numérique intègre cet élément et que les éditeurs scientifiques soient contraints douvrir leurs contenus à ces techniques de fouille de données, ce quils se refusaient à faire jusquà présent.

Certaines équipes en médecine ou dans dautres disciplines scientifiques pratiquent une sorte de « méta-science » en compilant les résultats 34de dizaines et dizaines denquête épidémiologiques pour rapprocher des éléments qui auraient nécessité des années de lecture pour être comparés. Dans les exemples fournis par Rémi Gaillard13, certaines disciplines produisent plus de résultats par la ré-ouverture et ré-exploitation de données déjà accumulées que par lexploitation initiale des premiers jeux de données recueillis.

LES DONNÉES DE BALISAGE

Dans ce mode opératoire, il y a une dialectique entre modèle et données, le balisage des contenus et corpus étant conçu pour y intégrer des éléments meta-descriptifs (métadonnées) ou opératoires qui permettront de guider un sens de lecture, de recomposer des textes, ou den fournir une métalecture par le jeu des annotations14. Tous les schémas dencodage des contenus visent à organiser une exploitation des textes qui peut être à vocation scientifique ou plus largement de conservation et de pérennisation.

Il est clair que, selon les degrés dimbrication contenus/données que reflètent ces différents types de traitement, la capacité à « ouvrir ses données » ne relèvera pas des mêmes logiques et induira des projets et des méthodologies diverses.

Les différents modes de production ou de traitement des données que nous avons évoqués ne se situent pas dans la même temporalité par rapport au travail de recherche. La logique de la recherche est passée, on le sait, en quelques décennies, dun rythme dinvestigation de long terme, qui pouvait être celui dune vie, à une logique plus collective et surtout à un rythme guidé par le « projet », selon un modèle éprouvé dans le cadre du management de la firme, de lentreprise commerciale. Qui dit projet dit séquence, ouverture et clôture, début et fin, orientation générale et étapes intermédiaires, et ceci a été illustré par de nombreux commentateurs sous la forme dun cercle, défini comme un cycle dont les 35étapes senchaînent de manière logique et harmonieuse, depuis lémission dune hypothèse jusquà la publication. Les différentes étapes de ce cycle sont marquées par des jalons de production documentaire bien délimités, et qui constituent, depuis plus de deux siècles le paradigme dans lequel sinscrivent la production et surtout la validation des résultats de la science. La publication est le point dorgue de la recherche et la revue lorgane à la fois de validation et de diffusion. On voit assez bien ici que la proposition qui est faite aux chercheurs consiste à redoubler, par des dépôts à travers dautres canaux que ceux existants, la mise à disposition de ce que le CNRS appelle les « résultats de la science » : données et résultats de la recherche.

Or, rien nempêche aujourdhui, à travers la mise à disposition sur les réseaux, les blogs, les data journals, les entrepôts darchives ouvertes de semer, tels des petits cailloux, les traces de toute cette activité, autrement dit de rendre public ce que Latour et Woolgar15 allaient chercher dans les activités de laboratoire au moment de sa recherche sur « la science en train de se faire ». Mais cela peut-il avoir lieu de manière incidente, comme une sorte de cheminement parallèle à lactivité traditionnelle de la recherche, ou bien cela va-t-il modifier la conformation du cycle lui-même et lengagement des activités ? La parallélisation des processus de publication des résultats via les canaux classiques de la communication scientifique : revues, articles de colloques, posters… et de publication des données via de nouveaux canaux (entrepôts de données, archives ouvertes, blogs…) induit nécessairement une nouvelle façon de travailler qui inclut en permanence, à chaque étape du cycle de recherche, une préoccupation pour la production et le traitement de la « donnée ».

Est-ce que ceci implique ipso facto que lon sachemine ainsi vers une autre manière de faire (de) la science ? Cest la thèse – et la position militante – défendue par les tenants de la « science ouverte » ou « science 2.0 » à linstar du mouvement « Hack Your PhD16 » qui appelle à une transparence totale des efforts de la recherche durant le processus de recherche lui-même. Cette position est basée notamment sur le fait que les frontières entre le provisoire et le définitif, le « en cours » et lachevé, linformel et le formel, le dedans et le dehors sont rendues de 36plus en plus poreuses par lusage des technologies numériques. Là où le chercheur prenait des notes dans un calepin, il nourrit un blog, là où il collait des résultats dans un cahier de laboratoire, il rentre des données dans un cahier de laboratoire électronique, là où il faisait un croquis, il prend une photo numérique. Il est donc très tentant de dire que, puisque cest là, il suffit de le mettre à disposition. À ce stade, lenjeu est celui de la circulation et de laccès à des objets documentaires dont les formes restent inscrites dans la logique canonique de la publication scientifique : larticle, signé, validé par les pairs, publié dans une revue classée selon les critères de la discipline, etc. Lautorité scientifique au sens de validation de la recherche, nest ici absolument pas modifiée, ni dans sa forme ni dans son contenu.

Lidée de la mise en transparence des « données de la recherche » à travers le renouveau des formes documentaires rencontre à notre sens trois obstacles :

En premier lieu, il serait illusoire de penser (cela renvoie encore une fois au mythe du matériau « brut ») que ce qui est ainsi produit et mis en ligne est exempt dun regard, dune vision, quil conviendrait alors de renseigner, ce qui est précisément le travail de synthèse qui est réalisé lors de la production dun rapport, dun article ou dune thèse.

En deuxième lieu, il est déjà admis que la seule sphère de la publication scientifique « officielle » validée (articles, communications, posters…) excède de très loin les capacités dabsorption dun chercheur, même dans les limites étroites de sous-sous disciplines très spécialisées. Comment alors imaginer absorber en plus toute cette littérature parallèle, que lon qualifiait autrefois dans les écoles de documentation de « grise » ?

En troisième lieu, il ny a pas pour linstant mise en adéquation des procédures de validation et dévaluation avec ces nouvelles pratiques. Cet effet de lœuf et de la poule nencourage pas les chercheurs – en dehors dune posture militante – à faire les efforts supplémentaires17.

37

Si les données et les résultats sont des objets logiques (et que nous étudions comme objets décriture et de communication), la science elle, est un objet social ; on ne peut la réduire à lensemble des projections intellectuelles quelle secrète à travers ses travaux, et quil suffirait « douvrir » pour en faire des biens communs. Les questions soulevées derrière, sur la commandite, sur le temps de la recherche fondamentale, sur les logiques de financement, les questions juridiques sont autant déléments qui relèvent plus du gouvernement de la science que de son format. On ne saurait éluder la question politique derrière celle des conditions techniques de mise à disposition des résultats de recherche et de leurs matériaux préparatoires.

CONCLUSION

Cest une conclusion en forme de boucle qui sera proposée ici. On voit bien quil nest pas neutre denvisager la production scientifique comme un travail fondé sur lacquisition – voire même la production – de « données », cest-à-dire de « déjà-là ». Et puisque cest censé être là, le coût de leffort pour mettre ces objets à la disposition des communautés scientifiques est considéré comme négligeable. La logique de la « donnée » rejoint celle de la « transparence » selon laquelle la simple mise à disposition suffirait à faire sens. Or, tout comme la recherche scientifique elle-même est un travail de médiation (entre le réel et sa représentation consciente), il faut un travail de médiation pour rendre les résultats de la science lisibles et réutilisables.

Puisque ces « données » nous collent aux doigts comme le sparadrap du capitaine Haddock, interrogeons-nous de manière plus large sur ce que sont les matériaux que nous accumulons pour produire de la connaissance. La question de fond est alors de savoir comment nous transformons des matériaux-pour-nous en matériaux-pour-autrui. Comme on la dit, ceci ne peut se faire sans un processus de réécriture, ou des écritures multiples, au-delà de la contradiction entre les fameuses « données brutes » et les données travaillées. Or, dans les injonctions qui nous sont faites par les différents organismes concernés, les « cibles » de cette 38réutilisation sont multiples : autres chercheurs du champ, chercheurs dautres champs dans une perspective dinterdisciplinarité, journalistes ou vulgarisateurs, grand public, et le monde nébuleux de lentreprise ou du « business ». On ne peut pas penser quil soit possible, sans un coût cognitif et économique considérable, de satisfaire à toutes ces exigences, dont certaines peuvent apparaître contradictoires. Il semble quil soit donc urgent de semparer de ce sujet, non pas seulement sous langle opérationnel du « comment faire », mais sous langle scientifique du « quoi faire » ? Le « quoi » représentant ici à la fois un objet (cest quoi, finalement ce quil faut mettre à disposition) et un objectif (quest-ce que nous, chercheurs, voudrions faire de nos « données » ?).

Dominique Cotte

GRIPIC, Université Paris-Sorbonne

39

BIBLIOGRAPHIE

Anderson, Chris, The end of theory : the data deluge makes the scientific method obsolete, Wired, 2008.

Blanchard, Antoine, Ce que le blog apporte à la recherche, in Dacos Marin, ed. Read/Write Book, Open Edition Press, 2010, p. 157-166.

Cabrera, Francisca, Les données de la recherche en Sciences humaines et sociales : enjeux et pratiques Enquête exploratoire, mémoire, INTD, CNAM, 2014.

Carmes, Maryse, Noyer, Jean-Max, Lirrésistible montée de lalgorithmique, Méthodes et concepts en SHS, Les Cahiers du numérique, 2014/4, vol. 10, p. 63-102.

Cormerais, Franck, Traitement des textes, sens et logique des formats, Études Digitales, I, 1, 2016, Paris, Classiques Garnier, 2016, p. 25-40.

CNRS-DIST, Une science ouverte dans une république numérique, Livre blanc, 2016, 237 p., URL : http://www.cnrs.fr/dist/z-outils/documents/2016%2003%2024%20Livre%20blanc%20Open%20Science.pdf

Davallon, Jean, Objet concret, objet scientifique, objet de recherche, Hermès no 38, 2004, p. 30-37.

Despres-Lonnet, Marie, Temps et lieux de la documentation : transformation des contextes interprétatifs à lère dinternet, Mémoire dHabilitation à Diriger des Recherches (HDR), Université de Lille, 2014.

Fayet, Sylvie, Les données, ces mal-nommées, 2013, URL : http://urfistinfo.hypotheses.org/2581

Gaillard, Rémi, De lOpen data à lOpen research data : quelle(s) politique(s) pour les données de recherche ?, Mémoire, Enssib, Université de Lyon, 2004, 104 p.

Jacquemot-Perbal, Marie-Christine, Cosserat Françoise, Gestion et diffusion des données de la recherche, INIST, Nancy, juin 2015.

Jacquot Clémence, (2016). Du texte aux données, Texte digital, philologie numérique et dispositif dattention, Études Digitales, I, no 1, Paris, Classiques Garnier, 2016, p. 41-67.

Latour B., Woolgar S., La vie de laboratoire, la production des faits scientifiques, Paris, Fayard, 1988.

Loupien, Sabine, Bibliothéconomie des archives audiovisuelles : les archives sonores à lheure des digital humanities, Thèse de doctorat, sous la direction de Imad Saleh, Université Paris 8, 2016.

Schopfel, Joachim, Open access – the rise and fall of a community-driven model of scientific communication. Learned Publishing 28 (4), 2015, 321-325.

1 Jean Davallon, Objet concret, objet scientifique, objet de recherche, Hermès no 38, p. 30-37, 2004.

2 Le propos, qui se veut ici général, doit bien évidemment être précisé et complété en tenant compte des spécificités disciplinaires, ce qui exige des enquêtes complémentaires. On peut trouver une première approche utile dans le travail de Francisca Cabrera (Intd, 2014) qui a interviewé des chercheurs de différentes disciplines sur leur compréhension de ce que sont pour eux les « données de la recherche ».

3 URL : https://urfistinfo.hypotheses.org/2581

4 Maryse Carmes, Jean-Max Noyer, Lirrésistible montée de lalgorithmique, Méthodes et concepts en SHS, Les cahiers du numérique, 2014/4, vol. 10, p. 63-102.

5 Chris Anderson, The end of theory : the data deluge makes the scientific method obsolete, Wired, URL : https://www.wired.com/2008/06/pb-theory/, 2008.

6 Marie-Christine Jacquemot-Perbal, Françoise Cosserat, Gestion et diffusion des données de la recherche, INIST, Nancy, 2015, URL : http://www.inist.fr/IMG/pdf/urfistrennes_20150616.pdf

7 CNRS-DIST, Une science ouverte dans une république numérique, Livre blanc, 2016, 237 p., URL : http://www.cnrs.fr/dist/z-outils/documents/2016%2003%2024%20Livre%20blanc%20Open%20Science.pdf

8 URL : http://francais.eu2016.nl/a-la-une/actualites/2016/04/05/plan-d%E2%80%99action-europeen-pour-la-science-ouverte

9 Marie Després-Lonnet, Temps et lieux de la documentation : transformation des contextes interprétatifs à lère dinternet, Mémoire dHabilitation à Diriger des Recherches (HDR), Université de Lille, 2014.

10 Sabine Loupien., Bibliothéconomie des archives audiovisuelles : les archives sonores à lheure des digital humanities, Thèse de doctorat, sous la direction de Imad Saleh, Université Paris 8, 2016.

11 Franck Cormerais, Traitement des textes, sens et logique des formats, Études Digitales, I,1, 2016.

12 Par exemple le standard PREMIS recense les différents types de formats de préservation des données (URL : http://www.loc.gov/standards/premis/v3/premis-3-0-final.pdf).

13 Rémi Gaillard (2014), De lOpen data à lOpen research data : quelle(s) politique(s) pour les données de recherche ?, Mémoire, Enssib, Université de Lyon, 104 p.

14 Clémence Jacquot (2016), Du texte aux données, Texte digital, philologie numérique et dispositif dattention, Études Digitales, I, no 1, p. 41-67.

15 Bruno Latour, Steve Woolgar, La vie de laboratoire, la production des faits scientifiques, Fayard, 1988.

16 URL : https://hackyourphd.org/ ; https://hackyourphd.wordpress.com/

17 16 Joachim Schöpfel, Open access – the rise and fall of a community-driven model of scientific communication. Learned Publishing 28 (4), 321-325. URL : http://dx.doi.org/10.1087/20150413, 2015.