Aller au contenu

Classiques Garnier

Du texte aux données Texte digital, philologie numérique et dispositif d’attention

  • Type de publication : Article de revue
  • Revue : Études digitales
    2016 – 1, n° 1
    . Le texte à venir
  • Auteur : Jacquot (Clémence)
  • Résumé : Cet article propose une réflexion sur les transformations du texte littéraire imprimé au texte digital enrichi à des fins de recherche et d’interprétation. Cette transformation au format numérique met en jeu non seulement un changement ontologique de l’objet texte mais aussi une mutation des pratiques phénoménologiques de lecture et de manipulation des « données textuelles » en vue d’une nouvelle approche de l’attention.
  • Pages : 41 à 67
  • Revue : Études digitales
  • Thème CLIL : 3157 -- SCIENCES HUMAINES ET SOCIALES, LETTRES -- Lettres et Sciences du langage -- Sciences de l'information et de la communication
  • EAN : 9782406061939
  • ISBN : 978-2-406-06193-9
  • ISSN : 2497-1650
  • DOI : 10.15122/isbn.978-2-406-06193-9.p.0041
  • Éditeur : Classiques Garnier
  • Mise en ligne : 29/09/2016
  • Périodicité : Semestrielle
  • Langue : Français
41

Du texte aux données

Texte digital, philologie numérique
et dispositif dattention 

Chaque nouveau support permet de nouveaux traitements, mais ne les détermine pas. Une nouvelle technologie définit précisément un nouveau mode dinteraction entre un traitement et un support1.

Accordant à juste titre au numérique le statut de « mutation épistémique et archiviologique majeure2 », Bernard Stiegler propose denvisager la réaction de lesprit humain face à la révolution digitale non tant comme une adaptation de surface au nouveau média, mais bien, par lextériorisation propre à la « vie de lesprit », comme un bouleversement ontologique de la pensée elle-même3.

Le support numérique renouvelle en effet le rapport au texte, tant dans sa lecture que dans son écriture et, par extension, les modalités 42daccès au savoir qui en découlent4. Au sein de ce que lon désigne désormais par diverses appellations – Humanités numériques, Digital Studies ou encore Knowledge Design – les disciplines des « arts et sciences du texte5 » occupent une place singulière. Leur passage à lère du numérique engage un changement de paradigme dans la construction de leur objet détude comme dans leurs gammes dapplication6.

Le chercheur en littérature, en manipulant et en construisant le texte digital à partir dun support imprimé, modifie effectivement sa méthode détude du texte. Il sapproprie notamment certains outils du traitement automatique des langues et se confronte, grâce à eux, à de « nouveaux observables7 », en particulier quantitatifs, quil sagit alors de comprendre et dinterpréter. Ce processus de transformation du texte imprimé en support quantifiable à des fins danalyse linguistique et herméneutique nest pas neuf : il remonte à la création des machines mécanographiques et sest développé au fil des progrès des technologies informatiques, ainsi quen témoignent les premiers travaux de lexicométrie et de statistique sur les textes littéraires de Charles Muller et de Pierre Guiraud dans les années 19608.

Cette transformation trouve aujourdhui une expression un peu différente dans les approches textométriques9 et stylométriques10, puisque le texte digital – balisé et étiqueté par le chercheur – permet le passage dune « mesure de mots » à une « mesure des textes11 ». Toutefois, en 43reprenant sa place dans la dénomination même dune méthodologie au carrefour de la littérature et de linformatique, le texte, discrètement, se métamorphose. Construit pour apporter des « données textuelles », il porte les traces des métadonnées quon lui attribue pour que loutil informatique puisse opérer différents types danalyse systématisée12.

Le rapport du texte digital à la construction du savoir passe ainsi par des dispositifs de lecture particuliers et surtout dépendants dune préparation préalable du texte au moyen des opérations de balisage que nous venons dévoquer. La transformation du texte en corpus numérisé induit dès lors des stratégies renouvelées dexploration et dattention13 portée au texte. Linterface proposée tant par les éditions numériques savantes que par les logiciels et outils danalyse textométriques mobilise non seulement les modalités de lecture propre au Web14, mais aussi une grille danalyse textuelle induite par loutil lui-même et illustrant de ce quon pourrait appeler, avec Yves Citton, une singulière « écologie de lattention15 ».

Menacé de céder à la dissémination de son objet et de son attention16, lenjeu de la construction et de lexploration du corpus digital est darticuler les entités concrètes qui composent le texte et lenjeu interprétatif de son analyse. Cette pratique repose sur une reconfiguration des moyens danalyse par la formulation de requêtes, mais aussi, dans une mesure quil convient détablir et de problématiser, par la conception même et le fonctionnement de loutil informatique. Celui-ci pose un cadre, met en place un dispositif denquête et de construction du savoir1744dont le potentiel heuristique se fonde dune part sur lémergence de résultats grâce aux requêtes formulées et, dautre part, sur leur capacité à être interprétés18.

Or, la formulation des requêtes invite à interroger le point focal adopté pour lanalyse19, ainsi que la reconfiguration éventuelle des problématiques de recherche au contact des outils utilisés. Elle soulève ainsi les questions suivantes : comment le texte digital enrichi peut-il conditionner ou, du moins, orienter la construction dabstractions ou la conception dobjets détude tels que loutil informatique puisse y répondre20 ? Quels liens peut-on en effet établir entre lambition heuristique du texte numérique « enrichi » et lobjectif herméneutique visé par la lecture littéraire et stylistique dun texte ? Quelle valeur objective peut-on, dans ce contexte, attribuer à lémergence de phénomènes observables ?

L« enrichissement » du texte numérisé :
un outillage interprétatif ?

La linguistique de corpus, et par extension, les disciplines littéraires fondées sur ses bases méthodologiques, disposent désormais dun atout 45considérable : lenrichissement hypertextuel des corpus et lessor des bases de données numériques. François Rastier montre que ce développement de la linguistique de corpus, fondé par conséquent sur celui de loutil informatique, entraîne même « un renouvellement inattendu de la philologie, [] la philologie numérique21 ». Lordinateur contribue à redéfinir la nature et les enjeux du support des textes, et, plus précisément, offre de nouvelles techniques pour penser et interpréter ces derniers. À cette première affirmation, ajoutons néanmoins une nuance : si loutil informatique ne permet pas stricto sensu dinterpréter les textes – du moins pas dans le sens herméneutique que lon attribue généralement au terme dans le domaine littéraire –, il offre, cependant, un nouveau rapport au support textuel grâce à la construction dun corpus annoté.

Un nouveau corpus détude littéraire ?

Dans le champ des études philologiques, historiques ou littéraires, le terme de « corpus » désigne un ensemble de documents susceptibles dembrasser de manière cohérente un genre ou une question soumis à une étude scientifique. Le terme désigne un répertoire scientifique dobjets de natures diverses, au nombre desquels le texte peut figurer. Cest ce sens que conserve le mot en informatique, auquel sajoutent lautomatisation et la quantification des données observées22.

Dans le domaine de la linguistique, le corpus signifie en revanche, selon la définition de Sinclair, « une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour être utilisé comme échantillon du langage23 », dont il 46faut interroger la pertinence et la représentativité. Le texte napparaît pas dans cette définition quen filigrane ; il sefface alors derrière les données quil peut fournir24.

Depuis lessor des corpus enrichis pour la recherche en littérature, les chercheurs des différents domaines des sciences du texte sefforcent de développer une réflexion épistémologique conjointe sur les délimitations respectives des notions de texte et de corpus. Larticulation du texte et du corpus met dabord en évidence la transdisciplinarité de lentreprise. Pour Adam et Viprey, dans leur article de la revue Corpus, consacré à cette question :

Si les conditions dun dialogue de lanalyse textuelle des discours et de lanalyse des données textuelles sont réunies, cest en raison, dune part, de leur recentrage sur desdonnées résolument textuelles et, dautre part, du fait que travaillant sur des textes de plus en plus nombreux, différents, complexes et ouverts, nous exigeons quils soient très solidement établis et que soient réunies les conditions dun traitement informatisé et dune circulation scientifiquement contrôlée de cette masse de nouvelles données textuelles. Le traitement informatisé de ces données implique la création de réseaux de collaborations entre des équipes de recherche travaillant à une véritable refonte des sciences et disciplines académiques des textes25.

Cette définition met en évidence un sens du « corpus » au carrefour des différentes acceptions que nous citions plus haut : lartefact que constitue le corpus détude littéraire sintègre au sein dune démarche scientifique et technique quil va nourrir. Explorant des recueils de textes et dœuvres littéraires choisis en fonction dune quête interprétative à 47mener, les chercheurs construisent un corpus informatisé destiné à fournir un outil heuristique à leur analyse. Il leur permet de rechercher des informations, déprouver des hypothèses et donc, doffrir à linterprétation littéraire, grâce aux logiciels informatiques, de nouveaux observables, à condition darticuler les données textuelles segmentées et quantifiées à la prise en compte de lintention esthétique inhérente à lœuvre étudiée. Dès lors, le corpus ainsi défini est déterminé par lenrichissement du texte brut à partir duquel il est constitué.

Lannotation de corpus littéraires

Face aux outils de textométrie qui segmentent, sélectionnent, classent et comptabilisent des résultats, un texte brut parle peu. Pour mener à bien une étude systématique et quantifiée, lélaboration dun corpus étiqueté, enrichi de métadonnées est une étape cruciale. Loutil informatique (sous la forme de différents logiciels de traitement et de calcul des données) offre alors un nouveau rapport au support textuel, notamment grâce à la technique de lannotation26.

Cest le terme dannotation qui, malgré son usage déjà considérable de marginalia, désigne lactivité à la fois catégorielle et prospective détiquetage du texte transformé. Aussi, contrairement à la définition généralement admise, lannotation ne coïncide plus seulement dans ce contexte avec les « rétentions tertiaires27 » qui accompagnent et expliquent le contenu ou la forme du texte sous la forme de notes manuscrites 48ajoutées en marge, traces mémorielles et geste daccompagnement de la lecture. Appliquée au corpus, elle prend par exemple la forme de balises XML intégrées dans le texte pour lexploration approfondie et les traitements du corpus par des logiciels danalyse textuelle.

Les annotations peuvent en principe porter sur divers niveaux, domaines et types de données textuelles quelles qualifient. Ces métadonnées se définissent comme un ensemble structuré dinformations dont la fonction est de décrire le corpus et qui offre différentes ressources et entrées de classement et de traitement de ces informations. Rapportées à léconomie du texte littéraire, on peut ainsi distinguer deux principaux paliers dannotation. Au niveau macrotextuel, on identifie par exemple les informations structurelles28 et péritextuelles29 du texte ; au niveau microtextuel (cest-à-dire au niveau du mot ou du groupe de mots), lannotation mobilise des informations linguistiques, comme lidentification plus ou moins fine de la classe grammaticale du terme ou de la locution étudiés ou encore sa lemmatisation30. Elle permet également de mettre en évidence des réseaux sémantiques variés (champs sémantiques, champs lexicaux, reconnaissance dentités nommées31, etc.).

Ces métadonnées peuvent sarticuler les unes aux autres sans se faire concurrence et font tantôt lobjet dun étiquetage automatique, lorsque les logiciels de traitement des données sont suffisamment entraînés, tantôt dune annotation « manuelle » pour renseigner par exemple des phénomènes sémantiques fins non résolus par les algorithmes ou désambiguïser les cas de balisages problématiques ou inexacts32.

49

La notion de corpus désigne en définitiveles processus mêmes de construction dun objet scientifique. Elle engage la responsabilité des personnes qui le constituent à interroger les conditions de sa création – par lactivité dannotation notamment – et, surtout, lobjectif visé à travers lui. Il sagit alors dun dispositif hypertextuel qui détermine dans une large part la mise en place et lorientation de stratégies attentionnelles mises en œuvre pour pouvoir lappréhender. Ces stratégies attentionnelles sont en effet, au moins dans un premier temps, « paramétrées », encadrées par les pratiques induites par les logiciels ou les algorithmes de traitement de données textuelles. Ainsi, les logiciels détiquetage morphosyntaxiques reposent sur des catégorisations paramétrées, dont le degré de granularité ou lidentification des classes grammaticales peut même être discutable selon le parti pris de lanalyse33.

Lecture, interprétation
et régimes attentionnels

Lecture et interprétation :
deux rapports distincts au texte

Dans LAvenir des Humanités, Citton distingue deux rapports au texte littéraire : la lecture et linterprétation. Lobjectif est de cerner les enjeux de linterprétation et den préciser les spécificités. En comparaison, lactivité de lecture apparaît par conséquent sous un jour plus modeste. Elle se définit par une forme de passivité34 du lecteur face à lobjet textuel : celui-ci relève, par la lecture, les informations véhiculées par le texte 50sans remettre en cause la « connaissance du code et les cadres danalyse qui nous orientent dans notre perception du donné35 ». Linterprétation, au contraire, est caractérisée par lattention active portée sur le texte. Elle implique « la remise en cause dau moins un des trois postulats implicites qui gouvernent la lecture conventionnelle36 », cest-à-dire : le code utilisé, la manière de déchiffrer le texte, la pertinence de ce que le texte lui offre, voire (cest le cas le plus courant) une combinaison de ces trois questions.

Pour illustrer la démarche de lactivité interprétation, Citton reprend une belle description de Deleuze dans ses cours sur le cinéma, qui cherche à traduire le phénomène de « reconnaissance attentive37 » auquel chacun dentre nous est régulièrement confronté et qui apparaît comme une illustration saisissante de lactivité interprétative. Celle-ci serait alors une manière de former de « petits circuits », de les faire fonctionner en réseau, le temps du tâtonnement, du travail élastique, plastique, de lattention jusquà ce que ces « circuits » invoqués par lesprit trouvent à sactualiser, à se dilater.

Linterprétation et linvention, envisagées de ce point de vue, participent alors du même mouvement, celui du vide, du manque, de la tension initiale de lesprit – provoquée par la difficulté quont les « circuits » de la mémoire ou de la connaissance à senchaîner les uns aux autres – vers la compréhension, vers une reconnaissance proche du concept danamnèse platonicienne.

Dès lors, deux remarques simposent : dabord, linterprétation dun texte qui met en branle ce processus complexe de mise en relation des circuits de lesprit participe dune perspective phénoménologique de collecte, de sélection et dhésitation. Enfin, les régimes de lattention sollicités par le processus dinterprétation nous apparaissent pluriels, placés sous le signe de la discontinuité et du surgissement. Lattention interprétative portée au texte littéraire envisage en effet ce dernier comme le lieu dune émergence.

51

Lattention interprétative,
une disponibilité face à lobjet

Le cheminement rhizomatique mis en œuvre par linterprétation se produit dans un environnement de latence, de suspension38. Cet état de « disponibilité » à lobjet, de guetteur en repos, trouve une belle définition dans le texte de Simone Weil, Lattente de Dieu :

Lattention consiste à suspendre sa pensée, à la laisser disponible, vide et pénétrable à lobjet, à maintenir en soi-même à proximité de la pensée, mais à un niveau inférieur et sans contact avec elle, les diverses connaissances acquises quon est forcé dutiliser. La pensée [] doit être vide, en attente, ne rien chercher, mais être prête à recevoir dans sa vérité nue lobjet qui va y pénétrer39.

Cette latence est lune des conditions nécessaires de linterprétation, cest notamment grâce à elle que devient possible lappréhension de la polyphonie inhérente à tout texte, et en particulier du texte littéraire. Ainsi, pour Jean-Marie Schaeffer :

Si lon admet [] quun trait textuel peut produire des effets au niveau de lattention, donc au niveau de la phénoménologie de la lecture, sans être lui-même attentionnellement traité, on peut dire quun des aspects de la relation esthétique au texte réside dans lexploration attentionnelle consciente de certains traits textuels, qui nopèrent plus seulement de manière causale mais se trouvent intégrés dans le traitement de lœuvre comme structure intentionnelle et contribuent ainsi au passage de la lecture monodique à une lecture polyphonique – passage qui semble être la marque par excellence de la lecture esthétique des textes40.

Appréhendé de manière critique, le texte se « défamiliarise » du langage ordinaire : lattention interprétative portée sur lui lobjective. Elle invite, par le fonctionnement rhizomatique de propagation de linformation ou plutôt de la signification quelle produit, à déconstruire pour un temps la progression du texte pour la réagencer sous la forme 52des « circuits » évoqués plus haut et que Stiegler nomme, quant à lui, les « rétentions » attentionnelles.

Lattention à la fois diffuse et alertée sur laquelle se fonde linterprétation opère donc une forme de délinéarisation du texte, créée par la conscience dune intention esthétique sous-jacente à son écriture. Cette délinéarisation, nous la rapprocherions volontiers de ce que le Groupe μnommait, dans la Rhétorique de la poésie, la « lecture tabulaire »du texte41, cest-à-dire le « résultat de la superposition des différentes lectures des unités dun texte42 ».

Enfin, lorsquon étudie un texte en adoptant un angle dattaque technique, comme cest le cas en stylistique par exemple, cest lattention interprétative elle-même qui est orientée. Lenjeu de linterprétation stylistique est avant tout celui dune attention portée à la forme (celle de son expression comme celle de son contenu). Elle opère un premier acte de filtrage microtextuel – il sagit de voir comment ça sécrit – et interroge également des relations macrotextuelles qui articulent des phénomènes langagiers ténus (qui semblent glanés à la surface du texte) et les enjeux intentionnels identifiés dans le texte. Ces relations macrotextuelles concernent également les rapports quentretiennent respectivement ce que François Rastier nomme le local (lentour immédiat des indices relevés dans le texte) et le global (le texte entier, lœuvre, la culture dont tout cela procède).

On mesure, à nouveau, combien ce type de lecture participe dun régime attentionnel complexe – disséminer dabord son attention pour filtrer le texte et synthétiser, faire ensuite converger lattention pour contextualiser ses remarques, ce que Rastier résume en ces termes :

Cest au palier du texte que la conception commune de la compositionnalité laisse apparaître le plus clairement ses lacunes : en effet, le global y détermine le local et le recompose43.

53

Lattention interprétative oscille donc entre un premier mouvement, apanage de ce que Schaeffer nomme le « style cognitif divergent », et un second temps propre à un traitement synthétique cette fois-ci des indices pris dans le texte et rapportés à sa globalité, ainsi que le définit Rastier. Le style divergent, propre à lexploration interprétative du texte, se caractérise, selon Schaeffer, par « limportance des traitements descendants, la dé-hiérarchisation, le retard de catégorisation [qui] concourent à faire [du texte] un traitement non économique, aboutissant parfois à une surcharge attentionnelle44 ». Il aboutit alors à une attention maximalisée portée à chaque strate informationnelle du texte et due à l« abaissement du seuil de sélectivité attentionnelle45 » et une lecture non économique du texte.

Le support comme dispositif attentionnel

La caractéristique de linterprétation littéraire est quelle repose jusquà présent sur des régimes attentionnels implicitement ou explicitement (selon le degré polémique du propos) qualifiés de « profonds ». Elle devient parfois dans la démonstration le contre-exemple de la distraction propre à l« hyper-attention46 », décrite par Katherine Hayles.

Deep attention (ou attention « profonde ») et hyper attention (attention « dispersée » ?) correspondent, pour Hayles, à des sollicitations distinctes de lenvironnement, du média, du support convoqué47. En effet, les pratiques attentionnelles précédemment décrites relèvent, pour lessentiel, dune confrontation avec le support imprimé. Poser la question de linterprétation en environnement numérique, ainsi que 54nous aimerions le faire à présent, suppose donc la problématisation de la notion de support numérique.

Il ne sagit pas alors de cliver lanalyse ou de poser une alternative dont le premier membre serait lattention profonde, apanage du « cerveau littéraire » et le second, lhyper-attention qui exclurait ainsi son objet du champ des humanités ou, plus généralement, des connaissances. Au contraire, lusage doutils dexploration et de fouille automatisée des textes littéraires tend plutôt à confirmer limportance de pratiques complémentaires de la lecture interprétative.

Du support imprimé au support numérique

Enjeux et conséquences
pour lattention interprétative ?

Notre propos nest pas ici de rappeler les différences entre la lecture de supports imprimés et la lecture sur écran de supports hypertextuels. elles ont fait lobjet de nombreuses études précises et documentées, mais nous intéresserons davantage ici aux modalités de construction de linterprétation dans un texte numérique enrichi, construit pour être justement fouillé et analysé automatiquement.

Rappelons, en préambule de cette réflexion sur le texte numérique et les régimes attentionnels sur lesquels il repose, la définition du support que propose Bruno Bachimont :

les propriétés matérielles du support dinscription conditionnent lintelligibilité de linscription. [Par conséquent,][] linterprétation de linscription, ou le sens quon lui accorde, dépend de sa structure matérielle et de ses propriétés physiques. La matérialité du support pré-détermine, conditionne, le sens que lon peut accorder à une inscription48.

55

Le traitement technique automatisé des textes et, plus généralement, des contenus culturels et intellectuels souligne de manière accrue limportance de la pensée du support, a fortiori dans la pratique de lattention interprétative.

Le support numérique :
un mode dabstraction du texte ?

Le support numérique est généralement distingué du support imprimé par ses propriétés de dématérialisation et son fonctionnement hypertextuel. Pourtant, qui compose et cherche à analyser le texte digital est justement frappé par le paradoxe de cette supposée « dématérialisation ». Le texte numérique est bien, au contraire, matériel49, a fortiori dans la perspective dune recherche en linguistique ou en littérature par exemple. La construction dun texte numérique enrichi à partir dun texte qualifié de « brut50 » renvoie à des opérations de discrimination de formes et de segmentation du corpus de travail en entités concrètes, de taille plus ou moins variable que sont, pour ne citer que des éléments généraux, les mots, les phrases, les énoncés, les textes, etc.

Le support numérique contribue en fait à externaliser à un autre niveau le langage ou, dans la perspective qui est la nôtre, le texte lui-même. La théorie du support déployée par Bachimont apparaît alors plus que bienvenue et invite à problématiser ce quil nomme la « réification51 » des contenus culturels. Ce processus est pour lui, ainsi que je le suggérais, une conséquence logique du processus de grammatisation52« où lexpression de son rapport au monde se manifeste à travers des supports matériels qui permettent dobjectiver [l]a représentation du monde53 ».

56

Construction de corpus
et projections interprétatives

La construction dun corpus numérique engage, comme nous le mentionnions plus haut, par la transposition du texte imprimé vers un nouveau support, de nouveaux traitements de ce texte, un nouveau mode dinteraction par la pratique des logiciels de textométrie ou de calculs statistiques par exemple54. Par ailleurs, lactivité dannotation de corpus apparaît comme un processus « informé » de traitement textuel, qui participe dune anticipation de lattention portée sur telle ou telle qualité ou propriété du texte55.

Dans le cadre de projets tels que la conception doutils dexploration textuelle ou lannotation de textes littéraires édités en ligne, le chercheur et le concepteur de lédition sont donc confrontés à une tension entre deux tendances : celle dinformer ce qui servirait à la recherche immédiate et celle qui vise à construire une structure de recherches ultérieures et qui, par conséquent, peut parfois peiner à circonscrire ses objectifs.

La constitution dune grille de métadonnées présuppose et prédétermine lutilisation future du texte enrichi ; elle est effectivement le lieu de projections interprétatives fortes56. Le codage du corpus rend manifestes toutes les intentions de recherche et d« exploitation » du texte, 57au sens le plus pratique du terme. Lajout de balises et la construction de logiciels adaptés à des besoins précis de linterprétation ou, dans une autre perspective, de lédition critique dun texte anticipe et oriente les pratiques interprétatives. Le lien entre linterprétation, lédition et le balisage du texte apparaît dailleurs de manière lumineuse dans le schéma suivant, proposé par Rastier :

édition

Sélection

textes

Sélection

interpretation

Annotations

balises

Annotations

Conception

usage

Usage

Fig. 1 Schéma des rapports du balisage, de lédition
et de linterprétation des textes (in : François Rastier (2001), op. cit., p. 81).

Ainsi la « philologie numérique », selon son expression, opère un double mouvement réflexif sur le texte et produit des outils visant à faciliter et à rendre opératoires les critères de lecture des supports quils se donnent comme objet57.

Cette projection interprétative nuit-elle à linterprétation elle-même ? Rend-elle la démarche plus problématique ? Nous avançons que lenrichissement des bases et travail collaboratif sur lequel reposeront, par exemple, les futures éditions savantes en ligne doit permettre de faire du texte numérique annoté un support à géométrie variable et susceptible de répondre finalement à des types de sollicitations et de stratégies attentionnelles divers.

Les transformations du texte initial

Construire un corpus détude enrichi à des fins herméneutiques est, enfin, un processus fondamentalement ambivalent, notamment, parce quil fait intervenir deux objets distincts à interpréter : le texte, en tant 58que substance entière et matière propre à susciter lattention interprétative décrite plus haut, mais aussi et surtout les résultats de lenquête menée sur le texte. Ce processus a déjà cours lorsquil sagit dun support imprimé, mais il a des implications plus importantes dans le cas présent, en particulier parce quil est explicité par les requêtes successives formulées dans le logiciel de traitement des données textuelles et parce que ces requêtes58 produisent alors un autre état du texte, qui diffère souvent et dans sa présentation et dans son contenu réel du texte initial59.

La « plasticité » du texte digital sillustre par lalternance souple et aisée dun mode de visualisation du texte à un autre. Concordanciers, index, chiffres, nuages de mots, graphiques, classifications sont en effet autant détats du texte initial, dont nous donnons ici quelques exemples. Chaque représentation présentée ci-dessous présente un état particulier des textes poétiques de Guillaume Apollinaire, tirés de lédition savante en ligne « HyperApollinaire » mise en œuvre par le LABEX Obvil60. Cet état est le résultat dune requête portant sur les substantifs du lexique et leur distribution relative dans lœuvre poétique dApollinaire61.

59

Fig. 2 Nuage de mots présentant les mots lexicaux
les plus fréquents du lexique poétique dApollinaire62.

60

Fig. 3 Graphe représentant les 200 mots lexicaux les plus fréquents
du lexique poétique apollinarien, mis en réseau par leurs cooccurrences63.

61

Fig. 4  Visualisation en AFC des mots lexicaux
des œuvres poétiques dApollinaire64.

62

Ces images donnent à voir des données textuelles, interrogent les voisinages de termes (comme le font les nuages de mots ou les AFC par exemple) et matérialisent des différences et des coïncidences. Lanalyse des similitudes en donne un bon exemple en mettant en évidence, par lintermédiaire de « branches », des liens entre les termes du lexique. Les dislocations du texte soffrent comme image dans son immédiateté et posent néanmoins immédiatement la question de son interprétation. Face au calcul statistique ou à ces types de représentation du texte initial, le chercheur en littérature est parfois dérouté, voire découragé par la tâche même à entreprendre : interpréter ce quil voit. Ces sentiments, Bachimont en définit ainsi lorigine :

En permettant une manipulation automatique du contenu, le numérique fait sortir le contenu culturel hors du contrôle interprétatif où était soumis jusquà présent tout contenu grammatisé65.

Les interfaces et les modes de visualisation des résultats traités par la machine diffèrent linterprétation directe et imposent un mode opératoire distinct de linterprétation sur support papier : il sagit dabord de comprendre les résultats, den analyser la validité, le degré de pertinence et de signification. Par les actions de collation, de comparaison, de transformation, le contenu du texte change détat et se transforme en fait à analyser.

Les diverses visualisations du texte permises par ces logiciels mettent en lumière le rôle des données textuelles, des entités formatées pour le support numérique. Elles ne donnent finalement que les formes identifiées par des balises. Lopération interprétative tend, quant à elle, à leur restituer le rôle de « trace » à lire, comprendre et resituer dans le texte.

Conclusion

Le passage du texte à un corpus numérique annoté (traité, par exemple, traité par des logiciels de textométrie) nous semble bien décrit lexpression forgée par Jeffrey Schnapp, « Knowledge design », puisquil rend explicite les modifications opérées sur notre manière dappréhender le texte par le passage à un environnement numérique.

63

Les outils informatiques du traitement de corpus scindent en effet le parcours interprétatif du texte, balisé par les métadonnées du corpus. Ainsi, celles-ci orientent bien la conduite de la quête interprétative menée à travers le texte et articulent les deux faces des objets numériques que Lev Manovich décrit comme le processus de « transcodification66 ». La démarche denquête linguistique sur le texte digital nous semble donc évoluer dune « philologie numérique » à une philologie du numérique, où deux niveaux danalyse sont constamment sollicités.

Par les interfaces de représentation des résultats de lenquête, « le rapport linguistique au monde de la culture, la langue et lexpression du contenu [] est remplacé par un rapport perceptif et qualitatif67 », écrit encore Bachimont, de sorte que lattention sollicitée par la visualisation des résultats et lattention interprétative ont parfois du mal à sarticuler. Cette difficulté reste à notre sens une des pistes à explorer et un défi à relever par les éditeurs de texte en ligne.

En ce qui concerne lapport interprétatif de ces outils dexploration et de calcul du texte, dont labord nest a priori ni forcément aisé, ni particulièrement évident, ils nous apparaissent, à lusage, non seulement ouvrir des pistes de lecture littéraire et stylistique, mais aussi – en qualité de pharmaka, tantôt alliés, tantôt poisons – alerter le chercheur sur les enjeux mêmes de sa recherche et le contraindre ainsi à définir et à expliciter plus clairement que jamais les postulats et les objectifs de ses explorations du texte.

La quantification dun fait de langues, par exemple, peut posséder une véritable fonction heuristique, qui postule la capacité dun corpus annoté à faire émerger et saillir des éléments observables et remarquables. Le travail de linterprète réside dans larticulation du quantitatif et du qualitatif pour construire et expliciter la signification de son enquête. Le calcul statistique, notamment, permet de mettre au jour des « coalitions dindices », propices à nourrir lherméneutique.

Loutil spécifique que proposent les statistiques textuelles impose de ne plus suivre (ou en tout cas, plus seulement) la démarche traditionnelle du chercheur en sciences humaines. La technique change effectivement les pratiques mêmes de lenquête. Le second enjeu heuristique 64de linterprétation assistée par lordinateur se trouve résumé ainsi par Mayaffre :

Le risque bien connu est dabord de toujours trouver ce que lon cherche []. Le risque ensuite est dignorer des faits essentiels au corpus, qui passeront inaperçus faute davoir été pressentis comme dignes dintérêt68.

Le retour au contexte est primordial, de même que linterrogation constante sur les conditions démergence du résultat observé. Lusage de ces outils pour nourrir linterprétation forme également le chercheur à une perpétuelle vigilance face au rapport entre la formulation de ses requêtes et les résultats obtenus, ainsi que les conditions de leur intelligibilité. La pratique de linterprétation ainsi définie apparaît donc comme un dispositif denquête et de construction du savoir qui suscite un état dalerte, bien différent des régimes attentionnels de linterprétation propre au seul support imprimé.

Clémence Jacquot

Université Paris-Sorbonne
Université Pierre-et-Marie-Curie

65

Bibliographie

Adam, J.-M. et Viprey, J.-M. (2009), « Corpus de textes, textes en corpus. Problématique et présentation », in Corpus, no 8 [URL : http://corpus.revues.org/index1672.html.

Auroux, S. (1993), La Révolution technologique de la grammatisation, Paris, Mardaga.

Bachimont, B. (2004), Arts et Sciences du numérique : ingénierie des connaissances et critique de la raison computationnelle. Mémoire dHDR, U. T. C., [URL : http://www.utc.fr/~bachimon/Livresettheses_ attachments/HabilitationBB.pdf].

Bachimont, B. (2014) « Le nominalisme et la culture : questions posées par les enjeux du numérique » in Stiegler, B. [dir.], Digital Studies. Organologie des savoirs et technologies de la connaissance, Paris, FYP Éditions, p. 63-78.

Berry, D. M. [dir.] (2012), Understanding digital humanities, Palgrave, Macmillan.

Citton, Y. (2010), LAvenir des Humanités. Économie de la connaissance ou cultures de linterprétation ?, Paris, La Découverte.

Citton, Y. (2014), Pour une écologie de lattention, Paris, Seuil.

Cormerais, F. (2014), « Humanités digitales et (ré)organisation du savoir », in : Le Deuff, O. [dir.], Le Temps des humanités digitales. La mutation des sciences humaines et sociales, Paris, FYP Éditions, p. 129-142.

Crozat, S., Bachimont, B., Cailleau, I., Bouchardon, S., Gaillard, L. (2011), « Éléments pour une théorie opérationnelle de lécriture numérique », in Supports et pratiques décriture en réseau, Bouhaï, N. [dir.], URL de référence : http://www.cairn.info/revue-document-numerique-2011-3.htm [consulté le 14/05/2015].

Deleuze, G. (1982), Cours no 19 « Cinéma / Image-Mouvement », La Voix de Gilles Deleuze, site de lUniversité Paris-8 [URL : http://www2.univ-paris8.fr/deleuze/article.php3?id_ article=157].

Doueihi, M. (2014), « Quête et enquête », in Le Deuff, O. [dir.], Le Temps des humanités digitales. La mutation des sciences humaines et sociales, Paris, FYP Éditions, p. 7-10.

Ghitalla, F., Boullier, D., Gkouskou-Giannakou, P., Le Douarin, L. et Neau, A. (2003), LOutre-lecture. Manipuler, [s]approprier, interpréter le Web, Paris, Bibliothèque Centre Pompidou.

Groupe Mu (1990), Rhétorique de la poésie. Lecture tabulaire, lecture linéaire, Paris, Seuil.

Guiraud, P. (1960), Problèmes et méthodes de la statistique linguistique, Paris, PUF.

Hayles, K. (2007), « Hyper and Deep Attention : the Generational Divide 66in Cognitive modes », Profession, p. 187-199 [URL : http://www.english.ufl.edu/da/hayles/hayles_hyper-deep.pdf].

Holmes, D. I. (1998), « The Evolution of Stylometry in Humanities Scholarship », Literary and Linguistic Computing, volume 13/3, p. 111-117.

Liu, A. (2012), « Where is Cultural Criticism in the Digital Humanities ? », in Debates in the Digital Humanities, Gold, M. K. [éd.],Minneapolis, University of Minnesota Press, 2012, p. 490-509

Manovich, L. (2001), The Language of New Media. Cambridge, Massachusetts, London, England, The MIT Press.

Mayaffre, D. (2002), « Les corpus réflexifs : entre architextualité et hypertextualité », in Corpus, no 1, [URL : http://corpus.revues.org/index11.html].

Mayaffre, D. (2009), « Lanalyse du discours assistée par ordinateur [Séminaire de formation, Alexandrie, 1-11 décembre 2009] », Ressource dEnseignement, [URL : eprints.aidenligne-francais-universite.auf.org/19/].

Moretti, F. (2005), Graphs, Maps, Trees : Abstract Models for Literary History, Londres, Verso.

Muller, C. (1993), Principes et méthodes de statistique lexicale, Paris, Champion.

Pincemin, B. (2011), « Sémantique interprétative et textométrie – Version abrégée », in Corpus no 10 [URL : http://corpus.revues.org/2121]

Rastier, F. (2001), Arts et sciences du texte, Paris, PUF.

Rastier, F. (2002), « La macrosémantique », in Texto ![URL : http://www.revue-texto.net/Inedits/Rastier/Rastier_Marcosemantique1.html]

Rastier, F. (2004), « Enjeux épistémologiques de la linguistique de corpus », Texto ! [URL de référence : http://www.revue-texto.net/Inedits/Rastier/Rastier_Enjeux.html].

Rastier, F. (2011), La Mesure et le grain. Sémantique de corpus, Paris, Champion.

Schaeffer, J.-M. (2011), « Styles attentionnels et relation esthétique », in Jenny, L. [dir.], Le Style en acte. Vers une pragmatique du style, Genève, Mētis Presses, p. 138-149.

Sinclair, J. (1996), « Preliminary recommendations on Corpus Typology », Technical Report, EAGLES (Expert Advisory Group on Language Engineering Standards) [URL : http://www.ilc.cnr.it/EAGLES/pub/eagles/corpora/corpustyp.ps.gz].

Stiegler, B. (s.d.), article « Pharmakon », Ars Industrialis [URL : http://arsindustrialis.org/pharmakon].

Stiegler, B. (2004), De la misère symbolique, 1. LÉpoque hyperindustrielle, Paris, Gallilée.

Stiegler, B. (2012), Prendre soin de la jeunesse et des générations, Paris, Flammarion.

Stiegler, B. (2014), « Pharmacologie de lépistèmè numérique », in Stiegler, B. 67[dir.], Digital Studies. Organologie des savoirs et technologies de la connaissance, Paris, FYP Éditions, p. 13-26.

Stiegler, B. (2014), « Lattention, entre économie restreinte et individuation collective », in : Citton, Y. [dir.] (2014), LÉconomie de lattention. Nouvel horizon du capitalisme ?, Paris, La Découverte, p. 123-135.

Weil, S. (1966), Attente de Dieu, Paris, Fayard.

LABEX Obvil, projet HyperApollinaire : http://obvil.paris-sorbonne.fr/projets/hyperapollinaire.

Logiciel Iramuteq : http://www.iramuteq.org/.

1 François Rastier, Arts et sciences du texte, Paris, PUF, 2001, p. 74-75.

2 Bernard Stiegler, « Pharmacologie de lépistèmè numérique », in Stiegler, B. [dir.], Digital Studies. Organologie des savoirs et technologies de la connaissance, Paris, FYP Éditions, 2014, p. 14.

3 Stiegler reprend notamment la notion dextériorité technique à Leroi-Gourhan et larticule au concept de « pharmakon » : « Tout objet technique est pharmacologique : il est à la fois poison et remède. Le pharmakon est à la fois ce qui permet de prendre soin et ce dont il faut prendre soin, au sens où il faut y faire []. Cet à la fois est ce qui caractérise la pharmacologie qui tente dappréhender par le même geste le danger et ce qui sauve. Toute technique est originairement et irréductiblement ambivalente : lécriture alphabétique, par exemple, a pu et peut encore être aussi bien un instrument démancipation que daliénation. » (Bernard Stiegler, article « Pharmakon », Ars Industrialis. [URL : http://arsindustrialis.org/pharmakon ; consulté le 22/02/2015]. Voir aussi Bernard Stiegler, Prendre soin de la jeunesse et des générations, Paris, Flammarion, 2012, p. 19 sqq.

4 Voir à ce propos : Franck Cormerais, « Humanités digitales et (ré)organisation du savoir », in Le Deuff, O. [dir.], Le Temps des humanités digitales. La mutation des sciences humaines et sociales, Paris, FYP Éditions, 2014, p. 129-142 et Milad Doueihi, « Quête et enquête », ibid., p. 7-10.

5 Nous reprenons ici la formule de Rastier dans son ouvrage éponyme (François Rastier (2001), op. cit.).

6 François Rastier, La Mesure et le grain. Sémantique de corpus, Paris, Champion, 2011, p. 33-34.

7 Ibid., p. 50 sqq.

8 Charles Muller, Étude de statistique lexicale le vocabulaire du théâtre de Pierre Corneille, Paris, Larousse, 1967 ; Pierre Guiraud Problèmes et méthodes de la statistique linguistique, Paris, PUF, 1960. Voir aussi, pour une mise au point théorique : Charles Muller, « Lexicologie, statistique lexicale et critique littéraire » in Langue française, débats et bilans. Recueil darticles, 1986-1993, Paris, Champion, 1993, p. 54-60.

9 Nous renvoyons à ce propos aux articles de Bénédicte Pincemin, en particulier : « Sémantique interprétative et textométrie – Version abrégée », in Corpus[en ligne], no 10, 2011 [URL de référence : http://corpus.revues.org/2121 ; consulté le 27/03/2014].

10 Voir notamment à ce propos : D. I. Holmes, « The Evolution of Stylometry in Humanities Scholarship », in Literary and Linguistic Computing, Volume 13/3, 1998, p. 111-117.

11 François Rastier (2011), op. cit., p. 49.

12 Il devient alors un « corpus » informatisé. Le balisage est une opération de formatage du texte.

13 Bernard Stiegler, De la misère symbolique, t. 1. LÉpoque hyperindustrielle, Paris, Galilée, 2004.

14 Nous renvoyons en particulier, pour le détail de ces modalités, à louvrage collectif de Dominique Boullier, Franck Ghitalla, Pergia Gkouskou-Giannakou, Laurence Le Douarin et Aurélie Neau, LOutre-lecture. Manipuler, [s]approprier, interpréter le Web, Paris, Bibliothèque Centre Pompidou, 2003.

15 Yves Citton, Pour une écologie de lattention, Paris, Seuil, 2014.

16 Le risque de la dissémination est bien documenté et a fait lobjet de nombreuses études en ce qui concerne lusage du web et le clivage entre deep attention et hyper attention problématisé par Katherine Hayles dans : « Hyper and Deep Attention : the Generational Divide in Cognitive modes », in Profession, p. 187-199 [URL de référence : http://www.english.ufl.edu/da/hayles/hayles_hyper-deep.pdf ; consulté le 25/11/2014].

17 Nous lenvisageons ici dans le sens deleuzien du terme comme lindice dun « régime » ou dun « opérateur de visibilité », comme le définit Deleuze dans « Quest-ce quun dispositif ? », M. Foucault philosophe. Rencontre internationale. Paris 9, 10, 11 janvier 1988, Paris, Seuil, 1989.

18 Nous nous inscrivons ici dans le prolongement des réflexions récentes sur les Digital Humanities synthétisées par David M. Berry dans son article « Introduction : Understanding Digital Humanities » (in : David M. Berry [dir.], Understanding digital humanities, Palgrave, Macmillan, 2012, p. 1-20 : « These subtractive methods of understanding culture (episteme) produce new knowledges and methods for the control of memory and archives (techne). They do so through a digital mediation, which the digital humanities are starting to take seriously as their problematic. » (p. 2).

19 La question est notamment posée par Damon Mayaffre dans son article « Les corpus réflexifs : entre architextualité et hypertextualité », in Corpus[en ligne], no 1, 2002 [URL de référence : http://corpus.revues.org/index11.html ; consulté le 17/01/2011].

20 Cf. Éric Guichard, « Linternet et les épistémologies des SHS », in Sciences/Lettres no 2, 2013 [URL de référence : http://barthes.ens.fr/articles/Guichard-RSL.html ; consulté le 02/11/2014] et Tim Hitchcock, « Big Data for Dead People : Digital Readings and the Conundrums of Positivism », in Historyonics, 2013 [URL de référence : http://historyonics.blogspot.co.uk/2013/12/big-data-for-dead-people-digital.html ; consulté le 02/11/2014]. Ces deux chercheurs posent des questions similaires rapportées à la recherche en histoire et en géographie par exemple.

21 François Rastier (2001), op. cit., p. 73.

22 La définition générique du mot « corpus » dans le domaine spécifique de linformatique désigne en effet, dans le CNRTL, un « ensemble de données exploitables dans une expérience danalyse ou de recherche automatique dinformations ».

23 « A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language. » (John Sinclair, « Preliminary recommendations on Corpus Typology », Technical Report, EAGLES (Expert Advisory Group on Language Engineering Standards) [en ligne], mai 1996, p. 4 [URL de référence : http://www.ilc.cnr.it/EAGLES/pub/eagles/corpora/corpustyp.ps.gz ; consulté le 22/04/2012]). (Nous traduisons).

24 Rappelons que la démarche initiale de la linguistique de corpus, qui se développe en Europe à partir des années 1960, est empirique : conçue comme un outil heuristique et pédagogique pour préciser la compréhension des mots dans le discours, elle avait notamment pour objectif de pallier les manques de certains dictionnaires traditionnels et de leur apporter des nuances sémantiques grâce à la contextualisation des occurrences étudiées, mais ne poursuivait aucunement dambitions herméneutiques. Cest ce que rappelle Wolfgang Teubert, lorsquil écrit : « Initially, corpus linguistics was not concerned with the interpretation of unique occurrences. It did not see itself in the tradition of hermeneutics. Corpus linguistics was developed as a methodology to find out things about a language in general, in order to help with the tasks of applied linguistics. » (Wolfgang Teubert, « Corpus Linguistics : An Alternative », in Semen[en ligne], no 27, 2009, § 20 [URL de référence : http://semen.revues.org/8914 ; consulté le 22/04/2012].)

25 Jean-Michel Adam et Jean-Marie Viprey, « Corpus de textes, textes en corpus. Problématique et présentation », in Corpus [En ligne], no 8, novembre 2009, § 3 [URL de référence : http://corpus.revues.org/index1672.html ; consulté le 04/04/2013]. (Nous soulignons).

26 Notre réflexion sur les corpus numériques et leurs conditions dinterprétation sarticule autour de ce que Crozat, Bachimont, Cailleau, Bouchardon et Gaillard définissent comme les deuxième et troisième niveaux du texte numérique. En effet, au delà du premier niveau « théorético-idéal », notre propos est danalyser le passage du texte aux données textuelles comme manifestation et comme condition dinterprétation du texte : cest ce que ces auteurs nomment respectivement le niveau « techno-applicatif » (ou niveau de manifestation) et le niveau « sémio-rhétorique » (ou niveau dinteraction). Cf. Stéphane Crozat, Bruno Bachimont Isabelle Cailleau, Serge Bouchardon, Ludovic Gaillard « Éléments pour une théorie opérationnelle de lécriture numérique », in Supports et pratiques décriture en réseau, Bouhaï, N. [dir.], 2011, URL de référence : http://www.cairn.info/revue-document-numerique-2011-3.htm [consulté le 14/05/2015].

27 Nous renvoyons à ce propos à : Bernard Stiegler (2008), op. cit., p. 171 sqq.

28 Il sagit de balises qui informent sur la structuration du texte et ses différentes unités de lecture : le recueil, la section, le chapitre, le poème, le paragraphe, la strophe, le vers, etc.

29 Nous reprenons le terme à Gérard Genette (Seuils, Paris, Seuil, 1987). Les informations péritextuelles sont hétérogènes, elles concernent les éléments paratextuels situés à lintérieur même de lœuvre (les titres et sous-titres, les dates de publication, de rédaction, les supports de publication, les tables des matières, les dédicaces et épigraphes, etc.).

30 Le lemme est la forme graphique conventionnellement choisie pour désigner un mot dans le lexique. Elle réduit ainsi toutes les formes fléchies ou les diverses variations graphiques dun mot à une entrée unique et constitue alors une information importante dans létude de la variété du vocabulaire par exemple.

31 Citons par exemple les noms de personne, de lieux, dorganisation et dévénement.

32 Nous pensons en particulier aux opérations de désambiguisation des étiquettes morpho-syntaxiques (lidentification de cas de conversion – « rien » vs. « un rien » – ou damalgame – « du, des », par exemple), ou de balises sémantiques (« La Sorbonne » désigne ainsi, selon le contexte, un lieu ou une institution).

33 Le logiciel Treetagger ne distingue pas, dans sa configuration pour le français moderne, les conjonctions de coordination et les conjonctions de subordination (dont le fonctionnement syntaxique respectif est pourtant très différent), mais attribue automatiquement une seule catégorie grammaticale, la conjonction. Seule une ré-annotation manuelle, grâce à un éditeur XML, peut permettre de discriminer ces formes, en vue dune analyse plus fine des constructions syntaxiques.

34 Yves Citton, LAvenir des Humanités. Économie de la connaissance ou cultures de linterprétation ?, Paris, La Découverte, 2010 : « [] on peut parler de passivité en ceci que chacun de ces “actes ” de lectures ne fait quajouter quelques bits dinformations en stock dont nous disposions originellement, tout en reconduisant à lidentique à la fois notre connaissance du code et les cadres danalyse qui nous orientent dans notre perception du donné » (p. 45).

35 Ibidem.

36 Ibidem.

37 Gilles Deleuze, Cours no 19 du 18 mai 1982 « Cinéma / Image-Mouvement, novembre 1981-juin 1982 », La Voix de Gilles Deleuze[en ligne], site de lUniversité Paris-8 Saint Denis [URL de référence : http://www2.univ-paris8.fr/deleuze/article.php3?id_article=157 ; consulté le 10/02/2015].

38 Yves Citton parle également d« intervalle », de vide entre la sensation initiale et la réaction différée ou de « vacuole » (Ibid. p. 58 et p. 74). Voir aussi : Yves Citton (2014), op. cit., p. 230 sqq.

39 Simone Weil, Attente de Dieu, Paris, Fayard, 1966, p. 116.

40 Jean-Marie Schaeffer, « Styles attentionnels et relation esthétique », in Jenny, L. [dir.], Le Style en acte. Vers une pragmatique du style, Genève, Mētis Presses, 2011, p. 142-143.

41 Groupe Mu, Rhétorique de la poésie. Lecture tabulaire, lecture linéaire, Paris, Seuil, 1990. Cette idée est partiellement reprise par Jean Peytard lorsquil conçoit la lecture comme « déambulation tabulaire ». Cf. Jean Peytard, « Écriture et pointillés de sens : lecture-analyse de deux pages de Proust (La Fin de la jalousie) », Semen[En ligne], no 11, 1999, [URL de référence : http://semen.revues.org/2911 ; consulté le 11/01/2015].

42 Groupe Mu (1990), op. cit., p. 65.

43 François Rastier, « La macrosémantique », in Texto ![en ligne], juin 2002. [URL de référence : http://www.revue-texto.net/Inedits/Rastier/Rastier_Marcosemantique1.html ; consulté le 10/02/2015].

44 Jean-Marie Schaeffer (2011), art. cité, p. 145.

45 Ibid., p. 147.

46 Katherine Hayles, « Hyper and Deep Attention : the Generational Divide in Cognitive modes », in Profession, 2007, p. 187-199 [URL : http://www.english.ufl.edu/da/hayles/hayles_hyper-deep.pdf]. « Hyper attention, by contrast, is characterized by switching focus rapidly between different tasks, preferring multiple information streams, seeking a high level of stimulation, and having a low tolerance for boredom. [] Each cognitive mode has advantages and limitations. Deep attention is superb for solving complex problems represented in a single medium, but it comes at the price of environmental alertness and flexibility of response. Hyper attention excels at negotiating rapidly changing environments in which multiple foci compete for attention ; its disadvantage is impatience with focusing for long periods on a non-interactive object such as a Victorian novel or complicated math problem. ». Nous renvoyons également à ce propos à : Nicholas Carr, Internet rend-il bête ?, Paris, Robert Laffont, 2011.

47 Voir également à ce sujet : Alexandra Saemmer, Matières textuelles sur support numérique, Saint-Étienne, Publications de lUniversité de Saint-Étienne, 2007, p. 37 sqq.

48 Bruno Bachimont, Arts et Sciences du numérique : ingénierie des connaissances et critique de la raison computationnelle. Mémoire dH. D. R., Université de Technologie de Compiègne, 12 janvier 2004, p. 77. [URL : http://www.utc.fr/~bachimon/Livresettheses_ attachments/HabilitationBB.pdf, consulté le 02/02/2015] : « Entre déterminisme technique et neutralité, la théorie du support argue que les dispositifs et innovations techniques modifient les conditions de possibilité de la pensée et des échanges sociaux. Cette modification nest pas une détermination : il ny a pas de couplage nécessaire entre une innovation technique et une mutation cognitive, culturelle ou sociale. La technique fonctionne comme moteur du changement, modifiant a la fois la réalité mais aussi les critères dévaluation de la réalité. » (p. 74).

49 En particulier par la « grammatisation » de lécriture et, de fait, le changement de support – l« automatisation » – naltère pas à mon sens cette propriété. Cf. Sylvain Auroux, La Révolution technologique de la grammatisation, Paris, Mardaga, 1993.

50 Les termes utilisés pour les décrire sont dans cette perspective très éclairants. Bernard Stiegler propose, quant à lui, de parler d« hypermatérialité ». Voir : Bernard Stiegler, « Lattention, entre économie restreinte et individuation collective », in Citton, Y. [dir.], LÉconomie de lattention. Nouvel horizon du capitalisme ? Paris, La Découverte, 2014, p. 123-135.

51 Bruno Bachimont, « Le nominalisme et la culture : questions posées par les enjeux du numérique » in Stiegler, B. [dir.] (2014), op. cit., p. 65.

52 Voir : Sylvain Auroux (1993), op. cit., p. 109.

53 Bruno Bachimont (2014), art. cité, p. 65.

54 Nous renvoyons à ce propos à la citation proposée en exergue, tirée de : François Rastier (2001), op. cit., p. 74-75 : « Chaque nouveau support permet de nouveaux traitements, mais ne les détermine pas. Une nouvelle technologie définit précisément un nouveau mode dinteraction entre un traitement et un support ».

55 Cf. Alan Liu, « Where is Cultural Criticism in the Digital Humanities ? », in Debates in the Digital Humanities, Gold, M. K. [éd.], Minneapolis, University of Minnesota Press, 2012, p. 490-509 : « In the digital humanities, cultural criticism – in both its interpretative and advocacy modes – has been noticeably absent by comparison with the mainstream humanities or, even more strikingly, with “new media studies” []. We digital humanists develop tools, data, metadata, and archives critically ; and we have also developed critical positions on the nature of such resources (e.g., disputing whether computational methods are best used for truth-finding or, as Lisa Samuels and Jerome McGann put it, http://www.jstor.org/stable/20057521). »

56 Pour Rastier, dans Arts et sciences du texte, lun des aspects les plus intéressants de cette évolution est sans doute le changement de paradigme mis en œuvre par la linguistique de corpus : « Alors que lobjectif de la représentation des connaissances demandait de capter dans un formalisme le maximum d“informations ”, les nouveaux objectifs danalyse imposent den sélectionner un minimum []. Or, ces représentations dépendent des tâches dinterprétation ; on passe alors dune problématique de la représentation à la problématique de linterprétation, et du programme cognitif de simulation de la compréhension à laide à linterprétation » (François Rastier (2001), op. cit., p. 76-77, nous soulignons). Ce changement de paradigme engage à notre sens la modification des stratégies attentionnelles portées sur les corpus.

57 Voir à ce propos la description par Rastier des différentes étapes de la « mise en texte » numérique dans : François Rastier (2001), op. cit., p. 82 sqq.

58 Les logiciels de textométrie offrent de ce point de vue un bon exemple du type denquêtes que lon peut mener sur un corpus, grâce à des requêtes par mot (chaîne de caractère), par lemme ou par catégorie grammaticale. Le traitement des résultats et leur classement par fréquence ou par spécificité illustrent également de manière remarquable les différentes visualisations du texte rendues possible par son formatage en données textuelles. Nous renvoyons pour la question de la manipulation du texte et de ses conditions dinscription à : Yves Jeanneret, « Écriture et médias informatisés », in Histoire de lécriture. De lidéogramme au multimédia, Christin, A.-M. [dir.], 2012, p. 395-402.

59 Ce que Rastier exprime ainsi : « Considérer un texte comme une chaîne de caractères serait le réduire à sa seule substance graphique, encourager son traitement séquentiel ou plus exactement déterministe (au moyen dune fenêtre de lecture déplacée linéairement, comme cest souvent le cas dans les analyseurs syntaxiques) ; enfin le couper de ses entours local (sa situation) et global (la culture dont il procède). Ce serait aussi réduire le langage au seul plan du signifiant ; encore ne sagirait-il que des mots, à quoi correspondent dans le meilleur des cas les chaînes de caractères ». Cf. François Rastier (2002), art. cité.

60 Nous renvoyons pour plus dinformations au corpus HyperApollinaire sur : http://obvil.paris-sorbonne.fr/corpus/apollinaire/. À propos du projet du LABEX Obvil, consulter la page : http://obvil.paris-sorbonne.fr/projets/hyperapollinaire.

61 Lédition critique dApollinaire a été structurée et annotée en langage XML-TEI de manière à constituer une véritable base documentaire facilitant lextraction de sous-ensembles (dans notre cas, le corpus poétique par opposition au corpus critique ou prosaïque apollinarien). Ce balisage rend ainsi possible la prise en compte des données textuelles et de laisser de côté pour cette analyse les notes de lapparat critique (consultables dans lédition en ligne).

62 Ce nuage de mots a été effectué par le logiciel Iramuteq (http://www.iramuteq.org/), à partir de la librairie R Wordcloud. Les graphiques suivants sont, eux aussi, générés par Iramuteq.

63 Iramuteq nomme ce type de visualisation « analyse de similitudes », mais le critère déterminant de cette représentation du lexique reste tout de même la cooccurrence des termes. Pour un exemple dapplication de ce type doutils, nous renvoyons à : Pascal Marchand et Pierre Ratinaud, « Lanalyse de similitude appliquée aux corpus textuels : les primaires socialistes pour lélection présidentielle française (septembre-octobre 2011), in Actes des JADT 2012[en ligne], Liège, 13-15 juin 2012 [URL de référence : http://lexicometrica.univ-paris3.fr/jadt/jadt2012/tocJADT2012.htm].

64 Sur une classification automatique du corpus, en fonction de critères purement statistiques, cette visualisation en AFC montre les mots lexicaux spécifiques des thématiques isolées par la machine, selon la méthode de segmentation et de classification Reinert. Pour plus dinformations à ce propos, nous renvoyons au site du logiciel Iramuteq qui décrit la Méthode Reinert : http://www.iramuteq.org/documentation/html/copy8_of_2-5-1-3-options-supplementaires-de-lanalyse-statistique-textuelle-sur-chaque-forme.

65 Bruno Bachimont (2014), art. cité, p. 66.

66 Lev Manovich, The Language of New Media. Cambridge, Massachusetts, London, England, The MIT Press, 2001.

67 Bruno Bachimont (2014), art. cité, p. 70-71.

68 Damon Mayaffre « Lanalyse du discours assistée par ordinateur [Séminaire de formation, Alexandrie, 1-11 décembre 2009] », Ressource dEnseignement, n. p. [en ligne], 2009, p. 13 [URL de référence : eprints.aidenligne-francais-universite.auf.org/19/ ; consulté le 17/06/2012].