Principes d'édition. Éthique et intégrité

Les œuvres publiées par Classiques Garnier Numérique répondent aux trois critères de la «philologie numérique» établis dans les années 1990 par Claude Blum, professeur à la Sorbonne.

1 - La notion de Corpus. L’édition d’un texte sur support électronique ne prend sens que si elle est pensée comme partie d’un ensemble cohérent visant à l’exhaustivité (l’ensemble des œuvres d’un auteur, d’une période, d’un genre, etc.).
L’édition électronique d’une œuvre, par exemple, sera constituée par l’ensemble des éditions originales de cette œuvre, imprimées du vivant de l’auteur (l’édition électronique des Essais de Montaigne comprendra par exemple toutes les éditions du vivant de l’auteur: 1580, 1582, 1587, 1588 et l’édition du manuscrit préparée par Montaigne avant sa mort dit «exemplaire de Bordeaux»). Si l’exhaustivité, pour des raisons matérielles, n’est pas possible et qu’une sélection doit être faite parmi les éditions du vivant de l'auteur on choisira la dernière édition censée représenter le dernier état de l’œuvre voulu par son auteur. En l’absence d’édition du vivant de l’auteur, on s’arrêtera à la première édition posthume. Ce principe de base peut être adapté par le Comité de publication qui a la faculté de s’arrêter, pour des raisons scientifiques, à une autre édition que la dernière du vivant de l’auteur ou la première édition posthume. Le préférable étant toujours d’éditer le corpus exhaustif des éditions du vivant et/ou posthumes, comme il a été fait pour le Corpus des œuvres de Montaigne.

2 - Reproduction à l’exact identique des œuvres, dans toutes leurs traces. L’éditeur électronique s’interdira le jugement, la sélection, la destruction de données présentes sur l’original. Tout signe est déclaré faire sens. L’édition électronique dédiée à l’édition patrimoniale sera réalisée selon les règles connues de «l’édition diplomatique», dans le respect absolu de l’original.
En «philologie numérique», la pagination originale, par exemple, est respectée, une page de l’édition de référence correspondant à une page-écran; toutes les pages, y compris les pages blanches, sont donc conservées et numérisées. Il en va de même pour toutes les données d’une page, zone de collation, polices de caractères (grandes capitales / petites capitales par exemple), graphie, orthographe (les coquilles seront corrigées afin de ne pas entraver l’interrogation électronique, mais maintenues en note).
Ce choix de la pagination originale n’est pas anodin. Il implique un balisage lourd, c'est-à-dire l’existence d’un «record» par page et non plus par partie ou chapitre de l’œuvre comme le font la plupart des éditeurs électroniques (avec par conséquence pour ceux-ci d’exclure toute recherche partant d’une information se référant à la page de l’original, ce qui est pourtant la base de toute recherche d’information dans l’espace universitaire).

3 - L’édition électronique en mode texte sera associée en lien interactif, page à page, à l’édition fac-similé de l’original (mode image) afin que l’utilisateur puisse à chaque instant se reporter à la matérialité visuelle du texte d’origine (en cours d'extension à toutes les bases).

Étapes de production d'une base de données

1) Constitution de la bibliographie par les meilleurs spécialistes du sujet selon les principes précédents:
- il est fait appel uniquement aux originaux;
- est éditée la dernière édition du vivant de l’auteur, sauf raisons scientifiques contraires;
- en l’absence d’éditions du vivant de l’auteur on retiendra la première édition posthume reconnue par la critique.

2) Collecte des documents originaux à partir de la bibliographie, dans les bibliothèques du monde entier et les collections particulières, par numérisation, microfilm ou photocopie dans le respect du droit d’auteur.

3) Analyse technique et scientifique d’échantillons sélectionnés par des équipes spécialisées.

4) Pré-balisage manuel des documents. Il s’agit de déterminer et de mettre en valeur la structure des documents et les problèmes éventuels de saisie à résoudre (codage de signes inhabituels, de figures, etc.), par le moyen de surlignages colorisés et de commentaires d’accompagnement. Ce travail est manuel et fait sur support papier.

5) Rédaction de la DTD (Définition de Type de Document).

6) Saisie de l’échantillonnage de textes à partir de la DTD par des équipes spécialisées.
Selon la difficulté des textes ceux-ci font l’objet d’une double ou d’une triple saisie comparative permettant d’aboutir à une faute de saisie tous les 10 000 caractères au maximum. Il ne s’agit en aucun cas d’océrisation. L’océrisation est plus ou moins fautive pour tous les textes et impraticable pour les textes antérieurs au 19e siècle. Par ailleurs, elle ne permet pas de balisages fins de structure et exclut donc ensuite toute possibilité de champs de recherche complexe. Le meilleur repérage possible en OCR s’arrête à l’unité "chapitre".
En effet, l’OCR, processus automatique, exclut la prise en compte d’analyses de structure préalables, leur pré-balisage manuel, puis leur prise en compte dans une DTD lors du passage en mode texte. Les possibilités de recherche sont faibles, limitées à la recherche de mots. Les éditeurs ou prestataires (Google par exemple) qui utilisent la technique de l’OCR pur ou de l’OCR-texte caché annoncent un taux de fiabilité par rapport à l’original de 96% à 99%.

Il faut bien voir ce que représentent ces chiffres qui, au premier abord, peuvent faire illusion. Sur une page ordinaire de 2 500 signes cela signifie que cette page comprend entre 25 et 100 fautes. S’il s’agit d’un dictionnaire (6 000 signes par page) nous arrivons à un nombre de fautes compris entre 60 et 240 fautes par page. Autrement dit, l’OCR-texte caché interdit toute recherche réelle fiable et donne des résultats qui n’ont guère de pertinence. Or, l’on sait que pour que l’interrogation d’une base de données soit pertinente, la fiabilité du texte doit être d’une faute de saisie tous les 10 000 caractères si le texte est un texte de sciences humaines et d’une faute de saisie tous les 100 000 caractères si le texte est un texte juridique (on imagine sans peine les risques que représente pour l’utilisateur une base de données aux textes fautifs dans la recherche d’une jurisprudence ou de l’historique de rendus de justice). Pour arriver à ce degré de fiabilité il n’y a pas d’autre possibilité que la saisie manuelle contradictoire, double ou triple, du même texte.

7) Le principe de base de la DTD et de la saisie est celui de la philologie numérique: notre édition est à l’exact identique de l’original; il s’agit d’une «édition diplomatique» de l’original.

8) Contrôle des saisies et de la bonne exécution de la DTD par des outils informatiques (parsers) et contrôle manuel.

9) Fabrication d’un prototype à partir de l’application Classiques Garnier Numérique (application = moteur multiplateforme Babel + interface).

10) Intégration informatique de l’échantillonnage puis tests de contrôle et adaptation éventuelle de la DTD et des développements du moteur Babel.

11) Saisie de la totalité du Corpus.

12) Contrôle qualité de l’ensemble de la saisie par des outils informatiques (parsers) et le contrôle manuel.

13) Intégration de la saisie dans l’application Classiques Garnier Numérique.

14) Tests qualité; correction des textes ou de l’application (moteur et interface) jusqu’à ce que les tests soient entièrement positifs.

15) Mise en ligne.

Les fonctions de recherche - Principes

Les balisages de nos bases permettent des recherches spécifiques sur les différentes parties d'une œuvre (avant-texte, texte, post-texte; parties, chapitres, etc.), tandis qu'à l'aide des opérateurs l'utilisateur peut affiner sa recherche en plein texte (recherches de structure, typographiques, etc.).

Tous les champs de recherche peuvent être croisés grâce aux index dynamiques qui calculent en temps réel le résultat des recherches (on pourra par exemple rechercher dans quelles préfaces des œuvres publiées à telle date en tel lieu il est question de tel auteur ou de tel thème dans un exergue ou une citation).

Pour chaque champ de recherche l'utilisateur a à sa disposition, en clair, l'index complet correspondant au champ. Il pourra ainsi connaître l'entier contenu du champ et juger de la qualité et de la fiabilité des textes qui lui sont proposés (puisqu'un index met immédiatement en valeur les défauts de saisie des textes qu'ils représentent). On notera que cette pratique est des plus rares en édition électronique.

Principes d'édition. Éthique et intégrité

Étapes de production d'une base de données

Les fonctions de recherche - Principes

Classiques Garnier

Liens utiles

Numérique institutionnel