Sept phases-clés
nous mènent de l’œuvre
initiale à sa version électronique.
ÉTAPE 1 :
LE CHOIX DE L’OUVRAGE
L’édition
retenue sera l’édition originale,
ou celle qui fait autorité parmi
les spécialistes. Il faut ensuite
s’en procurer deux exemplaires. La
tâche est parfois difficile : certains
ouvrages sont devenus rares — l’Encyclopédie
de Diderot et d’Alembert par exemple
; certains sont abîmés par
le temps — le Grand Larousse du XIXe
siècle ; et puis l’édition
retenue n’est pas toujours la plus
répandue.
La bibliothèque REDON est un écrin
d’éditions précieuses
: l’édition originale du Littré
de 1872 et son supplément de 1877,
les huit éditions originales du Dictionnaire
de l’Académie française,
etc.
ÉTAPE 2
: LA SAISIE DU TEXTE
Deux saisies sont préférables
: une fois les ouvrages réduits en
feuillets, elles s'effectuent chez deux
prestataires en parallèle. Les prestataires
sont recrutés à l’étranger,
à des tarifs très compétitifs
au niveau mondial. Le choix d’un non-francophone
évite les erreurs dérivant
de l’interprétation inconsciente
des signes. Ainsi, lorsqu’un non-francophone
saisit les mots “étoit”
et “était”, ce sont pour
lui deux mots totalement différents.
Un locuteur francophone, au contraire, risque
de saisir le mot “était”,
de substituer, à "étoit"
sa forme moderne, par automatisme. Ce risque
concerne tous les termes dont la graphie
a évolué ou les lettres qui
ont changé d’aspect (comme
le “s”, similaire à un
grand “f” au XVIIIe siècle).
Enfin, la précision d'écriture
est une qualité recherchée,
qui résulte par exemple de l'utilisation
des idéogrammes dans la culture chinoise.
Le résultat de la double-saisie est
rapatrié en France pour y être
retraité (Étape 4).
ÉTAPE 3
: LA SCANOGRAPHIE
Cette étape
– où l’on prend la page
en bloc pour en faire une image —
restitue la version imprimée en “mode
image” dans le CD-ROM.
Deux ouvrages sont concernés :
L’Encyclopédie de Diderot et
d’Alembert : les 2 800 planches de
gravures sont restituées en haute
définition sur la version électronique
; elles ont été scannées
à l’aide d’une technique
sophistiquée qui préserve
les reliures du livre source. La numérisation
permet ensuite de visualiser, d’agrandir
les gravures et de les imprimer.
Le Grand Larousse du XIXe siècle
: l’intégralité des
17 volumes de textes est restituée
en mode image sur le DVD-ROM. Chaque page
a été scannée en très
haute résolution, et chaque image
découpée en quatre colonnes
pour simplifier la lecture. Cet ouvrage,
qui représente trois fois le volume
de texte de l’immense Encyclopédie,
n’aurait pas pu être entièrement
ressaisi. L’investissement aurait
été bien trop important avec
un résultat nettement moins bon.
De plus, le mode image apporte l’authenticité
et la chaleur des pages d’origine,
avec leur mise en page, les lettrines, ou
les partitions de musique et les différentes
illustrations des articles.
ÉTAPE 4 :
LA FIABILISATION DU TEXTE
Le protocole
est à la fois rigoureux et ingénieux.
Un programme informatique compare les deux
textes issus de la double-saisie. Il en
extrait les mots qui diffèrent. Cette
méthode, alliée à un
retraitement manuel, filtre la majeure partie
des erreurs de saisie. Pour filtrer le texte
plus finement, on le confronte de la même
manière à une gigantesque
base de données lexicale. Cette base,
mise au point par REDON, s’enrichit
à chaque développement, de
multiples textes, anciens et récents,
et augmente ainsi son potentiel d’analyse.
De nombreux sondages sont effectués
sur le texte, générant des
corrections manuelles ou automatiques, à
l’aide d’algorithmes informatiques.
Dans le cas du Grand Larousse du XIXe siècle,
il n’y a pas eu de saisie : le texte
est issu d’un procédé
de “reconnaissance de caractères”
(en anglais Optical Character Recognition).
Toutes les images des pages de l’ouvrage
sont analysées par le logiciel d’OCR
le plus performant du marché, à
l’aide de paramétrages précis,
prenant en compte les spécificités
d’un document ancien (graphies différentes,
qualité du papier, vocabulaire ancien,
etc). Les 450 millions de signes de l’ouvrage,
restitués avec quelques imperfections,
constituent une excellente base une fois
fiabilisés. La phase de vérification
du texte est relativement longue, surtout
pour les grands textes ou ceux issus de
la reconnaissance de caractères.
Pourtant, même s’il subsiste
encore quelques coquilles, la fiabilité
atteinte est de l’ordre de 97 à
99%.
ÉTAPE 5 :
L’INTÉGRATION INFORMATIQUE
Pendant que
le texte est optimisé pour le support
électronique, le chef de projet informatique
détermine les besoins potentiels
de l’utilisateur et les possibilités
laissées par le texte. Il est pertinent
d’ouvrir une recherche par auteur
dans le Littré, qui contient de nombreuses
citations ; mais c’est inutile dans
le Dictionnaire de l’Académie
française. Les principales fonctionnalités
(recherche en plein texte, par auteur, par
domaine, navigation hypertexte) sont donc
programmées et installées
avec les données. L’interface
est conçue pour une prise en main
immédiate du dictionnaire.
ÉTAPE 6 :
LES TESTS
À
ce stade, le CD-ROM est opérationnel
mais il n’a pas encore été
testé ni corrigé ; on le nomme
version bêta. Des testeurs la manipulent,
expérimentent toutes ses fonctionnalités,
enchaînent toutes les combinaisons
de recherche possibles pour déceler
d’éventuels “bugs”
de programmation. Ils produisent un rapport
de ces bugs à corriger, destiné
à l’informaticien. Plusieurs
séries de tests sont effectuées,
jusqu’à la dernière
phase qui révèle les anomalies
éventuelles liées à
la configuration informatique (différentes
versions de Windows™ ou de Macintosh®,
etc).
Une fois tous les bugs corrigés,
le logiciel est prêt à être
dupliqué et à être mis
sur le marché.
ÉTAPE 7 :
LA PRODUCTION
La fabrication du
produit fini prend environ un mois. Elle
comprend l’impression des boîtes,
des manuels d’utilisation et autres
éléments d’habillage
du CD, la duplication du CD lui-même
et l’assemblage sur une chaîne
de fabrication des différents composants
du produit. Une fois les CD-ROM livrés
en magasin, le public peut enfin découvrir
ces dictionnaires et encyclopédies
électroniques.