Re‑typographe, reconstruction automatique de la typographie d’ouvrages imprimés de la Renaissance

Le projet Re‑typographe a débuté en 2013 à l’initiative d’un partenariat entre l’Anrt et le Loria (Laboratoire lorrain de recherche en informatique et ses applications). Il vise la reconstitution d’une fonte numérique à partir de documents anciens scannés. Cette approche donne la possibilité de s’intercaler dans le schéma des transcriptions numériques actuelles. En se référant aux étapes de transcriptions des documents anciens élaborées par le paléographe Marc Smith, le projet Re‑typographe place ses espoirs sur le niveau de transcription dit «conservatif»: un OCR qui préserverait la forme typographique. Les avantages d’un tel document seraient d’obtenir une copie numérique au plus proche du fac-similé, nettoyée des aléas de l’impression, avec un texte encodé, donc dynamique et un poids relativement faible facilitant la diffusion et donc l’échange. La première phase du projet a consisté à s’approprier les logiciels Retro et Agora développés au Cesr de Tours qui permettent d’extraire des lettres sous forme d’images à partir de scans de livres. Partant du postulat que chaque occurrence d’une même lettre a la même forme, la première partie de ce projet a été de se concentrer sur la génération de formes moyennes à partir d’occurrences de lettre-images extraites de documents de la Renaissance. Par la suite, plusieurs tentatives de caractérisations des formes typographiques ont été envisagées.

La collaboration avec deux groupes d’étudiants en programmation à permis de créer deux programmes par lesquels il était possible de tester différents algorithmes de traitement d’image, d’envisager des scénarios d’interfaces et de se rendre compte des limites à dépasser. Une méthode de traitement de moyenne en niveaux de gris à partir de laquelle sont appliquées différentes façons d’extraire les contours a été mise en place par le groupe de l’école des Mines. L’utilisateur peut générer un contour de façon matricielle puis vectorielle. La comparaison de la forme moyenne avec un membre quelconque du groupe a paru important pour affiner les réglages. Une autre méthode de calcul de forme moyenne a été testée par le groupe de Télécom Nancy. Des algorithmes de détection de squelette ont été par la suite développés, ainsi que des tentatives de caractérisation de celui-ci. Le programme trouve les connections, segmente la lettre, détermine si ce segment est droit ou courbe et situe les zones de pleins et de déliés.

Après une année de recherches, différentes possibilités de recompositions complètes d’un document ancien sont envisageables. Les derniers essais se sont notamment tournés vers la détection de la ligne de base dans les sources scannées ; celle-ci est une prémisse à l’extraction des informations du document pour la synthétisation automatique d’une fonte à partir de sources de documents images.