Pôle numérique

carnet de recherches: https://escripta.hypotheses.org/1

Le pôle numérique de Scripta développe des outils numériques pour l’étude des documents écrits. Étant donné la concentration unique de spécialistes des écritures les plus diverses au sein de PSL, un accent particulier sera porté sur l’articulation des approches qualitatives et quantitatives en paléographie.

Sera créée, d’une part, une interface ergonomique permettant la transcription et la saisie de données manuelles, jusqu’à l’édition numérique (et imprimée) d’un témoin transcrit avec son apparat critique, une traduction, un commentaire et une analyse linguistique, selon les standards internationaux (TEI, IIIF, MAF). Une brique centrale, « Archétype », sera développée par Peter Stokes (directeur d’études EPHE, PSL), qui permettra l’annotation et l’étude paléographique approfondie d’écritures. Nous combinerons, d’autre part, les approches numériques manuelles avec les nouvelles possibilités computationnelles. Une deuxième brique fondamentale, appelée « kraken », est développée par Benjamin Kiessling (ingénieur de recherche PSL), un module HTR (handwritten text recognition), sera renforcé pour permettre l’analyse automatique non seulement des imprimés mais également des manuscrits. Dans ce module, l’analyse automatique d’images de documents écrits, sur la base de réseaux de neurones convolutifs, permettra d’isoler des objets de leur arrière-fond et d’établir une distinction entre l’écriture principale, la décoration (illuminations, lettrines, etc.) et les annotations interlinéaires ou marginales.

Une troisième brique consistera en l’interface de transcription approfondie en liaison avec « Archétype » d’un côté et « Kraken » de l’autre. La transcription en relation directe avec l’image facilitera la publication d’éditions facsimilées numériques. Elle permettra également l’entraînement de l’ordinateur afin de préparer des transcriptions automatiques, ainsi que l’alignement automatique de transcriptions déjà existantes sur l’image. Cette liaison directe entre texte et image autorisera de nouvelles formes de requêtes d’informations visuelles (p. ex. pour trouver toutes les images avec un mot spécifique découpé, tous les mots qui s’apparentent à un mot donné [wordspotting], etc.). La combinaison de l’approche quantitative (« kraken ») avec l’approche qualitative (« Archétype ») permettra de clustériser (analyser et regrouper) toutes les lettres d’un manuscrit sur la base de l’annotation manuelle profonde et ainsi, par exemple, de distinguer entre des allographes (variantes) d’une même lettre et d’analyser leur répartition dans un manuscrit, voire un corpus. Couplé avec des bases de données de manuscrits datés, géo-localisés ou écrits par un scribe identifié, un module permettra la catégorisation automatique d’autres manuscrits semblables.

Dans une deuxième étape seront également développés et mis à la disposition des chercheurs des modules d’annotation linguistiques, d’analyse des variantes textuelles, de stemmatique, et d’analyse intertextuelle. Comme pour le volet de transcription automatique, nous planifions un dialogue entre l’annotation manuelle de données d’entrainement pour l’annotation automatique et un module ergonomique pour la post-correction manuelle de l’annotation automatique PPA de l’ENC.

En liaison avec différents projets en cours, nous prévoyons des interfaces import / export qui permettront l’intégration de données textuelles, visuelles ou linguistiques existantes ou l’exportation vers des publications numériques ou imprimées en utilisant différents standards et notamment IIIF et un DTS (Distributed Text Services). Un service tel que DTS permet d’identifier précisément toute partie d’un texte numérique souhaitée (un paragraphe, une ligne, une phrase ou un mot), ce qui autorise, par exemple, de la citer dans une autre publication. De la même façon, IIIF rend possible l’identification précise de toute partie d’une image numérique, ceci afin, par exemple, de créer des liens entre textes et images.

contact: daniel.stoekl@ephe.psl.eu