Camps Jean-Baptiste et Duval Frédéric
L’enrichissement linguistique des éditions savantes est une pratique essentielle à une lecture et une interrogation renouvelées et étendues des textes. La lemmatisation, l’annotation morphologique ou syntaxique permettent de nouvelles fonctionnalités, telles que la création des paradigmes flexionnels à la demande, l’alignement de transcriptions d’un même texte ou de nouvelles exploitations stemmatologiques, en décuplant les possibilités d’analyse computationnelle. Ces corpus annotés sont fondamentaux pour l’entraînement de lemmatiseurs par des méthodes d’apprentissage profond. Actuellement, une limite très importante pour les états de langues anciens, souvent peu standardisés, est la rareté des données disponibles et la petite taille des corpus.
Dans le cadre du projet PSL LAKME, l’École des chartes et le Lattice (ÉNS) ont engagé une collaboration pour la production de corpus annotés en ancien français et en occitan médiéval – langues rares de ce point de vue. Grâce au travail de vacataires et de chercheurs (Jean-Baptiste Camps, Frédéric Duval), un corpus relu de 50 000 mots annotés en lemmes, morpho-syntaxe et flexion a été créé pour l’ancien français et un corpus équivalent, annoté en lemmes, pour l’occitan (ce dernier en collaboration avec le projet CORLIG de Paris-Sorbonne). Des modèles de lemmatisation ont été entraînés, avec des résultats encourageants (préc. > 94%), via la participation de l’ÉNC (JBC, Thibault Clérice) au développement de Pandora, en partenariat avec l’Université d’Anvers (Mike Kestemont).
Néanmoins, pour gagner en efficacité, un changement d’échelle est impératif. En sus de l’amélioration (en cours) du lemmatiseur, il est nécessaire de réduire autant que possible le temps pris par la relecture, tout en conservant (ou améliorant) la qualité et l’intégrité des données, et en rendant possible le travail collaboratif ou la production participative. À cette fin, le développement d’un outil de post-correction, indépendant de la langue, a été entrepris à l’ÉNC ( pandora-postcorrect-app ) et doit être poursuivi.
En outre, des développements supplémentaires sont nécessaires pour rendre l’annotation utile aux lecteurs des éditions, en proposant des fonctionnalités interactives de consultation et d’interrogation des textes enrichis. Ces développements seront menés, avec le CMS Nemo et, si possible, en collaboration avec le projet Alpheios, en intégrant l’ancien français au champ des langages couverts par ce projet (grec et latin, à venir : perse, syriaque et hébreu).
Aujourd’hui, nous sollicitons auprès de Scripta un financement complémentaire qui nous permettra de produire, au terme d’une année de travail :
- des outils, libres, open source et indépendants de la langue, pour faciliter, systématiser et rendre beaucoup plus rapide la correction d’annotations linguistiques, et pour réaliser des éditions électroniques innovantes, enrichies de nouvelles fonctionnalités ;
- des données annotées de qualité pour les périodes anciennes des langues gallo-romanes, occitan etfrançais, qui seront publiées en open data, au service de la communauté.