Le Nouveau Corpus d’Amsterdam (NCA) et la Base de Français Médiéval (BFM) : états et perspectives philologiques et linguistiques


Organisation : Michela RUSSO, Clémence JAIME, Céline GUILLOT-BARBANCE, Alexei LAVRENTIEV

Conférenciers invités :

Achim STEIN (Institut für Linguistik/Romanistik, UniversitätStuttgart) & Alexei LAVRENTIEV (ENS/ Lyon)

Cette journée scientifique inclut deux ateliers ayant pour objet le français médiéval et le numérique, ouverts à tous les étudiants de master et doctorants potentiellement intéressés.

Tous les collègues et les étudiants sont cordialement invités à participer sur inscription : contact Michela RUSSO & Céline GUILLOT


Cette journée d’études porte sur deux corpus de français médiéval, le Nouveau Corpus d’Amsterdam (NCA, 299 textes littéraires et extraits de textes, dont 57 en prose), accessible en ligne (TWIC online research ) ou par TXM en installation locale, et la Base de Français Médiéval (BFM, 170 textes) accessible sur le portail d’analyse textométrique BFM-TXM, mais aussi exploitable par TXM en installation locale.
Le Nouveau Corpus d’Amsterdam (NCA), corpus édité (révisé et lemmatisé) par Pierre Kunstmann et Achim Stein est la nouvelle version du Corpus d’Amsterdam, un corpus de textes littéraires de l’ancien français constitué au début des années 1980 par Anthonij Dees (Vrije Universiteit Amsterdam) et ses collaborateurs (Piet van Reenen et d’autres). Il a donné lieu à l’Atlas des formes linguistiques des textes littéraires de l’ancien français (Dees et al. 1987).
Les formes de ces textes ont été annotées manuellement par l’équipe de Dees avec un ensemble d’étiquettes numériques codant les parties du discours et d’autres catégories morphologiques. Certains textes sont des versions électroniques d’éditions existantes, d’autres sont des transcriptions de manuscrits faites spécialement pour ce corpus.
Cette journée vise à faire connaître le corpus informatique des textes littéraires du Nouveau Corpus d’Amsterdam (NCA), la version électronique des textes fournie par Piet van Reenen (U. libre d’Amsterdam), qui contient environ 200 textes différents, écrits entre le début du XIIe et la fin du XIVe siècle (certains d’entre eux dans plusieurs manuscrits, ce qui donne un total de 299 textes), son type d’annotation syntaxique et son étiquetage morphologique.
L’équipe de Dees disposait également d’un corpus de 3300 chartes locales, originales datées (réunies principalement par Anthonij Dees et Piet van Reenen). Le résultat de ce travail a été l’Atlas des formes et des constructions des chartes françaises du 13e siècle (Dees et al. 1980). Grâce à la Vrije Universiteit Amsterdam une partie importante de ces chartes a été informatisée (dans ses parties grammaticales, groupes nominaux, groupes pronominaux, etc.).
Dans cette journée un focus sera porté sur la description de ces chartes du XIIIe s., chartes parisiennes et anglo-normandes, chartes de l’Aube (rendues disponibles grâce à Piet van Reenen) et sur leur annotation morphologique (320.000 mots, annotés-POS, avec codes numériques).
Quant à la BFM, la Base de français médiéval, elle est implantée depuis l’origine au sein de l’ENS de Lyon. Fondée en 1989 par Christiane Marchello-Nizia, la BFM est actuellement gérée par Céline Guillot-Barbance, resp. scientifique, et Alexei Lavrentiev, resp. de la philologie numérique. Elle contient plusieurs corpus numériques de textes français écrits entre le IXe et la fin XVe siècle. Les textes sont annotés en morphosyntaxe, ils sont lemmatisés et les passages au discours direct sont encodés. L’accès à la BFM est ouvert et se fait par la plateforme d’analyse textométrique TXM, qui offre plusieurs fonctionnalités de recherche et d’analyse au travers de concordances de mots et de motifs textuels, etc.
Le NCA et la BFM constituent deux ressources précieuses pour le français médiéval.