Publication du corpus BFM2019
http://txm.bfm-corpus.org
Nous avons le plaisir d’annoncer la publication du corpus BFM2019 de la Base de français médiéval.
Le graphisme du portail BFM-TXM a été entièrement repensé et embelli à cette occasion.
Les conditions d’utilisation ont été simplifiées et tous les textes sont diffusés sous licence ouverte Etalab (https://www.etalab.gouv.fr/licence-ouverte-open-licence).
Le corpus BFM2019 comprend une quinzaine de nouveaux textes et atteint environ 4 700 000 mots. Tous les textes sont encodés selon les recommandations du consortium TEI, balisés pour le discours direct, automatiquement annotés en morphosyntaxe et lemmatisés. L’étiquetage morphosyntaxique a été vérifié pour 4 nouveaux textes (38 textes vérifiés, soit près de 1 000 000 mots) et la lemmatisation pour 18 textes (environ 400 000 mots).
Le corpus s’enrichit aussi de trois nouvelles éditions originales :
– La Vie de saint Alexis par T. Rainsford et C. Marchello-Nizia
– L’image du monde de Gossouin, version en prose, par N. Kanaoka
– Les quinze joies de mariage, par N. Kanaoka sur la base de l’édition imprimée établie par M. Guéret-Laferté, S. Louis et C. Mira, Rouen, Presses universitaires de Rouen et du Havre, 2009.
N’hésitez pas à nous signaler tout problème technique ou erreur dans un texte du corpus.
Contact.
La BFM (http://txm.bfm-corpus.org) est l’un des corpus les plus importants pour la langue et la littérature française médiévale.
Ses objectifs sont d’offrir à la communauté des chercheurs une source de données fiable (éditions de référence), riche, accessible et outillée sur la langue française médiévale et de servir de support empirique, méthodologique et technique aux projets développés dans les domaines de la linguistique, de la littérature et de la philologie médiévales.
La BFM compte plus de 300 utilisateurs inscrits et le corpus principal (BFM2016) comporte 153 textes et près de 4100000 occurrences-mots. Les textes disposent d’un encodage du discours direct et d’un étiquetage morphosyntaxique automatiques. L’étiquetage est vérifié par des spécialistes pour une trentaine d’entre eux. Les textes sont accessibles grâce à la plateforme open-source TXM et ses outils d’analyse : concordances KWIC, index de formes et de motifs, création de sous-corpus et de partitions, etc.
Le retour au texte de l’édition est toujours possible, avec éventuellement une vue synoptique du fac-similé de la source (voir l’édition numérique interactive de la Queste del saint Graal : http://catalog.bfm-corpus.org/qgraal_cm).
Les textes sont tous encodés en XML-TEI P5, et les fichiers sources, ainsi que les textes formatés pour l’impression (PDF) et le corpus « binaire » pour la version bureau de TXM, sont diffusés sous une licence libre CC BY-NC-SA 3.0 FR.
Contact : bfm [at] ens-lyon [point] fr