Publication du corpus BFM2016
http://txm.bfm-corpus.org
Le groupe de travail Cactus a le plaisir d’annoncer le nouveau millésime de la BFM : le corpus BFM2016.
La Base de français médiéval (BFM) diffuse gratuitement des ressources ouvertes (open-source) portant sur la langue et la littérature française
médiévale (textes, métadonnées, lexique...) via son portail web (http://txm.bfm-corpus.org).
Le corpus BFM2016 comprend une trentaine de nouveaux textes et atteint environ 4 100 000 mots. Tous les textes de la BFM sont encodés selon les
recommandations du consortium TEI, balisés pour le discours direct et automatiquement annotés en morphosyntaxe. L’étiquetage morphosyntaxique a été
vérifié pour 20 nouveaux textes (34 textes vérifiés au total, soit près de 1 000 000 mots).
Contact : bfm [at] ens-lyon [point] fr
La BFM (http://txm.bfm-corpus.org) est l’un des corpus les plus importants pour la langue et la littérature française médiévale.
Ses objectifs sont d’offrir à la communauté des chercheurs une source de données fiable (éditions de référence), riche, accessible et outillée sur la langue française médiévale et de servir de support empirique, méthodologique et technique aux projets développés dans les domaines de la linguistique, de la littérature et de la philologie médiévales.
La BFM compte plus de 300 utilisateurs inscrits et le corpus principal (BFM2016) comporte 153 textes et près de 4100000 occurrences-mots. Les textes disposent d’un encodage du discours direct et d’un étiquetage morphosyntaxique automatiques. L’étiquetage est vérifié par des spécialistes pour une trentaine d’entre eux. Les textes sont accessibles grâce à la plateforme open-source TXM et ses outils d’analyse : concordances KWIC, index de formes et de motifs, création de sous-corpus et de partitions, etc.
Le retour au texte de l’édition est toujours possible, avec éventuellement une vue synoptique du fac-similé de la source (voir l’édition numérique interactive de la Queste del saint Graal : http://catalog.bfm-corpus.org/qgraal_cm).
Les textes sont tous encodés en XML-TEI P5, et les fichiers sources, ainsi que les textes formatés pour l’impression (PDF) et le corpus « binaire » pour la version bureau de TXM, sont diffusés sous une licence libre CC BY-NC-SA 3.0 FR.
Contact : bfm [at] ens-lyon [point] fr