Corpus en diAChronie, Textométrie et Usages

Responsable : Serge HEIDEN

Présentation

Les recherches du groupe Cactus (Corpus en diAChronie, Textométrie et Usages) articulent des problématiques philologiques pour la production d’éditions à visées analytiques, des problématiques linguistiques dans le domaine de la diachronie du français et des problématiques méthodologiques pour l’analyse de corpus textuels numériques. Ses activités se réalisent à travers deux projets de fond :

  • l’édition de la Base de français médiéval (BFM), donnant accès à 170 textes médiévaux (IXe- fin XVe s.) et dotée de fonctionnalités de consultation et d’analyse basées sur des outils et des annotations avancés ;
  • le développement de la textométrie et son implémentation dans la plateforme open-source TXM, offrant une approche à la fois quantitative et qualitative pour l’analyse méthodique de corpus textuels, en affinité avec les attentes et exigences de la recherche en sciences humaines et sociales.

Le groupe de travail développe notamment plus particulièrement les champs d’étude suivants :

  • français du Moyen Âge et de la Renaissance et linguistique diachronique en corpus numériques : oral représenté ; démonstratif ; passage du latin au français ; chaînes de référence
  • philologie numérique et éditions analytiques : éditions multifacettes et synoptiques, encodage XML-TEI et son exploitation
  • analyse textométrique pour les corpus structurés, annotés et multimodaux
  • méthodologie textométrique, étude critique des apports de la textométrie à l’histoire des idées

Les recherches du groupe Cactus s’inscrivent dans la composante « Humanités numériques et épistémologie des éditions » de l’axe Éditions et histoire du livre.

Activités de formation

  • Cours Édition numérique de sources textuelles (LAF4204) du Master de Lettres de l’ENS de Lyon
  • Encadrement régulier de stagiaires (niveau M1 et M2)
  • Encadrement de deux thèses utilisant une méthodologie basée sur des corpus numériques

Ressources numériques publiées par le groupe de recherche

Séminaire

Participant·e·s

IHRIM

Matthieu DECORDE (IE)
Céline GUILLOT-BARBANCE (MCF HDR)
Serge HEIDEN (IR)
Alexei LAVRENTIEV (IR)
Bénédicte PINCEMIN (CR)
Nadine PONTAL (IE)

Doctorants

Tanguy LEMOINE

  • Intitulé de la thèse : La ponctuation moyenne dans la prose narrative en français préclassique
  • co-direction Pascale Mounier (Université de Grenoble), Céline Guillot-Barbance et Alexei Lavrentiev

Zeina TMART

  • ATER à l’Université Aix-Marseille
  • intitulé de la thèse : La coordination des syntagmes nominaux en français. Essai de typologie sémantico-référentielle en diachronie (XIIe – XVIe siècles)
  • direction Céline Guillot-Barbance

Anciens Doctorants

Jan DVORAK

  • MCF en Linguistique française à l’Université Toulouse Jean Jaurès
  • intitulé de la thèse : Les emplois adnominaux des démonstratifs tchèques et français dans la langue orale informelle. Étude de sémantique référentielle contrastive
  • co-direction internationale Céline Guillot-Barbance et Olga Nadvornikova (Université Charles de Prague)
  • soutenue le 24 septembre 2021 à l’ENS de Lyon

Piotr PLOCHARZ

  • MCF en Linguistique latine à l’Université Paris-Nanterre
  • intitulé de la thèse : Le démonstratif en latin tardif et altimédiéval : étude de la documentation notariale privée rédigée en Gaule et en Italie (7e – 10e siècles)
  • co-direction internationale Céline Guillot-Barbance et Maria Selig (Université de Regensburg)
  • soutenue le 29 septembre 2021 à l’ENS de Lyon

Associés

Piotr PLOCHARZ
Francesca REBASTI (postdoc associée)

Contrats et partenariats

  • Projet européen COST Distant Reading 2017-2021 (coord. université de Trier, Allemagne) : Distant Reading for European Literary History
  • Projet ANR PROFITEROLE 2017-2020 (coord. UMR Lattice, Paris) : PRocessing Old French Instrumented TExts for the Representation Of Language Evolution
  • Projet ANR ANTRACT 2017-2020 (coord. UMR CHS, Paris) : Analyse transdisciplinaire des Actualités filmées (1945-1969)
  • Projet Digital Theological Hobbes (coord. UMR IHRIM, Lyon) : financement consortium CAHIER (2019-2021) et financement labex COMOD (2019-2021)
  • Programme 13-Novembre 2016-2028 (coord. HESAM Université, Paris), sur la construction et l’évolution de la mémoire après les attentats du 13 novembre 2015 à Paris
  • Projet ANR DEMOCRAT 2016-2020 (coord. UMR Lattice, Paris) : DEscription et MOdélisation des Chaînes de Référence : outils pour l’Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique

Contrats et partenariats terminés récents

  • Projet FMSH/RGNF Interaction des langues et des cultures dans l’univers des journaux intimes russes francophones au XIXe siècle 2016-2018 (coord. IHRIM pour la France et Univ. Novossibirsk pour la Russie)
  • Projet ANR-DFG PaLaFra 2015-2017 (coord. IHRIM pour la France et Univ. Regensburg pour l’Allemagne) : PAssage du LAtin au FRAnçais : constitution et analyse d’un corpus numérique latino-français
  • Équipex Matrice 2011-2019 (coord. HESAM Université, Paris) - Memory Analysis Tools for Research through International Cooperation and Experimentations. Between individual and social memory : needs and tools of innovation / Entre mémoire individuelle et mémoire sociale : les nécessités et les outils de l’innovation

Participation aux consortiums et infrastructures

  • Participation aux consortiums de la TGIR HumaNum CAHIER et CORLI
  • Participation au consortium TEI (SIG Tools)
Mis à jour le 30/03/2020

Equipes de sites