Serge Heiden

Research Officer / Ingénieur de recherche

ENS de Lyon

IHRIM - ENS de Lyon

Ingénieurs, techniciens et administratifs


Page personnelle : site du projet Textométrie développant la plateforme TXM

Activités

Serge Heiden is a research officer at the IHRIM laboratory, École normale supérieure de Lyon (France), and head of the Cactus research group.

He holds a PhD in Computer Science from the Pierre et Marie CURIE Paris 6 University. He has developed for two decades the methodology of textual corpus analysis called ’textometry’ through its implementation in several application software. He is involved in the activities of several digital humanities related national (CORLI - TGIR Huma-Num) and international (TEI) consortiums as well as conferences (JADT) and summer schools (MISAT). He regularly gives professional or university training courses.

Since 2007, thanks to the initial funding of an ANR project called ’Textométrie’, which lasted four years, he leads the development of the TXM platform for textual corpus analysis intended for both personal computers and web servers.

This platform combines classical qualitative (such as concordancers, word lists or hypertextual reading of texts) and quantitative (statistical cooccurrents, clustering, factorial analysis...) text analysis tools with rich representations of texts (encoded according to different idioms of the TEI) and enriched by natural language processing tools (lemmatizers, syntactic parsers ...).

This platform is also the place of prototyping of numerous experiments in the field of rich, multimodal and multimedia digital philology, quantitative analysis of complex textual planes and automatic linguistic enrichment for text corpora in many ancient and contemporary languages (from transcriptions of cuneiform tablets from the second millennium BC to tweets of social networks).

Current developments in the platform are carried out in the following ANR projects :
#ANR-14-FRAL-0006 PaLaFra (2015 - 2018) : open-source lemmatization of medieval French ;
#ANR-15-CE38-0008 Democrat (2016 - 2019) : assisted annotation of co-reference chains ;
#ANR-16-CE38-0010 Profiterole (2017 - 2020) : open-source syntactic parsing of old French.

More information : http://textometrie.org/?lang=en.


Serge Heiden est ingénieur de recherche au laboratoire IHRIM <http://ihrim.ens-lyon.fr> , École normale supérieure de Lyon (France), et responsable du groupe de recherche Cactus.

Il est titulaire d’un doctorat en Informatique de l’Université Pierre et Marie CURIE Paris 6. Il a développé pendant deux décennies la méthodologie d’analyse de corpus textuels appelée ‘textométrie’ à travers son implémentation dans plusieurs logiciels d’application. Il est impliqué dans les activités de plusieurs consortium d’humanités numériques nationaux (CORLI - TGIR Huma-Num) et internationaux (TEI) ainsi que de conférences (JADT) et écoles d’été (MISAT). Il donne régulièrement des cours de formation professionnelle ou universitaire.

Depuis 2007, grâce au financement initial d’un projet ANR appelé ‘Textométrie’ et qui a duré quatre ans, il anime le développement de la plateforme TXM d’analyse de corpus textuels destinée à la fois aux ordinateurs personnels de chercheurs et à des serveurs web.

Cette plateforme combine des outils d’analyse de textes classiques qualitatifs (comme les concordanciers, les listes de mots ou la lecture hypertextuelle d’éditions de textes) et quantitatifs (cooccurrents statistiques, classification, analyse factorielle...) avec des représentations riches des textes (encodés selon différents idiomes de la TEI) et enrichis par des outils de traitement automatique de la langue (lemmatiseurs, analyseurs syntaxiques...).

Cette plateforme est également le lieu de prototypage de nombreuses expérimentations dans le domaine de la philologie numérique riche, multimodale et multimédia, l’analyse quantitative de plans textuels complexes et l’enrichissement linguistique automatique pour des corpus de textes en de nombreuses langues anciennes et contemporaines (de transcriptions de tablettes cunéiformes du IIe mil. av. J.-C. aux tweets des réseaux sociaux).

Les développements en cours dans la plateforme sont notamment réalisés au sein des projets ANR suivants :
#ANR-14-FRAL-0006 PaLaFra (2015 – 2018) : lemmatisation open-source du français médiéval ;
#ANR-15-CE38-0008 Democrat (2016 – 2019) : annotation assistée de chaînes de co-références ;
#ANR-16-CE38-0010 Profiterole (2017 – 2020) : analyse syntaxique open-source de l’ancien français.
Plus d’informations : http://textometrie.org.

serge-heiden

Dernières publications

48 résultats
Communication dans un congrès
Serge Heiden
The TXM Platform: Building Open-Source Textual Analysis Software Compatible with the TEI Encoding Scheme
Ryo Otoguro, Kiyoshi Ishikawa, Hiroshi Umemoto, Kei Yoshimoto and Yasunari Harada. 24th Pacific Asia Conference on Language, Information and Computation, Nov 2010, Sendai, Japan. Institute for Digital Enhancement of Cognitive Development, Waseda University, pp.389-398, 2010
Communication dans un congrès
Serge Heiden, Jean-Philippe Magué, Bénédicte Pincemin
TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement
Sergio Bolasco, Isabella Chiari, Luca Giuliano. 10th International Conference on the Statistical Analysis of Textual Data - JADT 2010, Jun 2010, Rome, Italie. Edizioni Universitarie di Lettere Economia Diritto, 2 (3), pp.1021-1032, 2010
Communication dans un congrès
Bénédicte Pincemin, Serge Heiden, Marie-Hélène Lay, Jean-Marc Leblanc, Jean-Marie Viprey
Fonctionnalités textométriques : proposition de typologie selon un point de vue utilisateur
Dixièmes Journées internationales d'Analyse Statistique des données Textuelles, 2010, Rome, Italie. pp.341-353, 2010
Communication dans un congrès
Sylvain Loiseau, Jean-Philippe Magué, Serge Heiden
The TextometrieR package: textual data analysis for social sciences and humanities
useR!, Jul 2009, Rennes, France. pp.En ligne, 2010
Direction d'ouvrage, Proceedings
Serge Heiden, Bénédicte Pincemin
JADT 2008
Presses universitaires de Lyon, pp.1198, 2008
Article dans une revue
Bénédicte Pincemin, Céline Guillot, Serge Heiden, Alexei Lavrentiev, Christiane Marchello-Nizia
Usages linguistiques de la textométrie : analyse qualitative de la consultation de la Base de Français Médiéval via le logiciel Weblex
Syntaxe et Sémantique, Presses Universitaires de Caen, 2008, pp.87-110
Direction d'ouvrage, Proceedings
Céline Guillot, Serge Heiden, Alexei Lavrentiev, Christiane Marchello-Nizia
Constitution et exploitation des corpus d'ancien français et de moyen français [N° 7 de : Corpus ]
Université de Nice-Sophia Antipolis, pp.252, 2008
Communication dans un congrès
Serge Heiden
La modélisation des phénomènes linguistiques
Atelier ATHIS IV (IVe Atelier Informatique et Histoire), l'informatique et l'utilisation des statistiques par les historiens, Sep 2007, Lyon, France
Article dans une revue
Céline Guillot, Serge Heiden, Alexei Lavrentiev
Typologie des textes et des phénomènes linguistiques pour l'analyse du changement linguistique avec la Base de Français Médiéval
Linx : bulletin du Centre de recherches linguistiques de Paris X Nanterre, Nanterre : Centre de recherches linguistiques de Paris 10, 2007, pp.125-139
Communication dans un congrès
Serge Heiden
Les logiciels de traitement informatique du texte, table ronde animée par Alain Dallo (LAMOP)
ATHIS II, IIe Atelier Informatique et Histoire, l'historien, le texte et l'ordinateur, Nov 2006, Lyon, France