Serge Heiden

Research Officer / Ingénieur de recherche

Institution ou organisme de rattachement : ENS de Lyon

Équipe de site : ENS de Lyon

Statut : Ingénieurs, techniciens et administratifs

Coordonnées professionnelles :

slh ens-lyon.fr

Office phone : +33 4 37 37 63 12
Mobile phone : +33 6 22 00 38 83


Page personnelle : CV Serge Heiden HAL-SHS

Activités

[version française plus bas]

Serge Heiden is a research officer at the IHRIM laboratory, École normale supérieure de Lyon (France), and head of the Cactus research group.

He holds a PhD in Computer Science from the Pierre et Marie CURIE Paris 6 University. He has developed for two decades the methodology of textual corpus analysis called ’textometry’ through its implementation in several application software. He is involved in the activities of several digital humanities related national (CORLI - TGIR Huma-Num) and international (TEI) consortiums as well as conferences (JADT) and summer schools (MISAT). He regularly gives professional or university training courses.

Since 2007, thanks to the initial funding of an ANR project called ’Textométrie’, which lasted four years, he leads the development of the TXM platform for textual corpus analysis intended for both personal computers and web servers.

This platform combines classical qualitative (such as concordancers, word lists or hypertextual reading of texts) and quantitative (statistical cooccurrents, clustering, factorial analysis...) text analysis tools with rich representations of texts (encoded according to different idioms of the TEI) and enriched by natural language processing tools (lemmatizers, syntactic parsers ...).

This platform is also the place of prototyping of numerous experiments in the field of rich, multimodal and multimedia digital philology, quantitative analysis of complex textual planes and automatic linguistic enrichment for text corpora in many ancient and contemporary languages (from transcriptions of cuneiform tablets from the second millennium BC to tweets of social networks).

Current developments in the platform are carried out in the following ANR projects :
#ANR-14-FRAL-0006 PaLaFra (2015 - 2018) : open-source lemmatization of medieval French ;
#ANR-15-CE38-0008 Democrat (2016 - 2019) : assisted annotation of co-reference chains ;
#ANR-16-CE38-0010 Profiterole (2017 - 2020) : open-source syntactic parsing of old French.

More information on the Textométrie research project web site : www.textometrie.org.


Serge Heiden est ingénieur de recherche au laboratoire IHRIM <http://ihrim.ens-lyon.fr> , École normale supérieure de Lyon (France), et responsable du groupe de recherche Cactus.

Il est titulaire d’un doctorat en Informatique de l’Université Pierre et Marie CURIE Paris 6. Il a développé pendant deux décennies la méthodologie d’analyse de corpus textuels appelée ‘textométrie’ à travers son implémentation dans plusieurs logiciels d’application. Il est impliqué dans les activités de plusieurs consortium d’humanités numériques nationaux (CORLI - TGIR Huma-Num) et internationaux (TEI) ainsi que de conférences (JADT) et écoles d’été (MISAT). Il donne régulièrement des cours de formation professionnelle ou universitaire.

Depuis 2007, grâce au financement initial d’un projet ANR appelé ‘Textométrie’ et qui a duré quatre ans, il anime le développement de la plateforme TXM d’analyse de corpus textuels destinée à la fois aux ordinateurs personnels de chercheurs et à des serveurs web.

Cette plateforme combine des outils d’analyse de textes classiques qualitatifs (comme les concordanciers, les listes de mots ou la lecture hypertextuelle d’éditions de textes) et quantitatifs (cooccurrents statistiques, classification, analyse factorielle...) avec des représentations riches des textes (encodés selon différents idiomes de la TEI) et enrichis par des outils de traitement automatique de la langue (lemmatiseurs, analyseurs syntaxiques...).

Cette plateforme est également le lieu de prototypage de nombreuses expérimentations dans le domaine de la philologie numérique riche, multimodale et multimédia, l’analyse quantitative de plans textuels complexes et l’enrichissement linguistique automatique pour des corpus de textes en de nombreuses langues anciennes et contemporaines (de transcriptions de tablettes cunéiformes du IIe mil. av. J.-C. aux tweets des réseaux sociaux).

Les développements en cours dans la plateforme sont notamment réalisés au sein des projets ANR suivants :
#ANR-14-FRAL-0006 PaLaFra (2015 – 2018) : lemmatisation open-source du français médiéval ;
#ANR-15-CE38-0008 Democrat (2016 – 2019) : annotation assistée de chaînes de co-références ;
#ANR-16-CE38-0010 Profiterole (2017 – 2020) : analyse syntaxique open-source de l’ancien français.

Plus d’informations sur le site web du projet de recherche Textométrie : www.textometrie.org.

serge-heiden

Dernières publications

Textometric Exploitation of Coreference-annotated Corpora with TXM: Methodological Choices and First Outcomes

Fourteenth International Conference on the Statistical Analysis of Textual Data, Jun 2018, Rome, Italy. pp.610-615
Communication dans un congrès

Méthode des cooccurrences : recherche sémantique sur le nom propre

5e journées internationales d'Analyse Statistiques des Données Textuelles (JADT'2000), 2000, Pagination non précisée
Communication dans un congrès

Métopes + TXM: Integrating Text Publishing and Text Analysis Tools Based on TEI Encoding

18th Annual TEI Conference and Memberrs' Meeting, Sep 2018, Tokyo, Japan. pp.255-256
Communication dans un congrès

TyPTex : Inductive typological text classification by multivariate statistical analysis for NLP systems tuning/evaluation

Maria Gavrilidou, George Carayannis, Stella Markantonatou, Stelios Piperidis, Gregory Stainhaouer (éds) Second International Conference on Language Resources and Evaluation, 2000, p. 141-148
Communication dans un congrès

Encodage SGML de corpus: application à l'étude d'un débat parlementaire

Mots: les langages du politique, 1999, N° 60, pp.113-132
Article dans une revue

Sémantique des noms propres. Méthode des cooccurrences

M. Rajman & J-C. Chappelier. JADT 2000. 5èmes Journées internationales d'Analyse statistique des Données Textuelles, n°2, Ecole Polytechnique de Lausanne (EPA), pp. 575-578, 2000
Chapitre d'ouvrage

The TXM Platform : Building Open-Source Textual Analysis Software Compatible with the TEI Encoding Scheme

24th Pacific Asia Conference on Language, Information and Computation, Nov 2010, Sendai, Japan. pp.389‑398
Communication dans un congrès

Base de français médiéval : une base de référence de sources médiévales ouverte et libre au service de la communauté scientifique

Diachroniques. Revue de Linguistique française diachronique, 2018, Les états anciens des langues à l’heure du numérique, 7, pp.168-184
Article dans une revue

Diachronie de l'oral représenté

Wendy Ayres-Benett; Anne Carlier; Julie Glikman; Thomas Rainsford; Gilles Siouffi; Carine Skupien Dekens. Nouvelles voies d’accès au changement linguistique. Actes du colloque de la SIDF, Classiques Garnier, pp.279-296, 2018, Nouvelles voies d’accès au changement linguistique. Actes du colloque de la SIDF, ⟨10.15122/isbn.978-2-406-06946-1.p.0279⟩
Chapitre d'ouvrage

JADT 2008

Presses universitaires de Lyon, pp.1198, 2008
Ouvrage

Analyzing TEI encoded texts with the TXM platform

The Linked TEI: Text Encoding in the Web. TEI Conference and Members Meeting 2013, Oct 2013, Rome, Italy
Communication dans un congrès

XML-TEI-URS: using a TEI format for annotated linguistic resources

CLARIN Annual Conference 2018, Oct 2018, Pisa, Italy
Communication dans un congrès

Retour de pêche. Le métier de pêcheur à travers le discours des professionnels français du Lac Léman

Colloque international "Corpus de textes : composer, mesurer, interpréter", Laboratoire junior Des nombres et des mots (N&Ms), ENS de Lyon, Jun 2013, Lyon, France
Communication dans un congrès

Interoperable annotation of (co)references in the Democrat project

Thirteenth Joint ISO-ACL Workshop on Interoperable Semantic Annotation, ACL Special Interest Group on Computational Semantics (SIGSEM); ISO TC 37/SC 4 (Language Resources) WG 2, Sep 2017, Montpellier, France
Communication dans un congrès

Lectures assistées de l'Encyclopédie électronique : Philologic et Weblex

Recherches sur Diderot et sur l'Encyclopédie, 2002, N° 31-32 (Avril 2002), pp.91- 102
Article dans une revue

Illustration d'une méthode lexicométrique des cooccurrences sur un corpus historique

Société des études robespierristes - Journée d'études du 23 novembre 2002 (Sorbonne), 2003, Paris, France. pp.105-122
Communication dans un congrès

TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement

10th International Conference on the Statistical Analysis of Textual Data - JADT 2010, Jun 2010, Rome, Italie. pp.1021-1032
Communication dans un congrès

The TXM Portal Software giving access to Old French Manuscripts Online

7th International Conference on Language Resources and Evaluation (LREC), May 2012, Istanbul, Turkey. pp.29-35
Communication dans un congrès

Reengineering Akkadian Tablets with TEI and TXM for Linguistic Analysis

TEI Conference and Members' Meeting, Oct 2015, Lyon, France. pp.36
Communication dans un congrès

Building an Open Morphological Lexicon and Lemmatizing Old French Texts with the TXM Platform

Corpus linguistics - 2017, St-Petersburg State University; Institute for Linguistic Studies (RAS); Herzen State Pedagogical University of Russia, Jun 2017, St-Pétersbourg, Russia. pp.48-52
Communication dans un congrès

Catégorisation d'un corpus hétérogène de français médiéval

Actes du colloque ‘JADT 2000 : 5es Journées Internationales d'Analyse Statistique des Données Textuelles' Lausanne, 2000, 2000, p. 485-492
Communication dans un congrès