Pierre-Carl LANGLAIS « Modéliser l’histoire culturelle avec l’intelligence »
Coordonné par Marie-Eve THERENTY (Univ. Montpellier 3)
Responsable scientifique IHRIM : Olivier BARA (Univ. Lyon 2)
Numapresse est un projet ANR initié en octobre 2017
Programme du séminaire
Depuis 20 ans, les collections patrimoniales ont été massivement numérisées. Des millions de journaux, livres et images dans le domaine public, peuvent être consultés à distance. Au-delà de cet accès sans précédent, la numérisation change les conditions de la recherche, rend possibles des formes de lectures « à distance » capables d’analyser des transformations discursives et éditoriales sur de longues périodes et d’opérer des rapprochements structurels entre de vastes corpus. Cultural analytics, computational humanities, digital history : ces nouveaux concepts très discutés dans le monde anglo-saxon portent la promesse de nouveaux « horizons distants » (Underwood) à découvrir. Cette conférence-atelier présente les outils et les méthodes de classification automatisée du projet ANR Numapresse. S’appuyant sur une expertise interdisciplinaire, le projet a développé des modèles de genres journalistiques « historicisés » pour différentes périodes de l’histoire de la presse française (1840-1860, 1860-1880…). Ces modèles permettent de constituer des sous-corpus à l’image de la « Page de cinéma », (http://www.numapresse.org/exploration…) un projet de Numapresse compilant l’ensemble des suppléments cinéma de la presse quotidienne de l’entre-deux-guerres. Ils rendent aussi possible l’identification de grandes tendances. Les modèles de Numapresse sont aujourd’hui mis à disposition dans une bibliothèque de modèles en cours de développement, la Générothèque (http://www.numapresse.org/generotheque/). Ils peuvent être ainsi réutilisés pour classer d’autres corpus. La Générothèque met aussi à disposition des corpus test (pour les archives dans le domaine public) ce qui permet d’entraîner de nouveaux modèles. Cette approche peut être déclinée dans un grand nombre de corpus numérisés : littérature (comme le montre la petite application Romanrama : https://analytics.huma-num.fr/Pierre-…), textes scientifiques, documents politiques… Les nouveaux modèles de deep learning permettent aussi d’élargir cette approche aux corpus visuels : Numapresse a ainsi créé des modèles d’images des hebdomadaires des années 1950 ou des premiers magazines illustrés du début du XXe siècle.