Pierre-Carl LANGLAIS « Modéliser l’histoire culturelle avec l’intelligence »

Depuis 20 ans, les collections patrimoniales ont été massivement numérisées. Des millions de journaux, livres et images dans le domaine public, peuvent être consultés à distance. Au-delà de cet accès sans précédent, la numérisation change les conditions de la recherche, rend possibles des formes de lectures « à distance » capables d’analyser des transformations discursives et éditoriales sur de longues périodes et d’opérer des rapprochements structurels entre de vastes corpus. Cultural analytics, computational humanities, digital history : ces nouveaux concepts très discutés dans le monde anglo-saxon portent la promesse de nouveaux « horizons distants » (Underwood) à découvrir. Cette conférence-atelier présente les outils et les méthodes de classification automatisée du projet ANR Numapresse. S’appuyant sur une expertise interdisciplinaire, le projet a développé des modèles de genres journalistiques « historicisés » pour différentes périodes de l’histoire de la presse française (1840-1860, 1860-1880…). Ces modèles permettent de constituer des sous-corpus à l’image de la « Page de cinéma », (http://www.numapresse.org/exploration…​) un projet de Numapresse compilant l’ensemble des suppléments cinéma de la presse quotidienne de l’entre-deux-guerres. Ils rendent aussi possible l’identification de grandes tendances. Les modèles de Numapresse sont aujourd’hui mis à disposition dans une bibliothèque de modèles en cours de développement, la Générothèque (http://www.numapresse.org/generotheque/​). Ils peuvent être ainsi réutilisés pour classer d’autres corpus. La Générothèque met aussi à disposition des corpus test (pour les archives dans le domaine public) ce qui permet d’entraîner de nouveaux modèles. Cette approche peut être déclinée dans un grand nombre de corpus numérisés : littérature (comme le montre la petite application Romanrama : https://analytics.huma-num.fr/Pierre-…​), textes scientifiques, documents politiques… Les nouveaux modèles de deep learning permettent aussi d’élargir cette approche aux corpus visuels : Numapresse a ainsi créé des modèles d’images des hebdomadaires des années 1950 ou des premiers magazines illustrés du début du XXe siècle.

 
 Séminaire

Informations pratiques

Visioconférence

EN LIGNE
VISIONNER en replay

Dates à venir

 
Séminaire : Atelier

Dates passées

 
Séminaire : Atelier

 
Séminaire : La fabrique médiatique des récits médiatiques