000

100

%

Extraire, visualiser et analyser des données

Séance du 8 février 2024, 10h-12h

Kraken, eScriptorium et l’ATR (automatic text recognition) : Naviguer dans les Océans de la Reconnaissance Automatique d’Écriture
L’émergence d’outils de reconnaissance automatique d’écriture avec une interface utilisateur de plus en plus intuitive, tels que Transkribus ou eScriptorium, ouvre aujourd’hui de nouvelles perspectives. De nombreuses équipes de recherche se sont lancées dans l’utilisation de l’ATR et l’entraînement de modèles de plus en plus performants sur les sources historiques, capables de reconnaître efficacement une grande variété de documents qu’ils présentent des écritures différentes, ou qu’ils proviennent de périodes historiques et d’aires linguistiques variées, modernes comme médiévales. Toutefois, malgré les progrès significatifs réalisés, des défis subsistent pour le traitement des documents historiques complexe ? Comment obtenir des transcriptions automatiques qui respectent des critères scientifiques ? Comment analyser la mise en page ? En conclusion, si la reconnaissance automatique d’écriture offre la possibilité d’explorer des tailles de corpus inédites, elle requiert toujours une certaine expertise pour relever les défis inhérents à la diversité et la complexité des documents médiévaux, limites et enjeux que nous aborderons dans cette présentation.

  • Intervenante : Ariane Pinche
    • Chargée de recherche au CNRS, Ariane Pinche est spécialisée dans l’édition numérique de sources médiévales, la constitution de corpus et l’entraînement de modèles pour améliorer la reconnaissance automatique de texte (HTR). Elle est coresponsable de l’axe transversal Corpor@Tech-Science ouverte du CIHAM. Ariane Pinche a aussi enseigné l’édition numérique (XML TEI, XSLT) dans le master « Technologies numériques appliquées à l’histoire » de l’École des Chartes.

Extraire du texte des imprimés anciens : quels défis, quelles promesses ? Illustration par le projet AGODA
Intégralement retranscrits dans le Journal Officiel depuis 1881, les débats parlementaires anciens constituent des sources précieuses pour l’histoire. Ces documents numérisés et accessibles via Gallica, restent toutefois difficiles d’accès. Durant cette présentation, Marie Puren évoquera les défis rencontrés par le projet AGODA pour traiter et rendre accessibles ces documents.

  • Intervenante : Marie Puren
    • Maîtresse de conférences à l’EPITA où elle dirige l’équipe Méthodes numériques en Sciences Humaines et Sociales, Marie Puren est une historienne spécialiste d’histoire intellectuelle et politique et d’histoire de la littérature de jeunesse sous la Troisième République, et une historienne numérique. Elle est aussi porte-parole de l’association Humanistica.

Pour le programme de l’année, se reporter à la page des séminaires »: https://larhra.fr/laboratoire/seminaire