000

100

%

Projet

Partage et réutilisation de données archéologiques et historiques : une description en RDF appuyée sur les référentiels et les normes du web sémantique.

Présentation

Porté par le laboratoire Archéorient et le LARHRA, le projet HisArc-RDF réunit un consortium pluridisciplinaire : archéologie, histoire, géographie, terminologie, bibliographie et informatique.

HisArc-RDF souhaite prototyper une chaîne opératoire de données « FAIR » Findable, accessible, interoperable, reusable sur des jeux de données archéologico-historiques structurellement et sémantiquement hétérogènes, en s’appuyant sur le partage et l’articulation de méthodes et d’outils logiciels et sémantiques développés dans chaque discipline.

À partir de quatre jeux-tests, composés de bases de données « maison » ou de fichiers textes numérisés, un travail de modélisation et d’alignement sera proposé pour établir la preuve de concept que les technologies du web sémantique (dont le RDF est le langage de base) permettent l’interopérabilité, c’est à dire l’intercommunication, de bases diverses et surtout la réutilisation des données produites.

L’interopérabilité de bases hétérogènes repose habituellement sur des concepts de haut niveau qui ont tendance à écraser les spécificités d’un domaine (le concept de haut niveau « objet physique » englobant aussi bien, par exemple, des pièces de monnaie que des arquebuses). Dans HisArc-RDF, nous souhaitons minimiser cet effet de dilution sémantique en faisant reposer l’interopérabilité non seulement sur le modèle conceptuel (ou ontologie) mais aussi sur les deux autres piliers que sont les thésaurus terminologiques et les référentiels d’autorité.

L’application OntoME, développée par le Pôle histoire numérique – voir la Lettre du LARHRA 2019 –, est au cœur du processus : elle permet la création d’ontologies proches du domaine étudié conçues comme des extensions du CIDOC CRM, modèle de haut niveau et norme ISO. Dans le cadre de cette ANR, pour permettre de créer un lien fort entre le modèle conceptuel et le thésaurus, une brique logicielle sera développée pour interconnecter OntoME à l’application de gestion de thésaurus Opentheso développée à la MOM par Miled Rousset. Parallèlement, Opentheso sera également interconnecté à la plateforme IdRef qui gère les autorités, c’est à dire les identifiants uniques des auteurs, institutions, concepts… utilisés par le catalogue SUDOC de l’Agence bibliographique de l’enseignement supérieur avec laquelle le LARHRA a signé une convention de coopération en 2019.

En fin de chaîne, les données hétérogènes ainsi traitées seront déposées dans un entrepôt permettant leur publication, leur interrogation et par conséquent leur réutilisation pour de nouvelles recherches grâce à un point d’accès SPARQL, comme celui, par exemple, de la BnF (https://data.bnf.fr/sparql).

Passé la preuve de concept, cette même chaîne opératoire pourrait être proposée à d’autres bases géo-historiques issues de différents projets de recherche qui pourront ainsi facilement s’interconnecter avec les données d’autres projets et répondre, de cette façon, à la demande institutionnelle forte d’ouverture des données de la recherche.