000

100

%

Descriptif :

L’évolution et la maturité des technologies de l’information ont favorisé l’apparition d’une voie de recherche nouvelle dont le but est d’exploiter la puissance des ordinateurs pour la recherche littéraire et historique. Les Humanités Numériques sont devenues aujourd’hui une discipline à part entière dont le but, à la fois sociétal et technologique, est d’aller au-delà de la simple numérisation de contenus. Un nombre considérable de corpus accessibles en ligne est apparu dans le domaine des sciences humaines et sociales (par ex. Humanum ). Ces corpus constituent des gisements de données qui peuvent être les supports de recherches futures. Cependant, l’hétérogénéité de ces bases ainsi que l’absence de dispositifs permettant d’interroger ces données en connaissant et en comparant leur qualité, limitent leur exploitation pour valider des hypothèses scientifiques ou pour en extraire des connaissances. Il y a là un frein (qui peut même devenir un blocage) au développement des recherches en sciences humaines et sociales.
Nous nous concentrerons dans le cadre de ce projet sur les bases prosopographiques historiques. Les historiens disposent de très nombreuses sources (livres, actes, édits, registres) dont l’étude permet l’élaboration de bases de données prosopographiques, collections de fiches recensant le cursus des individus (études, professions, grades, etc), les lieux fréquentés, leurs enseignants, leur production scientifique ou littéraire. Ces bases, dont l’objet est l’étude de groupes sociaux, soutiennent une méthodologie consistant à émettre puis à confirmer des hypothèses. Les universitaires sont par exemple jusqu’au XIXe siècle une population itinérante. On peut se demander s’il existe des parcours-type en fonction de la période considérée et s’intéresser aux écarts entre le parcours d’un individu donné et ces parcours-type. Ceci nécessite la fouille, le croisement et l’enrichissement de données dans un contexte de données hétérogènes, où le temps est incertain, où les noms et propriétés des lieux ont souvent changé et où les données sont souvent incomplètes.

Cependant il est pour l’heure impossible de mobiliser facilement des mesures qui renseigneraient l’utilisateur et lui permettraient de savoir jusqu’à quel point il peut exploiter la donnée,en extraire de l’information fiable ou la réinsérer dans un autre corpus.