Vous êtes ici : GIPSA-lab > Recherche > Projets
Chargement
  

CartoDialect - Extraction d’informations sémantiques et géographiques à partir des données géolinguistiques

Coordonnateur du projet : LIG
Responsable du projet à GIPSA-lab : Didier DEMOLIN

Projet réalisé grace au soutien de : CNRS - PEPS

Date du projet : 09/04/2013

Durée : 12 mois


Ce projet s’intéresse à l’extraction d’informations sémantiques et géographiques contenues dans les documents cartographiques utilisés pour le traitement et l’analyse des données géolinguistiques de l’Atlas Linguistique de France, au moyen des méthodes de numérisation et de vectorisation et de géoréférencement/géocodage. Il s’inscrit dans une démarche pluridisciplinaire regroupant des équipes en informatique (L3i – Université de la Rochelle), en géolinguistique (GIPSA-lab, SLD) et en traitement de l’information géographique et géomatique (LIG, Steamer).

Les verrous scientifiques principaux concernent des problématiques de description de forme dans un contexte multi-orienté/multi-échelle, en particulier pour les couches informationnelles qui sont graphiquement inter-connectées les unes aux autres. Les études récentes tentent de déployer des stratégies d’informations « spotting » qui visent à apporter des réponses au paradigme segmentation/reconnaissance dans le même temps. Les approches à base de description des formes par points d’intérêt semblent correspondre à des représentations intéressantes pour cet objectif.
L’intégration des données géolinguistiques dans un SIG nécessite de s’appuyer sur des procédures de géocodages dont l’objectif est d’associer à un nom de lieu une paire de coordonnées géographiques en latitude, longitude dans un système de référence choisi. Les opérations de géocodage proposées dans les SIG sont basées sur des localisateurs d’adresses standards et normés à partir de noms de lieux récents et identifiés orthographiquement, ce qui n’est pas forcément le cas de ceux utilisés dans l’ALF: certaines localités ont pu disparaître, d’autres ont vu l’orthographe de leur noms changer. L’intégration de ces données dans un SIG implique de développer des modèles d’ontologie et des procédures d’alignement permettant d’identifier le contenu des cartes pour chaque époque et chaque type d’atlas et les mettre en relations entre eux. De telles problématiques sont en cours d’exploration par (Coste & al, 2012). Par ailleurs, les données géolinguistiques contenues dans les cartes sont de nature textuelle et retranscrites dans un alphabet dit « graphémique », qui se trouve à mi-chemin entre la graphie et la phonétique du français du début du XXe siècle. L’intégration de ces données dans un SIG nécessite structurer cette information sous forme de couches d’information géographique.

Le projet CartoDialect est soutenu par le PEPS CNRS HuMain, axe « Analyse et usages, technologies de numérisation, reconnaissance d’images et de caractères, techniques de restauration numérique des manuscrits anciens ».


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31