Directory Intranet
Chargement

GeoDialect - Exploration des outils géomatiques pour le traitement et l'analyse des données géolinguistiques : application à la dialectologie

Project Coordinator : Didier DEMOLIN

Project realized thanks to the support of : LABEX PERSYVAL

Start date : 2013/03/01

Duration : 20 mounths


Ce projet exploratoire s’intéresse à l’amélioration de la gestion des documents cartographiques utilisés dans le traitement et l’analyse des données géolinguistiques, au moyen de méthodes géomatiques innovantes. Plus précisément, nous nous concentrons sur un outil de la dialectologie - les Atlas Linguistiques - et la manière avec laquelle nous pouvons transférer ces travaux de leur support initial papier, vers un support numérique et informatisé. Nous nous focalisons sur le premier grand chantier dialectologique de France, l’Atlas Linguistique de la France (Gilliéron et Edmont, 1902-1910) et à la façon dont nous pouvons réorganiser les données qui le composent par le biais de moyens informatisés et plus particulièrement des outils de type Système d’Information Géographique.

Contexte
La dialectologie s’intéresse à l’étude des traits linguistiques caractéristiques des langues à tradition orales comme les parlers locaux, appelés patois ou, encore, dialectes. Ces traits linguistiques peuvent être de nature très différente - phonétique, morpho-syntaxique, lexicale, sémantique ou prosodique - et ils évoluent dans un espace géographique donné, dans le temps et au contact de la société : ce qu’on appelle respectivement, en linguistique, variation diatopique, diachronique et diastratique. Pour étudier les parlers locaux, la dialectologie s’est spécialisée dans la constitution de corpus de données descriptives, collectées au travers d’une méthodologie d’enquête qui repose sur des questionnaires, sur le choix des réseaux de points linguistiques et des informateurs, et sur la représentation cartographique des données. En géolinguistique et en dialectologie, le traitement et l’analyse des données de terrain se fait au moyen de supports cartographiques, sur lesquels sont localisées et inscrites les formes linguistiques collectées. Il s’agit d’un fond de carte géographique où à chaque point d’enquête (localité) correspond à une forme linguistique qui le caractérise. À chaque entrée lexicale est associée une et une seule carte géolinguistique : sur la carte figurent toutes les formes dialectales relatives à l’entrée lexicale. À chaque point linguistique (localité) correspond une forme dialectale. La distribution aréale/spatiale du phénomène linguistique dépend de la dynamique linguistique de l’aire considérée et des localités étudiées.

Aujourd’hui, force est de constater que l’outillage logiciel destiné à la géolinguistique est très en retard et que les recherches s’appuient encore sur des approches manuelles et empiriques, aussi bien en termes de transcription des données issues des atlas, que dans le traitement cartographique des données. En revanche, l’approche théorique utilisée lors de la construction d’atlas linguistiques, est  structurée, fiable et homogène. Il devient urgent de procéder à la construction d’une base de données géolinguistiques à partir de la vectorisation des cartes d’atlas. Une fois les données vectorisées, elles pourront faire l’objet de représentations cartographiques, mais aussi d’analyses spatiales ou géostatistiques plus ou moins complexes mettant en évidence de nouveaux phénomènes géolinguistiques.
S’agissant de données spatialisées, le recours aux systèmes d’information géographiques et aux outils issus de la géomatique, semble s’imposer. Toutefois, l’usage de ces outils pour la géolinguistique nécessite de passer par des opérations de numérisation, de géo-référencement et de vectorisation des cartes anciennes, puis d’extraction et de géocodage des points d’enquête, des formes dialectales contenues dans ces cartes, mais aussi de structuration et de modélisation des concepts géolinguistiques sous forme de couches d’information géographique. Outre l’ampleur du travail que représente le travail de numérisation (plus de 1700 cartes à numériser), la vectorisation des données linguistiques et leur dans un SIG n’est pas sans poser d’importants problèmes informatique et géomatique.
D’une façon globale, les SIG classiques et les outils de la géomatique n’offrent pas encore de solutions satisfaisantes pour traiter de ce type de données complexes. Les modèles de données qui les sous-tendent ne sont pas adaptés pour traiter l’information textuelle représentant les formes linguistiques, qui constituent dans notre contexte les entités géographiques de type ponctuel (géométrie ponctuel).
En raison, du nombre important de cartes à traiter et de la masse de données contenue dans les atlas linguistiques, un effort logiciel doit être entrepris pour spécifier et automatiser le processus de vectorisation des cartes anciennes. Il s’agit non seulement de vectoriser les contours cartographiques, mais aussi les points d’enquêtes et les formes dialectales qui leur sont associés.

Objectifs
Le projet GeoDialect a pour objectif de définir les spécifications méthodologiques et technologiques d’un système d’information géolinguistique pour le traitement des données géolinguistiques. Notre proposition consiste : i) à repérer les caractéristiques des données de l’ALF ainsi que le processus de traitement et d’analyse de données mis en place pour cet atlas ; ii) à réaliser un état de l’art sur les méthodes d’extraction par vectorisation du contenu des cartes anciennes ; iii) à élaborer un modèle de données géolinguistiques permettant leur intégration dans un système d’information géographique ; iv) à proposer des géo-traitements et des traitements géo-statistiques ou d’analyse spatial, ainsi que v) des modes de représentations cartographiques adaptés aux données et aux besoins des géolinguistes.

Le projet GeoDialect s’inscrit dans une démarche pluridisciplinaire associant deux équipes :
- une équipe de recherche spécialisée en géolinguistique et en dialectologie qui apportera sa connaissance et son expertise sur les atlas géolinguistiques, leurs contenus et les analyses à mener : équipe Systèmes Linguistiques et Dialectologie du Département Parole et Cognition, au GIPSA-lab ;
- une équipe en informatique, spécialisée dans le domaine de la géomatique et des systèmes d’information géographique, qui s’intéressera à la spécification de méthodes et d’outils permettant l’intégration des données géolinguistiques dans un SIG, leur traitement et leur représentation cartographique : équipe Steamer du Laboratoire d’Informatique de Grenoble.

 

Ce projet a reçu le soutien du Labex PERSYVAL.


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31