Résumé :
Le projet Glot-TAL - La glottalisation à la lumière de l'apprentissage profond (ANR-24-CE38-3766) aborde une question cruciale en phonétique et phonologie : la glottalisation dans les langues tonales du monde. En combinant l'expertise phonétique à la puissance de l'apprentissage profond et de l'analyse de données à grande échelle, il permettra des avancées significatives pour le développement de la théorie phonético-phonologique fondamentale et pour la typologie linguistique, tout en ouvrant de nouvelles perspectives pour le progrès du traitement automatique du langage naturel.
Deux objectifs scientifiques majeurs sont visés au sein du projet.
- Au plan linguistique, il s'agit d'explorer l'activité laryngée dans la communication humaine en examinant les liens entre contrôle de la hauteur de la voix, glottalisation et position du larynx dans la production des tons, en se concentrant sur des langues tonales telles que le vietnamien où la glottalisation joue un rôle phonologique.
- Au plan de l'apprentissage automatique (informatique), il s'agit d'étudier comment l'apprentissage profond peut efficacement intégrer, dans des outils statistiques d'analyse de la parole, des signaux autres que l'audio. Les expériences porteront sur le signal électroglottographique (EGG). Des expériences seront réalisées à partir de corpus existants dans la collection Pangloss, puis élargies à un échantillon de langues typologiquement diverses (passage à l'échelle).
Pour relever ces défis ambitieux, le projet s’appuie sur une collaboration étroite entre linguistes et experts en traitement automatique du langage naturel, s'inscrivant ainsi pleinement dans le domaine des humanités numériques. Il va au-delà du développement d'outils pour les linguistes dans l'analyse de langues tonales relativement peu documentées. En offrant une portée sans précédent en termes de diversité linguistique, le projet apporte de nouvelles perspectives aux questions fondamentales de la recherche linguistique sur l'utilisation de la glottalisation dans la communication humaine.
Summary :
The Glot-TAL project - Glottalization in the light of Machine Learning (ANR-24-CE38-3766) addresses a crucial issue in phonetics and phonology: glottalization in the world's tonal languages. By combining phonetic expertise with the power of deep learning and large-scale data analysis, it will allow for significant progress in fundamental phonetic-phonological theory and linguistic typology, and will moreover open up new perspectives for Natural Language Processing.
The project pursues two major scientific objectives.
- From a linguistic perspective, the project aims to explore laryngeal activity in human communication by examining the links between pitch control, glottalization and larynx position in tone production. The focus is on tonal languages such as Vietnamese, where glottalization holds phonological importance.
- From a machine learning perspective, the goal is to investigate how deep learning can effectively integrate signals other than audio – specifically: electroglottography (EGG) – into statistical tools for speech analysis. Experiments will be carried out using existing corpora in the Pangloss Collection, then extended to a sample of widely different languages (reaching a new level in terms of typological coverage and amounts of data).
To achieve these ambitious challenges, the project relies on close collaboration between linguists and experts in automatic natural language processing, and is thus fully in line with trends in digital humanities. It goes beyond the development of tools for linguists in analyzing less-documented tonal languages worldwide. By reaching an unprecedented scope in terms of linguistic diversity, it will bring new perspectives to fundamental questions in linguistic research on the use of glottalization in human communication.
Fundings
The Glot-TAL project is funded by the French Agence Nationale de la Recherche