Équipe

COGNITIVE ROBOTICS, INTERACTIVE SYSTEMS, & SPEECH PROCESSING
Responsable(s) d'équipe : Gérard BAILLYThomas HUEBER


Axes de recherche


Traitement de la parole



Cet axe regroupe différentes études sur la modélisation de l’appareil de production de parole d'une part, et la synthèse et la conversion de voix multimodales d'autre part.

 

Production de la parole

Nous cherchons ici à étudier expérimentalement les mécanismes articulatoires de production de la parole, c’est à dire les relations complexes qui existent entre la géométrie du conduit vocal d’un individu, ses mouvement articulatoires (langue, lèvres,  mâchoire, voile du palais, larynx), et les caractéristiques du signal acoustique de parole. Plus récemment, nous nous sommes également intéressés à l’étude des mouvements articulatoires dans le cadre de la déglutition (projet ANR e-swallHome).

 

La plupart de nos études en production de parole nécessite l’acquisition de données expérimentales « in-vivo ».  Depuis plusieurs dizaines d’années, nous développons dans ce but une plateforme expérimentale unique (BEDEI), réunissant différents systèmes d’imagerie médical et de capture de mouvements, pour l’acquisition de données articulatoires chez l’humain, dont :

  • l’électrographie électromagnétique 2D et 3D (EMA)
  • l’IRM anatomique 3T (via l'Unité Mixte de Service IRMaGe).
  •  l’imagerie ultrasonore (échographie, via le système Ultraspeech)

 

Les données acquises sont ensuite utilisées dans de nombreux projets de l’équipe CRISSP, aussi bien pour des recherches fondamentales que pour la conception de systèmes technologiques. Ces données articulatoires, issues de systèmes d’acquisition différents, peuvent par exemple être combinées pour construire ce que nous appelons un « clone orofacial virtuel » (ou encore une « tête parlante articulatoire »). Il s’agit d’une représentation virtuelle complète d’un locuteur, qui fait apparaître simultanément le mouvement des articulateurs externes (comme les lèvres) et internes (comme la langue), pendant la production de la parole.  

Par ailleurs, ces données sont utilisées pour la conception de « modèles articulatoires », qui mettent en évidence « degrés de liberté » du système de production de parole, et permettent de tester différentes hypothèses sur la structure d’une langue, l’émergence du langage à l’échelle de l’humanité comme à celle d’un enfant.

 

Synthèse et conversion de la voix

Notre équipe mène des recherches sur les domaines traditionnels du traitement automatique de la parole, et en particulier la synthèse vocale et la conversion de voix (en privilégiant notamment les approches multimodales exploitant également la modalité visuelle).

(extrait de la thèse d'Adela Barbulescu portant notamment sur la conversion de voix audio-visuelle pour la création d'avatars expressifs).

 


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31