Vous êtes ici : GIPSA-lab > Recherche > Projets
Chargement
  

ARTIS - Inversion articulatoire de la parole audiovisuelle pour la parole augmentée

Coordonnateur du projet : LORIA Nancy
Responsable du projet à GIPSA-lab : Pierre BADIN

Projet réalisé grace au soutien de : ANR Thématique (Sciences et Technologies de l'Information et de la Communication)

Date du projet : 01/01/2009

Durée : 50 mois


L'inversion acoustique articulatoire, c'est-à-dire la récupération automatique des gestes articulatoires de la parole, représenterait une avancée stratégique en traitement automatique de la parole. En effet, cela ouvrirait la voie à de nouvelles applications : synthèse de la parole et têtes parlantes plus naturelles, pilotage automatique de têtes parlantes réalistes, retour d'efforts articulatoire pour l'apprentissage de langues étrangères, et plus généralement le traitement automatique de la parole. Les industries multimedia, des télécommunications, des interfaces homme machine, de l'assistance aux citoyens (personnes âgées, apprenants, handicapés…) sont donc concernées. Bien qu'il soit bien établi que les sujets humains exploitent l'origine articulatoire de la parole pour la perception comme pour la  production, aucune solution opérationnelle n'a été apportée à l'inversion acoustique articulatoire. Nous sommes pourtant convaincus que les progrès techniques réalisés dans les domaines de l'imagerie médicale appliquée au conduit vocal, du suivi de capteurs électromagnétiques et de la vision par ordinateur appliquée au visage sont suffisants pour fournir des données articulatoires exploitables tant pour la conception que l'évaluation de méthodes d'inversion. Nous sommes aussi convaincus que les outils de simulation acoustique et articulatoire d'une part, de modélisation stochastique d'autre part, ont atteint un niveau de maturité suffisant. Il y a donc une double opportunité scientifique et technologique pour relever ce défi avec de donnes chances de succès.

L'objectif principal du projet ARTIS est de développer des outils d'inversion acoustique articulatoire, et de mettre en oeuvre un système de retour d'efforts articulatoires, qui en inversant le signal de parole seul ou complété par des images du visage, génère de la parole augmentée : affichage des articulateurs habituellement cachés (langue, vélum) à l'aide d'une tête parlante virtuelle. Le développement des algorithmes d'inversion reposera sur des modèles physiques ou statistiques de la production de la parole. Un point clé est le développement de modèles adaptables au locuteur. En effet, la plupart des travaux antérieurs fait appel à des modèles construits pour un seul locuteur ce qui représente une limitation forte. La première étape consistera donc à acquérir des données articulatoires statiques et dynamiques. Ensuite, des techniques de traitement d'images médicales et des algorithmes de recalage élastique seront élaborés afin d'obtenir des modèles articulatoires adaptables au locuteur à partir de données statiques (images IRM du conduit vocal). Les modèles dynamiques statistiques (correspondant aux données des capteurs électromagnétiques ou aux images ultrasonores) compléteront les modèles statiques.
Deux systèmes d'inversion complémentaires seront développés: le premier à l'aide d'une approche d'analyse par synthèse, le second à l'aide de modèles articulatoires statistiques dynamiques. Les deux partageront les modèles articulatoires statiques et utiliseront des données spectrales standard en entrée. La troisième étape consistera à développer un prototype fournissant un retour d'efforts articulatoires en temps réel à partir de la parole et des images du locuteur. The retour sera présenté à l'aide de techniques de réalité augmentée.

Une évaluation sera conduite à chacune des étapes du projet. Le consortium ARTIS regroupe un ensemble de compétences remarquable en associant des équipes dotées d'un fonds théorique et d'une expérience pratiques dans les domaines de :
- la production de la parole, la modélisation stochastique, les modèles articulatoires, l'inversion acoustique-articulatoire, - la vision par ordinateur, le traitement d'images et l'imagerie médicale. La force de ce projet est la combinaison d'expertises qui ont été acquises sur une longue période de temps. Le consortium a un niveau d'excellence internationale pour atteindre les objectifs de ce projet.


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31