Image

Reconstitution de la parole en temps-réel à partir des mouvements articulatoires

Communiqué

Un algorithme d’apprentissage automatique (machine learning), de type réseau de neurones profonds (deep neural network), est utilisé pour décoder ces mouvements articulatoires à l’aide de capteurs posés sur la langue, les lèvres et la mâchoire, et les convertir en temps-réel en une parole de synthèse. La conversion d’une articulation silencieuse en un signal de parole intelligible a déjà fait l’objet de plusieurs travaux (voir la précédente présentation du sujet).  Ces nouveaux développements récemment publiés dans la revue PLoS Computational Biology se focalisent sur la reconstruction de la parole en temps-réel, sur la conception d’un synthétiseur pilotable a priori par n’importe quel locuteur (après une courte période de calibration du système), et sur l’absence de restriction sur le vocabulaire, ce qui est classiquement le cas dans les systèmes de lecture labiale automatique (lip reading). Ces nouveaux résultats sont une étape nécessaire vers un objectif encore plus ambitieux. Les chercheurs travaillent actuellement sur une interface cerveau-machine pour la restauration de la parole dont l’objectif, à terme, est de reconstruire la parole en temps réel, mais cette fois ci, à partir de l’activité cérébrale.

Vue schématique du synthétiseur vocal pilotable en temps-réel à partir des mouvements de la langue, des lèvres et de la mâchoire, basé sur un algorithme d’apprentissage machine profond (deep neural network). © Bocquelet et al.

Référence :
Real-Time Control of an Articulatory-Based Speech Synthesizer for Brain Computer Interfaces.
Florent Bocquelet, Thomas Hueber, Laurent Girin, Christophe Savariaux, Blaise Yvert.
PLOS Computational Biology.

Contacts chercheurs :
Blaise Yvert (Inserm/BrainTech), 04 38 78 91 38, blaise.yvert[at]inserm.fr
Thomas Hueber (CNRS/GIPSA-lab), 04 76 57 49 40, thomas.hueber[at]gipsa-lab.fr

Contact presse CNRS :
Martin Koppe, 01 44 96 43 09, martin.koppe[at]cnrs-dir.fr