Recherches

    Mes activités de recherche portent sur le développement et l’évaluation de technologies vocales pour l’aide au handicap et la rééducation orthophonique. Dans le cadre de l’aide au handicap, l’objectif principal est de développer des systèmes de communication qui remplacent ou complètent un appareil vocal humain défaillant ou partiellement actif (suppléance vocale). L’approche que je poursuis est basée sur la capture et le décodage de certains des indices physiologiques (ou mécaniques) liés à la production vocale, tels que l’activité articulatoire (e.g. mouvements de la langue, des lèvres, de la mâchoire, l’activité électrique des muscles de la face et du coup), et plus récemment, l’activité électrique des aires cérébrales liés à la planification et à la réalisation des gestes articulatoires. La transformation de ces indices non-audibles en une parole synthétique permet d’envisager le développement « d’interface de communication en parole silencieuse » (silent speech interface en anglais), permettant à un utilisateur de communiquer oralement sans nécessité de vocaliser le son. Ce type de dispositif pourrait constituer un système de suppléance vocale pour les personnes laryngectomisées.

     

    Dans le cadre de la rééducation orthophonique, mes recherches portent principalement sur la rééducation des troubles de l’articulation, notamment ceux liés à un mauvais positionnement de la langue dans la cavité orale. Ces troubles sont difficiles à diagnostiquer par le praticien car la langue est un articulateur très peu visible pendant la production de parole. Ils sont également très difficiles a appréhender par le patient, car ce dernier n’a qu’une conscience très limitée de la forme de sa langue ainsi que de sa position dans l’espace. L’objectif de cette recherche est donc de concevoir des dispositifs de réalité augmentée, permettant au praticien comme au patient de visualiser en temps-réel, ses propres mouvements linguaux (« retour articulatoire visuel » ou visual biofeedback en anglais).

     

    Ces deux champs de recherche ont de fortes intersections et m’ont également amené à développer deux autres thématiques transverses, à savoir le développement d’une plateforme expérimentale dédiée à la capture de données articulatoires par imagerie ultrasonore d’une part, et la conception de méthodes originales d’apprentissage statistique (machine learning) pour la modélisation des relations acoustico-articulatoires.

 

Ci-après une liste de mes différents projets de recherche actuels:

 

 

Interface de communication en parole silencieuse

 

L’objectif est ici de concevoir un système capable de saisir et d'interpréter une parole normalement "articulée" mais "non-vocalisée". Le locuteur met en mouvement ses différents articulateurs (mâchoire, langue, lèvres, voile du palais) mais il n’envoie pas d‘air dans ses cavités orale et nasale ; il n’émet donc (pratiquement) aucun son. Le principe d‘une "interface de communication en paole silencieuse" (ou silent speech interface en anglais) est (1) de capturer les indices "inaudibles" de cette "parole silencieuse", comme par exemple le mouvements des articulateurs ou l‘activité nerveuse et musculaire, et (2) de les transformer en un signal de parole "audible". Les applications visées sont (1) la conception d'un "téléphone silencieux" utilisable dans un milieu où le silence est requis (transport en commun, opération militaire) ou à l'inverse dans un environnement très bruité - (2) l'aide aux personnes laryngectomisées. L‘approche que j‘étudie principalement est basée sur la saisie de l‘activité articulatoire par imagerie ultrasonore (échographie) et vidéo (Hueber et al., 2010).

 

Nous poursuivons en parallèle 2 lignes de recherches:

- La reconnaissance "visuelle" de la parole silenciseuse, c'est-à-dire la conversion d'un flux continu d'images video et échographiques en une séquence de mots (voir figure ci-après).

- La conversion en temps-réel de l'articulation silencieuse en un signal de parole intelligible (voir figure ci-après).

 

 

Nous abordons ses problèmes à l'aide de techniques par apprentissage automatique, soit à l'aide d'approche Bayesiene (modèles graphiques probabilistes (Hueber et al., 2016)), soit plus recement à l'aide de techniques d'apprentissage profond (Tatulli et al., 2017).

 

Quelques resultats :

 

Ci-après, une video présentant un premier prototype pour la conversion en temps-réel de l'articulation silencieuse, réalisée dans le cadre du projet Ultraspeech2, financé par le Prix Christian Benoit.

 

 

Projets financés correspondants:

    • "Ultraspeech II" (GIPSA-lab), supporté par le prix Christian Benoît 2011.
    • "Revoix" (ANR, 2009-2011) en collaboration avec le SIGMA-lab (ESPCI ParisTech) et LPP Université Sorbonne Nouvelle.
    • "Ouisper", (ANR, 2006-2009) - SIGMA-lab (ESPCI ParisTech), LTCI (Telecom ParisTech), VTVL University of Maryland.
    • "Cassis" (PHC Sakura, 2009-2010, GIPSA-lab, SIGMA-lab, LTCI, NAIST Japan)

 

Retour articulatoire visuel pour l'aide à la prononciation et la rééducation orthophonique

 

La rééducation orthophonique d'une personne atteinte d'un trouble de l'articulation s'appuie en partie sur la répétition d'exercices : le praticien analyse qualitativement les prononciations du patient et lui explique oralement ou à l'aide de schémas comment placer ses articulateurs, et notamment sa langue, dont il n'a généralement que peu conscience. L'efficacité de la rééducation repose donc sur la bonne intégration par le patient des indications qui lui sont données. C'est à ce stade que peuvent intervenir les systèmes de "retour articulatoire visuel" qui permettent au patient de visualiser en temps réel ses propres mouvements articulatoires (et notamment les mouvements de sa langue) afin de mieux en prendre conscience et donc de corriger plus rapidement ses défauts de prononciation. Depuis quelques années, des chercheurs anglo-saxons semblent privilégier la technique de l'échographie pour la conception de ces systèmes de retour visuel. L'image de la langue est alors obtenue en plaçant sous la mâchoire d'un locuteur une sonde analogue à celle classiquement utilisée pour l'imagerie du cœur ou du fœtus. Cette image est parfois jugée difficile à exploiter par le patient car elle n'est pas de très bonne qualité et ne donne aucune information sur la place du palais et des dents.

 

Dans notre approche, nous cherchons à améliorer ce retour visuel en utilisant une tête parlante articulatoire. Ce clone virtuel d'un véritable locuteur, en développement depuis de nombreuses années au GIPSA-lab (travaux de Badin et al.), permet une visualisation plus intuitive, car contextualisée, des mouvements articulatoires. Il permet de visualiser l'intérieur du conduit vocal (et notamment les mouvements de la langues), en 3D et sous n'importe quel angle.

 

Nous travaillons sur 2 approches. Dans la première, cette tête parlante articulatoire est animée automatiquement et en temps-réel à partir de la voix de l'utilisateur (signal audio) (Hueber et al., 2015).

Visual biofeedback based on acoustic-articulatory inversion

 

Dans la seconde, la tête parlante articulatoire est animée automatiquement à partir d'images échographiques du conduit vocal de l'utilisateur (Fabre et al., 2017).

 

Dans les deux cas, Il s'agit ici d'estimer des trajectoires articulatoires dans l'espace de la tête parlante, à partir de données soit articulatoires, soit acoustiques, d'un utilisateur. Cette estimation est effectuée à l'aide de techniques de modélisation par apprentissage (machine learning). Dans ce cadre, nous avons developpé une méthodologie originale intitulée "Cascaded Gaussian Mixture Regression" (Hueber et al., 2015) (Girin et al., 2017). Cette technique permet notamment (dans une certaine limite) de traiter des mouvements articulatoires que l'utilisateur ne maîtrise pas encore lorsqu'il commence à utiliser le système. Cette propriété est indispensable pour les applications thérapeutiques visées. Pour atteindre une telle performance, l'algorithme exploite un modèle probabiliste construit à partir d'une grande base de données articulatoires acquises sur un locuteur dit "expert", capable de prononcer l'ensemble des sons d'une ou plusieurs langues. Ce modèle est adapté automatiquement à la morphologie de chaque nouvel utilisateur, lors d'une courte phase d'étalonnage du système, au cours de laquelle le patient doit prononcer quelques phrases (le code source de l'algorithme C-GMR est disponible ici).

Ces systèmes, validés en laboratoire pour des locuteurs sains, sont aujourd'hui testés dans une version simplifiée dans une étude clinique pour des patients ayant subi une intervention chirurgicale de la langue (étude clinique Revison, en collaboration avec le Centre Médical Rocheplane à Saint Martin d'Hères, le laboratoire DDL à Lyon, et le CHU de Lyon). 

 

Quelques resultats :

 

Prototype temps-réel basé sur la première approche (animation de la tête parlante articulatoire à partir de la voix de l'utilisateur), basé sur l'algorithme d'inférence Integrated Cascaded Gaussian Mixture Regression (IC-GMR) (Hueber et al., 2015)

 

 

Prototype temps-réel basé sur la seconde approche (animation de la tête parlante articulatoire à partir d'images échographiques du conduit vocal de l'utilisateur) (Fabre et al., 2017).

 

 

Projets financés correspondants:

  • Thèse de Diandra Fabre (Financement Région Rhones-Alpes)
  • Master 2 recherche en science du langage de Marion Girod-Roux.
  • Projet Persyval Living Book of Anatomy (financement du contrat post-doctoral de Eric Tatulli)

 

 

Synthèse vocale "incrémentale"

 

Pour certaines personnes lourdement handicapées, l’utilisation d’un système de synthèse vocale à partir du texte (TTS : Text-to-speech) est parfois l’unique moyen de communiquer oralement. Cependant, si les systèmes TTS permettent aujourd’hui de générer une parole d’une intelligibilité suffisante, ils ne peuvent que très difficilement être utilisés de façon « interactive » (conversation face-à-face ou téléphonique, prise de parole dans une assemblée, etc.). En effet, les systèmes actuels nécessitent que l’intégralité de chaque phrase à vocaliser soit connue, pour débuter la génération du signal de parole (et ce notamment pour générer "l'intonation" de la voix de synthèse). Dans une interaction s’effectuant par l’intermédiaire d’un système TTS, le destinataire doit donc attendre que l’émetteur du message ait saisi intégralement le texte à vocaliser, avant d’entendre le moindre son. Ainsi, le patient - comme ses interlocuteurs - ressentent inévitablement une certaine frustration causée par ce manque de réactivité des systèmes TTS. Ainsi, l’acceptabilité de dispositifs d’aide à la communication intégrant une brique TTS dépend de cette capacité à lever ce verrou interactionnel que constitue la latence de la verbalisation.

 

Le projet SpeakRightNow a pour but de développer une nouvelle génération de synthétiseur TTS, dit « incrémental », capable de débuter la synthèse audio avant que l’utilisateur n’ait terminé de saisir complètement la phrase à synthétiser. Dans l’approche proposée, la synthèse de la parole accompagne la saisie du texte, elle est déclenchée avant que la totalité de la phrase à synthétiser ne soit connue. Le synthétiseur se comporte alors comme un lecteur humain, capable de débuter « en ligne » la vocalisation d’une phrase sans connaître cette dernière entièrement.

 

Video de notre premier prototype développé dans le cadre du projet SpeakRightNow basé sur l'analyseur morphosyntaxique à latence adaptative décrit dans (Pouget et al., 2016) et la synthèse HMM incrémentale décrite dans (Pouget et al., 2015):

 

Projets financés correspondants:

  • Projet AGIR SpeakRightNow (2013-2014) (financement de contrat post-doctoral de Olha Nahorna)
  • Thèse de Maël Pouget (2013-2017, Financement bourse EEATS fléchée)

 

 

Grenoble Images Parole Signal Automatique laboratoire

UMR 5216 CNRS - Grenoble INP - Université Joseph Fourier - Université Stendhal