Recherches

    Mes activités de recherche portent sur le développement et l’évaluation de technologies vocales pour l’aide au handicap et la rééducation orthophonique. Dans le cadre de l’aide au handicap, l’objectif principal est de développer des systèmes de communication qui remplacent ou complètent un appareil vocal humain défaillant ou partiellement actif (suppléance vocale). L’approche que je poursuis est basée sur la capture et le décodage de certains des indices physiologiques (ou mécaniques) liés à la production vocale, tels que l’activité articulatoire (e.g. mouvements de la langue, des lèvres, de la mâchoire, l’activité électrique des muscles de la face et du coup), et plus récemment, l’activité électrique des aires cérébrales liés à la planification et à la réalisation des gestes articulatoires. La transformation de ces indices non-audibles en une parole synthétique permet d’envisager le développement « d’interface de communication en parole silencieuse » (silent speech interface en anglais), permettant à un utilisateur de communiquer oralement sans nécessité de vocaliser le son. Ce type de dispositif pourrait constituer un système de suppléance vocale pour les personnes laryngectomisées.

     

    Dans le cadre de la rééducation orthophonique, mes recherches portent principalement sur la rééducation des troubles de l’articulation, notamment ceux liés à un mauvais positionnement de la langue dans la cavité orale. Ces troubles sont difficiles à diagnostiquer par le praticien car la langue est un articulateur très peu visible pendant la production de parole. Ils sont également très difficiles a appréhender par le patient, car ce dernier n’a qu’une conscience très limitée de la forme de sa langue ainsi que de sa position dans l’espace. L’objectif de cette recherche est donc de concevoir des dispositifs de réalité augmentée, permettant au praticien comme au patient de visualiser en temps-réel, ses propres mouvements linguaux (« retour articulatoire visuel » ou visual biofeedback en anglais).

     

    Ces deux champs de recherche ont de fortes intersections et m’ont également amené à développer deux autres thématiques transverses, à savoir le développement d’une plateforme expérimentale dédiée à la capture de données articulatoires par imagerie ultrasonore d’une part, et la conception de méthodes originales d’apprentissage statistique (machine learning) pour la modélisation des relations acoustico-articulatoires.

 

Ci-après une liste de mes différents projets de recherche actuels:

 

 

Silent speech interface

 

Objectif :

L’objectif est ici de concevoir un système capable de saisir et d'interpréter une parole normalement "articulée" mais "non-vocalisée". Le locuteur met en mouvement ses différents articulateurs (mâchoire, langue, lèvres, voile du palais) mais il n’envoie pas d‘air dans ses cavités orale et nasale ; il n’émet donc (pratiquement) aucun son. Le principe d‘une "interface de communication en paole silencieuse" (ou silent speech interface en anglais) est (1) de capturer les indices "inaudibles" de cette "parole silencieuse", comme par exemple le mouvements des articulateurs ou l‘activité nerveuse et musculaire, et (2) de les transformer en un signal de parole "audible". Les applications visées sont (1) la conception d'un "téléphone silencieux" utilisable dans un milieu où le silence est requis (transport en commun, opération militaire) ou à l'inverse dans un environnement très bruité - (2) l'aide aux personnes laryngectomisées. L‘approche que j‘étudie principalement est basée sur la saisie de l‘activité articulatoire par imagerie ultrasonore (échographie) et vidéo (voir ma thèse de doctorat).

Ultrasound-based silent speech interface

 

Cliquez ici pour accéder à un article du CNRS sur mes travaux, et ci-après un extrait d'un reportage réalisé par la journaliste Christelle Gambon illustrant mes recherches sur les interfaces de communication en parole silencieuse.

 

Ci-après, une video présentant notre première implémentation temps-réel, réalisée dans le cadre du projet Ultraspeech2, financé par le Prix Christian Benoit (résultats préliminaires, basés sur une version "simplifiée" des algorithmes de mapping acoustico-articulatoires).

Projets correspondants :

    • "Ultraspeech II" (GIPSA-lab), supporté par le prix Christian Benoît 2011.
    • "Revoix" (ANR, 2009-2011) en collaboration avec le SIGMA-lab (ESPCI ParisTech) et LPP Université Sorbonne Nouvelle.
    • "Ouisper", (ANR, 2006-2009) - SIGMA-lab (ESPCI ParisTech), LTCI (Telecom ParisTech), VTVL University of Maryland.
    • "Cassis" (PHC Sakura, 2009-2010, GIPSA-lab, SIGMA-lab, LTCI, NAIST Japan)

 

Retour articulatoire visuel pour l'aide à la prononciation et la rééducation orthophonique

 

Objectif :

L’objectif de ce projet de recherche est de concevoir un système permettant à un locuteur de visualiser en temps réel ses propres mouvements articulatoires, et d’étudier si, et comment, ce locuteur s’approprie cette nouvelle source d’information visuelle pour améliorer sa propre production de parole. Les applications visées sont l'aide à la rééducation orthophonique et l‘apprentissage des langues étrangères. Le système que nous développons est basé sur une tête parlante 3D, dont la particularité est de rendre possible la visualisation, sous n’importe quel angle, des articulateurs normalement cachés comme la langue et le voile du palais. Dans notre approche, ce clone est animé automatiquement à partir du signal audio de parole du locuteur ; il s’agit de l’étape « d’inversion acoustico-articulatoire ». Cette étape est rendue possible par l'utilisation de techniques de modélisation par "apprentissage supervisé" (Réseaux de neurones, GMM, HMM), utilisées pour modéliser la relation acoustico-articulatoire - c'est-à-dire la relation entre une série de configurations successives du conduit vocal et les caractéristiques spectrales du son associé.

 

Visual biofeedback based on acoustic-articulatory inversion

 

Video de notre premier prototype temps-réel.

 

 

Projets correspondants :

  • Thèse de Diandra Fabre (Financement Région Rhones-Alpes)
  • Projet Persyval Living Book of Anatomy (financement du contrat post-doctoral de Eric Tatulli)

 

 

Synthèse vocale "incrémentale"

 

Pour certaines personnes lourdement handicapées, l’utilisation d’un système de synthèse vocale à partir du texte (TTS : Text-to-speech) est parfois l’unique moyen de communiquer oralement. Cependant, si les systèmes TTS permettent aujourd’hui de générer une parole d’une intelligibilité suffisante, ils ne peuvent que très difficilement être utilisés de façon « interactive » (conversation face-à-face ou téléphonique, prise de parole dans une assemblée, etc.). En effet, les systèmes actuels nécessitent que l’intégralité de chaque phrase à vocaliser soit connue, pour débuter la génération du signal de parole (et ce notamment pour générer "l'intonation" de la voix de synthèse). Dans une interaction s’effectuant par l’intermédiaire d’un système TTS, le destinataire doit donc attendre que l’émetteur du message ait saisi intégralement le texte à vocaliser, avant d’entendre le moindre son. Ainsi, le patient - comme ses interlocuteurs - ressentent inévitablement une certaine frustration causée par ce manque de réactivité des systèmes TTS. Ainsi, l’acceptabilité de dispositifs d’aide à la communication intégrant une brique TTS dépend de cette capacité à lever ce verrou interactionnel que constitue la latence de la verbalisation.

Le projet SpeakRightNow a pour but de développer une nouvelle génération de synthétiseur TTS, dit « incrémental », capable de débuter la synthèse audio avant que l’utilisateur n’ait terminé de saisir complètement la phrase à synthétiser. Dans l’approche proposée, la synthèse de la parole accompagne la saisie du texte, elle est déclenchée avant que la totalité de la phrase à synthétiser ne soit connue. Le synthétiseur se comporte alors comme un lecteur humain, capable de débuter « en ligne » la vocalisation d’une phrase sans connaître cette dernière entièrement.

 

Video de notre premier prototype développé dans le cadre du projet SpeakRightNow :

 

Projets correspondants :

  • Projet AGIR SpeakRightNow (2013-2014) (financement de contrat post-doctoral de Olha Nahorna)
  • Thèse de Maël Pouget (2013-2016, Financement bourse EEATS fléchée)

 

 

Grenoble Images Parole Signal Automatique laboratoire

UMR 5216 CNRS - Grenoble INP - Université Joseph Fourier - Université Stendhal