Recherches

Démarche générale

Mon approche consiste à étudier la parole comme un phénomène multimodal et incarné, à travers la démarche suivante :

  • mettre en place des dispositifs expérimentaux permettant d'acquérir des signaux acoustiques, articulatoires, visuels et physiologiques ;
  • développer des modèles d'apprentissage automatique capables de relier ces signaux à des représentations linguistiques, motrices ou perceptives ;
  • intégrer ces modèles dans des systèmes interactifs, tels que des technologies d'assistance à la communication parlée ou des robots humanoïdes, qui s'insèrent dans les boucles sensori-motrices régulant la communication humaine.

Les applications de mes travaux concernent :

  • le développement de technologies vocales destinées aux personnes présentant des troubles de la communication parlée ;
  • l'amélioration des capacités socio-communicatives des robots ;
  • l'étude, par la modélisation et la simulation, des mécanismes cognitifs impliqués dans l'acquisition du langage et de la parole.

Modélisation computationnelle des mécanismes de perception, de production et d'acquisition de la parole

Objectifs

  • Explorer comment les interactions sensori-motrices, physiques et sociales façonnent l'apprentissage du langage et de la parole.
  • Comprendre comment tirer parti de ces interactions pour améliorer l'efficacité et l'adaptabilité des IA conversationnelles.

Résultats

  • Développement d'un modèle computationnel neuronal d'imitation vocale permettant l'apprentissage auto-supervisé des relations sensori-motrices de la parole, notamment des relations acoustico-articulatoires.
  • Mise en évidence du rôle de l'inférence motrice dans la découverte d'unités phonétiques.
  • Mise en évidence du rôle de représentations acoustiques invariantes dans l'apprentissage articulatoire.
  • Étude de biais phonétiques universels pour l'apprentissage d'unités acoustiques en faible quantité de données.
Modèle d'imitation vocale auto-supervisée de Lavechin et Hueber

Modèle d'imitation vocale auto-supervisée : apprendre les relations entre perception, gestes articulatoires et production de parole.

Publications

Contexte : chaire DevAI&Speech (MIAI Cluster), chaire Bayesian Cognition and Machine Learning for Speech Communication (MIAI), ERC Speech Unit(e)s, post-doctorat de Marvin Lavechin, thèse de Marc-Antoine Georges, thèse d'Angelo Ortiz.

Apprentissage de représentations de la parole

Objectifs

  • Apprendre, de manière auto-supervisée ou faiblement supervisée, des représentations riches, interprétables et contrôlables de la parole et des signaux audio.
  • Exploiter ces représentations pour le rehaussement et la restauration de la parole pathologique.

Résultats

  • Formulation théorique d'une nouvelle classe de modèles auto-supervisés : les auto-encodeurs variationnels dynamiques (DVAE).
  • Régularisation d'espaces latents de VAE afin de permettre le contrôle interprétable du timbre musical, en collaboration avec Arturia.
  • Développement de méthodes de restauration de segments de parole manquants par speech inpainting.
Architecture de speech inpainting proposée par Asaad et al.

Architecture de speech inpainting : transférer des représentations SSL vers la reconstruction de segments de parole masqués.

Publications

Contexte : thèse de Fanny Roche, collaboration Arturia, thèse de Marc-Antoine Georges, collaboration INRIA RobotLearn et LPNC.

Silent speech interface

Objectifs

  • Convertir une parole articulée mais non vocalisée en texte ou en signal acoustique intelligible.
  • Comprendre et modéliser le contrôle de la prosodie en parole silencieuse.

Résultats

  • Première interface de communication en parole silencieuse basée sur l'acquisition de données articulatoires combinant échographie linguale et vidéo.
Interface de parole silencieuse par échographie linguale et vidéo des lèvres

Interface de parole silencieuse : acquisition articulatoire multimodale et conversion vers la parole audible.

Publications

Contexte : ma thèse et post-doctorat d'Eric Tatulli.

Traitement automatique des langues gestuelles

Objectifs

  • Reconnaître et automatiser la Langue française Parlée Complétée (LPC).
  • Synthétiser la LPC à partir de texte.
  • Analyser la coordination temporelle entre les mouvements de la main et les mouvements labiaux en LPC.
  • Traduire automatiquement la Langue des Signes Française (LSF) en texte.

Résultats

  • Premier système complet de décodage et de synthèse de la Langue française Parlée Complétée (LfPC) basé sur un pipeline entièrement neuronal.
  • Corpus Mediapi-RGB pour l'entraînement de modèles de traduction automatique de LSF.
Architecture de reconnaissance automatique de la Langue française Parlée Complétée

Reconnaissance automatique de la Langue française Parlée Complétée : combiner informations labiales, manuelles et linguistiques.

Publications

Contexte : projet H2020 Comm4Child, thèse de Sanjana Sankar.

Synthèse vocale incrémentale

Objectifs

  • Réduire la latence des systèmes de synthèse vocale à partir du texte.
  • Produire une parole naturelle avant que la phrase complète soit disponible.

Résultats

  • Quantification de l'impact du contexte futur sur la qualité prosodique du TTS neuronal.
  • Amélioration de la prosodie avec des prédictions de texte futur.
  • Fine-tuning d'un modèle GPT permettant de prédire en ligne la présence d'un focus contrastif sur un mot au cours de la saisie.
Synthèse vocale classique et synthèse vocale incrémentale

Synthèse vocale incrémentale : réduire la latence dans une interaction assistée par synthèse de parole.

Publications

Biofeedback articulatoire pour la rééducation orthophonique

Objectifs

  • Rendre visibles les gestes articulatoires pour accompagner la rééducation orthophonique.
  • Évaluer l'apport de l'échographie linguale et de modèles articulatoires en situation clinique.
  • Développer des systèmes capables de prédire en temps réel les mouvements articulatoires directement à partir du signal de parole.

Résultats

  • Protocoles de rééducation après glossectomie utilisant l'illustration échographique et le feedback visuel.
  • Apport de l'illustration visuelle des articulateurs pour la rééducation des troubles de la parole post-AVC.
  • Algorithme C-GMR pour l'adaptation à un nouveau locuteur d'une régression par modèle de mélange gaussien.
Biofeedback articulatoire par échographie linguale

Biofeedback articulatoire : rendre visibles les mouvements de la langue pour accompagner la rééducation.

Publications

Contexte : thèse de Diandra Fabre, stage de Master de Marion Girod-Roux, projet Revison, projet Vizart3D, collaborations DDL Lyon, CHU Lyon, centre médical Rocheplane, LPNC et INRIA RobotLearn.

Interfaces cerveau-machine pour la parole

Objectifs

  • Explorer la restauration de la communication parlée à partir de signaux cérébraux intra-crâniens (ECoG) liés à la production de parole.

Résultats

  • Identification des contraintes méthodologiques clés pour concevoir une BCI de parole.
  • Première démonstration d'un système de conversion acoustico-articulatoire en temps réel, adaptable au locuteur, basé sur l'articulographie électromagnétique.

Publications

Contexte : projets ANR BrainSpeak et H2020-FETPROACT BrainCom, en collaboration avec l'INSERM, thèse de Florent Bocquelet.


Grenoble Images Parole Signal Automatique laboratoire

UMR 5216 CNRS - Grenoble INP - Université Grenoble Alpes