L’équipe CRISSP mène des recherches fondamentales et appliquées dans le domaine du traitement automatique de la parole et de la robotique sociale. Ses travaux s'inscrivent à l'intersection du traitement du signal et de l'image, de l'apprentissage automatique, de la phonétique et des sciences cognitives. 
 
Les travaux de CRISSP visent à capturer, analyser et modéliser les différents signaux verbaux et co-verbaux mis en jeu dans une situation d’interaction communicationnelle. L'équipe cherche également améliorer les capacités socio communicatives des robots humanoïdes. Elle développe des technologies vocales exploitant des caractéristiques multimodales de la parole (son, vision, gestes), notamment pour l'aide au handicap (suppléance vocale, système d'aide à la rééducation orthophonique, aide à la communication chez les personnes malentendantes, aide à l'apprentissage de la lecture). Elle cherche également à mieux comprendre, par le biais de la modélisation et de la simulation, certains des processus mise en œuvre dans l'apprentissage de la parole chez l'enfant.
Image
parole, multimodalité, robotique humanoïde

Illustration des travaux de CRISSP
Crédit photo © GIPSA-lab


Chiffres-clés


7 
permanents


6 
doctorants & post-doctorants


Axes de recherche

Les thématiques de recherche de CRISSP se regroupent en 7 axes principaux :

  •  la synthèse vocale (codage, réhaussement de la parole, synthèse à partir du texte) avec un focus sur l'expressivité, la réactivité, la synthèse audiovisuelle). 
  •   l'interaction homme-robot avec l'analyse, la modélisation et la génération de signaux verbaux et co-verbaux (incluant le regard ou les mouvements de tête).
  •   la séparation/localisation de sources et le débruitage de la parole
  •   la reconnaissance et la génération automatique des langues gestuelles avec un focus sur la Langue Parlée Complétée.
  •   la modélisation acoustico-articulatoire (inversion, synthèse, silent speech interface, biofeedback) 
  •   l'apprentissage auto-supervisé des représentations de la parole, avec un focus sur l'interprétabilité et le contrôle des représentations
  •   la modélisation de la prosodie, incluant analyse (acoustique, gestuelle) et génération (automatique, contrôle gestuel)

Keywords

traitement automatique de la parole, production de la parole, interaction homme-robot, prosodie, apprentissage auto-supervisé, séparation de sources sonores, localisation de sources sonores, Langue Parlée Complétée, intelligence artificielle


Plateformes et expérimentation

CRISSP s'appuient sur plusieurs plateformes expérimentales pour l'acquisition de signaux multimodaux impliqués dans la production de la parole et l’interaction (articulation, mouvement de tête, regard, etc.) :

Projets

Theradia

2019-2025

Image
theradia
Objectif : Remédiation cognitive numérique avec l'IA, avec enregistrement de corpus sur la plateforme MICAL. 
Financement : BPI France
Coordinateur :

SilentPitch

2023-2027

Objectif : Prédiction et contrôle de l'intonation à partir de gestes cooccurrents de la parole, avec enregistrement de corpus sur les plateforme ANECHO et MUSA. 
Financement : ANR-23-CE33-0016
Coordinateur :

Serveur gestuel

 

Objectif : Un serveur gestuel pour favoriser l'autonomie et l'inclusion des sourds, incluant la traduction et la génération automatique de la Langue des Signes Française. 
Financement : BPI France
Coordinateur :

Fluence

Trans3

2017-2024

Image
Logo du projet Trans3 (2024)
Objectif : Développement d'outils d'entrainement à la lecture fluide pour les élèves à partir du CE1. 
Financement
Coordinateur :

Partenaires

Partenaires académiques

  • LPNC
  • LIG
  • INSERM (Grenoble)
  • ENS, LISN (Paris)
  • LIS (Marseille)
  • Centrale Superlec
  • Irisa (Rennes)
  • LPP (Paris)
  • Institut Jean le Rond d'Alembert (Paris)
  • University of Edinburgh
  • University College London

Partenaires industriels

  • Orange
  • ATOS
  • NaverLabs
  • Arturia
  • Vogo
  • Orange
  • Ives
  • Dynamic.XYZ
  • Humans Matter

Faits marquants

2021

Publication de l'article "Dynamical Variational Autoencoders: A Comprehensive Review" dans Foundations and Trends in Machine Learning (Vol. 15, No. 1-2, pp 1-175). Cet article a été réalisé en collaboration avec INRIA et LPNC dans le cadre de l'institut 3IA MIAI et a déjà cité plus de 250 fois.

En savoir

 

Pascal PERRIER et Laurent GIRIN sont membres de la chaire Bayesian Cognition and Machine Learning for Speech communication de l'Institut MIAI Grenoble Alpes.

En savoir