The CRISSP research team carries out fundamental and applied research in the field of automatic speech processing and social robotics.

In particular, we aim to : 

  • capture, analyze and model the various verbal and co-verbal signals involved in a communicative interaction situation.
  • enhance the socio-communicative capabilities of humanoid robots 
  • develop voice technologies that exploit the multimodal characteristics of speech (sound, vision, gestures), in particular to help people with disabilities (voice substitution, speech rehabilitation systems, communication aids for the hearing-impaired, reading aids). 
  • to better understand, through modeling and simulation, some of the processes involved in speech and language acquisition, perception and control. 

The main research themes of the CRISSP team are :

  • Text-based speech synthesis, with a focus on expressivity, reactivity (incremental TTS synthesis), prosody modeling, audiovisual synthesis (avatar) and gesture control.
  • Human-robot interaction: analysis, modeling and generation of verbal and co-verbal signals (e.g. gaze, head movements) 
  • Acoustic-articulatory modeling (inversion, synthesis, silent speech interface, biofeedback) 
  • Automatic processing of gesture-based language, with a focus on Cued-speech.

The team is involved in 3 chairs of the Grenoble-based 3IA artificial intelligence institute MIAI

speech processing, speech production, HRI, prosody, self supervised learning, audio source separation, sound localization, cued speech, artificial intelligence

Best paper award de la conférence VISAAP, 2024

Platforms and experimentation

CRISSP exploits several experimental platforms to acquire the multimodal signals that are implied in speech production and interaction (articulation, head movements, gaze, ...):




Objectif : Remédiation cognitive numérique avec l'IA, avec enregistrement de corpus sur la plateforme MICAL. 
Financement : BPI France
Objectif : Prédiction et contrôle de l'intonation à partir de gestes cooccurrents de la parole, avec enregistrement de corpus sur les plateforme ANECHO et MUSA. 
Financement : ANR-23-CE33-0016
Serveur gestuel


Objectif : Un serveur gestuel pour favoriser l'autonomie et l'inclusion des sourds, incluant la traduction et la génération automatique de la Langue des Signes Française. 
Financement : BPI France
Logo du projet Trans3 (2024)
Objectif : Développement d'outils d'entrainement à la lecture fluide pour les élèves à partir du CE1. 
Faits marquants


Publication de l'article "Dynamical Variational Autoencoders: A Comprehensive Review" dans Foundations and Trends in Machine Learning (Vol. 15, No. 1-2, pp 1-175). Cet article a été réalisé en collaboration avec INRIA et LPNC dans le cadre de l'institut 3IA MIAI et a déjà cité plus de 250 fois.

Pascal PERRIER et Laurent GIRIN sont membres de la chaire Bayesian Cognition and Machine Learning for Speech communication de l'Institut MIAI Grenoble Alpes.

Academic partners

  • LPNC
  • LIG
  • INSERM (Grenoble)
  • ENS, LISN (Paris)
  • LIS (Marseille)
  • Centrale Superlec
  • Irisa (Rennes)
  • LPP (Paris)
  • Institut Jean le Rond d'Alembert (Paris)
  • University of Edinburgh
  • University College London

Industrial partners

  • Orange
  • ATOS
  • NaverLabs
  • Arturia
  • Vogo
  • Ives
  • Dynamic.XYZ
  • Humans Matter