Équipe

COGNITIVE ROBOTICS, INTERACTIVE SYSTEMS, & SPEECH PROCESSING
Responsable(s) d'équipe : Gérard BAILLYThomas HUEBER


Axes de recherche


Systèmes intéractifs

L’équipe CRISSP développe un ensemble de systèmes interactifs et de technologies vocales pour différentes applications dont dont l’aide à la communication parlée (suppléance vocale), l’apprentissage de la lecture, l’apprentissage d’une langue seconde, la rééducation orthophonique, le multimédia au sens large (cinéma, jeu vidéo, théâtre, traitement du signal musical).

 

La plupart de ces systèmes exploitent différentes modalités de la parole et du langage, comme la modalité acoustique (i.e. le signal audio) mais aussi le texte, et la modalité visuelle (images des lèvres, gestes manuelles d’un malentendant, etc.).  Ces modalités peuvent être mise en correspondance à l’aide de techniques de « modélisation par apprentissage statistique » (machine learning),  thématique transverse à l’équipe qui fait l’objet de plusieurs contributions originales. Ci-après, quelques exemples de différents systèmes développés (ou en cours de développement) dans l’équipe.

 

Serveur gestuel pour les personnes malentendantes utilisant la Langue Française Parlée Complétée (LPC)

La Langue Parlée Complétée est une méthode de communication destinée aux malentendants basée sur un jeu de clés manuelles présentées près du visage pour compléter la lecture labiale. Dans le cadre du projet ANR TELMA (2005-2009), nous avons developper une système capable 1) de convertir automatiquement les gestes labiaux et manuels d’une personne mal-entendante pratiquant le LPC en un signal sonore compréhensible par une personne entendante, et 2) d’animer automatiquement un codeur LPC « virtuel » (c’est-à-dire un avatar) à partir de la voix. Ces deux systèmes combinés forment un serveur gestuel complet pour les personnes malentendantes. 

Cliquez sur la photo ci-après pour visualiser un reportage qui illustre son fonctionnement :

 

Interface de communication en parole silencieuse

L’objectif est ici de concevoir un système portatif permettant à une personne de communiquer oralement, mais sans nécessité de vocaliser. Il s’agit de la « parole silencieuse ». En parole silencieuse, un locuteur bouge normalement ses lèvres, sa langue, sa mâchoire, mais il ne produit aucun son. L’objectif du système est de capturer un ensemble de signaux physiologiques liés à cette « articulation silencieuse », et de les convertir en temps réel en une voix de synthèse. Ces signaux peuvent par exemple être l’activité électrique des muscles impliqués dans les mouvements articulatoires, ou bien directement les mouvements eux-mêmes, que l’on peut visualiser avec des capteurs spécifiques. C’est notamment cette seconde approche que nous privilégions (en collaboration avec Bruce Denby de l’Institut Langevin à Paris). Pour cela, nous utilisons un capteur ultrasonore placé sous la mâchoire du locuteur, et une caméra vidéo positionnée à proximité de la bouche. Cette association permet de suivre simultanément les mouvements des articulateurs internes (comme la langue) et externe (comme les lèvres). Une seconde approche consiste à utiliser un microphone dit « stéthoscopique » capable d’amplifier le très faible signal acoustique se propageant des les tissus de la face lorsque nous murmurons (collaboration avec Tomoki Toda, NAIST, Japon). Ci-après un extrait du reportage réalisé par la journaliste Christelle Gambon sur ce sujet. 


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31