Directeur de thèse : Denis BEAUTEMPS
Co-directeur de thèse : Gang FENG
École doctorale : Electronique, electrotechnique, automatique, traitement du signal (EEATS)
Spécialité : Signal, image, parole, télécoms
Structure de rattachement : Grenoble-INP
Établissement d'origine : INPG/ENSIMAG
Financement(s) : Contrat doctoral
Date d'entrée en thèse : 01/10/2015
Date de soutenance : 11/09/2018
Composition du jury :
SCHWARTZ Jean-Luc, Directeur de Recherche, CNRS, Président du jury
ANDRE-OBRECHT Régine, Professeur des Universités, Université de Toulouse, Rapporteur
MAYNARD Hélène, Maître de Conférences, Université d'Orsay, Habilitée à Diriger des Recherches, Rapporteur
LEYBAERT Jacqueline, Professeur, Université Libre de Bruxelles, Examinateur
BEAUTEMPS Denis, Chargé de Recherche, CNRS, Habilité à Diriger des Recherches, Directeur de thèse
FENG Gang, Professeur des Universités, Grenoble INP, Co-directeur de thèse
HUEBER Thomas, Chargé de Recherche, CNRS, Invité
Résumé : Cette thèse de doctorat traite de la reconnaissance automatique de la langue française Par-
lée Complétée (LPC), version française du Cued Speech (CS), à partir de l'image vidéo et
sans marquage de l'information préalable à l'enregistrement vidéo. Afin de réaliser cet objec-
tif, nous cherchons à extraire les caractéristiques de haut niveau de trois flux d'information
(lèvres, positions de la main et formes), et fusionner ces trois modalités dans une approche
optimale pour un système de reconnaissance de LPC robuste. Dans ce travail, nous avons
introduit une méthode d'apprentissage profond avec les réseaux neurono convolutifs (CNN)
pour extraire les formes de main et de lèvres à partir d'images brutes. Un modèle de mélange
de fond adaptatif (ABMM) est proposé pour obtenir la position de la main. De plus, deux
nouvelles méthodes nommées Modified Constraint Local Neural Fields (CLNF Modifié) et le
modèle Adaptive Ellipse Model ont été proposés pour extraire les paramètres du contour in-
terne des lèvres (étirement et ouverture aux lèvres). Le premier s'appuie sur une méthode
avancée d'apprentissage automatique (CLNF) en vision par ordinateur. Toutes ces méthodes
constituent des contributions significatives pour l'extraction des caractéristiques du LPC. En
outre, en raison de l'asynchronie des trois flux caractéristiques du LPC, leur fusion est un en-
jeu important dans cette thèse. Afin de le résoudre, nous avons proposé plusieurs approches,
y compris les stratégies de fusion au niveau données et modèle avec une modélisation HMM
dépendant du contexte. Pour obtenir le décodage, nous avons proposé trois architectures
CNNs-HMMs. Toutes ces architectures sont évaluées sur un corpus de phrases codées en LPC
en parole continue sans aucun artifice, et la performance de reconnaissance du LPC confirme
l'efficacité de nos méthodes proposées. Le résultat (74%) est comparable à l'état de l'art qui
utilisait des bases de données où l'information pertinente était préalablement repérée. En
même temps, nous avons réalisé une étude spécifique concernant l'organisation temporelle des
mouvements de la main, révélant une avance de la main en relation avec l'emplacement dans la
phrase. En résumé, ce travail de doctorat propose les méthodes avancées d'apprentissage au-
tomatique issues du domaine de la vision par ordinateur et les méthodologies d'apprentissage
profond dans le travail de reconnaissance du LPC, qui constituent un pas important vers le
problème général de conversion automatique du LPC en parole audio.
Abstract in English
This PhD thesis deals with the automatic continuous Cued Speech (CS) recognition in French
based on the images of subjects without marking any artificial landmark. In order to realize
this objective, we extract high-level features of three information flows (lips, hand positions
and shapes), and find an optimal approach to merge them for a robust CS recognition system.
We first introduce a novel and powerful deep learning method based on the Convolutional
Neural Networks (CNNs) for extracting the hand shape/lips features from raw images. The
adaptive background mixture models (ABMMs) are applied to obtain the hand position fea-
tures for the first time. Meanwhile, based on an advanced machine learning method Modified
Constrained Local Neural Fields (CLNF), we propose the Modified CLNF to extract the inner
lips parameters (lip width A and and lip hight B ), as well as another method named adaptive
ellipse model. All these methods make significant contributions to the feature extraction in
CS. Then, due to the asynchrony problem of three feature flows (i.e., lips, hand shape and
hand position) in CS, the fusion of them is a challenging issue. In order to resolve it, we
propose several approaches including feature-level and model-level fusion strategies combined
with the context-dependent HMM. To achieve the CS recognition, we propose three tandem
CNNs-HMM architectures. All these architectures are evaluated on the corpus without any
artifice, and the CS recognition performance confirms the efficiency of our proposed methods.
The result of 74% continuous phonemes recognition is comparable with the state of the art
which uses the corpus with artifices and is in the isolated CS recognition case. In parallel,
we investigate a specific study about the temporal organization of hand movements in CS,
especially about its temporal segmentation, and the evaluations confirm the superior perfor-
mance of our methods. In summary, this PhD thesis applies the advanced machine learning
(especially the deep learning) methods to CS recognition work, which make a significant step
to the general automatic conversion problem of CS to audio speech.