Vous êtes ici : GIPSA-lab > Formation > Thèses soutenues
Chargement
GOVOKHINA Oxana

Modèles de génération de trajectoires pour l''animation de visages parlants

 

Directeur de thèse :     Gérard BAILLY

École doctorale : Electronique, electrotechnique, automatique, traitement du signal (eeats)

Spécialité : Signal, image, parole, télécoms

Structure de rattachement : Grenoble-INP

Établissement d'origine : INPG

Financement(s) : autres financements

 

Date d'entrée en thèse : 01/11/2004

Date de soutenance : 24/10/2008

 

Composition du jury :
Bernard Péroche, Président
Sylvie Gibet & Christophe d'Alessandro, Rapporteurs
Gérard Bailly & Gaspard Breton, Directeurs de thèse

 

Résumé : Le travail réalisé durant cette thèse concerne la synthèse visuelle de la parole pour l'animation d'un humanoïde de synthèse. L'objectif principal de notre étude est de proposer et implémenter des modèles de contrôle pour l'animation faciale qui puissent générer les trajectoires articulatoires à partir du texte. Pour ce faire nous avons travaillé sur 2 corpus audiovisuels. Tout d'abord, nous avons comparé objectivement et subjectivement les principaux modèles existants de l'état de l'art. Ensuite, nous avons étudié l'aspect spatial des réalisations des cibles articulatoires, pour les synthèses par HMM et par concaténation simple. Nous avons combiné les avantages des deux méthodes en proposant un nouveau modèle de synthèse nommé TDA (Task Dynamics for Animation). Ce modèle planifie les cibles géométriques grâce à la synthèse par HMM et exécute les cibles articulatoires grâce à la synthèse par concaténation. Par la suite, nous avons étudié l'aspect temporel de la synthèse de la parole et proposé un second modèle de synthèse intitulé PHMM (Phased Hidden Markov Model) permettant de gérer les différentes modalités liées à la parole. Le modèle PHMM permet de calculer les décalages des frontières des gestes articulatoires par rapport aux frontières acoustiques des allophones. Ce modèle a été également appliqué à la synthèse automatique du LPC (Langage Parlé Complété). Enfin, nous avons réalisé une évaluation subjective des différentes méthodes de synthèse visuelle (concaténation, HMM, PHMM et TDA).


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31