Analyse et synthèse de têtes parlantes
I/ Résumé du principe
II/ Le modèle articulatoire
III/ Modèle pour la synthèse
Actuellement, une grande partie du modèle articulatoire est aussi
utilisée directement comme modèle de rendu : un maillage
relie directement les points 3D définis par le modèle linéraire.
Seule la zone des lèvres est synthétisée avec plus
de polygones, grâce au modèle générique procédural,
qui permet de raffiner leur définition jusqu'à la précision
voulue.
Dans tous les cas, c'est surtout la texture dont on va habiller ce
maillage géométrique qui rendra le modèle ressemblant
à un niveau de détail suffisant. En pratique, on a même
intérêt à utiliser plusieurs textures, pour couvrir
l'apparition de détails de parole qui ne pourraient pas être
capturées assez finement par une géométrie de taille
raisonnable : le pli qui se matérialise à la frontière
intérieure de la joue en est un bon exemple.
La synthèse d'une vue intermédiaire s'apparentera alors
à du Morphing 3D : on mélange (technique du Blending) pixel
à pixel des images déformées (principe du Warping)
selon le modèle articulatoire du locuteur.

Création d'une nouvelle vue texturée par Morphing 3D multi-référence
Suite au développement du marché du jeu sur PC, ces machines
disposent actuellement de cartes graphiques peu onéreuses qui gèrent
ces primitives 3D et permettent de calculer facilement et rapidement une
image du modèle. La synthèse de modèles 3D animés
et texturés n'est donc pas un problème sur ce type de machines
cibles. On va donc s'intéresser à la partie plus problématique,
celle du choix des textures à utiliser.
1/ Synthèse avec textures multiples
Pour des raisons d'efficacité, il n'est bien sûr pas possible
d'utiliser un trop grand nombre de textures : celles-ci pourraient ne pas
tenir dans la mémoire dédiée de la carte graphique,
et il finirait par y avoir trop de passes de rendu, ce qui dégraderait
la vitesse de synthèse. De plus, le mélange de textures est
susceptible de créer un effet de flou, qu'il est plus facile de
contrôler avec un nombre limité de textures. En pratique,
3 à 5 textures semblent être un maximum raisonnable.
a/ Choix de textures visèmes
On cherche un sous-ensemble des 34 textures qui couvrent au mieux l'espace
articulatoire mesuré. Pour cela, on a besoin d'une distance : on
utilisera la distance euclidienne, directement sur
les coordonnées des points 3D des modèles. Dans le cas où
l'on cherche trois visèmes aussi différents que possible,
cela revient à maximiser :

On retient les trois textures associées à ces visèmes.
Dans le cas de notre modèle, il s'agit de ceux-ci :
Les trois textures extrêmes et la configuration de modèle associée
b/ Mélange de textures de visèmes
Dans le cas de 3 textures, et pour texturer un visème cible M, on forme une texture combinée, mélangées pixel à pixel selon trois coefficients de la forme :
Ce paramétrage assure que chacune des textures de définition
sera utilisée de façon prépondérante lorsque
le modèle approchera la forme associée.
Pour conserver la luminosité moyenne des images, et pour que
les valeurs calculées pour chaque pixel restent affichables, il
faut que ces coefficients soient dans l'intervalle [0,1] et que leur somme
reste toujours égale à 1. On force cette dernière contrainte en normalisant leur somme.
Le choix des coeeficients k règle la suprématie d'une texture sur les autres. Pour minimiser les
problèmes de flou dans ces situations d'apprentissage, on minimise
:
c/ Problème des angles de vue
Dans le cadre du projet Tempo Valse, l'angle de vue est naturellement fixé
au cas du vis-à-vis, puisque la restitution se fait face au casque.
Avec les images des textures d'apprentissage, de face, on est dans d'excellentes
conditions pour restituer une image de qualité.
d/ Résultats
La synthèse d'un visème réalisant un i permet de voir la différence (le gain) qui résulte des textures combinées :

Une mème configuration, sans puis avec texture combinée
On verra plus loin comment ces images pourront être comparées
à celle du corpus d'apprentissage, pour quantifier le gain.
2/ Conclusion de la synthèse
Avec un maillage animé de façon réaliste par le modèle
articulatoire et un jeu de texture propre à restituer les détails
dynamiques du visage, on est à même de créer des images
synthétiques du locuteur qui a servi de modèle. Pour dépasser
le cadre de l'image ressemblante, pour que ce clone se comporte dynamiquement
comme son modèle et qu'il véhicule le message labial de son
alter
ego, il va falloir trouver à chaque instant de la séquence
de synthèse le bon jeu de paramètres articulatoires.
IV/ Techniques d'analyse
V/ Génération et interprétation de FAPs MPEG-4