Analyse et synthèse de têtes parlantes

Modifié le 16/03/2001

I/ Résumé du principe

En analysant, pour un locuteur donné, son domaine articulatoire en parole naturelle, on peut construire de lui un modèle 3D paramétré par quelques valeurs, liées à des quantités visibles : déplacements de la machoire, déformations des lèvres... Classiquement, un tel modèle pourrait être utilisé en animation pour faire articuler au clone des séquences jamais prononcées par le modèle original.

Parce que ce modèle dédié à un locuteur est suffisamment précis, on va pouvoir l'utiliser pour représenter (transmettre) des images réelles : celles de cette même personne en train de parler devant une caméra. Par la technique d'analyse descendante proposée pour le projet Tempo Valse, on trouvera des valeurs pour les quelques paramètres (2 à 6 selon la précision voulue) du modèle de synthèse qui permettent de coder et donc d'émettre une bonne approximation de chaque image d'une sène de parole naturelle. On préservera alors du message audio-visuel original son lien image/parole, et donc le gain d'intelligibilité associé, ainsi que la ressemblance au locuteur. Ce même modèle (fixé une fois pour toutes), avec ces paramètres qui varient dans le temps sont utilisés par le terminal récepteur pour synthétiser en temps réel une image du correspondant distant, même à travers un réseau à très bas débit.

Typiquement, les images des correspondants seraient obtenues à l'aide d'une micro-caméra, qui filme le locuteur depuis une vue rapprochée, comme sur la figure précédente.
Le modèle articulatoire, une fois texturé et synthétisé, peut cependant donner des représentations plus étendues, comme sur la figure ci-dessous.

Images de clones texturés, sans dents de synthèse

II/ Le modèle articulatoire

III/ Modèle pour la synthèse

IV/ Techniques d'analyse

V/ Génération et interprétation de FAPs MPEG-4