Système de modification vocale en temps réel

GFM-Voc (Glottal Flow Model-based Vocoder) est le premier système qui permet de modifier une voix en temps-réel, incluant à la fois :

Manipulation de l'articulation : simule une modification des positions de la mâchoire, de la langue, des lèvres
Manipulation de la qualité vocale : change l'effort et la tension perçus de la voix

Le système repose sur l'implémentation d'une nouvelle méthode de décomposition source-filtre appelée GFM-IAIF, qui permet l'extraction simultanée des contributions du conduit vocal et de la glotte, sous la forme d'un nombre réduit de paramètres de filtres. Ces derniers sont alors contrôlables à l'aide d'une interface graphique, avant la resynthèse du signal de parole à partir des paramètres modifiés. Le système ne nécessite pas d'apprentissage et fonctionne sur n'importe quelle voix, homme comme femme, sans réglage préalable. On peut citer comme exemple d'application de ce système la synthèse de parole expressive, en ajoutant le système à la sortie du synthétiseur ; la perturbation du retour auditif pour étudier la réponse de locuteurs à de la parole modifiée ; ou la rééducation de la parole.

Publication associée

O. Perrotin, I. McLoughlin (2019)
GFM-Voc: A real-time voice quality modification system
Proceedings of Interspeech, Graz, Austria, September 15-19, pp. 3685-3686. (poster)

Code source

Le code source de la méthode GFM-IAIF est disponible sur GitHub. Plus de détails sur GFM-IAIF ici.

Démonstration

Grenoble Images Parole Signal Automatique laboratoire

UMR 5216 CNRS - Grenoble INP - Université Joseph Fourier - Université Stendhal