Exploration méthodologique et techniques expérimentales pour l'étude de la voix

Outil de communication et instrument musical, la voix est un sujet d'étude complexe sur lequel nous avons encore beaucoup à découvrir. Cette complexité provient en partie du fait que l'instrument vocal fait partie intégrante de l'humain, et qu'il n'est pas asiément accessible sans perturbation.

Il existe à l'heure actuelle un ensemble de méthodes expérimentales plus ou moins invasives qui nous permettent de caractériser le geste phonatoire et le mouvement articulatoire au cours de la phonation. Je m'intéresse ici en particulier à des techniques directes d'imagerie (transillumination strobophotoglottographique, cinématographie ultra-rapide, IRM), de mesure acoustique (impédancemétrie aux lèvres du conduit vocal), ainsi que des techniques indirectes de mesure ou d'estimation du mouvement vibratoire glottique et de la fonction de transfert du conduit vocal. Les travaux de recherche portant sur ces différentes techniques sont ici synthétisés.

1. Caractérisation physiologique du mouvement vibratoire glottique

Utilisation de l'électroglottographie pour la mesure de paramètres glottiques

Coll. Christophe d'Alessandro, Michèle Castellengo, Boris Doval

L'électroglottographie (EGG) est une technique expérimentale indirecte et non-invasive de mesure du contact entre les cordes vocales lors de la phonation. Elle renseigne sur la mise en vibration des cordes vocales lors de la phonation, et sur les phases d’ouverture et de fermeture glottique (Childers and Krishnamurthy, 1985, Colton and Conture, 1990, Orlikoff, 1998). La dérivée d’un signal électroglottographique (DEGG) met en avant des variations rapides de contact, qui se traduisent sur ces signaux par des pics plus ou moins marqués. Ces pics peuvent être uniques et bien marqués, et ils correspondent alors aux instants d’ouverture et de fermeture glottique, traditionnellement définie comme les instants d’initiation et de terminaison des variations rapides de débit glottique au cours d’une période de vibration. La détection de ces pics permet alors une mesure précise de la fréquence fondamentale de vibration des cordes vocales et du quotient ouvert, défini comme le rapport entre la durée de la phase ouverte et la période d’un cycle glottique (Henrich et al., 2004).

Henrich N. , d'Alessandro C. , Castellengo M. and Doval B. (2004) On the use of the derivative of electroglottographic signals for characterization of nonpathological phonation, J. Acoust. Soc. Amer., Vol. 115 (3), pp. 1321-1332.

La technique de transillumination et ses applications

Coll. équipe du Pr. Hess (Department of Phoniatrics and Pedaudiology, University Hospital Eppendorf, Hambourg, Allemagne)

Dans ce projet, nous nous sommes intéressés à une technique très récente de visualisation de l’ouverture glottique, la transillumination strobophotoglottographique (Hess and Ludwigs, 2000). Dans cette technique de visualisation directe, la glotte est éclairée par le dessous à l’aide d’une source de lumière blanche placée sur le cou du patient, et le mouvement glottique est visualisé par le dessus à l’aide d’un endoscope rigide. A l'aide de cette technique, nous avons visualisé le mouvement vibratoire glottique dans les quatre mécanismes laryngés chez un locuteur. Nous avons testé la portabilité de cette technique de visualisation à la cinématographie ultra-rapide et la reconstruction du mouvement d’ouverture sur l’épaisseur des cordes vocales par transillumination. Malgré des premiers résultats encourageants, qui montraient que la technique pouvait se transposer à la cinématographie ultra-rapide, nous avons rencontré des difficultés expérimentales portant sur l’illumination non-homogène de la glotte, qui ne permettaient pas de visualiser l’intégralité de l’ouverture glottique.

Henrich N., Hess M., Schade G., Neubauer J., Mantay C. and Kirchhoff T. (2003) The transillumination technique and its applications : first results, In proc. 6th International Conference Advances in Quantitative Laryngology, Voice and Speech Research, Hamburg, Germany, Apr. 2003. Eds. G. Schade, F. Müller, Th. Wittenberg, M. Hess, IRB Verlag, Stuttgart, Germany. [PDF]

Caractérisation des signaux électroglottographiques dérivés par cinématographie ultra-rapide

Coll. Cédric Gendrot (ILPGA, Paris 3), équipe du Pr. Hess (Department of Phoniatrics and Pedaudiology, University Hospital Eppendorf, Hambourg, Allemagne)

Dans de nombreuses situations, les pics liés aux variations rapides de contact observés sur la dérivée d'un signal électroglottographique présentent des particularités : dédoublement à l’ouverture ou à la fermeture, multiplicité ou imprécision du pic à l’ouverture (Henrich et al., 2004a). Ces particularités sont dépendantes du locuteur ou du chanteur, et elles peuvent apparaître lors des phénomènes de transition entre mécanismes laryngés. Une observation préliminaire faite sur un cas de dédoublement à la fermeture montre que ces particularités pourraient être liées à des modifications du mouvement d’accolement et de décollement des cordes vocales (Henrich et al., 2004a). Pour explorer plus en détail ces phénomènes, nous avons eu recours à une technique récente de visualisation de l’ouverture glottique, la cinématographie ultra-rapide. La vitesse d'acquisition des images de la caméra utilisée (2000 à 4000 images/seconde) permet d’obtenir une visualisation fine du mouvement vibratoire des cordes vocales au niveau de la période de vibration. Son principal inconvénient est le caractère expérimental très invasif, puisqu’un endoscope rigide est introduit dans la bouche du sujet, ne lui permettant de produire que quelques voyelles.
L’objectif de ce projet étant d’analyser les phénomènes particuliers observés sur la dérivée des signaux électroglottographiques, nous avons enregistré simultanément le mouvement des cordes vocales par cinématographie ultra-rapide et les variations du contact glottique par électroglottographie, dans le cas d’un locuteur et d’un chanteur pour des productions vocales parlées et chantées (variation de hauteur, d’intensité, de mécanisme laryngé, de qualité vocale). Dans un premier temps, nous nous sommes intéressés à observer qualitativement le mouvement glottique dans le cas du mécanisme 0, dans le cas de dédoublements des pics à l’ouverture et à la fermeture glottique, ainsi que pour une variation de qualité vocale (relâchée / tendue) et une transition entre mécanimes laryngés. Des méthodes de détection de l’aire glottique et du contact le long des cordes vocales par analyse numérique des images cinématographiques ont été développées, afin de pouvoir quantifier la relation entre les instants d’occurrence des pics sur le signal DEGG et des événements particuliers du mouvement vibratoire des cordes vocales.

Henrich N. , d'Alessandro C. , Castellengo M. and Doval B. (2004a) On the use of the derivative of electroglottographic signals for characterization of nonpathological phonation, J. Acoust. Soc. Amer., Vol. 115 (3), pp. 1321-1332.
Henrich N., Gendrot C., Schade G., Muller F., Expert R. (2004b) Characterization of features observed on the derivative of EGG signal by the use of high speed cinematography, in International Conference on Voice Physiology and Biomechanics, Marseille, France, Aug. 2004.
Gendrot C., Henrich N., Schade G., Muller F., Expert R. (2004) Vocal folds vibratory patterns of laryngeal mechanism M0 as investigated with high speed cinematography and electroglottography, in International Conference on Voice Physiology and Biomechanics, Marseille, France, Aug. 2004.

Détection automatique du contour glottique

Coll. Christophe d'Alessandro (LIMSI), Yannis Stylianou (Computer Science Dept., Univ of Crete, Heraklion, Greece)

Depuis quelques années, nous cherchons à améliorer les outils d’analyse de contour glottique dans les images du plan glottique obtenues par cinématographie ultra-rapide. Après la mise en place de méthodes de détection par seuillage et sélection semi-automatique de contours, nous avons cherché à développer une méthode automatique de détection du contour glottique. Ce travail a été réalisé dans le cadre du stage de Master de Sevasti-Zoi Karakozoglou, qui a appliqué et adapté une approche par contours actifs au niveau local pour la segmentation glottique. Cette méthode permet de détecter la glotte avec une grande précision. Sa robustesse a été testée sur une grande base de données d’images cinématographiques enregistrée à Hambourg en 2004. La GlottoVibroGraphie, une représentations de données permettant de réduire le nombre de dimensions de l’information spatio-temporelle et de présenter les données ultra-rapide de façon compacte et sans perte, a été proposée.
.

Karakozoglou S., Henrich N., d‘alessandro C., Stylianou Y. (2012) Automatic glottal segmentation using local-based active contours and application to glottovibrography, Speech Communication vol.54 (5), pp. 641-654.

2. Caractérisation acoustique du conduit vocal

Analyse des méthodes de filtrage inverse et estimation de la source glottique

Coll. B. Doval, Nicolas Sturmel (LIMSI, Orsay)

Les méthodes courantes de filtrage inverse sont généralement évaluées et validées sur des signaux synthétiques, mais leur évaluation sur des signaux vocaux réels est limitée par la difficulté de mesurer de façon non-invasive les résonances du conduit vocal en cours de phonation. En s'appuyant sur une technique récente d'impédancemétrie du conduit vocal, nous nous proposons d'analyser les possibilités et les limites des méthodes courantes de filtrage inverse de la parole, et leur application à l’estimation de la source. Pour ce faire, les résonances acoustiques de 22 sujets ont été enregistrées pour 4 voyelles tenues (« hard », « heard », « hoard », « who'd »). Différentes méthodes actuelles de filtrage inverse ont été implémentées: prédiction linéaire, modélisation tout-pôle discrète (DAP), analyse cepstrale. La comparaison entre les valeurs formantiques estimées et les fréquences de résonance mesurées permet de comparer le comportement de ces différentes méthodes sur des signaux réels et de discuster de l'estimation de la source glottique dans la parole et dans le chant.

Grenoble Images Parole Signal Automatique laboratoire

UMR 5216 CNRS - Grenoble INP - Université Grenoble Alpesl