Outil de communication et instrument musical, la voix est un sujet d'étude complexe sur lequel nous avons encore beaucoup à découvrir. Cette complexité provient en partie du fait que l'instrument vocal fait partie intégrante de l'humain, et qu'il n'est pas asiément accessible sans perturbation.
Il existe à l'heure actuelle un ensemble de méthodes expérimentales plus ou moins invasives qui nous permettent de caractériser le geste phonatoire et le mouvement articulatoire au cours de la phonation. Je m'intéresse ici en particulier à des techniques directes d'imagerie (transillumination strobophotoglottographique, cinématographie ultra-rapide, IRM), de mesure acoustique (impédancemétrie aux lèvres du conduit vocal), ainsi que des techniques indirectes de mesure ou d'estimation du mouvement vibratoire glottique et de la fonction de transfert du conduit vocal. Les travaux de recherche portant sur ces différentes techniques sont ici synthétisés.
1. Caractérisation physiologique du mouvement vibratoire glottique
Coll. Christophe
d'Alessandro, Michèle Castellengo, Boris Doval
L'électroglottographie (EGG) est une
technique expérimentale indirecte et non-invasive de mesure
du contact entre les cordes vocales lors de la phonation. Elle
renseigne sur la mise en vibration des cordes vocales lors de la
phonation, et sur les phases d’ouverture et de fermeture
glottique (Childers and Krishnamurthy, 1985, Colton and Conture, 1990,
Orlikoff, 1998). La dérivée d’un signal
électroglottographique (DEGG) met en avant des variations
rapides de contact, qui se traduisent sur ces signaux par des pics plus
ou moins marqués. Ces pics peuvent être uniques et
bien marqués, et ils correspondent alors aux instants
d’ouverture et de fermeture glottique, traditionnellement
définie comme les instants d’initiation et de
terminaison des variations rapides de débit glottique au
cours d’une période de vibration. La
détection de ces pics permet alors une mesure
précise de la fréquence fondamentale de vibration
des cordes vocales et du quotient ouvert, défini comme le
rapport entre la durée de la phase ouverte et la
période d’un cycle glottique (Henrich et al.,
2004).
Coll. équipe du Pr. Hess (Department of Phoniatrics and Pedaudiology, University Hospital Eppendorf, Hambourg, Allemagne)
Dans ce projet, nous nous sommes intéressés à une technique très récente de visualisation de l’ouverture glottique, la transillumination strobophotoglottographique (Hess and Ludwigs, 2000). Dans cette technique de visualisation directe, la glotte est éclairée par le dessous à l’aide d’une source de lumière blanche placée sur le cou du patient, et le mouvement glottique est visualisé par le dessus à l’aide d’un endoscope rigide. A l'aide de cette technique, nous avons visualisé le mouvement vibratoire glottique dans les quatre mécanismes laryngés chez un locuteur. Nous avons testé la portabilité de cette technique de visualisation à la cinématographie ultra-rapide et la reconstruction du mouvement d’ouverture sur l’épaisseur des cordes vocales par transillumination. Malgré des premiers résultats encourageants, qui montraient que la technique pouvait se transposer à la cinématographie ultra-rapide, nous avons rencontré des difficultés expérimentales portant sur l’illumination non-homogène de la glotte, qui ne permettaient pas de visualiser l’intégralité de l’ouverture glottique.
Coll. Cédric Gendrot (ILPGA, Paris 3), équipe du Pr. Hess (Department of Phoniatrics and Pedaudiology, University Hospital Eppendorf, Hambourg, Allemagne)
Dans de nombreuses situations, les pics liés aux
variations rapides de contact observés sur la
dérivée d'un signal
électroglottographique présentent des
particularités : dédoublement
à l’ouverture ou à la fermeture,
multiplicité ou imprécision du pic à
l’ouverture (Henrich et al., 2004a). Ces
particularités sont dépendantes du locuteur ou du
chanteur, et elles peuvent apparaître lors des
phénomènes de transition entre
mécanismes laryngés. Une observation
préliminaire faite sur un cas de dédoublement
à la fermeture montre que ces particularités
pourraient être liées à des
modifications du mouvement d’accolement et de
décollement des cordes vocales (Henrich et al., 2004a). Pour
explorer plus en détail ces
phénomènes, nous avons eu recours à
une technique récente de visualisation de
l’ouverture glottique, la cinématographie
ultra-rapide. La vitesse d'acquisition des images de la
caméra utilisée (2000 à 4000
images/seconde) permet d’obtenir une visualisation fine du
mouvement vibratoire des cordes vocales au niveau de la
période de vibration. Son principal inconvénient
est le caractère expérimental très
invasif, puisqu’un endoscope rigide est introduit dans la
bouche du sujet, ne lui permettant de produire que quelques voyelles.
L’objectif de ce projet étant d’analyser
les phénomènes particuliers observés
sur la dérivée des signaux
électroglottographiques, nous avons enregistré
simultanément le mouvement des cordes vocales par
cinématographie ultra-rapide et les variations du contact
glottique par électroglottographie, dans le cas
d’un locuteur et d’un chanteur pour des productions
vocales parlées et chantées (variation de
hauteur, d’intensité, de mécanisme
laryngé, de qualité vocale). Dans un premier
temps, nous nous sommes intéressés à
observer qualitativement le mouvement glottique dans le cas du
mécanisme 0, dans le cas de dédoublements des
pics à l’ouverture et à la fermeture
glottique, ainsi que pour une variation de qualité vocale
(relâchée / tendue) et une transition entre
mécanimes laryngés. Des méthodes de
détection de l’aire glottique et du contact le
long des cordes vocales par analyse numérique des images
cinématographiques ont été
développées, afin de pouvoir quantifier la
relation entre les instants d’occurrence des pics sur le
signal DEGG et des événements particuliers du
mouvement vibratoire des cordes vocales.
Coll. Christophe d'Alessandro (LIMSI), Yannis Stylianou (Computer Science Dept., Univ of Crete, Heraklion, Greece)
2. Caractérisation acoustique du conduit vocal
Coll. B. Doval, Nicolas Sturmel (LIMSI, Orsay)
Les méthodes courantes de filtrage inverse sont généralement évaluées et validées sur des signaux synthétiques, mais leur évaluation sur des signaux vocaux réels est limitée par la difficulté de mesurer de façon non-invasive les résonances du conduit vocal en cours de phonation. En s'appuyant sur une technique récente d'impédancemétrie du conduit vocal, nous nous proposons d'analyser les possibilités et les limites des méthodes courantes de filtrage inverse de la parole, et leur application à l’estimation de la source. Pour ce faire, les résonances acoustiques de 22 sujets ont été enregistrées pour 4 voyelles tenues (« hard », « heard », « hoard », « who'd »). Différentes méthodes actuelles de filtrage inverse ont été implémentées: prédiction linéaire, modélisation tout-pôle discrète (DAP), analyse cepstrale. La comparaison entre les valeurs formantiques estimées et les fréquences de résonance mesurées permet de comparer le comportement de ces différentes méthodes sur des signaux réels et de discuster de l'estimation de la source glottique dans la parole et dans le chant.
Grenoble Images Parole Signal Automatique laboratoire
UMR 5216 CNRS - Grenoble INP - Université Grenoble Alpesl