Vous êtes ici : GIPSA-lab > Formation > Thèses soutenues
Chargement
ATTIGODU Ganesh

” Characterization of Audiovisual Binding and Fusion in the Framework of Audiovisual Speech Scene Analysis”

 

Directeur de thèse :     Jean-Luc SCHWARTZ

Co-encadrant :     Frédéric BERTHOMMIER

École doctorale : Ingénierie pour la santé, la cognition et l''environnement (edisce)

Spécialité : Sciences Cognitives, psychologie et Neurocognition

Structure de rattachement : Grenoble-INP

Établissement d'origine :

Financement(s) : contrat à durée déterminée

 

Date d'entrée en thèse : 01/10/2012

Date de soutenance : 29/02/2016

 

Composition du jury :
Mr Salvador SOTO-FARACO Professeur, Université Pompeu Fabra, Barcelone(Rapporteur)
Mr Nicolas GRIMAULT Chargé de Recherches CNRS, CRNL Lyon (Rapporteur)
Mr Luc H ARNAL Chercheur, Université de Genève (Examinateur)
Mme Anne GUERIN-DUGUE Professeur Université Grenoble Alpes, GIPSA-Lab (Examinatrice)
Mr Jean-Luc SCHWARTZ Directeur de Recherches CNRS, GIPSA-Lab (Directeur de thèse)
Mr Frédéric BERTHOMMIER Chargé de Recherches CNRS, GIPSA-Lab (Co-directeur de thèse)

 

Résumé : Cette thèse porte sur l'intégration de deux concepts : l'Analyse de Scènes Auditives (ASA) et la fusion audiovisuelle (AV) en perception de parole. Nous introduisons ”l'Analyse de Scènes de Parole Audio Visuelles” (AVSSA) comme une extension du modèle à deux étages caractéristique de l'ASA vers des scènes audiovisuelles et nous proposons qu’un indice de cohérence entre modalités auditive et visuelle est calculé avant la fusion AV, ce qui permet de déterminer si les entrées sensorielles doivent être cognitivement liées : c'est le « modèle à deux étages » de la fusion AV. Des expériences antérieures sur la modulation de l’effet McGurk par des contextes AV cohérents vs. incohérents présentés avant la cible McGurk ont permis de valider le modèle à deux étages. Dans ce travail de thèse, nous étudions le processus AVSSA au sein de l’architecture à deux étages dans différentes dimensions telles que l’introduction de bruit, le mélange de sources AV, la recherche de corrélats neurophysiologiques et l'évaluation sur différentes populations. Une première série d’expériences chez les jeunes adultes a permis la caractérisation du mécanisme de liage AV en introduisant du bruit et les résultats ont montré que les participants étaient en mesure d’évaluer à la fois le niveau de bruit acoustique et la cohérence AV et de contrôler la fusion AV en conséquence. Dans une deuxième série d’expériences comportementales impliquant une compétition entre sources AV, nous avons montré que l'AVSSA permet d’évaluer la cohérence entre caractéristiques visuelles et auditives dans une scène complexe, afin d’associer les composants adéquats d’une source de parole AV donné, et de fournir pour le processus de fusion une évaluation de la cohérence de la source AV extraite. Il apparaît également que la fusion dépend du focus attentionnel sur une source ou l’autre. Puis une expérience EEG a cherché à mettre en évidence un marqueur neurophysiologique du processus de liage-déliage et a montré qu'un contexte AV incohérent peut moduler l’effet de l’entrée visuelle sur la composante N1 / P2. Une dernière série d’expériences a été axée sur l'évaluation du liage AV et de sa dynamique dans une population âgée, et a fourni des résultats similaires à ceux des adultes plus jeunes mais avec une plus grande dynamique de déliage. L’ensemble des résultats a permis de mieux caractériser le processus AVSSA et a été intégré dans la proposition d’une architecture neurocognitive améliorée pour la fusion AV dans la perception de la parole.


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31