Vous êtes ici : GIPSA-lab > Formation > Thèses soutenues
Chargement
NAHORNA Olha

Mise en évidence et caractérisation d'un processus de liage audiovisuel préalable à la fusion

 

Directeur de thèse :     Jean-Luc SCHWARTZ

Co-directeur de thèse :     Frédéric BERTHOMMIER

École doctorale : Ingénierie pour la santé, la cognition et l''environnement (edisce)

Spécialité : Ingénierie de la Cognition, de l'interaction, de l'Apprentissage et de la Création (CIA)

Structure de rattachement : Université de Grenoble

Établissement d'origine : INPG

Financement(s) : contrat à durée déterminée ; contrat à durée déterminée ; contrat à durée déterminée

 

Date d'entrée en thèse : 01/09/2009

Date de soutenance : 02/10/2013

 

Composition du jury :
Mme Cécile Colin, Assistante professeur à l''Université de Bruxelles (Rapporteur)
Mme Virginie van Wassenhove, Chercheuse CEA, HDR (Rapporteur)
Mme Sonia Kandel, Professeur UPMF (Examinatrice)
Mr Daniel Pressnitzer, DR CNRS Paris (Examinateur)
Mr Jean-Luc Schwartz, DR CNRS Grenoble (Directeur de thèse)
Mr Frédéric Berthommier, CR CNRS Grenoble (Co-directeur de thèse)

 

Résumé : Dans la parole audiovisuelle, les flux auditifs et visuels cohérents sont généralement fusionnés en un percept unifié. Il en résulte une meilleure intelligibilité dans le bruit, et cela peut induire une modification visuelle du percept auditif dans le célèbre « effet McGurk » (le montage d'un son « ba » avec une image d'un locuteur prononçant « da » est souvent perçu comme « da »). La vision classique considère que le traitement est effectué indépendamment dans les systèmes auditif et visuel avant que l'interaction ne se produise à un certain niveau de représentation, ce qui résulte en un percept intégré. Cependant certaines données comportementales et neurophysiologiques suggèrent l'existence d'un processus à deux niveaux. Le premier niveau implique le liage des éléments d'information auditive et visuelle appropriés avant de donner naissance à un percept fusionné au second niveau. Pour démontrer l'existence de ce premier niveau, nous avons élaboré un paradigme original qui vise à tenter de « délier » ces deux flux. Notre paradigme consiste à faire précéder l'effet McGurk (indicateur de la fusion audiovisuelle) par un contexte soit cohérent soit incohérent. Dans le cas du contexte incohérent on observe une diminution significative de perception d'effet McGurk, donc une décroissance de la fusion audiovisuelle. Les différent types d'incohérence (syllabes acoustiques superposées à des phrases visuelles, modifications phonétiques ou temporelles du contenu acoustique de séquences régulières de syllabes audiovisuelles) peuvent réduire significativement l'effet McGurk. Le processus de déliage est rapide, une unique syllabe incohérente suffisant pour obtenir un résultat de déliage maximal. Par contre le processus inverse de « reliage » par un contexte cohérent suivant le déliage est progressif, puisqu'il apparaît qu'au minimum trois syllabes cohérentes sont nécessaires. Nous pouvons également geler le sujet dans son état délié en rajoutant une pause entre un contexte incohérent et l'effet McGurk. Au total 7 expériences ont été effectuées pour démontrer et décrire le processus de liage dans la parole audiovisuelle. Les données sont interprétées dans le cadre du modèle à deux niveaux « liage et fusion ».


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31