Vous êtes ici : GIPSA-lab > Formation > Thèses soutenues
GRUMIAUX Pierre-Amaury

Deep learning pour le comptage et la localisation de sources de parole avec des signaux ambisoniques

 

Directeur de thèse :     Laurent GIRIN

École doctorale : Electronique, electrotechnique, automatique, traitement du signal (EEATS)

Spécialité : Signal, image, parole, télécoms

Structure de rattachement : Autre

Établissement d'origine : Université Paris VI

Financement(s) : CIFRE

 

Date d'entrée en thèse : 01/10/2018

Date de soutenance : 15/12/2021

 

Composition du jury :

Sharon GANNOT, Full Professor, Bar-Ilan University, Israël, Rapporteur
Alexey OZEROV, Ingénieur de Recherche, InterDigital, France, Rapporteur
Christine EVERS, Lecturer, University of Southampton, Royaume-Uni, Examinatrice
Roland BADEAU, Professeur, Télécom ParisTech, Examinateur
Romain SERIZEL, Maître de Conférences, Université de Lorraine, Examinateur
Laurent GIRIN, Professeur, Univ. Grenoble Alpes, Grenoble-INP, GIPSA-lab, Directeur de thèse
Srđan KITIĆ, Ingénieur de Recherche, Orange Labs, Co-encadrant de thèse, Invité
Alexandre GUÉRIN, Ingénieur de Recherche, Orange Labs, Co-encadrant de thèse, Invité

 

Résumé :
ABSTRACT
Sound source localization (SSL) is a subtask of audio scene analysis that has challenged researchers for more than four decades. Traditional methods (e.g., MUSIC or GCC-PHAT) impose strong assumptions on the sound propagation, number of active sources and/or signal content, which makes them vulnerable to adverse acoustic phenomena, such as reverberation and noise. Recently, data-driven models – and particularly deep neural networks – have shown increased robustness in noisy and reverberant environments. However, their performance is still seriously degraded in the presence of multiple sound sources, especially when their number is unknown. Moreover, source detection and localization in real-life use-cases, where the latency is an important criterion, is still an open research problem. In this thesis, we focus on speaker detection and localisation in office/domestic indoor environments, using multichannel Ambisonics recordings, with the emphasis on low-latency performance. First, we propose to use deep neural networks (DNNs) to estimate the number of speakers (NoS) in a multichannel mixture. We propose a model that is capable to count up to five speakers, with a relatively high accuracy, at the short-term-frame resolution. We also provide a performance analysis of this model depending on several hyperparameters, which gives interesting insights on its behavior. Second, we explore the capabilities of a multichannel audio signal representation called time-domain velocity vector (TDVV), akin to relative impulse response in the present spherical harmonics domain, as a novel type of input features of DNNs for detection/localization tasks. Next, we address multi-speaker localization, by first improving upon a state-of-the-art convolutional recurrent neural network (CRNN) with a substantial gain in accuracy. We also examine the potential of self-attention-based neural networks for multi-speaker localization, as these models are known to be suitable for other audio processing tasks due to their capability to capture both short- and long-term dependencies in the input signal. Furthermore, we investigate the use of the estimated NoS, provided by our speaker counting neural network, to improve our speaker localization CRNN. We show experimentally that using the estimated NoS leads to more robust multi-speaker localization than the classical threshold-based direction of arrival (DoA) estimation. Moreover, we show the interest of injecting the NoS information as an additional input feature for the localization neural network. Finally, we explore multi-task neural architectures to estimate both the NoS and speaker DoAs at the same time.
RÉSUMÉ
La localisation de sources sonores est une sous-tâche de l'analyse de scènes sonores qui a défié les chercheurs pendant plus de quatre décennies. Les méthodes traditionnelles (e.g., MUSIC ou GCC-PHAT) imposent des hypothèses fortes sur la propagation du son, le nombre de sources actives et/ou le contenu du signal, ce qui les rend vulnérables à des phénomènes acoustiques adverses tels que la réverbération ou le bruit. Récemment, les méthodes basées sur les données – et particulièrement les réseaux de neurones profonds – ont montré une plus grande robustesse dans les environnements réverbérants et bruités. Cependant, leur performance est toujours sensiblement dégradée en présence de plusieurs sources sonores, notamment quand leur nombre est inconnu. De plus, la détection et la localisation de sources pour des usages pratiques, où la latence joue un rôle important, est toujours un sujet de recherche ouvert. Dans cette thèse, nous nous intéressons à la détection et à la localisation de locuteurs dans des environnements domestiques, en utilisant des enregistrements ambisoniques multicanaux, avec un accent sur une performance à basse latence. Tout d'abord, nous proposons d'utiliser des réseaux de neurones profonds (DNN, pour deep neural network) pour estimer le nombre de locuteurs (NoS, number of sources) dans un mélange multicanal. Notre modèle est capable de compter jusqu'à cinq locuteurs, avec une précision relativement grande, pour une résolution à la trame. Nous proposons également une analyse de la performance du modèle en fonction de certains hyperparamètres, ce qui fournit des informations intéressantes sur son comportement. Ensuite, nous explorons les capacités d'une représentation d'un signal audio multicanal appelée vecteur vélocité dans le domaine temporel (TDVV, time-domain velocity vector), qui est analogue à la réponse impulsionnelle relative dans le domaine des harmoniques sphériques, en tant que nouvelle représentation d'entrée de DNNs pour la localisation/détection. Par la suite, nous nous penchons sur la localisation de plusieurs locuteurs en commençant par améliorer un réseau de neurones convolutif et récurrent (CRNN, convolutional recurrent neural network) de l'état de l'art avec un gain important en précision. Puis nous examinons le potentiel des mécanismes de self-attention pour la localisation de plusieurs locuteurs, alors que ces modèles sont connus pour être adaptés à d'autres tâches de traitement audio étant donnée leur capacité à capter les dépendances à court et long terme dans le signal d'entrée. En outre, nous investiguons l'utilisation du NoS estimé, fourni par notre réseau de neurones de comptage, pour améliorer le CRNN de localisation. Nous montrons expérimentalement qu'utiliser le NoS estimé donne plus de robustesse à la localisation multi-locuteur que la méthode de seuillage classiquement utilisée dans l'estimation de direction d'arrivée (DoA, direction of arrival). De plus, nous montrons l'intérêt d'injecter l'information du NoS en tant qu'entrée additionnelle pour le réseau de neurones de localisation. Finalement, nous explorons les architectures neuronales multi-tâches pour estimer le NoS et la DoA des locuteurs dans le même temps.


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31