Directory Intranet
Chargement
TIOMOKO Malik

Méthodes avancées de la théorie des matrices aléatoires pour l’apprentissage automatique

 

École doctorale : Sciences et Technologies de l'Information et de la Communication

Spécialité : Apprentissage statistique

Structure de rattachement : Autre

Établissement d'origine : ENS Cachan

Financement(s) : autres financements

 

Date d'entrée en thèse : 01/11/2018

Date de soutenance : 07/10/2021

 

Composition du jury :
M. Romain COUILLET, Université Grenoble-Alpes, Directeur de thèse
M. Alfred HERO, University of Michigan, Rapporteur
Mme Mylène MAIDA, Université de Lille, Rapporteure
Mme Michèle SEBAG, CNRS / Université Paris-Saclay, Examinatrice
M. Alexandre GRAMFORT, INRIA / Université Paris-Saclay, Examinateur
M. Balazs KEGL, Noah''s Ark Lab, Huawei Research, Examinateur
M. Rémi BARDENET, CNRS / Université de Lille, Examinateur
M. Frédéric PASCAL, CentraleSupélec - Université Paris-Saclay, Co-directeur de thèse

 

Résumé :
L’apprentissage automatique a permis de résoudre de nombreuses applications du monde réel, allant des tâches supervisées à des tâches non supervisées, grâce au développement d’algorithmes puissants (machine à vecteurs de support, réseaux neuronaux profonds, regroupement spectral, etc). Ces algorithmes sont basés sur des méthodes d’optimisation motivées par des intuitions de petites dimensions qui s’effondrent en grande dimension, un phénomène connu sous le nom de ``malédiction de la dimensionnalité’’. Néanmoins, en supposant que la dimension des données et leur nombre sont à la fois grands et comparables, la théorie des matrices aléatoires fournit une approche systématique pour évaluer le comportement (statistique) de ces grands systèmes d’apprentissage, afin de bien les comprendre et de les améliorer lorsqu’ils sont appliqués à des données de grande dimension. Les analyses précédentes de la théorie des matrices aléatoires citep{mai2018random,liao2019large,deng2019model} ont montré que les performances asymptotiques de la plupart des méthodes d’apprentissage automatique et de traitement du signal ne dépendent que des statistiques de premier et de second ordre (moyennes et matrices de covariance des données). Ceci fait des matrices de covariance des objets extrêmement riches qui doivent être ”bien traités et compris’’. La thèse démontre d’abord comment un traitement empirique et naïf de la matrice de covariance peut détruire le comportement d’algorithmes d’apprentissage automatique en introduisant des biais difficiles à supprimer, alors qu’une estimation cohérente des fonctionnelles d’intérêt en utilisant la théorie des matrices aléatoires évite les biais. Nous montrons ensuite comment les moyennes et les matrices de covariance sont suffisantes (par le biais de fonctionnelles simples) pour traiter le comportement d’algorithmes d’intérêt moderne, tels que les méthodes d’apprentissage multi-tâches et par transfert.
Abstract:
Machine Learning (ML) has been quite successful to solve many real-world applications going from supervised to unsupervised tasks due to the development of powerful algorithms (Support Vector Machine (SVM), Deep Neural Network, Spectral Clustering, etc). These algorithms are based on optimization schemes motivated by low dimensional intuitions which collapse in high dimension, a phenomenon known as the ”curse of dimensionality’’. Nonetheless, by assuming the data dimension and their number to be both large and comparable, Random Matrix Theory (RMT) provides a systematic approach to assess the (statistical) behavior of these large learning systems, to properly understand and improve them when applied to large dimensional data.
Previous random matrix analyses citep{mai2018random,liao2019large,deng2019model} have shown that asymptotic performances of most machine learning and signal processing methods depend only on first and second-order statistics (means and covariance matrices of the data). This makes covariance matrices extremely rich objects that need to be ”well treated and understood”. The thesis demonstrates first how poorly naive covariance matrix processing can destroy machine learning algorithms by introducing biases that are difficult to clean, whereas consistent random-matrix estimation of the functionals of interest avoids biases. We then exemplify how means and covariance matrix statistics of the data are sufficient (through simple functionals) to handle the statistical behavior of even quite involved algorithms of modern interest, such as multi-task and transfer learning methods. The large dimensional analysis allows furthermore for an improvement of multi-task and transfer learning schemes


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31