École doctorale : Sciences et Technologies de l'Information et de la Communication
Spécialité : Apprentissage statistique
Structure de rattachement : Autre
Établissement d'origine : ENS Cachan
Financement(s) : autres financements
Date d'entrée en thèse : 01/11/2018
Date de soutenance : 07/10/2021
Composition du jury :
M. Romain COUILLET, Université Grenoble-Alpes, Directeur de thèse
M. Alfred HERO, University of Michigan, Rapporteur
Mme Mylène MAIDA, Université de Lille, Rapporteure
Mme Michèle SEBAG, CNRS / Université Paris-Saclay, Examinatrice
M. Alexandre GRAMFORT, INRIA / Université Paris-Saclay, Examinateur
M. Balazs KEGL, Noah''s Ark Lab, Huawei Research, Examinateur
M. Rémi BARDENET, CNRS / Université de Lille, Examinateur
M. Frédéric PASCAL, CentraleSupélec - Université Paris-Saclay, Co-directeur de thèse
Résumé :
Lapprentissage automatique a permis de résoudre de nombreuses applications du monde réel, allant des tâches supervisées à des tâches non supervisées, grâce au développement dalgorithmes puissants (machine à vecteurs de support, réseaux neuronaux profonds, regroupement spectral, etc). Ces algorithmes sont basés sur des méthodes doptimisation motivées par des intuitions de petites dimensions qui seffondrent en grande dimension, un phénomène connu sous le nom de ``malédiction de la dimensionnalité. Néanmoins, en supposant que la dimension des données et leur nombre sont à la fois grands et comparables, la théorie des matrices aléatoires fournit une approche systématique pour évaluer le comportement (statistique) de ces grands systèmes dapprentissage, afin de bien les comprendre et de les améliorer lorsquils sont appliqués à des données de grande dimension. Les analyses précédentes de la théorie des matrices aléatoires citep{mai2018random,liao2019large,deng2019model} ont montré que les performances asymptotiques de la plupart des méthodes dapprentissage automatique et de traitement du signal ne dépendent que des statistiques de premier et de second ordre (moyennes et matrices de covariance des données). Ceci fait des matrices de covariance des objets extrêmement riches qui doivent être bien traités et compris. La thèse démontre dabord comment un traitement empirique et naïf de la matrice de covariance peut détruire le comportement dalgorithmes dapprentissage automatique en introduisant des biais difficiles à supprimer, alors quune estimation cohérente des fonctionnelles dintérêt en utilisant la théorie des matrices aléatoires évite les biais. Nous montrons ensuite comment les moyennes et les matrices de covariance sont suffisantes (par le biais de fonctionnelles simples) pour traiter le comportement dalgorithmes dintérêt moderne, tels que les méthodes dapprentissage multi-tâches et par transfert.
Abstract:
Machine Learning (ML) has been quite successful to solve many real-world applications going from supervised to unsupervised tasks due to the development of powerful algorithms (Support Vector Machine (SVM), Deep Neural Network, Spectral Clustering, etc). These algorithms are based on optimization schemes motivated by low dimensional intuitions which collapse in high dimension, a phenomenon known as the curse of dimensionality. Nonetheless, by assuming the data dimension and their number to be both large and comparable, Random Matrix Theory (RMT) provides a systematic approach to assess the (statistical) behavior of these large learning systems, to properly understand and improve them when applied to large dimensional data.
Previous random matrix analyses citep{mai2018random,liao2019large,deng2019model} have shown that asymptotic performances of most machine learning and signal processing methods depend only on first and second-order statistics (means and covariance matrices of the data). This makes covariance matrices extremely rich objects that need to be well treated and understood. The thesis demonstrates first how poorly naive covariance matrix processing can destroy machine learning algorithms by introducing biases that are difficult to clean, whereas consistent random-matrix estimation of the functionals of interest avoids biases. We then exemplify how means and covariance matrix statistics of the data are sufficient (through simple functionals) to handle the statistical behavior of even quite involved algorithms of modern interest, such as multi-task and transfer learning methods. The large dimensional analysis allows furthermore for an improvement of multi-task and transfer learning schemes