Vous êtes ici : GIPSA-lab > Formation > Thèses soutenues
Chargement
CHAN WAI TIM Stefen

Apprentissage supervisé d’une représentation multicouche à base de dictionnaires pour la classification d’images et de vidéos

 

Directeur de thèse :     Michèle ROMBAUT

École doctorale : Electronique, electrotechnique, automatique, traitement du signal (eeats)

Spécialité : Signal, image, parole, télécoms

Structure de rattachement : Grenoble-INP

Établissement d'origine :

Financement(s) : Contrat doctoral

 

Date d'entrée en thèse : 01/10/2013

Date de soutenance : 17/11/2016

 

Composition du jury :
Stéphane CANU, INSA Rouen, Rapporteur
Nicolas THOME, Université Paris VI, Rapporteur
Atilla BASKURT, Université de Lyon, Examinateur
Michèle ROMBAUT, Université Grenoble Alpes, Directeur de thèse
Denis PELLERIN, Université Grenoble Alpes, Codirecteur de thèse

 

Résumé : Ces dernières années, de nombreux travaux ont été publiés sur l’encodage parcimonieux et l’apprentissage de dictionnaires. Leur utilisation s’est initialement développée dans des applications de reconstruction et de restauration d’images. Plus récemment, des recherches ont été réalisées sur l’utilisation des dictionnaires pour des tâches de classification en raison de la capacité de ces méthodes à chercher des motifs sous-jacents dans les images et de bons résultats ont été obtenus dans certaines conditions : objet d’intérêt centré, de même taille, même point de vue. Cependant, hors de ce cadre restrictif, les résultats sont plus mitigés. Dans cette thèse, nous nous intéressons à la recherche de dictionnaires adaptés à la classification. Les méthodes d’apprentissage classiquement utilisées pour les dictionnaires s’appuient sur des algorithmes d’apprentissage non supervisé. Nous allons étudier ici un moyen d’effectuer l’apprentissage de dictionnaires de manière supervisée. Dans l’objectif de pousser encore plus loin le caractère discriminant des codes obtenus par les dictionnaires proposés, nous introduisons également une architecture multicouche de dictionnaires. L’architecture proposée s’appuie sur la description locale d’une image en entrée et sa transformation grâce à une succession d’encodage et de traitements. Elle fournit ensuite en sortie un ensemble de descripteurs adaptés à la classification. La méthode d’apprentissage que nous avons développé est basée sur l’algorithme de rétro-propagation du gradient permettant un apprentissage coordonné des différents dictionnaires et une optimisation uniquement par rapport à un coût de classification. L'architecture proposée a été testée sur les bases de données d'images MNIST, CIFAR-10 et STL-10 avec de bons résultats par rapport aux autres méthodes basées sur l'utilisation de dictionnaires. Le cadre proposé peut être étendu à l’analyse de vidéos.


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31