Vous êtes ici : GIPSA-lab > Formation > Thèses soutenues
URBAN David

Analyse vidéo monoculaire temps réel de scènes dynamiques pour une application portable de guidage autonome piéton

 

Directeur de thèse :     Alice CAPLIER

École doctorale : Electronique, electrotechnique, automatique, traitement du signal (EEATS)

Spécialité : Signal, image, parole, télécoms

Structure de rattachement : Autre

Établissement d'origine : Université de technologie de Belfort-Montbéliard (UTBM)

Financement(s) : CIFRE

 

Date d'entrée en thèse : 01/05/2018

Date de soutenance : 18/10/2021

 

Composition du jury :

ROMBAUT Michèle, Professeur des universités, Université de Grenoble Alpes
BENOIT Alexandre, Professeur des universités, Polytech Annecy-Chambéry
CHATEAU Thierry, Professeur des universités, Université Clermont Auvergne
CAPLIER Alice, Professeur des universités, Université de Grenoble Alpes
RUBAT Mathieu, Ingénieur, IKOS (Lyon)
CHEN Liming, Professeur des universités, Ecole Centrale Lyon

 

Résumé :
Les tâches complexes de vision par ordinateur telles que la détection d'objets et l'estimation de profondeur monoculaire se popularisent dans les applications temps réel d'analyse vidéo. De plus, des solutions optimisées pour des systèmes embarqués émergent grâce à la tendance actuelle de développement de systèmes de navigation automatiques tels que la conduite de voitures et drones autonomes. Dans le cadre d'un projet d'application de guidage autonome de piéton à l'aide de lunettes connectées comme les Google Glass, nous proposons une étude de faisabilité pour une solution d'analyse vidéo monoculaire de détection d'obstacles et de détection de collision en s'appuyant sur l'information de profondeur monoculaire. L'objectif est de démontrer la faisabilité et l'efficacité d'une solution basée sur l'analyse vidéo par réseau de neurones sur un dispositif portable. Dans l'étude réalisée, le choix des différentes méthodes utilisées s'est appuyé sur leur capacité à se généraliser sur de nouveaux environnements (même contexte, distribution de données différentes) et le compromis entre précision et vitesse de calcul. Parmi les différentes tâches implémentées dans la solution, nous proposons une méthode originale pour prédire le temps de collision entre la caméra et les différents obstacles à partir du flux vidéo monoculaire. La solution proposée se compose de deux modules : un extracteur de données statiques constitué de réseaux de neurones convolutifs pour prédire la position et la distance des obstacles et un extracteur de données dynamiques qui empile les caractéristiques des obstacles extraites sur plusieurs images et prédit le temps de collision avec un réseau de neurone entièrement connecté.
ABSTRACT
Complex computer vision tasks such as object detection and monocular depth estimation are becoming more common in real-time video analysis applications. In addition, optimised solutions for embedded systems are emerging due to the current trend of developing autonomous navigation systems such as autonomous cars and drones. In the context of an applications project for autonomous pedestrian guiding system using smart glasses like Google Glass, we propose a feasibility study for a monocular video analysis solution for obstacle detection and collision prediction relying on monocular depth information. The objective is to demonstrate the feasibility and efficiency of a solution based on neural network video analysis on a wearable device. In the study performed, the choice of the different methods used was based on their ability to generalise to new environments (same context, different data distribution) and the compromise between accuracy and computational speed. Among the different tasks implemented in the solution, we propose an original method to predict the time to collision between the camera and the different obstacles from the monocular video stream. The proposed solution consists of two modules: a static data extractor composed of convolutional neural networks to predict the position and distance of the obstacles and a dynamic data extractor that stacks the extracted obstacle features on several images and predicts the collision time with a fully connected neural network.


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31