Vous êtes ici : GIPSA-lab > Recherche > Projets
  

RoboTrio - Recueil, modélisation et évaluation d interactions sociales entre un robot et des partenaires humains dans une tâche d’interview et de remplissage de formulaire numérique

Coordonnateur du projet : Frédéric ELISEI

Projet réalisé grace au soutien de : CNRS - PEPS

Date du projet : 20/02/2018

Durée : 22 mois


Objet

    Recueil, modélisation et évaluation d’interactions sociales entre un robot et des partenaires humains dans une tâche d’interview et de remplissage de formulaire numérique.

    Le robot Nina, et un formulaire en cours de saisie

     

Méthodologie

    Ce projet est ancré sur la conception et l’étude d’une interaction sociale entre un robot « intervieweur » et deux interlocuteurs humains, dans des tâches de collecte et partage d’informations (remplissage de formulaire par le robot, obtention de renseignements pour les humains).

    Il exploitera une plateforme existante de télé-opération immersive d’un robot, pour collecter des données d’interactions entre robot et interlocuteurs (étape 1) : parole, regards, tours de parole, backchannels, avec un robot humanoïde complexe (lèvres, mâchoire, tête et regard articulés). Ce corpus original permettra d’étudier et modéliser ce type d’interactions dans les domaines de prédilection respectifs : parole et langage au LPL, signaux co-verbaux au GIPSA, aspects physiologiques/cognitifs à l’INT. Coté synthèse (étape 2), l’accent sera mis sur les signaux co-verbaux : regard du robot (ou d’agent conversationnel) et direction de la tête. L’évaluation (étape 3) comparera 2 paradigmes de validation : jugement vidéo en ligne et signaux électrodermaux.

     

Partenaires

  • INT, Marseille : Thierry Chaminade
  • LPL, Aix : Laurent Prévot & Noël Nguyen
  • GIPSA-lab, Grenoble : Frédéric Elisei & Gérard Bailly

 

Vidéos

  • Sans le robot, illustration du scénario d'interview : l'animateur/arbitre humain (face caméra) orchestre les questions face aux deux interlocuteurs, les aide, et recueille les réponses : pretest_20180620_00009_short.avi
  • Avec le robot : collecte des données d'interaction (3 pistes audio, 2 canaux vidéo, 1 vidéo stéréo du point de vue du pilote dans la tête du robot avec réalité augmentée et capture du point de regard...) en mode téléopération immersive :
    montage_09_kermesse.mp4

 

Le corpus

    Le corpus a été enregistré en 2018 (stage de M1 de Nathan Loudjani). Il est constitué de 23 enregistrements, où le robot téléopéré par la même personne (pilote) interagit à chaque fois avec 2 joueurs humains différents.
 

    Ont été enregistrés : 3 canaux audio, 2 canaux vidéo dédiés à l'apprentissage et l'annotation + la vision stéréo subjective du robot (yeux et têtes mobiles), ainsi que tous les paramètres de mouvement (3 degrés de liberté pour le cou) et d'articulation (6 degrés de liberté pour la mâchoire et les lèvres) du robot. Cela représente plus de 8h d'enregistrement multimodal, qui vont exiger un grand travail d'annotation (semi-automatiques et manuelles).

    Les échanges verbaux de chaque paire de sujets ont été retranscrits en 2019 au LPL :
 Recording #   Duration   Right + Left
 transcriptions 
 expe_01    17min 42s    176 +  145
 expe_02    18min 16s    177 +  149
 expe_03    17min 54s    111 +  191
 expe_04    20min 37s    205 +  260
 expe_05    22min 24s    223 +  241
 expe_06    25min 17s    249 +  212
 expe_07    29min 14s    354 +  468
 expe_08    14min 12s    130 +  157
 expe_09    20min 43s    156 +  239
 expe_10    25min 09s    282 +  269
 expe_11    25min 26s    355 +  348
 expe_12    18min 53s    240 +  287
 expe_13    18min 22s    110 +  150
 expe_14    17min 09s    227 +  118
 expe_15    22min 11s    249 +  217
 expe_16    20min 46s    203 +  323
 expe_17    25min 44s    279 +  272
 expe_18    21min 47s    141 +  111
 expe_19    22min 22s    336 +  249
 expe_20    23min 58s    235 +  304
 expe_21    23min 11s    214 +  201
 expe_22    25min 21s    303 +  294
 expe_23    26min 38s    166 +  352
 Total:    8h 23min   10678

    Les mouvements de tête et les directions de regard ont été analysés au GIPSA-lab avec des modèles de Machine Learning appris spécifiquement. On exploite les 2 vues en caméra fixe pour d'abord apprendre à étiqueter ce qui est vu par le robot, puis faire l'étiquetage semi-automatique du corpus entier, puis générer un modèle (stage de Master de Juliette Rengot) pour la version autonome du robot qui n'utilisera plus que sa vue stéreo embarquée (2x 640x480) pour savoir si un joueur le regarde ou regarde son partenaire de jeu.

    Le synthétiseur de la version autonome du robot utilisera les phrases récoltées sur les 23 expériences, en y substituant les éléments variables (thème en cours, propositions faites par les joueurs, scores obtenus...) La prosodie spécifique à cette tâche pourrait même être modélisée.

    Dans le cadre d'une future thèse, les signaux captés et annotés (perception mais aussi action) pourrait donner lieu à la création d'un modèle de comportement, brique essentielle pour un robot social autonome. Il ne manquera plus qu'un module de perception temps-réel pour pouvoir le tester en vrai grandeur face à des joueurs humains.


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31