RoboTrio Afficher en francais Show in English
Recueil, modélisation et évaluation d'interactions sociales entre un robot et des partenaires humains dans une tâche d'interview et de remplissage de formulaire numérique
Collecting, modeling and evaluating social interactions between a robot and human partners in a digital interview and form-filling task.

Transcriptions

 

    Ont été enregistrés : 3 canaux audio, 2 canaux vidéo dédiés à l'apprentissage et l'annotation + la vision stéréo subjective du robot (yeux et têtes mobiles), ainsi que tous les paramètres de mouvement (3 degrés de liberté pour le cou) et d'articulation (6 degrés de liberté pour la mâchoire et les lèvres) du robot. Cela représente plus de 8h d'enregistrement multimodal, qui vont exiger un grand travail d'annotation (semi-automatiques et manuelles).

    Les échanges verbaux de chaque paire de sujets ont été retranscrits en 2019 au LPL :
 Recording #   Duration   Right + Left
 transcriptions 
 Pilot
intents 
 Pilot
speech 
 expe_01    17min 42s    176 +  145      
 expe_02    18min 16s    177 +  149      
 expe_03    17min 54s    111 +  191      
 expe_04    20min 37s    205 +  260      
 expe_05    22min 24s    223 +  241      
 expe_06    25min 17s    249 +  212      
 expe_07    29min 14s    354 +  468      
 expe_08    14min 12s    130 +  157      
 expe_09    20min 43s    156 +  239  206   6min 01s 
 expe_10    25min 09s    282 +  269      
 expe_11    25min 26s    355 +  348      
 expe_12    18min 53s    240 +  287      
 expe_13    18min 22s    110 +  150  239   7min 13s 
 expe_14    17min 09s    227 +  118  226   6min 29s 
 expe_15    22min 11s    249 +  217  241   6min 16s 
 expe_16    20min 46s    203 +  323  237   7min 38s 
 expe_17    25min 44s    279 +  272  269   8min 32s 
 expe_18    21min 47s    141 +  111  265   9min 23s 
 expe_19    22min 22s    336 +  249  306   8min 13s 
 expe_20    23min 58s    235 +  304  294   8min 25s 
 expe_21    23min 11s    214 +  201  271   8min 09s 
 expe_22    25min 21s    303 +  294  280   9min 05s 
 expe_23    26min 38s    166 +  352      
 Total:    8h 40min   10678   2834   1h 25min 

    Les mouvements de tête et les directions de regard ont été analysés au GIPSA-lab avec des modèles de Machine Learning appris spécifiquement. On exploite les 2 vues en caméra fixe pour d'abord apprendre à étiqueter ce qui est vu par le robot, puis faire l'étiquetage semi-automatique du corpus entier, puis générer un modèle (stage de Master de Juliette Rengot) pour la version autonome du robot qui n'utilisera plus que sa vue stéreo embarquée (2x 640x480) pour savoir si un joueur le regarde ou regarde son partenaire de jeu.

    Le synthétiseur de la version autonome du robot utilisera les phrases récoltées sur les 23 expériences, en y substituant les éléments variables (thème en cours, propositions faites par les joueurs, scores obtenus...) La prosodie spécifique à cette tâche pourrait même être modélisée.

    Dans le cadre d'une future thèse, les signaux captés et annotés (perception mais aussi action) pourraient donner lieu à la création d'un modèle de comportement, brique essentielle pour un robot social autonome. Il ne manquera plus qu'un module de perception temps-réel pour pouvoir le tester en vrai grandeur face à des joueurs humains.