Traduit de Furhat Robotics

Un robot social doté d’une articulation visuelle appropriée nous permettra de suspendre notre incrédulité plus longtemps. Bien sûr, nous savons logiquement qu’il s’agit d’une simple machine, mais s’il ressemble et agit de manière cohérente comme un personnage, nous nous laisserons quand même immerger dans une interaction non verbale.

Furhat expression

L’interaction orale en face à face est sans doute la forme la plus fondamentale et la plus efficace de communication humaine, difficile à remplacer par autre chose. Dans le monde d’aujourd’hui, nous pouvons satisfaire un grand nombre de nos besoins en matière de transactions purement informatives à l’aide d’écrans tactiles et de claviers – ou même par la voix. Nous assistons actuellement à une montée en puissance des technologies vocales déployées sur les haut-parleurs intelligents, dans les voitures et sur nos téléphones portables. Les assistants vocaux désincarnés fonctionnent bien pour les courtes requêtes et les interactions de type commande/contrôle, mais dans des scénarios plus complexes ou exigeants (éducation, soins aux personnes âgées, simulation, formation et divertissement), ces interactions vocales simples ne suffiront pas.

De même, il y a certaines conversations que nous préférons avoir en face à face plutôt qu’au téléphone ou par courrier électronique. Dans de nombreux cas, même la vidéo ne suffit pas : nous préférons encore souvent rencontrer quelqu’un en personne, si nous en avons la possibilité. Comment cela se fait-il ? En matière d’information, il est parfaitement possible de tout exprimer sous forme de texte, n’est-ce pas ? La raison principale est bien sûr qu’une grande partie de l’information dans une interaction en face à face est non verbale, c’est-à-dire tout ce que nous n’exprimons pas par des mots mais plutôt par des gestes, des expressions faciales et un regard, une intonation, etc. Ces éléments nous renseignent sur l’attitude, l’émotion et l’attention. Ils aident à réguler la prise de parole dans un dialogue ou dans une conversation de groupe. Ils contribuent à l’engagement, à l’intimité, à l’attention et à la robustesse de l’interaction.

Lorsque de tels indices non verbaux ne sont pas disponibles, nous sommes privés d’une partie du message, ce qui peut entraîner une confusion, voire une rupture de la communication (c’est également la raison pour laquelle nous utilisons des émojis, par exemple pour envoyer des SMS).

Chez Furhat Robotics, notre rêve est de rendre l’interaction avec les robots aussi fluide et sans effort qu’une interaction en face à face bien rythmée avec votre meilleur ami. Cela signifie que les robots doivent être capables de produire tous les indices visuels et spatiaux qui accompagnent la parole (et plus encore).

furhat expression

Mais la communication non verbale n’est pas tout. Il y a encore plus d’informations dans le visage, qui, dans certaines situations, peuvent être carrément cruciales pour la compréhension du contenu parlé. Je parle du mouvement des lèvres. Lorsque les humains parlent, ils bougent leurs lèvres, leur mâchoire et leur langue selon un schéma très complexe et soigneusement orchestré. Il s’agit simplement d’une conséquence inévitable de la façon dont nous produisons la parole. Mais ces mouvements forment également un motif visuel très distinct que l’homme a appris à déchiffrer étonnamment bien. C’est pourquoi nous pouvons facilement repérer s’il y a un décalage entre le son et l’image dans un clip vidéo ou si un film est doublé.

La perception visuelle peut également modifier directement ce que nous entendons réellement : Si la vidéo d’un orateur disant “ga” est associée à un son “ba”, de nombreuses personnes percevront le résultat comme “da”, car le cerveau essaiera de trouver un segment de discours qui corresponde de manière optimale aux perceptions visuelle et auditive. Ce phénomène est connu sous le nom d’effet McGurk et a été décrit dans le célèbre article de 1974 “Hearing Lips and Seeing voices” par Harry McGurk et John MacDonald.

Mais la parole visuelle est plus qu’un simple effet : observer le mouvement des lèvres nous aide en effet à comprendre ce qui est dit. Et non, il n’est pas nécessaire d’être un lecteur de lèvres spécialement formé pour en bénéficier.

S’il est vrai que la lecture labiale “pure” sans son est très difficile, il est également vrai que la plupart des gens comprendront moins bien un message s’ils n’entendent que la voix que s’ils voient aussi le visage, surtout s’ils se trouvent dans un mauvais environnement acoustique.

Et cela se traduit très bien par des visages animés. Dans une expérience, nous avons simulé de telles conditions acoustiques médiocres en dégradant un ensemble de phrases clairement articulées. Nous avons demandé à des personnes de répéter ce qu’elles entendaient et mesuré le nombre de mots qu’elles parvenaient à prononcer correctement, dans plusieurs conditions visuelles :

  • Audio seulement
  • Visage animé sur un écran
  • Vidéo du visage du locuteur réel sur un écran
  • Robot Furhat avec visage animé projeté à l’arrière.

En outre, le visage animé à l’écran et le robot ont été présentés sous deux angles différents : droit (0°) et à 45°, comme on peut le voir dans l’image ci-dessous.

reconnaissance

L’image montre les résultats de l’expérience en termes de précision moyenne (pourcentage de mots correctement reconnus) pour chaque condition. On peut voir que l’intelligibilité audiovisuelle du visage rétro-projeté de Furhat était significativement meilleure que celle de la condition audio seulement ainsi que du visage animé sur écran – elle n’était surpassée que par la vidéo de la personne parlant réellement. (Les différences significatives sont marquées d’un astérisque * dans l’image ci-dessus). Il faut noter que le visage affiché sur l’écran était identique à celui projeté sur le masque en plastique du robot physique.

Les résultats nous ont laissé un peu perplexes au début, mais ils sont en accord avec les conclusions de la littérature récente, qui montrent que les gens ont une réponse comportementale et attitudinale plus forte envers un agent physiquement incarné qu’envers un agent virtuel, ce qui signifie que la présence physique du visage du robot dans le même espace que l’utilisateur joue un rôle important.

Sachant que le fait de voir le mouvement des lèvres aide les gens à comprendre la parole, nous étions curieux de voir si le mouvement d’autres parties du visage pouvait augmenter encore l’intelligibilité du signal vocal. En particulier, nous avons décidé d’étudier si le mouvement des sourcils et de la tête pouvait affecter la perception de la parole provenant d’un visage animé ou d’un robot. Nous avons mené une expérience d’intelligibilité de la parole, où de courtes phrases lues ont été dégradées acoustiquement de la même manière que dans l’expérience précédente. Le discours a été présenté à 12 sujets par l’intermédiaire d’une tête animée faisant des signes de tête et/ou des haussements de sourcils, qui étaient répartis sur l’énoncé d’une manière qui correspondait à la réalisation orale. L’expérience a montré que ces gestes du visage et de la tête augmentaient de manière significative l’intelligibilité de la parole par rapport à l’absence de ces gestes non verbaux ou à leur ajout à des syllabes choisies au hasard. Ce modèle de mouvements (basé sur des syllabes acoustiques importantes) est désormais la méthode par défaut pour générer le mouvement des sourcils pendant la parole dans le robot Furhat.

Quelles sont les implications de ces résultats dans le monde réel ? Eh bien, nous savons qu’il existe de nombreuses applications potentielles des robots sociaux dans des environnements bruyants : écoles, centres commerciaux, aéroports et gares, pour n’en citer que quelques-unes, où la possibilité de voir les lèvres peut faire une différence tangible.

Mais peut-être plus important encore, étant donné notre sensibilité aux mouvements des lèvres en relation avec la parole : Un robot avec une articulation visuelle correcte nous permettra de suspendre notre incrédulité pour un peu plus longtemps. Oui, bien sûr, nous savons logiquement qu’il s’agit d’une simple machine, mais s’il ressemble et agit de manière cohérente comme un personnage, nous pouvons encore nous laisser emporter pour un moment et nous engager dans une interaction non verbale, à un niveau dépassant les transactions d’informations factuelles. Après tout, c’est l’essence même de la robotique sociale.