Traduit de Furhat Robotics

Découvrez les quatres raisons qui démontre la puissance des robots sociaux face aux Chatbots et aux avatars

Nous vivons dans un monde où presque tout le monde possède un smartphone avec suffisamment de puissance de traitement et de pixels pour afficher un avatar numérique de haute qualité. La plupart de ces téléphones ont également des assistants vocaux intégrés, et les enceintes intelligentes sont de plus en plus courantes dans les foyers comme dans les bureaux.

Alors pourquoi avons-nous besoin de robots ? Est-il vraiment plus facile d’interagir avec quelque chose qui a une présence physique ? Et si oui, pourquoi ? Découvrez la réponse dans cette article.

Fondamentalement, il s’agit de l’expérience de l’utilisateur.

La différence entre l’utilisation d’un stylo et d’un papier, d’un clavier et d’une souris, d’un écran tactile, d’un haut-parleur intelligent, d’un personnage animé, de la RV, de la RA ou d’un robot social réside dans l’expérience utilisateur. Nous pouvons probablement exprimer n’importe quelle « information » par le biais de n’importe lequel des supports ci-dessus, mais chacun d’entre eux présente ses propres avantages dans la manière dont il s’engage avec nous dans différentes tâches. Et il existe de multiples éléments d’interactions humaines normales qu’un assistant vocal ou un chatbot ne peut tout simplement pas transmettre.

Puissance robot social

L’importance de la coprésence

Mais pourquoi ? Qu’y a-t-il dans un robot social qui le rende tellement plus attrayant, qui donne à l’interaction un caractère tellement plus naturel ?

Commençons par explorer le concept de coprésence. La co-présence est l’effet de partager la même expérience avec une autre personne parce qu’elle se trouve dans le même espace physique. Les relations reposent sur des expériences partagées et, tout au long de l’évolution humaine, nous avons toujours été “coprésents” les uns avec les autres, jusqu’à ce que des avancées technologiques relativement récentes, telles que la radio, la télévision, les téléphones et l’internet, nous permettent de communiquer entre nous à distance.

Nous sommes “conçus” pour interagir avec des personnes qui partagent le même espace que nous. C’est pourquoi il nous est plus facile de faire confiance aux gens ou d’établir un lien émotionnel avec eux lorsque nous les voyons en personne, plutôt que de leur parler au téléphone ou par Skype.

La co-présence rend les interactions plus naturelles. Après tout, c’est ainsi que les humains sont faits pour interagir.

Si vous avez déjà essayé un jeu de lunettes VR, vous avez pu constater à quel point la technologie immersive peut recréer ce sentiment. Une bonne expérience de RV prend le contrôle de nos sens et nous devenons co-présents avec ce qui vit dans cet espace virtuel – ce qui nous aide à nous engager avec le contenu à un niveau beaucoup plus profond.

La même chose se produit lorsque l’on interagit avec un robot Furhat – sauf que cela se passe dans le monde réel, ce qui rend l’expérience potentiellement encore plus puissante. Le robot Furhat a un visage et des yeux, il peut montrer activement qu’il est conscient de l’utilisateur, il peut regarder, il peut sourire et créer un sentiment d’expérience partagée et de connexion qui serait extrêmement difficile à reproduire dans un appel vocal ou même vidéo.

Proximité : jusqu’où peut-on aller ?

L’autre côté de la médaille de la co-présence est la proximité. Alors que la co-présence consiste à partager le même espace physique, la proximité consiste à savoir à quel point deux choses sont proches dans cet espace – et les effets de cette proximité sur l’interaction.

En termes simples, la proximité est l’étude de la distance physique et de la formation. Les sociologues utilisent le principe de proximité pour décrire la tendance des gens à nouer des relations interpersonnelles avec ceux qui sont proches d’eux.

Les êtres humains sont très sensibles à la distance physique, et l’espace entre deux personnes lorsqu’elles sont assises dans la même pièce est un facteur clé pour déterminer le type d’interaction.

Par exemple, s’asseoir très près de quelqu’un signifie la confiance et peut même être utilisé pour signaler une relation romantique, tandis que garder quelqu’un “à bout de bras” est généralement le contraire. Si vous marchez vers quelqu’un qui vient de la direction opposée dans la rue, les signaux sont très différents selon qu’il vous laisse à distance ou qu’il se rapproche de vous.

Il existe de nombreux exemples d’interactions quotidiennes où la présence d’un robot dans la même pièce signifie que nous appliquons à la cognition humaine des principes très similaires à ceux qui prévalent lorsque des personnes interagissent entre elles. Pour la plupart des gens, il est beaucoup plus facile d’acheter une voiture chez un concessionnaire que de parler à un assistant numérique. Il ne fait aucun doute qu’un assistant numérique est capable de décrire les caractéristiques d’une voiture, mais il y a quelque chose dans le fait de se tenir près de quelqu’un dans le même espace physique, de regarder le concessionnaire dans les yeux et de lui serrer la main, qui facilite la décision finale d’achat.

L’effet Mona-Lisa

Revenons à la vidéo. La raison pour laquelle les conversations vidéo peuvent être gênantes, surtout lorsqu’il y a plus d’une personne à chaque extrémité, est due à ce que l’on appelle l’effet Mona-Lisa. Si vous êtes déjà allé au Louvre pour voir Mona en direct, vous avez peut-être remarqué que, où que vous vous teniez dans la pièce, vous avez toujours l’impression qu’elle vous regarde droit dans les yeux.

En général, les humains sont experts pour décoder le regard d’une autre personne. Nous savons quand nous sommes la cible du regard de quelqu’un (grâce à l’évolution).

Mais l’évolution ne suit pas toujours la technologie, et cette compétence ne fonctionne pas avec la vidéo.

Lorsque le visage d’une personne est affiché sur un écran 2D, le regard de cette personne est perçu de la même manière, quelle que soit la direction depuis laquelle vous regardez l’écran. Ainsi, si vous avez l’impression que la personne vous regarde droit dans les yeux, elle regarde également “droit dans les yeux” toutes les personnes présentes dans la pièce (tout comme Mona-Lisa).

Cela ne s’applique pas seulement aux appels vidéo. Cette limitation est inhérente à tout affichage en 2D, qu’il s’agisse d’une vidéo, d’un avatar animé ou d’un tableau de la Renaissance.

Un robot physique, en revanche, habite le même espace 3D que nous. Il peut facilement transmettre le regard vers des objets, ou établir un contact visuel avec des personnes dans la même pièce.

Le potentiel d’interactions multipartites

Et cette possibilité présente à son tour ses propres avantages.

Pensez à une discussion de groupe – par exemple un enseignant et un groupe d’étudiants assis autour d’une table. Qui détermine qui doit parler, et à quel moment ?

En fait, le tour de parole entre les participants est soigneusement coordonné et négocié, le plus souvent à l’aide du regard. Et lorsque quelqu’un prend la parole, comment savoir à qui s’adresse le message – à une seule personne ou à l’ensemble du groupe ?

Encore une fois, dans la plupart des cas, cela est communiqué à l’aide du regard et des regards. Et cela est impossible à transmettre avec une simple voix ou un avatar numérique.

Les assistants vocaux et les avatars numériques sont d’excellents outils que les individus peuvent utiliser pour des demandes d’information rapides, mais cela ne suffit pas. Alors que nous nous habituons de plus en plus à parler aux machines, nous attendrons bientôt – et nous aurons besoin – qu’elles soient capables d’engager des échanges plus complexes impliquant plusieurs personnes.

Découvrir maintenant > Furhat