Dans une nouvelle étape rapprochant les robots du monde humain, des chercheurs ont annoncé une prouesse technologique notable : le développement d’un robot capable d’apprendre et de maîtriser l’un des mouvements faciaux humains les plus complexes : le mouvement des lèvres lors de la parole et du chant.

Cette avancée pourrait représenter un tournant pour l’avenir des robots humanoïdes, d’autant que près de la moitié de l’attention humaine lors d’une interaction directe est focalisée sur les expressions faciales et le mouvement des lèvres, nous rendant très sensibles à toute imperfection ou manque d’harmonie dans ces mouvements.

Jusqu’à récemment, les robots éprouvaient de grandes difficultés à imiter la façon naturelle dont les humains bougent leurs lèvres, paraissant souvent décoordonnés ou « étranges ».

Ce phénomène est scientifiquement connu sous le nom de « vallée de l’étrange », cette sensation de malaise qui s’empare d’une personne en voyant quelque chose qui paraît presque humain mais ne bouge ou ne se comporte pas de manière totalement naturelle. Cependant, cette réalité pourrait bientôt changer.

Comment le robot a-t-il appris à bouger ses lèvres ?

Mercredi, des ingénieurs ont dévoilé un nouveau robot qui, pour la première fois, est parvenu à apprendre et à reproduire les mouvements labiaux humains pendant la parole et même le chant.

Le robot a appris à utiliser 26 moteurs dans son visage en regardant des heures de vidéos sur YouTube, puis en s’entraînant à imiter le mouvement des lèvres humaines en observant son reflet dans un miroir.

Dans une étude, les chercheurs ont démontré comment le robot est devenu capable de prononcer des mots dans plusieurs langues, et même de chanter une chanson entière issue de son premier album intitulé « hello world », créé grâce à l’intelligence artificielle.

Un robot bougeant ses lèvres, parlant et chantant comme un humain
Un robot bougeant ses lèvres, parlant et chantant comme un humain

Les ingénieurs confirment que les performances du robot s’amélioreront avec le temps, déclarant : « Plus il interagit avec des humains, meilleures sont ses performances. »

Malgré ces progrès notables, l’équipe de recherche reconnaît que le mouvement des lèvres n’est pas encore parfait. Le robot a rencontré des difficultés avec certains sons forts comme la lettre « B », et ceux nécessitant une fermeture des lèvres comme la lettre « W », mais on pense que ces problèmes s’amélioreront avec davantage d’entraînement et d’apprentissage.

On note qu’une grande partie de la recherche actuelle sur les robots humanoïdes se concentre sur le mouvement des jambes et des mains pour la marche ou la saisie d’objets, mais exprimer des émotions par le visage n’est pas moins important, surtout dans les applications nécessitant une interaction directe avec les humains.

Intégrer la capacité de synchronisation labiale avec des systèmes d’IA interactifs pourrait ajouter une dimension entièrement nouvelle à la relation humain-robot, rendant l’interaction plus naturelle et humaine.

Les chercheurs s’attendent à ce que ces robots au « visage vivant » trouvent de larges applications dans des domaines tels que :

  • Le divertissement.
  • L’éducation.
  • La médecine.
  • Les soins aux personnes âgées.

Certains économistes estiment que plus d’un milliard de robots humanoïdes pourraient être fabriqués dans la prochaine décennie.

Un commentaire affirme : « Il n’y a pas de futur où les robots humanoïdes sont sans visage. Et si leurs yeux et leurs lèvres ne bougent pas correctement, ils resteront étranges pour toujours. »

Ce projet s’inscrit dans un long parcours de recherche de plus de dix ans, visant à faire en sorte que les robots apprennent à communiquer avec les humains au lieu d’être programmés avec des règles rigides.

La déclaration conclut : « Il se passe quelque chose d’enchantant lorsqu’un robot apprend à sourire ou à parler simplement en regardant et en écoutant les humains. Moi-même, en tant que roboticien chevronné, je ne peux m’empêcher de sourire quand le robot me sourit spontanément. »

YouTube

YouTube est une plateforme gratuite de partage de vidéos en ligne fondée en 2005, qui permet aux utilisateurs de télécharger, visionner et partager du contenu. Elle a révolutionné la consommation médiatique en rendant possible le contenu généré par les utilisateurs à l’échelle mondiale, passant d’une simple start-up à une force culturelle dominante, propriété de Google. Historiquement, elle a transformé le divertissement, l’éducation et le débat public en rendant la diffusion vidéo accessible à toute personne disposant d’une connexion internet.

Vallée de l’étrange

La « vallée de l’étrange » n’est pas un lieu physique mais un concept issu de la robotique et de l’infographie décrivant le sentiment de malaise que les gens éprouvent face à un robot humanoïde ou un personnage numérique qui ressemble presque, mais pas parfaitement, à un humain. Le terme a été inventé par le roboticien japonais Masahiro Mori en 1970. Il a proposé qu’à mesure que les ressemblances artificielles deviennent plus réalistes, la réponse émotionnelle devient positive jusqu’à un point de profond malaise, avant que l’acceptation ne revienne pour un réalisme parfait.