Les avancées en robotique ont transformé notre façon d’interagir avec la technologie.
Pourtant, la plupart des robots restent confinés à des tâches spécifiques et répétitives.
Ils peinent à s’adapter aux imprévus sans une reprogrammation laborieuse.
Imaginez un monde où les robots apprennent à utiliser des outils aussi naturellement qu’un enfant en observant des vidéos. Cette vision devient réalité grâce au cadre innovant « Tool-as-Interface ». Développé par une équipe de chercheurs de l’Université de l’Illinois à Urbana-Champaign, en collaboration avec Columbia University et UT Austin, ce système permet aux robots d’acquérir des compétences complexes en utilisation d’outils en se basant uniquement sur des vidéos ordinaires. Fini les capteurs coûteux et les heures de téléopération à distance. Deux vues de caméra suffisent pour initier l’apprentissage.
Le processus débute avec deux images vidéo que le modèle de vision MASt3R utilise pour reconstruire une scène tridimensionnelle. Ensuite, grâce à la méthode de rendu 3D Gaussian splatting, des points de vue supplémentaires sont générés, offrant au robot une perspective multi-angle de la tâche. La véritable innovation réside dans la suppression numérique de l’humain de la scène, permettant au robot de se concentrer exclusivement sur l’outil et son interaction avec l’environnement. Cette approche « centrée sur l’outil » permet une transfert de compétences entre différents robots, indépendamment de la configuration de leurs bras ou caméras.
Les tests menés ont démontré des taux de réussite supérieurs de 71% et une collecte de données accélérée de 77% par rapport aux méthodes traditionnelles. Des actions complexes comme marteler un clou, scooper une boulette de viande ou même équilibrer une bouteille de vin ont été réalisées avec une précision remarquable. Cette avancée ouvre la voie à une nouvelle ère où les robots peuvent apprendre de manière intuitive, en observant simplement les actions humaines filmées avec des smartphones ou disponibles en ligne. Malgré quelques défis techniques, tels que l’ajustement de la perception des outils non fixés rigidement, les perspectives sont prometteuses. Cette recherche pionnière, récompensée par le Best Paper Award à l’ICRA 2025, marque une étape cruciale vers des robots plus adaptables et autonomes.

Malgré des décennies de progrès, la plupart des robots restent limités à des tâches spécifiques et répétitives. Ils peinent à gérer l’inattendu et ne peuvent pas s’adapter à de nouvelles situations sans une reprogrammation fastidieuse. Mais que se passerait-il si les robots pouvaient apprendre à utiliser des outils aussi naturellement qu’un enfant en observant des vidéos ?
comment les robots apprennent-ils en observant
Je me souviens encore de la première fois où j’ai vu l’un des robots de notre laboratoire retourner un œuf dans une poêle. Ce n’était pas préprogrammé. Personne ne contrôlait le robot avec un joystick. Le robot avait simplement regardé une vidéo d’un humain effectuant cette tâche, puis l’avait reproduite lui-même. Pour quelqu’un qui a passé des années à réfléchir à la manière de rendre les robots plus adaptables, ce moment a été passionnant.
Notre équipe à l’Université de l’Illinois Urbana-Champaign, en collaboration avec des chercheurs de la Columbia University et de UT Austin, s’est penchée sur cette question. Les robots pourraient-ils regarder quelqu’un enfoncer un clou ou ramasser une boulette de viande, puis apprendre à le faire eux-mêmes, sans capteurs coûteux, combinaisons de capture de mouvement ou des heures de téléopération à distance ?
Vous pourriez aimer aussi ces articles:
tool-as-interface : une nouvelle approche révolutionnaire
Cette idée nous a conduit à créer un nouveau cadre que nous appelons « Tool-as-Interface », actuellement disponible sur le serveur de prépublications arXiv. L’objectif est simple : enseigner aux robots des compétences complexes et dynamiques d’utilisation d’outils en utilisant uniquement des vidéos ordinaires de personnes effectuant des tâches quotidiennes. Il suffit de capturer deux vues de la scène, ce qui peut être réalisé avec quelques smartphones.
processus de reconstruction en trois dimensions
Le processus commence avec ces deux images vidéo, qu’un modèle de vision appelé MASt3R utilise pour reconstruire un modèle tridimensionnel de la scène. Ensuite, grâce à une méthode de rendu connue sous le nom de 3D Gaussian splatting—imaginez cela comme la peinture numérique d’une image 3D de la scène—, nous générons des vues supplémentaires afin que le robot puisse « voir » la tâche sous plusieurs angles.
Vous pourriez aimer aussi ces articles:
isoler l’outil pour une meilleure compréhension
Mais la véritable magie se produit lorsque nous retirons numériquement l’humain de la scène. Avec l’aide de Grounded-SAM, notre système isole uniquement l’outil et son interaction avec l’environnement. C’est comme dire au robot : « Ignore l’humain et concentre-toi uniquement sur ce que fait l’outil. »
Cette perspective centrée sur l’outil est l’ingrédient secret. Cela signifie que le robot n’essaie pas de copier les mouvements des mains humaines, mais apprend plutôt la trajectoire exacte et l’orientation de l’outil lui-même. Cela permet au compétence de se transférer entre différents robots, indépendamment de la configuration de leurs bras ou caméras.
des performances supérieures grâce à l’apprentissage par imitation
Nous avons testé cette approche sur cinq tâches : enfoncer un clou, ramasser une boulette de viande, retourner de la nourriture dans une poêle, équilibrer une bouteille de vin, et même botter un ballon de football dans un but. Ce ne sont pas de simples manipulations ; elles nécessitent de la rapidité, de la précision et de l’adaptabilité. Comparé aux méthodes traditionnelles de téléopération, Tool-as-Interface a atteint des taux de réussite supérieurs de 71% et a recueilli des données d’entraînement 77% plus rapidement.
Un de mes tests préférés impliquait un robot ramassant des boulettes de viande pendant qu’un humain en ajoutait d’autres en cours de tâche. Le robot n’a pas hésité, il s’est simplement adapté. Dans un autre test, il a retourné un œuf cru dans une poêle, une manœuvre notoirement difficile pour les robots téléopérés.
« Notre approche s’inspire de la façon dont les enfants apprennent, c’est-à-dire en observant les adultes », a déclaré mon collègue et auteur principal, Haonan Chen. « Ils n’ont pas besoin d’utiliser le même outil que la personne qu’ils regardent ; ils peuvent s’entraîner avec quelque chose de similaire. Nous voulions savoir si nous pouvions imiter cette capacité chez les robots. »
impact et implications futures
Ces résultats indiquent quelque chose de plus grand que de simples démonstrations en laboratoire. En éliminant le besoin d’opérateurs experts ou de matériel spécialisé, nous pouvons imaginer des robots apprenant à partir de vidéos de smartphones, de clips YouTube ou même de séquences générées par la foule.
« Malgré le battage médiatique autour des robots, ils restent limités dans les endroits où ils peuvent opérer de manière fiable et sont généralement bien moins performants que les humains pour la plupart des tâches », a déclaré la Professeure Katie Driggs-Campbell, qui dirige notre laboratoire.
« Nous nous intéressons à la conception de cadres et d’algorithmes qui permettront aux robots d’apprendre facilement des humains avec un effort d’ingénierie minimal. »
les défis à surmonter pour une adoption généralisée
Bien sûr, il y a encore des défis à relever. Actuellement, le système suppose que l’outil est rigoureusement fixé à la pince du robot, ce qui n’est pas toujours le cas dans la réalité. Il rencontre également parfois des erreurs d’estimation de pose 6D, et les vues de caméra synthétisées peuvent perdre en réalisme si le changement d’angle est trop extrême.
À l’avenir, nous souhaitons rendre le système de perception plus robuste, de manière à ce qu’un robot puisse, par exemple, observer quelqu’un utiliser un type de stylo et ensuite appliquer cette compétence à des stylos de différentes formes et tailles.
vers une nouvelle ère d’apprentissage robotique naturel
Même avec ces limitations, je pense que nous assistons à un changement profond dans la manière dont les robots peuvent apprendre, en passant de la programmation minutieuse à une observation naturelle. Des milliards de caméras enregistrent déjà comment les humains utilisent des outils. Avec les bons algorithmes, ces vidéos pourraient devenir des supports d’entraînement pour la prochaine génération de robots adaptables et utiles.
Cette recherche, qui a été honorée par le Best Paper Award au Workshop on Foundation Models and Neural-Symbolic (NeSy) AI for Robotics de l’ICRA 2025, est une étape cruciale vers la réalisation de ce potentiel, transformant l’immense océan de vidéos humaines enregistrées en une bibliothèque mondiale de formation pour des robots capables d’apprendre et de s’adapter aussi naturellement qu’un enfant.
Cette histoire fait partie de Science X Dialog, où les chercheurs peuvent rapporter des découvertes issues de leurs articles de recherche publiés. Visitez cette page pour plus d’informations sur Science X Dialog et comment y participer.
Pour plus d’informations techniques, regardez notre vidéo explicative sur le fonctionnement de notre système. Vous pouvez également consulter l’étude complète de Haonan Chen et al, intitulée « Tool-as-Interface: Learning Robot Policies from Human Tool Usage through Imitation Learning », disponible sur arXiv.
Ce document est soumis au droit d’auteur. À l’exception des exceptions de traitements équitables pour des fins d’étude privée ou de recherche, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à des fins d’information uniquement.