Les robots gagnent en intelligence et en autonomie grâce aux avancées de l’intelligence artificielle. Le dernier jalon en date est le modèle MolmoAct 7B développé par l’Allen Institute for AI. Ce modèle révolutionne la manière dont les robots interagissent avec leur environnement physique.
Avec MolmoAct 7B, l’intelligence artificielle incarnée atteint de nouveaux sommets en matière de raisonnement visuel et de planification spatiale. Contrairement aux modèles traditionnels qui se contentent de traiter des instructions en langage naturel, MolmoAct perçoit réellement son environnement, comprenant les relations entre espace, mouvement et temps. Cette capacité permet aux robots de naviguer dans le monde physique avec une intelligence et un contrôle accrus. En générant des jetons de raisonnement visuel, le modèle transforme les entrées d’image 2D en plans spatiaux 3D, facilitant une interaction plus fluide et efficace. Cette innovation ouvre la voie à une nouvelle ère de collaboration entre humains et machines, où la safety et la transparence sont au cœur des développements. De plus, MolmoAct est conçu pour être entièrement open-source, garantissant une adaptabilité et une reproductibilité sans précédent dans le domaine de la robotique. Ce progrès démontre que l’utilisation de données de haute qualité et d’une conception réfléchie peut surpasser les modèles nécessitant des ressources bien plus importantes.
Le modèle MolmoAct 7B a été formé sur un ensemble de données soigneusement sélectionné comprenant environ 12 000 épisodes robotiques issus de divers environnements réels, tels que les cuisines et les chambres à coucher. Cette diversité permet au modèle de généraliser efficacement ses compétences dans des contextes variés. Selon Ali Farhadi, PDG d’Ai2, « Avec MolmoAct, nous ne publions pas seulement un modèle ; nous posons les bases d’une nouvelle ère de l’IA, en apportant l’intelligence des modèles puissants dans le monde physique. » Cette approche innovante contraste fortement avec les architectures fermées et les ensembles de données propriétaires massifs utilisés par la plupart des systèmes modernes, souvent opaques et coûteux à l’échelle.
MolmoAct est également reconnu comme le premier « modèle de raisonnement d’action » (ARM), capable d’interpréter des instructions en langage naturel de haut niveau et de les décomposer en une séquence d’actions physiques concrètes. Cette capacité est rendue possible grâce à une perception 3D, une planification de points de repère visuels et un décodage des actions précis. Par exemple, une commande telle que « triez ce tas de déchets » est décomposée en plusieurs sous-tâches structurées, permettant au robot de reconnaître la scène, de grouper les objets par type et de les manipuler un par un de manière ordonnée.
En outre, Ai2 s’engage à maintenir MolmoAct ouvert et transparent. Les utilisateurs peuvent prévisualiser les mouvements planifiés du modèle avant leur exécution, avec des trajectoires de mouvement superposées sur les images de la caméra. Cette fonctionnalité permet des ajustements en temps réel grâce au langage naturel ou à des corrections rapides sur un écran tactile, offrant ainsi un contrôle granulaire et renforçant la sécurité dans des environnements réels tels que les foyers, les hôpitaux et les entrepôts.
L’impact de MolmoAct sera également mis en lumière lors de l’événement RoboBusiness de cette année, qui se tiendra les 15 et 16 octobre à Santa Clara, en Californie. Ce salon est le rendez-vous incontournable pour les développeurs et fournisseurs de robots commerciaux, présentant plus de 60 intervenants, un atelier pour startups, une compétition annuelle de Pitchfire et de nombreuses opportunités de réseautage. Avec plus de 100 exposants, les participants pourront découvrir les dernières technologies, produits et services visant à résoudre les défis du développement en robotique.

Introduction à molmoAct 7B par ai2
Le Allen Institute for AI, également connu sous le nom de Ai2, a récemment dévoilé son dernier bijou technologique : le modèle MolmoAct 7B. Ce modèle d’intelligence artificielle incarnée représente une avancée majeure, intégrant de manière innovante l’IA dans le monde physique. Contrairement aux modèles traditionnels qui se basent principalement sur le langage pour raisonner et effectuer des actions, MolmoAct 7B se distingue par sa capacité à percevoir son environnement, comprendre les relations spatiales, temporelles et de mouvement, et planifier ses actions en conséquence. Cette annonce marque le début d’une nouvelle ère où l’intelligence artificielle et la robotique convergent de manière plus harmonieuse et efficace.
Vous pourriez aimer aussi ces articles:
Qu’est-ce que molmoAct 7B et comment fonctionne-t-il?
Le MolmoAct 7B est un modèle d’IA incarnée conçu pour apporter une intelligence artificielle de pointe directement dans le monde physique. Contrairement aux systèmes traditionnels qui traitent les informations de manière séquentielle et souvent opaque, MolmoAct utilise des tokens de raisonnement visuel pour transformer des entrées d’images 2D en plans spatiaux 3D détaillés. Cette approche permet aux robots de naviguer dans des environnements réels avec une intelligence et un contrôle accrus.
Le modèle fonctionne en interprétant les données visuelles capturées par ses capteurs pour comprendre l’espace qui l’entoure. En analysant les relations entre les objets, les mouvements et le temps, MolmoAct est capable de planifier ses actions de manière stratégique. Par exemple, lorsqu’il reçoit une instruction telle que « trier ce tas de déchets », le modèle ne se contente pas de répondre par une action unique. Il décompose la tâche en plusieurs sous-tâches, reconnaît les différents types d’objets, les groupe en fonction de leur nature, les saisit un par un et les trie avec précision.
Cette architecture de raisonnement en couches permet une transparence totale dans le processus de décision du robot. Les utilisateurs peuvent visualiser en temps réel les trajectoires prévues avant leur exécution, offrant ainsi un contrôle granulaire et augmentant la sécurité lors des opérations dans des environnements sensibles comme les hôpitaux ou les entrepôts.
Vous pourriez aimer aussi ces articles:
Les avantages de molmoAct 7B : sécurité, transparence et ouverture
Le modèle MolmoAct 7B se distingue par plusieurs avantages clés qui répondent aux besoins croissants en matière de sécurité, de transparence et d’ouverture dans le domaine de l’IA et de la robotique. Ali Farhadi, PDG de Ai2, souligne que « l’IA incarnée nécessite une nouvelle fondation qui priorise le raisonnement, la transparence et l’ouverture. » Avec MolmoAct, Ai2 ne se contente pas de lancer un modèle ; ils établissent les bases d’une nouvelle ère d’IA, alignant l’intelligence des modèles puissants avec les besoins réels du monde physique.
L’un des principaux atouts de MolmoAct 7B est sa transparence. Les utilisateurs peuvent prévisualiser les mouvements planifiés par le modèle avant leur exécution, ce qui permet de valider et d’ajuster les actions en temps réel. Cette fonctionnalité est particulièrement cruciale dans des environnements où la sécurité est primordiale, comme les hôpitaux ou les entrepôts automatisés.
En outre, MolmoAct 7B est conçu pour être adaptable et interprétable. Le modèle génère des traces de raisonnement visuel étape par étape, offrant une vue claire et compréhensible des décisions prises par le robot. Cette capacité d’interprétation facilite non seulement le diagnostic des comportements du robot, mais permet également aux opérateurs de guider le modèle de manière plus intuitive.
Enfin, la véritable ouverture de MolmoAct 7B est un autre avantage majeur. Le modèle est entièrement open-source, permettant aux chercheurs et développeurs du monde entier de reproduire, modifier et améliorer les algorithmes sous-jacents. Cette approche favorise l’innovation collaborative et garantit que MolmoAct peut évoluer et s’adapter rapidement aux nouvelles exigences et aux défis émergents.
molmoAct 7B vs les modèles d’intelligence artificielle traditionnels
Les modèles d’intelligence artificielle traditionnels reposent souvent sur des architectures fermées et des ensembles de données propriétaires massifs. Ces systèmes, bien que puissants, présentent plusieurs limitations, notamment en termes de reproductibilité, de coût et de transparence. En revanche, MolmoAct 7B adopte une approche fondamentalement différente, en mettant l’accent sur l’ouverture et la transparence.
Contrairement aux modèles end-to-end qui traitent les tâches comme une seule étape opaque, MolmoAct 7B utilise une chaîne de décisions spatiales transparente et structurée. Cette méthode permet au modèle de décomposer les instructions en sous-tâches clairement définies, facilitant ainsi la compréhension et le contrôle de ses actions. Par exemple, au lieu de considérer « trier ce tas de déchets » comme une seule action, MolmoAct le divise en étapes telles que la reconnaissance des objets, le regroupement par type, et le tri individuel.
De plus, les modèles traditionnels nécessitent souvent des centaines de millions d’échantillons et des ressources informatiques considérables pour l’entraînement. En comparaison, MolmoAct 7B a été entraîné de manière extrêmement efficace, nécessitant seulement 18 millions d’échantillons et un investissement en calcul bien moindre, tout en surpassant de nombreux modèles commerciaux sur des benchmarks clés comme SimPLER avec un taux de réussite de 71,9 %.
Cette efficacité est en grande partie due à la qualité des données utilisées et à la conception réfléchie du modèle. En se basant sur un jeu de données ouvert et en mettant l’accent sur des stratégies de raisonnement visuel, MolmoAct 7B offre une performance supérieure sans les contraintes habituellement associées aux modèles fermés et gourmands en ressources.
Entraînement et performance de molmoAct 7B
L’entraînement de MolmoAct 7B repose sur un ensemble de données soigneusement sélectionné, comprenant environ 12 000 « épisodes de robot » issus d’environnements réels tels que des cuisines et des chambres. Ces démonstrations ont été transformées en séquences de raisonnement robotique qui montrent comment des instructions complexes se traduisent en actions concrètes et orientées vers des objectifs définis. Cette grande attention portée à la qualité et à la diversité des données d’entraînement permet à MolmoAct 7B de généraliser efficacement dans des contextes variés.
En termes d’efficacité, Ai2 a réussi à entraîner MolmoAct 7B de manière remarquable. Le modèle a été préentraîné sur 256 GPU NVIDIA H100 pendant environ 24 heures, suivi d’un ajustement fin sur 64 GPU pendant seulement deux heures supplémentaires. Cette approche contrastée avec les modèles commerciaux traditionnels, qui peuvent nécessiter des centaines de millions d’échantillons et des ressources informatiques beaucoup plus conséquentes, démontre que l’efficacité des données et la conception intelligente peuvent surpasser les modèles nécessitant plus de données et de puissance de calcul.
Les performances de MolmoAct 7B sont également impressionnantes. Sur le benchmark SimPLER, le modèle a atteint un taux de réussite de 71,9 %, surpassant ainsi de nombreux systèmes commerciaux qui disposent de modèles beaucoup plus volumineux. Cette réussite souligne l’importance d’un entraînement de haute qualité et d’une architecture bien pensée dans le développement de modèles d’IA performants.
En outre, Ai2 a publié le jeu de données post-entraînement de MolmoAct, contenant environ 12 000 épisodes distincts de robot. Cela permet à la communauté de chercheurs et de développeurs de reproduire les résultats, de tester de nouvelles hypothèses et d’étendre les capacités du modèle de manière collaborative. Cette transparence renforce la position de MolmoAct 7B comme un modèle de référence dans le domaine de l’IA incarnée.
Applications et cas d’utilisation de molmoAct 7B dans le monde réel
Les capacités avancées de MolmoAct 7B ouvrent la porte à une multitude d’applications pratiques dans divers secteurs. En intégrant l’intelligence artificielle dans des environnements physiques, ce modèle permet aux robots de réaliser des tâches complexes de manière autonome et efficace.
Dans les domiciles, MolmoAct 7B peut être utilisé pour des tâches ménagères telles que l’organisation des objets, le rangement des vêtements ou la préparation des repas. Sa capacité à comprendre et à naviguer dans des espaces tridimensionnels permet aux robots de s’adapter à différents agencements et de réagir aux changements dynamiques de l’environnement domestique.
Dans les hôpitaux, MolmoAct 7B peut assister le personnel médical en transportant des fournitures, en désinfectant les surfaces ou en aidant à la gestion des équipements. La transparence et la sécurité intégrées au modèle garantissent que les robots peuvent fonctionner de manière fiable et sans risque pour les patients et le personnel.
Les entrepôts et les centres logistiques bénéficient également de l’intégration de MolmoAct 7B. Le modèle peut optimiser les processus de tri, de manutention et de livraison des marchandises, réduisant ainsi les erreurs et augmentant l’efficacité opérationnelle. La capacité de MolmoAct à planifier et ajuster ses actions en temps réel assure une gestion fluide des stocks et une meilleure réponse aux demandes fluctuantes.
De plus, dans le domaine de la conservation, MolmoAct 7B peut contribuer à des projets de préservation environnementale en automatisant la surveillance des habitats naturels, le suivi des espèces ou la maintenance des infrastructures écologiques. Sa capacité à interpréter des données visuelles précises et à agir de manière ciblée en fait un outil précieux pour les initiatives de durabilité.
Ces applications démontrent la polyvalence et l’impact potentiel de MolmoAct 7B dans divers secteurs, facilitant l’automatisation intelligente et améliorant les processus humains grâce à une collaboration efficace entre l’IA et les opérateurs humains.
L’avenir de l’intelligence artificielle physique avec molmoAct 7B
Avec le lancement de MolmoAct 7B, Ai2 pose les jalons d’une évolution significative dans le domaine de l’intelligence artificielle physique. Ce modèle représente non seulement une avancée technologique, mais aussi une vision d’un futur où les intelligences artificielles collaborent de manière harmonieuse et sécurisée avec les humains.
Le potentiel de MolmoAct 7B va au-delà de ses capacités actuelles. En fournissant une base ouverte et transparente, Ai2 encourage la communauté mondiale des chercheurs et des développeurs à innover et à étendre les fonctionnalités du modèle. Cette collaboration internationale promet des améliorations continues et des adaptations spécifiques à divers contextes industriels et sociétaux.
À long terme, MolmoAct 7B pourrait jouer un rôle central dans la transformation des environnements de travail, des espaces publics et des foyers personnels. La capacité des robots à comprendre et à interagir de manière intelligente et sécurisée avec leur environnement peut conduire à une automatisation plus intégrée et moins intrusive, améliorant la qualité de vie et l’efficacité opérationnelle.
De plus, en mettant l’accent sur la transparent
ité et l’ouverture, Ai2 ouvre la voie à une intelligence artificielle plus éthique et responsable. Les utilisateurs peuvent non seulement comprendre les décisions prises par les robots, mais aussi intervenir et ajuster les actions en temps réel, garantissant ainsi une interaction humaine-robot fiable et contrôlée.
En conclusion, MolmoAct 7B d’Ai2 représente une avancée majeure dans l’intégration de l’intelligence artificielle dans le monde réel. Grâce à ses capacités de raisonnement visuel, sa transparence et son approche ouverte, ce modèle est bien positionné pour transformer divers secteurs et améliorer de manière significative la manière dont nous interagissons avec les technologies robotiques.