« `html
Dans le monde en rapide évolution de la robotique, une innovation majeure émerge. ShengShu Technology dévoile Vidar, un modèle d’IA incarnée révolutionnaire. Cette avancée promet de transformer la manière dont les robots apprennent et interagissent.
Vidar se distingue par son utilisation de mondes simulés, réduisant ainsi la dépendance aux données physiques coûteuses et difficiles à collecter. En combinant un ensemble limité de données physiques avec la génération vidéo, Vidar crée des scénarios hypothétiques réalistes, facilitant la prise de décision des robots dans des environnements réels. Cette approche innovante permet un entraînement plus robuste et scalable, libérant ainsi les chercheurs des contraintes matérielles traditionnelles.
Fondée en mars 2023, ShengShu Technology est spécialisée dans le développement de modèles linguistiques multimodaux de grande envergure. Leur plateforme phare, Vidu, a déjà conquis plus d’un million d’utilisateurs en un mois, atteignant rapidement 300 millions de vidéos générées. Vidar, bâtie sur l’architecture U-ViT, intègre des modèles de diffusion et des architectures de transformateurs pour une modélisation temporelle à long terme et une cohérence vidéo multi-angle.
L’architecture d’apprentissage modulaire à deux étapes de Vidar sépare la perception et le contrôle, offrant ainsi une flexibilité et une évolutivité accrues. Dans la première étape, de larges ensembles de données vidéo générales et incarnées sont utilisés pour entraîner la compréhension perceptuelle de Vidu. La deuxième étape, effectuée par le modèle AnyPos, traduit cette compréhension visuelle en commandes motrices actionnables pour les robots.
Grâce à Vidar, ShengShu Technology facilite l’adoption de la robotique dans divers secteurs, de l’assistance domestique à la fabrication intelligente en passant par la robotique médicale. En réduisant le besoin en données d’entraînement tout en maintenant la complexité nécessaire pour des agents d’IA capables de réagir dans le monde réel, Vidar ouvre la voie à une intelligence incarnée scalable et économique.

Dans le paysage en constante évolution de l’intelligence artificielle, ShengShu Technology se distingue une nouvelle fois avec le lancement de Vidar. Ce modèle révolutionnaire, acronyme de “video diffusion for action reasoning”, promet de transformer la manière dont les robots apprennent et interagissent avec le monde réel. En combinant des données physiques limitées avec des simulations vidéo génératives, Vidar offre une approche innovante pour l’entraînement des IA incarnées.
Comment Vidar révolutionne-t-il l’entraînement des IA physiques ?
Traditionnellement, l’entraînement des modèles d’intelligence artificielle pour la robotique repose sur deux approches principales : l’intégration directe des modèles dans des robots physiques pour collecter des données via des interactions réelles, ou l’utilisation exclusive de simulations virtuelles. La première méthode, bien que réaliste, est coûteuse, dépendante du matériel et difficile à scaler. La seconde, quant à elle, manque souvent de la variabilité nécessaire pour préparer les robots à des scénarios du monde réel.
Vidar adopte une approche hybride en combinant une quantité limitée de données physiques avec des capacités de génération vidéo avancées. En utilisant le modèle de vidéo générative Vidu, Vidar crée des simulations multi-vues offrant des environnements d’entraînement réalistes et variés, le tout dans un espace virtuel. Cette méthode permet de former des agents IA robustes et scalables sans les contraintes de coûts et de logistique liées à la collecte de données dans le monde réel.
Cette approche innovante permet non seulement de réduire significativement le temps et les coûts d’entraînement, mais aussi d’augmenter la capacité de Vidar à généraliser et à s’adapter à une multitude de scénarios complexes. En effet, Vidar est capable de prédire et de générer de nouvelles situations hypothétiques, offrant ainsi une flexibilité incomparable dans le développement des capacités des robots.
Vous pourriez aimer aussi ces articles:
Quels sont les avantages technologiques de Vidar par rapport aux modèles existants ?
Vidar se distingue par son architecture modulaire à deux étapes, un élément clé qui le différencie des approches traditionnelles. Alors que la plupart des modèles intègrent la perception et le contrôle dans un même processus, Vidar les sépare en deux phases distinctes, offrant une plus grande flexibilité et une meilleure scalabilité.
Architecture en deux étapes pour une flexibilité accrue
La première étape, dite *amont*, utilise de vastes ensembles de données vidéo générales ainsi que des données vidéo incarnées de taille modérée pour entraîner le modèle Vidu à comprendre le contenu perceptuel. La seconde étape, *aval*, fait appel à un modèle agnostique des tâches nommé AnyPos, qui transforme cette compréhension visuelle en commandes motrices exploitables pour les robots. Cette séparation permet une adaptation plus rapide et plus aisée des modèles à différents types de robots et de tâches, tout en réduisant les coûts et en augmentant l’évolutivité.
De plus, Vidar utilise l’architecture U-ViT, qui fusionne les modèles de diffusion et les architectures transformer, permettant une modélisation temporelle à long terme et une cohérence vidéo multi-angle. Cette conception favorise une prise de décision physiquement ancrée, essentielle pour le déploiement rapide des robots dans des environnements dynamiques.
Vous pourriez aimer aussi ces articles:
Quelles applications Vidar permet-il de développer dans divers secteurs ?
Vidar ouvre la voie à une adoption plus large de la robotique dans de multiples secteurs en offrant une méthode d’entraînement efficace, scalable et économique. Parmi les domaines potentiels, on retrouve :
- Assistants domestiques : Vidar facilite la création de robots capables de s’adapter à divers environnements domestiques, améliorant ainsi leur utilité et leur flexibilité.
- Soins aux personnes âgées : Des robots équipés de Vidar peuvent offrir une assistance personnalisée et réactive, répondant aux besoins spécifiques des utilisateurs.
- Manufacture intelligente : En permettant aux robots de s’adapter rapidement aux changements de l’environnement de production, Vidar contribue à une fabrication plus agile et efficiente.
- Robotique médicale : Les capacités avancées de prédiction et d’adaptation de Vidar permettent le développement de robots médicaux plus précis et fiables.
Grâce à sa capacité à générer des simulations réalistes et variées, Vidar permet une rapide adaptation des robots à de nouveaux environnements et scénarios multitâches, rendant la robotique accessible et applicable à une gamme plus étendue de contextes industriels et domestiques.
Quels sont les objectifs et la vision de ShengShu Technology avec Vidar ?
Fondée en mars 2023, ShengShu Technology s’est rapidement imposée comme un leader dans le développement de modèles de langage multimodaux de grande envergure (LLMs). Avec Vidar, l’entreprise vise à repousser les limites de l’intelligence artificielle incarnée en intégrant la généralisation, la générativité et l’incarnation dans un système unifié.
La vision de ShengShu est de créer des systèmes d’IA capables de comprendre et d’interagir avec le monde de manière aussi flexible et intelligente que les humains. Vidar est une étape clé dans cette démarche, offrant une infrastructure scalable qui permet de développer des robots intelligents à moindre coût et avec une efficacité améliorée.
En outre, ShengShu Technology met un point d’honneur à rendre ses innovations accessibles et utiles à une large communauté d’utilisateurs. La plateforme Vidu, qui sert de base à Vidar, compte déjà plus de 300 millions de vidéos générées et a atteint plus d’un million d’utilisateurs en un mois, démontrant la popularité et l’efficacité de leurs solutions. Cette adoption rapide souligne la pertinence de Vidar dans le contexte actuel de développement rapide de l’IA multimodale.
Comment Vidar facilite-t-il le déploiement des robots dans le monde réel ?
L’un des principaux défis de la robotique moderne est la transition des modèles d’IA des environnements de simulation aux applications réelles. Vidar répond à ce défi en permettant une « réduction de la dépendance aux données physiques », tout en maintenant la complexité et la richesse nécessaires pour entraîner des agents IA capables de fonctionner efficacement dans le monde réel.
En générant des simulations à grande échelle grâce au moteur vidéo génératif Vidu, Vidar réduit considérablement la quantité de données physiques requises pour l’entraînement. En extrapolant une série d’actions et de tâches robotiques généralisées à partir de seulement 20 minutes de données d’entraînement, Vidar atteint une efficacité de données entre 1/80 et 1/1 200 par rapport aux modèles leaders de l’industrie tels que RDT et π0.5.
Cette approche permet non seulement de diminuer les coûts et le temps de développement, mais aussi de faciliter une adoption plus rapide des robots dans des environnements dynamiques et variés. La capacité de Vidar à générer des scénarios d’entraînement diversifiés et réalistes garantit que les robots peuvent s’adapter et réagir de manière appropriée à des situations imprévues, améliorant ainsi leur fiabilité et leur efficacité.
Quels sont les résultats et les réalisations de Vidar jusqu’à présent ?
Depuis son lancement, Vidar a démontré une capacité remarquable à attirer et à satisfaire une large base d’utilisateurs à travers le monde. Grâce à la plateforme Vidu, ShengShu Technology a atteint plusieurs jalons significatifs :
- 1 million d’utilisateurs en seulement un mois après le lancement de Vidu.
- Plus de 10 millions d’utilisateurs en trois mois.
- Génération de plus de 100 millions de vidéos au bout de quatre mois.
- Le nombre de références à la génération vidéo a dépassé 100 millions au bout de huit mois.
- Le total des vidéos générées a maintenant dépassé 300 millions.
Ces chiffres impressionnants témoignent de l’adoption rapide et de l’efficacité des solutions proposées par ShengShu Technology. En continuant à repousser les frontières de l’IA multimodale, Vidar est bien positionné pour devenir un pilier central dans le développement futur de la robotique intelligente.
Quelle est l’importance de l’architecture Vidu pour Vidar ?
L’architecture Vidu joue un rôle crucial dans la performance et la flexibilité de Vidar. En tant que modèle de génération vidéo phare de ShengShu Technology, Vidu permet à Vidar de créer des simulations vidéo réalistes et variées qui sont essentielles pour un entraînement efficace des IA robotiques.
Vidu utilise des techniques avancées de génération vidéo pour produire des environnements complexes et diversifiés, permettant à Vidar de simuler une multitude de scénarios que les robots peuvent rencontrer dans le monde réel. Cette capacité à générer des données vidéo riches et variées est fondamentale pour garantir que les modèles d’IA développés avec Vidar sont bien préparés pour des déploiements réels.
De plus, l’intégration de Vidu avec l’architecture U-ViT renforce davantage les capacités de Vidar en termes de modélisation temporelle et de cohérence multi-angle. Cela assure que les prédictions et les décisions prises par les robots sont basées sur une compréhension approfondie et continue de leur environnement, améliorant ainsi leur performance globale.
En résumé, l’architecture Vidu est le fondement technologique qui permet à Vidar de se démarquer en offrant une plateforme d’entraînement IA à la fois puissante et flexible, capable de répondre aux besoins variés et en constante évolution de la robotique moderne.
Comment ShengShu Technology envisage-t-elle l’avenir de Vidar ?
Avec le succès initial de Vidar et les vastes possibilités qu’il offre, ShengShu Technology se positionne pour continuer à innover et à élargir l’impact de son modèle d’entraînement IA. La société prévoit d’intégrer davantage de fonctionnalités avancées dans Vidar, telles que la capacité à répondre à des commandes vocales en langage naturel et à effectuer des manipulations à double bras avec des prédictions vidéo multi-vues.
En outre, ShengShu vise à étendre l’utilisation de Vidar à d’autres domaines émergents de l’IA multimodale, en s’appuyant sur les succès de la plateforme Vidu et ses réalisations en matière de génération vidéo. L’entreprise prévoit également de collaborer avec d’autres acteurs de l’industrie pour intégrer Vidar dans des solutions robotiques personnalisées, répondant ainsi aux besoins spécifiques de divers secteurs.
Enfin, ShengShu Technology continue d’investir dans la recherche et le développement pour assurer que Vidar reste à la pointe de la technologie, en intégrant les dernières avancées en matière d’apprentissage automatique, de vision par ordinateur et de modélisation générative. Cette vision à long terme garantit que Vidar restera un outil essentiel pour le développement de robots intelligents et adaptatifs dans les années à venir.