Des chercheurs de l’Australian National University, de l’Université d’Oxford et de la Beijing Academy of Artificial Intelligence ont mis au point un nouveau système d’IA appelé « 3D-GPT » qui peut générer des modèles 3D simplement à partir de descriptions textuelles fournies par un utilisateur.
Le système, décrit dans un article publié sur arXiv, offre un moyen plus efficace et plus intuitif de créer des actifs 3D par rapport aux flux de travail traditionnels de modélisation 3D.
3D-GPT est capable de « disséquer les tâches de modélisation 3D procédurale en segments accessibles et de désigner l’agent approprié pour chaque tâche », selon l’article. Il utilise plusieurs agents d’intelligence artificielle qui se concentrent chacun sur une partie différente de la compréhension du texte et de l’exécution des fonctions de modélisation.
« 3D-GPT positionne les LLM [grands modèles de langage] comme des résolveurs de problèmes compétents, en disséquant les tâches procédurales de modélisation 3D en segments accessibles et en désignant l’agent approprié pour chaque tâche », ont déclaré les chercheurs.
Les agents clés comprennent un « agent de répartition des tâches » qui analyse les instructions textuelles, un « agent de conceptualisation » qui ajoute les détails manquants dans la description initiale, et un « agent de modélisation » qui définit les paramètres et génère le code pour piloter un logiciel 3D tel que Blender.
En décomposant le processus de modélisation et en affectant des agents d’IA spécialisés, 3D-GPT est en mesure d’interpréter les instructions textuelles, d’améliorer les descriptions avec des détails supplémentaires et, en fin de compte, de générer des actifs 3D qui correspondent à ce que l’utilisateur a imaginé.
« Il améliore les descriptions initiales concises de la scène, les transformant en formes détaillées tout en adaptant dynamiquement le texte en fonction des instructions ultérieures », explique l’article.
Le système a été testé sur des textes tels que « un matin brumeux de printemps, où des fleurs baignées de rosée parsèment une prairie luxuriante entourée d’arbres bourgeonnants ». 3D-GPT a été capable de générer des scènes 3D complètes avec des graphiques réalistes reflétant fidèlement les éléments décrits dans le texte.
Bien que la qualité des graphiques ne soit pas encore photoréaliste, les premiers résultats suggèrent que cette approche basée sur des agents est prometteuse pour simplifier la création de contenu 3D. L’architecture modulaire pourrait également permettre d’améliorer chaque composant de l’agent de manière indépendante.
« Nos études empiriques confirment que 3D-GPT non seulement interprète et exécute des instructions, produisant des résultats fiables, mais collabore également de manière efficace avec les concepteurs humains », écrivent les chercheurs.
En générant du code pour contrôler les logiciels 3D existants au lieu de construire des modèles à partir de zéro, 3D-GPT fournit une base flexible sur laquelle on peut s’appuyer au fur et à mesure que les techniques de modélisation continuent de progresser.
Les chercheurs concluent que leur système « met en évidence le potentiel des LLM dans la modélisation 3D, offrant un cadre de base pour les progrès futurs dans la génération de scènes et l’animation ».
Cette recherche pourrait révolutionner le secteur de la modélisation 3D en rendant le processus plus efficace et plus accessible. À mesure que nous avançons dans l’ère des métavers, la création de contenu 3D servant de catalyseur, des outils tels que 3D-GPT pourraient s’avérer inestimables pour les créateurs et les décideurs de toute une série d’industries, des jeux et de la réalité virtuelle au cinéma et aux expériences multimédias.
Le cadre 3D-GPT en est encore à ses débuts et présente certaines limites, mais son développement marque une avancée significative dans la modélisation 3D pilotée par l’IA et ouvre des possibilités passionnantes pour les progrès futurs.