L’essor du « métavers ouvert intelligent » – que je définis comme le carrefour de l’IA, de la crypto et de la réalité virtuelle – va conduire à une explosion de l’activité culturelle dans les prochaines décennies.
Dans ce contexte, Midjourney, un acteur majeur de la scène de l’IA actuelle, propose une technologie de text-to-image parmi les plus impressionnantes du moment. L’équipe de Midjourney se tourne également vers la VR et la simulation d’environnements en temps réel, générant ainsi des espaces virtuels réalistes.
Ces environnements génératifs possèdent de nombreux cas d’utilisation potentiels et peuvent servir de base à la construction de vastes pans d’un métavers ouvert intelligent.
Midjourney, un leader du text-to-image
En matière de modèles d’IA pour la génération d’images à partir de texte, les trois géants actuels sont DALL-E 3, Stability Diffusion et Midjourney. Je m’efforce de rester à jour sur ces trois outils (franchement incroyables), et du côté de Midjourney, l’un de mes favoris est Nick St. Pierre. Directeur créatif et expert en IA, il constitue une excellente source d’informations, de conseils et d’actualités sur Midjourney.
L’un des tweets récents de Nick a particulièrement piqué mon intérêt. Il y mettait en avant les plans futurs de l’équipe Midjourney en citant une de leurs dernières sessions « Office Hours » :
« Nous essayons vraiment d’arriver à la simulation de mondes. Nous développons Midjourney 3D, Midjourney vidéo et Midjourney en temps réel, où les choses bougent à une vitesse fulgurante. En les combinant, on obtient une simulation de monde. L’objectif est de construire chacun de ces éléments séparément, puis de les réunir tous… »
« …ce sera plutôt un bac à sable. Les gens y créeront des jeux vidéo, des films, mais l’objectif est de construire un bac à sable ouvert. »
Vers un métavers accessible à tous
Il s’agit d’une excellente nouvelle, car cela nous offre un aperçu d’un avenir où des expériences virtuelles complexes seront générées sur commande grâce à des invites simples. Ce changement d’expérience utilisateur vers le « sans code » ouvrira et révolutionnera la façon dont de nombreux espaces virtuels seront créés et vécus, menant à une explosion de possibilités pour de nouveaux types de travail et de loisirs métaversaux.
Les modèles d’IA text-to-image ont été le premier grand déblocage. Les efforts text-to-vidéo et image-to-vidéo, comme Sora d’OpenAI et Midjourney Video, constituent les prochaines étapes. La simulation de monde en temps réel est le Saint Graal qui suit. La grande question est donc : Midjourney peut-il y parvenir ?
Midjourney, en pole position pour le métavers
Je le pense. La bêta ouverte de Midjourney n’a commencé qu’il y a 20 mois, en juillet 2022, et pourtant, l’équipe a déjà généré plus de 200 millions de dollars de revenus et cumulé plus de 16 millions d’utilisateurs. Ce trésor de guerre et cette traction en si peu de temps ont donné à Midjourney d’excellentes perspectives et un fort dynamisme pour continuer à innover.
De plus, le fondateur de Midjourney, David Holz, possède une expérience considérable dans les domaines de la VR et de la réalité augmentée. Il a co-fondé Leap Motion, un acteur du matériel VR antérieur au casque Oculus. Cette réalité, combinée aux plans de simulation de monde de Midjourney, suggère que Midjourney pourrait éventuellement sortir son propre dispositif d’affichage monté sur la tête (HMD).
Ainsi, alors que les simulations de monde pourraient devenir l’étoile polaire naturelle de tous les efforts actuels d’IA text-to-image, je pense que personne dans ce domaine n’est mieux positionné pour aller en profondeur et en largeur que Midjourney à l’heure actuelle. Si quelqu’un peut y parvenir, c’est Midjourney – et je pense qu’ils le feront, un jour, et probablement plus vite que la plupart des gens ne le pensent.
Des possibilités infinies pour le divertissement et la création
Cependant, cette capacité n’est pas encore d’actualité pour les prochaines années. Cela ne signifie pas pour autant que nous ne pouvons pas déjà commencer à rêver des possibilités immersives du métavers qui nous attendent. Par exemple, je pense que les simulations de monde seront parfaitement adaptées aux « Autonomous Worlds », c’est-à-dire des jeux qui suivent leur logique et leur état entièrement en chaîne (blockchain). Cette architecture prend en charge des conceptions indépendantes du client, ce qui permet à quiconque de créer ses propres interfaces propriétaires. Imaginez alors un constructeur d’interfaces qui exploite Midjourney pour vous permettre de fournir des images et de créer ensuite des mondes personnalisés à parcourir dans des jeux en chaîne avec des visuels en temps réel.
Ce n’est qu’un exemple d’utilisation, mais les possibilités à venir ne seront limitées que par notre imagination. Pensez à la création d’une galerie d’art à la demande avec vos NFT préférés, ou à la création d’expériences immersives autour de l’immobilier dans des projets métavers.
Cinéma, éducation, jeux vidéo, événements virtuels, etc. – tout peut être développé de nouvelles façons grâce aux simulations de monde. C’est pourquoi je pense que Midjourney est bien positionné pour devenir un pilier du métavers ouvert intelligent. Tout comme les agents d’IA faciliteront le remplissage des mondes virtuels avec une intelligence de type humain, les simulations de monde permettront d’étoffer ces espaces avec des visuels incroyables en temps réel.
Alors que le carrefour IA x crypto x VR continue de s’entremêler et que le métavers ouvert intelligent se précise, gardez un œil sur Midjourney. Leur travail est très prometteur pour réduire à presque zéro la friction liée à la création de vastes espaces virtuels immersifs. Les implications pour les créateurs de tous horizons sont énormes, et l’industrie du divertissement devrait en être révolutionnée.