L'avenir de l'intelligence artificielle réside-t-il dans la réalité immersive ?

L’année 2023 sera probablement célèbre comme le moment où l’IA est devenue un phénomène mondial et social. Cela s’explique principalement par le fait que des milliards de personnes dans le monde, dans tous les domaines de la vie, à tous les âges et dans tous les milieux, s’engagent, communiquent et discutent activement avec l’IA. Pour de nombreux utilisateurs, l’engagement peut ressembler à une conversation avec un autre être intelligent de type humain, doté d’un pouvoir et d’une personnalité.

Derrière l’apparence d’une intelligence sophistiquée de type humain, il y a d’innombrables serveurs de traitement graphique (GPU) hébergés dans des milliers de centres de données permettant la fonctionnalité de grands modèles de langage (LLM) qui apprennent et reproduisent des modèles d’utilisation du langage humain, principalement à partir de données en ligne mises au rebut.

L’essor de ChatGPT
OpenAI a lancé ChatGPT le 30 novembre 2022 et ChatGPT-4 le 14 mars 2023. Une partie du succès mondial de ChatGPT est liée au modèle de plateforme d’un service gratuit disponible sous la forme d’une page web et d’une application.

La sophistication de l’architecture LLM s’est manifestée dès le début par la façon dont elle a généré des réponses rapides et répondu simultanément à des millions de questions sur d’innombrables sujets. Qu’il s’agisse de connaissances générales, de sciences ou de sujets académiques, le LLM est apparu comme une fontaine de savoir et de sagesse humaine.

Bien que la véracité, la fiabilité et l’exactitude des réponses aient suscité quelques inquiétudes, l’utilisation du LLM n’a cessé de croître. L’utilisation de ChatGPT a dépassé toutes les autres plateformes, même les records établis par des plateformes de médias sociaux telles que TikTok. ChatGPT est devenue une plateforme d’IA qui a atteint 100 millions d’utilisateurs deux mois seulement après son lancement et qui continue d’être utilisée par des milliards d’utilisateurs dans le monde.

Sa popularité croissante a soulevé d’autres questions concernant la manière dont le modèle fabriquait des réponses qui n’étaient pas du tout factuelles, mais qui avaient souvent l’apparence d’informations fiables, parfois étayées par de fausses citations et sources d’appui. Ces réponses ont été qualifiées d' »hallucinations », ce qui a nécessité l’ajout d’une clause de non-responsabilité indiquant que les résultats n’étaient pas toujours exacts ou factuels.

Du texte aux images
Parallèlement à l’attention mondiale portée aux LLM, les applications d’IA générative pour la génération d’images et de vidéos ont également fait l’objet d’une grande attention. Des plateformes telles que DALL-E, Stable Diffusion et Midjourney ont étonné le monde entier en créant des images et des vidéos photoréalistes à partir de textes. Certaines de ces images sont devenues virales et ont attiré l’attention des médias sur l’IA en 2023.

Les modèles d’IA générative évoluent vers des modèles beaucoup plus sophistiqués, avec un nombre inimaginable de paramètres produisant des réponses plus sophistiquées. La phase actuelle de développement concerne les modèles multimodaux, qui peuvent combiner différentes modalités de données telles que le texte, les images, l’audio et la vidéo pour créer des résultats de plus en plus sophistiqués.

De l’image à la vidéo
En février 2024, OpenAI a lancé Sora, décrit comme « un modèle d’IA capable de créer des scènes réalistes et imaginatives à partir d’instructions textuelles ». L’architecture de Sora présente l’évolution de l’IA vers des modèles plus sophistiqués permettant de traiter des données beaucoup plus complexes et de combiner potentiellement différentes modalités.

Les vidéos générées par Sora sont impressionnantes, car en un peu plus d’un an, l’IA est passée du texte, de l’audio et de l’image à un contenu vidéo complexe, photoréaliste et riche. Un résultat intéressant concerne le défi de déterminer ce qui est réel et ce qui est généré par l’IA. Alors que le monde continue d’adopter et d’accepter ces utilisations omniprésentes et sophistiquées de l’IA, d’autres questions sociales et éthiques pressantes doivent être examinées de toute urgence.

L’avenir de l’IA, ce sont les réalités immersives
De nombreuses questions portent sur les impacts, les opportunités et les défis que le développement continu de l’IA introduira au cours des mois et des années à venir. Par exemple, compte tenu de l’impact mondial considérable des LLM, de l’IA générative et de la création de vidéos photoréalistes, qu’est-ce que les deux prochaines années d’innovation pourraient offrir ?

En suivant la trajectoire de l’IA multimodale, l’une des possibilités les plus intéressantes pour l’année à venir concerne la façon dont l’IA pourrait créer des réalités immersives et des mondes virtuels photoréalistes. La possibilité de demander à l’IA de créer et de recréer des espaces est quelque chose de radical, de potentiellement merveilleux, mais aussi de stimulant.

Imaginez que des personnes du monde entier demandent à l’IA de créer un espace immersif pour se détendre, socialiser ou apprendre. Les environnements immersifs complexes ressembleront au monde réel, comme l’indique par exemple Sora d’OpenAI : « Le modèle comprend non seulement ce que l’utilisateur a demandé dans l’invite, mais aussi comment ces choses existent dans le monde physique.

Ma première idée serait d’inciter l’IA à créer un environnement immersif pour apprendre les dialogues de Platon en engageant une conversation avec Socrate et Platon dans l’Athènes antique. Pour ce faire, le modèle a besoin des données requises et, dans ce scénario, les données sont probablement disponibles, et il est probable qu’en utilisant les données disponibles, l’environnement pourrait être créé à un niveau sophistiqué de photo-réalisme. Ainsi, en utilisant les dialogues de Platon et d’innombrables textes académiques, Socrate et Platon apparaissent comme des participants engageants et pourraient communiquer d’une manière (version anglaise) qui pourrait être familière à ceux qui ont lu Platon.

L’essentiel ici est que l’IA crée une expérience qui peut ressembler beaucoup à une expérience réelle, mais elle est créée pour mon contexte et peut être très différente d’une représentation plus exacte. Le potentiel étonnant est que n’importe qui peut demander à l’IA de créer une réalité immersive de son choix et si l’IA dispose des données nécessaires, le modèle fera probablement un travail extraordinaire pour créer une expérience sophistiquée.

Imaginez une recréation des conférences d’Einstein ou l’apprentissage de l’histoire en participant à un événement immersif recréé. Jusqu’à présent, la création d’une telle expérience numérique nécessitait des coûts importants et une expertise humaine en matière de programmation, de conception et de développement. Les utilisations potentielles sont stupéfiantes, allant de l’éducation et de l’apprentissage à l’expérimentation scientifique et à l’engagement social. Tous les aspects du monde pourraient être créés dans des réalités immersives par l’IA.

Il existe d’innombrables autres possibilités, comme un engagement de routine avec un physiothérapeute IA qui pourrait évaluer et guider votre rééducation ou un enseignant personnel dans un environnement immersif où l’apprentissage basé sur la pratique peut être développé de manière nouvelle.

Risques et éthique
Une opportunité importante pour le potentiel de l’IA recréant des mondes immersifs et virtuels pour les personnes est liée à la nécessité de se concentrer maintenant sur l’anticipation et la prise en compte des risques potentiels et des questions éthiques avant que ces technologies ne deviennent largement disponibles, commercialisées et intégrées dans les sociétés.

Une question clé est de savoir comment tirer les leçons des erreurs commises par les médias sociaux et créer des plateformes sociales moins axées sur la technologie publicitaire, l’analyse comportementale et la désinformation, afin de créer des espaces plus positifs sur le plan social. En outre, des questions et des défis importants doivent être relevés en ce qui concerne l’accès et l’inclusion.

Il existe également de sérieuses préoccupations quant à la manière de traiter les préjugés intégrés dans les ensembles de données, en particulier ceux qui s’appuient sur des données historiques et publiques. On sait que les algorithmes et les applications de l’IA amplifient encore les préjugés intégrés, ce qui présente des risques importants de discrimination et de préjudice. En outre, si ces espaces sont des espaces commerciaux, il est nécessaire de faire preuve de plus de transparence en ce qui concerne les modèles commerciaux qui détermineront leur conception et leur utilisation.

Une question fondamentale concerne le respect de la vie privée et le défi de soutenir efficacement les droits à la vie privée. Par ailleurs, qu’en est-il des coûts environnementaux et climatiques de la mise à disposition de l’IA à des milliards de personnes ? Faut-il sensibiliser les gens aux coûts en énergie et en ressources de millions de GPU, de serveurs et d’innombrables centres de données ? Il est important de répondre à ces questions et d’essayer d’anticiper les opportunités et les risques de l’IA et de la prochaine phase d’innovation.

L’utilisation de l’IA et le développement de réalités immersives représentent un marché important. La Commission de l’UE a souligné l’importance stratégique de l’innovation en matière de réalité immersive dans sa stratégie sur les mondes virtuels et les métavers en juillet 2023. Elle prévoit un potentiel de 860 000 nouveaux emplois d’ici 2025 et estime que le marché des mondes virtuels atteindra plus de 800 milliards de dollars d’ici 2030.

L’UE est consciente des défis que représente le traitement de ces questions et une partie de sa stratégie consiste à soutenir la recherche sur l’anticipation et l’amélioration de la valeur sociale des réalités immersives, des mondes virtuels et des métavers.

D’importants développements technologiques sont déjà en cours, la réalité mixte (RM) ayant attiré l’attention du monde entier en février 2024 avec le lancement par Apple de son Vision Pro et de son système d’exploitation visionOS. Le VisionPro est un appareil de réalité mixte, mais Apple le qualifie d’ordinateur spatial.

Compte tenu de toutes ces possibilités d’innovation et de ces questions éthiques, l’université de Limerick (UL) mène des recherches pour évaluer les futures possibilités sociales et commerciales, ainsi que les risques liés au développement des réalités immersives. La recherche se concentre spécifiquement sur la culture et les arts en tant que face sociale et commerciale de l’innovation MR.

La recherche fait partie du projet XTREME, un projet financé par l’UE dans le cadre du programme Horizon Europe, dirigé par l’UIT de Copenhague et composé de 15 partenaires universitaires et industriels. L’équipe interdisciplinaire est chargée de mener des recherches pour anticiper les moyens de rendre la prochaine génération de RM et d’expériences immersives plus éthiques et dignes de confiance.

L’IA et le potentiel des mondes immersifs et virtuels offrent de nombreuses possibilités. La recherche de l’UL se concentrera sur la résolution de certaines des questions sociales et éthiques les plus difficiles liées à la phase émergente de l’innovation en matière d’IA et de mondes immersifs.

L’avenir de l’intelligence artificielle réside-t-il dans la réalité immersive ?

Pierre Berendes

L’avenir de l’intelligence artificielle réside-t-il dans la réalité immersive ?

Pierre Berendes

Sans surprise, nous ne faisons pas confiance aux conseils médicaux dispensés par l’IA

Comment les créateurs de mode indépendants utilisent les technologies émergentes telles que l’IA et la réalité augmentée

Le département VR de Facebook : une catastrophe annoncée