Dans un avenir proche, un assistant d’intelligence artificielle se sentira chez lui dans vos oreilles, vous chuchotant des conseils pendant que vous vaquez à vos occupations quotidiennes. Il participera activement à tous les aspects de votre vie, en vous fournissant des informations utiles lorsque vous parcourez les rayons d’un magasin bondé, lorsque vous emmenez vos enfants chez le pédiatre – et même lorsque vous prenez un en-cas rapide dans un placard, dans l’intimité de votre maison. Il sera le médiateur de toutes vos expériences, y compris de vos interactions sociales avec vos amis, vos parents, vos collègues de travail et les étrangers.
Bien entendu, le terme « médiateur » est un euphémisme qui signifie que l’on permet à une IA d’influencer ce que vous faites, dites, pensez et ressentez. Nombreux sont ceux qui trouveront cette notion effrayante, et pourtant, en tant que société, nous accepterons cette technologie dans nos vies, nous permettant d’être continuellement encadrés par des voix amicales qui nous informent et nous guident avec une telle compétence que nous nous demanderons bientôt comment nous avons pu vivre sans cette assistance en temps réel.
Assistants d’IA avec prise en compte du contexte
Lorsque j’utilise l’expression « assistant d’IA », la plupart des gens pensent à des outils de la vieille école comme Siri ou Alexa qui vous permettent de faire des demandes simples par le biais de commandes verbales. Ce n’est pas le bon modèle mental. En effet, les assistants de nouvelle génération comprendront un nouvel ingrédient qui changera tout : la connaissance du contexte.
Cette capacité supplémentaire permettra à ces systèmes de répondre non seulement à ce que vous dites, mais aussi aux images et aux sons qui vous entourent, captés par des caméras et des microphones installés sur des dispositifs alimentés par l’IA que vous porterez sur vous.
Que vous l’attendiez avec impatience ou non, les assistants d’IA contextuels arriveront dans la société en 2024, et ils changeront considérablement notre monde en quelques années seulement, libérant un flot de capacités puissantes ainsi qu’un torrent de nouveaux risques pour la vie privée et l’action de l’homme.
Du côté positif, ces assistants fourniront des informations précieuses partout où vous irez, en coordination précise avec ce que vous faites, dites ou regardez. Ces conseils seront délivrés de manière si fluide et naturelle qu’ils ressembleront à un superpouvoir – une voix dans votre tête qui sait tout, des spécifications des produits dans la vitrine d’un magasin aux noms des plantes que vous croisez lors d’une randonnée, en passant par le meilleur plat que vous pouvez préparer avec les ingrédients éparpillés dans votre réfrigérateur.
D’un autre côté, cette voix omniprésente pourrait se révéler très persuasive, voire manipulatrice, lorsqu’elle vous assiste dans vos activités quotidiennes, en particulier si les entreprises utilisent ces assistants de confiance pour déployer une publicité conversationnelle ciblée.
Émergence rapide de LLM multimodaux
Le risque de manipulation par l’IA peut être atténué, mais il faut pour cela que les décideurs politiques se concentrent sur cette question cruciale, qui a été largement ignorée jusqu’à présent. Bien sûr, les régulateurs n’ont pas eu beaucoup de temps – la technologie qui rend les assistants contextuels viables pour une utilisation courante n’est disponible que depuis moins d’un an.
Il s’agit d’une nouvelle classe de modèles de langage multimodaux à grande échelle, capables d’accepter en entrée non seulement des textes, mais aussi des images, des sons et des vidéos. Il s’agit d’une avancée majeure, car les modèles multimodaux ont soudain donné aux systèmes d’IA leurs propres yeux et oreilles, et ils utiliseront ces organes sensoriels pour évaluer le monde qui nous entoure tout en donnant des conseils en temps réel.
Le premier modèle multimodal grand public a été ChatGPT-4, publié par OpenAI en mars 2023. L’entrée majeure la plus récente dans cet espace a été Gemini LLM de Google, annoncé il y a quelques semaines.
L’entrée la plus intéressante (pour moi personnellement) est le LLM multimodal de Meta appelé AnyMAL qui prend également en compte les indices de mouvement. Ce modèle va au-delà des yeux et des oreilles, en ajoutant un sens vestibulaire du mouvement. Il pourrait être utilisé pour créer un assistant IA qui ne se contente pas de voir et d’entendre tout ce que vous vivez – il prend même en compte votre état physique de mouvement.
Les nouvelles Ray-Ban de Meta ouvrent la voie
Cette technologie d’IA étant désormais disponible pour le grand public, les entreprises s’empressent de l’intégrer dans des systèmes capables de vous guider dans vos interactions quotidiennes. Cela signifie qu’il faut placer une caméra, un microphone et des capteurs de mouvement sur votre corps de manière à alimenter le modèle d’IA et à lui permettre de vous fournir une assistance contextuelle tout au long de votre vie.
L’endroit le plus naturel pour placer ces capteurs est dans les lunettes, car cela permet de s’assurer que les caméras regardent dans la direction du regard de la personne. Les microphones stéréo des lunettes (ou des oreillettes) peuvent également capturer le paysage sonore avec une fidélité spatiale, ce qui permet à l’IA de connaître la direction d’où proviennent les sons – comme les chiens qui aboient, les voitures qui klaxonnent et les enfants qui pleurent.
À mon avis, l’entreprise qui ouvre actuellement la voie aux produits de cet espace est Meta. Il y a deux mois, elle a commencé à vendre une nouvelle version de ses lunettes intelligentes Ray-Ban, configurée pour prendre en charge des modèles d’IA avancés. La grande question que je me posais était de savoir quand Meta mettrait en place le logiciel nécessaire pour fournir une assistance contextuelle à l’IA.
Ce n’est plus une inconnue : le 12 décembre, la société a commencé à fournir un accès anticipé aux fonctionnalités de l’IA, qui comprennent des capacités remarquables.
Dans la vidéo de présentation, Mark Zuckerberg a demandé à l’assistant d’IA de lui suggérer un pantalon assorti à une chemise qu’il regardait. L’assistant a répondu par des suggestions pertinentes.
Des conseils similaires pourraient être fournis pour cuisiner, faire les courses, voyager et, bien sûr, socialiser. De plus, l’assistance tiendra compte du contexte. Par exemple, elle vous rappellera d’acheter de la nourriture pour chien lorsque vous passerez devant une animalerie.
Humane est une autre entreprise très en vue qui s’est lancée dans ce domaine. Elle a mis au point une broche portable équipée de caméras et de microphones. Son dispositif est expédié depuis le début de l’année 2024 et captera probablement l’imagination des amateurs de technologie purs et durs.
Cela dit, je pense personnellement que les capteurs portés sur les lunettes sont plus efficaces que les capteurs portés sur le corps parce qu’ils détectent la direction du regard de l’utilisateur et qu’ils peuvent également ajouter des éléments visuels à la ligne de mire. Ces éléments sont aujourd’hui de simples superpositions, mais au cours des cinq prochaines années, ils deviendront des expériences de réalité mixte riches et immersives.
Que ces assistants d’intelligence artificielle contextuels soient activés par des lunettes, des oreillettes ou des broches dotées de capteurs, ils seront largement adoptés au cours des prochaines années. En effet, ils offriront des fonctions puissantes allant de la traduction en temps réel de langues étrangères au contenu historique.
Mais surtout, ces dispositifs fourniront une assistance en temps réel lors des interactions sociales, en nous rappelant le nom des collègues que nous rencontrons dans la rue, en nous suggérant des choses amusantes à dire pendant les pauses de la conversation, ou même en nous avertissant lorsque notre interlocuteur commence à s’agacer ou à s’ennuyer sur la base d’indices faciaux ou vocaux subtils (jusqu’à des micro-expressions qui ne sont pas perceptibles par les humains mais facilement détectables par l’intelligence artificielle).
Oui, les assistants IA chuchotant feront paraître tout le monde plus charmant, plus intelligent, plus conscient des réalités sociales et potentiellement plus persuasif puisqu’ils nous coachent en temps réel. Et cela deviendra une course aux armements, les assistants s’efforçant de nous donner un avantage tout en nous protégeant de la persuasion des autres.
Les risques de l’influence conversationnelle
En tant que chercheur sur les impacts de l’IA et de la réalité mixte, je m’inquiète de ce danger depuis des décennies. Pour sensibiliser les gens, j’ai publié il y a quelques années une nouvelle intitulée Carbon Dating, qui raconte l’histoire d’une IA fictive qui chuchote des conseils à l’oreille des gens.
Dans l’histoire, un couple âgé a son premier rendez-vous, sans qu’aucun des deux ne dise quoi que ce soit qui ne soit pas guidé par l’IA. Il pourrait tout aussi bien s’agir du rituel de cour de deux assistants numériques, et non de deux humains, et pourtant ce scénario ironique pourrait bientôt devenir monnaie courante. Pour aider le public et les décideurs à prendre la mesure des risques, Carbon Dating a récemment été transformé en métavers 2030 par l’Office of Data Protection Authority (ODPA) du Royaume-Uni.
Bien entendu, les risques les plus importants ne sont pas liés aux assistants d’IA qui s’immiscent dans nos conversations avec nos amis, notre famille et nos relations amoureuses. Les risques les plus importants sont liés à la manière dont les entreprises ou les entités gouvernementales pourraient injecter leur propre agenda, permettant ainsi de puissantes formes d’influence conversationnelle qui nous ciblent avec un contenu personnalisé généré par l’IA afin de maximiser son impact sur chaque individu. Pour sensibiliser le public à ces risques de manipulation, l’Alliance des métavers responsables a récemment publié Privacy Lost.
Avons-nous le choix ?
Pour de nombreuses personnes, l’idée de permettre aux assistants d’IA de leur chuchoter à l’oreille est un scénario effrayant qu’elles veulent éviter. Le problème, c’est qu’une fois qu’un pourcentage significatif d’utilisateurs sera coaché par de puissants outils d’IA, ceux d’entre nous qui refuseront ces fonctionnalités seront désavantagés.
En fait, le coaching par l’IA fera probablement partie des normes sociales de base de la société, et toutes les personnes que vous rencontrerez s’attendront à ce que vous receviez des informations sur elles en temps réel au cours d’une conversation. Il pourrait devenir impoli de demander à quelqu’un ce qu’il fait dans la vie ou où il a grandi, car ces informations apparaîtront simplement dans vos lunettes ou vous seront chuchotées à l’oreille.
Et lorsque vous direz quelque chose d’intelligent ou de perspicace, personne ne saura si vous l’avez inventé vous-même ou si vous ne faites que répéter l’assistant IA dans votre tête. Le fait est que nous nous dirigeons vers un nouvel ordre social dans lequel nous ne sommes pas seulement influencés par l’IA, mais où nos capacités mentales et sociales sont effectivement augmentées par les outils d’IA fournis par les entreprises.
J’appelle cette tendance technologique la « mentalité augmentée » et, bien que je pense qu’elle soit inévitable, je pensais qu’il nous faudrait encore du temps avant d’avoir des produits d’IA entièrement capables de guider nos pensées et nos comportements quotidiens. Mais grâce à des avancées récentes telles que les LLM contextuels, il n’y a plus d’obstacles techniques.
Cela va arriver, et cela va probablement conduire à une course à l’armement dans laquelle les titans de la grande technologie se battront pour se vanter d’être capables d’injecter les conseils les plus puissants de l’IA dans vos yeux et vos oreilles. Et bien sûr, cette poussée des entreprises pourrait créer une dangereuse fracture numérique entre ceux qui peuvent s’offrir des outils d’amélioration de l’intelligence et ceux qui ne le peuvent pas. Pire encore, ceux qui n’ont pas les moyens de payer un abonnement pourraient être poussés à accepter des publicités sponsorisées diffusées par le biais d’une influence conversationnelle agressive alimentée par l’IA.
Est-ce vraiment l’avenir que nous voulons déclencher ?
Nous sommes sur le point de vivre dans un monde où les entreprises peuvent littéralement mettre des voix dans nos têtes qui influencent nos actions et nos opinions. C’est le problème de la manipulation de l’IA, et il est très inquiétant. Nous avons besoin de toute urgence d’une réglementation agressive des systèmes d’IA qui « bouclent la boucle » autour des utilisateurs individuels en temps réel, détectant nos actions personnelles tout en exerçant une influence personnalisée.
Malheureusement, le récent décret de la Maison Blanche sur l’IA n’a pas abordé cette question, tandis que le récent AI ACT de l’UE n’a fait que l’effleurer. Pourtant, les produits de consommation conçus pour nous guider tout au long de notre vie sont sur le point d’inonder le marché.
À l’aube de 2024, j’espère sincèrement que les décideurs politiques du monde entier se concentreront sur les dangers uniques de l’influence conversationnelle alimentée par l’IA, en particulier lorsqu’elle est délivrée par des assistants conscients du contexte. S’ils abordent ces questions de manière réfléchie, les consommateurs pourront bénéficier des avantages des conseils de l’IA sans que celle-ci n’entraîne la société sur une voie dangereuse. Il est temps d’agir.