Les besoins en matière de thermique et de performances nécessiteront des architectures complexes et des changements technologiques, qui ne sont pas tous disponibles aujourd’hui.
Le métavers repousse les limites de la conception des puces, malgré l’incertitude quant à la puissance brute dont ces appareils auront besoin pour offrir un mélange immersif de réalité augmentée, virtuelle et mixte.
Le grand défi du développement de ces systèmes est la capacité de traiter des types de données mixtes en temps réel alors que les données circulent sans interruption à la vitesse de l’éclair. Cela nécessite l’intégration de systèmes, ainsi que de systèmes de systèmes. Le fonctionnement sans faille nécessitera des avancées au niveau des puces et au-delà :
Les processeurs doivent être suffisamment puissants pour éviter les sauts de signaux. Dans le même temps, le système doit être conçu de manière à ne pas vider les batteries trop rapidement. Pour atteindre cet équilibre, il faut un mélange d’éléments de traitement, dont beaucoup devront être conçus sur mesure pour des tâches et des types de données spécifiques, avec des chemins de données prioritaires pour acheminer rapidement les données là où elles sont nécessaires.
Les casques doivent être suffisamment froids pour être portés à proximité du visage pendant de longues périodes. Un téléphone intelligent peut devenir trop chaud pour être tenu confortablement si l’écran est actif pendant une période prolongée. Un appareil porté à proximité du visage nécessite un niveau de chaleur encore plus faible que le téléphone, même si la quantité de données informatiques est beaucoup plus importante.
Une bande passante massive est nécessaire pour transférer les données d’image et de vidéo dans les deux sens. Cela peut généralement être réalisé avec une connexion sans fil à haut débit dans un environnement fixe tel qu’une maison ou un bureau. Mais dans les applications mobiles, ces appareils peuvent être à la recherche de signaux, car la fréquence plus élevée requise pour transporter ces signaux est susceptible d’être interrompue par tout, des conditions météorologiques aux autres objets en mouvement.
Les architectures devront être suffisamment souples pour intégrer les changements de protocoles de communication et d’autres normes en cours d’évolution, ce qui nécessitera un certain niveau de programmabilité. Cela pourrait avoir un impact sur les performances si cela n’est pas fait correctement. Et le fait d’apporter ces changements dans le logiciel pourrait ralentir considérablement les systèmes, nécessiter plus de traitement, ce qui à son tour générerait plus de chaleur.
Un dispositif qui répond à toutes ces exigences nécessite « une évolution du matériel et de l’efficacité », a déclaré Amol Borkar, directeur de la gestion des produits, du marketing et du développement commercial pour les DSP Tensilica Vision et AI chez Cadence. « Cet espace est encore naissant. Les casques fonctionnant sur batterie sont aujourd’hui essentiellement des prototypes. Ce dispositif aura probablement les mêmes capacités de calcul que les smartphones modernes, mais compte tenu de la proximité du visage de l’utilisateur, le profil énergétique devra être beaucoup plus faible. Je suppose qu’il en sera de même pour les émissions ».
En fait, dans certains cas, il pourrait être relié à un téléphone intelligent. « Il y a beaucoup de questions sur ce que vous voulez faire sur un dispositif comme les lunettes, par rapport à ce que vous voulez faire sur un élément connecté », a déclaré Steve Woo, inventeur distingué et fellow chez Rambus. « Une possibilité est que votre téléphone puisse être un hub où une partie du traitement peut être déchargé. C’est un peu un meilleur environnement que quelque chose comme des lunettes. Mais il s’agit toujours d’un appareil fonctionnant sur batterie, et si vous vous trouvez à côté d’un appareil branché au mur, vous pouvez peut-être y décharger une partie du traitement. Mais le temps de réponse sera si important qu’il faudra que tout soit fait aussi près que possible de l’appareil. »
D’autres citent des contraintes similaires. « Nous considérons les métavers comme tout ce qui améliore les téléphones mobiles », a déclaré Pablo Fraile, directeur du segment du marché domestique chez Arm. « Il y a un certain nombre de directions que cette technologie pourrait prendre pour les wearables. La RA et la RV sont les extrêmes de ce spectre, et les contraintes pour chacun de ces extrêmes sont très différentes. Nous pensons également que les métavers seront déployés dans différents environnements – à la maison, au bureau, à l’extérieur ou à l’intérieur de la voiture – et la connectivité sera donc absolument essentielle. Et cette connectivité n’est pas seulement entre l’utilisateur et le réseau, mais entre les différents appareils que les gens vont porter sur eux, car vous pouvez avoir différents appareils portables en même temps. »
Une grande vision, beaucoup de jetons
On pense souvent que les métavers seront principalement utilisés pour les jeux ou une version 3D animée des médias sociaux. Mais il a potentiellement des utilisations beaucoup plus larges dans les applications industrielles et d’entreprise, et chacune de ces applications aura des exigences technologiques et des architectures de puces très différentes.
Dave Keller, président et directeur général de TSMC North America, a fait référence au métavers lors d’une récente présentation, notant que la RA a déjà été largement utilisée par ses clients et en interne pour la formation. « Pendant le verrouillage, nous avons utilisé HoloLens pour travailler à distance avec nos fournisseurs d’équipements aux États-Unis et en Europe », a-t-il déclaré, ajoutant que le métavers permettra d’aller encore plus loin. « L’année dernière, le métavers a fait bondir tout le monde sur la convergence du réel et du virtuel dans l’ère numérique. Cela nécessitera la conductivité 5G, le cloud et l’edge computing. »
Cela nécessitera également une énorme quantité de puissance. « Vous aurez besoin d’environ 1 000 fois plus de puissance de calcul pour vivre dans le métavers », a déclaré Adam White, président de la division Power and Sensor Systems d’Infineon. Il a ajouté qu’avec la RA/VR, la grande question est de savoir comment générer suffisamment de puissance pour que tout cela fonctionne.
« Nos serveurs ne sont pas encore capables de gérer les métavers », a déclaré Shawn Slusser, vice-président senior des ventes, du marketing et de la distribution pour Infineon Americas. « Et puis il y a tout cet environnement de type capteur, IoT, qui doit alimenter le métavers. C’est comme un écosystème, et cet écosystème n’a pas encore été construit. Cela prendra un certain temps. »
Fraile, d’Arm, est d’accord. « Nous devons passer par une phase d’apprentissage, à la fois sur la façon d’utiliser ces choses et sur la façon de les construire », a-t-il déclaré. « Cela ne veut pas dire que les défis sont bien plus grands que tout ce que nous avons vu auparavant. Mais il s’agit d’une technologie incroyablement difficile à mettre en place. Et faire en sorte que ces choses se synchronisent et aient l’air réalistes va être un travail difficile. Il ne s’agit pas seulement de connectivité. Il s’agit aussi de la gestion et de la compression des données. Toutes ces technologies doivent encore émerger, dans une certaine mesure, et il existe un grand nombre de recherches dans ces domaines. »
Tout cela implique un grand nombre de semi-conducteurs, dont beaucoup seront hautement personnalisés.
« Une fois que cela commence à se construire dans un marché de taille raisonnable, alors vous commencez à voir de plus en plus d’innovation dédiée », a déclaré Woo de Rambus. « On peut le constater avec les montres intelligentes, qui constituent désormais leur propre catégorie et justifient un développement unique. Vous verrez la même chose avec la RA et la RV à mesure que vous trouverez les bonnes applications et que de plus en plus de personnes commenceront à les adopter et à résoudre les problèmes. La mémoire sera un grand défi pour ce type de mise en œuvre. »
L’intégration de ces appareils afin qu’ils puissent échanger des informations en douceur constitue un autre défi. Si, dans un premier temps, cette intégration s’appuiera sur les infrastructures et les approches de communication existantes, elle mettra ces systèmes à rude épreuve, car le volume de données circulant dans les infrastructures câblées et sans fil augmente considérablement.
Les développeurs AR/VR attendent depuis le nœud de 28 nm que les processeurs offrent des performances suffisantes à une puissance suffisamment faible pour que cela soit possible. Ce qu’ils n’ont pas anticipé, c’est l’ampleur de l’évolution des architectures informatiques au cours de cette période. Ainsi, au lieu de se contenter d’attendre des processeurs de 5 ou 3 nm, les principaux acteurs de ce marché conçoivent désormais leurs propres puces pour donner la priorité au flux de données, en utilisant des architectures hétérogènes qui intègrent une certaine forme d’IA, des E/S beaucoup plus rapides, ainsi que des éléments de calcul de nœuds avancés.
C’est essentiel, compte tenu des exigences de traitement et de résolution des appareils métavers. « Nous parlons de deux pilotes d’affichage, 4K x 4K », a déclaré Hezi Saar, directeur principal du marketing produit chez Synopsys. » Ils doivent avoir un débit binaire élevé, RVB 30 bits, 90 Hz minimum en termes de fréquence. Il s’agit donc d’environ 40 ou 50 gigabits par seconde et par œil. Cela permet d’obtenir une très haute résolution et de ne pas créer le mal des transports ou quoi que ce soit d’autre. Vous aurez besoin de caméras pour voir l’environnement à votre place, d’une connectivité avec un processeur XR et d’une connectivité avec les pilotes d’affichage, également. »
Saar a noté qu’une grande partie de l’innovation dans ce domaine viendra probablement d’un accélérateur XR capable d’intégrer de nombreuses fonctions. « L’accélérateur XR qui connecte le monde extérieur ou les caméras fait l’interpolation des caméras, prend les informations des films ou des jeux ou autre du processeur XR, et les superpose. Il s’agit d’un SoC fortement accéléré par le XR, et c’est pour cela que nous voyons arriver des modèles. Ils nécessitent des capacités de très faible consommation sur USB, des récepteurs MIPI, des émetteurs pour la caméra et des ports multiples pour l’affichage. La faible consommation est importante. La chaleur est un problème. L’alimentation est toujours un problème. Mais nous voyons le marché aller de l’avant ».
Beaucoup de ces puces seront personnalisées pour un environnement ou un cas d’utilisation particulier, et la plupart des entreprises qui se disputent le leadership dans ce domaine conçoivent leur propre silicium pour les tâches les plus lourdes. Dans le cas de Meta, par exemple, l’entreprise a opté pour une puce 3D car, selon elle, l’intensité de calcul ne sera pas aussi élevée pour la réalité augmentée que pour la réalité virtuelle, où l’arrière-plan entier doit être constamment rafraîchi. Par conséquent, les problèmes thermiques qui ont ralenti l’adoption de la 3D-IC ne seront pas un facteur important, et les distances que les signaux doivent parcourir seront plus courtes, avec moins de résistance et de capacité.
Une opportunité pleine d’inconnues
Comme pour la plupart des nouvelles opportunités de marché, les métavers sont un concept évolutif aux implications non évolutives. Son manque de définition est à peu près équivalent au concept de l’informatique périphérique, que la plupart des fabricants de puces ont considéré comme une vaste opportunité, mais qui a mis près de dix ans à se concrétiser. La périphérie est toujours en cours d’élaboration et il n’est pas clair qui seront les grands gagnants dans cet espace.
Mais la périphérie jouera également un rôle essentiel dans les métavers, et vice versa. Aujourd’hui, nous voyons beaucoup de ces appareils composés principalement d’un écran, de caméras, de micros et d’autres capteurs dans le casque, mais toute l’informatique se trouve généralement dans un « pack ceinture » ou un pack informatique. Avec le temps, nous verrons tout cela fusionné dans un casque autonome. Nous pensons également que les casques deviendront beaucoup plus ergonomiques, esthétiques et non invasifs », a déclaré M. Borkar. « Nous avons été tellement gâtés par nos smartphones que la durée de vie de la batterie devrait se situer dans une fourchette similaire de 8 à 12 heures sans recharge lorsque ces dispositifs AR/VR deviendront courants. Il est peu probable qu’une personne moyenne soit heureuse d’utiliser ces appareils si elle doit les recharger fréquemment ou être obligée de transporter une banque d’alimentation. »
Ces appareils auront également besoin d’une architecture évolutive ainsi que de capacités permettant de prendre en charge les clusters multicœurs et le multithreading, explique M. Borkar. « C’est important lorsque la distribution de la charge de travail est nécessaire pour répondre aux différentes exigences de performance des algorithmes », dit-il. « Par exemple, vous pouvez avoir des réseaux d’IA légers fonctionnant en temps réel avec une fréquence d’images élevée, et en même temps, un autre réseau d’IA léger fonctionnant également en temps réel mais avec une fréquence d’images beaucoup plus faible, et enfin un troisième réseau qui est lourd en termes de calcul mais qui fonctionne rarement ou en mode rafale. L’architecture doit être capable de jongler efficacement avec ces charges de travail entre plusieurs clusters ou architectures au moment de l’exécution afin de fournir le meilleur profil de puissance et de performance à l’utilisateur. »
En parlant de FPS, Borkar note que la création d’un appareil qui ne donne pas la nausée est une entreprise compliquée. « Il y a plusieurs facteurs en ce qui concerne la fréquence de rafraîchissement », a déclaré Borkar. « Il y a la fréquence de rafraîchissement de l’écran, le suivi de la tête et le pipeline de rendu, ainsi que la latence globale. Du côté de l’affichage, il est souvent recommandé que chaque écran affiche 1080p au minimum avec une fréquence de rafraîchissement de 90 Hz. En outre, les algorithmes de suivi de la tête doivent être capables de suivre le mouvement de la tête de l’utilisateur de manière transparente et précise. Les algorithmes SLAM actuels, qui utilisent la fusion des capteurs des caméras, de l’IMU (unité de mesure inertielle) et d’autres entrées, peuvent suivre avec précision le positionnement 6DoF à une fréquence minimale de la caméra, qui est généralement de 60-90 FPS. Les algorithmes peuvent être encore optimisés pour produire des estimations de pose à 1KHz en se basant uniquement sur les données IMU. La plupart des pipelines graphiques fonctionnent généralement à 60-90 Hz également. »
« Par conséquent, pour consommer ces informations de pose à 1KHz, des techniques avancées de traitement d’image de type space-warps et time-warps sont mises en œuvre pour créer des images intermédiaires (sans rendre des images entièrement nouvelles), donnant l’apparence d’un pipeline de rendu très rapide. Le dernier facteur est la latence, qui est généralement mesurée en tant que latence MPT (motion to photon), ou le temps entre le mouvement mesuré et son enregistrement à l’écran. Tous ces facteurs réunis sont importants pour éviter que l’utilisateur ait la nausée », a-t-il déclaré.
M. Saar de Synopsys prévoit que la majorité des semi-conducteurs liés aux métavers seront utilisés dans des lunettes intelligentes. Ces dispositifs seront probablement utilisés comme une sorte d’extension d’un smartphone, du moins dans un avenir proche, dit-il. La nature tandem d’une combinaison lunettes-smartphone résout certains des défis techniques des dispositifs métavers. « Il projettera des choses à l’œil pour que vous puissiez voir que vous avez un message ou que quelqu’un vous appelle », a déclaré Saar. « L’appareil lui-même peut prendre quelques photos, mais pas beaucoup plus. La plupart du temps, il est complètement hors tension et ne s’allume que lorsqu’il y a une interruption. Cela signifie que toute la puissance de calcul provient du téléphone, et que la connexion entre le téléphone et les lunettes sert principalement à la capture d’informations et d’images. Je vois cela comme un métavers léger. »
Conclusion
Il est certain qu’une grande partie du matériel sous-jacent des métavers reste inconnue et imprévisible. Frank Schirrmeister, vice-président chargé des solutions et du développement commercial chez Arteris IP, souligne que le monde de la technologie n’est pas encore parvenu à un consensus, même sur les questions de base concernant la nature réelle des métavers. Les réponses provisoires entraînent encore plus de questions. « Comment collecter les données ? Comment sécuriser les données ? Comment s’assurer que les gens n’enregistrent pas des choses qu’ils ne veulent pas enregistrer ? »
Quoi qu’il en soit, M. Schirrmeister estime que l’optimisation de la composante « centre de données » des métavers sera essentielle, tout comme la mise en place de l’infrastructure appropriée pour l’hyperconnectivité. Les modèles de monétisation pourraient ressembler davantage à quelque chose issu du monde des contrats de défense. « Il ne s’agit plus seulement d’un téléphone ou d’un appareil par le biais duquel vous voulez fournir du contenu aux consommateurs, mais vous voulez l’intégrer à un contrat plus important et peut-être à un service plus important », a-t-il déclaré. « Il pourrait s’agir d’un grand projet dans le cadre duquel vous vendez essentiellement le matériel, l’installation, la construction, la personnalisation du logiciel et même la maintenance des données tout au long du processus. Vous vendez tout cela comme un grand projet groupé. C’est un monde très différent. »