La voie vers des avatars photoréalistes

Il y a dix ans, je dirigeais ma première start-up. En tant que responsable des ventes, je devais parcourir le monde pour trouver de nouveaux clients. Je vivais dans des avions. Bien souvent, ces réunions étaient une véritable perte de temps et de budget. Ce mode de vie fou et plein de voyages m’a fait réfléchir : Lorsque nous nous déplaçons pour une réunion en face à face, nous nous serrons la main, puis nous nous asseyons autour d’une table pendant une heure, et la plupart des informations que nous échangeons sont audiovisuelles. Lorsque ma startup a été rachetée en 2016, je me suis posé la question suivante : Les réunions à distance en RV peuvent-elles ressembler à une expérience en face-à-face ? Cette question a défini ce que j’ai fait pendant les sept années suivantes.

La réalité virtuelle est un rêve de longue date pour beaucoup. Meta (alors Facebook) a racheté Oculus pour 2 milliards de dollars en 2014. Cette opération a inspiré de nombreuses équipes d’ingénieurs dans le monde entier. Mais ce n’était que le début : Selon CNBC, Meta a investi dans les Reality Labs (la division travaillant sur la RV) la somme stupéfiante de 13,7 milliards de dollars rien qu’en 2022 ! Et bien que ce niveau d’investissement semble très audacieux, la motivation est très claire : s’ils construisent un métavers qui est assez bon pour un consommateur moyen, cet investissement sera retourné plusieurs fois. Meta n’est pas la seule entreprise à travailler sur cette technologie : Apple a annoncé ses lunettes Vision Pro avec des avatars réalistes, et quelques autres acteurs travaillent sur des produits similaires. Une rencontre en face à face dans la RV a toujours été une killer app pour les métavers : Imaginez que vous n’ayez plus besoin de voyager ; il vous suffit de mettre un casque, de rencontrer vos partenaires commerciaux dans une belle salle de conférence et, en l’espace de deux minutes, vous oubliez où vous êtes. Le sentiment de présence que l’on ressent dans un casque de RV est époustouflant et ne pourra jamais être atteint dans une configuration de vidéoconférence. Cependant, pour mettre en œuvre l’application de réunions en face à face, nous avons besoin d’avatars réalistes.

La génération d’avatars réalistes est un problème difficile qui se situe à la frontière entre la vision par ordinateur et le graphisme 3D. Ils sont déjà largement utilisés dans les films, mais la création à la volée d’avatars pour des applications grand public reste un problème non résolu. De nombreuses équipes s’y sont attaquées, mais aucune n’a réussi. En même temps, des progrès incroyables ont été réalisés dans ce domaine au cours des dernières années, et il semble que nous soyons sur le point de franchir la vallée de l’étrange et d’obtenir des avatars photoréalistes pour le grand public. Un mélange de paysages technologiques et réglementaires définira à quoi ressemblera la solution pour l’utilisateur final. Voici quelques aspects importants à garder à l’esprit : la collecte/personnalisation des données, la propriété des données et le dispositif de RV. Abordons chacun d’entre eux.

Collecte des données et personnalisation
Une approche des avatars réalistes a été récemment présentée par Meta dans le podcast de Lex Fridman. Elle consiste à enregistrer des vidéos d’une personne dans une cabine de photogrammétrie quadridimensionnelle (un énorme cadre équipé d’une centaine de caméras numériques) afin de capturer tous les détails possibles du visage. Ensuite, un réseau neuronal synthétise un modèle 3D sur chaque image, et ce modèle est rendu dans la RV. L’approche de mon équipe consistait à collecter le moins de données possible sur une personne, en fin de compte un seul selfie. Les deux approches convergeront probablement vers un compromis entre les deux extrêmes, comme l’enregistrement d’une vidéo de téléphone portable. Cette méthode est évolutive, contrairement au passage de chaque consommateur dans une cabine de photogrammétrie, et probablement assez bonne pour construire un avatar 3D réaliste.

Propriété des données
Les données 3-D faisant partie des informations biométriques d’une personne et étant utilisées pour des fonctions de sécurité numérique telles que le déverrouillage d’un téléphone portable, elles doivent être protégées. Au moment de la rédaction de ce texte, cinq États américains disposent de lois réglementant le traitement des données biométriques telles que les scanners faciaux. Le Biometric Information Privacy Act de l’Illinois, considéré comme l’une des lois les plus strictes en matière de protection de la vie privée, a déjà été utilisé dans le cadre de multiples actions en justice contre de grandes entreprises qui collectent des données sur les consommateurs. Les États-Unis (au niveau fédéral) et l’Union européenne devraient leur emboîter le pas et introduire des réglementations en matière de biométrie. La loi européenne sur l’IA, qui a fait couler beaucoup d’encre, met l’accent sur les informations biométriques. Elle contient six définitions liées à la biométrie et, par exemple, l’une des propositions interdit tous les systèmes biométriques à distance en temps réel dans les lieux publics. Cela signifie qu’il sera très difficile d’échanger les données 3-D collectées, qui seront donc probablement collectées et hébergées par l’entreprise qui gère le service d’avatar et possède l’appareil de RV.

Appareils de RV
L’approche actuelle de la création et du rendu d’avatars 3D réalistes impose des exigences difficiles au matériel de RV. Tout d’abord, le casque doit être équipé de quelques caméras qui suivent les expressions faciales. En général, il y aura des caméras séparées pour suivre les yeux et la bouche. Ensuite, le dispositif de RV doit disposer de suffisamment de ressources informatiques pour faire fonctionner les réseaux neuronaux qui génèrent un avatar sur chaque image en temps réel en fonction des entrées de la caméra. Enfin, le système graphique doit être suffisamment puissant pour restituer de manière réaliste le modèle 3D, avec tous les détails, des lunettes transparentes aux longues coiffures. Cela dit, il semble qu’un dispositif similaire à Quest3 soit sur le point d’être suffisant.

Défis actuels
Si les progrès réalisés dans la reconstruction d’avatars réalistes ont été remarquables au cours de la dernière décennie, le moins que l’on puisse dire est que la réalisation d’une réplique numérique exacte de notre monde pose encore de nombreux défis. La plupart de ces limitations découlent de l’inadéquation entre les exigences de pointe de l’infographie et le matériel disponible. Les coiffures et les vêtements longs doivent être animés par une simulation physique pour paraître réalistes. Cela nécessite beaucoup plus de ressources informatiques que ce qu’un système de RV mobile peut offrir aujourd’hui. De nombreuses autres restrictions résultent également d’un compromis entre le poids du casque et la puissance de calcul du GPU.

Compte tenu du rythme des progrès actuels, je pense qu’il est raisonnable de s’attendre à ce que des avatars réalistes pour les consommateurs arrivent dans les prochaines années. Cette quête a passionné de nombreux chercheurs et ingénieurs au cours de la dernière décennie. Et il semble que l’effort collectif porte ses fruits. Nous sommes sur le point d’entrer dans l’ère des avatars réalistes !

Par Victor Erukhimov, Avatar SDK

WP Twitter Auto Publish Powered By : XYZScripts.com