Les nouveaux modèles d’IA créés par Meta peuvent améliorer la qualité de l’audio en réalité virtuelle, affirme l’entreprise.
Les appels Zoom, les réunions dans le métavers et les événements virtuels pourraient tous être améliorés à l’avenir grâce à une série de modèles d’IA développés par les ingénieurs de Meta, qui, selon la société, associent le son à l’image, imitant ainsi la façon dont les humains perçoivent le son dans le monde réel.
Les trois modèles, développés en partenariat avec des chercheurs de l’Université du Texas à Austin, sont connus sous le nom de Visual-Acoustic Matching, Visually-Informed Dereverberation et VisualVoice. Meta a mis ces modèles à la disposition des développeurs.
« Nous avons besoin de modèles d’IA qui comprennent l’environnement physique d’une personne en se basant à la fois sur son apparence et sur la façon dont les choses sonnent », a déclaré la société dans un billet de blog expliquant les nouveaux modèles.
« Par exemple, il y a une grande différence entre le son d’un concert dans une grande salle et dans votre salon. En effet, la géométrie d’un espace physique, les matériaux et les surfaces de la zone, ainsi que la proximité de l’endroit d’où proviennent les sons, sont autant de facteurs qui influent sur la façon dont nous entendons le son. »
Les nouveaux modèles d’IA audio de Meta
Le modèle Visual Acoustic-Matching peut prendre un clip audio enregistré n’importe où, ainsi qu’une image d’une pièce ou d’un autre espace, et transformer le clip pour qu’il sonne comme s’il avait été enregistré dans cette pièce.
Un exemple d’utilisation de ce modèle pourrait être de s’assurer que les personnes participant à un chat vidéo ont le même son. Ainsi, si l’un d’entre eux se trouve chez lui, un autre dans un café et un troisième dans un bureau, le son pourrait être adapté de manière à ce que ce que vous entendez soit comme s’il se trouvait dans la pièce où vous êtes assis.
La déréverbération visuellement informée est un modèle qui fait l’inverse : il prend les sons et les indices visuels d’un espace, puis se concentre sur la suppression de la réverbération de cet espace. Par exemple, il peut se concentrer sur la musique d’un violon même si elle est enregistrée dans une grande gare.
Enfin, le modèle VisualVoice utilise des indices visuels et sonores pour séparer la parole des autres sons et voix de fond, ce qui permet à l’auditeur de se concentrer sur une conversation spécifique. Ce modèle pourrait être utilisé dans une grande salle de conférence où de nombreuses personnes se mélangent.
Cette technique audio ciblée pourrait également être utilisée pour générer des sous-titres de meilleure qualité ou faciliter la compréhension de la parole par l’apprentissage automatique lorsque plusieurs personnes parlent, a expliqué M. Meta.
Améliorer le son dans les expériences virtuelles
Rob Godman, lecteur en musique à l’université de Hertfordshire et expert en espaces acoustiques, a déclaré à Tech Monitor que ce travail s’appuie sur le besoin humain de comprendre où nous nous trouvons dans le monde et l’applique aux environnements virtuels.
« Nous devons réfléchir à la façon dont les humains perçoivent le son dans leur environnement », explique M. Godman. « Les êtres humains veulent savoir d’où vient le son, quelle est la taille d’un espace et quelle est la taille d’un espace. Lorsque nous écoutons un son en cours de création, nous entendons plusieurs choses différentes. L’une d’entre elles est la source, mais vous écoutez également ce qui arrive au son lorsqu’il est combiné avec la pièce – l’acoustique. »
Le fait de pouvoir capturer et imiter correctement ce deuxième aspect pourrait rendre les mondes et les espaces virtuels plus réalistes, explique-t-il, et éliminer la déconnexion que les humains peuvent ressentir si les images ne correspondent pas exactement au son.
Par exemple, lors d’un concert, un groupe se produit en plein air, mais le son est enregistré dans une cathédrale, avec une réverbération importante. Cette réverbération ne serait pas attendue sur une plage, de sorte que le décalage entre le son et l’image serait inattendu et déplacé.
Selon M. Godman, le plus grand changement réside dans la manière dont la perception de l’auditeur est prise en compte lors de la mise en œuvre de ces modèles d’IA. « La position de l’auditeur doit faire l’objet d’une réflexion approfondie », explique-t-il. « Le son émis à proximité d’une personne par rapport à celui émis à plusieurs mètres est important. Il est basé sur la vitesse du son dans l’air, donc un petit retard dans le temps qu’il faut pour atteindre une personne est tout à fait crucial. »
Selon lui, le problème de l’amélioration de l’audio réside en partie dans le manque d’équipement pour l’utilisateur final, expliquant que les utilisateurs « dépenseront des milliers de livres pour un moniteur incurvé mais ne paieront pas plus de 20 livres pour une paire d’écouteurs ».
Le professeur Mark Plumbley, titulaire d’une bourse EPSRC en IA pour le son à l’université du Surrey, développe des classificateurs pour différents types de sons afin de pouvoir les supprimer ou les mettre en évidence dans les enregistrements. « Si l’on veut créer une expérience réaliste pour les gens, il faut que la vision et le son correspondent », explique-t-il.
« C’est plus difficile pour un ordinateur que pour les gens, je pense. Lorsque nous écoutons des sons, il existe un effet appelé marquage directionnel qui nous aide à nous concentrer sur le son provenant d’une personne située devant nous et à ignorer les sons provenant des côtés.
C’est quelque chose que nous avons l’habitude de faire dans le monde réel, dit Plumbley. « Si vous êtes dans un cocktail, avec de nombreuses conversations en cours, vous pouvez vous concentrer sur la conversation qui vous intéresse, nous pouvons bloquer les sons provenant du côté ou d’ailleurs », dit-il. « C’est une chose difficile à faire dans un monde virtuel ».
Selon lui, une grande partie de ce travail a vu le jour en raison des changements dans l’apprentissage automatique, avec de meilleures techniques d’apprentissage profond qui fonctionnent dans différentes disciplines, y compris l’IA du son et de l’image. « Beaucoup de ces choses sont liées au traitement du signal », ajoute Plumbley.
« Qu’il s’agisse de sons, d’ondes gravitationnelles ou d’informations de séries temporelles provenant de données financières. Il s’agit de signaux qui s’inscrivent dans le temps. Dans le passé, les chercheurs devaient construire des méthodes individuelles pour différents types d’objets afin d’en extraire différentes choses. Aujourd’hui, nous constatons que les modèles d’apprentissage profond sont capables d’extraire les modèles. »