Pourquoi la course à la détection des vidéos "deepfake" s'intensifie-t-elle ?

Alors que le monde entier tente de faire face à l’augmentation des contenus améliorés par l’IA et des vidéos « deepfake », tout en s’inquiétant des abus potentiels, des chercheurs d’Abou Dhabi travaillent sur des technologies qui pourraient jouer un rôle crucial dans la lutte contre les tentatives de tromperie.

« Nous avons mis au point un ensemble de technologies qui ont permis de faire progresser de manière significative la détection et la caractérisation des deepfakes », explique Hao Li, professeur associé de vision par ordinateur à l’université Mohamed Bin Zayed d’intelligence artificielle.

« Il ne s’agit pas seulement de détecter », a déclaré le professeur Li, qui est également directeur du Metavers Lab de l’université. « Il s’agit de savoir d’où il vient et quelle était son intention », a-t-il ajouté.

En 2022, l’université a été citée comme demandeur d’un brevet américain pour un « transformateur vidéo pour la détection de deepfake », qui consisterait hypothétiquement en « un dispositif d’affichage lisant la vidéo deepfake potentielle et indiquant si la vidéo est réelle ou fausse ».

Researchers at MBZUAI have been working on various technologies such as this application, seen in a patent filing, that could potentially detect deepfake videos. Photo: US patent and trademark office

Il ne s’agit que de l’un des nombreux domaines de recherche du MBZUAI consacrés à l’utilisation croissante des outils de mise en œuvre de l’IA vidéo et à la génération de contenu par l’IA, a déclaré le professeur Li.

« Il devient de plus en plus difficile de créer un deepfake indétectable », a-t-il ajouté.

Le professeur Li a déclaré que l’université faisait des progrès dans le domaine de l’identification de la désinformation et des fausses nouvelles, en citant Preslav Nakov, professeur de traitement du langage naturel, dont les recherches tournent autour de l’analyse de la désinformation.

« Il est l’expert de référence en matière de détection des fausses nouvelles », a-t-il déclaré.

Ces efforts s’inscrivent dans un contexte d’inquiétude croissante à l’échelle mondiale face à la prolifération d’outils de manipulation vidéo pilotés par l’IA et d’applications permettant de créer des images photoréalistes à l’aide de quelques phrases seulement.

L’année dernière, il y a eu au moins 121 « incidents liés à l’IA » qui ont ensuite donné lieu à des éclaircissements, soit une augmentation de 30 % par rapport à l’année précédente, selon l’entreprise de cybersécurité Surfshark.

« Ce chiffre représente un cinquième de tous les incidents d’IA documentés entre 2010 et 2023, marquant 2023 comme l’année avec le plus grand nombre d’incidents dans l’histoire de l’IA », a déclaré Agneska Sablovskaja, chercheuse chez Surfshark.

Certaines célébrités, comme Tom Hanks, Scarlett Johansson et Emma Watson, ont été victimes de générateurs d’images alimentés par l’IA, qui ont produit des contenus non autorisés montrant les acteurs en train de promouvoir divers produits.

Même le pape François s’est retrouvé au centre d’une photo virale générée par l’IA, qui le représentait vêtu d’une veste blanche à manches longues.

Plus récemment, X, anciennement Twitter, a dû temporairement désactiver les recherches sur Taylor Swift, après que plusieurs utilisateurs ont inondé la plateforme de fausses images infâmes de la superstar de la pop, générées par l’IA.

Les images de Mme Swift ont suscité une rare initiative bipartisane de la part des sénateurs américains, baptisée « Defiance Act » (loi sur la défiance), afin que les responsables de la prolifération d’images et de vidéos non consensuelles et sexuellement explicites (deepfake) aient à répondre de leurs actes.

« Les victimes ont perdu leur emploi et peuvent souffrir de dépression ou d’anxiété », a déclaré la commission sénatoriale sur le pouvoir judiciaire.

« En introduisant cette législation, nous redonnons du pouvoir aux victimes, nous sévissons contre la distribution des images truquées et nous tenons les responsables de ces images pour responsables.

Il reste à voir si la législation proposée deviendra une loi américaine.

Selon le professeur Li, la portée internationale de l’intelligence artificielle pose des défis uniques aux législateurs et aux gouvernements qui tentent de mettre en place des garde-fous contre l’IA et les « deepfakes ».

« Il est très difficile de mettre en œuvre quelque chose de global », a-t-il déclaré.

« Le problème est que les cadres juridiques et les réglementations ne suivent pas vraiment l’évolution de la technologie et la manière dont les gens l’utilisent. Même si vous punissez la personne [qui crée le deepfake], le mal est déjà fait ».

Le professeur Li a toutefois déclaré que, malgré les nombreuses raisons de s’inquiéter, la recherche sur la détection des deepfakes dans le monde entier rattrape rapidement son retard, et il reste optimiste quant aux avantages de l’IA pour les photos, les vidéos et les sons.

Selon lui, il existe de nombreuses applications, telles que le doublage de traductions, où l’IA pourrait être très utile.

Il a donné l’exemple d’une vidéo améliorée par l’IA de la réunion annuelle du Forum économique mondial de 2024 comprenant un discours prononcé par le président argentin Javier Milei, où le discours du dirigeant a été doublé en anglais à l’aide d’un outil d’une société appelée HeyGen.

Contrairement à la plupart des vidéos traduites où la voix ne correspond pas à l’orateur et où les mouvements de la bouche ne correspondent pas aux sons, la vidéo de M. Milei semblait montrer qu’il parlait un anglais parfait.

Le discours a été visionné des millions de fois sur diverses plateformes de médias sociaux et a suscité de nombreuses discussions sur les avantages potentiels des outils vidéo améliorés par l’IA.

« La technologie devient très robuste », a déclaré le professeur Li, qui est également directeur et cofondateur de Pinscreen, une société d’IA spécialisée dans le développement d’avatars virtuels photoréalistes.

« C’est un excellent exemple de la façon dont on peut l’utiliser [l’IA] pour quelque chose qui n’est pas mauvais », a-t-il ajouté.

De même, d’autres outils d’amélioration de la vidéo par l’IA, tels que ceux proposés par la startup Camb.AI, fondée aux Émirats arabes unis, ont également été utilisés pour maximiser la portée internationale des vidéos.

L’Open d’Australie a annoncé qu’il utiliserait la technologie de Camb.AI pour les interviews d’après-match des stars du tennis.

« Notre mission est de rendre chaque sport véritablement mondial, en maximisant l’engagement des fans dans le monde entier », a déclaré le cofondateur de Camb.ai, Akshat Prakash, peu après l’annonce du partenariat de la société avec l’Open d’Australie en janvier.

« Nos technologies permettent aux fans du monde entier de regarder n’importe quel sport dans la langue de leur choix, en temps réel ».

Tout au long du tournoi, une multitude de vidéos ont été publiées sur la page YouTube de l’Open d’Australie.

On y voit Novak Djokovic et Coco Gauff « parler » couramment l’espagnol, tandis que Jannik Sinner « converse » en mandarin.

Les métavers rencontrent l’IA
Au MBZUAI, le professeur Li a déclaré que l’IA s’avérerait également utile pour concrétiser les visions ambitieuses des technologies des métavers, qui sont des espaces virtuels où interagissent des personnes représentées par des avatars.

L’année dernière, l’université a annoncé la création du Centre des métavers du MBZUAI (MMC), chargé de diriger le développement des technologies des métavers infusées par l’IA.

« Ce centre englobe plusieurs laboratoires de recherche », a-t-il déclaré.

« Mon laboratoire travaille sur la réalité générative, un autre se concentre sur les jumeaux numériques, un autre sur la musique générative et un autre encore sur l’IA générative multimodale.

Selon lui, l’IA a permis de corriger certaines des critiques formulées à l’encontre des premières itérations des métavers, dont certains estimaient qu’elles ressemblaient trop à des jeux vidéo.

« Nous sommes désormais en mesure de construire quelque chose qui ressemble à la réalité », a-t-il déclaré, assis devant un ordinateur contenant sept unités de traitement graphique et un écran holographique capable de montrer des deepfakes de haute fidélité et des mondes virtuels immersifs.

« L’idée est de construire une simulation capable de créer une expérience d’apprentissage pour les gens de manière immersive », a-t-il déclaré.

Les progrès de l’IA et des métavers peuvent être utilisés efficacement à des fins éducatives, a-t-il ajouté, ce qui permettra aux étudiants en langues de voyager virtuellement dans d’autres pays et d’apprendre auprès de professeurs virtuels qui ont l’air réels.

« Ces choses deviendront possibles au cours de la prochaine décennie », a-t-il déclaré.

Pourquoi la course à la détection des vidéos « deepfake » s’intensifie-t-elle ?

Pierre Berendes

Pourquoi la course à la détection des vidéos « deepfake » s’intensifie-t-elle ?

Pierre Berendes

Apple propose désormais une formation en IA à des milliers d’étudiants et de développeurs

Comment l’IA et le métavers vont-ils impacter la Datasphère ?

Les humains virtuels de l’IA sont autonomisés par les métavers, l’échelle du marché de l’IA devrait dépasser les 10 milliards en 2025.