Des chercheurs de l'université de Washington aux États-Unis ont annoncé avoir réussi à créer des vidéos factices très réalistes du président Obama grâce à une intelligence artificielle. Ils ont ainsi démontré qu'avec l'aide d'une IA, ils étaient capables de reproduire des sosies numériques de n'importe qui à partir de ses photos présentes sur Internet et de s'inspirer de séquences vidéo et audio réelles pour faire des montages vidéo. Les entreprises technologiques Samsung, Google, Facebook et Intel sont associées à ce programme de recherche mené par l'université de Washington.
Obama - vraies et fausses vidéo
© Inconnu
Cette annonce suggère qu'un jour, il pourrait être relativement facile de créer des mises en scène extrêmement réalistes, en se servant du nombre incalculable de photos numériques qu'on peut trouver sur Internet. C'est d'ailleurs parce que des heures de vidéos et de photos numériques en haute définition et libres d'accès de l'ancien président américain sont disponibles sur Internet que les chercheurs ont décidé d'utiliser l'image d'Obama pour faire la démonstration de leurs travaux. Ils se sont servis d'un réseau neuronal pour analyser des millions d'images et de vidéos d'Obama afin de déterminer l'ensemble des éléments constituant sa mimique faciale lorsqu'il s'exprime (mouvements des lèvres, des dents, de la bouche, des joues, du menton, des yeux...).

S'il est connu que les réseaux neuronaux peuvent être utilisés pour l'identification des visages ou la reconnaissance vocale, il faudra, désormais, prendre en compte le fait qu'ils peuvent également être employés pour générer des montages extrêmement réalistes. Pour obtenir ce résultat, les chercheurs de l'Université de Washington ont laissé le réseau neuronal apprendre les correspondances entre la forme de la bouche d'Obama et les différents sons qu'il peut émettre pendant qu'il s'exprime. Cet apprentissage a, par la suite, permis aux chercheurs de prendre une séquence vidéo originale d'Obama, de remplacer sa bande-son originale par une nouvelle, puis de faire correspondre de nouveaux éléments de mimiques du visage avec la nouvelle bande-son. Avec leur méthode, on pourrait dire, d'une certaine manière, que ce sont les images qui s'adaptent aux sons afin de générer un rendu plus fluide et plus réaliste.

Les chercheurs ont émis l'hypothèse que les correspondances entre les formes de la bouche et les sons produits pendant un discours pourraient être universels permettant ainsi de définir un modèle applicable à la grande majorité des individus. Ira Kemelmacher-Shlizerman, coauteur de l'étude, pense que cette nouvelle technologie pourrait permettre d'améliorer la qualité des vidéoconférences, par exemple, en exploitant le rendu audio pour définir la mimique faciale d'un interlocuteur même en l'absence de flux vidéo. Cette technologie pourrait également trouver des applications dans le domaine de la réalité virtuelle ou augmentée.

Les chercheurs ont, toutefois, précisé que leurs vidéos ne sont pas encore parfaites. Par exemple, lorsqu'Obama tourne son visage et ne regarde plus vers la caméra, une modélisation 3D imparfaite de sa face peut provoquer des incohérences dans le rendu de certaines parties visibles de son visage : proéminence anormale de la bouche par exemple. En outre, l'équipe de recherche note que leur travail n'est pas en mesure de modéliser les émotions. À cause de cela, les expressions faciales d'Obama dans les montages vidéo pourraient paraître inappropriées ou incohérentes selon le contexte. Il serait, cependant, intéressant de voir si le réseau neuronal peut apprendre à prédire les états émotionnels en fonction de la source audio traitée afin de reproduire les éléments adéquats de la mimique visuelle.

Même s'ils ont pris le soin de n'utiliser que des séquences vidéo et des bandes-son déjà existantes d'Obama pour réaliser leurs montages, Supasorn Suwajanakorn, coauteur de l'étude, n'exclut pas la possibilité de réaliser des vidéos totalement factices dans un avenir proche en exploitant des informations que le personnage de la vidéo n'a jamais utilisées dans la réalité. Mais il estime aussi que de nouvelles techniques pourraient permettre de détecter ce genre de montages vidéo. « C'est difficile à distinguer pour les yeux humains, mais un programme utilisé pour comparer les niveaux de flou entre la région de la bouche et le reste de l'image peut facilement être développé et fonctionnera de manière assez fiable », a déclaré Suwajanakorn.


Source : University of Washington Study (PDF), Spectrum IEEE