Deepfakes et portraits vidéo en profondeur - quels sont-ils et quelles sont leurs différences?

Vous savez certainement ce qu'est Deepfake, mais vous ne savez peut-être pas ce que c'est ou ce que cela signifie vraiment. Vous ne savez peut-être pas qu'il existe différentes technologies pour créer de fausses vidéos et audio.

Nous connaissons tous les images "photoshoppées" et jusqu'où elles sont allées. Nous introduisons également des effets vidéo (VFX) et des effets spéciaux qui sont utilisés dans les films depuis des décennies. Mais une nouvelle ère de faux médias arrive à cause de Deepfakes.

Les technologies Deepfake et Deep Video Portrait sont deux techniques similaires mais différentes utilisées dans les films hollywoodiens, les vidéos YouTube et oui, la pornographie. Mais quelle est vraiment cette technologie et comment fonctionne-t-elle?

Si vous n'avez toujours pas vu la vidéo calomniant le visage de Nicholas Cage sur un autre acteur de cinéma, alors vous avez probablement vu beaucoup de "filtres" ou "masques" des médias sociaux qui font de vous un chat, ajoutez un cuisinier. mettez un chapeau sur votre tête ou faites-en une seule couleur.

Vous avez probablement vu des vidéos BuzzFeed dans lesquelles le comédien et impressionniste Jordan Pil montre dans la vidéo comment quelqu'un peut manipuler son visage (dans ce cas, l'ancien président Barack Obama) et semble dire quelque chose qu'il n'a jamais fait.

Vous avez peut-être même entendu que la star de Wonder Woman, Gal Gadot, apparaît dans une vidéo prétendument adulte dans un faux film intitulé "Depths" par un utilisateur de Reddit. Le visage de Gadot a été ajouté au corps d'une star du porno en décembre dernier. Deepfakes.

Alors, qu'est-ce que Deepfake?

Vous pourriez penser que la base de Deepfakes est le "remplacement du visage".

Deepfake est une vidéo compatible avec l'IA qui est créée en prenant plusieurs photos (généralement des centaines ou des milliers) d'une personne source. Ces images peuvent être téléchargées à partir d'un certain nombre de sources, notamment Instagram, Facebook, Snapchat ou même la recherche d'images Google.

Deepfake AI cartographiera le visage des images source et créera un modèle 3D basé sur les photos que vous regardez. Le modèle cartographie les visages et les caractéristiques du réalisateur:

Source: https://hackernoon.com/building-a-facial-recognition-pipeline-with-deep-learning-in-tensorflow-66e7645015b8 Par Cole Murray

Le programme fournit également une vidéo source avec un visage cible que l'utilisateur souhaite modifier. L'IA cartographie également le visage de la personne dans la vidéo et crée un autre modèle de carte 3D.

Simon Lucy, professeur de recherche à la CMU, se sert de modèle pour présenter le logiciel de cartographie faciale développé pour son détaillant de verrerie. Crédit: Simon Lucey / CMU

L'IA commence à faire correspondre le modèle source avec le modèle cible. Il "apprend" les visages à travers les images (données d'exercices), qui ressemble un peu à:

Exemple d'exercice de remplacement de visage - Adi Robertson par Elon Musk et Jeff Bezos, Source: https://www.theverge.com/2018/2/11/16992986/fakeapp-deepfakes-ai-face-swapping

L'IA supprime ensuite le visage 3D généré des photos sur le modèle 3D de la vidéo cible et produit une vidéo qui correspond aux mouvements du visage, de la bouche, des yeux, etc. visage d'origine.

La source de Deepfake est la série d'images, et le résultat de Deepfake est une vidéo en face-à-face qui a été modifiée à titre d'exemples:

Qu'est-ce qui rend ce portrait vidéo profond différent?

La différence entre "Deepfake" et "Deep Video Portrait" (DVP pour raccourcir) se décline en deux différences majeures:

  1. La vidéo de DVP ne remplace pas le visage, mais contrôle uniquement les fonctionnalités
  2. La source de DVP ne provient pas de photos personnelles mais d'acteurs en direct.

DVP n'est pas un remplacement de visage. C'est une manipulation faciale. Marionnettes vidéo.

La vidéo liée au début de cet article montre qu'Obama parle de fausses vidéos, pas un faux, mais un exemple de DVP. Il y a un acteur dont le visage est montré sur la carte, et si vous n'avez pas changé le visage cible mais seulement déplacé le visage cible, le résultat est encore plus crédible que la profondeur photographique.

Les créateurs de DVP peuvent faire des choses comme cligner des yeux, ouvrir la bouche, lever les sourcils et tourner la tête. À leur tour, des voix plus profondes ne peuvent pas distraire des actions vidéo originales. C'est pourquoi DVP peut faire confiance plus que tout ce qui est profond.

Cet exemple donne un aperçu plus approfondi du fonctionnement de cette technologie de "maquillage et réintégration":

Le masque de filtre Snapchat ou Instagram est DVP, pas Deepfake. C'est parce que vous (la cible ne change pas de visage), mais votre visage est mappé et l'application ferme simplement quelque chose sur votre visage:

Portraits vidéo faux et profonds

Il existe un autre type de faux contenu qui s'est récemment amélioré et est devenu plus populaire - la création de sons.

En 2016, Adobe Max a présenté Adobe VoCo lors d'une conférence créative: une suite audio qui aide les utilisateurs à dire aux gens ce qu'ils veulent. Pensez à traduire le texte en paroles, mais en vous basant sur la vraie voix de quelqu'un.

La société affirme qu'un auditeur de 20 minutes permettra à VoCo de sortir une véritable piste vocale de type source. La sortie est générée par un ordinateur exécutant le logiciel.

Adobe VoCo n'a plus vraiment été entendu depuis 2016, probablement après que les problèmes de confidentialité et de confidentialité ont été soulevés. Il a été présenté sur un "forum d'idées" qui n'a pas été annoncé comme nouveau produit. Il a suscité la curiosité, l'enthousiasme et le débat, mais ne s'attendait pas exactement à sa sortie.

Maintenant que les idées et la technologie sont disponibles, d'autres sociétés ont lancé leur propre technologie sonore. Lyrebird a publié un service qui créera pour vous un "avatar vocal" basé sur seulement 30 phrases (basé sur des données approximatives de 20 minutes pour VoCo).

Alors que VoCo a besoin de ressources informatiques locales pour fabriquer ses produits, Lyrebird utilise des ressources cloud à grande échelle et, par conséquent, accélère considérablement la production. Lyrebird nécessite également 30 phrases spécifiques contre un style de parole de base de 20 minutes qui peut réduire la frustration et d'autres faiblesses.

La fraude audio avec DVP peut accroître la confiance. C'est parce que vous n'écoutez pas l'impression que quelqu'un peut perdre une impression, mais plutôt une représentation plus proche de la propre voix de la personne cible.

Technologie hybride

FaceSwap est un programme qui vous permet de combiner le face-à-face de Deepfake, mais presque personne d'autre en temps réel. Combine Deepfake et DVP.

Résumé

Ces technologies continueront de s'améliorer. Bien que de nombreuses utilisations soient amusantes et capricieuses, cette technologie a un impact énorme.

Deepakes et DVP affecteront sans aucun doute notre vision de la vérité, de la confiance et de la confidentialité. Mais la discussion sur la moralité, les problèmes et les effets sociaux (bons et mauvais) dépasse le cadre de cet article.

Jusqu'à présent, la seule solution est de remettre en question ce que vous avez vu et entendu.

Photo de Mikes Pexels Pictures