Samsung Deepfake-KI macht Videos aus einem Foto

Samsungs DeepFake KI kann anhand eines einzigen Fotos (oder Portraits) ein Video eines sprechenden Gesichts konstruieren. (Bildquelle: Youtube/Egor Zakharov)

Das Erstellen von gefälschten Videos könnte künftig deutlich leichter zu bewerkstelligen sein als bislang: Wie Gizmodo berichtet, hat das Samsung AI Center in Moskau in Kooperation mit dem Skolkovo Institute of Science and Technology eine KI entwickelt, die anhand eines einzelnen Fotos einer Person ein Video generieren kann.

Lernende KI für Civilization - KI-Revolution aus Deutschland

Um die KI sogenannte Talking-Head-Models erstellen zu lassen, also gefälschte Videoaufnahmen, in denen das Gesicht einer Person spricht, gingen die Forscher folgendermaßen vor:

Als Basis für das Video einer spezifischen Person trainierten sie die KI über Machine Learning mit 32 Bildern der Vorlage. Darauf basierend bastelte die KI ein »perfekt realistisches« Video.

Link zum YouTube-Inhalt

Die KI selbst macht sich die von einem Embedder-Netzwerk markierten Merkmale des Gesichts einer Person zunutze, um anhand derer eigene Bewegtbilder zu synthetisieren. Die Forscher beschreiben den zugehörigen Lernprozess folgendermaßen:

"Unsere Meta-Lern-Architektur beinhaltet das Embedder-Netzwerk, das Bilder von Gesichtern für die Embedding-Vektoren kartografiert [...]. Das Generator-Netzwerk überträgt eingegebene Gesichtsmerkmale auf ausgegebene Einzelbilder über ein Set an Konvolutionsebenen [...].

Während des Meta-Lernprozesses speisen wir Einzelbilder aus demselben Video durch den Embedder, ermitteln das durchschnittliche Ergebnis und nutzen es, um die adaptiven Parameteer des Generators vorherzusagen.

Dann speisen wir die Merkmale eines anderen Einzelbildes durch den Generator und vergleichen das Ergebnis mit dem echten Bild. "

Samsungs DeepFake KI überträgt ein auf das Wesentliche reduziertes Bewegungsmodell eines Gesichts auf das Foto einer anderen Person (Bildquelle: Youtube/Egor Zakharov)

Die Entwickler der KI demonstrieren, dass die KI anhand weniger oder sogar nur eines einzelnen Fotos »personalisierte sprechende Kopf-Modelle« erstellen kann, wenn man sie zuvor mit einem entsprechenden Videodatenset trainiert hat.

Als Anwendungsbereiche kommen den Forschern zufolge die Filmindustrie und die Spieleentwicklung sowie vergleichbare Industrien mit Bedarf an Spezialeffekten infrage.

Allerdings besteht auch bei Samsungs KI eine Missbrauchsgefahr - Wie Fotos werden damit auch Videos zu einem sehr einfach fälschbaren Medium.