Wie Deepfakes unsere Wahrheit herausfordern

Wäre das Ibiza-Video, das die politischen Karrieren von Johann Baptist Gudenus und Heinz-Christian Strache beendet hat, erst in ein paar Jahren aufgetaucht, möglicherweise hätte die FPÖ versucht, den Clip als Deepfake zu verunglimpfen, als eine täuschend echt wirkende Fälschung. Das merkte zumindest ein User im STANDARD-Forum neulich süffisant an. Tatsächlich werden solche gefälschten und manipulierten Videos immer häufiger und auch besser, sprich authentischer. Sie werden auch zusehends länger, weil in der Produktion kostengünstiger. Siebenstündiges Videomaterial wäre aber dennoch eine Herkulesaufgabe. Kurze Clips, die täuschend echt wirken, sind aber schon heute mitunter im Netz zu finden.

Was sind Deepfake-Videos, und wie funktionieren sie?

Deepfake-Videos sind gefälschte Videos, in denen vor allem Politikern oder Firmenchefs gern irgendwelche Worte in den Mund gelegt werden, die sie so nie sagen würden – zumindest öffentlich. Aber auch die Köpfe berühmter Schauspielerinnen werden immer öfter in Pornofilme und explizite Sexszenen hineinmutiert.

Das ist grundsätzlich nichts Neues, gefälschte Videos gibt es fast so lange, wie es Videos selbst gibt. "Aber wenn ich bisher ein Video fälschen wollte, musste ich sehr viel über Bildmanipulation und Videotechnik wissen", sagt Alexander Aigner, der sich im Rahmen der Forschungsgruppe Sichere Informationssysteme an der FH Oberösterreich mit Deepfakes auseinandersetzt. Heute reiche ein durchschnittlicher Gaming-PC, um über Nacht ein kurzes Deepfake-Video berechnen zu lassen. Programmierkenntnisse sind dafür nicht nötig.

Was man hingegen braucht, ist Videomaterial von der Person, der man Worte in den Mund legen will. Je mehr und je besser aufgelöst, desto echter das Ergebnis. Von prominenten Persönlichkeiten existieren oft etliche Stunden Videomaterial aus Interviews, Ansprachen oder Spielfilmen – ein Riesenkatalog an perfekten Lernressourcen für die Deepfake-Videos.

Okay, und wie funktioniert das genau?

Jetzt wird's kurz technisch. Hinter Deepfakes stecken Deep-Learning-Algorithmen, daher auch der Name. Das sind Netzwerke aus künstlichen Neuronen, die ähnlich funktionieren sollen wie das menschliche Gehirn. Bei der Erzeugung von Deepfakes treten zwei solcher Netzwerke gegeneinander an.

Eines erstellt den Fake, das zweite bewertet das Video. Bei jedem Durchlauf lernen die Netzwerke dazu. Nach sehr vielen Runden – es können Millionen sein – ist die Täuschung fast perfekt. Diese Spielart der künstlichen Intelligenz nennt man Generative Adversarial Networks (GANs). Mit dieser Technologie lassen sich auch täuschend echte Fotos von Gesichtern oder Landschaften erzeugen, die es gar nicht gibt.

Das Video, das vermeintlich US-Präsident Obama bei einer Ansprache zeigt, in dem er seinen Nachfolger Donald Trump als Idioten bezeichnet, war eines der ersten wirklich viralen Fakevideos, das die Aufmerksamkeit der Menschen auf die potenziellen Implikationen dieser neuen Technologie lenkte.

Kann man das nicht mit freiem Auge erkennen?

Nun ja, ein geschultes, internetaffines Auge sollte die meisten Deepfakes in seiner Gesamtheit noch als solche entlarven können, könnte man meinen. Und ja, vor allem wenig professionell hergestellte Videos, oft auch Cheapfakes genannt, sind auf den zweiten Blick oft relativ eindeutig zu enttarnen. "Für viele Verfahren sind geometrische Abhängigkeiten noch ein Problem, zum Beispiel Spiegelungen oder Schatten", sagt Eckehard Hermann, Professor für Cloud Security an der FH Oberösterreich. Hier seien oft Artefakte erkennbar.

Tatsächlich hilft aber meist nur, dass das Gesagte besonders skurril wirkt. Jeder weiß, dass Ex-US-Präsident Barack Obama seinen Nachfolger nie öffentlich einen kompletten Vollidioten nennen würde. Und dennoch haben die Menschen Probleme mit der Identifizierung von Deepfakes.

Forscher der Universitäten Stanford und Princeton haben gemeinsam mit Adobe Research und dem Max-Planck-Institut für Informatik in einer Versuchsreihe mit 138 Freiwilligen kürzlich erstaunliche Ergebnisse ans Licht gebracht. Sage und schreibe 60 Prozent der Teilnehmer hielten die gezeigten Deepfakes dabei für echt. Fast noch beunruhigender ist jedoch die Tatsache, dass rund 20 Prozent der Menschen das Original für einen Fake hielten. Zwar betonen die Forscher, dass die Untersuchten wussten, in einer Studie für Fakevideos teilzunehmen, und deshalb bewusst nach etwaigen Fehlern suchten, dennoch könnte dies ein Vorbote eines erschreckenden Sittenbilds unserer Gesellschaft sein.

Was bedeutet das für die Zukunft?

Die Philosophieprofessorin Regina Rini hat in der "New York Times" diesbezüglich eine sehr interessante Frage aufgeworfen: Was bedeuten stetig besser werdende Deepfakes epistemologisch? Wie verändert sich unser Verständnis für den Erkenntnisgewinn? Wir messen Beweisen eigentlich jeweils eine bestimmte Vertrauenswürdigkeit, eine gewisse Reliabilität zu.

Was wir mit eigenen Augen sehen und mit unseren Ohren hören, ist meist die zuverlässigste Form – der Einfluss von Müdigkeit, berauschenden Substanzen, Abgelenktheit oder einfach ein Fortschreiten der Zeit lassen solche Erinnerungen aber oft verblassen oder verzerren. Videos und Bilder von Situationen helfen hier, da man sie sich wiederholt anschauen oder etwa auf bestimmte Szenen hineinzoomen kann.

In Zeiten von Photoshop wurde man Fotos gegenüber bereits misstrauischer. Eine qualitativ hochwertige Videomanipulation konnten sich aber maximal Hollywood und manch ein Geheimdienst leisten. Wenn nun aber schon bald jeder Teenager per Smartphone-App ein Gesicht auf eine andere Person transferieren kann, muss die Frage gestellt werden, ob ein Video noch solch ein letztgültiger Beweis sein kann, als der es heute vielleicht angesehen wird.

Wenn ein Deepfake zu produzieren schon bald so einfach sei, wie jemandem eine Lüge aufzutischen, argumentiert Rini, dürfe man Videos künftig auch nur noch als eines von mehreren Indizien für die Wahrheitsfindung heranziehen – selbstverständlich nur, bis die Authentizität eines Videos geklärt ist. Auch deshalb bedarf es vertrauenswürdiger Checks durch Medien und Privatpersonen, wie es etwa die "Süddeutsche Zeitung" und der "Spiegel" taten, bevor sie mit den Ibiza-Videos an die Öffentlichkeit gingen. Weil nicht jede Person über die Möglichkeit verfügt, solche Videos selbst auf deren Richtigkeit zu untersuchen, braucht es glaubwürdige Instanzen oder Medien, die einem diese Rolle abnehmen. Die "Washington Post" trainiert ihre Mitarbeiter bereits in der Erkennung von Deepfakes.

Warum ist es besonders in der Politik so folgenschwer?

In den vergangenen Monaten folgten mit dem Video von Facebook-Chef Mark Zuckerberg und dem der vermeintlich betrunkenen Sprecherin des US-Repräsentantenhauses Nancy Pelosi weitere virale Hits, die, wie zahlreiche Kommentare zeigten, anfangs von sehr vielen Personen für real gehalten wurden.

Bei der Neujahrsansprache des Präsidenten von Gabun vom Jänner 2019 ist indes immer noch nicht geklärt, ob es sich um ein echtes oder ein gefaktes Video handelt. Ali-Ben Bongo Ondimba hatte zuvor im Oktober 2018 während einer Saudi-Arabien-Reise vermutlich einen Schlaganfall erlitten und war über Wochen und Monate nicht in der Öffentlichkeit zu sehen, was Spekulationen über seine Krankheit beziehungsweise gar seinen etwaigen Tod befeuert hatte. Gabuns Verfassung sieht für den Fall einer Amtsunfähigkeit des Staatsoberhaupts eine Übernahme durch den Senatspräsidenten sowie sofortige Neuwahlen binnen 60 Tagen vor, was die seit 43 Jahren an der Macht befindliche Familie und Partei unbedingt verhindern wollten.

Kritiker sahen vor allem die asynchronen Bewegungsabläufe von Augen mit Kiefer als Indiz für eine Fälschung. Auch dass er binnen zwei Minuten lediglich 13-mal blinzelte, schien untypisch für den Präsidenten.

Man entschied sich deshalb für eine Videoansprache, um die Gesundheit des Präsidenten zu bezeugen. Das Video schien aber nicht nur wegen des Schnitts und der Haltung, sondern auch wegen der seltenen Blinzler – Analysen zeigten, dass Bongo Ondimba ansonsten doppelt so oft blinzelt – verdächtig. Im Zuge der Spekulationen kam es in Gabun sogar zu einem letztlich gescheiterten Putschversuch durch das Militär. Ali-Ben Bongo Ondimba ist nach wie vor im Amt und zeigt sich mittlerweile wieder öfter in der Öffentlichkeit. Dennoch zeigt der Fall, welch politische Brisanz Deepfake-Videos haben können. Vor allem politische Kurzschlussreaktionen wie ein Umsturzversuch oder, noch schlimmer, ein Atomwaffeneinsatz beunruhigen Experten.

Was, wenn sich jemand in Donald Trumps Twitter-Account hackt und dort ein Deepfake-Video des amtierenden US-Präsidenten, in dem er einen soeben eingeleiteten Angriff auf Nordkorea verkündet, veröffentlicht? Nordkoreas Führung müsste binnen Sekunden reagieren und entscheiden, ob sie ihrerseits Atomwaffen für einen Gegenschlag zünden will, warnen Experten. Der republikanische Senator Marco stellte im Präsidentschaftswahlkampf 2016 auch deshalb die Gefahr durch virale Deepfakes auf eine Höhe mit jener der Atomwaffen – was kausal nicht zweifelsfrei logisch, aber bezeichnend für die Alarmbereitschaft in der Politik ist.

In einem Paper merken die Juristen Robert Chesney und Danielle Citron außerdem an, dass immer besser werdende Fakes zu einem Phänomen führen könnten, das die beiden "liar's dividend" nennen – Lügner-Dividende. Lassen sich irgendwann echte Aufnahmen nicht mehr von Fälschungen unterscheiden, wird es für Lügner leichter, sich aus der Verantwortung zu ziehen, da echte Videos – Stichwort Ibiza – leichter als Fake abgetan werden könnten.

Wie kann man Deepfakes erkennen?

Solche katastrophalen politischen Verhältnisse, die schlimmstenfalls zum Atomkrieg führen können, zu verhindern liegt wohl im Interesse aller. So wird momentan eifrig an Gegenmaßnahmen geforscht – auch beim US-Militär. Das Pentagon gibt mittlerweile hohe Millionenbeträge für die Erkennung von Deepfake-Videos aus.

Im Internet existieren öffentlich zugängliche Datenbanken, die alle bisher entlarvten Deepfakes sammeln. Führt man sich allerdings vor Augen, wie leicht es ist, neue Fakes zu erstellen, bleibt das auf Dauer wohl ein sinnloses Unterfangen.

Vielversprechender ist es, Deepfake-Produzenten mit ihren eigenen Waffen zu schlagen, nämlich mit künstlicher Intelligenz. Mit Tools wie Shallow-AI lassen sich Ungereimtheiten in Videos aufdecken. Andere Algorithmen setzen darauf, die Körpersprache bekannter Politiker besser zu kennen als die Programme der Fälscher und so Fakes zu entlarven.

Technische Gegenmaßnahmen haben aber immer den Nachteil, dass sie die Programme der Fälscher besser machen können – das liegt in der Natur der selbstlernenden Software (siehe links), die Deepfakes entstehen lässt. Dieser Logik zufolge lernen die Deepfakes also mit jeder Gegenmaßnahme noch mehr dazu und produzieren deshalb nur noch bessere Videos. Das gab auch der Programmmanager des Pentagon-Projektes, David Gunning, gegenüber der "MIT Technology Review" zu bedenken.

Der Bundesstaat New York geht deshalb noch einen Schritt weiter und will das Verbreiten von Fake-Videos unter Strafe stellen. Widerstand gegen das Gesetz regt sich vonseiten der Filmindustrie. Das Gesetz würde die Freiheit, Filme über real existierende Personen zu drehen, einschränken, kritisierte etwa Disney.

Kann ich selbst Deepfakes erzeugen?

Ja. Man nehme mindestens zwei Videosequenzen, die Gratissoftware Fakeapp und einen halbwegs guten Computer. Nach wenigen Stunden ist der Deepfake fertig. Je besser die Grafikkarte, desto schneller geht es.

Wie kann man sich gegen Deepfakes schützen?

Momentan wird an vielen Forschungseinrichtungen daran geforscht, wie man Foto-, Ton- und Videoaufnahmen fälschungssicher gestalten kann. Eckehard Hermann hat an der FH Oberösterreich mit seinem Team eine Software entwickelt, die nachträgliche Manipulationen – und dazu zählen nicht nur Deepfakes – erschweren soll. Ein sogenanntes Trusted Platform Module stellt sicher, dass auf einer Kamera nur vertrauenswürdige Software läuft, und erfasst GPS-Koordinaten, Uhrzeit und die Seriennummer der Kamera. Dieser digitale Fingerabdruck wird dann mit der Aufnahme verschmolzen. Dadurch lässt sich nachprüfen, ob das Video nachträglich verändert wurde.

Lösungen wie diese stecken aber noch in den Kinderschuhen. Zudem müssten Onlineplattformen wie Facebook oder Youtube diese Technologien erst implementieren und etwa den Fingerabdruck beim Upload überprüfen.

Eine Lowtech-Lösung, um Deepfakes der eigenen Person zu vermeiden, wäre es, möglichst wenig Bildmaterial von sich ins Netz zu stellen. Es könnte nämlich schnell zum Futter für die selbstlernenden GANs werden.

Aber gibt es denn gar nichts Positives an Deepfakes?

Doch! Deepfakes klingen zunächst einmal furchteinflößend. Und ganz ehrlich: Das sind sie auch. Was auf den ersten Blick gruselig klingt, könnte aber eigentlich eine gute Sache sein. Denn Deepfakes könnten Tote zum Leben erwecken.

Wer schon einmal persönlich mit Holocaust-Überlebenden gesprochen hat, weiß, welch prägende Erfahrung das sein kann. Sie machen die Gräueltaten der NS-Zeit begreifbar, ihre Geschichten berühren auf einer persönlichen Ebene.

Kinder, die jetzt geboren werden, werden das dunkelste Kapitel Österreichs wohl nur noch aus dem Schulbuch kennenlernen, denn die letzten Holocaust-Überlebenden sterben. Die vom Filmemacher Steven Spielberg gegründete Shoah Foundation will das ändern. Das Projekt Dimensions in Testimony soll die Geschichten der Zeitzeugen weiterhin in Schulklassen und Museen bringen, künstliche Intelligenz hilft dabei.

In einer ersten Version sprechen Hologramme, aufwendig produzierte Videoaufnahmen aus mehreren Blickwinkeln, die zu einem dreidimensionalen Modell kombiniert wurden. Momentan sind es noch fixe Videosequenzen, in Zukunft soll man sich mit den Hologrammen unterhalten können.

Deepfakes könnten auch große Künstler und Denker wieder zum Leben auferstehen lassen, wie etwa den surrealistischen Maler Salvador Dalí. In einem Interview sagte er einmal: "Ich glaube zwar an den Tod, aber an den Tod von Dalí – absolut nicht." Und er sollte recht behalten. Das Dalí-Museum in Florida lässt den 1989 verstorbenen Maler mit dem unverkennbaren gezwirbelten Schnurrbart nun wieder auferstehen – per Deepfake. Auf einem lebensgroßen Bildschirm wartet der Künstler, die aktuelle "New York Times" lesend, auf Aktivierung und erzählt auf Abruf Geschichten aus seinem Leben, kommentiert das aktuelle Wetter und lädt zum Selfie ein.

Das klingt alles unterhaltsam und spannend. Aber wissen wir, ob Salvador Dalí selbst in einem Bildschirm weiterleben wollte? Und was, wenn die digitalen Abbilder verstorbener Zeitzeugen politisch instrumentalisiert werden? Und verlieren wir unsere kritische Distanz zur Technologie, wenn sie ein freundliches Gesicht hat?

Deepfakes klingen gefährlich, weil sie die Glaubwürdigkeit von Videos bröckeln lassen. Aber ganz ehrlich: Videos waren nie fälschungssicher, genauso wenig, wie es Texte, Bilder, Statistiken oder Tonaufnahmen jemals waren. Und trotzdem glauben immer noch viele Menschen irreführender Werbung auf Facebook, schicken Kettenbriefe auf Whatsapp weiter und informieren sich auf politisch motivierten Fake-News-Seiten.

Vielleicht machen wir uns in einer Welt, in der alles gefälscht sein könnte, einfach mehr Gedanken darüber, was wir glauben und teilen, hinterfragen Quellen und denken an mögliche Absichten und Konsequenzen. Bisher waren wir nämlich nicht besonders gut darin. (Philip Pramer, Fabian Sommavilla, 21.6.2019)

Alles Fake