von Felix Kartte, Tim Frehler, Christina Brause und Benjamin Läpple
Diese Meldung stammt aus dem folgenden Briefing des Dossiers Schattenspieler:
Entgegen vieler Befürchtungen sind Audio-Deepfakes im EU-Wahlkampf bisher keine Bedrohung gewesen. Es besteht also kein Grund zur Panik, entspannt zurücklegen sollte man sich aber auch nicht voreilig. Das zeigte im Herbst 2023 ein Fall in der Slowakei. Zwei Tage vor der Wahl war eine Audio-Aufnahme auf Facebook gepostet worden, auf der angeblich zu hören sein sollte, wie der Vorsitzende der Liberalen Partei mit einer Journalistin darüber sprach, das Wahlergebnis zu manipulieren.
Heute leider leicht: „KI-Modelle haben sich stark weiterentwickelt. Die Stimme eines Politikers oder einer Politikerin zu klonen, war vor zwei Jahren noch sehr aufwendig“, sagte Nicolas Müller, der am Fraunhofer-Institut für Angewandte und Integrierte Sicherheit AISEC zu Audio-Deepfakes forscht.„Geübte Personen brauchten für den kompletten Prozess ein bis zwei Tage“, sagte Müller. Mittlerweile reiche eine 30 Sekunden lange Aufnahme, die in eins der zahlreichen Online-Tools hochgeladen werden könne. „Vielleicht ist nicht das erste Ergebnis, das generiert wird, gut genug. Aber in der Regel kann jeder Laie in einer halben Stunde einen guten Fake erstellen.“
Danke für nichts: Einer der aufsehenerregendsten Fälle von Audio-Deepfakes ereignete sich im Januar im US-Bundesstaat New Hampshire. Eine künstlich erzeugte Stimme, die US-Präsident Joe Biden imitierte, hatte potenzielle Wähler in Wahlkampfanrufen dazu aufgerufen, nicht an den Vorwahlen teilzunehmen. Ein politischer Berater der Demokraten bestätigte später, hinter den Anrufen zu stecken. Er habe, so seine Darstellung, auf die Gefahr aufmerksam machen wollen. Gegen den 54-Jährigen wurde im Mai offiziell Anklage erhoben.
Schwer, nicht unmöglich – so enttarnt man Deepfakes: Das erste Mittel der Wahl ist das Gehör. Eine monotone Stimme, metallischer Klang, falsch ausgesprochene Wörter, zeitliche Verzögerungen, unnatürliche Pausen oder Geräusche – all das können erste Indikatoren für synthetische Stimmen sein. Handelt es sich um einen vermeintlichen Deepfake einer bekannten Person, sollte man die Aufnahme auch mit anderen Audioaufnahmen der Person vergleichen. Vor allem spezifische Charakteristika in der Sprechweise – wie Akzente oder Betonungen – sind für manche Fake-Tools noch immer schwer nachzuahmen.
Training: Das Fraunhofer AISEC hat ein Audio-Quiz entwickelt, mit dem sich jeder selbst testen und sein Ohr schulen kann. In einer Nutzerstudie mit rund 400 Teilnehmern verbesserten sich die Leute im Mittel von rund 67 auf 80 Prozent Erkennungsquote. „Die dort benutzten Audio-Fakes sind jedoch schon zwei bis fünf Jahre alt“, sagte Müller. Mittlerweile gebe es deutlich bessere.
Tech vs Tech: Um neuere Deepfakes zu erkennen, ist es daher nahezu unerlässlich, Software-Tools einzusetzen. Diese suchen nach technisch-forensischen Hinweisen, die darauf hindeuten können, dass KI zum Erstellen der Aufnahme genutzt wurde. Solche Tools sind zum Beispiel „AI or not“ oder der „Deepfake-o-Meter“ der Universität Buffalo. Auch KI-Firmen wie „Eleven Labs“ bieten Tools an, die gezielt überprüfen, ob Audios mit ihren firmeneigenen KI-Sprachgeneratoren erstellt wurden, wobei mitunter nur die erste Minute der Aufnahme analysiert wird. In der Praxis, bemängelte Deepfake-Experte Müller jedoch, seien Tools, die nur einen Anbieter erkennen, wenig praktikabel. „Deepfake Total“, das Tool des Fraunhofer AISEC, sei deshalb auf mehrere Anbieter trainiert – mit mehr als einer Million Audiospuren.
Absolute Sicherheit können auch KI-Tools nicht geben. Die Forscher am Fraunhofer AISEC haben die Audiospur des Videos, in dem Kate Middleton ihre Krebserkrankung öffentlich machte, durch ihr Programm laufen lassen. Fälschlicherweise wurde es als Fake deklariert. „Das Mikrofon war offenbar ungünstig positioniert, sodass der Wind reinpustete und ein konstantes Hintergrundgeräusch erzeugte“, sagte Müller. Frühere Deepfake-Tools hätten solche Geräusche, die klingen, als würde man neben einem Kühlschrank stehen, auch erzeugt. „Davon hat sich unser Programm offenbar täuschen lassen.“
Angriff der Nerds: Von Deepfakes können übrigens nicht nur Prominente oder Politiker betroffen sein, von denen es haufenweise Audiomaterial online gibt. Erst kürzlich wurde im US-Bundesstaat Maryland ein Highschool-Lehrer verhaftet. Er soll mit Hilfe von KI eine Audioaufnahme erstellt haben, in der sein Schulleiter rassistische Äußerungen macht. Der Schulleiter war daraufhin beurlaubt worden und hatte Morddrohungen erhalten.