Lea Schönherr ist Expertin für die Analyse von Audiodateien. Joel Frank ist spezialisiert auf KI-Algorithmen.

IT-Sicherheit
Gefälschte Sprachdateien erkennen

Künstliche Intelligenz kann die Stimmen von Personen imitieren. Betrüger nutzen das am Telefon bereits aus. Ein Bochumer Team arbeitet an Gegenmaßnahmen.

Maschinen können mithilfe von Künstlichen-Intelligenz-Algorithmen Fotos oder Sprachdateien erzeugen, die wie aus dem wahren Leben aussehen oder klingen. Wie man solche als Deepfakes bezeichneten künstlich erzeugten Daten von echten unterscheiden kann, interessiert Forschende am Horst-Görtz-Institut für IT-Sicherheit der Ruhr-Universität Bochum. Sie stellten fest, dass sich echte und gefälschte Sprachdateien im Bereich der hohen Frequenzen unterscheiden. Zuvor waren Deepfakes hauptsächlich bei Bildern untersucht worden. Die neuen Erkenntnisse sollen künftig helfen, auch gefälschte Sprache erkennen zu können.

Ihre Ergebnisse stellten Joel Frank vom Lehrstuhl für Systemsicherheit und Lea Schönherr aus der Arbeitsgruppe Kognitive Signalverarbeitung am 7. Dezember 2021 auf der Conference on Neural Information Processing Systems vor, die als Online-Veranstaltung abgehalten wurde. Die Arbeiten fanden im Rahmen des Exzellenzclusters CASA – Cybersecurity in the Age of Large-Scale Adversaries statt.

Großer Deepfake-Datensatz erzeugt

Als ersten Schritt erzeugten Joel Frank und Lea Schönherr einen umfangreichen Datensatz mit rund 118.000 künstlich erzeugten Sprachdateien. So entstanden etwa 196 Stunden Material auf Englisch und Japanisch. „Solch einen Datensatz für Audio-Deepfakes hat es zuvor nicht gegeben“, erklärt Lea Schönherr. „Um die Methoden zur Erkennung von gefälschten Audiodateien zu verbessern, braucht man aber dieses Material.“ Damit der Datensatz möglichst breit aufgestellt ist, nutzte das Team sechs verschiedene Künstliche-Intelligenz-Algorithmen beim Erzeugen der Audioschnipsel.

Hinweis: Beim Klick auf den Play-Button wird eine Verbindung mit einer RUB-externen Website hergestellt, die eventuell weniger strengen Datenschutzrichtlinien unterliegt und gegebenenfalls personenbezogene Daten erhebt. Weitere Informationen finden Sie in unserer Datenschutzerklärung. – Die datenschutzfreundliche Einbettung erfolgt via Embetty.

Anschließend verglichen die Forschenden die künstlichen Audiodateien mit Aufnahmen echter Sprache. Sie stellten die Dateien in Form von Spektrogrammen dar, die die Frequenzverteilung über die Zeit hinweg zeigen. Der Vergleich ergab feine Unterschiede im Bereich der hohen Frequenzen zwischen echten und gefälschten Dateien.

Diese Spektrogramme zeigen die Frequenzverteilung über die Zeit hinweg von einer echten (oben) und einer gefälschten Audiodatei (unten). Die kleinen Unterschiede in den hohen Frequenzen sind mit roten Kreisen markiert.

Basierend auf diesen Erkenntnissen entwickelten Frank und Schönherr Algorithmen, die zwischen Deepfakes und echter Sprache unterscheiden können. Diese Algorithmen sind als Startpunkt für andere Forscher gedacht, um neue Erkennungsmethoden zu entwickeln.

Förderung

Die Deutsche Forschungsgemeinschaft förderte die Arbeiten im Rahmen des Exzellenzclusters CASA – Cybersecurity in the Age of Large-Scale Adversaries (EXC 2092, 390781972).

Originalveröffentlichung

Joel Frank, Lea Schönherr: WaveFake: A data set to facilitate audio deepfake detection, Thirty-fifth Conference on Neural Information Processing Systems (NeurIPS) – Track for Datasets and Benchmarks, 2021, Paper-Download

Pressekontakt

Joel Frank
Lehrstuhl für Systemsicherheit
Horst-Görtz-Institut für IT-Sicherheit
Ruhr-Universität Bochum
E-Mail: joel.frank@rub.de

Lea Schönherr
Arbeitsgruppe Kognitive Signalverarbeitung
Horst-Görtz-Institut für IT-Sicherheit
Ruhr-Universität Bochum
Tel.: +49 234 32 29638
E-Mail: lea.schoenherr@rub.de

Download hochauflösender Bilder

Nutzungsbedingungen

Die Verwendung der Bilder ist unter Angabe des entsprechenden Copyrights für die Presse honorarfrei. Die Bilder dürfen ausschließlich für eine Berichterstattung mit Bezug zur Ruhr-Universität Bochum verwendet werden, die sich ausschließlich auf die Inhalte des Artikels bezieht, der den Link zum Bilderdownload enthält. Mit dem Download erhalten Sie ein einfaches Nutzungsrecht zur einmaligen Berichterstattung. Eine weitergehende Bearbeitung, die über das Anpassen an das jeweilige Layout hinausgeht, oder eine Speicherung der Bilder für weitere Zwecke, erfordert eine Erweiterung des Nutzungsrechts. Sollten Sie die Fotos daher auf andere Weise verwenden wollen, kontaktieren Sie bitte redaktion@ruhr-uni-bochum.de

Ich akzeptiere die Nutzungsbedingungen.

IT-Sicherheit
Gefälschte Sprachdateien erkennen

Großer Deepfake-Datensatz erzeugt

Nutzungsbedingungen

Das könnte Sie auch interessieren

Derzeit beliebt