In beliebigen Audiodateien wie Sprache, Musik oder Umgebungsgeräuschen – zum Beispiel Vogelgezwitscher – können Forscher geheime Botschaften für die Sprachassistenten verstecken.
© Roberto Schirdewahn

IT-Sicherheit Wie Sprachassistenten unhörbare Befehle befolgen

Ein Angriff mit manipulierten Audiodateien auf Spracherkennungssysteme funktionierte zunächst nur über eine Datenschnittstelle. Jetzt reicht es, die geheimen Botschaften über Lautsprecher abzuspielen.

In beliebigen Audiodateien können Forscher Sprachbefehle für Maschinen verstecken, die das menschliche Gehör nicht wahrnehmen kann. Spracherkennungssysteme verstehen diese Befehle jedoch genau. Im September 2018 berichteten Forscherinnen und Forscher vom Horst-Görtz-Institut für IT-Sicherheit der Ruhr-Universität Bochum über solche Angriffe auf das Spracherkennungssystem Kaldi, das in „Alexa“ enthalten ist. Zunächst gelangen die als Adversarial Examples bezeichneten Angriffe nur über eine Datenschnittstelle, jetzt funktionieren sie auch auf dem Luftweg. Ein ausführlicher Artikel über die Angriffe und möglichen Gegenmaßnahmen findet sich im Bochumer Wissenschaftsmagazin Rubin.

Um die geheimen Botschaften in die Audiodateien zu integrieren, nutzen die Wissenschaftlerinnen und Wissenschaftler das psychoakustische Modell des Hörens. „Wenn das Gehör damit beschäftigt ist, einen Ton einer bestimmten Frequenz zu verarbeiten, können Menschen für einige Millisekunden andere leisere Töne nicht mehr wahrnehmen“, erklärt Lea Schönherr aus der Arbeitsgruppe Kognitive Signalverarbeitung, die Prof. Dr. Dorothea Kolossa leitet. Genau in diesen Bereichen verstecken die Forscherinnen die geheimen Befehle für die Maschinen. Für den Menschen klingt die zusätzliche Information wie zufälliges Rauschen, für den Sprachassistenten ändert es jedoch den Sinn.

Den Raum berücksichtigen

Zunächst funktionierte der Angriff nur über eine Datenschnittstelle, mittlerweile auch über Lautsprecher. Das ist komplizierter, da der Raum, in dem die Datei abgespielt wird, den Klang beeinflusst. Beim Erstellen der manipulierten Audiodateien berücksichtigte Lea Schönherr daher die sogenannte Raumimpulsantwort. Diese beschreibt, wie ein Raum den Schall reflektiert und den Klang verändert. Mit speziellen Computerprogrammen lässt sich die Raumimpulsantwort simulieren.

„Wir können den Angriff also für einen bestimmten Raum maßschneidern“, berichtet die Kommunikationstechnikerin. „Kürzlich ist es uns aber sogar gelungen, einen allgemeinen Angriff durchzuführen, der keine Vorinformationen über den Raum benötigt, und trotzdem genauso gut oder sogar noch besser auf dem Luftweg funktioniert.“ Künftig plant die Wissenschaftlerin auch Tests mit auf dem Markt erhältlichen Sprachassistenten.

Sicherheitslücke schließen

Da sprachgesteuerte Systeme aktuell nicht in sicherheitskritischen Bereichen im Einsatz sind, sondern lediglich dem Komfort dienen, können die Adversarial Examples derzeit keinen großen Schaden anrichten. Daher sei es noch früh genug, die Sicherheitslücke zu schließen, meinen die Bochumer Forscher. Im Exzellenzcluster Casa, kurz für Cyber Security in the Age of Large-Scale Adversaries, kooperiert die Arbeitsgruppe Kognitive Signalverarbeitung, die die Angriffe entwickelt hat, mit dem Lehrstuhl für Systemsicherheit von Prof. Dr. Thorsten Holz, dessen Team an Gegenmaßnahmen dazu arbeitet.

MP3-Prinzip als Gegenmaßnahme

Der IT-Sicherheitsforscher Thorsten Eisenhofer will Kaldi beibringen, für Menschen nicht hörbare Bereiche in Audiosignalen auszusortieren und nur das zu hören, was übrig bleibt. „Wir können natürlich nicht verhindern, dass Angreifer Audiodateien manipulieren“, sagt er. Sein Ziel ist es, dass die Manipulation aber in den für Menschen hörbaren Bereichen platziert werden müsste; so ließen sich die Angriffe nicht so leicht verstecken. Dafür nutzt Eisenhofer das MP3-Prinzip.

MP3-Dateien werden komprimiert, indem für Menschen nicht hörbare Bereiche gelöscht werden – genau das ist es, was die Verteidigungsstrategie gegen die Adversarial Examples auch vorsieht. Eisenhofer kombinierte Kaldi daher mit einem MP3-Encoder, der die Audiodateien zunächst bereinigt, bevor sie zum eigentlichen Spracherkenner gelangen. Die Tests ergaben, dass Kaldi die geheimen Botschaften tatsächlich nicht mehr verstand, es sei denn sie wurden in die für Menschen wahrnehmbaren Bereiche verschoben. „Das veränderte die Audiodatei aber merklich“, berichtet Thorsten Eisenhofer. „Die Störgeräusche, in denen die geheimen Befehle versteckt sind, wurden deutlich hörbar.“

Hinweis: Beim Klick auf den Play-Button wird eine Verbindung mit einer RUB-externen Website hergestellt, die eventuell weniger strengen Datenschutzrichtlinien unterliegt und gegebenenfalls personenbezogene Daten erhebt. Weitere Informationen finden Sie in unserer Datenschutzerklärung. – Die datenschutzfreundliche Einbettung erfolgt via Embetty.

Ausführlicher Artikel im Wissenschaftsmagazin Rubin

Einen ausführlichen Beitrag zu dem Thema finden Sie im Wissenschaftsmagazin Rubin. Texte auf der Webseite und Bilder aus dem Downloadbereich dürfen unter Angabe des Copyrights für redaktionelle Zwecke honorarfrei verwendet werden.

Originalveröffentlichung

Lea Schönherr, Steffen Zeiler, Thorsten Holz, Dorothea Kolossa: Imperio: robust over-the-air adverarial examples for automatic speech recognition systems, 2019, Online-Vorabveröffentlichung

Pressekontakt

Julia Laska und Christina Scholten
Marketing und PR
Horst-Görtz-Institut für IT-Sicherheit
Tel.: 0234 32 29162 oder 0234 32 29162
E-Mail: hgi-presse@rub.de

Lea Schönherr
Arbeitsgruppe Kognitive Signalverarbeitung
Horst-Görtz-Institut für IT-Sicherheit
Ruhr-Universität Bochum
Tel.: 0234 32 29638
E-Mail: lea.schoenherr@rub.de

Thorsten Eisenhofer
Lehrstuhl für Systemsicherheit
Horst-Görtz-Institut für IT-Sicherheit
Ruhr-Universität Bochum
Tel.: 0234 32 29638
E-Mail: thorsten.eisenhofer@rub.de

Veröffentlicht

Mittwoch
23. Oktober 2019
08:50 Uhr

Von

Julia Weiler

Teilen