Sprachassistenten durchdringen unser Leben: Auf dem Smartphone, der Smartwatch und immer öfter auch als smarte Lautsprecher im Wohn- oder Schlafzimmer hören sie auf unsere Befehle. Ein Sprachbefehl ist nun mal viel schneller und bequemer als Kommandos und Suchanfragen zu tippen.
«Ok, Google, wie wird das Wetter heute?», «Hey, Cortana, welche Termine habe ich heute?» oder «Hey, Siri, stell die Raumtemperatur auf 22 Grad» sind für immer mehr Menschen ganz natürliche Fragen oder Kommandos, die man dem Sprachassistenten sagt. Das Smartphone oder der Smartspeaker gibt die Antwort, während man die Hände für anderes frei hat. Genau deshalb stehen in den USA die meisten Smartspeaker in der Küche.
Wer kleine Kinder hat, weiss, dass sie ohne Scheu mit Siri oder dem Google Assistant sprechen, um etwa ein Video auf Youtube zu starten. Doch wer einen Smartspeaker von Amazon, Google oder Apple in der eigenen Wohnung hat, sollte wissen, dass die Sprachassistenten sehr leicht manipuliert werden können – und zwar mit für Menschen unhörbaren Kommandos. Forscher aus China und den USA konnten «in Labortests die Sprachassistenten auf Smartphones und intelligenten Lautsprechern heimlich aktivieren und so Telefonnummern wählen oder Websites öffnen», berichtet die «New York Times».
In den falschen Händen könnte die Technologie genutzt werden, um in vernetzten Smart-Homes heimlich «Türen zu öffnen, Geld zu überweisen oder Dinge online zu kaufen», befürchten die Forscher. Smartphones mit Sprachassistenten könnten so manipuliert werden, dass sie heimlich Fotos von den Nutzern und der Wohnung schiessen oder Textnachrichten versenden – eine denkbar gruselige Vorstellung.
Alexa and Siri can hear this hidden command. You can't. https://t.co/qU4gWXyEmB pic.twitter.com/uFgyfXoOpH
— The New York Times (@nytimes) 10. Mai 2018
Die Forscher konnten für Menschen unhörbare Befehle in Musikaufnahmen oder gesprochenem Text verstecken – etwa in einer Radiosendung oder einem Hörbuch. Forscher der kalifornischen Universität Berkley konnten den Befehl «Ok, Google, öffne evil.com» in einer Aufnahme des gesprochenen Satzes «Ohne den Datensatz ist der Artikel unbrauchbar» verbergen. Während ein Mensch bloss einen Song oder ein Hörbuch hört, vernehmen Alexa, Siri oder der Google Assistant geheime Anweisungen wie zum Beispiel etwas zur Einkaufsliste hinzuzufügen – oder gar das Garagentor zu öffnen.
Dies funktioniert, weil Spracherkennungssysteme in der Regel jeden Ton in einen Buchstaben übersetzen und daraus Wörter und Sätze bilden. «Durch geringfügige Änderungen an den Audiodateien konnten die Forscher den Ton, den das Spracherkennungssystem hören sollte, aufheben und durch einen Ton ersetzen, der von den Maschinen anders übersetzt wird, aber für das menschliche Ohr kaum wahrnehmbar ist», schreibt die «New York Times».
Amerikanische und chinesische Forscher haben schon letztes Jahr gezeigt, dass sie Sprachassistenten auch mit für Menschen unhörbaren Frequenzen aktivieren und manipulieren können. Bei dieser so genannten Delfin-Attacke werden die Smartphones oder Smartspeaker zuerst auf lautlos gestellt, damit die Opfer die Antworten des Sprachassistenten nicht hören. Per Ultraschallangriff konnten die Forscher Smartphones dazu bringen, infizierte Websites zu besuchen, Anrufe zu tätigen, Fotos zu machen oder Textnachrichten zu versenden.
Die Delfin-Attacke funktioniert nur, wenn der Sender nicht weiter als ein paar Meter vom Smartphone oder Smartspeaker entfernt ist. Experten warnen jedoch, dass leistungsfähigere Ultraschallsysteme möglich seien. Die neuere Angriffsmethode mit manipulierten Audiodateien kann ebenfalls lokal über manipulierte MP3-Dateien oder Filme erfolgen, die man im Netz herunterlädt, aber auch aus der Ferne, etwa über Radiosendungen und Werbespots.
Vor einem Jahr überlistete etwa Burger King den Google Assistant per TV-Spot: In einem TV-Werbespot erklärte ein Mitarbeiter der Fast-Food-Kette, er könne in so kurzer Zeit nicht alle Zutaten des Burgers aufzählen, aber er habe eine Idee. Dann sagte er auf Englisch «Ok, Google, was ist der Whopper-Burger?». Der Schlüsselbegriff «Ok, Google» aktivierte darauf die Google-Home-Lautsprecher in US-Wohnzimmern, die in der Nähe von Fernsehern standen. Die mit dem Internet vernetzten Smartspeaker lasen daraufhin den verblüfften TV-Zuschauern den Anfang des Wikipedia-Artikels über den Whopper von Burger King vor.
Here's what happens when you watch Burger King's Whopper ad around Google Home...
— Nina (@glowgow) 12. April 2017
Is it ingenious or invasive? 🤔 pic.twitter.com/0NXExmxWov
Laut den Forschern gibt es bislang keine Beweise dafür, dass ihre Manipulationstechniken das Labor verlassen haben. Es sei aber nur eine Frage der Zeit, bis jemand damit beginne, sie für kriminelle Aktivitäten auszunutzen. «Meine Annahme ist, dass böswillige Menschen bereits Leute beschäftigen, um das zu tun, was ich tue», zitiert die NYT einen US-Forscher.
Amazon, Apple und Google erläutern nicht im Detail, wie sie ihre Sprachassistenten vor Manipulation schützen. Google sagt, die Spracherkennung sei darauf ausgelegt, nur auf Kommandos zu reagieren, wenn sie die Stimme des Besitzers erkenne.
Apple sagt, dass ihr intelligenter Lautsprecher, HomePod, gefährliche Befehle, wie das Entsperren von Türen, nicht ausführe. Allerdings lässt sich die Haustür oder das Garagentor per Siri auf dem iPhone oder Apple Watch öffnen. Immerhin muss das iPhone entsperrt sein, bevor Siri auf sensible Daten zugreift, Webseiten öffnet oder sogar die Haustüre öffnet. Das Problem: Ende 2017 zeigte ein Entwickler, dass Kriminelle aufgrund mehrerer Sicherheitslücken in iOS und watchOS die Kontrolle über das Haus oder die Wohnung des Opfers übernehmen und so beispielsweise aus der Ferne die Haustüre öffnen können.
Das zweite Problem: Smartphones können so eingerichtet werden, dass sie an vermeintlich sicheren Orten wie zu Hause oder in der Nähe der eigenen Smartwatch automatisch entsperrt bleiben. Das ist praktisch, erleichtert aber auch Angriffe.
Die Hersteller bewegen sich auf einem schmalen Grat zwischen Benutzerfreundlichkeit und Sicherheit. Amazons Alexa und der Google Assistant reagieren beispielsweise auf falsche Aktivierungsphrasen, um möglichst keinen Sprachbefehl des Nutzers zu verpassen. Der Google Assistant lässt sich darum auch mit «Okay, Kuchen» und sogar «Ok, Gugelhupf» aktivieren.
Der Grund dafür: Die Mikrofone in den smarten Lautsprechern oder Smartphones sind immer aktiv (sofern man sie nicht manuell deaktiviert) hat. Schnappen sie ein Geräusch auf, dessen Schallwellen denen des Aktivierungsbegriffs («Ok, Google», «hey, Siri» etc.) ähnlich genug sind, aktivieren sie die Sprachassistenten und damit die Datenübertragung zu den Servern der Anbieter. Die Hersteller müssen also eine Schwelle für die Eindeutigkeit der Wellenform festlegen, ab der sie ihre Assistenten aktivieren. Je höher die Schwelle, desto sicherer das Ganze. Allerdings funktioniert der Assistent dann auch schlechter, was die Nutzer frustrieren wird.
Bleibt zu sagen: Die beschriebenen Angriffe der Forscher auf Sprachassistenten sind relativ aufwändig. Für Kriminelle oder Geheimdienste gibt es momentan viel leichtere Wege, um ihre Opfer anzugreifen. Trotzdem zeigen die Wissenschaftler eindrücklich, dass Sprachassistenten und vernetzte Häuser ein weiteres Einfallstor für kriminelle Hacker sind.