Aktuelles, Branche - geschrieben von am Donnerstag, September 13, 2018 18:05 - noch keine Kommentare

Sprachassistenten: Missbrauch durch Cyber-Kriminelle per Skill Squatting

Bisher noch ein theoretisches Angriffsmodell

[datensicherheit.de, 13.09.2018] Vielen ist „Skill Squatting“ sicherlich noch kein Begriff – sollte es aber, so Tim Berghoff, „Security Evangelist“ bei der G DATA Software AG, denn etwas ganz Ähnliches sei bereits seit Jahren bekannt und nenne sich „Typo Squatting“. Cyber-Kiminelle registrierten bestimmte Domains für sich, die eine gewisse Ähnlichkeit mit legitimen Domains hätten oder oft durch Vertipper vorkämen – Beispiele hierfür gebt es genügend: „faecbook.com“ oder „youtiube.com“ seien nur einige wenige. Skill Squatting bediene sich einer ganz ähnlichen Methode, nämlich des Besetzens eines ähnlich verbal klingenden Begriffes. Bei „Amazon Echo“ bestehe daher beispielsweise das Risiko, dass ein Skill angesprochen wird, dessen Funktionen vom Nutzer nicht gewünscht ist.

Bisher noch theoretisches Angriffsmodell

„Der gezeigte Angriffsvektor ist ohne Zweifel interessant und hätte in der Praxis weitreichende Auswirkungen“, so Berghoff. Es sei jedoch fundiertes linguistisches Wissen erforderlich, um den Angriff erfolgreich durchzuführen. Etwas beim Hören falsch zu verstehen sei menschlich. Insofern habe „Amazon Echo“ durchaus menschenähnliche Züge, denn auch dieser smarte Lautsprecher habe dieses Problem.
Ein Forscherteam der University of Illinois habe sich eingehend mit „Echo“, „Alexa“ und dem böswilligen Besetzen von „Alexa“-Skills beschäftigt und die Erkenntnisse auf der „Usenix“-Konferenz präsentiert: Der Bericht trägt demnach den Titel „Skill Squatting Attacks on Amazon Alexa“.
Das Resultat sei ein bisher theoretisches Angriffsmodell, welches die Tatsache ausnutze, dass bestimmte gesprochene Worte häufiger missverstanden würden als andere. Die Aktivierung unerwünschter Funktionen durch den Nutzer sei eines der Risiken.

Befehle werden „besetzt“, die bestimmten Worten klanglich sehr ähnlich sind

Ein „Skill“ sei – vereinfacht gesagt – eine Funktion, die durch „Alexa“ ausgeführt werden soll, wenn ein bestimmter Sprachbefehl gegeben wird. So gebe es zahlreiche fest in „Amazon Echo“ verdrahtete Skills: „lauter“ und „leiser“ seien zwei davon. Sagt der Nutzer also „Alexa, lauter!“, dann wisse die Plattform, dass der Benutzer die Wiedergabelautstärke erhöhen möchte. Drittanbieter hätten ebenfalls die Möglichkeit, die „Alexa“-Plattform für die Veröffentlichung eigener Skills zu nutzen. So könne man sich beispielsweise mit dem entsprechenden Skill morgens die neuesten Nachrichten oder den Wetterbericht vorlesen lassen – oder auch sein Smarthome steuern.
Im Englischen bedeute nun „squatting“ soviel wie „besetzen, um eine Nutzung durch andere zu verhindern“ (Hausbesetzer z.B. würden ebenfalls als „squatter“ bezeichnet). Skill Squatting bedeutet demnach, dass ein bestimmter Befehl „besetzt“ wird, der einem bestimmten Wort klanglich sehr ähnlich ist – selbst wenn es sich bei diesem Wort nicht um einen Befehl handelt, den der Nutzer geben will.
Somit werde das Risiko erhöht, dass ein Skill angesprochen wird, dessen Funktion vom Nutzer nicht gewünscht ist. Etwas Ähnliches existiere schon seit Jahren: Beim sogenannten Typo Squatting registrierten Kriminelle bestimmte Domains, die eine gewisse Ähnlichkeit mit legitimen Domains haben, allerdings mit oft vorkommenden Vertippern. Ahnungslose Surfer, die sich vertippt haben, landeten so schlimmstenfalls auf einer infizierten Webseite.

Komplexität des Angriffs

Bestimmte Dinge akustisch falsch zu verstehen, kenne fast jeder: So werde etwa aus dem Hit der 1990er-Jahre „I got the power“ schnell z.B. „Agathe Bauer“. „Alexa“ stehe vor dem gleichen Problem. Berghoff: „Hier wird klar, dass mehr zu erfolgreichem ,Skill Squatting‘ gehört, als das bloße Definieren eines bestimmten Wortes als Auslöser für einen ,Alexa‘-Skill. Zum einen müsste ein Angreifer ein Wort wählen, von dem er einerseits sicher sein kann, dass es von einem Opfer gesprochen wird – zum anderen muss es ein Wort sein, das mit einer gewissen Wahrscheinlichkeit von ,Alexa‘ falsch interpretiert wird.“ Diese Wahrscheinlichkeit mache sich fest am phonetischen Aufbau bestimmter Wörter:
Einsilbige Wörter, die sich klanglich ähneln, hätten hierbei eine wesentlich höhere Fehlerquote als mehrsilbige Wörter. Für ihre Tests hätten die Forscher insgesamt 188 sowohl ein- als auch mehrsilbige Wörter verwendet, die jeweils 50-mal von 60 verschiedenen Sprechern unterschiedlichen Geschlechts aus unterschiedlichen Regionen gesprochen worden seien. Nur zwei Prozent der ausprobierten Einzelwörter habe „Alexa“ immer korrekt verstanden. Dagegen habe „Alexa“ neun Prozent des Wortschatzes immer falsch interpretiert. Die Forschungsarbeit beziehe sich jedoch nur auf die englische Sprache, daher seien die von den Wissenschaftlern ermittelten Werte nur mit Einschränkungen auf die deutsche Sprache übertragbar. Die grundlegenden Prinzipien dürften allerdings identisch sein.
So gerieten sowohl Menschen als auch maschinelle Sprachassistenten wie „Alexa“ ins Schleudern, wenn es um homophone (gleichklingende) Wörter geht. Im Englischen seien hier zum Beispiel „sale“ und „sail“ genannt. Deutsche Pendants wären zum Beispiel „mein“ und „Main“. Auch Wortpaare, die phonetisch große Ähnlichkeit haben, seien hier betroffen: Im Englischen wären dies zum Beispiel „Fax“ und „Facts“.

Wahrscheinlichkeit einer Fehlinterpretation variiert mit Herkunft und Geschlecht

Die Wahrscheinlichkeit einer Fehlinterpretation variiere jedoch mit der Herkunft des Sprechers und sogar mit dessen Geschlecht. Ein Skill-Squatting, das in Hamburg funktioniert, habe unter Umständen keine Chance auf Erfolg in München, Leipzig oder Wien. Dort wiederum funktionierten vielleicht andere. Oder, wenn man im Englischen bleiben möchte, bestünden große Unterschiede in den Aussprachen bestimmter Wörter zum Beispiel in London, Edinburgh und Leeds. Es wäre schwierig, ein „Universal“-Skill-Squat zu finden, der in allen deutschsprachigen Gebieten gleichermaßen funktioniert, aber definitiv nicht unmöglich: Denkbare Kandidaten wären hier Wortpaare wie „alle“ und „Anne“.
Bereits heute gibt es unterschiedliche „Alexa“-Skills, die zwar unterschiedliche Funktionen hätten, aber durch sehr ähnliche Worte ausgelöst würden – das „Facts-/Fax“-Beispiel (s.o.) sei ein solcher, auch im Forschungsbericht explizit genannter Skill. In Versuchen sei es sogar gelungen, einen Phishing-Angriff mittels „Skill Squatting“ durchzuführen – allerdings sei unklar, ob dies auch außerhalb der Versuchsanordnung tatsächlich funktioniert.

Höchste Wahrscheinlichkeit für Testläufe im englischsprachigen Raum

Insgesamt müsse man jedoch realistisch bleiben: Es handele sich hier um eine Machbarkeitsstudie, in der ein möglicher Angriffsweg aufgezeigt worden sei. Ob und inwieweit dieser auch von Kriminellen genutzt wird, hänge nicht zuletzt auch von wirtschaftlichen Faktoren ab. Da Internet-Kriminalität ein weltweites Geschäft sei, für das Ländergrenzen keine Rolle spielten, seien Kriminelle auf Angriffe bedacht, mit denen man möglichst viele potenzielle Opfer erreicht.
Somit würden sich die kriminellen Akteure zunächst auf Sprachen mit vielen Sprechern konzentrieren. Derzeit könnten Englisch, Chinesisch, Spanisch und Französisch insgesamt über drei Milliarden Sprecher weltweit auf sich vereinen. Dagegen werde Deutsch nur von höchstens etwa 130 Millionen Menschen auf der Welt gesprochen. Die höchste Wahrscheinlichkeit für erste Testläufe bestehe im englischsprachigen Raum. Wenn sich das Modell als lukrativ herausstellt, werde es auch auf andere Länder übertragen werden – genau wie seinerzeit beim Phishing.

Bisher noch ein Testszenario

Es sei bei all dem wichtig zu wissen, dass alle Angriffe, die der Forschungsbericht beschreibt, in einer isolierten Testumgebung stattgefunden hätten. Einerseits sollten so die übrigen Dienste von Amazon nicht über Gebühr strapaziert werden, zum anderen wollten die Forscher das Risiko ausschließen, dass ein unbeteiligter Nutzer versehentlich Aktionen zu seinem Nachteil auslöst, welche die Versuchsergebnisse hätten verzerren können.
Auch die Forscher, die die Experimente durchgeführt haben, hätten sich früher oder später die Frage stellen müssen, wie Amazon gegen diese Art der Manipulation vorgehen könnte. Eine der Möglichkeiten bestünde in einer zusätzlichen Prüfung auf phonetische Ähnlichkeiten mit bestehenden Skills.
Insgesamt handele es sich bei diesem Forschungsbericht um eine Grundlage, auf der basierend ein praktikabler Angriff entwickelt werden könnte. Die Autoren unterstreichen jedoch explizit die Tatsache, dass deren Versuche keine Aussagekraft über die Anwendbarkeit in einem praktischen Szenario besäßen. Wie viele andere Angriffsmöglichkeiten sei diese bisher noch rein akademisch – noch…

Weitere Informationen zum Thema:

usenix.org
Skill Squatting Attacks on Amazon Alexa

datensicherheit.de, 16.07.2018
Digitale Assistenten: Verbraucher befürchten Datenmissbrauch

datensicherheit.de, 05.06.2018
Internet der Dinge: Betriebssicherheit und IT-Sicherheit müssen ganzheitlich konzipiert werden

datensicherheit.de, 20.03.2018
Sprachassistenten: McAfee-Studie zeigt Unbehagen auf



Kommentieren

Kommentar

Kooperation

TeleTrusT

Mitgliedschaft

German Mittelstand e.V.

Mitgliedschaft

BISG e.V.

Multiplikator

Allianz für Cybersicherheit

Datenschutzerklärung