Wie wenig ausgereift die Sicherung von Daten mithilfe von Spracherkennung derzeit noch ist, zeigt die Demonstration zweier Sicherheitsforscher auf der Hackerkonferenz Def Con: Laut Heise zeigten John Seymour und Azeem Aqil, wie sie mithilfe von Machine Learning die Stimmerkennungssoftware von Siri und Microsoft Azure Speaker Recognition über eine künstlich erzeugte Stimme austricksen konnten.

Sowohl Siri als auch Microsoft Azure fielen auf die Sprachsamples der Forscher herein, die bei ihrem Test auf das Verfahren Text to Speech (TTS) setzten. Konkret kam dabei Googles TTS-Tool Tacotron 2 zum Einsatz. TTS-Software benötigt normalerweise große Mengen an qualitativ hochwertigen Sprachaufzeichnungen, um entsprechende Sprachsamples zu klonen - für den durchschnittlichen Angreifer ein praktisch nicht leistbarer Aufwand.

Allerdings behalfen sich die Forscher mit einem Trick: Sie trainierten ihre KI mithilfe von Machine Learning über die Open-Source-Datenbanken Blizzard und LJ Speech. Dann fütterten sie die KI mit Sprachproben des Opfers, die sie zuvor verlangsamt oder beschleunigt hatten, um das vorhandene Sprachmaterial von zehn Minuten auf 300 Minuten aufzublähen.

Daraus generierte die Software dann eine gefälschte Sprechprobe des Opfers, die sowohl für menschliche Ohren als auch für Siri und Microsoft Azure nicht mehr vom Original zu unterscheiden war. Spracherkennung als Passwortersatz - wie es beispielsweise bereits jetzt die US-amerikanische Bank Schwab anbietet - hat also noch einen weiten Weg vor sich.