Wavenet – der Computer mit der Menschenstimme

Wavenet

Es war einer der Überraschungserfolge des Kino-Jahrs 2013: „Her“ von Spike Jonez. In dem Film verliert sich ein einsamer Computer-Nerd in sein Betriebssystem. Das basiert auf einer künstlichen Intelligenz und hat die Stimme von Scarlett Johannson. Der Film hat mich schon damals fasziniert, denn mit Programmen wie Apples „Siri“, Microsofts „Cortana“ oder Amazons „Alexa“ ist diese Zukunft unserer heutigen Welt schon sehr nahe gekommen.

Einen wichtigen Schritt in diese Richtung hat Google gesetzt. Der Konzern ist ebenfalls eifrig dabei seine Sprachassistenz „Google Now“ zu verbessern. Immerhin soll das neue Smartphone „Pixel“ und auch die Google Brille vor allem per Stimme gesteuert werden. Einen wichtigen Schritt hat hier Googles Abteilung für Künstliche Intelligenz „Deep Mind“ gesetzt.  Denn mit „WaveNet“ hat man eine KI entwickelt, die wie ein Mensch spricht, wie „Trends der Zukunft“ berichtet. Dabei nutzt die Künstliche Intelligenz rohe Audiosignale von menschlichen Stimmen um daraus neue Samples zu erstellen. 16.000 Samples pro Sekunden sollen so erzeugt werden. Einfach gesagt: WaveNet nutzt Aufnahmen menschlicher Stimmen, um selber menschliche Stimmen nachzubilden. Und lernt dabei dazu. So werden die Erkenntnisse aus der Entwicklung der Samples in die nächsten Samples einbezogen. Damit würde man gegenüber Siri oder anderen Assistenten, die mit vorgefertigten Textbausteinen arbeiten, einen Quanten-Sprung vollziehen.

Und dabei soll man verschiedene Sprecheridentitäten annehmen können: gut möglich also, dass dereinst wirklich die Stimme von Scarlett Johansson aus unserem Handy oder Computer spricht – und selber dabei dazu lernt.

Beeindruckend ist auch eine andere Leistung. Wavenet kann nämlich auch aus Musik-Dateien lernen und neue Stücke komponieren. Das wäre natürlich ein gigantischer Schritt in Sachen Computerintelligenz, der in seiner Tragweite wahrscheinlich noch gar nicht abzusehen ist. Einerseits klingt das ja super spannend, andererseits habe ich auch immer ein bisschen „Skynet“ im Hinterkopf. Und Google ist schon soweit: im Frühjahr wurden 29 von der Google DeepMind Software generierte Bilder in einer Kunstauktion verkauft: Preise zwischen 2200 und 8000 Dollar wurden dabei erzielt.

Hardware zu schwach

Bis es soweit ist, dürfte es aber noch etwas dauern. So bemerkt etwa NZZ-Digital Redakteur Henning Steier in einem Artikel , dass die aktuellen Smartphones noch um einiges zu leistungsschwach sind. Und dass die Erzeugung am Handy selber passiert, ist vor allem dann wichtig, wenn man vom Internet getrennt ist. Wobei auch das etwas ist, was Google wahrscheinlich langfristig beenden will: wenn wir „Always On“ (line) sind, dann kann die Rechnerleistung in die Cloud ausgelagert werden.