Categories: ForschungInnovation

Google verbessert Spracherkennung

Google hat in einem Blog Verbesserungen seiner Spracherkennung angekündigt, die in den Such-Apps für Android und iOS Verwendung findet. Dank neuer Akustikmodelle ist die Erkennung demnach besser geworden – besonders in Umgebungen mit lauten Hintergrundgeräuschen.

Zugleich erfordern die neuen Algorithmen weniger Rechenaufwand, was bei häufigem Einsatz von Spracherkennung für verlängerte Akkulaufzeit sorgen könnte. Die Apps versuchen in Echtzeit zu verstehen, was der Anwender sagt, und daraus Suchanfragen abzuleiten.

Googles Erklärung steckt voll linguistischer Fachterminologie. Das grundsätzliche Verfahren wird dort als „Recurrent Neural Network“ oder RNN bezeichnet. Am Beispiel des Worts „Museum“ beschreiben die Google-Forscher, wie ihr Algorithmus nicht unbedingt jeden Laut zu erkennen versucht. Die englische Aussprache dieses Worts umschreibt Google „/m j u z i @ m/“. In der Praxis müsse man aber nicht unbedingt erkennen, wo der Laut „/j/“ endet und der Laut „/u/“ beginnt, heißt es.

Zugleich berücksichtigt das Verfahren, dass die Aussprache eines Lauts von den vorangegangenen abhängig ist. „Wenn der Anwender im Beispiel /u/ sagt, kommt sein Lautbildungsapparat von einem /j/-Laut und von einem ihm vorausgehenden /m/ her. RNN kann dies erfassen“, schreiben die Forscher.

Dass die Erkennung zur Echtzeit erfolge, sei aber eine zusätzliche Herausforderung, wenn man versuche, ganze Lautblöcke auf einmal zu erfassen. Nach vielen Anläufen habe man einen Kompromiss gefunden, der größere Blöcke als konventionelle Modelle verwende, aber dennoch weniger Berechnungen erfordere. „Dadurch haben wir die Berechnungen drastisch reduziert und die Erkennung deutlich beschleunigt. Wir haben außerdem künstlich Rauschen und Echos hinzugefügt, um die Erkennung robuster für Umgebungsgeräusche zu machen.“

Als letztes Problem benennen die Google-Forscher, dass ihr selbstlernender Algorithmus „die Vorhersage folgender Phoneme um etwa 300 Millisekunden verzögerte“, um zu besseren Ergebnissen zu kommen. „Das war klug, bedeutete aber zusätzliche Latenz für unsere Nutzer, was wir nicht akzeptieren konnten.“ Dem Modell wurde letztlich beigebracht, seine Prognosen früher zu liefern.

Zuletzt hatte Google mehrfach jene Algorithmen verbessert, die für den eigentlichen Dialog mit dem Nutzer verantwortlich sind. So ist es in den Such-Apps seit Frühjahr 2014 möglich, zu einem Thema nachzuhaken, ohne das Objekt der Suche in Folgefragen noch einmal zu erwähnen. Mit der neuen Spracherkennung wendet das Unternehmen sich nun wieder den Grundlagen zu.

Hintergrund ist in beiden Fällen der aktuelle Konkurrenzkampf im Bereich Sprachassistenten. Während sich Google Now zuletzt offenbar aufgrund interner Probleme nicht so schnell weiterentwickelte wie erhofft, konnte sich Microsoft mit Bing Snapshots unter Android profilieren. Und auch Apple hat seinen Sprachassistenten Siri gerade mit iOS 9 um einen großen Schritt nach vorn gebracht.

[mit Material von Liam Tung, ZDNet.com]

Tipp: Wie gut kennen Sie Google? Testen Sie Ihr Wissen – mit dem Quiz auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

Firefox 126 erschwert Tracking und stopft Sicherheitslöcher

Mozilla verteilt insgesamt 16 Patches für Firefox 125 und älter. Zudem entfernt der Browser nun…

20 Minuten ago

Supercomputer-Ranking: Vier europäische Systeme in den Top Ten

Einziger Neueinsteiger ist das Alps-System in der Schweiz. Die weiteren Top-Ten-Systeme aus Europa stehen in…

15 Stunden ago

Angriffe mit Banking-Malware auf Android-Nutzer nehmen weltweit zu

Im vergangenen Jahr steigt ihre Zahl um 32 Prozent. Die Zahl der betroffenen PC-Nutzer sinkt…

16 Stunden ago

Künstliche Intelligenz fasst Telefonate zusammen

Die App satellite wird künftig Telefongespräche in Echtzeit datenschutzkonform mit Hilfe von KI zusammenfassen.

20 Stunden ago

MDM-Spezialist Semarchy stellt Data-Intelligence-Lösung vor

Als Erweiterung von Master-Data-Management ermöglicht es die Lösung, den Werdegang von Daten verstehen und sie…

21 Stunden ago

Apple stopft 15 Sicherheitslöcher in iOS und iPadOS

Sie erlauben unter anderem das Einschleusen von Schadcode. In älteren iPhones und iPads mit OS-Version…

22 Stunden ago