Google verbessert Spracherkennung

Die neuen Algorithmen stecken in den Such-Apps für Android und iOS. Sie erkennen ganze Blöcke an Lautfolgen - bei reduziertem Berechnungsaufwand. Das selbstlernende System wurde außerdem durch künstliches Rauschen und Echos gegen Umgebungsgeräusche abgehärtet.

Google hat in einem Blog Verbesserungen seiner Spracherkennung angekündigt, die in den Such-Apps für Android und iOS Verwendung findet. Dank neuer Akustikmodelle ist die Erkennung demnach besser geworden – besonders in Umgebungen mit lauten Hintergrundgeräuschen.

Zugleich erfordern die neuen Algorithmen weniger Rechenaufwand, was bei häufigem Einsatz von Spracherkennung für verlängerte Akkulaufzeit sorgen könnte. Die Apps versuchen in Echtzeit zu verstehen, was der Anwender sagt, und daraus Suchanfragen abzuleiten.

Sprachsuche mit Google ChromeGoogles Erklärung steckt voll linguistischer Fachterminologie. Das grundsätzliche Verfahren wird dort als „Recurrent Neural Network“ oder RNN bezeichnet. Am Beispiel des Worts „Museum“ beschreiben die Google-Forscher, wie ihr Algorithmus nicht unbedingt jeden Laut zu erkennen versucht. Die englische Aussprache dieses Worts umschreibt Google „/m j u z i @ m/“. In der Praxis müsse man aber nicht unbedingt erkennen, wo der Laut „/j/“ endet und der Laut „/u/“ beginnt, heißt es.

Zugleich berücksichtigt das Verfahren, dass die Aussprache eines Lauts von den vorangegangenen abhängig ist. „Wenn der Anwender im Beispiel /u/ sagt, kommt sein Lautbildungsapparat von einem /j/-Laut und von einem ihm vorausgehenden /m/ her. RNN kann dies erfassen“, schreiben die Forscher.

Dass die Erkennung zur Echtzeit erfolge, sei aber eine zusätzliche Herausforderung, wenn man versuche, ganze Lautblöcke auf einmal zu erfassen. Nach vielen Anläufen habe man einen Kompromiss gefunden, der größere Blöcke als konventionelle Modelle verwende, aber dennoch weniger Berechnungen erfordere. „Dadurch haben wir die Berechnungen drastisch reduziert und die Erkennung deutlich beschleunigt. Wir haben außerdem künstlich Rauschen und Echos hinzugefügt, um die Erkennung robuster für Umgebungsgeräusche zu machen.“

Als letztes Problem benennen die Google-Forscher, dass ihr selbstlernender Algorithmus „die Vorhersage folgender Phoneme um etwa 300 Millisekunden verzögerte“, um zu besseren Ergebnissen zu kommen. „Das war klug, bedeutete aber zusätzliche Latenz für unsere Nutzer, was wir nicht akzeptieren konnten.“ Dem Modell wurde letztlich beigebracht, seine Prognosen früher zu liefern.

Zuletzt hatte Google mehrfach jene Algorithmen verbessert, die für den eigentlichen Dialog mit dem Nutzer verantwortlich sind. So ist es in den Such-Apps seit Frühjahr 2014 möglich, zu einem Thema nachzuhaken, ohne das Objekt der Suche in Folgefragen noch einmal zu erwähnen. Mit der neuen Spracherkennung wendet das Unternehmen sich nun wieder den Grundlagen zu.

Hintergrund ist in beiden Fällen der aktuelle Konkurrenzkampf im Bereich Sprachassistenten. Während sich Google Now zuletzt offenbar aufgrund interner Probleme nicht so schnell weiterentwickelte wie erhofft, konnte sich Microsoft mit Bing Snapshots unter Android profilieren. Und auch Apple hat seinen Sprachassistenten Siri gerade mit iOS 9 um einen großen Schritt nach vorn gebracht.

[mit Material von Liam Tung, ZDNet.com]

Tipp: Wie gut kennen Sie Google? Testen Sie Ihr Wissen – mit 15 Fragen bei ITespresso.

Neueste Kommentare 

Noch keine Kommentare zu Google verbessert Spracherkennung

Kommentar hinzufügen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *