Categories: ForschungInnovation

Google verbessert Spracherkennung

Google hat in einem Blog Verbesserungen seiner Spracherkennung angekündigt, die in den Such-Apps für Android und iOS Verwendung findet. Dank neuer Akustikmodelle ist die Erkennung demnach besser geworden – besonders in Umgebungen mit lauten Hintergrundgeräuschen.

Zugleich erfordern die neuen Algorithmen weniger Rechenaufwand, was bei häufigem Einsatz von Spracherkennung für verlängerte Akkulaufzeit sorgen könnte. Die Apps versuchen in Echtzeit zu verstehen, was der Anwender sagt, und daraus Suchanfragen abzuleiten.

Googles Erklärung steckt voll linguistischer Fachterminologie. Das grundsätzliche Verfahren wird dort als „Recurrent Neural Network“ oder RNN bezeichnet. Am Beispiel des Worts „Museum“ beschreiben die Google-Forscher, wie ihr Algorithmus nicht unbedingt jeden Laut zu erkennen versucht. Die englische Aussprache dieses Worts umschreibt Google „/m j u z i @ m/“. In der Praxis müsse man aber nicht unbedingt erkennen, wo der Laut „/j/“ endet und der Laut „/u/“ beginnt, heißt es.

Zugleich berücksichtigt das Verfahren, dass die Aussprache eines Lauts von den vorangegangenen abhängig ist. „Wenn der Anwender im Beispiel /u/ sagt, kommt sein Lautbildungsapparat von einem /j/-Laut und von einem ihm vorausgehenden /m/ her. RNN kann dies erfassen“, schreiben die Forscher.

Dass die Erkennung zur Echtzeit erfolge, sei aber eine zusätzliche Herausforderung, wenn man versuche, ganze Lautblöcke auf einmal zu erfassen. Nach vielen Anläufen habe man einen Kompromiss gefunden, der größere Blöcke als konventionelle Modelle verwende, aber dennoch weniger Berechnungen erfordere. „Dadurch haben wir die Berechnungen drastisch reduziert und die Erkennung deutlich beschleunigt. Wir haben außerdem künstlich Rauschen und Echos hinzugefügt, um die Erkennung robuster für Umgebungsgeräusche zu machen.“

Als letztes Problem benennen die Google-Forscher, dass ihr selbstlernender Algorithmus „die Vorhersage folgender Phoneme um etwa 300 Millisekunden verzögerte“, um zu besseren Ergebnissen zu kommen. „Das war klug, bedeutete aber zusätzliche Latenz für unsere Nutzer, was wir nicht akzeptieren konnten.“ Dem Modell wurde letztlich beigebracht, seine Prognosen früher zu liefern.

Zuletzt hatte Google mehrfach jene Algorithmen verbessert, die für den eigentlichen Dialog mit dem Nutzer verantwortlich sind. So ist es in den Such-Apps seit Frühjahr 2014 möglich, zu einem Thema nachzuhaken, ohne das Objekt der Suche in Folgefragen noch einmal zu erwähnen. Mit der neuen Spracherkennung wendet das Unternehmen sich nun wieder den Grundlagen zu.

Hintergrund ist in beiden Fällen der aktuelle Konkurrenzkampf im Bereich Sprachassistenten. Während sich Google Now zuletzt offenbar aufgrund interner Probleme nicht so schnell weiterentwickelte wie erhofft, konnte sich Microsoft mit Bing Snapshots unter Android profilieren. Und auch Apple hat seinen Sprachassistenten Siri gerade mit iOS 9 um einen großen Schritt nach vorn gebracht.

[mit Material von Liam Tung, ZDNet.com]

Tipp: Wie gut kennen Sie Google? Testen Sie Ihr Wissen – mit dem Quiz auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

Alphabet übertrifft die Erwartungen im ersten Quartal

Der Umsatz steigt um 15 Prozent, der Nettogewinn um 57 Prozent. Im nachbörslichen Handel kassiert…

3 Tagen ago

Microsoft steigert Umsatz und Gewinn im dritten Fiskalquartal

Aus 61,9 Milliarden Dollar generiert das Unternehmen einen Nettoprofit von 21,9 Milliarden Dollar. Das größte…

3 Tagen ago

Digitalisierung! Aber wie?

Mehr Digitalisierung wird von den Unternehmen gefordert. Für KMU ist die Umsetzung jedoch nicht trivial,…

3 Tagen ago

Meta meldet Gewinnsprung im ersten Quartal

Der Nettoprofi wächst um 117 Prozent. Auch beim Umsatz erzielt die Facebook-Mutter ein deutliches Plus.…

3 Tagen ago

Maximieren Sie Kundenzufriedenheit mit strategischem, kundenorientiertem Marketing

Vom Standpunkt eines Verbrauchers aus betrachtet, stellt sich die Frage: Wie relevant und persönlich sind…

4 Tagen ago

Chatbot-Dienst checkt Nachrichteninhalte aus WhatsApp-Quellen

Scamio analysiert und bewertet die Gefahren und gibt Anwendern Ratschläge für den Umgang mit einer…

4 Tagen ago