Categories: MobileMobile Apps

Google entwickelt Echtzeit-Spracherkennung ohne Internetverbindung

Google-Forscher haben eine Spracherkennung geschaffen (PDF), die auf einem Smartphone „schneller als in Echtzeit“ läuft, ohne dass dafür eine Verbindung zu einem Server nötig wäre. Das nur 20,3 MByte große Programm wurde auf dem Google Nexus 5 mit 2,26 GHz schneller CPU und 2 GByte RAM getestet. Die Quote falsch erkannter Wörter betrug bei einem Testdiktat mit offenem Ende 13,5 Prozent.

Wie in letzter Zeit viele Google-Projekte entstand auch dieser Algorithmus durch Maschinelles Lernen. Genauer heißt es in Googles Bericht, man habe ein rekurrentes neuronales Netz (RNN) mit Long Short-Term Memory (LSTM) verwendet und es mit den Techniken Connectionist Temporal Classification (CTC) sowie State-level Minimum Bayes Risk (sMBR) trainiert.

Um möglichst wenig Speicherplatz zu belegen, entwickelten die Forscher ein einheitliches Modell für Diktate und Sprachbefehle – zwei eigentlich sehr verschiedene Bereiche. Durch Kompression verkleinerten sie ihr Akustikmodell zudem auf ein Zehntel des ursprünglichen Umfangs.

Die Forscher weisen darauf hin, dass Offline-Spracherkennungssysteme durchaus heute schon mit Befehlen wie „Schreib eine E-Mail an Darnica Cumberland: Können wir den Termin verschieben?“ umgehen können. Dazu fertigen sie aber zunächst eine Transkription an und führen die Funktion erst später aus, ohne dass dies dem User normalerweise bewusst werde. Das liege daran, dass eine präzise Erfassung persönliche Daten wie den Namen des Adressaten erfordere. Aufgrund dieser Überlegung habe man die Kontaktliste des Smartphones direkt ins Modell der neuen Offline-Erkennung eingebaut.

Whitepaper

Studie zu Filesharing im Unternehmen: Kollaboration im sicheren und skalierbaren Umfeld

Im Rahmen der von techconsult im Auftrag von ownCloud und IBM durchgeführten Studie wurde das Filesharing in deutschen Unternehmen ab 500 Mitarbeitern im Kontext organisatorischer, technischer und sicherheitsrelevanter Aspekte untersucht, um gegenwärtige Zustände, Bedürfnisse und Optimierungspotentiale aufzuzeigen. Jetzt herunterladen!

Trainiert wurde das System mit drei Millionen Eingaben aus Googles Sprachsuche, die zusammen etwa 2000 Stunden Sprechzeit ausmachten. Ergänzend reicherten die Forscher diese Proben mit unterschiedlichem Rauschen an, das sie Youtube-Videos entnommen hatten. Ihr ursprüngliches Akustikmodell war rund 80 MByte groß.

Bis die im Labor erprobte Offline-Erkennung in Googles Android-Apps einzieht, dürfte es aber noch eine Weile dauern. Zuletzt verbesserte Google im September 2015 seine Spracherkennung, indem es neue Algorithmen einführte, die es ebenfalls mit Hilfe eines rekurrenten neuronalen Netzes entwickelt hatte. Sie stecken heute in den Such-Apps für Android und iOS und erkennen ganze Blöcke an Lautfolgen – bei reduziertem Berechnungsaufwand. Die Systematik scheint mit der jetzt applizierten eng verwandt: So wurde auch dieses selbstlernende System durch künstliches Rauschen und Echos gegen Umgebungsgeräusche abgehärtet.

[mit Material von Liam Tung, ZDNet.com]

Tipp: Wie gut kennen Sie Google? Testen Sie Ihr Wissen – mit dem Quiz auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

Google: Passkeys schützen mehr als 400 Millionen Google-Konten

Die Passwort-Alternative Passkeys überholt Einmalpasswörter bei der Zwei-Faktor-Authentifizierung. Auch Microsoft setzt sich aktiv für die…

11 Stunden ago

Infostealer: 53 Prozent der Angriffe treffen Unternehmensrechner

Der Anteil steigt seit 2020 um 34 Prozentpunkte. Allein 2023 erfasst Kaspersky rund 10 Millionen…

13 Stunden ago

Salesforce: Mit Einstein GPT zurück auf die Überholspur?

Salesforce forciert den Ausbau seiner Industry Clouds. Mit ihrem Prozesswissen könnten deutsche IT-Dienstleister davon profitieren.

1 Tag ago

Neue Backdoor: Bedrohung durch Malvertising-Kampagne mit MadMxShell

Bisher unbekannter Bedrohungsakteur versucht über gefälschte IP Scanner Software-Domänen Zugriff auf IT-Umgebungen zu erlangen.

3 Tagen ago

BSI-Studie: Wie KI die Bedrohungslandschaft verändert

Der Bericht zeigt bereits nutzbare Angriffsanwendungen und bewertet die Risiken, die davon ausgehen.

3 Tagen ago

KI-Wandel: Welche Berufe sich am stärksten verändern

Deutsche sehen Finanzwesen und IT im Zentrum der KI-Transformation. Justiz und Militär hingegen werden deutlich…

3 Tagen ago