Im Dialog mit dem Auto: Neuste Trends bei der Sprachsteuerung

Voicebox hat kürzlich einen großen Vertrag mit XM Satellite Radio über die Integration der Sprachsuchfähigkeit in das vielfältige Radioprogramm unterzeichnet. Dieses Programm erreicht in den USA über sechs Millionen Zuhörer, viele davon im Auto. Darüber hinaus hat sich Voicebox mit Johnson Controls, einem der größten Technologielieferanten der Autoindustrie, zusammengetan. Ein erster Erfolg dieser Zusammenarbeit ist ein Zugang, über den man im Auto sprachgesteuert auf dem Apple Ipod nach Musik suchen kann. Das Produkt soll noch in diesem Jahr lieferbar sein.

Veerender Kaul, Industrieanalyst für hoch entwickelte Autotechnik beim Unternehmensberatungsunternehmen Frost & Sullivan, erklärte hierzu: „Immer, wenn eine große Auswahl an Dateien zur Verfügung steht, egal, ob das nun Song-Dateien, Telefonkontakte oder lokale Verzeichnisse sind, dann ist Sprachtechnologie ein Muss.“

Auf jeden Fall gibt es sie schon seit einigen Jahren bei Navigationssystemen für Autos wie auch für Call-Center. Viele Fahrzeuge der mittleren und oberen Preisklasse, wie etwa die Lexus-Modelle und der Honda Acura, werden mit Sprachsteuerungsfunktionen für Wegebeschreibungen geliefert. Durch das begrenzte Befehlsvokabular und die schlechte Erkennung von Synonymen und Dialekten haben diese Technologien jedoch für etliche frustrierende Erlebnisse bei den Verbrauchern gesorgt. „Das Hauptproblem ist, dass die meisten sprachbasierten Systeme bisher nicht gerade zuverlässig gewesen sind“, so Thilo Koslowski, Vice President und Lead Auto Analyst im Marktforschungsunternehmen Gartner.

Die Techniker bei Voicebox sind der Meinung, dass sie das ändern können. Das Unternehmen wurde 2001 von Prof. Dr. Bob Kennewick von der Harvard University gegründet. Der Volkswirt und Informatiker erkannte ein grundlegendes Problem bei der bestehenden Spracherkennungstechnologie. Programmierer waren gezwungen, spezielle Wörterbücher für eine bestimmte Gruppe von Daten zu erstellen und dann das Gesprochene einem Text zuzuordnen. Die Benutzer mussten jedoch genau das Richtige sagen, damit es funktionierte. Auch Hintergrundgeräusche konnten die Übersetzung beeinträchtigen.

Er wollte eine Technologie entwickeln, die den sprachlichen Zusammenhang erkennen und dabei in einer Unterhaltung die richtigen Signale aufnehmen und wie ein Mensch antworten könnte. Eine Aufforderung wie etwa „Lass mich Cisco hören“ könnte von der Technologie so verstanden werden, dass man den Sänger Cisco hören, den Aktienkurs des Unternehmens Cisco erfahren oder sich das Lied „Cisco Spilling Station“ von Johnny Cash anhören will. Die von Kennewick entwickelte Technologie reagiert auf eine solche Aufforderung damit, dass sie nachfragt, welche dieser drei Alternativen man hören möchte.

Page: 1 2 3 4

ZDNet.de Redaktion

Recent Posts

Apple meldet Umsatz- und Gewinnrückgang im zweiten Fiskalquartal

iPhones und iPads belasten das Ergebnis. Außerdem schwächelt Apple im gesamten asiatischen Raum inklusive China…

3 Tagen ago

MadMxShell: Hacker verbreiten neue Backdoor per Malvertising

Die Anzeigen richten sich an IT-Teams und Administratoren. Ziel ist der Zugriff auf IT-Systeme.

4 Tagen ago

April-Patches für Windows legen VPN-Verbindungen lahm

Betroffen sind Windows 10 und Windows 11. Laut Microsoft treten unter Umständen VPN-Verbindungsfehler auf. Eine…

4 Tagen ago

AMD steigert Umsatz und Gewinn im ersten Quartal

Server-CPUs und Server-GPUs legen deutlich zu. Das Gaming-Segment schwächelt indes.

4 Tagen ago

Google stopft schwerwiegende Sicherheitslöcher in Chrome 124

Zwei Use-after-free-Bugs stecken in Picture In Picture und der WebGPU-Implementierung Dawn. Betroffen sind Chrome für…

6 Tagen ago

Studie: 91 Prozent der Ransomware-Opfer zahlen Lösegeld

Die durchschnittliche Lösegeldzahlung liegt bei 2,5 Millionen Dollar. Acht Prozent der Befragten zählten 2023 mehr…

6 Tagen ago