Speech API: Benutzeroberflächen durch Sprachfunktionen aufwerten

Dieser Grundlagenartikel beleuchtet die Java Speech API. Die API stellt Grundfunktionen zur Spracherkennung und -ausgabe bereit, die man recht unproblematisch in eigene Sites integrieren kann, wie ein Beispiel belegt.

von Peter V. Mikhalenko am 18. Januar 2008 , 12:47 Uhr

Die Java Speech API ermöglicht das Einbinden von Sprachtechnologie in Benutzerschnittstellen für javabasierte Applets und Anwendungen. Sie spezifiziert außerdem eine plattformübergreifende Schnittstelle zur Unterstützung von Sprachsteuerung, Diktiersystemen und Sprachsynthesizern. Zwei wichtige Sprachtechnologien werden von der Java Speech API unterstützt: Sprachsynthese und Spracherkennung.

Sprachsynthese

Sprachsynthese kehrt den Prozess der Spracherkennung um und erzeugt synthetische Sprache aus Text, der von einer Anwendung, einem Applet oder einem Benutzer generiert wird. Dies wird oft als Text-to-Speech-Technologie (TTS) bezeichnet.

Die wichtigsten Schritte beim Erzeugen von Sprache aus Text:

Strukturanalyse: Sie verarbeitet den Eingangstext, um festzustellen, wo Absätze, Sätze und andere Strukturen beginnen und enden. Für die meisten Sprachen werden auf dieser Stufe Zeichensetzung und Formatierungsinformationen festgelegt.
Text-Vorverarbeitung: Hier wird der Eingangstext auf bestimmte Konstruktionsmerkmale der Sprache untersucht. Im Englischen müssen beispielsweise Abkürzungen, Akronyme, Datumsangaben, Uhrzeiten, Zahlen, Währungsangaben, E-Mail-Adressen und viele andere Formen besonders behandelt werden. In anderen Sprachen müssen diese Formen ebenfalls gesondert verarbeitet werden, wobei für die meisten Sprachen noch weitere spezielle Anforderungen hinzukommen.

Das Ergebnis dieser beiden Schritte ist eine gesprochene Form des schriftlichen Textes. Hier zwei einfache Beispiele für den Unterschied zwischen geschriebenem und gesprochenem Text:


St. Mathews hospital is on Main St.
-> "Saint Mathews hospital is on Main street"


Add $20 to account 55374.
-> "Add twenty dollars to account five five, three seven four."

Die übrigen Schritte konvertieren den gesprochenen Text dann in Sprache.

Konvertierung von Text zu Phonemen: Jedes Wort wird in Phoneme konvertiert. Ein Phonem ist die klangliche Basiseinheit einer Sprache.
Prosodie-Analyse: Analysiert Satzstruktur, Wörter und Phoneme, um einen angemessenen Sprechrhythmus für den Satz zu bestimmen.
Audiosignalerzeugung: Verwendet die Phonem- und Prosodie-Informationen zum Erzeugen des Audiosignals für jeden Satz.

Sprachsynthesizer können bei jedem der oben beschriebenen Schritte Fehler machen. Das menschliche Ohr ist fabelhaft darauf geeicht, diese Fehler wahrzunehmen. Doch sorgfältige Entwicklerarbeit kann Fehler reduzieren und die Qualität der Sprachausgabe verbessern. Die Java Speech API und die Java Speech API Markup Language (JSML) bieten vielfältige Möglichkeiten, die Ausgabequalität eines Sprachsynthesizers weiterzuentwickeln.

Inhalt

Speech API: Benutzeroberflächen durch Sprachfunktionen aufwerten

Neueste Kommentare

Noch keine Kommentare zu Speech API: Benutzeroberflächen durch Sprachfunktionen aufwerten

Vielen Dank für Ihren Kommentar.
Ihr Kommentar wurde gespeichert und wartet auf Moderation.

Schreibe einen Kommentar Antworten abbrechen

Neueste Kommentare

Noch keine Kommentare zu Speech API: Benutzeroberflächen durch Sprachfunktionen aufwerten

Vielen Dank für Ihren Kommentar.Ihr Kommentar wurde gespeichert und wartet auf Moderation.

Schreibe einen Kommentar Antworten abbrechen

Vielen Dank für Ihren Kommentar.
Ihr Kommentar wurde gespeichert und wartet auf Moderation.