Speech API: Benutzeroberflächen durch Sprachfunktionen aufwerten

Dieser Grundlagenartikel beleuchtet die Java Speech API. Die API stellt Grundfunktionen zur Spracherkennung und -ausgabe bereit, die man recht unproblematisch in eigene Sites integrieren kann, wie ein Beispiel belegt.

Die Java Speech API ermöglicht das Einbinden von Sprachtechnologie in Benutzerschnittstellen für javabasierte Applets und Anwendungen. Sie spezifiziert außerdem eine plattformübergreifende Schnittstelle zur Unterstützung von Sprachsteuerung, Diktiersystemen und Sprachsynthesizern. Zwei wichtige Sprachtechnologien werden von der Java Speech API unterstützt: Sprachsynthese und Spracherkennung.

Sprachsynthese

Sprachsynthese kehrt den Prozess der Spracherkennung um und erzeugt synthetische Sprache aus Text, der von einer Anwendung, einem Applet oder einem Benutzer generiert wird. Dies wird oft als Text-to-Speech-Technologie (TTS) bezeichnet.

Die wichtigsten Schritte beim Erzeugen von Sprache aus Text:

  • Strukturanalyse: Sie verarbeitet den Eingangstext, um festzustellen, wo Absätze, Sätze und andere Strukturen beginnen und enden. Für die meisten Sprachen werden auf dieser Stufe Zeichensetzung und Formatierungsinformationen festgelegt.
  • Text-Vorverarbeitung: Hier wird der Eingangstext auf bestimmte Konstruktionsmerkmale der Sprache untersucht. Im Englischen müssen beispielsweise Abkürzungen, Akronyme, Datumsangaben, Uhrzeiten, Zahlen, Währungsangaben, E-Mail-Adressen und viele andere Formen besonders behandelt werden. In anderen Sprachen müssen diese Formen ebenfalls gesondert verarbeitet werden, wobei für die meisten Sprachen noch weitere spezielle Anforderungen hinzukommen.

Das Ergebnis dieser beiden Schritte ist eine gesprochene Form des schriftlichen Textes. Hier zwei einfache Beispiele für den Unterschied zwischen geschriebenem und gesprochenem Text:


St. Mathews hospital is on Main St.
-> "Saint Mathews hospital is on Main street"


Add $20 to account 55374.
-> "Add twenty dollars to account five five, three seven four."

Die übrigen Schritte konvertieren den gesprochenen Text dann in Sprache.

  • Konvertierung von Text zu Phonemen: Jedes Wort wird in Phoneme konvertiert. Ein Phonem ist die klangliche Basiseinheit einer Sprache.
  • Prosodie-Analyse: Analysiert Satzstruktur, Wörter und Phoneme, um einen angemessenen Sprechrhythmus für den Satz zu bestimmen.
  • Audiosignalerzeugung: Verwendet die Phonem- und Prosodie-Informationen zum Erzeugen des Audiosignals für jeden Satz.

Sprachsynthesizer können bei jedem der oben beschriebenen Schritte Fehler machen. Das menschliche Ohr ist fabelhaft darauf geeicht, diese Fehler wahrzunehmen. Doch sorgfältige Entwicklerarbeit kann Fehler reduzieren und die Qualität der Sprachausgabe verbessern. Die Java Speech API und die Java Speech API Markup Language (JSML) bieten vielfältige Möglichkeiten, die Ausgabequalität eines Sprachsynthesizers weiterzuentwickeln.

Themenseiten: Anwendungsentwicklung, Software

Fanden Sie diesen Artikel nützlich?
Content Loading ...
Whitepaper

Artikel empfehlen:

Neueste Kommentare 

Noch keine Kommentare zu Speech API: Benutzeroberflächen durch Sprachfunktionen aufwerten

Kommentar hinzufügen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *