Speech API: Benutzeroberflächen durch Sprachfunktionen aufwerten

Die Java Speech API ermöglicht das Einbinden von Sprachtechnologie in Benutzerschnittstellen für javabasierte Applets und Anwendungen. Sie spezifiziert außerdem eine plattformübergreifende Schnittstelle zur Unterstützung von Sprachsteuerung, Diktiersystemen und Sprachsynthesizern. Zwei wichtige Sprachtechnologien werden von der Java Speech API unterstützt: Sprachsynthese und Spracherkennung.

Sprachsynthese

Sprachsynthese kehrt den Prozess der Spracherkennung um und erzeugt synthetische Sprache aus Text, der von einer Anwendung, einem Applet oder einem Benutzer generiert wird. Dies wird oft als Text-to-Speech-Technologie (TTS) bezeichnet.

Die wichtigsten Schritte beim Erzeugen von Sprache aus Text:

  • Strukturanalyse: Sie verarbeitet den Eingangstext, um festzustellen, wo Absätze, Sätze und andere Strukturen beginnen und enden. Für die meisten Sprachen werden auf dieser Stufe Zeichensetzung und Formatierungsinformationen festgelegt.
  • Text-Vorverarbeitung: Hier wird der Eingangstext auf bestimmte Konstruktionsmerkmale der Sprache untersucht. Im Englischen müssen beispielsweise Abkürzungen, Akronyme, Datumsangaben, Uhrzeiten, Zahlen, Währungsangaben, E-Mail-Adressen und viele andere Formen besonders behandelt werden. In anderen Sprachen müssen diese Formen ebenfalls gesondert verarbeitet werden, wobei für die meisten Sprachen noch weitere spezielle Anforderungen hinzukommen.

Das Ergebnis dieser beiden Schritte ist eine gesprochene Form des schriftlichen Textes. Hier zwei einfache Beispiele für den Unterschied zwischen geschriebenem und gesprochenem Text:


St. Mathews hospital is on Main St.
-> "Saint Mathews hospital is on Main street"


Add $20 to account 55374.
-> "Add twenty dollars to account five five, three seven four."

Die übrigen Schritte konvertieren den gesprochenen Text dann in Sprache.

  • Konvertierung von Text zu Phonemen: Jedes Wort wird in Phoneme konvertiert. Ein Phonem ist die klangliche Basiseinheit einer Sprache.
  • Prosodie-Analyse: Analysiert Satzstruktur, Wörter und Phoneme, um einen angemessenen Sprechrhythmus für den Satz zu bestimmen.
  • Audiosignalerzeugung: Verwendet die Phonem- und Prosodie-Informationen zum Erzeugen des Audiosignals für jeden Satz.

Sprachsynthesizer können bei jedem der oben beschriebenen Schritte Fehler machen. Das menschliche Ohr ist fabelhaft darauf geeicht, diese Fehler wahrzunehmen. Doch sorgfältige Entwicklerarbeit kann Fehler reduzieren und die Qualität der Sprachausgabe verbessern. Die Java Speech API und die Java Speech API Markup Language (JSML) bieten vielfältige Möglichkeiten, die Ausgabequalität eines Sprachsynthesizers weiterzuentwickeln.

Page: 1 2 3

ZDNet.de Redaktion

Recent Posts

Recall: Microsoft stellt KI-gestützte Timeline für Windows vor

Recall hilft beim Auffinden von beliebigen Dateien und Inhalten. Die neue Funktion führt Microsoft zusammen…

12 Stunden ago

Windows 10 und 11: Microsoft behebt Problem mit VPN-Verbindungen

Es tritt auch unter Windows Server auf. Seit Installation der April-Patches treten Fehlermeldungen bei VPN-Verbindungen…

19 Stunden ago

Portfoliomanagement Alfabet öffnet sich für neue Nutzer

Das neue Release soll es allen Mitarbeitenden möglich machen, zur Ausgestaltung der IT beizutragen.

22 Stunden ago

Gefahren im Foxit PDF-Reader

Check Point warnt vor offener Schwachstelle, die derzeit von Hackern für Phishing ausgenutzt wird.

5 Tagen ago

Bitdefender entdeckt Sicherheitslücken in Überwachungskameras

Video-Babyphones sind ebenfalls betroffen. Cyberkriminelle nehmen vermehrt IoT-Hardware ins Visier.

5 Tagen ago

Top-Malware in Deutschland: CloudEye zurück an der Spitze

Der Downloader hat hierzulande im April einen Anteil von 18,58 Prozent. Im Bereich Ransomware ist…

5 Tagen ago