Categories: MobileMobile AppsSoftware

Speech API: Benutzeroberflächen durch Sprachfunktionen aufwerten

Die Java Speech API ermöglicht das Einbinden von Sprachtechnologie in Benutzerschnittstellen für javabasierte Applets und Anwendungen. Sie spezifiziert außerdem eine plattformübergreifende Schnittstelle zur Unterstützung von Sprachsteuerung, Diktiersystemen und Sprachsynthesizern. Zwei wichtige Sprachtechnologien werden von der Java Speech API unterstützt: Sprachsynthese und Spracherkennung.

Sprachsynthese

Sprachsynthese kehrt den Prozess der Spracherkennung um und erzeugt synthetische Sprache aus Text, der von einer Anwendung, einem Applet oder einem Benutzer generiert wird. Dies wird oft als Text-to-Speech-Technologie (TTS) bezeichnet.

Die wichtigsten Schritte beim Erzeugen von Sprache aus Text:

Strukturanalyse: Sie verarbeitet den Eingangstext, um festzustellen, wo Absätze, Sätze und andere Strukturen beginnen und enden. Für die meisten Sprachen werden auf dieser Stufe Zeichensetzung und Formatierungsinformationen festgelegt.
Text-Vorverarbeitung: Hier wird der Eingangstext auf bestimmte Konstruktionsmerkmale der Sprache untersucht. Im Englischen müssen beispielsweise Abkürzungen, Akronyme, Datumsangaben, Uhrzeiten, Zahlen, Währungsangaben, E-Mail-Adressen und viele andere Formen besonders behandelt werden. In anderen Sprachen müssen diese Formen ebenfalls gesondert verarbeitet werden, wobei für die meisten Sprachen noch weitere spezielle Anforderungen hinzukommen.

Das Ergebnis dieser beiden Schritte ist eine gesprochene Form des schriftlichen Textes. Hier zwei einfache Beispiele für den Unterschied zwischen geschriebenem und gesprochenem Text:


St. Mathews hospital is on Main St.
-> "Saint Mathews hospital is on Main street"


Add $20 to account 55374.
-> "Add twenty dollars to account five five, three seven four."

Die übrigen Schritte konvertieren den gesprochenen Text dann in Sprache.

Konvertierung von Text zu Phonemen: Jedes Wort wird in Phoneme konvertiert. Ein Phonem ist die klangliche Basiseinheit einer Sprache.
Prosodie-Analyse: Analysiert Satzstruktur, Wörter und Phoneme, um einen angemessenen Sprechrhythmus für den Satz zu bestimmen.
Audiosignalerzeugung: Verwendet die Phonem- und Prosodie-Informationen zum Erzeugen des Audiosignals für jeden Satz.

Sprachsynthesizer können bei jedem der oben beschriebenen Schritte Fehler machen. Das menschliche Ohr ist fabelhaft darauf geeicht, diese Fehler wahrzunehmen. Doch sorgfältige Entwicklerarbeit kann Fehler reduzieren und die Qualität der Sprachausgabe verbessern. Die Java Speech API und die Java Speech API Markup Language (JSML) bieten vielfältige Möglichkeiten, die Ausgabequalität eines Sprachsynthesizers weiterzuentwickeln.

Page: 1 2 3

ZDNet.de Redaktion

NextAMD meldet Nettoverlust von 1,772 Milliarden Dollar »

Previous « Gerücht: Windows 7 erscheint bereits 2009

Published by

ZDNet.de Redaktion

Tags: AnwendungsentwicklungSoftware

16 Jahren ago

Studie: 91 Prozent der Ransomware-Opfer zahlen Lösegeld

Die durchschnittliche Lösegeldzahlung liegt bei 2,5 Millionen Dollar. Acht Prozent der Befragten zählten 2023 mehr…

7 Stunden ago

DMA: EU stuft auch Apples iPadOS als Gatekeeper ein

Eine neue Analyse der EU-Kommission sieht vor allem eine hohe Verbreitung von iPadOS bei Business-Nutzern.…

8 Stunden ago

Halbleiter

Speech API: Benutzeroberflächen durch Sprachfunktionen aufwerten

Recent Posts

Studie: 91 Prozent der Ransomware-Opfer zahlen Lösegeld

DMA: EU stuft auch Apples iPadOS als Gatekeeper ein

Chips bescheren Samsung deutlichen Gewinnzuwachs

Chrome: Google verschiebt das Aus für Drittanbietercookies

BAUMLINK: Wir sind Partner und Aussteller bei der Frankfurt Tech Show 2024

Business GPT: Generative KI für den Unternehmenseinsatz

Speech API: Benutzeroberflächen durch Sprachfunktionen aufwerten

Related Post

Recent Posts

Studie: 91 Prozent der Ransomware-Opfer zahlen Lösegeld

DMA: EU stuft auch Apples iPadOS als Gatekeeper ein

Chips bescheren Samsung deutlichen Gewinnzuwachs

Chrome: Google verschiebt das Aus für Drittanbietercookies

BAUMLINK: Wir sind Partner und Aussteller bei der Frankfurt Tech Show 2024

Business GPT: Generative KI für den Unternehmenseinsatz