Categories: Workspace

VALL-E: AI-Modell für Text-to-Speech von Microsoft simuliert Stimmen

Forscher von Microsoft haben ein neues Text-to-Speech AI-Modell namens VALL-E vorgestellt. Es soll in der Lage sein, die Stimme einer Person zu simulieren. Dafür benötigt wird lediglich eine Audioaufnahme der Originalstimme von drei Sekunden. Wie Ars Technica berichtet kann VALL-E bei der synthetischen Erzeugung der Stimme sogar emotionale Betonungen des Sprechers wiedergeben.

Die Entwickler nennen als mögliches Einsatzgebiet hochqualitative Anwendungen für die Umwandlung von Text in Sprache. Es soll aber auch möglich sein, vorhandene Sprachaufnahmen einer Person zu verändern.

Microsoft zufolge analysiert VALL-E, wie eine Person spricht. Mithilfe der von Meta im Oktober 2022 angekündigten Technologie EnCodec werden die von VALL-E gewonnenen Informationen in einzelne als Tokens bezeichnete Komponenten unterteilt. So soll VALL-E in der Lage sein, aus einer Audioaufnahme von drei Sekunden abzuleiten, wie andere gesprochene Worte der Person klingen.

“ Um personalisierte Sprache zu synthetisieren, generiert VALL-E die entsprechenden akustischen Token auf der Grundlage der akustischen Token der 3-Sekunden-Aufnahme und des Phonem-Prompts, die die Sprecher- beziehungsweise Inhaltsinformationen einschränken. Schließlich werden die generierten akustischen Token verwendet, um die endgültige Wellenform mit dem entsprechenden neuronalen Codec-Decoder zu synthetisieren“, beschreibt Microsoft den Vorgang in einem Forschungsbericht.

Die Sprachsynthese von VALL-E wurde demnach mit einer von Meta zusammengestellten Audiobibliothek namens LibriLight angelernt. Sie enthält rund 60.000 Stunden englischsprachiger Aufnahmen von mehr als 7000 Personen, die wiederum der Public-Domain-Bibliothek für Audiobücher LibriVox entnommen wurden. Laut Microsoft erzielt VALL-E die besten Ergebnisse bei Stimmen, die einer Stimme aus den Trainingsdaten ähneln.

Die Entwickler von VALL-E sind sich aber auch der Möglichkeiten bewusst, ihr AI-Modell zu missbrauchen. „Da VALL-E Sprache synthetisieren kann, die die Identität des Sprechers beibehält, besteht die Gefahr, dass das Modell missbraucht wird, beispielsweise um die Stimmerkennung zu fälschen oder sich als ein bestimmter Sprecher auszugeben. Um solche Risiken zu minimieren, kann ein Erkennungsmodell erstellt werden, mit dem unterschieden werden kann, ob ein Audioclip von VALL-E synthetisiert wurde. Bei der Weiterentwicklung der Modelle werden wir auch die AI-Prinzipien von Microsoft in die Praxis umsetzen.“

Stefan Beiersmann

Stefan unterstützt seit 2006 als Freier Mitarbeiter die ZDNet-Redaktion. Wenn andere noch schlafen, sichtet er bereits die Nachrichtenlage, sodass die ersten News des Tages meistens von ihm stammen.

Recent Posts

Kostenloser Kurs zum Ausbau von Low-Code-Programmierung

Die OutSystems Developer School hilft Entwicklern, in 2 Wochen komplexe reaktive Anwendungen mit der Low-Code-Plattform…

3 Stunden ago

Cloudflare: DNS-basierte DDoS-Angriffe steigen im ersten Quartal um 80 Prozent

Das Jahr 2024 beginnt laut Cloudflare mit einem Paukenschlag. Die automatischen Systeme des Unternehmens wehren…

6 Stunden ago

Roblox: 34 Millionen Zugangsdaten im Darknet

Laut Kaspersky nehmen Infostealer gerade auch Spieleplattformen ins Visier. Neue Studie untersucht Angriffe zwischen 2021…

8 Stunden ago

EU-Datenschützer kritisieren Facebooks „Zustimmung oder Bezahlung“-Modell

Ohne eine kostenlose Alternative, die ohne Zustimmung zur Verarbeitung personenbezogener Daten zu Werbezwecken auskommt, ist…

3 Tagen ago

Europol meldet Zerschlagung der Phishing-as-a-Service-Plattform LabHost

LabHost gilt als einer der größten Phishing-Dienstleister weltweit. Die Ermittler verhaften 37 Verdächtige, darunter der…

3 Tagen ago

DE-CIX Frankfurt bricht Schallmauer von 17 Terabit Datendurchsatz pro Sekunde

Neuer Datendurchsatz-Rekord an Europas größtem Internetknoten parallel zum Champions-League-Viertelfinale.

4 Tagen ago