Microsoft kündigte kürzlich das Text-to-Speech-KI-Modell VALL-E an, das die Stimme einer Person genau simulieren und dabei sowohl den emotionalen Ton als auch die akustische Umgebung beachten kann. Im Marketing-Kontext bieten sich damit vielerlei spannende, kreative und effiziente Möglichkeiten - zum Beispiel im Podcast- oder Videobereich! Seitdem das erste Text-to-Speech (TTS)-Modell veröffentlicht wurde, suchen Forscher nach Möglichkeiten, die Art und Weise, wie solche Systeme Sprache erzeugen, zu verbessern. VALL-E, das neueste Modell von Microsoft, ist dabei ein großer Schritt nach vorn. VALL-E ist ein transformatorbasiertes TTS-Modell, das Sprache in jeder beliebigen Stimme erzeugen kann, nachdem es nur ein drei Sekunden langes Sample dieser Stimme gehört hat. Das ist eine bedeutende Verbesserung gegenüber früheren Modellen, die eine viel längere Trainingszeit benötigten, um eine neue Stimme zu erzeugen.
The protection of your data is important to us!
We use cookies and third party tools to improve the performance of the website, to carry out analyzes and to provide you with content that is relevant to you. Privacy Policy
Technically required
Comfort functions
Statistics & Tracking
Choose cookies & services according to your individual needs:
Technically required
These cookies are necessary for the basic functions of the shop.
"Allow all cookies" cookie
"Decline all cookies" cookie
CSRF token
Cookie preferences
Currency change
Customer recognition
Customer-specific caching
Individual prices
Selected shop
Session
Comfort functions
These cookies are used to make the shopping experience even more appealing, for example for the recognition of the visitor.
Note
Statistics & Tracking
Affiliate program
Google Tag Manager
Track device being used
You can change your consent decisions at any time in your privacy settings.