certified Microsoft experts
quick processing
strategic consulting
Microsoft Task Force 02841 781 40 90
 

Microsoft VALL-E

Microsoft kündigte kürzlich das Text-to-Speech-KI-Modell VALL-E an, das die Stimme einer Person genau simulieren und dabei sowohl den emotionalen Ton als auch die akustische Umgebung beachten kann. Im Marketing-Kontext bieten sich damit vielerlei spannende, kreative und effiziente Möglichkeiten - zum Beispiel im Podcast- oder Videobereich! Seitdem das erste Text-to-Speech (TTS)-Modell veröffentlicht wurde, suchen Forscher nach Möglichkeiten, die Art und Weise, wie solche Systeme Sprache erzeugen, zu verbessern. VALL-E, das neueste Modell von Microsoft, ist dabei ein großer Schritt nach vorn. VALL-E ist ein transformatorbasiertes TTS-Modell, das Sprache in jeder beliebigen Stimme erzeugen kann, nachdem es nur ein drei Sekunden langes Sample dieser Stimme gehört hat. Das ist eine bedeutende Verbesserung gegenüber früheren Modellen, die eine viel längere Trainingszeit benötigten, um eine neue Stimme zu erzeugen.