Heim >Technologie-Peripheriegeräte >KI >Microsoft veröffentlicht VALL-E, ein KI-Sprachgenerierungstool, das menschliche Sprache in nur 3 Sekunden Audio nachahmen kann

Microsoft veröffentlicht VALL-E, ein KI-Sprachgenerierungstool, das menschliche Sprache in nur 3 Sekunden Audio nachahmen kann

PHPz
PHPznach vorne
2023-05-10 09:13:362134Durchsuche

微软发布 AI 声音生成工具 VALL-E,只需 3 秒音频即可模仿人说话

Neuigkeiten vom 10. Januar: Microsoft hat kürzlich ein Tool für künstliche Intelligenz namens VALL-E veröffentlicht, das menschliche Sprache in nur 3 Sekunden Audio imitieren kann.

Das Tool basiert auf 60.000 Stunden englischer Sprachdaten und verwendet 3-Sekunden-Clips bestimmter Sprache, um Inhalte zu generieren. Im Gegensatz zu vielen aktuellen KI-Tools kann VALL-E die Stimmung und den Ton eines Sprechers nachbilden, selbst in Worten, die der Sprecher selbst noch nie gesprochen hat.

微软发布 AI 声音生成工具 VALL-E,只需 3 秒音频即可模仿人说话

IT House hat erfahren, dass ein Artikel der Cornell University VALL-E verwendet hat, um mehrere Sounds zu synthetisieren. Sie können sich diese KI-synthetisierten Audios auf ​​GitHub​​ anhören.

Die Forscher stellen fest, dass Vall-E in vielen Fällen aktuelle Text-to-Speech-Modelle übertrifft. Allerdings schreibt die Studie auch, dass KI-Modelle derzeit mehrere Probleme hätten. Beispielsweise können einige Wörter in einer Textaufforderung unklar ausgesprochen werden, ganz fehlen oder in der Ausgabe zweimal vorkommen. Darüber hinaus hat das Modell derzeit Schwierigkeiten, bestimmte Stimmen zu imitieren, insbesondere solche mit Akzenten.

Wie andere neue KI-Technologien hat auch VALL-E Bedenken hinsichtlich Sicherheit, Ethik usw. geäußert. Microsoft hat eine Ethikerklärung zur Verwendung von VALL-E herausgegeben, es war jedoch unklar, ob es künftig verwendet werden soll.

Derzeit ist Microsoft Vall-E noch nicht Open Source. Microsoft hat auf GitHub ein ​​Vall-E-Repository​​ erstellt, das derzeit jedoch nur eine Beschreibungsdatei enthält.

Das obige ist der detaillierte Inhalt vonMicrosoft veröffentlicht VALL-E, ein KI-Sprachgenerierungstool, das menschliche Sprache in nur 3 Sekunden Audio nachahmen kann. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen