Heim >Technologie-Peripheriegeräte >KI >Microsoft veröffentlicht VALL-E, ein KI-Sprachgenerierungstool, das menschliche Sprache in nur 3 Sekunden Audio nachahmen kann

Microsoft veröffentlicht VALL-E, ein KI-Sprachgenerierungstool, das menschliche Sprache in nur 3 Sekunden Audio nachahmen kann

PHPznach vorne: 2023-05-10 09:13:362287Durchsuche

微软发布 AI 声音生成工具 VALL-E，只需 3 秒音频即可模仿人说话

Neuigkeiten vom 10. Januar: Microsoft hat kürzlich ein Tool für künstliche Intelligenz namens VALL-E veröffentlicht, das menschliche Sprache in nur 3 Sekunden Audio imitieren kann.

Das Tool basiert auf 60.000 Stunden englischer Sprachdaten und verwendet 3-Sekunden-Clips bestimmter Sprache, um Inhalte zu generieren. Im Gegensatz zu vielen aktuellen KI-Tools kann VALL-E die Stimmung und den Ton eines Sprechers nachbilden, selbst in Worten, die der Sprecher selbst noch nie gesprochen hat.

微软发布 AI 声音生成工具 VALL-E，只需 3 秒音频即可模仿人说话

IT House hat erfahren, dass ein Artikel der Cornell University VALL-E verwendet hat, um mehrere Sounds zu synthetisieren. Sie können sich diese KI-synthetisierten Audios auf GitHub anhören.

Die Forscher stellen fest, dass Vall-E in vielen Fällen aktuelle Text-to-Speech-Modelle übertrifft. Allerdings schreibt die Studie auch, dass KI-Modelle derzeit mehrere Probleme hätten. Beispielsweise können einige Wörter in einer Textaufforderung unklar ausgesprochen werden, ganz fehlen oder in der Ausgabe zweimal vorkommen. Darüber hinaus hat das Modell derzeit Schwierigkeiten, bestimmte Stimmen zu imitieren, insbesondere solche mit Akzenten.

Wie andere neue KI-Technologien hat auch VALL-E Bedenken hinsichtlich Sicherheit, Ethik usw. geäußert. Microsoft hat eine Ethikerklärung zur Verwendung von VALL-E herausgegeben, es war jedoch unklar, ob es künftig verwendet werden soll.

Derzeit ist Microsoft Vall-E noch nicht Open Source. Microsoft hat auf GitHub ein Vall-E-Repository erstellt, das derzeit jedoch nur eine Beschreibungsdatei enthält.

Das obige ist der detaillierte Inhalt vonMicrosoft veröffentlicht VALL-E, ein KI-Sprachgenerierungstool, das menschliche Sprache in nur 3 Sekunden Audio nachahmen kann. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Das Team von You Yang erzielte beim AAAI 2023 Outstanding Paper Award neue Ergebnisse, indem es mit einem einzigen V100 das Modell 72-mal schneller trainierteNächster Artikel：Das Team von You Yang erzielte beim AAAI 2023 Outstanding Paper Award neue Ergebnisse, indem es mit einem einzigen V100 das Modell 72-mal schneller trainierte

In Verbindung stehende Artikel

Mehr sehen