ホームページ >テクノロジー周辺機器 >AI >Microsoft、わずか 3 秒の音声で人間の音声を模倣できる AI 音声生成ツール VALL-E をリリース

Microsoft、わずか 3 秒の音声で人間の音声を模倣できる AI 音声生成ツール VALL-E をリリース

PHPz
PHPz転載
2023-05-10 09:13:362135ブラウズ

微软发布 AI 声音生成工具 VALL-E,只需 3 秒音频即可模仿人说话

1 月 10 日のニュース、マイクロソフトは最近、わずか 3 秒の音声で人間の音声を模倣できる VALL-E と呼ばれる人工知能ツールをリリースしました。

このツールは 60,000 時間の英語音声データでトレーニングされており、特定の音声の 3 秒間のクリップを使用してコンテンツを生成します。現在の多くの AI ツールとは異なり、VALL-E は、話者自身が話したことがない言葉であっても、話者の気分や口調を再現できます。

微软发布 AI 声音生成工具 VALL-E,只需 3 秒音频即可模仿人说话

IT House は、コーネル大学の論文で VALL-E を使用していくつかのサウンドを合成したことを知りました。GitHub で聴くことができます。これらの AI 合成オーディオ

研究者らは、多くの場合、Vall-E が現在のテキスト読み上げモデルよりも優れたパフォーマンスを発揮したと指摘しました。ただし、この研究では、AI モデルには現在いくつかの問題があるとも書かれています。たとえば、テキスト プロンプト内の一部の単語が不明瞭に発音されたり、完全に欠落したり、出力に 2 回表示されたりする場合があります。さらに、このモデルは現在、特定の音声、特にアクセントのある音声を模倣することが困難です。

他の新しい AI テクノロジーと同様、VALL-E も安全性と倫理の観点から懸念を引き起こしています。 MicrosoftはVALL-Eの使用に関する倫理声明を発表したが、今後の使用については不明だった。

現時点では、Microsoft Vall-E はまだオープンソース化されていません。 Microsoft は GitHub 上に

Vall-E リポジトリ を作成しましたが、現時点では説明ファイルのみが含まれています。

以上がMicrosoft、わずか 3 秒の音声で人間の音声を模倣できる AI 音声生成ツール VALL-E をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。