ホームページ >テクノロジー周辺機器 >AI >Microsoft、わずか 3 秒の音声で人間の音声を模倣できる AI 音声生成ツール VALL-E をリリース
1 月 10 日のニュース、マイクロソフトは最近、わずか 3 秒の音声で人間の音声を模倣できる VALL-E と呼ばれる人工知能ツールをリリースしました。
このツールは 60,000 時間の英語音声データでトレーニングされており、特定の音声の 3 秒間のクリップを使用してコンテンツを生成します。現在の多くの AI ツールとは異なり、VALL-E は、話者自身が話したことがない言葉であっても、話者の気分や口調を再現できます。
IT House は、コーネル大学の論文で VALL-E を使用していくつかのサウンドを合成したことを知りました。GitHub で聴くことができます。これらの AI 合成オーディオ 。
研究者らは、多くの場合、Vall-E が現在のテキスト読み上げモデルよりも優れたパフォーマンスを発揮したと指摘しました。ただし、この研究では、AI モデルには現在いくつかの問題があるとも書かれています。たとえば、テキスト プロンプト内の一部の単語が不明瞭に発音されたり、完全に欠落したり、出力に 2 回表示されたりする場合があります。さらに、このモデルは現在、特定の音声、特にアクセントのある音声を模倣することが困難です。 他の新しい AI テクノロジーと同様、VALL-E も安全性と倫理の観点から懸念を引き起こしています。 MicrosoftはVALL-Eの使用に関する倫理声明を発表したが、今後の使用については不明だった。 現時点では、Microsoft Vall-E はまだオープンソース化されていません。 Microsoft は GitHub 上にVall-E リポジトリ を作成しましたが、現時点では説明ファイルのみが含まれています。
以上がMicrosoft、わずか 3 秒の音声で人間の音声を模倣できる AI 音声生成ツール VALL-E をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。