ホームページ >テクノロジー周辺機器 >AI >Meta が音声とテキストの同時入力をサポートする AI オーディオモデル Audiobox を発表

Meta が音声とテキストの同時入力をサポートする AI オーディオモデル Audiobox を発表

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-12-04 17:25:561410ブラウズ

Meta は最近、Audiobox と呼ばれる AI サウンド生成モデルを発売しました。このモデルは音声とテキストの両方の入力を受け取ることができ、ユーザーは音声とテキストの説明を通じて必要な音声を生成できます。

このモデルは、Meta が今年 6 月に発表した Voicebox AI モデルをベースにしていると報告されており、Audiobox はさまざまな環境音や自然な会話音声を生成でき、オーディオの生成と編集機能を統合しているため、ユーザーは必要なものを自由に生成します。

Meta 推出 AI 音频模型 Audiobox，支持语音及文字同时输入

Meta 氏は、高品質のオーディオを生成するには、多数のオーディオライブラリと深い専門知識が必要であるが、これらのリソースを一般の人が入手するのは難しいと述べ、同社はサウンド生成の敷居を下げ、より簡単にするためにこのモデルを立ち上げました。誰でもビデオを制作できるようにするため、ゲームなどのアプリケーションシナリオの効果音を作成します。

IT House は、この Audiobox モデルが、ターゲットオーディオの生成を容易にする Voicebox の「ガイドサウンド」メカニズムに基づいており、「フローマッチング」拡散モデル生成手法と連携して「サウンドフィリング (オーディオインフィリング)」を実現していることを発見しました。マルチレイヤーオーディオを生成する機能。

メタテストは、雷雨の音を含む雨の音声を生成し、「鳥のさえずりを伴う水の流れる音」、「甲高く速いリズムで話す若い女性」など、デモンストレーション用の一連のプロンプトセンテンスを入力します。、など; 同時に、このテストでは、人間の声とテキストプロンプトを入力して、感情 (「悲しくて遅い」) と背景音 (教会にいるとき) を含む音声を生成します。

Meta 推出 AI 音频模型 Audiobox，支持语音及文字同时输入

Meta は、Audiobox が音質と「生成されたコンテンツの精度」の点で AudioLDM2、VoiceLDM、および TANGO を打ち負かすことに成功し、既存の最高のオーディオ生成モデルを上回ったと主張しています。

Meta 推出 AI 音频模型 Audiobox，支持语音及文字同时输入

Audioboxは現在、モデルの品質と安全性をテストするための試用を特定の研究者や学者に公開しているが、メタ社は「数週間以内にモデルを完全に一般公開する」予定だと主張している。

以上がMeta が音声とテキストの同時入力をサポートする AI オーディオモデル Audiobox を発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事はsohu.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：革命的なサウンド体験！ Xingji Meizu MYVU AR スマートグラスに AAC の包括的な音響ソリューションが導入次の記事：革命的なサウンド体験！ Xingji Meizu MYVU AR スマートグラスに AAC の包括的な音響ソリューションが導入

続きを見る

Meta が音声とテキストの同時入力をサポートする AI オーディオ モデル Audiobox を発表

関連記事

Meta が音声とテキストの同時入力をサポートする AI オーディオモデル Audiobox を発表