オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。-AI-php.cn

ホームページ

テクノロジー周辺機器

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

王林

Apr 12, 2023 pm 07:04 PM

モデルオープンソース

テキストが与えられると、人工知能は音楽、音声、さまざまな効果音、さらにはブラックホールやレーザー銃などの想像上の音さえも生成できます。最近サリー大学とインペリアル・カレッジ・ロンドンが共同で立ち上げた AudioLDM は、リリース後すぐに海外で人気を博し、Twitter では 1 週間以内に 300 近くのリツイートと 1,500 件の「いいね！」を獲得しました。モデルがオープンソース化されてから 2 日目、AudioLDM は Hugging Face のホット検索リストのトップに躍進し、1 週間以内に Hugging Face の最も人気のあるアプリケーションリストのトップ 40 (合計約 25,000) に入り、すぐに多くのアプリケーションに表示されました。 AudioLDMに基づく二次創作物。

AudioLDM モデルには次のような特徴があります:

テキストから音楽、音声、効果音を生成できる初のオープンソースモデル同時に。
学術界によって開発されたこのツールは、現在最良の結果を達成するために、より少ないデータ、単一の GPU、より小さなモデルを使用しています。
自己教師ありの方法で生成モデルをトレーニングすることを提案します。これにより、テキストガイドによる音声生成が欠落 (テキスト音声) の問題によって制限されなくなります。 ) データペア。
モデルは、追加のトレーニング (ゼロショット) なしで、オーディオスタイルの転送、オーディオ欠落の充填、およびオーディオの超解像度を実現できます。

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

#プロジェクトのホームページ: https://audioldm.github.io/
論文: https://arxiv.org/abs/2301.12503
オープンソースコードとモデル: https://github.com/haoheliu/AudioLDM
ハグフェイススペース: https://huggingface.co/spaces/haoheliu/audioldm - テキストからオーディオへの生成

著者は 1 月 27 日にこのモデルのプレビューを初めてリリースし、非常に単純なテキストを表示しました。「A music made by by」 []」（[]で生成された音楽）を使用して、さまざまな効果音を生成します。さまざまな楽器や蚊を使って作られた音楽を映したこのビデオは、すぐに Twitter で注目を集め、35.4,000 回以上再生され、130 回以上リツイートされました。

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

著者はその後、論文と新しいビデオを公開しました。このビデオでは、著者がモデルのほとんどの機能と、ChatGPT を使用してサウンドを生成する効果を示しています。 AudioLDM は宇宙から音を生成することもできます。

その後、著者は論文、事前トレーニング済みモデル、およびプレイアブルインターフェイスをリリースしたため、Twitter ネチズンの熱意に火がつき、翌日すぐに Hugging Face に掲載されました。ホット検索リスト:

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

#この研究は Twitter 上で広く注目を集めており、業界の学者らはこの研究結果を転送しました。

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

ネチズンは AudioLDM を使用してさまざまなサウンドを生成しました。

#たとえば、2 次元の猫娘のいびき音が生成されます。

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

## そして幽霊の声:

一部のネチズンは、「ミイラの音、低周波、痛みを伴ううめき声」と合成しました。

一部のネチズンは「メロディーのおなら音」を合成しました。

ネチズンの豊かな想像力を嘆かざるを得ません。

一部のネチズンは、AudioLDM を直接使用して、ジャズ、ファンク、エレクトロニック、クラシックなど、さまざまなスタイルの一連の音楽アルバムを生成しました。いくつかの音楽は非常に独創的です。

#例「宇宙と月をテーマにしたアンビエント音楽を作成する」:

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

# および「未来のサウンドを使用して音楽を作成する」:

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

興味があります読者はこの音楽アルバムの Web サイトにアクセスできます: https://www.latent.store/albums

一部のネチズンは、想像力を駆使して、画像で生成されたものを組み合わせて画像を作成しましたテキストモデルと AudioLDM 効果音の生成をガイドするアプリケーション。

たとえば、AudioLDM に次のテキストを与えるとします: 「フリスビーを持って水中を走っている犬」 (フリスビーをくわえて水中を走っている犬):

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

は、犬が水を叩く次のような音を生成できます。

下の写真のような古い写真のサウンドを復元することもできます。

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

##「バーに座っている男性と女性」(バーに座っている男性と女性) のテキストを取得した後、モデルは次のサウンドを生成できます。バックグラウンドでワイングラスの音。

一部のネチズンは、AudioLDM を使用して燃える犬の音を生成しましたが、これは非常に興味深いものです。

著者は、サウンド効果を生成するモデルの機能を実証するビデオも作成し、AudioLDM で生成されたサンプルがサウンド効果ライブラリの効果にどのように近いかを示しました。

実際、テキストオーディオの生成は AudioLDM の機能の一部にすぎません。AudioLDM は、音色変換、欠落充填、超解像度も実現できます。

下の 2 つの写真は、(1) パーカッションからアンビエントミュージックへ、(2) トランペットから子供たちの歌への音色の変化を示しています。

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

以下はパーカッションからアンビエントミュージックまで(段階的なトランジションの強度) エフェクト。

トランペットの音は、子供の歌の音に変換されます（段階的な変換強度）。

以下では、オーディオ超解像、オーディオ欠落充填、およびサウンドマテリアル制御に対するモデルの効果を示します。記事の長さに制限があるため、オーディオは主にスペクトログラムの形式で表示されます。興味のある読者は、AudioLDM プロジェクトのホームページにアクセスしてください: https://audioldm.github.io/

オーディオの超解像に関しても、AudioLDM の効果は非常に優れており、以前の超解像モデルと比較して、AudioLDM は音楽や音声の処理に限定されないユニバーサルな超解像モデルです。

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

音声の欠落を埋めるという点では、AudioLDM は指定されたテキストに従ってさまざまな音声コンテンツを埋めることができます。境界での移行は比較的自然です。

さらに、AudioLDM は、音響環境、音楽の雰囲気と速度、オブジェクトの素材、ピッチのピッチとシーケンスなどの強力な制御機能も示します。制御機能については、興味のある読者は確認してください。 AudioLDM の論文またはプロジェクトのホームページから出力します。

記事の中で、著者は AudioLDM モデルの主観的なスコアリングと客観的なインデックス評価を行いました。結果は、どちらも以前の最適なモデルを大幅に上回る可能性があることを示しています:

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

AudioGen は、2022 年 10 月に Facebook によって提案されたモデルで、10 個のデータセット、64 GPU、および 285 MB のパラメーターを使用します。比較すると、AudioLDM-S は、単一のデータセット、1 GPU、および 181 MB のパラメーターでより良い結果を達成できます。

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

主観的なスコアでも、AudioLDM が以前のソリューション DiffSound よりも大幅に優れていることがわかります。では、AudioLDM はこのような優れたパフォーマンスを実現するためにどのような改良を加えたのでしょうか?

まず、テキストとオーディオのデータペアが少なすぎるという問題を解決するために、著者は AudioLDM をトレーニングするための自己教師あり手法を提案しました。

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

具体的には、コアモジュールの LDM をトレーニングするときに、作成者はオーディオ自体の埋め込みを条件として使用します。 LDM シグナルでは、プロセス全体にテキストの使用は含まれません (上の画像に示すように)。このスキームは、元の CLAP テキストで優れた一般化機能が実証されている、事前にトレーニングされた 1 対のオーディオテキスト対比学習エンコーダー (CLAP) に基づいています。 AudioLDM は CLAP の優れた一般化機能を利用して、テキストラベルを必要とせずに大規模なオーディオデータでのモデルトレーニングを実現します。

実際、著者らは、音声のみを使用したトレーニングのほうが、音声とテキストのデータのペアを使用するよりも優れていることを発見しました。

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

著者は、次の 2 つの理由を分析しました。 (1) テキストアノテーション自体に、音響環境、周波数分布など、音声のすべての情報を含めることが難しく、埋め込みが発生する(2) テキスト自体の品質が完璧ではありません。たとえば、「ボート: 戦艦 - 5.25 コンベアスペース」という注釈は、人間ですら具体的な音が何であるかを想像するのが困難です。これは、モデルのトレーニングで問題を引き起こす可能性があります。対照的に、オーディオ自体を LDM の条件として使用すると、ターゲットのオーディオと条件の間に強い相関関係が確保され、より良い生成結果が得られます。

さらに、著者が採用した潜在拡散ソリューションでは、拡散モデルをより小さな空間で計算できるため、モデルの計算能力要件が大幅に削減されます。

モデルのトレーニングと構造における多くの詳細な調査も、AudioLDM が優れたパフォーマンスを達成するのに役立ちます。

#著者は、2 つの主要な下流タスクを紹介する簡単な構造図も作成しました。

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

著者は、さまざまなモデル構造、モデルサイズ、DDIM サンプリングステップ、さまざまな分類子を使用しないガイダンススケールを使用した詳細な実験も実施しました。

著者らは、モデルを公開すると同時に、将来このような問題に関する学術コミュニティの評価方法を統一するために、生成モデル評価システムのコードベースも公開し、それによって準備を容易にしました。質問された論文間の比較:

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

#著者のチームは、モデルが学術コミュニケーションのみに使用されることを保証するために、モデルの使用、特に商用利用を制限し、倫理的問題を防ぐために適切なライセンスと透かし保護を使用することを表明しました。オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

著者情報

この論文の共著者は、Liu Haohe (英国サリー大学) と Chen Zehua (英国インペリアルカレッジロンドン) の 2 人です。

Liu Haohe は現在、マーク D 教授の指導の下、英国のサリー大学で博士号取得に向けて勉強しています。プランリー。そのオープンソースプロジェクトは、GitHub で何千ものスターを獲得しています。彼は主要な学術会議で 20 以上の論文を発表し、いくつかの世界機械音響コンテストでトップ 3 のランキングを獲得しました。企業の世界では、Microsoft、ByteDance、英国放送協会などと広範な協力関係を築いています。個人ホームページ: https://www.surrey.ac.uk/people/haohe-liu

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

Chen Zehua は、インペリアルカレッジロンドンの博士課程の学生で、ダニロマンディック教授に師事しており、マイクロソフト音声合成研究グループと JD 人工知能研究所でインターンを行ってきました。彼の研究対象には、生成モデル、音声合成、生体電気信号生成などがあります。

オープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。

以上がオープンソースモデル、シングルカードトレーニングにより、人気のあるテキストガイド付きオーディオ生成テクノロジ AudioLDM を理解できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。