清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発-AI-php.cn

ホームページ

テクノロジー周辺機器

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 03, 2024 pm 08:10 PM

業界

最近、清華大学コンピューターサイエンス学部の Zhu Jun 教授の研究グループによってリリースされた、シュレディンガーブリッジ [1] に基づく音声合成システムは、「データ対データ」生成パラダイムに依存しており、両方の点で打ち負かされています。サンプル品質とサンプリング速度の観点拡散モデルの「ノイズ対データ」パラダイム。

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発

論文リンク: https://arxiv.org/abs/2312.03491

プロジェクト Web サイト: https://bridge-tts.github.io/

コードの実装: https://github.com/thu-ml/Bridge-TTS

#問題の背景

2021 年以降、拡散モデルはテキスト音声合成 (TTS) の分野における中心的な生成手法の 1 つになり始めています。ファーウェイのノアの方舟研究所が提案するGrad-TTS [2]や浙江大学が提案するDiffSinger [3]などは高い世代品質を実現している。それ以来、事前の最適化 [2、3、4]、モデルの蒸留 [5、6]、残差予測 [7] などの方法を通じて、多くの研究作業が拡散モデルのサンプリング速度を効果的に改善してきました。しかし、本研究で示したように、拡散モデルは「ノイズからデータへ」という生成パラダイムに限定されているため、その事前分布では生成対象に対して常に限られた情報しか得られず、条件付き情報を十分に活用することができません。

音声合成分野における最新の研究成果である Bridge-TTS は、シュレディンガーブリッジに基づく生成フレームワークに依存して、「データからデータへ」 の生成プロセスを実現します。先験的音声合成情報 はノイズからクリーンデータ に変更され、 は分散から決定論的表現 に変更されます。

このメソッドの主なアーキテクチャは、上の図に示されています。入力テキストは、最初にテキストエンコーダを通じて抽出され、生成されたターゲット (メル) の潜在空間表現が抽出されます。 -スペクトログラム、メルスペクトル)。その後、この情報をノイズ分布に組み込んだり、条件付き情報として使用したりする拡散モデルとは異なり、Bridge-TTS 手法では事前情報として直接使用することができ、ランダムまたは決定論的なサンプリングをサポートします。 高品質、迅速ターゲットを生成します。

#作業結果

音声品質の検証において合成標準データセット LJ-Speech に関して、研究チームは Bridge-TTS と 9 つの高品質音声合成システムおよび拡散モデルの高速サンプリング方法を比較しました。以下に示すように、この方法は、

サンプル品質 (1000 ステップ、50 ステップのサンプリング) および サンプリング速度の点で、高品質の拡散モデルベースの TTS システム [2、3、7] を上回っています。追加のモデル蒸留などの後処理を必要とせず、残差予測、漸進蒸留、最新の一貫性蒸留などの多くの高速化手法を上回ります [5、6、7]。

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発

以下は、Bridge-TTS と拡散モデルベースの手法の生成効果の例です。生成サンプルの詳細比較については、プロジェクト Web サイトをご覧ください: https:/ /bridge-tts.github.io/

1000 ステップ合成エフェクトの比較

テキストを入力してください: 「印刷は、私たちの目的では、可動活字を使用して本を作成する技術とみなされる可能性があります。」

4 ステップ合成効果の比較

入力テキスト: 「最初の本」「黒文字、つまり古代ローマ文字をゴシック風に発展させた文字」で印刷されました。ステップ合成効果

テキストを入力: 「刑務所の人口は大幅に変動しました。」 以下に、Bridge-TTS A のステップ 2 と 4 の決定論的合成 (ODE サンプリング) のケースを示します。 4 ステップ合成において、この方法は拡散モデルよりも大幅に多くのサンプル詳細を合成し、残留ノイズの問題はありません。 2 ステップ合成では、このメソッドは完全に純粋なサンプリング軌跡を示し、各ステップで生成された詳細をさらに洗練します。

周波数領域では、さらに生成されたサンプルが以下に示されています。1000 ステップの合成で、この方法では拡散モデルと比較して高品質のメルが生成されます。サンプリングステップの数が 50 に低下しても、拡散モデルではサンプリングの詳細の一部が犠牲になっていますが、シュレーディンガーブリッジに基づく方法では依然として高品質の生成効果が維持されています。 4 ステップおよび 2 ステップ合成では、この方法は蒸留、多段階トレーニング、敵対的損失関数を必要とせず、高品質の生成効果を実現します。

Bridge-TTS と 1000 ステップの合成における拡散モデルベースの手法のメルスペクトルの比較

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発

50 ステップ合成における Bridge-TTS と拡散モデルベースの手法間のメルスペクトルの比較

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発

^{4 ステップ合成における Bridge-TTS と拡散モデルベースの手法間のメルスペクトルの比較}

#2 段階合成における Bridge-TTS と拡散モデルベースの手法間のメルスペクトルの比較

Bridge-TTS はリリース後、その斬新なデザインと高品位な音声合成効果で Twitter 上で熱い注目を集め、 100のリツイートと数百のいいねを獲得し、12.7のHuggingface's Daily Paperに選出され、その日の支持率で1位を獲得し、LinkedIn、Weibo、Zhihu、Xiaohongshuなどの国内のメディアでも取り上げられ、フォローされ、報道されました。外部プラットフォーム。

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発

多くの外国語 Web サイトでも報告および議論されました:

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発

手法の紹介

##シュレディンガーブリッジは、拡散モデルに続いて最近登場したディープ

生成モデル

の一種で、予備的なアプリケーションがあります。画像生成、画像翻訳、その他の分野で。データとガウスノイズ間の変換プロセスを確立する拡散モデルとは異なり、シュレーディンガーブリッジは任意の 2 つの境界分布間の変換をサポートします。 Bridge-TTS の研究では、著者らは、さまざまな前方処理、予測対象、サンプリング処理を柔軟にサポートする、ペアデータ間のシュレーディンガーブリッジに基づく音声合成フレームワークを提案しました。その方法の概要を以下の図に示します。

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発

前方プロセス
: この研究では、強力な事前情報と生成を組み合わせます。目標完全に解決可能なシュレーディンガーブリッジがそれらの間に構築され、対称ノイズ戦略:、定数、非対称ノイズ戦略: # などの柔軟な前方プロセス選択をサポートします。 ##、線形 、および 分散保存 (VP) 拡散モデルに直接対応するノイズ戦略。この方法により、音声合成タスクでは、非対称ノイズ戦略である線形 (gmax) および VP プロセスの方が対称ノイズ戦略よりも優れた生成効果があることがわかりました。

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発 #

モデルトレーニング : この方法では、単一ステージ、単一モデル、単一損失関数など、拡散モデルトレーニングプロセスの多くの利点が維持されます。そして、ノイズ予測 (Noise)、生成ターゲット予測 (Data)、および拡散モデルに対応するフローマッチング技術を含む、モデルパラメータ化 (モデルパラメータ化)、つまりネットワーク学習ターゲットの選択のさまざまな方法を比較します [10,11]。】速度予測（Velocity）などこの記事では、生成ターゲット、つまりメルスペクトルをネットワーク予測ターゲットとして使用すると、比較的良好な生成結果が得られることがわかりました。

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発

サンプリングプロセス : シュレディンガー橋が完全に解けるという事実のおかげで本研究では、シュレーディンガーブリッジに対応する前方-後方SDEシステムを変換することにより、推論用のBridge SDEとBridge ODEを取得しました。同時に、ブリッジ SDE/ODE 推論の直接シミュレーションの速度が遅いため、サンプリングを高速化するために、この研究では拡散モデル [12,13] で一般的に使用される指数積分器を使用し、一次シュレディンガーブリッジの SDE および ODE のサンプリング形式:

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発

#1 ステップサンプリングでは、1 次の SDE と ODE のサンプリング形式が一緒に縮退します。ネットワークのシングルステップ予測を可能にします。同時に、それらは事後サンプリング/拡散モデル DDIM サンプリングと密接に関連しており、記事の付録で詳細な分析が提供されています。この記事では、シュレディンガーブリッジの 2 次サンプリング SDE および ODE サンプリングアルゴリズムについても説明します。著者らは、音声合成における生成品質が一次サンプリングプロセスと同様であることを発見しました。

音声強調、音声分離、音声編集など、事前情報が強力な他のタスクでも、この研究がより大きな価値をもたらすと著者らは期待しています。

著者について

この研究には 3 人の共同筆頭著者がいます: Chen Zehua , He Guande 氏と Zheng Kaiwen 氏はどちらも清華大学コンピューターサイエンス学部の Zhu Jun の研究グループに所属しており、この論文の責任著者は Zhu Jun 教授であり、Microsoft Research Asia の主任研究マネージャーである Tan Xu 氏はプロジェクト協力者です。

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発

# Tan Xu、Microsoft Research Asia チーフリサーチマネージャー

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発

Chen Zehua 氏は水夢学者です。清華大学コンピューターサイエンス学部の博士研究員で、主な研究方向は確率生成モデルと、音声、音響効果、生体電気信号合成などにおけるその応用です。彼は Microsoft、JD.com、TikTok などの多くの企業でインターンをしており、ICML/NeurIPS/ICASP などの音声および機械学習の分野の重要な国際会議で多くの論文を発表しています。

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発

He Guande は清華大学の修士 3 年生です。彼の主な研究方向は不確実性の推定と生成モデルです。以前は次のような研究に参加していました。 ICLRなどの学会に第一著者として論文を発表。

清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発

Zheng Kaiwen は清華大学の修士 2 年生です。彼の主な研究方向は、深い生成モデルの理論とアルゴリズム、および画像、オーディオ、3D 生成におけるその応用です。彼はこれまでに、ICML/NeurIPS/CVPR などのトップカンファレンスで、フローマッチングや拡散モデルの指数積分器などのテクノロジーに関する多くの論文を発表してきました。

^{参考文献:}

^{[1] Zehua Chen、Guande He 、 Kaiwen Zheng、Xu Tan、および Jun Zhu. Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis. arXiv プレプリント arXiv:2312.03491, 2023.}

^{[ 2] Vadim Popov、Ivan Vovk、Vladimir Gogoryan、Tasnima Sadekova、Mikhail A. Kudinov. Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech. In ICML, 2021.}

^{#[3] Jinglin Liu、Chengxi Li、Yi Ren、Feiyang Chen、Zhou Zhao. DiffSinger: 浅い拡散メカニズムによる歌声合成. AAAI、2022.}

##[4] Sang-gil Lee、Heeseung Kim、Chaehun Shin、Xu Tan、Chang Liu、Qi Meng、Tao Qin、Wei Chen、Sungroh Yuon、Tie-Yan Liu。データ依存型適応事前分布による条件付きノイズ除去拡散モデルの改善. ICLR にて、2022.

#[5] Rongjie Huang、Zhou Zhao、Huadai Liu、Jinglin Liu、Chenye Cui、Yi Ren、ProDiff: 高品質テキスト読み上げのためのプログレッシブ高速拡散モデル、ACM Multimedia、2022.

[6 ] Zhen Ye、Wei Xue、Xu Tan、Jie Chen、Qifeng Liu、および Yike Guo.CoMoSpeech: 一貫性モデルによるワンステップ音声および歌声合成.ACM Multimedia にて、2023.

#[7] Zehua Chen、Yihan Wu、Yichong Leng、Jiawei Chen、Haohe Liu、Xu Tan、Yang Cui、Ke Wang、Lei He、Sheng Zhao、Jiang Bian、Danilo P. Mandic。レスグラード: Text to Speech の残留ノイズ除去拡散確率モデル。arXiv プレプリント arXiv:2212.14518、2022.

[8] Yuyang Shi、Valentin De Bortoli、Andrew Campbell、および Arnaud Doucet. 拡散シュレディンガーブリッジマッチング. NeurIPS 2023 で.

[9] Guan-Horng Liu、Arash Vahdat、De-An Huang、Evangelos A . Theodorou、 Weili Nie、Anima Anandkumar. I2SB: Image-to-Image Schrödinger Bridge. In ICML, 2023.

#[10] Yaron Lipman、Ricky T. Q. Chen、Heli Ben-Hamu、Maximilian Nickel、Matt Le. ジェネレーティブモデリングのためのフローマッチング. ICLR にて、2023.

#[11] Kaiwen Zheng、Cheng Lu、Jianfei Chen 、Jun Zhu. 拡散 ODE の最尤推定のための改良技術. ICML にて、2023.

#[12] Cheng Lu、Yuhao Zhou、Fan Bao、Jianfei Chen、Chongxuan Li、および Jun Zhu. DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps. In NeurIPS, 2022.

[13] Kaiwen Zheng、Cheng Lu、Jianfei Chen、および Jun Zhu. DPM-Solver-v3: 経験的モデル統計による拡散 ODE ソルバーの改善. NeurIPS にて、2023.

以上が清華大学の朱軍氏のチームは、シュレーディンガーブリッジの助けを借りて、拡散の課題に対処するための新しい音声合成システムを開発の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。