検索
ホームページテクノロジー周辺機器AI北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能

北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com


2024 年の GPT-4o の登場以来、業界の企業は TTS 大型モデルの研究開発に莫大なリソースを投資してきました。ここ数か月で、chattts、seedtts、cosyvoice などの大規模な中国語音声合成モデルが登場しました。

現在の大規模音声合成モデルは中国語の北京語を話す現実の人々とほとんど区別がつきませんが、中国の複雑な方言に直面して、TTS 大規模モデルがさまざまな中国語の統一音声合成のトレーニングに関与することはほとんどありませんでした。大きなモデルは非常に困難な作業です。

業界の問題点と技術的ボトルネック

現在、音声合成ラージモデル技術は中国語の分野で大幅な進歩を遂げていますが、方言の分野での発展は非常に遅れています。中国には数十の主要な方言があり、それぞれが独自の音声特徴と文法構造を持っているため、さまざまな方言をカバーする大規模な TTS モデルのトレーニングが非常に複雑になります。

既存の大規模な TTS モデルのほとんどは中国語に焦点を当てており、多様な音声合成のニーズを満たすことができません。さらに、方言コーパスの不足と高品質の注釈データの不足により、技術的な困難がさらに高まります。

Giant Network AI Labの技術革新と躍進

上記の問題を解決するために、Giant Network AI Labチームのアルゴリズム専門家と言語学者が協力して、中国語の方言システム。20 の方言、200,000 時間以上の中国語と方言のデータ セット。この巨大なデータセットを通じて、私たちは複数の北京語方言をサポートする最初の大規模 TTS モデル、Bailing-TTS をトレーニングしました。 Bailing-TTS は、高品質の中国語音声を生成できるだけでなく、河南語、上海語、広東語などを含むさまざまな方言音声も生成できます。

北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能

  • ArXiv: https://arxiv.org/pdf/2408.00284
  • ホームページ: https://giantailab.github.io/bailingtts_tech_report/index.html
  • 論文タイトル: Bailing- TTS: 人間のような自発的表現に向けた中国語の方言音声合成

以下は、Bailing-TTS 河南方言の合成効果です:

テキスト 1:

ビアン水の流れ東へ 無限の春、隋家の宮殿は塵と化した。歩行者は、風が吹き、花々が人を殺すことを心配するために長い堤防に登ってはいけません。

音声 1 を生成します:
北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能
テキスト 2:

私は河南オペラを聴くのも素敵で、そのアクセントは聞いていてとても刺激的です。 。何もすることがないときは、散歩に出て河南省の美しい景色を眺めることができます。幸いなことに、煮込み麺や辛いスープなど、楽しいものは自分で作ることができます。


生成语音2:北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能
再给大家听一下普通话零样本克隆的效果:

Prompt 1:青年-男北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能生成1:这个问题,嗯嘶,从另一个角度看,是不是对我们来说也是一件好事? 北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能Prompt 2:少年-男 北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能生成2:喽,明天又是周末啦,一起去看个电影吧。 北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能Prompt 3:老年-女 北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能
生成3:说起我们以前的事,啊,那真是三天三夜都说不完。北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能Prompt 4:幼童-女 北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能生成4:哦,你说的是这个啊,这是我去海边的时候捡到的。 北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能
我们采取了多项创新技术来实现这一目标:

1. 统一的方言 Token 规范:我们将各方言的 token 规范统一,并使普通话与各方言的 token 有部分重叠,以利用普通话提供基础发音能力。这使得我们能够在有限的数据条件下,实现高质量的方言语音合成。

2. 精细化 Token 对齐技术:我们提出了基于大规模多模态预训练的精细化 token-wise 对齐技术。

3. 层次混合专家结构:我们设计了一种层次混合专家体系结构,用于学习多个汉语方言的统一表示和每种方言的特定表示。

4. 层次强化学习增强策略:我们提出了层次化的强化学习策略,通过基础训练策略和高级训练策略相结合的方法,进一步增强 TTS 模型的方言表达能力。

实现细节

北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能

️図 1 Bailing-TTS の全体的なアーキテクチャ
参照大規模なマルチモーダル事前トレーニングに基づいた ined トークンの配置
テキストとテキストの洗練された配置を実現するために、音声トークン、多段階、マルチモーダルな事前トレーニング学習フレームワークを提案します。

最初の段階では、教師なしサンプリング戦略を使用して、大規模なデータセットで大まかなトレーニングを実行します。第 2 段階では、洗練されたサンプリング戦略を採用して、高品質の方言データセットに対してきめの細かいトレーニングを実施します。この方法は、テキストと音声の間のきめ細かい相関関係を効果的に捕捉し、2 つのモダリティの調整を促進します。

2. 階層型混合エキスパートTransformerネットワーク構造に基づいて
複数の中国語方言に適した統一TTSモデルをトレーニングするために、階層型混合エキスパートネットワーク構造と多段階マルチを設計しました。 -方言トークンの学習戦略。

まず、複数の中国語の方言の統一表現と各方言の特定の表現を学習するために特別に設計されたハイブリッドエキスパートアーキテクチャを提案します。次に、相互注意に基づく融合メカニズムを通じて TTS モデルのさまざまなレベルに方言トークンを注入し、モデルの複数方言表現機能を向上させます。

3. 階層型強化学習の強化戦略
基本的な戦略トレーニングと高度な方言表現能力を組み合わせることにより、TTS モデルをさらに強化するための階層型強化学習戦略を提案します。基本トレーニング戦略は高品質な方言音声表現の探索をサポートし、高度なトレーニング戦略はこれに基づいてさまざまな方言の音声特徴を強化し、それによって複数の方言で高品質な音声合成を実現します。

北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能

Bailing-TTS は、堅牢性、生成品質、および中国語と複数の方言の自然さ。表 1 は、中国語の一般的な通話と方言における Bailing-TTS のテスト結果です
実際のアプリケーション シナリオの評価では、Bailing-TTS は良好な結果を達成しました。表 2 Bailing-TTS テストの結果では、中国語の一般的な通話、方言、および方言の話者のテスト結果が示されています。複数の方言 TTS の大規模モデルは、多くの実際的なシナリオに適用されています。例えば、ゲームのNPCの吹き替え、映像制作での方言の吹き替えなどです。この技術により、ゲームや映像コンテンツを地域文化に近づけることができ、ユーザーの没入感や体験感が向上します。

将来、エンドツーエンドの音声インタラクション大規模モデルのさらなる開発により、この技術は方言文化保護やゲームAI NPC方言インタラクションなどの分野で大きな可能性を示すでしょう。方言保護シナリオでは、複数の方言での音声インタラクションをサポートすることで、次世代が中国の方言を簡単に学習、継承、保護することができ、中国の方言文化に長い歴史を持たせることができます。ゲームシーンでは、方言を話したり、音声でインタラクトしたりできる知的なNPCがゲームコンテンツの表現力をさらに高めます。

北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能

Giant Network AI Lab は、このテクノロジーの革新と応用を促進し、よりスマートで便利な音声対話エクスペリエンスをユーザーに提供することに引き続き尽力していきます。 チーム紹介

Giant AI Laboratoryは2022年に設立されました。Giant Networkに所属する人工知能技術の応用研究機関です。 AIGC コンテンツ (画像/テキスト/オーディオ/ビデオ/3D モデルなど) 生成の分野に注力し、包括的なインテリジェントなコンテンツ制作と作成を実現し、ゲームプレイの革新を推進します。現在、同研究所はGiant社内にフルリンクAI産業生産パイプラインを構築しており、同時にゲーム業界初の大型垂直モデル(GiantGPT)の登録を完了し、初めて商用化されている。応用。

以上が北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール