検索
ホームページテクノロジー周辺機器AI2024 ICASSP|ByteDance ストリーミング オーディオ チームによる革新的なソリューション: パケット損失補償と一般的な音質修復の問題を解決

今年の ICASSP 2024 のさまざまなオーディオ インターナショナル チャレンジでは、ByteDance ストリーミング オーディオ チームがノースウェスタン工科大学のオーディオ音声および言語処理研究室と協力して、パケット損失隠蔽 (PLC) と音質復元を実行しました。 、SSI) 2 つのチャレンジトラックでは、複数の指標で好成績を収め、それぞれ 1 位と 2 位を獲得し、国際トップレベルに達しました。

ICASSP サミットのオーディオ チャレンジは、さまざまな研究機関によるオーディオ効果と音質向上に関する研究を促進することを目的として、トップの国際オーディオ会議 ICASSP とマイクロソフトが共同で立ち上げたものです。 Amazon、Tencent、Alibaba、Baidu、Kuaishou、中国科学院、北西工科大学、その他多くの世界的に有名な企業や科学研究機関が参加しました。ストリーミング メディアの分野におけるテクノロジーの継続的な発展に伴い、サウンドをクリアで本物にすることは、オーディオ テクノロジー業界の発展において避けられない傾向となっています。ユーザーにより良いオーディオ体験を提供する方法に焦点を当て、複数の研究チームが、オーディオ収集の欠陥、アルゴリズム処理の欠陥、コーディングおよびデコーディングの欠陥への対処方法を含む、収集から転送までのオーディオのエンドツーエンドの最適化を実行しました。 、ネットワーク伝送障害。統合修復を待ちます。このチャレンジでは、ByteDance ストリーミング オーディオ チームが、実際のビジネス実装シナリオに基づいて、パケット損失補償と一般的な音質修復の 2 つのチャレンジ トラックに参加しました。

ICASP PLC Challenge は、ネットワーク IP 通話における長時間のパケット損失とフルバンド オーディオ (48kHz のサンプリング レート) 処理の問題を解決することを目的としています。この課題には、厳しい遅延制約があり、同時に、ネットワークの悪条件を反映する要求の厳しいデータセットが提供されます。主観評価は P.804 多次元オーディオ品質評価手法を使用して行われ、参加システムによって生成された音声の明瞭度の評価にも WER が使用されます。ストリーミング オーディオ テクノロジー チームは、モデル構造を最適化することで、パケット損失補償モデルの複雑さを効果的に軽減しました。同時に、マルチディスクリミネーター敵対的トレーニングとマルチタスク学習を通じて、パケット損失補償モデルは、高品質かつ高明瞭度でパケット損失フラグメントを復元でき、最終的に1位を達成しました。

ICASSP 2024|字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

ICASP SSI Challenge は、通信システムにおける音声信号が直面する 5 種類の問題、つまり周波数応答歪み、不連続歪み、ラウドネス歪み、ノイズ、残響を解決することを目的としています。このチャレンジでは、モデルの遅延と因果関係を厳密に設定することを前提に、ITU-TP.804規格に基づく主観的な意見スコアと音声認識率を用いて総合的にランキングを判定します。ストリーミング テクノロジー チームは、2 段階のモデル構造を使用して、複雑な修復問題を複数のサブタスクに単純化します。第 1 段階では、主に周波数応答歪み、不連続性歪み、ラウドネス歪みを修復し、予備的なノイズ低減と残響除去を実行します。第 2 段階 この段階では、第 1 段階で生成されたアーティファクトと残留ノイズがさらに除去されます。最終的に、チームはリアルタイム トラックで 2 位を獲得しました。

ICASSP 2024|字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

パケットロス補償システム

48kHzフルバンドオーディオ処理の複雑さの問題を解決するために、パケット損失補償システム 周波数領域モデルが開発され、オーディオは周波数に応じて 0 ~ 8kHz と 8 ~ 24kHz の 2 つのサブバンドに分割され、並列処理されます。主な計算量を聴覚への影響が大きい0~8kHzの周波数帯域に集中させることで、低複雑かつ高品質なパケットロス補償を実現します。長い間隔のパケット損失の問題に対処するために、時間周波数拡張畳み込みモジュール (TFDCM) がコーデックの各層の後に追加され、畳み込みカーネルのサイズを小さく保ちながら、因果関係を介して長期的なパケット損失をキャプチャします。時間と周波数の次元で層ごとに拡張された畳み込み、時刻歴情報と周波数相関。

高品質なオーディオを補うために、周波数ドメイン多重解像度ディスクリミネーター、時間ドメインマルチ期間ディスクリミネーター、MetricGAN を組み合わせて敵対的生成トレーニングを実行し、生成されるオーディオサウンドを優れたものにします。長い間隔のパケット損失と明瞭度の問題については、マルチタスク学習フレームワークが使用されます。通常の音声信号類似性学習に加えて、基本周波数予測とささやきベースの意味理解損失関数も導入されています。 100msを超えるパケットロスフラグメントを高品質に復元でき、復元された音声は非常に明瞭であり、単語正解率(WAcc)指標が全参加チームトップとなり、総合評価スコアは同率1位となっている。

ICASSP 2024|字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

パケットロス補償モデル構成図

音質修復システム

複数の歪みの影響を受けるオーディオを同時に修復するために、構築システムでは 2 段階のモデル アーキテクチャが使用され、異なる段階で異なる歪みを処理することに重点が置かれています。第 1 段階のモデルは、マッピングを使用して修復されたオーディオの複雑なスペクトルを直接予測するため、このモデルはオーディオ欠落成分を生成し、同時に干渉信号を除去する機能を備えています。長い間、エンコーダの時間周波数畳み込みモジュール (TFCM) がデコーダに導入されていましたが、マッピング方法の不安定性によりアーティファクトが発生する可能性があるため、マスキング (Mask) を使用する 2 段階のモデルが導入され、サブ- バンドからフルバンドへのモデリング手法は、周波数帯域のきめ細かいモデリングを実行して、第 1 段階のモデルによって生成されたアーチファクトや残留ノイズをさらに除去します。

生成されたオーディオコンポーネントの自然性を向上させるために、敵対的生成ネットワークフレームワークが導入され、モデルトレーニングを支援するために多重解像度弁別器と分子帯域多重解像度弁別器が使用されます。同時に、トレーニング中に多段階モデル​​をより簡単に収束させるために、最初に 2 段階モデル​​がノイズ低減と残響除去タスクで事前トレーニングされ、次にトレーニングされた 1 段階モデル​​のパラメーターが調整されます。段階モデル​​は共同トレーニング用にカスケードされるため、モデルの収束が加速されます。

ICASSP 2024|字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

音質修復モデル構造の概略図

チーム紹介

Bytedance ストリーミング オーディオ チーム、専任グローバル インターネット上で高品質、低遅延のリアルタイム オーディオおよびビデオ通信機能を提供し、開発者が音声通話、ビデオ通話、インタラクティブ ライブ ブロードキャスト、リツイート ライブ ブロードキャストなどの豊富なシーン機能を迅速に構築できるようにします。現在、インタラクティブな機能がカバーされています。エンターテイメント、教育、会議、ゲーム、自動車、金融、IoT などのリアルタイム オーディオおよびビデオ インタラクティブ シナリオは、何億ものユーザーにサービスを提供しています。

以上が2024 ICASSP|ByteDance ストリーミング オーディオ チームによる革新的なソリューション: パケット損失補償と一般的な音質修復の問題を解決の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
踊りましょう:私たちの人間のニューラルネットを微調整するための構造化された動き踊りましょう:私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク(C. elegansのものと同様)を広く研究してきました。 ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにします新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced:Horizo​​nの新しいサブスクリプションティア 現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。 ただし、Android Authorityのレポートは、今後の変更を示唆しています。 最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかデータ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます:データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます!MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます!Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は? - 分析Vidhya建物のエージェントにGoogle ADKを使用する方法は? - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット(ADK)のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析Vidhya効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ: Small Language Model(SLM)は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル(LLM)よりも優れています。 特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。 テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能(AI)および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は? - 分析VidhyaコンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は? - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用:包括的なガイド 大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。 このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini:GoogleはOpenaiよりもうまくやることができますか?Gemini 2.0 Flash vs O4-Mini:GoogleはOpenaiよりもうまくやることができますか?Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。 数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、