ホームページ  >  記事  >  テクノロジー周辺機器  >  私の国は AVS3 リアルタイム音声標準の策定において重要な進歩を遂げており、Tencent のソリューションが選択されました。

私の国は AVS3 リアルタイム音声標準の策定において重要な進歩を遂げており、Tencent のソリューションが選択されました。

王林
王林転載
2023-12-15 10:57:10929ブラウズ

New Generation Artificial Intelligence Alliance の公式ニュースによると、AVS3P10 リアルタイム音声コーディング標準は最近重要な進歩を遂げたとのことで、このニュースは 12 月 14 日にこのサイトで公開されました。 2023 年、第 87 回 AVS ワーキング グループ カンファレンスは成都で開幕しました。会議では、「インテリジェント メディア コーディング パート 10 リアルタイム スピーチ」(以下、AVS3P10 と呼びます) WD 1.0 が本会議で検討され、

テンセントが提出した技術ソリューションが RM0 ベースライン

として選択されました。 AVS3P10 リアルタイム音声コーディング。

私の国は AVS3 リアルタイム音声標準の策定において重要な進歩を遂げており、Tencent のソリューションが選択されました。
リアルタイム音声通信技術 (このサイトの注: RTC、Real-time Communication) は、コラボレーション オフィス、インタラクティブ エンターテイメント、ソーシャルネットワーキングなどの分野。上述の多様で豊富なアプリケーションシナリオは、リアルタイム音声通信技術にさまざまな技術的課題をもたらしますが、その中でも高品質、低遅延、低帯域幅、高耐性の音声符号化は非常に重要な部分です。

AVS や ITU-T 標準などの従来の音声コーダは、16 ~ 20kbps のコード レートで高品質のブロードバンド音声を生成できます。 30 ~ 35kbps で、高品質の超広帯域音声、さらにはフルバンド音声を生成できます。ただし、ビット レートがさらに低下すると (たとえば、10kbps 未満)、従来の音声エンコーダの復元品質が大幅に低下し、ユーザー エクスペリエンスに影響を与えます。今年 3 月、84 回目 AVS 会議で、

Tencent は、AVS オーディオ グループのリアルタイム音声通信シナリオ向けに、低ビットレート、高品質の音声システム プロジェクト

を立ち上げることを提案しました。需要分析の後、第 85 回 AVS 会議で、AVS は AV3P10 リアルタイム音声コーディング プロジェクトを正式に開始し、AVS オーディオ グループを通じて技術要請を発行しました。 AVS3P10 リアルタイム音声コーディング プロジェクトは、Tencent Conference Teana Lab の Xiao Wei によって推進および維持されます。

第 86 回 AVS 会議で、オーディオ グループは Tencent Conference Tianlai Laboratory から提出された M7886「AVS3P10 音声コーディング参照モデル候補技術ソリューション」提案を検討しました。検討の結果、ソリューションには次のような特徴があることがわかりました。 4 つの機能:

古典的な信号処理やディープ ニューラル ネットワーク テクノロジーなどの人工知能テクノロジーを深く統合し、AI コーデックに属し、

  • をサポートします。低コード レート、高品質エンコード、リアルタイム エンコードとデコード、およびマルチレート エンコード;

  • サブバンド エンコードとマルチモード エンコード アーキテクチャに基づいて、低周波信号ディープ ニューラル ネットワークを使用して特徴を抽出し、高周波信号を抽出します。周波数帯域拡張スキームを使用して特徴を抽出し、スカラー量子化とエントロピー コーディングを組み合わせて特徴圧縮を完了します。オープン コーディング ニューラル ネットワーク アーキテクチャの技術的特性を反映し、コード ストリームの前方互換性を確保できます。エンコーディング ニューラル ネットワークを再修正して最適化します。

私の国は AVS3 リアルタイム音声標準の策定において重要な進歩を遂げており、Tencent のソリューションが選択されました。

##今年 11 月 1 日、Tencent Conference Tianlai Lab は AVS3P10 RM0 候補ソリューションの実行可能ファイルを提出し、

中国電子技術標準化研究院と Huawei はそれぞれ主観テストと相互検証を実施しました私の国は AVS3 リアルタイム音声標準の策定において重要な進歩を遂げており、Tencent のソリューションが選択されました。。相互検証は、ITU-T P.800 DCR 主観的品質評価システムに基づいて、包括的なものとなるよう努めており、主観的テストでは、純粋な音声、パケット損失音声、混合音声、およびさまざまな帯域幅でのその他のシナリオがカバーされ、初めて、 3A 処理されたテスト シナリオは、マシン テストのソース コーディングに導入され、実際のシナリオに近い環境で新世代 AI コーデック テクノロジのパフォーマンスをテストします。
上記のテスト シナリオでは、

AVS3P10 RM0 には明らかな品質上の利点があります

。主観的なテスト結果によると、AVS3P10 RM0 は、ブロードバンドやウルトラワイドバンドなどの複数の主要なテスト シナリオで 4.0 以上の MOS ポイントを達成し、最低ビット レートが 5.9kbps に達するという明らかな利点を示しています。 AVS3P10 RM0 はディープ ニューラル ネットワーク テクノロジーを採用しており、独自のパケット損失ダメージ機能を備えており、ネットワークが貧弱な場合にエンコーダの品質を効果的に向上させます。 私の国は AVS3 リアルタイム音声標準の策定において重要な進歩を遂げており、Tencent のソリューションが選択されました。

#

さらに、ITU-T P.863 の客観的品質評価実験でも、AVS3P10 RM0 は大きな利点を示しました。まず、8 つのテスト ビット レートすべてにおいて、AVS3P10 RM0 の MOS 値は 4.0 を超え、最大 4.45 に達しました。 AVS3P10 RM0 の品質は、中ビット レートおよび高ビット レートにおける OPUS や EVS などの従来の信号処理エンコーダのパフォーマンスに匹敵し、キャリア グレードの品質に達します。 AI コーデックの分野では、AVS3P10 RM0 は、同様のビット レートで 0.6MOS 以上の品質上の利点があります。上記のテスト結果は、AVS3P10 RM0 が現在の AI コーデックの最高レベルに相当することを示しています

新世代人工知能同盟は、AVS3P10 リアルタイム音声コーディングは新世代の音声コーディングおよびデコーディング技術であると述べています。標準、これが理想 AVS 標準ファミリーへの重要な追加です。

今後、AVS3P10 リアルタイム音声コーディング プロジェクトは確立された計画に従って推進され、

2024 年半ばには標準化作業が完了する予定です。 広告文: この記事には、より多くの情報を提供し、上映時間を節約することを目的とした外部ジャンプ リンク (ハイパーリンク、QR コード、パスワードなどを含むがこれらに限定されない) が含まれています。リンク結果は参考用です。このサイトのすべての記事にこの記述が含まれていることにご注意ください

苦情水文学

以上が私の国は AVS3 リアルタイム音声標準の策定において重要な進歩を遂げており、Tencent のソリューションが選択されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はithome.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。