ホームページ >テクノロジー周辺機器 >IT業界 >私の国は AVS3 リアルタイム音声標準の策定において重要な進歩を遂げており、Tencent のソリューションが選択されました。

私の国は AVS3 リアルタイム音声標準の策定において重要な進歩を遂げており、Tencent のソリューションが選択されました。

王林転載: 2023-12-15 10:57:101071ブラウズ

New Generation Artificial Intelligence Alliance の公式ニュースによると、AVS3P10 リアルタイム音声コーディング標準は最近重要な進歩を遂げたとのことで、このニュースは 12 月 14 日にこのサイトで公開されました。 2023 年、第 87 回 AVS ワーキンググループカンファレンスは成都で開幕しました。会議では、「インテリジェントメディアコーディングパート 10 リアルタイムスピーチ」(以下、AVS3P10 と呼びます) WD 1.0 が本会議で検討され、

テンセントが提出した技術ソリューションが RM0 ベースライン

として選択されました。 AVS3P10 リアルタイム音声コーディング。

私の国は AVS3 リアルタイム音声標準の策定において重要な進歩を遂げており、Tencent のソリューションが選択されました。

リアルタイム音声通信技術 (このサイトの注: RTC、Real-time Communication) は、コラボレーションオフィス、インタラクティブエンターテイメント、ソーシャルネットワーキングなどの分野。上述の多様で豊富なアプリケーションシナリオは、リアルタイム音声通信技術にさまざまな技術的課題をもたらしますが、その中でも高品質、低遅延、低帯域幅、高耐性の音声符号化は非常に重要な部分です。

AVS や ITU-T 標準などの従来の音声コーダは、16 ～ 20kbps のコードレートで高品質のブロードバンド音声を生成できます。 30 ～ 35kbps で、高品質の超広帯域音声、さらにはフルバンド音声を生成できます。ただし、ビットレートがさらに低下すると (たとえば、10kbps 未満)、従来の音声エンコーダの復元品質が大幅に低下し、ユーザーエクスペリエンスに影響を与えます。今年 3 月、84 回目 AVS 会議で、

Tencent は、AVS オーディオグループのリアルタイム音声通信シナリオ向けに、低ビットレート、高品質の音声システムプロジェクト

を立ち上げることを提案しました。需要分析の後、第 85 回 AVS 会議で、AVS は AV3P10 リアルタイム音声コーディングプロジェクトを正式に開始し、AVS オーディオグループを通じて技術要請を発行しました。 AVS3P10 リアルタイム音声コーディングプロジェクトは、Tencent Conference Teana Lab の Xiao Wei によって推進および維持されます。

第 86 回 AVS 会議で、オーディオグループは Tencent Conference Tianlai Laboratory から提出された M7886「AVS3P10 音声コーディング参照モデル候補技術ソリューション」提案を検討しました。検討の結果、ソリューションには次のような特徴があることがわかりました。 4 つの機能:

古典的な信号処理やディープニューラルネットワークテクノロジーなどの人工知能テクノロジーを深く統合し、AI コーデックに属し、

をサポートします。低コードレート、高品質エンコード、リアルタイムエンコードとデコード、およびマルチレートエンコード;
サブバンドエンコードとマルチモードエンコードアーキテクチャに基づいて、低周波信号ディープニューラルネットワークを使用して特徴を抽出し、高周波信号を抽出します。周波数帯域拡張スキームを使用して特徴を抽出し、スカラー量子化とエントロピーコーディングを組み合わせて特徴圧縮を完了します。オープンコーディングニューラルネットワークアーキテクチャの技術的特性を反映し、コードストリームの前方互換性を確保できます。エンコーディングニューラルネットワークを再修正して最適化します。

##今年 11 月 1 日、Tencent Conference Tianlai Lab は AVS3P10 RM0 候補ソリューションの実行可能ファイルを提出し、

中国電子技術標準化研究院と Huawei はそれぞれ主観テストと相互検証を実施しました私の国は AVS3 リアルタイム音声標準の策定において重要な進歩を遂げており、Tencent のソリューションが選択されました。

。相互検証は、ITU-T P.800 DCR 主観的品質評価システムに基づいて、包括的なものとなるよう努めており、主観的テストでは、純粋な音声、パケット損失音声、混合音声、およびさまざまな帯域幅でのその他のシナリオがカバーされ、初めて、 3A 処理されたテストシナリオは、マシンテストのソースコーディングに導入され、実際のシナリオに近い環境で新世代 AI コーデックテクノロジのパフォーマンスをテストします。上記のテストシナリオでは、

AVS3P10 RM0 には明らかな品質上の利点があります

。主観的なテスト結果によると、AVS3P10 RM0 は、ブロードバンドやウルトラワイドバンドなどの複数の主要なテストシナリオで 4.0 以上の MOS ポイントを達成し、最低ビットレートが 5.9kbps に達するという明らかな利点を示しています。 AVS3P10 RM0 はディープニューラルネットワークテクノロジーを採用しており、独自のパケット損失ダメージ機能を備えており、ネットワークが貧弱な場合にエンコーダの品質を効果的に向上させます。私の国は AVS3 リアルタイム音声標準の策定において重要な進歩を遂げており、Tencent のソリューションが選択されました。

さらに、ITU-T P.863 の客観的品質評価実験でも、AVS3P10 RM0 は大きな利点を示しました。まず、8 つのテストビットレートすべてにおいて、AVS3P10 RM0 の MOS 値は 4.0 を超え、最大 4.45 に達しました。 AVS3P10 RM0 の品質は、中ビットレートおよび高ビットレートにおける OPUS や EVS などの従来の信号処理エンコーダのパフォーマンスに匹敵し、キャリアグレードの品質に達します。 AI コーデックの分野では、AVS3P10 RM0 は、同様のビットレートで 0.6MOS 以上の品質上の利点があります。上記のテスト結果は、AVS3P10 RM0 が現在の AI コーデックの最高レベルに相当することを示しています

新世代人工知能同盟は、AVS3P10 リアルタイム音声コーディングは新世代の音声コーディングおよびデコーディング技術であると述べています。標準、これが理想 AVS 標準ファミリーへの重要な追加です。

今後、AVS3P10 リアルタイム音声コーディングプロジェクトは確立された計画に従って推進され、

2024 年半ばには標準化作業が完了する予定です。広告文: この記事には、より多くの情報を提供し、上映時間を節約することを目的とした外部ジャンプリンク (ハイパーリンク、QR コード、パスワードなどを含むがこれらに限定されない) が含まれています。リンク結果は参考用です。このサイトのすべての記事にこの記述が含まれていることにご注意ください

苦情水文学

以上が私の国は AVS3 リアルタイム音声標準の策定において重要な進歩を遂げており、Tencent のソリューションが選択されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

架构人工智能

声明：

この記事はithome.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：Samsung Galaxy S24 公開：コンパクトなボディに大きな機能を搭載次の記事：Samsung Galaxy S24 公開：コンパクトなボディに大きな機能を搭載

続きを見る