根據新一代人工智慧聯盟官方消息,AVS3P10即時語音編碼標準近日取得重要進展,訊息發佈於本站12月14日
2023 年12 月14 日,第87 次AVS 工作小組會議於成都開幕。會上,《智慧媒體編碼 第 10 部分 即時語音》(以下簡稱 AVS3P10) WD 1.0 透過全體會議審議;騰訊提交的技術方案,被選為 AVS3P10 即時語音編碼的 RM0 基線。
即時語音通訊技術(本站註:RTC,Real-time Communication),已廣泛應用於協同辦公、互動娛樂、社交等領域。上述多樣化豐富的應用場景給予即時語音通訊技術提出了多種技術挑戰,其中,高品質、低延遲、低頻寬、高抗性的語音編碼是非常重要的一環。
在16-20kbps碼率時,傳統的語音編碼器如AVS和ITU-T標準能夠產生高品質的寬頻語音。在30-35kbps時,它們可以產生高品質的超寬頻甚至全帶語音。然而,當碼率進一步降低(例如降到10kbps以下)時,傳統的語音編碼器的恢復品質明顯下降,對使用者體驗產生影響
基於上述應用訴求,在今年3 月第84 次AVS 會議上,由騰訊提議在AVS 音訊群組啟動面向即時語音通訊場景的低碼率高品質語音統專案。經過需求分析,在第 85 次 AVS 會議上,AVS 正式立項 AV3P10 即時語音編碼項目,並透過 AVS 音訊組發出技術徵集書。 AVS3P10 即時語音編碼專案將由來自騰訊會議天籟實驗室的肖瑋負責推進和維護。
在第86次AVS會議上,音訊群組審議了由騰訊會議天籟實驗室提交的M7886《AVS3P10語音編碼參考模型候選技術方案》提案
#審議發現該方案有以下四個特點:
深度融合了經典訊號處理和深度神經網路技術等人工智慧技術,屬於AI Codec;
支援低碼率、高品質編碼、即時編碼和解碼和多速率編碼;
基於子頻帶編碼和多模式編碼架構,低頻訊號採用深度神經網路擷取特徵,高頻訊號採用頻帶擴展方案提取特徵,結合標量量化和熵編碼完成特徵壓縮;
#具有開放的編碼神經網路架構技術特徵,在保證碼流前向兼容基礎上,可以重新修改和優化編碼神經網路。
今年11 月1 日,騰訊會議天籟實驗室提交AVS3P10 RM0 候選方案的可執行文件,
由中國電子技術標準化研究院和華為分別進行了主觀測試和交叉驗證。交叉驗證力求全面,基於ITU-T P.800 DCR 主觀品質評估體系,主觀測試涵蓋不同頻寬下純淨語音、丟包語音、混合語音等多場景,並首次將3A 處理後的測試場景引入訊號源編碼在器測試中,以檢驗新一代AI Codec 技術在貼近真實場景的表現。
在上述測試場景下,AVS3P10 RM0 品質優勢明顯
此外,在ITU-T P.863客观质量评价实验中,AVS3P10 RM0也表现出了显著的优势。首先,在所有8个测试码率中,AVS3P10 RM0的MOS值均超过4.0,最高达到4.45。AVS3P10 RM0的质量可以与OPUS和EVS等传统信号处理编码器在中高码率下的表现相媲美,达到了运营级质量。在AI编解码器领域,AVS3P10 RM0在相似码率下具有0.6MOS以上的质量优势。以上测试结果表明,AVS3P10 RM0代表了当前AI编解码器的最高水平
新一代人工智能联盟表示,AVS3P10 实时语音编码,作为新一代的语音编解码技术标准,是对 AVS 系列标准的重要补充。
未来,AVS3P10 实时语音编码项目,将按照既定计划推进,预计在 2024 年中完成标准化工作。
广告声明:本文中包含对外跳转链接(包括但不限于超链接、二维码、口令等形式),旨在提供更多信息,节省筛选时间。链接结果仅供参考,请注意本站所有文章都包含此声明
以上是我國在AVS3即時語音標準制定方面取得重要進展,騰訊方案被選中的詳細內容。更多資訊請關注PHP中文網其他相關文章!