New Generation Artificial Intelligence Alliance의 공식 소식에 따르면, AVS3P10 실시간 음성 코딩 표준이 최근 12월 14일 이 사이트에 중요한 진전을 이루었습니다.
2023년 12월 14일, 87차 AVS Working 그룹 회의가 청두에서 열렸습니다. 회의에서는 "지능형 미디어 코딩 파트 10 실시간 음성"(이하 AVS3P10) WD 1.0이 전체회의에서 검토되었습니다. Tencent가 제출한 기술 솔루션이 AVS3P10 실시간 음성의 RM0 기준으로 선정되었습니다. 코딩.
실시간 음성 통신 기술(이 사이트에 대한 참고 사항: RTC, 실시간 통신)은 협업 사무실, 대화형 엔터테인먼트, 소셜 네트워킹 및 기타 분야에서 널리 사용되었습니다. 위에서 언급한 다양하고 풍부한 응용 시나리오는 실시간 음성 통신 기술에 다양한 기술적 과제를 제기합니다. 그 중에서 고품질, 낮은 대기 시간, 낮은 대역폭 및 높은 저항 음성 코딩은 매우 중요한 부분입니다.
16-20kbps의 코드 속도에서 AVS 및 ITU-T 표준과 같은 기존 음성 코더는 고품질 광대역 음성을 생성할 수 있습니다. 30-35kbps에서는 고품질 초광대역은 물론 전대역 음성까지 생성할 수 있습니다. 그러나 비트 전송률이 더 낮아지면(예: 10kbps 미만) 기존 음성 인코더의 복구 품질이 크게 떨어지며 이는 사용자 경험에 영향을 미칩니다.
위의 애플리케이션 요구 사항을 바탕으로 84번째 AVS에서 올해 3월 컨퍼런스에서 Tencent는 AVS 오디오 그룹에서 실시간 음성 통신 시나리오를 위한 저비트 전송률, 고품질 음성 시스템 프로젝트 출시를 제안했습니다. 수요 분석 후, 제85차 AVS 회의에서 AVS는 공식적으로 AV3P10 실시간 음성 코딩 프로젝트를 시작하고 AVS 오디오 그룹을 통해 기술 제안을 발표했습니다. AVS3P10 실시간 음성 코딩 프로젝트는 Tencent Conference Teana Lab의 Xiao Wei가 홍보하고 유지 관리합니다.
제86회 AVS 회의에서 오디오 그룹은 Tencent Conference Tianlai Laboratory에서 제출한 M7886 "AVS3P10 음성 코딩 참조 모델 후보 기술 계획" 제안을 검토했습니다.
검토 결과 해당 계획에는 다음과 같은 네 가지 특징이 있는 것으로 나타났습니다.
고전적인 신호 처리 및 심층 신경망 기술과 같은 인공 지능 기술을 심층적으로 통합하고 AI 코덱에 속합니다.
낮은 비트 전송률, 고품질 인코딩, 실시간 인코딩 및 디코딩, 다중 속도 인코딩을 지원합니다.
. 교차 검증은 ITU-T P.800 DCR 주관적 품질 평가 시스템을 기반으로 포괄적이려고 노력합니다. 주관적 테스트에서는 다양한 대역폭에서 순수 음성, 패킷 손실 음성, 혼합 음성 및 기타 시나리오를 다루며, 처음으로 3A 처리된 테스트 시나리오는 소스 코딩에 도입됩니다. 머신 테스트에서는 실제 시나리오에 가까운 차세대 AI 코덱 기술의 성능을 테스트합니다. 위의 테스트 시나리오에서
AVS3P10 RM0은 확실한 품질 이점을 가지고 있습니다. 주관적인 테스트 결과에 따르면 AVS3P10 RM0은 광대역 및 초광대역과 같은 여러 주요 테스트 시나리오에서 4.0 이상의 MOS 포인트를 달성했으며 최저 비트 전송률이 5.9kbps에 도달하는 등 명백한 이점을 보여줍니다. AVS3P10 RM0은 심층 신경망 기술을 채택하고 자체 패킷 손실 손상 기능을 갖추고 있어 네트워크 상태가 좋지 않을 때 인코더의 품질을 효과적으로 향상시킵니다.
또한 ITU-T P.863 객관적 품질 평가 실험에서도 AVS3P10 RM0은 상당한 이점을 보여주었습니다. 우선, 8개 테스트 비트레이트 모두에서 AVS3P10 RM0의 MOS 값은 4.0을 넘어 최대 4.45에 도달했다. AVS3P10 RM0의 품질은 중간 및 높은 비트 전송률에서 OPUS 및 EVS와 같은 기존 신호 처리 인코더의 성능과 비슷하여 캐리어급 품질에 도달합니다. AI 코덱 분야에서 AVS3P10 RM0은 유사한 비트 전송률에서 0.6MOS 이상의 품질 이점을 제공합니다. 위의 테스트 결과는 AVS3P10 RM0이 현재 AI 코덱의 최고 수준을 나타냄을 보여줍니다.
신세대 인공 지능 연합(New Generation Artificial Intelligence Alliance)은 차세대 음성 코덱 기술 표준인 AVS3P10 실시간 음성 코딩이 AI 코덱의 중요한 보완책이라고 밝혔습니다. AVS 시리즈 표준 .
향후 AVS3P10 실시간 음성코딩 프로젝트는 수립된 계획에 따라 추진될 예정이며, 2024년 중반 표준화 작업이 완료될 것으로 예상됩니다.
광고 문구: 이 기사에는 더 많은 정보를 제공하고 상영 시간을 절약하기 위해 고안된 외부 점프 링크(하이퍼링크, QR 코드, 비밀번호 등을 포함하되 이에 국한되지 않음)가 포함되어 있습니다. 링크 결과는 참고용입니다. 이 사이트의 모든 기사에는 이 내용이 포함되어 있습니다.
위 내용은 우리나라는 AVS3 실시간 음성 표준을 공식화하는 데 중요한 진전을 이루었고 Tencent의 솔루션이 선택되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!