이 ICASSP 2024 다양한 오디오 국제 챌린지에서 바이트댄스 스트리밍 오디오 팀은 노스웨스턴 폴리테크니컬 대학의 오디오 음성 및 언어 처리 연구실과 팀을 이루어 PLC(패킷 손실 은폐) 및 음성 품질 복구(음성) 작업을 수행했습니다. SSI(Signal Improvement) 챌린지 트랙에서 여러 지표에서 좋은 성적을 거두며 각각 1위와 2위를 달성하며 국제 선두 수준에 도달했습니다.
ICASSP Summit의 오디오 챌린지는 다양한 연구 기관의 오디오 효과 및 음질 개선에 대한 연구를 활성화하기 위해 최고의 국제 오디오 컨퍼런스인 ICASSP와 Microsoft가 공동으로 시작했습니다. 첫 번째 세션부터 Amazon, Tencent, Baba, Baidu, Kuaishou, 중국과학원, NPU 등 전 세계 유명 기업과 과학연구기관이 다수 참여했습니다. 스트리밍 미디어 분야의 지속적인 기술 개발로 인해 사운드를 선명하고 사실적으로 만드는 것은 오디오 기술 산업 발전에서 피할 수 없는 추세가 되었습니다. 사용자에게 더 나은 오디오 경험을 제공하는 방법에 중점을 두고 여러 연구팀이 오디오 수집부터 전달까지 오디오의 엔드투엔드 최적화를 수행했습니다. 이 프로세스에는 오디오 수집 결함, 알고리즘 처리 결함, 코딩 및 디코딩 결함을 처리하는 방법이 포함됩니다. , 네트워크 전송 결함 등의 통합 수리를 기다립니다. 이번 챌린지에서 ByteDance 스트리밍 오디오 팀은 실제 비즈니스 구현 시나리오를 기반으로 패킷 손실 보상과 일반 음질 복구라는 두 가지 챌린지 트랙에 참여했습니다.
ICASSP PLC 챌린지는 네트워크 IP 호출에서 장거리 패킷 손실 및 전대역 오디오(48kHz 샘플링 속도) 처리 문제를 해결하는 것을 목표로 합니다. 이 과제는 불리한 네트워크 조건을 반영하는 까다로운 데이터 세트를 제공하는 동시에 엄격한 대기 시간 제약을 가지고 있습니다. 주관적 평가는 P.804 다차원 오디오 품질 평가 방법을 사용하여 수행되며 WER은 참여 시스템에서 생성된 음성의 명료도를 평가하는 데에도 사용됩니다. 스트리밍 오디오 기술팀은 모델 구조를 최적화하여 패킷 손실 보상 모델의 복잡성을 효과적으로 줄였습니다. 동시에 다중 판별자 적대 훈련과 다중 작업 학습을 통해 패킷 손실 보상 모델은 고품질과 높은 명료도로 패킷 손실 조각을 복원할 수 있으며 최종적으로 1위를 달성했습니다.
ICASSP SSI 챌린지는 통신 시스템에서 음성 신호가 직면하는 5가지 유형의 문제(주파수 응답 왜곡, 불연속 왜곡, 음량 왜곡, 소음 및 반향)를 해결하는 것을 목표로 합니다. 본 챌린지는 모델 지연 및 인과관계를 엄격하게 설정한다는 전제 하에 ITU-TP.804 표준에 따른 주관적 의견 점수와 음성 인식률을 활용하여 순위를 종합적으로 판단합니다. 스트리밍 기술 팀은 복잡한 복구 문제를 여러 하위 작업으로 단순화하기 위해 2단계 모델 구조를 사용합니다. 첫 번째 단계에서는 주로 주파수 응답 왜곡, 불연속성 왜곡 및 음량 왜곡을 복구하고 예비 소음 감소 및 잔향 제거를 수행합니다. 두 번째 단계 이 단계에서는 첫 번째 단계에서 생성된 아티팩트와 잔여 노이즈를 추가로 제거합니다. 결국 팀은 실시간 트랙에서 2위를 차지했습니다.
패킷 손실 보상 시스템
48kHz 전대역 오디오 처리의 복잡성 문제를 해결하기 위해 패킷 손실 보상 시스템에 주파수 도메인 모델을 사용하고 오디오를 0~8kHz로 분할합니다. , 8 - 두 개의 24kHz 하위 대역이 병렬로 처리됩니다. 주요 계산량은 청각에 더 큰 영향을 미치는 0~8kHz 주파수 대역에 집중되어 낮은 복잡성과 고품질의 패킷 손실 보상을 달성합니다. 긴 간격의 패킷 손실 문제를 해결하기 위해 코덱의 각 계층 뒤에 TFDCM(Time-Frequency Dilated Convolution Module)을 추가하여 작은 크기의 Convolution 커널을 유지하면서 인과관계를 통해 장기간 캡처합니다. 시간 및 주파수 차원에서 계층별로 확장된 컨볼루션 시간 이력 정보 및 주파수 상관.
더 높은 품질의 오디오를 보상하기 위해 주파수 영역 다중 해상도 판별기, 시간 영역 다중 주기 판별기 및 MetricGAN을 조합하여 생성적 적대 훈련을 수행하여 생성된 오디오 사운드를 우수하게 만듭니다. 장거리 패킷 손실 및 명료성 문제의 경우 다중 작업 학습 프레임워크가 사용됩니다. 일반적인 음성 신호 유사성 학습 외에도 기본 주파수 예측 및 속삭임 기반 의미 이해 손실 기능도 도입됩니다. 이 모델은 100ms 이상의 패킷 손실 조각을 고품질로 복구할 수 있으며, 복구된 오디오는 WAcc(단어 정확도 비율) 지표가 모든 참가 팀을 앞서며 전체 평가 점수가 공동 1위를 차지합니다.
패킷 손실 보상 모델의 구조도
음질 복구 시스템
동시에 여러 왜곡의 영향을 받은 오디오를 복구하기 위해 건설 시스템에 2단계 모델 아키텍처가 사용되어 여러 단계에서 다양한 왜곡을 처리하는 데 중점을 둡니다. 첫 번째 단계 모델은 매핑을 사용하여 수리된 오디오의 복잡한 스펙트럼을 직접 예측하므로 모델은 오디오 누락 구성 요소를 생성하는 동시에 간섭 신호를 제거하여 모델의 정보 캡처 능력을 향상시킬 수 있습니다. 오랜 시간 동안 인코더는 매핑 방법의 불안정성으로 인해 디코더에 TFCM(Time-Frequency Convlution Module)이 도입되어 아티팩트가 발생할 수 있으므로 마스킹(Mask)을 사용한 2단계 모델이 도입되었으며, - Band-to-full-band 모델링 방식은 주파수 대역을 세밀하게 모델링하여 1단계 모델에서 생성된 아티팩트 및 잔여 노이즈를 더욱 제거합니다.
생성된 오디오 구성 요소의 자연스러움을 향상시키기 위해 생성적 적대 네트워크 프레임워크가 도입되었으며, 다중 해상도 판별기와 분자 밴드 다중 해상도 판별기가 모델 훈련을 지원하는 데 사용됩니다. 동시에, 훈련 중에 다단계 모델이 더 쉽게 수렴되도록 하기 위해 2단계 모델은 먼저 소음 감소 및 반향 제거 작업에 대해 사전 훈련된 다음 훈련된 1단계 모델의 매개변수는 다음과 같습니다. 단계 모델은 공동 훈련을 위해 계단식으로 연결되어 모델 수렴을 가속화합니다.
음질 복구 모델 구조의 개략도
팀 소개
Bytedance 스트리밍 오디오 팀은 전 세계 인터넷을 통해 지연 시간이 짧은 고품질의 실시간 오디오 및 비디오 통신 기능을 제공하기 위해 최선을 다하고 있습니다. 개발자를 빠르게 지원합니다. 음성 통화, 화상 통화, 대화형 라이브 방송, 라이브 방송 리트윗 등 풍부한 시나리오 기능을 구축했습니다. 현재 대화형 엔터테인먼트, 교육, 회의, 게임, 자동차 등 실시간 오디오 및 비디오 대화형 시나리오를 다루고 있습니다. , 금융, IoT 등을 통해 수억 명의 사용자에게 서비스를 제공하고 있습니다.
위 내용은 2024 ICASSP | ByteDance 스트리밍 오디오 팀의 혁신적인 솔루션: 패킷 손실 보상 및 일반적인 음질 복구 문제 해결의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

Google의 Gemini Advanced : 수평선의 새로운 가입 계층 현재 Gemini Advanced에 액세스하려면 $ 19.99/월 Google One AI Premium Plan이 필요합니다. 그러나 Android Authority 보고서는 다가오는 변경 사항을 암시합니다. 최신 Google p. 내 코드

고급 AI 기능을 둘러싼 과대 광고에도 불구하고 Enterprise AI 배포 내에서 상당한 도전 과제 : 데이터 처리 병목 현상. CEO는 AI 발전을 축하하는 동안 엔지니어는 느린 쿼리 시간, 과부하 파이프 라인,

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.

컴퓨터 비전을위한 Google Gemini의 힘을 활용 : 포괄적 인 가이드 주요 AI 챗봇 인 Google Gemini는 강력한 컴퓨터 비전 기능을 포괄하기 위해 대화를 넘어서 기능을 확장합니다. 이 안내서는 사용 방법에 대해 자세히 설명합니다

2025 년의 AI 환경은 Google의 Gemini 2.0 Flash와 Openai의 O4-Mini가 도착하면서 전기가 전환됩니다. 이 최첨단 모델은 몇 주 간격으로 발사되어 비슷한 고급 기능과 인상적인 벤치 마크 점수를 자랑합니다. 이 심층적 인 비교


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

드림위버 CS6
시각적 웹 개발 도구

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

Dreamweaver Mac版
시각적 웹 개발 도구

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!
