>  기사  >  기술 주변기기  >  AI 음성 다중 모드 기술을 심층적으로 육성하여 현지화된 지능형 대화형 경험 달성

AI 음성 다중 모드 기술을 심층적으로 육성하여 현지화된 지능형 대화형 경험 달성

王林
王林앞으로
2023-09-17 13:21:101429검색

5G와 인공지능 기술의 발전으로 지능형 음성은 다양한 지능형 단말기 제품을 통해 사람들의 일상생활에 침투하여 더욱 편리함과 가능성을 가져왔습니다. 신흥 시장의 스마트 단말기 제품 및 모바일 인터넷 서비스 제공업체인 Transsion은 인공 지능 분야의 지속적인 혁신에 중점을 두고 AI 음성 기술의 연구 및 적용을 지속적으로 촉진하며 보다 현지화된 사용자 시나리오 요구 사항을 탐색하고 전체 시나리오를 제공합니다. 신흥 시장의 사용자에게 정보를 제공합니다.

현재 Transsion은 음성 인식, 의미 이해, 음성 합성, 자연어 처리, 지식 그래프 등에서 자체 기반 AI 음성 기술 역량을 형성하고 작은 언어 음성 데이터에서 장점을 구축했으며 다국어 음성 도우미로 발전했습니다. 디지털 휴먼 및 음성 위조 탐지 기술은 획기적인 발전을 이루었습니다. 트랜션의 AI 기술부는 올해 초부터 ICASSP 2023 SLU 음성언어 이해 챌린지, IJCAI 2023 ADD 음성 심층 위조 탐지 국제 챌린지에서 좋은 성적을 거두는 등 꾸준히 성과를 거두고 있으며, 디지털 휴먼 다중 모델을 2020년 초부터 출판했다. 국제 멀티미디어 주력 학술 컨퍼런스 ICME 2023. 동적 상호 작용과 관련된 학술 논문.

현지 음성 대화형 콘텐츠 생태계를 위한 다국어 음성 도우미 구축

음성 도우미는 스마트폰의 표준 애플리케이션 중 하나입니다. 핵심 기술은 음성 상호작용과 자연어 이해로, 사용자가 목표 작업을 보다 빠르고 효율적으로 수행할 수 있도록 설계되었습니다. 신흥 시장의 현지 음성 상호 작용에 대한 수요에 직면하여 TRANSSION은 오랫동안 다국어 음성 지원 기술에 깊이 관여하여 현지 사용자의 요구 사항을 이해하고 기술 솔루션을 형성하는 데 중점을 두었습니다. 탐구와 연구 개발 과정에서의 경험.

2023년 최고의 국제 컨퍼런스 ICASSP에서 Transsion AI 기술 부서는 SLU(Spoken Language Understanding) 챌린지에서 큰 성공을 거두었습니다. 음성 인식 및 의미 이해 분야에서 탁월한 성능을 발휘하여 오프라인 음성 도우미 하위 트랙에서 71.97%의 정확도로 1위를 차지했습니다. 참가 논문 "음성 언어 이해를 위한 2단계 시스템"도 IEEE Institute of Electrical and Electronics Engineers

에 포함되었습니다.

AI 음성 다중 모드 기술을 심층적으로 육성하여 현지화된 지능형 대화형 경험 달성

Transsion의 AI 기술 부서 동료들이 ICASSP 2023에서 연구 결과를 공유했습니다

현재 음성 도우미는 주로 주류 언어를 지향하지만 틈새 언어, 특정 그룹 및 기타 하위 부문에 대한 적용 범위는 적습니다. TRANSSION은 아프리카, 남아시아 등 신흥 시장 사용자의 현지 사투리 및 소수 언어를 대상으로 대규모 휴대폰 사용자 자원을 기반으로 현지화된 저비용, 고품질 코퍼스 데이터 생산 시스템을 구축하여 소수 언어의 말뭉치와 데이터가 부족합니다. 이를 기반으로 트랜션은 신흥시장 현지 사용자의 언어와 문화적 특성에 적응할 수 있는 다국어 음성비서를 개발해, 현지 사용자가 휴대폰과의 음성 상호작용을 위해 현지 언어를 보다 편리하게 사용할 수 있도록 돕는다. 현재 Transsion의 다국어 음성 비서 기술은 영어, 프랑스어, 하우사어, 아랍어, 스와힐리어 및 기타 언어로 음성 상호 작용 및 자연어 이해 기능을 지원하며 연락처 통화, APP 빠른 실행, 음악 재생, WhatsApp 메시징 및 채팅

생활 서비스에서 현지 사용자의 요구를 충족시키기 위해 Transsion의 다국어 AI 음성 비서 기술은 더 많은 생활, 여행, 학습 및 업무 시나리오에 지속적으로 적용되어 교차 언어 AI 콘텐츠 서비스 생태계를 구축하고 스마트 음성 서비스를 가능하게 할 것입니다. 지역 생활의 모든 측면에 침투하여 작은 언어를 사용하는 더 많은 사람들에게 혜택을 주기 위해 ​​​​

AI 음성 다중 모드 기술을 심층적으로 육성하여 현지화된 지능형 대화형 경험 달성

AI+디지털 휴먼 기술로 Transsion의 멀티 시나리오 비즈니스 지원

인터랙티브 지능 기술의 가속화된 발전으로 디지털 휴먼은 기술 혁신에서 산업 응용으로 옮겨가며 엔터테인먼트, 교육, 의료 및 기타 분야에서 역할을 수행하고 있습니다. 트랜션은 AI 개발 기회를 적극적으로 수용하고, 디지털 휴먼 기술을 사전에 배치하며, 완전한 풀링크 기술과 엔지니어링 자체 연구 역량을 구축했습니다. Transsion의 디지털 휴먼 시스템에는 2D 실제 사람과 3D 현실적 디지털 휴먼이 포함되며, 다국어 음성 인식, 음성 합성, 음성 깨우기, 자연어 이해 및 디지털 휴먼 기능을 기반으로 한 데이터 리소스를 갖추고 있으며 다국어 음성 대화, 휴먼에 사용할 수 있습니다. 디자인 및 외관, 지능형 장면 상호 작용 및 기타 영역은 고유한 현지화 특성과 업계 리더십을 형성했습니다. 올해 1월 트랜션의 디지털 휴먼 시스템은 중국 정보통신기술원(China Academy of Information and Communications Technology)이 발행하는 디지털 휴먼 분야 권위 있는 표준 인증을 받았다. 이는 중국 휴대전화 제조업체가 중국정보통신기술원(China Academy of Information and Communications Technology)의 평가를 통과한 유일한 디지털 휴먼 시스템이기도 하며 '대화형 대화'를 기반으로 합니다.

가상 이미지의 시뮬레이션 효과를 향상시키고 사실적이고 표현력이 풍부한 디지털 휴먼 영상을 합성하기 위해 Transsion AI 기술부에서는 디지털 휴먼 영상 생성 품질을 최적화하는 과정에서 독자적으로 개발한 엔드투엔드 기술을 제안했습니다. Unet 네트워크를 기반으로 하는 새로운 기술 프레임워크인 Unet 구조는 CLIP 인코더 구조를 도입하고 텍스트 의미 정보를 사용하여 디지털 인간 입 애니메이션 효과를 향상시킵니다. 동시에 본 기술은 모델 네트워크의 모달 정보를 증가시키고 모델 생성 품질을 향상시키는 얼굴 특징점 기술의 확률 밀도 맵을 제안합니다. 이러한 기술적 혁신은 디지털 피플의 얼굴 이미지를 더욱 현실적이고 섬세하게 만드는 동시에 음성과 입술 모양의 일관성을 향상시켜 생성 효과가 학문적으로 선도적인 수준에 도달했습니다. 관련 학술 논문 "CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation"이 국제 멀티미디어 주력 학술 컨퍼런스 ICME 2023(IEEE International Conference on Multimedia and Expo)에 성공적으로 채택되었습니다.

AI 음성 다중 모드 기술을 심층적으로 육성하여 현지화된 지능형 대화형 경험 달성

현재 Transsion의 디지털 휴먼 시스템은 다양한 비즈니스 시나리오에서 널리 사용되고 있습니다. 해외 휴대폰 매장에서 스마트 쇼핑 가이드로 활용되어 사용자에게 휴대폰 구매 참고자료를 제공할 뿐만 아니라, 다양한 스마트 단말기 제품에 스마트 음성 비서 기능을 제공하여 사용자 경험을 향상시킬 수 있습니다. 앞으로 Transsion은 "AI + 디지털 휴먼" 기술을 더욱 활용하여 다양한 시나리오에서 비즈니스에 역량을 부여하고 디지털 휴먼 음성 비서 및 고객 서비스 시스템과 같은 새로운 비즈니스 형태를 적극적으로 탐색하며 사용자에게 새로운 지능형 대화형 경험을 제공할 것입니다

AI 음성의 기본 기술 역량을 지속적으로 구축

AI 기술의 급속한 발전으로 이제 알고리즘으로 생성된 오디오와 오디오 위조가 가능해 일반 사용자가 오디오와 진품을 구별하기가 매우 어려워졌습니다. 정보의 신뢰성을 유지하고 사회보장을 보장하기 위해서는 음성 위조 탐지 기술이 중요해지며 인공지능 분야의 새로운 연구 방향이 되었다. Transsion은 스마트 단말기 제품의 비즈니스 시나리오에 중점을 두고 현지 사용자 요구에 따라 AI 음성의 기본 기술 기능을 지속적으로 확장하고 새로운 기술 분야를 배포하며 음성 위조 탐지 기술에서 획기적인 발전을 이루고 있습니다.

제2차 오디오 딥페이크 탐지 챌린지 ADD(The Second Audio Deepfake 탐지 챌린지) IJCAI 2023(제 32회 인공지능 국제 합동 컨퍼런스)에서 Transsion의 AI 기술 부서가 주최한 "Tampering Regional Positioning"(조작 영역 위치)이 2위를 차지했습니다. 길. 대회 기간 동안 트랜션의 AI 기술 부서는 오디오에서 음성 변조를 정확하게 식별하고 찾아낼 수 있는 혁신적인 AI 모델 알고리즘과 기술을 자체 개발하여 디지털 오디오의 독창성과 진정성을 효과적으로 보장하고 AI 애플리케이션 및 정보 보안을 위한 기반을 구축하는 새로운 기능을 제공합니다. 아이디어. 이번 IJCAI 2023 딥페이크 오디오 탐지 및 분석 워크숍(DADA 2023) 컨퍼런스에서 관련 학술 논문이 성공적으로 출판되었습니다.

AI 음성 다중 모드 기술을 심층적으로 육성하여 현지화된 지능형 대화형 경험 달성

다음 단계로 Transsion의 AI 기술 부서에서는 사용자 개인 정보 보호 및 보안을 보호하기 위한 사기 통화 확인 등 Transsion의 스마트 단말기 제품에 음성 심층 위조 탐지 기술을 적용하는 방법을 지속적으로 탐색하여 사용자 경험을 지속적으로 개선할 예정입니다.

앞으로도 Transsion은 "휴대폰 + 모바일 인터넷 서비스 + 가전 제품 및 디지털 액세서리"의 핵심 비즈니스 요구 사항에 중점을 두고 AI 음성 다중 모달 기술 분야에서 계속 열심히 노력할 것입니다. 시장과 지역 소비자에게 사용자의 요구에 맞는 스마트 라이프 경험을 제공하기 위해 다국어, 다중 시나리오, 개인화 및 지능형 애플리케이션 요구를 지속적으로 충족하는 현지화된 AI 콘텐츠 서비스 생태계를 형성합니다.

위 내용은 AI 음성 다중 모드 기술을 심층적으로 육성하여 현지화된 지능형 대화형 경험 달성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 sohu.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제