인간과 컴퓨터의 상호 작용을 위해 기계가 좋은 청각을 갖게 만드는 방법은 최근 AI 분야에서 끊임없이 추구하는 목표였습니다. 2009년을 전후해 딥러닝 모델 응용이 학계를 떠나기 시작했고, 음성 각성, 인식, 강화, 합성으로 대표되는 지능형 음성 기술도 점차 성숙해졌습니다.
전형적인 초기 사례는 2011년 시리의 탄생입니다. 지능형 음성은 인간과 기계 간의 의사소통 및 상호작용 방식에 있어 새로운 도약이 되었습니다. 10년 이상의 개발 끝에 "Hey, Siri" 스타일의 인간-기계 질문과 답변은 더 이상 모바일 단말 장치에만 국한되지 않고 수천 가구에 적용되었으며 다양한 시나리오에서 널리 사용됩니다. 홈 컴패니언 스마트 스피커, Tmall 편리한 온라인 쇼핑을 위한 지니, 회의 시 동시통역, 여행 시 차량 음성 내비게이션 보조 등
점점 더 많은 인터넷 회사와 업스트림 제조업체가 지능형 음성 트랙을 적극적으로 도입함에 따라 지능형 음성 고객 서비스, 대화형 AI 애플리케이션, AI 가상 비서와 같은 제품이 더욱 품질 향상을 달성했으며 음성에 대한 반응도 더 좋아졌습니다. 자연스럽고, 문제를 더 정확하게 이해하고, 자신만의 "작은 감정"을 가지세요.
디지털화 시대, 모든 것이 상호 연결되는 추세는 거침없습니다. 현재 인간-컴퓨터 상호 작용의 핵심 인터페이스인 지능형 음성은 실물 경제와 긴밀하게 통합되고 충돌하는 시기에 있습니다. 응용 시나리오가 더욱 발전하고 확장됨에 따라 화자의 신원을 식별하는 방법, 방언을 식별하는 방법, 모호성을 제거하는 방법 등과 같이 최신 연구 핫스팟인 많은 어려운 문제도 확인했습니다.
기술의 성숙 뒤에는 실제 응용 분야에서 혁신할 수 있는 능력과 더 많은 잠재적인 진화 방향을 포함하여 몇 가지 잠재력이 있는 경우가 많습니다. 다음 단계를 살펴보면 지능형 음성 기술에서도 새로운 진화 추세가 나타날 것입니다. 예를 들어, 깊이 통합된 AI 음성 칩이 클라우드 모델 실행 모델을 대체할 수 있습니까? 다중 모드 융합, 비지도 학습, 뇌 분야의 교차 통합에 대한 혁신적인 연구가 획기적인 결과를 얻을 수 있습니까? 두고 보자.
그럼, 주요 기업에서 지능형 음성 기술을 실제로 탐구하는 과정에서 실제 생산 문제에 직면한 것은 무엇입니까? 어떻게 해결되었나요? 어떤 진전이 있었나요? 업계에는 어떤 새로운 변화가 일어났나요? 다음 개발 동향은 무엇입니까? "AISummit 글로벌 인공지능 기술 컨퍼런스" 지능형 음성 기술 특별 세션은 여러분에게 심층적인 사고를 선사할 것입니다!
8월 7일, 51CTO가 만든 지능형 음성 특별 이벤트 “AISummit 글로벌 인공지능 기술 컨퍼런스”가 다가옵니다!
1. 음성 인식 기술 탐구: 엔드 투 엔드, 효율적인 데이터 사용 등 대규모 실제 응용 시나리오에서 음성 인식 기술을 공유하고 이를 기반으로 핫 단어 제안 접두사 오토마타 기술 솔루션.
2. 음성 평가 기술 실습: 음성 발음 오류 교정 기술 측면에서 숙제 도우미의 높은 동시성 시나리오와 결합하여 다중 작업 지식 전달 및 다중 모드 기능 융합 솔루션을 제안합니다. 시끄러운 환경에서 모델의 요인 차별화 기능과 오류 감지 기능을 향상합니다. 음성평가 구현의 어려움을 고려하여 고성능 클라우드 기반 통합평가 기술을 제안하였다.
3. 음성 합성 기술 프레임워크: 기존의 작은 데이터 볼륨 음성 기술 프레임워크를 기반으로 더 나은 개선을 위한 생각과 실천을 공유합니다.
1. 사무실 시나리오에서 음성 인식 기술 적용 프로세스: 사무실 이메일의 음성 입력, 인스턴트 메시징, 사무실 음성 도우미, 실시간 자막 및 회의 나중에 기록됨 .
2. 솔루션적 사고: 회의를 스마트하게 만들고 효율성을 높입니다.
3. 과제와 기회: 음성 인식 작업의 과제, 다운스트림 작업으로 인한 과제 및 회의는 추가 정보를 제공합니다.
4. 핵심 알고리즘 작업 소개(엔드 투 엔드 음성 인식 시스템): 변환기 및 CIF, 동적 + 정적 핫 워드, 상황 인식.
1. 고급 음성 합성 시스템의 배경 소개 및 문제점 분석.
2. 고급 음성 합성 시스템의 디자인적 사고와 구현.
3. 실험적 평가.
4. 향후 직업 전망.
1. SOUL 소셜 메타버스 시나리오에서 엔드투엔드 음성 인식
2. 다중 모드 음성 합성 기술 구축 경로
3. 음성 보안, 음성 상호작용 등 비즈니스 시나리오에서의 적용
1. .com: AI 지능형 음성 애플리케이션 소개, 음성 인식 링크, 과제 및 기술 경로
2. WeNet 기반 모델 최적화 작업: 준지도 학습, Efficient Conformer, 모델 압축
3. -최종 음성 인식 배포 계획: 자동 엔진 아키텍처 연구, Wenet 디코딩 서비스 배포 및 스트리밍/비스트리밍 디코딩 성능 테스트
바이두에서 7년 동안 근무했으며 알고리즘 연구 및 개발에 종사하고 있습니다. 2015년 Zuoyebang에 지능형 미들 오피스 부서장으로 합류하여 회사의 다양한 비즈니스에 데이터 마이닝, NLP, 음성 등의 미들 오피스 기술 역량을 제공하고 있으며, 검색 및 Q&A, 맞춤형 추천, 지능형 품질 검사 등을 담당해 왔습니다. 음성 평가, 지능형 서비스 예약 및 기타 지시.
Zuoyebang에 합류하기 전 Wang Qiangqiang은 칭화대학교 전자 공학과 음성 처리 및 기계 지능 연구소에서 음성 구현을 담당했습니다. 인식 알고리즘 및 산업 수준 솔루션 구축. 2018년 Zuoyebang에 합류하여 음성 관련 알고리즘의 연구 및 구현을 담당하고 있으며 Zuoyebang에서 음성 인식, 평가, 합성 및 기타 알고리즘의 구현을 주도하여 회사에 완전한 음성 기술 솔루션 세트를 제공했습니다.
Zhang Jun은 오랫동안 음성 인식, 음성 깨우기 등 음성 알고리즘의 연구 및 응용에 종사해 왔으며 풍부한 경험을 가지고 있습니다. 2018년에 그는 ByteDance AI Lab 지능형 음성 팀에 합류했으며 현재 지능형 오피스, 지능형 하드웨어 및 지능형 고객 서비스 분야의 음성 기술 솔루션 구축을 주로 담당하고 있습니다.
Tan Xu, 연구 분야에는 딥 러닝, 자연어/음성/음악, AI 콘텐츠 생성 등이 있습니다. 개발된 기계 번역 및 음성 합성 시스템은 여러 대회에서 우승했으며 학술 평가 세트에서 인간 수준에 도달했습니다. 사전 훈련 언어 모델 MASS, 음성 합성 모델 FastSpeech/NaturalSpeech 및 AI 음악 프로젝트 Muzic과 같은 연구 작업은 광범위한 주목을 받았습니다. 업계.
Liu Zhongliang은 중국과학원 대학원에서 석사 학위를 취득했으며 현재 SOUL에서 음성 알고리즘 책임자로 근무하고 있습니다. Sogou AI 인터랙션 부서 및 Momo 빅 데이터 부서. 지난 10년 동안 그는 음성 깨우기, 음성 인식, 음성 합성, 오디오 음악 이해 등 음성 기술 시스템의 연구 개발에 주로 참여해 왔으며 주로 음성 상호 작용 및 음성 이해 비즈니스 시나리오에 사용됩니다. 입력 방식, 모바일 비서, 스마트 하드웨어, 음성 보안 등 구현 가능한 최고의 음성 기술을 만들기 위해 노력하고 있습니다.
58.com AI Lab의 음성 알고리즘 부서장이자 알고리즘 설계자인 Zhou Wei가 연구를 담당합니다. 음성 인식 및 음성 합성 알고리즘 개발. 2016년 중국과학원에서 석사학위를 취득했습니다. 졸업 후 2018년 5월 58.com에 입사하여 NLP 연구개발에 참여했습니다. 2019년부터 지능형 고객 서비스, 지능형 아웃바운드 통화, 지능형 글쓰기 등 AI 프로젝트용 알고리즘을 개발하기 시작했으며, 음성 알고리즘의 방향에 집중하기 시작하여 팀을 이끌고 0에서 58시 음성 처리 엔진의 음성 알고리즘을 독립적으로 개발했습니다. 1.
AISummit 글로벌 인공지능 기술 컨퍼런스는 훌륭한 AI 기술 전문가들의 실용적인 혁신을 훌륭하게 공유하는 것 외에도 참석자들을 위한 풍부한 사전 현장 및 현장 대화형 혜택도 준비했습니다. 이 이벤트에 참여하여 기술 역량과 네트워크 리소스를 확장하고 동시에 깜짝 선물도 받아가세요!
이벤트에는 "Don't Give in", "Work Lucky", "Smart People"과 같은 네 가지 흥미로운 대화형 게임이 포함되어 있습니다. 그러면 전설적이고 신비로운 궁극기는 항상 놀라운 선물이 될 것입니다! 상? 기술을 사랑하는 여러분의 현장 방문을 기다립니다! (PS: 빨리 예약할수록 대상 당첨 확률이 높아진다고 들었습니다!)
클릭하여 AISummit 글로벌 인공지능 기술 컨퍼런스 공식 웹사이트에 접속한 후 안내에 따라 정보를 완전히 입력하고 제출하여 등록을 완료하세요.
QR 코드를 스캔하여 컨퍼런스 공식 그룹에 가입하고 추첨에 참여하고 SONY 스피커, 빙둔둔, AI 기술 도서와 빨간 봉투 등의 절묘한 선물을 받으세요.
위 내용은 Siri는 점점 더 "인기"가 높아지고 있습니다. 미래에는 스마트 음성에 어떤 획기적인 발전이 있을까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!