>  기사  >  기술 주변기기  >  향후 10년 안에 AI 음성인식은 이 5가지 방향으로 발전할 것입니다.

향후 10년 안에 AI 음성인식은 이 5가지 방향으로 발전할 것입니다.

王林
王林앞으로
2023-04-11 20:10:231561검색

저자 | Migüel Jetté

편집자 | bluemin

편집자 Chen Caixian

지난 2년 동안 자동 음성 인식(Automatic Speech Recognition, ASR)은 상업용으로 중요한 발전을 이루었습니다. Alexa, Rev, AssemblyAI, ASAPP 등과 같이 전적으로 신경망을 기반으로 하는 여러 엔터프라이즈 수준 ASR 모델이 성공적으로 출시되었습니다. 2016년에 Microsoft Research는 그들의 모델이 25년 된 "Switchboard" 데이터 세트에서 인간 수준의 성능(단어 오류율로 측정)에 도달했음을 알리는 기사를 발표했습니다. ASR 정확도는 지속적으로 향상되어 더 많은 데이터 세트와 사용 사례에서 인간 수준의 성능에 도달합니다.

未来十年,AI 语音识别将朝着这五个方向发展

이미지 출처: Awni Hannun의 블로그 게시물 "음성 인식이 해결되지 않았습니다"

ASR 기술의 인식 정확도가 크게 향상되고 응용 시나리오가 점점 더 풍부해짐에 따라 우리는 지금은 그렇지 않다고 믿습니다. 이 분야의 ASR 상업적 사용, 연구 및 시장 적용의 정점은 아직 탐색되지 않았습니다. 우리는 향후 10년 동안 AI 음성 관련 연구 및 상용 시스템이 다음 5가지 분야에 중점을 둘 것이라고 예측합니다. 개발자가 모든 언어로 누구나 이해할 수 있는 애플리케이션을 구축할 수 있도록 지원하는 다국어 모델을 통해 음성 인식의 힘을 실제로 세상에 발휘할 수 있습니다.”

출처: Alexis Conneau 외, 2020. "비지도 교차 음성 인식을 위한 언어 표현 학습" 논문

오늘날의 상용 ASR 모델은 주로 영어 데이터 세트를 훈련에 사용하므로 영어 입력에 대한 정확도가 더 높습니다. 데이터 가용성과 시장 수요로 인해 학계와 산업계에서 영어에 대한 장기적인 관심이 높아지고 있습니다. 프랑스어, 스페인어, 포르투갈어, 독일어 등 널리 사용되는 상용 언어의 인식 정확도도 합리적이지만 훈련 데이터가 제한적이고 ASR 출력 품질이 상대적으로 낮은 언어의 롱테일은 분명히 존재합니다.

또한 대부분의 비즈니스 시스템은 단일 언어를 기반으로 하기 때문에 많은 사회의 고유한 다국어 시나리오에는 적용할 수 없습니다. 다중 언어 사용은 이중 언어 국가의 미디어 프로그래밍과 같이 연속 언어의 형태를 취할 수 있습니다. Amazon은 최근 LID(언어 식별)와 ASR을 통합한 제품을 출시하여 이 문제를 해결하는 데 큰 진전을 이루었습니다. 대조적으로, 번역(코드 전환이라고도 함)은 개인이 동일한 문장에서 두 언어의 단어와 문법을 결합하기 위해 사용하는 언어 시스템입니다. 이는 학계가 계속해서 흥미로운 발전을 이루고 있는 분야입니다.

未来十年,AI 语音识别将朝着这五个方向发展자연어 처리 분야가 다국어 접근 방식을 채택하는 것처럼 향후 10년 동안 ASR이 뒤따르는 모습을 보게 될 것입니다. 새로운 엔드투엔드 기술을 활용하는 방법을 배우면서 여러 언어 간에 학습을 이전할 수 있는 대규모 다국어 모델을 교육할 것입니다. Meta의 XLS-R이 좋은 예입니다. 한 데모에서 사용자는 언어를 지정하지 않고도 21개 언어 중 하나를 말할 수 있었고 모델은 결국 영어로 번역되었습니다. 이러한 스마트한 ASR 시스템은 언어 간의 유사성을 이해하고 적용함으로써 리소스가 적은 언어 및 혼합 언어 사용 사례에 대한 고품질 ASR 가용성을 제공하고 상용 등급 애플리케이션을 활성화합니다.

2. 풍부하고 표준화된 출력 개체

"향후 10년 안에 우리는 상용 ASR 시스템이 단순한 단어 이상의 내용을 포함하는 더 풍부한 전사 개체를 출력할 것이라고 믿습니다. 또한 우리는 이 더 풍부한 출력이 인식될 것이라고 예측합니다. W3C와 같은 표준 기관에서 모든 API가 유사하게 구성된 출력을 반환하도록 합니다. 이렇게 하면 전 세계 모든 사람을 위한 음성 응용 프로그램의 잠재력이 더욱 발휘될 것입니다.

" NIST(국립 표준 기술 연구소)에서는 "풍부한 전사"를 탐구하는 전통이 있지만 이를 ASR 출력을 위해 표준화되고 확장 가능한 형식으로 통합하려는 노력은 여전히 ​​상대적으로 얕습니다. 풍부한 전사의 개념은 처음에는 대문자 사용, 구두점 및 일기 작성을 포함했지만 화자 역할과 다양한 비언어적 음성 이벤트까지 어느 정도 확장되었습니다. 예상되는 혁신에는 다양한 화자의 중복되는 음성, 다양한 감정 및 기타 준언어적 특징은 물론 다양한 비언어적, 심지어 인간이 아닌 음성 장면 및 이벤트를 전사하는 것, 텍스트 기반 또는 언어적 다양성을 전사하는 것이 포함됩니다. Tanaka 등은 사용자가 다양한 풍부함의 전사 옵션 중에서 선택하기를 원할 수 있는 시나리오를 설명하며, 분명히 우리가 예측하는 추가 정보의 양과 성격은 다운스트림 애플리케이션에 따라 지정 가능합니다.

기존 ASR 시스템은 음성 단어를 인식하는 과정에서 여러 가설의 그리드를 생성할 수 있으며, 이는 인간 지원 전사, 음성 대화 시스템 및 정보 검색에 큰 이점이 있는 것으로 입증되었습니다. 풍부한 출력 형식에 n-best 정보를 포함하면 더 많은 사용자가 ASR 시스템을 사용하도록 장려하여 사용자 경험을 향상시킬 수 있습니다. 음성 디코딩 중에 현재 또는 잠재적으로 생성되는 추가 정보를 구조화하거나 저장하기 위한 표준은 현재 존재하지 않지만 CallMiner의 OVTS(Open Speech Transcription Standard)는 이러한 방향으로 나아가는 확실한 단계로서 기업이 여러 ASR 공급업체를 쉽게 탐색하고 선택할 수 있도록 해줍니다.

미래에는 ASR 시스템이 표준 형식으로 더 풍부한 출력을 생성하여 더 강력한 다운스트림 애플리케이션을 가능하게 할 것으로 예상합니다. 예를 들어, ASR 시스템은 가능한 전체 범위의 메시를 출력할 수 있으며, 애플리케이션은 이 추가 데이터를 사용하여 대화 내용을 편집할 때 지능형 자동 전사를 수행할 수 있습니다. 마찬가지로 감지된 지역 방언, 악센트, 주변 소음 또는 분위기와 같은 추가 메타데이터를 포함하는 ASR 기록을 통해 더욱 강력한 검색 애플리케이션을 구현할 수 있습니다.

3. 모두를 위한 대규모 ASR

“향후 10년 안에 대규모 ASR(즉, 민영화되고 저렴하며 안정적이고 빠른)이 모든 사람의 일상생활의 일부가 될 것입니다. 비디오를 검색하고, 우리가 참여하는 모든 미디어 콘텐츠를 색인화하고, 전 세계 청각 장애 소비자가 모든 비디오에 액세스할 수 있도록 할 수 있습니다. ASR은 모든 오디오 및 비디오를 액세스하고 실행 가능하게 만드는 핵심이 될 것입니다."

未来十年,AI 语音识别将朝着这五个方向发展

未来十年,AI 语音识别将朝着这五个方向发展

우리 모두는 팟캐스트, 소셜 미디어 스트리밍, 온라인 비디오, 실시간 그룹 채팅, Zoom 회의 등 오디오 및 비디오 소프트웨어를 많이 사용할 수 있습니다. 그러나 관련 내용 중 실제로 복사된 내용은 거의 없습니다. 오늘날 콘텐츠 전사는 ASR API의 가장 큰 시장 중 하나가 되었으며 특히 정확성과 경제성을 고려할 때 향후 10년 동안 기하급수적으로 성장할 것입니다. ASR 전사는 현재 특정 애플리케이션(방송 비디오, 특정 회의 및 팟캐스트 등)에만 사용됩니다. 그 결과, 많은 사람들이 이러한 미디어 콘텐츠에 접근할 수 없고, 방송이나 행사가 끝난 후 관련 정보를 찾는 데 어려움을 겪고 있습니다.

앞으로 이런 상황은 바뀔 것입니다. Matt Thompson이 2010년에 예측했듯이 어느 시점에는 ASR이 저렴해지고 널리 보급되어 그가 "말하기"라고 부르는 것을 경험할 수 있을 것입니다. 우리는 미래에는 거의 모든 오디오 및 비디오 콘텐츠가 전사되어 대규모로 즉시 액세스, 저장 및 검색이 가능해질 것으로 예상합니다. 하지만 ASR의 발전은 여기서 끝나지 않고, 이러한 콘텐츠가 실행 가능해지기를 바랍니다. 우리는 소비되거나 참여하는 각 오디오 및 비디오가 팟캐스트나 컨퍼런스에서 자동으로 생성된 통찰력, 비디오의 주요 순간에 대한 자동 요약 등과 같은 추가 컨텍스트를 제공하기를 바랍니다. NLP 시스템이 위의 처리를 일상화할 수 있기를 바랍니다.

4. 인간-기계 협업

“금세기 말에는 인간의 도움이나 자기 감독을 통해 끊임없이 학습하는 살아있는 유기체와 같은 ASR 시스템이 진화하게 될 것입니다. 실제 세계의 다양한 채널에서 배우고, 비동기식보다는 실시간으로 새로운 단어와 언어 변형을 이해하고, 자체 디버그하고 다양한 사용법을 자동으로 모니터링합니다.”

未来十年,AI 语音识别将朝着这五个方向发展

ASR이 주류가 되어 점점 더 많은 사용 사례를 포괄합니다. 인간-기계 협업이 중요한 역할을 할 것입니다. ASR 모델의 훈련은 이를 잘 반영합니다. 오늘날 오픈 소스 데이터 세트와 사전 훈련된 모델은 ASR 공급업체의 진입 장벽을 낮추고 있습니다. 그러나 훈련 프로세스는 여전히 매우 간단합니다. 데이터 수집, 데이터 주석 달기, 모델 훈련, 결과 평가, 모델 개선 등입니다. 그러나 이는 느린 프로세스이며 많은 경우 튜닝의 어려움이나 데이터 부족으로 인해 오류가 발생하기 쉽습니다. Garnerin 등은 메타데이터 누락과 말뭉치 표현의 불일치로 인해 ASR 성능의 동일한 정확성을 보장하기가 어렵다는 점을 관찰했습니다. 이는 Reid와 Walker가 메타데이터 표준을 개발할 때 해결하려고 시도한 문제이기도 합니다.

미래에는 인간이 지능적인 수단을 통해 ASR 훈련을 효율적으로 감독하고 기계 학습을 가속화하는 데 점점 더 중요한 역할을 담당하게 될 것입니다. Human-in-the-Loop 접근 방식은 인간 검토자를 기계 학습/피드백 루프에 배치하여 모델 결과를 지속적으로 검토하고 조정할 수 있도록 합니다. 이를 통해 기계 학습이 더 빠르고 효율적으로 이루어지며 결과적으로 더 높은 품질의 결과를 얻을 수 있습니다. 올해 초 우리는 ASR 개선을 통해 Rev의 인간 전사자("Revvers"라고 함)가 ASR 초안을 사후 편집하여 생산성을 높일 수 있는 방법에 대해 논의했습니다. Revver의 전사는 개선된 ASR 모델에 직접 입력되어 선순환을 형성할 수 있습니다.

인간 언어 전문가가 ASR에 필수적인 영역 중 하나는 ITN(역 텍스트 정규화)으로, 인식된 문자열(예: "5달러")을 예상되는 서면 형식(예: "$5")으로 변환합니다. Pusateri 등은 "손으로 만든 문법 및 통계 모델"을 사용하는 하이브리드 접근 방식을 제안했으며 Zhang 등은 손으로 만든 FST로 RNN을 제한하여 이러한 방식을 계속했습니다.

5. 책임 있는 ASR

“모든 인공 지능 시스템과 마찬가지로 미래의 ASR 시스템도 더 엄격한 인공 지능 윤리 원칙을 준수하여 시스템이 모든 사람을 동등하게 대하고 더 높은 수준의 설명 가능성을 갖게 될 것입니다. 그리고 사용자와 데이터의 개인정보를 존중합니다.”

未来十年,AI 语音识别将朝着这五个方向发展

미래의 ASR 시스템은 공정성, 설명 가능성, 개인 정보 보호 존중, 책임이라는 인공 지능 윤리의 4가지 원칙을 따릅니다.

공정성: 공정한 ASR 시스템은 화자의 배경, 사회 경제적 지위 또는 기타 특성에 관계없이 음성을 인식할 수 있습니다. 이러한 시스템을 구축하려면 모델과 훈련 데이터의 편향을 식별하고 줄여야 한다는 점은 주목할 가치가 있습니다. 다행스럽게도 정부, NGO, 기업은 이미 편견을 식별하고 완화하기 위한 인프라를 구축하기 위해 노력하고 있습니다.

해석 가능성: ASR 시스템은 더 이상 "블랙박스"가 아닙니다. 필요에 따라 데이터 수집 및 분석, 모델 성능 및 출력 프로세스를 설명합니다. 이러한 추가 투명성 요구 사항을 통해 모델 교육 및 성능에 대한 인간의 감독이 더 잘 이루어집니다. Gerlings et al.과 마찬가지로 우리는 다양한 이해관계자(연구원, 개발자, 고객, Rev의 경우 전사 전문가 포함)의 관점에서 해석 가능성을 봅니다. 연구자는 문제를 완화하기 위해 잘못된 텍스트를 출력하는 이유를 알고 싶어할 수 있지만, 전사 전문가는 특히 ASR이 People보다 더 효율적일 수 있는 시끄러운 상황에서 효율성을 평가하는 데 도움이 된다고 생각하는 이유에 대한 증거를 원할 수 있습니다. "듣는" 것이 더 좋습니다. Weitz et al.은 오디오 키워드 인식의 맥락에서 최종 사용자의 해석 가능성을 향한 중요한 첫 단계를 밟았습니다. Laguarta와 Subirana는 알츠하이머병 검출을 위한 음성 바이오마커 시스템에 임상의의 지도에 따른 해석을 통합했습니다.

개인 정보 존중: "음성"은 다양한 미국 및 국제 법률에 따라 "개인 데이터"로 간주되므로 음성 녹음의 수집 및 처리에는 엄격한 개인 정보 보호가 적용됩니다. Rev에서는 이미 데이터 보안 및 제어 기능을 제공하고 있으며 향후 ASR 시스템은 사용자 데이터의 개인 정보 보호와 모델의 개인 정보 보호를 더욱 존중할 것입니다. 대부분의 경우 이는 ASR 모델을 (장치 또는 브라우저에서) 가장자리로 푸시하는 것과 관련이 있을 가능성이 높습니다. 음성 개인 정보 보호 문제는 이 분야에 대한 연구를 주도하고 있으며 유럽 연합과 같은 많은 관할권에서 입법 노력을 시작했습니다. 개인 정보 보호 기계 학습 분야는 이 기술의 중요한 측면에 관심을 집중시켜 대중이 널리 받아들이고 신뢰할 수 있도록 할 것을 약속합니다.

책임성: 우리는 ASR 시스템을 모니터링하여 처음 세 가지 원칙을 준수하는지 확인합니다. 이를 위해서는 필요한 모니터링 시스템을 설계 및 개발하고 결과에 대응하여 조치를 취하기 위한 자원과 인프라에 대한 투자가 필요합니다. ASR 시스템을 배포하는 회사는 기술 사용에 대한 책임을 지며 ASR 윤리 원칙을 준수하기 위해 특별한 노력을 기울입니다. ASR 시스템의 설계자, 유지관리자, 소비자인 인간이 이러한 원칙을 구현하고 시행하는 데 책임이 있다는 점은 언급할 가치가 있습니다. 이는 인간-기계 협업의 또 다른 예입니다.

참조 링크: https://thegradient.pub/the-future-of-speech-recognition/https://awni.github.io/speech-recognition/​

위 내용은 향후 10년 안에 AI 음성인식은 이 5가지 방향으로 발전할 것입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제