딥러닝 기술을 활용한 자연어에 대한 심층적인 이해는 늘 사람들의 관심의 대상이었습니다. 음악을 듣기 위해 찾아볼 필요가 없고, 조명을 켜기 위해 손을 사용할 필요가 없으며, 에어컨이 사용자의 목소리를 이해할 수 있습니다... 이러한 장면은 많은 영화와 TV에서 보여졌습니다. 작동하며 많은 사람들의 마음 속에 "스마트 라이프"라는 개념을 나타내기도 합니다. 이를 바탕으로 인공지능 개발이 급증하면서 자연어 처리는 대기업과 과학연구기관의 전쟁터가 됐다.
현재 음성 상호 작용 트랙에는 인터넷 거대 기업, 잘 알려진 하드웨어 회사, 전자 상거래 플랫폼, 전통적인 가전 제품 제조업체 및 다양한 인공 지능 스타트업, 특히 최근 몇 년 동안 스마트 스피커로 대표되는 음성 상호 작용 제품이 모였습니다. 국내외에서의 인기는 음성 상호작용 기술의 응용과 발전을 크게 촉진시켰습니다.
최근 가장 인기 있는 스마트 홈 하드웨어는 의심할 여지 없이 Xiaomi AI 스피커입니다. 이 제품은 출시되자마자 시장에서 큰 반향을 일으켰고, 많은 사람들로부터 "최고의 인터랙티브 경험을 갖춘 스피커", "스마트 스피커 업계의 책임자", "현재 '가장 인기 있는' 스마트 하드웨어"라고 불렸습니다. 미디어... 편집자의 의견에 따르면 Xiaomi AI 스피커는 훌륭하지만 자랑할 만큼은 아닙니다. 편집자 주변 사람들의 구체적인 사용 경험으로 볼 때 음성 인식 기능은 특별히 뛰어나지 않으며 현재 시중에 나와 있는 유사 주류 제품과 크게 다르지 않습니다. 가장 큰 장점은 생태계 체인에 있습니다. Xiaomi AI 스피커를 통해 Xiaomi 책상 램프, Xiaomi 청소 로봇, Xiaomi 바닥 팬 및 기타 지원 가구 장비를 제어할 수 있습니다. 이것이 사람들을 스마트한 삶에 한 걸음 더 가까이 다가갈 것이라는 데에는 의심의 여지가 없습니다.
자동차 및 스마트 모바일 기기 분야에서는 음성 상호작용 기능이 큰 인기를 끌고 있습니다. 운전할 때 사람들은 시간적 여유가 없으며 손으로 휴대폰을 조작해서는 안 됩니다. 이때 차량 내 음성은 필수 요소이자 차량 인터넷의 표준 기능이 되었습니다. 스마트 상호연결과 무인운전이 각광받는 현 시대에 음성인식이라는 블랙 기술이 탑재되지 않은 신차는 이를 활용하기가 너무 쑥스러운 것 같다. Ford의 SYNC 시스템은 휴대폰과 디지털 미디어 플레이어에 특별히 장착된 Ford의 차량 내 멀티미디어 통신 및 엔터테인먼트 시스템으로, 현재 차량 내 시스템에 음성 상호 작용 기술을 적용한 성공적인 사례이며 많은 Ford 차량 시리즈에 널리 사용되었습니다. 인터넷 거대 기업인 애플이 아이폰 4S에 지능형 음성 비서 애플리케이션인 시리(Siri)를 출시한 데 이어 구글도 안드로이드 스마트폰 운영체제에 구글나우(GoogleNow) 지능형 음성 검색과 질의응답 서비스를 출시했다. 마이크로소프트도 윈도우 폰에 음성 기술을 적용했고, 삼성도 출시했다. 당연히 빅스비죠.
금융 분야에서. 음성 인식 기술도 그 자리를 차지하고 있습니다. 최근 중국건설은행은 상하이 황푸구에 로봇이 고객에게 서비스를 제공하는 자동화 서비스 지점을 개설했다. 로봇에는 대부분의 고객 질문에 답하고 일반 시내 은행의 비즈니스 요구 사항 대부분을 해결할 수 있는 안면 스캐닝 인식 소프트웨어가 장착되어 있으며 수동 지원 서비스 및 기타 전문 서비스도 갖추고 있어 개인화된 요구 사항을 충족합니다. 로봇이 고객을 맞이하는데, 로봇은 음성인식 기능을 이용해 사람과 소통하고 고객의 질문에 답한다. 또한 계좌 개설, 자금 이체, 투자 등 인간 서비스가 수행할 수 있는 대부분의 작업을 완료할 수 있습니다.
또한 새로운 소매 분야에서는 지능형 음성 기술의 적용도 지속적으로 확대되고 있습니다. 예를 들어, 2017년 12월 18일, iFlytek과 Red Star Macalline은 전략적 협력 계획을 발표했습니다. 앞으로 iFlytek이 개발한 지능형 쇼핑 가이드 로봇 "Meimei"가 전국 Red Star Macalline 매장에 출시될 예정입니다.
음성 상호 작용 외에도 음성을 텍스트로 변환하는 기술도 현재 음성 인식 기술에서 뜨거운 주제입니다. 초기에는 이 기능을 언론인들이 애용하던 기능으로, 인터뷰 원고나 스피치 원고 정리에 활용하면 업무 효율을 크게 높일 수 있어 요즘은 노년층도 활용 가능하다. 게으름과 암에 시달리는 이 기능은 타이핑을 대체합니다.
오늘날 자본 유입, 정책 지원, 반복되는 시장 확장으로 인해 음성 기술이 점점 성숙해졌고, 글로벌 음성 시장도 애플리케이션 구현을 위한 황금 개발 시기를 맞이했습니다. 관련 통계에 따르면, 2016년 지능형 음성 산업 규모는 60억 위안에 가까웠고, 2017년에는 100억 위안을 넘어 전년 대비 약 69% 증가할 것으로 예상됩니다.
음성인식은 여러 분야에서 확산되고 있는 반면, 음성인식 기술의 발전은 상당히 느린 상황에서, 음성인식 기술은 실용화에 많은 어려움을 겪고 있습니다. 질문.
현재 많은 기업에서 음성 인식률이 97%, 심지어 98%에 이르렀다고 하는데 실제 적용해 보면 그 결과가 만족스럽지 않습니다. 좀 더 설득력 있는 예를 들자면, IBMT.JWatson 연구소가 개발한 중국의 음성 인식 시스템은 미국 DARPA가 후원하는 대회에서 3년 연속 CCTV '뉴스 네트워크' 프로그램을 인정받았다. 오류율은 5% 미만이었는데, 다른 콘텐츠를 식별할 때 그 격차가 매우 크다. 실제 응용 프로그램에서 인식률은 주로 다음 요소의 영향을 받습니다.
중국어 음성 인식의 경우 사투리나 억양이 있으면 인식률이 떨어집니다.
공공장소의 강한 소음은 인식 효과에 큰 영향을 미칩니다. 실험실 환경에서도 키보드를 치고 마이크를 움직이면 배경 소음이 됩니다.
중단 질문, 사람들이 말할 때 잠시 멈추면 기계가 문맥과 잘 연결되지 않아 의미를 원활하게 만들 수 없습니다.
여기서 '구술' 문제도 있습니다. 여기에는 자연어 이해와 음향이 모두 포함됩니다. 음성인식 기술의 궁극적인 목표는 '사람과 사람의 대화'처럼 자연스러운 '사람과 기계의 대화'를 가능하게 하는 것이다. 구어는 표준화되어 있지 않으며, 비정상적인 어순은 의미 분석 및 이해에 어려움을 가져옵니다.
이전에는 음성 인식 기술의 실제 적용에서 데이터 수집을 통해 악센트 및 새로운 어휘와 같은 문제를 해결할 수 있다는 지적이 있었습니다. 데이터의 양이 늘어나면 이 문제는 해결될 수 있습니다.
"중단"과 같은 다른 문제에는 DNN, CNN, BLSTM(양방향 장단기 기억 신경망) 등과 같은 다양한 딥 러닝 모델과 이를 점진적으로 해결하기 위한 새로운 알고리즘이 필요합니다.
기술을 사용하려면 먼저 온라인에 접속한 다음 현장에서 데이터를 수집하여 모델을 평가하고 최적화하며 사용자 경험을 개선하는 반복적인 프로세스가 필요한 경우가 많습니다. 최상의 결과를 얻으려면 여러 번의 반복이 필요합니다. 다른 AI 기술도 비슷하다. 오늘날 많은 AI 기술 사용자는 기술의 기능을 쉽게 이상화하고, 도입되자마자 즉각적인 결과를 확인해야 한다고 생각합니다. 실제 결과가 만족스럽지 못한 것을 보면 큰 격차를 느끼고 실망하고 포기하게 됩니다. 지능형 음성 기술이 GF 적용 수준에 도달한 것은 사실이지만, 실제로 구현될 때 직면할 수 있는 어려움을 충분히 이해하고 장기적인 전투에 정신적으로 준비해야 합니다.
지난 5~10년 동안 음성 인식 시스템의 적용이 더욱 광범위해질 것으로 예측할 수 있습니다. 다양한 음성인식 시스템 제품이 시장에 출시될 예정이다. 사람들은 또한 다양한 인식 시스템을 수용하기 위해 자신의 음성 패턴을 조정할 것입니다. 인간과 비교할 수 있는 음성 인식 시스템을 단기적으로 구축하는 것은 불가능하며, 이러한 시스템을 구축하는 것은 여전히 인류에게 있어 음성 인식 시스템을 개선하는 방향으로 한 단계씩 나아갈 수 있을 뿐입니다. 인간만큼 완전한 음성인식 시스템이 언제 구축될지는 예측하기 어렵다. 1960년대처럼 오늘날의 VLSI 기술이 우리 사회에 이렇게 큰 영향을 미칠 것이라고 누가 예측이나 했겠는가.
위 내용은 음성 인식을 개발하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!