음성 인식을 개발하는 방법-일체 포함-php.cn

집

기술 주변기기

일체 포함

음성 인식을 개발하는 방법

PHPz

Apr 12, 2023 pm 05:01 PM

음성 인식

딥러닝 기술을 활용한 자연어에 대한 심층적인 이해는 늘 사람들의 관심의 대상이었습니다. 음악을 듣기 위해 찾아볼 필요가 없고, 조명을 켜기 위해 손을 사용할 필요가 없으며, 에어컨이 사용자의 목소리를 이해할 수 있습니다... 이러한 장면은 많은 영화와 TV에서 보여졌습니다. 작동하며 많은 사람들의 마음 속에 "스마트 라이프"라는 개념을 나타내기도 합니다. 이를 바탕으로 인공지능 개발이 급증하면서 자연어 처리는 대기업과 과학연구기관의 전쟁터가 됐다.

음성 인식을 개발하는 방법

현재 음성 상호 작용 트랙에는 인터넷 거대 기업, 잘 알려진 하드웨어 회사, 전자 상거래 플랫폼, 전통적인 가전 제품 제조업체 및 다양한 인공 지능 스타트업, 특히 최근 몇 년 동안 스마트 스피커로 대표되는 음성 상호 작용 제품이 모였습니다. 국내외에서의 인기는 음성 상호작용 기술의 응용과 발전을 크게 촉진시켰습니다.

애플리케이션은 다양한 분야에서 구현되었습니다

최근 가장 인기 있는 스마트 홈 하드웨어는 의심할 여지 없이 Xiaomi AI 스피커입니다. 이 제품은 출시되자마자 시장에서 큰 반향을 일으켰고, 많은 사람들로부터 "최고의 인터랙티브 경험을 갖춘 스피커", "스마트 스피커 업계의 책임자", "현재 '가장 인기 있는' 스마트 하드웨어"라고 불렸습니다. 미디어... 편집자의 의견에 따르면 Xiaomi AI 스피커는 훌륭하지만 자랑할 만큼은 아닙니다. 편집자 주변 사람들의 구체적인 사용 경험으로 볼 때 음성 인식 기능은 특별히 뛰어나지 않으며 현재 시중에 나와 있는 유사 주류 제품과 크게 다르지 않습니다. 가장 큰 장점은 생태계 체인에 있습니다. Xiaomi AI 스피커를 통해 Xiaomi 책상 램프, Xiaomi 청소 로봇, Xiaomi 바닥 팬 및 기타 지원 가구 장비를 제어할 수 있습니다. 이것이 사람들을 스마트한 삶에 한 걸음 더 가까이 다가갈 것이라는 데에는 의심의 여지가 없습니다.

자동차 및 스마트 모바일 기기 분야에서는 음성 상호작용 기능이 큰 인기를 끌고 있습니다. 운전할 때 사람들은 시간적 여유가 없으며 손으로 휴대폰을 조작해서는 안 됩니다. 이때 차량 내 음성은 필수 요소이자 차량 인터넷의 표준 기능이 되었습니다. 스마트 상호연결과 무인운전이 각광받는 현 시대에 음성인식이라는 블랙 기술이 탑재되지 않은 신차는 이를 활용하기가 너무 쑥스러운 것 같다. Ford의 SYNC 시스템은 휴대폰과 디지털 미디어 플레이어에 특별히 장착된 Ford의 차량 내 멀티미디어 통신 및 엔터테인먼트 시스템으로, 현재 차량 내 시스템에 음성 상호 작용 기술을 적용한 성공적인 사례이며 많은 Ford 차량 시리즈에 널리 사용되었습니다. 인터넷 거대 기업인 애플이 아이폰 4S에 지능형 음성 비서 애플리케이션인 시리(Siri)를 출시한 데 이어 구글도 안드로이드 스마트폰 운영체제에 구글나우(GoogleNow) 지능형 음성 검색과 질의응답 서비스를 출시했다. 마이크로소프트도 윈도우 폰에 음성 기술을 적용했고, 삼성도 출시했다. 당연히 빅스비죠.

금융 분야에서. 음성 인식 기술도 그 자리를 차지하고 있습니다. 최근 중국건설은행은 상하이 황푸구에 로봇이 고객에게 서비스를 제공하는 자동화 서비스 지점을 개설했다. 로봇에는 대부분의 고객 질문에 답하고 일반 시내 은행의 비즈니스 요구 사항 대부분을 해결할 수 있는 안면 스캐닝 인식 소프트웨어가 장착되어 있으며 수동 지원 서비스 및 기타 전문 서비스도 갖추고 있어 개인화된 요구 사항을 충족합니다. 로봇이 고객을 맞이하는데, 로봇은 음성인식 기능을 이용해 사람과 소통하고 고객의 질문에 답한다. 또한 계좌 개설, 자금 이체, 투자 등 인간 서비스가 수행할 수 있는 대부분의 작업을 완료할 수 있습니다.

또한 새로운 소매 분야에서는 지능형 음성 기술의 적용도 지속적으로 확대되고 있습니다. 예를 들어, 2017년 12월 18일, iFlytek과 Red Star Macalline은 전략적 협력 계획을 발표했습니다. 앞으로 iFlytek이 개발한 지능형 쇼핑 가이드 로봇 "Meimei"가 전국 Red Star Macalline 매장에 출시될 예정입니다.

음성 상호 작용 외에도 음성을 텍스트로 변환하는 기술도 현재 음성 인식 기술에서 뜨거운 주제입니다. 초기에는 이 기능을 언론인들이 애용하던 기능으로, 인터뷰 원고나 스피치 원고 정리에 활용하면 업무 효율을 크게 높일 수 있어 요즘은 노년층도 활용 가능하다. 게으름과 암에 시달리는 이 기능은 타이핑을 대체합니다.

오늘날 자본 유입, 정책 지원, 반복되는 시장 확장으로 인해 음성 기술이 점점 성숙해졌고, 글로벌 음성 시장도 애플리케이션 구현을 위한 황금 개발 시기를 맞이했습니다. 관련 통계에 따르면, 2016년 지능형 음성 산업 규모는 60억 위안에 가까웠고, 2017년에는 100억 위안을 넘어 전년 대비 약 69% 증가할 것으로 예상됩니다.

현재 기술 상태는 만족스럽지 않습니다

음성인식은 여러 분야에서 확산되고 있는 반면, 음성인식 기술의 발전은 상당히 느린 상황에서, 음성인식 기술은 실용화에 많은 어려움을 겪고 있습니다. 질문.

현재 많은 기업에서 음성 인식률이 97%, 심지어 98%에 이르렀다고 하는데 실제 적용해 보면 그 결과가 만족스럽지 않습니다. 좀 더 설득력 있는 예를 들자면, IBMT.JWatson 연구소가 개발한 중국의 음성 인식 시스템은 미국 DARPA가 후원하는 대회에서 3년 연속 CCTV '뉴스 네트워크' 프로그램을 인정받았다. 오류율은 5% 미만이었는데, 다른 콘텐츠를 식별할 때 그 격차가 매우 크다. 실제 응용 프로그램에서 인식률은 주로 다음 요소의 영향을 받습니다.

중국어 음성 인식의 경우 사투리나 억양이 있으면 인식률이 떨어집니다.

공공장소의 강한 소음은 인식 효과에 큰 영향을 미칩니다. 실험실 환경에서도 키보드를 치고 마이크를 움직이면 배경 소음이 됩니다.

중단 질문, 사람들이 말할 때 잠시 멈추면 기계가 문맥과 잘 연결되지 않아 의미를 원활하게 만들 수 없습니다.

여기서 '구술' 문제도 있습니다. 여기에는 자연어 이해와 음향이 모두 포함됩니다. 음성인식 기술의 궁극적인 목표는 '사람과 사람의 대화'처럼 자연스러운 '사람과 기계의 대화'를 가능하게 하는 것이다. 구어는 표준화되어 있지 않으며, 비정상적인 어순은 의미 분석 및 이해에 어려움을 가져옵니다.

음성 인식의 기술적 반복

이전에는 음성 인식 기술의 실제 적용에서 데이터 수집을 통해 악센트 및 새로운 어휘와 같은 문제를 해결할 수 있다는 지적이 있었습니다. 데이터의 양이 늘어나면 이 문제는 해결될 수 있습니다.

"중단"과 같은 다른 문제에는 DNN, CNN, BLSTM(양방향 장단기 기억 신경망) 등과 같은 다양한 딥 러닝 모델과 이를 점진적으로 해결하기 위한 새로운 알고리즘이 필요합니다.

기술을 사용하려면 먼저 온라인에 접속한 다음 현장에서 데이터를 수집하여 모델을 평가하고 최적화하며 사용자 경험을 개선하는 반복적인 프로세스가 필요한 경우가 많습니다. 최상의 결과를 얻으려면 여러 번의 반복이 필요합니다. 다른 AI 기술도 비슷하다. 오늘날 많은 AI 기술 사용자는 기술의 기능을 쉽게 이상화하고, 도입되자마자 즉각적인 결과를 확인해야 한다고 생각합니다. 실제 결과가 만족스럽지 못한 것을 보면 큰 격차를 느끼고 실망하고 포기하게 됩니다. 지능형 음성 기술이 GF 적용 수준에 도달한 것은 사실이지만, 실제로 구현될 때 직면할 수 있는 어려움을 충분히 이해하고 장기적인 전투에 정신적으로 준비해야 합니다.

음성 인식을 개발하는 방법

요약

지난 5~10년 동안 음성 인식 시스템의 적용이 더욱 광범위해질 것으로 예측할 수 있습니다. 다양한 음성인식 시스템 제품이 시장에 출시될 예정이다. 사람들은 또한 다양한 인식 시스템을 수용하기 위해 자신의 음성 패턴을 조정할 것입니다. 인간과 비교할 수 있는 음성 인식 시스템을 단기적으로 구축하는 것은 불가능하며, 이러한 시스템을 구축하는 것은 여전히 인류에게 있어 음성 인식 시스템을 개선하는 방향으로 한 단계씩 나아갈 수 있을 뿐입니다. 인간만큼 완전한 음성인식 시스템이 언제 구축될지는 예측하기 어렵다. 1960년대처럼 오늘날의 VLSI 기술이 우리 사회에 이렇게 큰 영향을 미칠 것이라고 누가 예측이나 했겠는가.

위 내용은 음성 인식을 개발하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다.Apr 13, 2025 am 01:14 AM

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - ’

요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법Apr 12, 2025 pm 12:09 PM

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서Apr 12, 2025 pm 12:00 PM

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서Apr 12, 2025 am 11:58 AM

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Apr 12, 2025 am 11:52 AM

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.Apr 12, 2025 am 11:51 AM

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

생성 AI는 사이코브블을 만난다Apr 12, 2025 am 11:50 AM

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 할 일

프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다Apr 12, 2025 am 11:49 AM

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.