OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.

PHPz

Nov 05, 2023 am 11:25 AM

ai모델

최근 'Taylor Swift 과시 중국어' 영상이 주요 소셜 미디어에서 빠르게 인기를 끌었고, 이후 'Guo Degang 과시 영어' 등 유사한 영상이 등장했습니다. 이러한 영상 중 다수는 "HeyGen"이라는 인공지능 애플리케이션으로 제작됩니다. 그러나 HeyGen의 현재 인기로 판단할 때 이를 사용하여 유사한 영상을 제작하는 데는 오랜 시간이 걸릴 수 있습니다. 다행히도 이것이 그것을 만드는 유일한 방법은 아닙니다. 기술을 이해하는 친구들은 음성-텍스트 모델 Whisper, 텍스트 번역 GPT, 음성 복제 + 오디오 생성 so-vits-svc, 오디오 GeneFace++dengdeng과 일치하는 입 모양 비디오 생성과 같은 다른 대안을 찾을 수도 있습니다.

다시 작성된 내용은 다음과 같습니다. 그 중 위스퍼(Whisper)는 OpenAI가 개발, 오픈소스화한 자동음성인식(ASR) 모델로 사용이 매우 간편하다. 그들은 웹에서 수집한 680,000시간의 다국어(98개 언어) 및 다중 작업 감독 데이터에 대해 Whisper를 교육했습니다. OpenAI는 이렇게 크고 다양한 데이터 세트를 사용하면 악센트, 배경 소음 및 기술 용어를 인식하는 모델의 능력을 향상시킬 수 있다고 믿습니다. 음성 인식 외에도 Whisper는 여러 언어를 전사하고 해당 언어를 영어로 번역할 수도 있습니다. 현재 Whisper에는 많은 변형이 있으며 많은 AI 애플리케이션을 구축할 때 필수 구성 요소가 되었습니다

최근 HuggingFace 팀은 새로운 변형인 Distil-Whisper를 제안했습니다. 이 변형은 작은 크기, 빠른 속도 및 매우 높은 정확도가 특징인 Whisper 모델의 증류된 버전으로, 짧은 대기 시간이 필요하거나 리소스가 제한된 환경에서 사용하기에 이상적입니다. 그러나 여러 언어를 처리할 수 있는 원래 Whisper 모델과 달리 Distil-Whisper는 영어

Paper 링크: https://arxiv.org/pdf/2311.00430.pdf OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.

Specific 및 In만 처리할 수 있습니다. 즉, Distil-Whisper에는 매개변수 크기가 756M(distil-large-v2)과 394M(distil-medium.en)인 두 가지 버전이 있습니다. OpenAI의 Whisper-large-v2와 비교하면 756M 버전은 distil의 매개변수 수입니다. -large-v2는 절반 이상 감소했지만 6배의 가속도를 달성했으며 정확도는 Whisper-large-v2에 매우 가깝습니다. 짧은 오디오의 WER(Word Error Rate) 차이는 1% 이내입니다. 긴 오디오에서는 Whisper-large-v2보다 훨씬 좋습니다. 신중한 데이터 선택과 필터링을 통해 Whisper의 견고성은 유지되고 환각이 줄어들기 때문입니다.

Whisper 웹 버전의 속도는 Distil-Whisper와 직관적으로 비교됩니다. 이미지 출처: https://twitter.com/xenovacom/status/1720460890560975103

OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.

그래서 출시된 지 2~3일밖에 안 됐음에도 불구하고 Distil-Whisper는 이미 별 천개를 넘어섰습니다. OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.

OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다. 프로젝트 주소: https://github.com/huggingface/distil-whisper#1-usage

모델 주소: https://huggingface.co/models ? 기타 = ARXIV : 2311.00430 덧셈에서, 테스트 결과에 따르면 Distil-Whisper는 150 분의 오디오를 처리 할 때 더 빠른 whisper보다 2.5 배 빠를 수 있음을 보여줍니다. 링크는 다음과 같습니다: https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper그렇다면 어떻게 이렇게 좋은 결과를 얻을 수 있을까요? 논문의 저자는 의사 라벨링 기술을 사용하여 대규모 오픈 소스 데이터 세트를 구축한 다음 이 데이터 세트를 사용하여 Whisper 모델을 Distil-Whisper로 압축했다고 밝혔습니다. 그들은 간단한 WER 휴리스틱을 사용하고 훈련을 위해 최고 품질의 의사 레이블만 선택합니다
다음은 원본 콘텐츠를 다시 작성한 것입니다. Distil-Whisper의 아키텍처는 아래 그림 1에 나와 있습니다. 연구원들은 교사 모델에서 전체 인코더를 복사하여 학생 모델을 초기화하고 훈련 중에 동결했습니다. 그들은 OpenAI의 Whisper-medium.en 및 Whisper-large-v2 모델에서 첫 번째 및 마지막 디코더 레이어를 복사하고 증류 후 distil-medium.en이라는 이름의 2개의 디코더 체크포인트를 얻었습니다. Large-v2

은 표 3에 나와 있습니다.

데이터 측면에서 이 모델은 9개의 서로 다른 오픈 소스 데이터 세트에서 22,000시간 동안 훈련되었습니다(표 2 참조). 의사 태그는 Whisper에 의해 생성됩니다. WER 필터를 사용했으며 WER 점수가 10% 이상인 태그만 유지되었다는 점은 주목할 가치가 있습니다. 저자는 이것이 성능을 유지하는 열쇠라고 말합니다!

아래 표 5는 Distil-Whisper의 주요 성능 결과를 보여줍니다.

저자에 따르면, Distil-Whisper는 인코더의 작동을 정지시켜 소음에 대해 매우 견고한 성능을 발휘한다고 합니다. 아래 그림에 표시된 것처럼 Distil-Whisper는 시끄러운 조건에서 Whisper와 유사한 견고성 곡선을 따르며 Wav2vec2

와 같은 다른 모델보다 더 나은 성능을 발휘합니다. 긴 오디오 파일을 처리할 때 Whisper와 비교할 때 Distil-Whisper는 효과적으로 환각. 저자에 따르면 이는 주로 WER 필터링 때문이라고 합니다. 동일한 인코더를 공유함으로써 Distil-Whisper는 추측 디코딩을 위해 Whisper와 쌍을 이룰 수 있습니다. 결과적으로 Whisper와 정확히 동일한 출력을 생성하면서 매개변수가 8%만 증가하여 속도가 2배 향상되었습니다.

자세한 내용은 원문을 확인해주세요.

위 내용은 OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?May 01, 2025 am 11:18 AM

Meta는 NVIDIA, IBM 및 DELL과 같은 파트너와 함께 LLAMA 스택의 엔터프라이즈 수준 배포 통합을 확장했습니다. 보안 측면에서 Meta는 Llama Guard 4, Llamafirewall 및 Cyberseceval 4와 같은 새로운 도구를 출시했으며 AI 보안을 향상시키기 위해 LLAMA Defenders 프로그램을 시작했습니다. 또한 Meta는 공공 서비스, 건강 관리 및 교육을 개선하기 위해 노력하는 신생 기업을 포함하여 10 개의 글로벌 기관에 LLAMA Impact Grants의 150 만 달러를 배포했습니다. Llama 4에 의해 구동되는 새로운 Meta AI 응용 프로그램, Meta AI로 생각됩니다.

Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다May 01, 2025 am 11:17 AM

인간 -AI 상호 작용을 개척하는 회사 인 Joi AI는 이러한 진화하는 관계를 설명하기 위해 "AI-Lationships"라는 용어를 도입했습니다. Joi AI의 관계 치료사 인 Jaime Bronstein은 이것이 인간 C를 대체하는 것이 아니라는 것을 분명히합니다.

AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다May 01, 2025 am 11:16 AM

온라인 사기와 봇 공격은 비즈니스에 큰 도전을 제기합니다. 소매 업체는 봇과 싸우고, 은행은 전투 계정 인수 및 소셜 미디어 플랫폼이 사천자와 어려움을 겪고 있습니다. AI의 부상은이 문제를 악화시킨다

로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명May 01, 2025 am 11:15 AM

AI 에이전트는 마케팅에 혁명을 일으킬 준비가되어 있으며 이전 기술 변화의 영향을 능가 할 수 있습니다. 생성 AI의 상당한 발전을 나타내는이 에이전트는 Chatgpt와 같은 정보뿐만 아니라 Actio도 취합니다.

컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법May 01, 2025 am 11:14 AM

중요한 NBA 게임 4 결정에 대한 AI의 영향 두 가지 중추적 인 게임 4 NBA 매치업은 AI의 게임 변화 역할을 선보였습니다. 첫 번째로 덴버의 Nikola Jokic의 놓친 3 점은 Aaron Gordon의 마지막으로 골목길을 이끌었습니다. 소니의 매

AI가 재생 의학의 미래를 가속화하는 방법May 01, 2025 am 11:13 AM

전통적으로 전 세계적으로 재생 의학 전문 지식을 확장하여 광범위한 여행, 실습 교육 및 수년간의 멘토링을 요구했습니다. 이제 AI는이 환경을 변화시키고 지리적 한계를 극복하고 EN을 통한 진행 상황을 가속화하고 있습니다.

Intel Foundry Direct Connect 2025의 주요 테이크 아웃May 01, 2025 am 11:12 AM

인텔은 제조 공정을 선도적 인 위치로 반환하기 위해 노력하고 있으며 팹 반도체 고객을 유치하여 팹에서 칩을 만들려고 노력하고 있습니다. 이를 위해 인텔은 프로세스의 경쟁력을 증명할뿐만 아니라 파트너가 친숙하고 성숙한 워크 플로우, 일관되고 신뢰할 수있는 방식으로 칩을 제조 할 수 있음을 보여주기 위해 업계에 대한 신뢰를 더 많이 구축해야합니다. 오늘 내가 듣는 모든 것은 인텔 이이 목표를 향해 나아가고 있다고 믿게 만듭니다. 새로운 CEO 인 탄 리바이 (Tan Libai)의 기조 연설이 그 날을 시작했다. Tan Libai는 간단하고 간결합니다. 그는 Intel의 Foundry Services에서 몇 가지 과제를 간략하게 설명하고 회사가 이러한 과제를 해결하고 향후 인텔의 파운드리 서비스를위한 성공적인 경로를 계획하기 위해 취한 조치를 취했습니다. Tan Libai는 고객을 더 많이 만들기 위해 인텔의 OEM 서비스가 구현되는 과정에 대해 이야기했습니다.

ai 잘못 되었나요? 이제 보험이 있습니다May 01, 2025 am 11:11 AM

AI 위험과 관련된 점점 더 많은 문제를 해결하기 위해, 글로벌 특수 재보험 회사 인 Chaucer Group 및 Armilla AI는 TPL (Third-Party Liability) 보험 상품을 도입하기 위해 힘을 합쳤습니다. 이 정책은 비즈니스를 보호합니다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.