찾다
기술 주변기기일체 포함OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.

최근 'Taylor Swift 과시 중국어' 영상이 주요 소셜 미디어에서 빠르게 인기를 끌었고, 이후 'Guo Degang 과시 영어' 등 유사한 영상이 등장했습니다. 이러한 영상 중 다수는 "HeyGen"이라는 인공지능 애플리케이션으로 제작됩니다. 그러나 HeyGen의 현재 인기로 판단할 때 이를 사용하여 유사한 영상을 제작하는 데는 오랜 시간이 걸릴 수 있습니다. 다행히도 이것이 그것을 만드는 유일한 방법은 아닙니다. 기술을 이해하는 친구들은 음성-텍스트 모델 Whisper, 텍스트 번역 GPT, 음성 복제 + 오디오 생성 so-vits-svc, 오디오 GeneFace++dengdeng과 일치하는 입 모양 비디오 생성과 같은 다른 대안을 찾을 수도 있습니다.

다시 작성된 내용은 다음과 같습니다. 그 중 위스퍼(Whisper)는 OpenAI가 개발, 오픈소스화한 자동음성인식(ASR) 모델로 사용이 매우 간편하다. 그들은 웹에서 수집한 680,000시간의 다국어(98개 언어) 및 다중 작업 감독 데이터에 대해 Whisper를 교육했습니다. OpenAI는 이렇게 크고 다양한 데이터 세트를 사용하면 악센트, 배경 소음 및 기술 용어를 인식하는 모델의 능력을 향상시킬 수 있다고 믿습니다. 음성 인식 외에도 Whisper는 여러 언어를 전사하고 해당 언어를 영어로 번역할 수도 있습니다. 현재 Whisper에는 많은 변형이 있으며 많은 AI 애플리케이션을 구축할 때 필수 구성 요소가 되었습니다

최근 HuggingFace 팀은 새로운 변형인 Distil-Whisper를 제안했습니다. 이 변형은 작은 크기, 빠른 속도 및 매우 높은 정확도가 특징인 Whisper 모델의 증류된 버전으로, 짧은 대기 시간이 필요하거나 리소스가 제한된 환경에서 사용하기에 이상적입니다. 그러나 여러 언어를 처리할 수 있는 원래 Whisper 모델과 달리 Distil-Whisper는 영어

Paper 링크: https://arxiv.org/pdf/2311.00430.pdfOpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.

Specific 및 In만 처리할 수 있습니다. 즉, Distil-Whisper에는 매개변수 크기가 756M(distil-large-v2)과 394M(distil-medium.en)인 두 가지 버전이 있습니다. OpenAI의 Whisper-large-v2와 비교하면 756M 버전은 distil의 매개변수 수입니다. -large-v2는 절반 이상 감소했지만 6배의 가속도를 달성했으며 정확도는 Whisper-large-v2에 매우 가깝습니다. 짧은 오디오의 WER(Word Error Rate) 차이는 1% 이내입니다. 긴 오디오에서는 Whisper-large-v2보다 훨씬 좋습니다. 신중한 데이터 선택과 필터링을 통해 Whisper의 견고성은 유지되고 환각이 줄어들기 때문입니다.

Whisper 웹 버전의 속도는 Distil-Whisper와 직관적으로 비교됩니다. 이미지 출처: https://twitter.com/xenovacom/status/1720460890560975103

OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.

그래서 출시된 지 2~3일밖에 안 됐음에도 불구하고 Distil-Whisper는 이미 별 천개를 넘어섰습니다. OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.

OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.프로젝트 주소: https://github.com/huggingface/distil-whisper#1-usage


  • 모델 주소: https://huggingface.co/models ? 기타 = ARXIV : 2311.00430 덧셈에서, 테스트 결과에 따르면 Distil-Whisper는 150 분의 오디오를 처리 할 때 더 빠른 whisper보다 2.5 배 빠를 수 있음을 보여줍니다. 링크는 다음과 같습니다: https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper그렇다면 어떻게 이렇게 좋은 결과를 얻을 수 있을까요? 논문의 저자는 의사 라벨링 기술을 사용하여 대규모 오픈 소스 데이터 세트를 구축한 다음 이 데이터 세트를 사용하여 Whisper 모델을 Distil-Whisper로 압축했다고 밝혔습니다. 그들은 간단한 WER 휴리스틱을 사용하고 훈련을 위해 최고 품질의 의사 레이블만 선택합니다
  • 다음은 원본 콘텐츠를 다시 작성한 것입니다. Distil-Whisper의 아키텍처는 아래 그림 1에 나와 있습니다. 연구원들은 교사 모델에서 전체 인코더를 복사하여 학생 모델을 초기화하고 훈련 중에 동결했습니다. 그들은 OpenAI의 Whisper-medium.en 및 Whisper-large-v2 모델에서 첫 번째 및 마지막 디코더 레이어를 복사하고 증류 후 distil-medium.en이라는 이름의 2개의 디코더 체크포인트를 얻었습니다. Large-v2

    OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.

    은 표 3에 나와 있습니다.

    OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.

    데이터 측면에서 이 모델은 9개의 서로 다른 오픈 소스 데이터 세트에서 22,000시간 동안 훈련되었습니다(표 2 참조). 의사 태그는 Whisper에 의해 생성됩니다. WER 필터를 사용했으며 WER 점수가 10% 이상인 태그만 유지되었다는 점은 주목할 가치가 있습니다. 저자는 이것이 성능을 유지하는 열쇠라고 말합니다!

    OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.

    아래 표 5는 Distil-Whisper의 주요 성능 결과를 보여줍니다.

    OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.

    저자에 따르면, Distil-Whisper는 인코더의 작동을 정지시켜 소음에 대해 매우 견고한 성능을 발휘한다고 합니다. 아래 그림에 표시된 것처럼 Distil-Whisper는 시끄러운 조건에서 Whisper와 유사한 견고성 곡선을 따르며 Wav2vec2

    OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.

    와 같은 다른 모델보다 더 나은 성능을 발휘합니다. 긴 오디오 파일을 처리할 때 Whisper와 비교할 때 Distil-Whisper는 효과적으로 환각. 저자에 따르면 이는 주로 WER 필터링 때문이라고 합니다. 동일한 인코더를 공유함으로써 Distil-Whisper는 추측 디코딩을 위해 Whisper와 쌍을 이룰 수 있습니다. 결과적으로 Whisper와 정확히 동일한 출력을 생성하면서 매개변수가 8%만 증가하여 속도가 2배 향상되었습니다.

    자세한 내용은 원문을 확인해주세요.

위 내용은 OpenAI의 Whisper 증류 이후 음성 인식 속도가 크게 향상되어 이틀 만에 별 수가 1,000개를 넘었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?May 01, 2025 am 11:18 AM

Meta는 NVIDIA, IBM 및 DELL과 같은 파트너와 함께 LLAMA 스택의 엔터프라이즈 수준 배포 통합을 확장했습니다. 보안 측면에서 Meta는 Llama Guard 4, Llamafirewall 및 Cyberseceval 4와 같은 새로운 도구를 출시했으며 AI 보안을 향상시키기 위해 LLAMA Defenders 프로그램을 시작했습니다. 또한 Meta는 공공 서비스, 건강 관리 및 교육을 개선하기 위해 노력하는 신생 기업을 포함하여 10 개의 글로벌 기관에 LLAMA Impact Grants의 150 만 달러를 배포했습니다. Llama 4에 의해 구동되는 새로운 Meta AI 응용 프로그램, Meta AI로 생각됩니다.

Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다May 01, 2025 am 11:17 AM

인간 -AI 상호 작용을 개척하는 회사 인 Joi AI는 이러한 진화하는 관계를 설명하기 위해 "AI-Lationships"라는 용어를 도입했습니다. Joi AI의 관계 치료사 인 Jaime Bronstein은 이것이 인간 C를 대체하는 것이 아니라는 것을 분명히합니다.

AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다May 01, 2025 am 11:16 AM

온라인 사기와 봇 공격은 비즈니스에 큰 도전을 제기합니다. 소매 업체는 봇과 싸우고, 은행은 전투 계정 인수 및 소셜 미디어 플랫폼이 사천자와 어려움을 겪고 있습니다. AI의 부상은이 문제를 악화시킨다

로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명May 01, 2025 am 11:15 AM

AI 에이전트는 마케팅에 혁명을 일으킬 준비가되어 있으며 이전 기술 변화의 영향을 능가 할 수 있습니다. 생성 AI의 상당한 발전을 나타내는이 에이전트는 Chatgpt와 같은 정보뿐만 아니라 Actio도 취합니다.

컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법May 01, 2025 am 11:14 AM

중요한 NBA 게임 4 결정에 대한 AI의 영향 두 가지 중추적 인 게임 4 NBA 매치업은 AI의 게임 변화 역할을 선보였습니다. 첫 번째로 덴버의 Nikola Jokic의 놓친 3 점은 Aaron Gordon의 마지막으로 골목길을 이끌었습니다. 소니의 매

AI가 재생 의학의 미래를 가속화하는 방법AI가 재생 의학의 미래를 가속화하는 방법May 01, 2025 am 11:13 AM

전통적으로 전 세계적으로 재생 의학 전문 지식을 확장하여 광범위한 여행, 실습 교육 및 수년간의 멘토링을 요구했습니다. 이제 AI는이 환경을 변화시키고 지리적 한계를 극복하고 EN을 통한 진행 상황을 가속화하고 있습니다.

Intel Foundry Direct Connect 2025의 주요 테이크 아웃Intel Foundry Direct Connect 2025의 주요 테이크 아웃May 01, 2025 am 11:12 AM

인텔은 제조 공정을 선도적 인 위치로 반환하기 위해 노력하고 있으며 팹 반도체 고객을 유치하여 팹에서 칩을 만들려고 노력하고 있습니다. 이를 위해 인텔은 프로세스의 경쟁력을 증명할뿐만 아니라 파트너가 친숙하고 성숙한 워크 플로우, 일관되고 신뢰할 수있는 방식으로 칩을 제조 할 수 있음을 보여주기 위해 업계에 대한 신뢰를 더 많이 구축해야합니다. 오늘 내가 듣는 모든 것은 인텔 이이 목표를 향해 나아가고 있다고 믿게 만듭니다. 새로운 CEO 인 탄 리바이 (Tan Libai)의 기조 연설이 그 날을 시작했다. Tan Libai는 간단하고 간결합니다. 그는 Intel의 Foundry Services에서 몇 가지 과제를 간략하게 설명하고 회사가 이러한 과제를 해결하고 향후 인텔의 파운드리 서비스를위한 성공적인 경로를 계획하기 위해 취한 조치를 취했습니다. Tan Libai는 고객을 더 많이 만들기 위해 인텔의 OEM 서비스가 구현되는 과정에 대해 이야기했습니다.

ai 잘못 되었나요? 이제 보험이 있습니다ai 잘못 되었나요? 이제 보험이 있습니다May 01, 2025 am 11:11 AM

AI 위험과 관련된 점점 더 많은 문제를 해결하기 위해, 글로벌 특수 재보험 회사 인 Chaucer Group 및 Armilla AI는 TPL (Third-Party Liability) 보험 상품을 도입하기 위해 힘을 합쳤습니다. 이 정책은 비즈니스를 보호합니다

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구