찾다
기술 주변기기일체 포함OpenAI의 Whisper 모델을 이용한 음성인식

OpenAI의 Whisper 모델을 이용한 음성인식

Apr 12, 2023 pm 05:28 PM
일체 포함음성 인식

음성 인식은 컴퓨터가 인간의 말을 이해하고 이를 텍스트로 변환할 수 있도록 하는 인공 지능 분야입니다. 이 기술은 Alexa 및 다양한 챗봇 애플리케이션과 같은 장치에 사용됩니다. 우리가 하는 가장 일반적인 일은 음성 전사인데, 이를 전사나 자막으로 변환할 수 있습니다.

OpenAI의 Whisper 모델을 이용한 음성인식

wav2vec2, Conformer 및 Hubert와 같은 최첨단 모델의 최근 개발로 음성 인식 분야가 크게 발전했습니다. 이러한 모델은 사람이 레이블을 지정한 데이터 없이 원시 오디오에서 학습하는 기술을 사용하므로 레이블이 지정되지 않은 음성의 대규모 데이터 세트를 효율적으로 사용할 수 있습니다. 또한 학술 지도 데이터 세트에서 사용되는 기존의 1,000시간을 훨씬 넘어 최대 1,000,000시간의 교육 데이터를 사용하도록 확장되었지만, 여러 데이터 세트 및 도메인에 걸쳐 지도 방식으로 사전 교육된 모델이 더 나은 견고성과 일반화를 수행하는 것으로 나타났습니다. 따라서 음성 인식과 같은 작업을 수행하려면 여전히 미세 조정이 필요하므로 잠재력을 최대한 발휘할 수 없습니다. 이 문제를 해결하기 위해 OpenAI는 약한 감독 방법을 활용하는 모델인 Whisper를 개발했습니다.

이 기사에서는 훈련에 사용되는 데이터 세트의 유형과 모델의 훈련 방법 및 Whisper 사용 방법에 대해 설명합니다.

Whisper 모델 소개

데이터 세트 사용:

Whisper 모델은 다음 데이터 세트에 있습니다. 96개 언어로 된 117,000시간의 음성과 "모든 언어"에서 영어로의 125,000시간의 번역 데이터를 포함하는 680,000시간의 라벨링된 오디오 데이터 교육. 이 모델은 인간이 생성한 텍스트가 아닌 다른 자동 음성 인식 시스템(ASR)을 통해 생성된 인터넷 생성 텍스트를 활용합니다. 또한 데이터세트에는 YouTube 동영상에서 추출하고 동영상 제목 및 설명의 언어를 기반으로 태그가 지정된 짧은 음성 클립 모음인 VoxLingua107에서 훈련된 언어 감지기가 포함되어 있으며 오탐지를 제거하기 위한 추가 단계도 포함되어 있습니다.

모델:

사용된 주요 구조는 인코더-디코더 구조입니다.

리샘플링: 16000Hz

특징 추출 방법: 25ms 창과 10ms 스트라이드를 사용하여 80채널 로그 Mel 스펙트로그램 표현을 계산합니다.

특성 정규화: 입력은 전역적으로 -1과 1 사이로 조정되며 사전 훈련된 데이터세트의 평균은 대략 0입니다.

인코더/디코더: 이 모델의 인코더와 디코더는 트랜스포머를 채택합니다.

인코더 프로세스:

인코더는 먼저 GELU 활성화 함수를 사용하여 두 개의 컨벌루션 레이어(필터 너비 3)가 포함된 스템을 사용하여 입력 표현을 처리합니다.

두 번째 컨벌루션 레이어의 스트라이드는 2입니다.

그런 다음 스템 출력에 정현파 위치 임베딩을 추가한 다음 인코더 변압기 블록을 적용합니다.

Transformers는 사전 활성화된 잔여 블록을 사용하고 인코더의 출력은 정규화 레이어를 사용하여 정규화됩니다.

모델 블록 다이어그램:

OpenAI의 Whisper 모델을 이용한 음성인식

디코딩 프로세스:

디코더에서는 학습 위치 임베딩 및 바인딩 입력 및 출력 마크 표현이 사용됩니다.

인코더와 디코더의 너비와 트랜스포머 블록 수는 동일합니다.

Training

모델의 크기 조정 속성을 개선하기 위해 다양한 입력 크기에 대해 학습합니다.

FP16, 동적 손실 확장 및 데이터 병렬 처리로 모델을 교육합니다.

AdamW 및 그래디언트 노름 클리핑을 사용하면 첫 번째 2048 업데이트를 준비한 후 선형 학습률이 0으로 감소합니다.

배치 크기 256을 사용하고 220개의 업데이트에 대해 모델을 훈련합니다. 이는 데이터 세트에 대한 2~3개의 정방향 전달에 해당합니다.

모델은 몇 epoch 동안만 훈련되었기 때문에 과적합은 중요한 문제가 아니었고 데이터 증대나 정규화 기술은 사용되지 않았습니다. 대신 일반화와 견고성을 촉진하기 위해 대규모 데이터 세트 내의 다양성에 의존합니다.

Whisper는 이전에 사용된 데이터 세트에서 우수한 정확성을 입증했으며 다른 최첨단 모델에 대해 테스트되었습니다.

장점:

  • Whisper는 실제 데이터뿐만 아니라 다른 모델에서 사용되는 데이터와 약한 감독 하에 훈련을 받았습니다.
  • 모델의 정확성은 인간 청취자를 대상으로 테스트되고 성능이 평가됩니다.
  • 무성음 영역을 감지하고 NLP 기술을 적용하여 대본에 구두점을 올바르게 입력합니다.
  • 이 모델은 확장 가능하며 비디오를 청크나 배치로 분할하지 않고 오디오 신호에서 스크립트를 추출할 수 있으므로 사운드가 누락될 위험이 줄어듭니다.
  • 이 모델은 다양한 데이터 세트에서 더 높은 정확도를 달성합니다.

Whisper를 다양한 데이터 세트에서 비교한 결과, wav2vec과 비교하여 지금까지 가장 낮은 단어 오류율을 달성했습니다

OpenAI의 Whisper 모델을 이용한 음성인식

모델은 timit 데이터세트에서 테스트되지 않았으므로 단어 오류율을 확인하기 위해 여기에서 Whisper를 사용하여 timit 데이터세트를 자체 검증하는 방법, 즉 Whisper를 사용하여 자체 음성 인식 애플리케이션을 구축하는 방법을 보여드리겠습니다.

음성 인식을 위한 속삭임 모델 사용

TIMIT Reading Speech Corpus는 음향 음성 연구와 자동 음성 인식 시스템의 개발 및 평가에 특별히 사용되는 음성 데이터 모음입니다. 여기에는 미국 영어의 8개 주요 방언에서 온 630명의 화자가 녹음된 내용이 포함되어 있으며, 각 화자는 음성적으로 풍부한 10개의 문장을 읽습니다. 코퍼스에는 각 음성에 대한 16비트, 16kHz 음성 파형 파일뿐만 아니라 시간 정렬된 철자법, 발음 기호 및 단어 표기가 포함되어 있습니다. 이 코퍼스는 MIT(매사추세츠 공과대학), SRI International(SRI) 및 Texas Instruments(TI)가 개발했습니다. TIMIT 코퍼스 전사본은 음성 및 방언 범위의 균형을 맞추기 위해 지정된 테스트 및 교육 하위 집합을 사용하여 수동으로 확인되었습니다.

설치:

!pip install git+https://github.com/openai/whisper.git
 !pip install jiwer
 !pip install datasets==1.18.3

첫 번째 명령은 속삭임 모델에 필요한 모든 종속성을 설치합니다. jiwer는 텍스트 오류율 패키지를 다운로드하는 데 사용됩니다. 데이터 세트는 Hugface에서 제공됩니다.

라이브러리 가져오기

import whisper
 from pytube import YouTube
 from glob import glob
 import os
 import pandas as pd
 from tqdm.notebook import tqdm

timit 데이터 세트 로드

from datasets import load_dataset, load_metric
 
 timit = load_dataset("timit_asr")

다양한 모델 크기에서 단어 오류율 계산

영어 데이터와 영어가 아닌 데이터를 필터링해야 하는 필요성을 고려하여 여기에서는 대신 다중 언어 모델을 사용하기로 선택합니다. 영어 디자인 모델을 위해 특별히 제작되었습니다.

하지만 TIMIT 데이터 세트는 순수 영어이기 때문에 동일한 언어 감지 및 인식 프로세스를 적용해야 합니다. 또한 TIMIT 데이터 세트는 훈련 세트와 검증 세트로 나누어져 있어 직접 사용할 수 있습니다.

Whisper를 사용하려면 먼저 다양한 모델의 매개변수, 크기 및 속도를 이해해야 합니다.

OpenAI의 Whisper 모델을 이용한 음성인식

Loading model

model = whisper.load_model('tiny')

tiny는 위에서 언급한 모델명으로 대체 가능합니다.

언어 감지기를 정의하는 함수

def lan_detector(audio_file):
 print('reading the audio file')
 audio = whisper.load_audio(audio_file)
 audio = whisper.pad_or_trim(audio)
 mel = whisper.log_mel_spectrogram(audio).to(model.device)
 _, probs = model.detect_language(mel)
 if max(probs, key=probs.get) == 'en':
 return True
 return False

음성을 텍스트로 변환하는 함수

def speech2text(audio_file):
 text = model.transcribe(audio_file)
 return text["text"]

위 함수를 다양한 모델 크기에서 실행했을 때, timit training과 test를 통해 얻은 단어 오류율은 다음과 같습니다.

OpenAI의 Whisper 모델을 이용한 음성인식

u2b Speech

에서 번역됨 다른 음성 인식 모델과 비교하여 Whisper는 음성을 인식할 수 있을 뿐만 아니라 사람의 음성에 있는 구두점과 억양을 해석하고 적절한 구두점을 삽입할 수 있습니다. 아래 테스트에 u2b의 영상을 사용하겠습니다.

여기에는 오디오를 쉽게 다운로드하고 추출하는 데 도움이 되는 pytube 패키지가 필요합니다.

def youtube_audio(link):
 youtube_1 = YouTube(link)
 videos = youtube_1.streams.filter(only_audio=True)
 
 name = str(link.split('=')[-1])
 out_file = videos[0].download(name)

 link = name.split('=')[-1]
 new_filename = link+".wav"
 print(new_filename)
 os.rename(out_file, new_filename)
 print(name)
 return new_filename,link

wav 파일을 얻은 후 위 기능을 적용하여 텍스트를 추출할 수 있습니다.

요약

이 글의 코드는 여기에 있습니다

https://drive.google.com/file/d/1FejhGseX_S1Ig_Y5nIPn1OcHN8DLFGIO/view

Whisper로 완료할 수 있는 작업은 많습니다. 직접 시도해 볼 수 있습니다. 이 기사의 코드에.

위 내용은 OpenAI의 Whisper 모델을 이용한 음성인식의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다.10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다.Apr 13, 2025 am 01:14 AM

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - ’

요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법Apr 12, 2025 pm 12:09 PM

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서Apr 12, 2025 pm 12:00 PM

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서Apr 12, 2025 am 11:58 AM

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Apr 12, 2025 am 11:52 AM

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.Apr 12, 2025 am 11:51 AM

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

생성 AI는 사이코브블을 만난다생성 AI는 사이코브블을 만난다Apr 12, 2025 am 11:50 AM

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 ​​할 일

프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다Apr 12, 2025 am 11:49 AM

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.