음성 인식은 컴퓨터가 인간의 말을 이해하고 이를 텍스트로 변환할 수 있도록 하는 인공 지능 분야입니다. 이 기술은 Alexa 및 다양한 챗봇 애플리케이션과 같은 장치에 사용됩니다. 우리가 하는 가장 일반적인 일은 음성 전사인데, 이를 전사나 자막으로 변환할 수 있습니다.
wav2vec2, Conformer 및 Hubert와 같은 최첨단 모델의 최근 개발로 음성 인식 분야가 크게 발전했습니다. 이러한 모델은 사람이 레이블을 지정한 데이터 없이 원시 오디오에서 학습하는 기술을 사용하므로 레이블이 지정되지 않은 음성의 대규모 데이터 세트를 효율적으로 사용할 수 있습니다. 또한 학술 지도 데이터 세트에서 사용되는 기존의 1,000시간을 훨씬 넘어 최대 1,000,000시간의 교육 데이터를 사용하도록 확장되었지만, 여러 데이터 세트 및 도메인에 걸쳐 지도 방식으로 사전 교육된 모델이 더 나은 견고성과 일반화를 수행하는 것으로 나타났습니다. 따라서 음성 인식과 같은 작업을 수행하려면 여전히 미세 조정이 필요하므로 잠재력을 최대한 발휘할 수 없습니다. 이 문제를 해결하기 위해 OpenAI는 약한 감독 방법을 활용하는 모델인 Whisper를 개발했습니다.
이 기사에서는 훈련에 사용되는 데이터 세트의 유형과 모델의 훈련 방법 및 Whisper 사용 방법에 대해 설명합니다.
Whisper 모델 소개
데이터 세트 사용:
Whisper 모델은 다음 데이터 세트에 있습니다. 96개 언어로 된 117,000시간의 음성과 "모든 언어"에서 영어로의 125,000시간의 번역 데이터를 포함하는 680,000시간의 라벨링된 오디오 데이터 교육. 이 모델은 인간이 생성한 텍스트가 아닌 다른 자동 음성 인식 시스템(ASR)을 통해 생성된 인터넷 생성 텍스트를 활용합니다. 또한 데이터세트에는 YouTube 동영상에서 추출하고 동영상 제목 및 설명의 언어를 기반으로 태그가 지정된 짧은 음성 클립 모음인 VoxLingua107에서 훈련된 언어 감지기가 포함되어 있으며 오탐지를 제거하기 위한 추가 단계도 포함되어 있습니다.
모델:
사용된 주요 구조는 인코더-디코더 구조입니다.
리샘플링: 16000Hz
특징 추출 방법: 25ms 창과 10ms 스트라이드를 사용하여 80채널 로그 Mel 스펙트로그램 표현을 계산합니다.
특성 정규화: 입력은 전역적으로 -1과 1 사이로 조정되며 사전 훈련된 데이터세트의 평균은 대략 0입니다.
인코더/디코더: 이 모델의 인코더와 디코더는 트랜스포머를 채택합니다.
인코더 프로세스:
인코더는 먼저 GELU 활성화 함수를 사용하여 두 개의 컨벌루션 레이어(필터 너비 3)가 포함된 스템을 사용하여 입력 표현을 처리합니다.
두 번째 컨벌루션 레이어의 스트라이드는 2입니다.
그런 다음 스템 출력에 정현파 위치 임베딩을 추가한 다음 인코더 변압기 블록을 적용합니다.
Transformers는 사전 활성화된 잔여 블록을 사용하고 인코더의 출력은 정규화 레이어를 사용하여 정규화됩니다.
모델 블록 다이어그램:
디코딩 프로세스:
디코더에서는 학습 위치 임베딩 및 바인딩 입력 및 출력 마크 표현이 사용됩니다.
인코더와 디코더의 너비와 트랜스포머 블록 수는 동일합니다.
Training
모델의 크기 조정 속성을 개선하기 위해 다양한 입력 크기에 대해 학습합니다.
FP16, 동적 손실 확장 및 데이터 병렬 처리로 모델을 교육합니다.
AdamW 및 그래디언트 노름 클리핑을 사용하면 첫 번째 2048 업데이트를 준비한 후 선형 학습률이 0으로 감소합니다.
배치 크기 256을 사용하고 220개의 업데이트에 대해 모델을 훈련합니다. 이는 데이터 세트에 대한 2~3개의 정방향 전달에 해당합니다.
모델은 몇 epoch 동안만 훈련되었기 때문에 과적합은 중요한 문제가 아니었고 데이터 증대나 정규화 기술은 사용되지 않았습니다. 대신 일반화와 견고성을 촉진하기 위해 대규모 데이터 세트 내의 다양성에 의존합니다.
Whisper는 이전에 사용된 데이터 세트에서 우수한 정확성을 입증했으며 다른 최첨단 모델에 대해 테스트되었습니다.
장점:
- Whisper는 실제 데이터뿐만 아니라 다른 모델에서 사용되는 데이터와 약한 감독 하에 훈련을 받았습니다.
- 모델의 정확성은 인간 청취자를 대상으로 테스트되고 성능이 평가됩니다.
- 무성음 영역을 감지하고 NLP 기술을 적용하여 대본에 구두점을 올바르게 입력합니다.
- 이 모델은 확장 가능하며 비디오를 청크나 배치로 분할하지 않고 오디오 신호에서 스크립트를 추출할 수 있으므로 사운드가 누락될 위험이 줄어듭니다.
- 이 모델은 다양한 데이터 세트에서 더 높은 정확도를 달성합니다.
Whisper를 다양한 데이터 세트에서 비교한 결과, wav2vec과 비교하여 지금까지 가장 낮은 단어 오류율을 달성했습니다
모델은 timit 데이터세트에서 테스트되지 않았으므로 단어 오류율을 확인하기 위해 여기에서 Whisper를 사용하여 timit 데이터세트를 자체 검증하는 방법, 즉 Whisper를 사용하여 자체 음성 인식 애플리케이션을 구축하는 방법을 보여드리겠습니다.
음성 인식을 위한 속삭임 모델 사용
TIMIT Reading Speech Corpus는 음향 음성 연구와 자동 음성 인식 시스템의 개발 및 평가에 특별히 사용되는 음성 데이터 모음입니다. 여기에는 미국 영어의 8개 주요 방언에서 온 630명의 화자가 녹음된 내용이 포함되어 있으며, 각 화자는 음성적으로 풍부한 10개의 문장을 읽습니다. 코퍼스에는 각 음성에 대한 16비트, 16kHz 음성 파형 파일뿐만 아니라 시간 정렬된 철자법, 발음 기호 및 단어 표기가 포함되어 있습니다. 이 코퍼스는 MIT(매사추세츠 공과대학), SRI International(SRI) 및 Texas Instruments(TI)가 개발했습니다. TIMIT 코퍼스 전사본은 음성 및 방언 범위의 균형을 맞추기 위해 지정된 테스트 및 교육 하위 집합을 사용하여 수동으로 확인되었습니다.
설치:
!pip install git+https://github.com/openai/whisper.git !pip install jiwer !pip install datasets==1.18.3
첫 번째 명령은 속삭임 모델에 필요한 모든 종속성을 설치합니다. jiwer는 텍스트 오류율 패키지를 다운로드하는 데 사용됩니다. 데이터 세트는 Hugface에서 제공됩니다.
라이브러리 가져오기
import whisper from pytube import YouTube from glob import glob import os import pandas as pd from tqdm.notebook import tqdm
timit 데이터 세트 로드
from datasets import load_dataset, load_metric timit = load_dataset("timit_asr")
다양한 모델 크기에서 단어 오류율 계산
영어 데이터와 영어가 아닌 데이터를 필터링해야 하는 필요성을 고려하여 여기에서는 대신 다중 언어 모델을 사용하기로 선택합니다. 영어 디자인 모델을 위해 특별히 제작되었습니다.
하지만 TIMIT 데이터 세트는 순수 영어이기 때문에 동일한 언어 감지 및 인식 프로세스를 적용해야 합니다. 또한 TIMIT 데이터 세트는 훈련 세트와 검증 세트로 나누어져 있어 직접 사용할 수 있습니다.
Whisper를 사용하려면 먼저 다양한 모델의 매개변수, 크기 및 속도를 이해해야 합니다.
Loading model
model = whisper.load_model('tiny')
tiny는 위에서 언급한 모델명으로 대체 가능합니다.
언어 감지기를 정의하는 함수
def lan_detector(audio_file): print('reading the audio file') audio = whisper.load_audio(audio_file) audio = whisper.pad_or_trim(audio) mel = whisper.log_mel_spectrogram(audio).to(model.device) _, probs = model.detect_language(mel) if max(probs, key=probs.get) == 'en': return True return False
음성을 텍스트로 변환하는 함수
def speech2text(audio_file): text = model.transcribe(audio_file) return text["text"]
위 함수를 다양한 모델 크기에서 실행했을 때, timit training과 test를 통해 얻은 단어 오류율은 다음과 같습니다.
u2b Speech
에서 번역됨 다른 음성 인식 모델과 비교하여 Whisper는 음성을 인식할 수 있을 뿐만 아니라 사람의 음성에 있는 구두점과 억양을 해석하고 적절한 구두점을 삽입할 수 있습니다. 아래 테스트에 u2b의 영상을 사용하겠습니다.
여기에는 오디오를 쉽게 다운로드하고 추출하는 데 도움이 되는 pytube 패키지가 필요합니다.
def youtube_audio(link): youtube_1 = YouTube(link) videos = youtube_1.streams.filter(only_audio=True) name = str(link.split('=')[-1]) out_file = videos[0].download(name) link = name.split('=')[-1] new_filename = link+".wav" print(new_filename) os.rename(out_file, new_filename) print(name) return new_filename,link
wav 파일을 얻은 후 위 기능을 적용하여 텍스트를 추출할 수 있습니다.
요약
이 글의 코드는 여기에 있습니다
https://drive.google.com/file/d/1FejhGseX_S1Ig_Y5nIPn1OcHN8DLFGIO/view
Whisper로 완료할 수 있는 작업은 많습니다. 직접 시도해 볼 수 있습니다. 이 기사의 코드에.
위 내용은 OpenAI의 Whisper 모델을 이용한 음성인식의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - ’

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 할 일

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.
