Google AudioPaLM은 말하기와 듣기 모두를 위한 대규모 모델인 '텍스트 + 오디오' 이중 모달 솔루션을 구현합니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

Google AudioPaLM은 말하기와 듣기 모두를 위한 대규모 모델인 '텍스트 + 오디오' 이중 모달 솔루션을 구현합니다.

PHPz

Jun 30, 2023 pm 01:49 PM

Google모델

강력한 성능과 다양성을 갖춘 대규모 언어 모델은 오디오, 비디오 등과 같은 다양한 다중 모드 대형 모델의 개발을 주도해 왔습니다.

언어 모델의 기본 아키텍처는 대부분 Transformer와 주로 디코더를 기반으로 하므로 모델 아키텍처를 너무 많이 조정하지 않고도 다른 시퀀스 양식에 적용할 수 있습니다.

최근 Google은 텍스트와 오디오 토큰을 다중 모드 공동 어휘로 병합하고 이를 다양한 작업 설명 태그와 결합하여 음성과 텍스트의 혼합을 달성하는 통합 음성 텍스트 모델 AudioPaLM을 출시했습니다. 음성인식(ASR), 텍스트-음성 합성, 자동 음성 번역(AST), 음성-음성 번역(S2ST) 등 작업에 대한 모델만 제공하여 전통적으로 이종 모델이 해결했던 작업을 하나의 아키텍처로 통합합니다. 그리고 훈련 과정.

Google AudioPaLM은 말하기와 듣기 모두를 위한 대규모 모델인 텍스트 + 오디오 이중 모달 솔루션을 구현합니다. Pictures

문서 링크: https://arxiv.org/pdf/2306.12925.pdf

예제 링크: https://google-research.github.io/seanet/audiopalm/examples /

또한 AudioPaLM의 기본 아키텍처는 텍스트에 대해 사전 훈련된 대규모 언어 모델의 가중치로 초기화할 수 있는 대규모 Transformer 모델이므로 PaLM과 같은 모델의 언어 지식을 활용할 수 있습니다. .

구현 결과 측면에서 AudioPaLM은 AST 및 S2ST 벤치마크에서 최고 수준의 결과를 달성했으며, ASR 벤치마크에서의 성능은 다른 모델과 비슷합니다.

AudioLM의 오디오 신호를 활용함으로써 AudioPaLM 모델은 음성 품질 및 음성 보존 측면에서 기존 방법을 능가하는 새로운 화자 음성 마이그레이션에 대해 S2ST를 수행할 수 있습니다.

AudioPaLM 모델에는 훈련에서 볼 수 없는 음성 입력/대상 언어 조합에 대한 AST 작업을 수행하는 제로샷 기능도 있습니다.

AudioPaLM

연구원들은 텍스트와 음성 토큰을 모델링하기 위해 디코더 전용 Transformer 모델을 사용합니다. 텍스트와 오디오는 모델에 입력되기 전에 분할되었으므로 입력은 단지 정수 시퀀스입니다. 출력 끝 그런 다음 토큰화 해제 작업을 수행하고 이를 사용자에게 반환합니다.

Google AudioPaLM은 말하기와 듣기 모두를 위한 대규모 모델인 텍스트 + 오디오 이중 모달 솔루션을 구현합니다. Pictures

오디오 임베딩 및 단어 분할

원래 오디오 파형을 토큰으로 변환하는 과정에는 기존 음성 표현 모델에서 임베딩을 추출하는 과정과 임베딩을 제한된 세트로 분할하는 과정이 포함됩니다. of audio tokens

이전 작업에서 우리는 w2v-BERT 모델에서 임베딩을 추출하고 k-평균을 통해 이를 양자화했습니다. 이 논문에서 연구원들은 세 가지 방식으로 실험했습니다.

w2v-BERT: w2v 사용 - 순수한 영어가 아닌 다국어 데이터로 훈련된 BERT 모델, k-평균 클러스터링 전에 정규화 처리가 수행되지 않습니다. 그렇지 않으면 다국어 환경에서 문제가 발생할 수 있습니다. 중간 성능이 저하됩니다. 그런 다음 어휘 크기가 1024

USM-v1인 25Hz 속도로 토큰을 생성합니다. 더 강력한 20억 매개변수 USM(Universal Speech Model) 인코더를 사용하여 유사한 작업을 수행하고 중간 계층에서 임베딩을 추출합니다.

USM-v2: 보조 ASR 손실로 훈련되었으며 여러 언어를 지원하도록 더욱 미세 조정되었습니다.

텍스트 전용 디코더 수정

Transfomrer 디코더 구조에서는 입력 및 최종 소프트맥스 출력 레이어를 제외하고 모델링 토큰 수는 관련되지 않으며 PaLM 아키텍처에서는 , 입력 및 출력 행렬의 가중치 변수는 공유됩니다. 즉, 서로 전치됩니다.

따라서 순수 텍스트 모델을 텍스트와 오디오를 모두 시뮬레이션할 수 있는 모델로 바꾸려면 임베딩 행렬의 크기를 (t × m)에서 (t+a) ×m으로 확장하기만 하면 됩니다. 여기서 t는 텍스트 어휘의 크기, a는 오디오 어휘의 크기, m은 임베딩 차원입니다.

사전 훈련된 텍스트 모델을 활용하기 위해 연구원들은 임베딩 매트릭스에 새로운 행을 추가하여 기존 모델의 체크포인트를 변경했습니다.

구체적인 구현은 첫 번째 t 토큰이 SentencePiece 텍스트 태그에 해당하고 다음 a 토큰이 오디오 태그를 나타낸다는 것입니다. 텍스트 임베딩은 사전 훈련된 가중치를 재사용하지만 오디오 임베딩은 새로 초기화되어야 합니다. 훈련을 받았습니다.

실험 결과에 따르면 처음부터 재교육하는 것과 비교할 때 텍스트 기반 사전 교육 모델은 음성 및 텍스트의 다중 모드 작업 성능을 향상시키는 데 매우 유익합니다.

오디오 토큰을 네이티브 오디오로 디코딩

오디오 토큰에서 오디오 파형을 합성하기 위해 연구원들은 두 가지 방법을 실험했습니다.

1 AudioLM 모델과 유사한 자동 회귀 디코딩.

2. SoundStorm 모델과 유사한 비자동회귀 디코딩

두 가지 방법 모두 먼저 SoundStream 토큰을 생성한 다음 컨벌루션 디코더를 사용하여 오디오 파형으로 변환해야 합니다.

다국어 LibriSpeech에 대한 교육을 받은 연구원들은 음성 조건으로 오디오 토큰과 SoundStream 토큰으로 표현되는 3초 길이의 음성 샘플을 제공합니다.

원래 입력 음성의 일부를 음성 조건으로 제공하여 모델 인간의 음성이 다른 언어로 번역될 때 원래 화자의 음성이 유지됩니다. 원래 오디오가 3초 미만인 경우 반복 재생을 통해 공백 시간을 채웁니다.

훈련 작업

사용된 훈련 데이터 세트는 모두 음성 텍스트 데이터입니다:

1. 오디오: 원어 음성(음성)

2. 스크립트 : 오디오 데이터의 음성 전사

3. 번역된 오디오 번역된 오디오: 오디오의 음성 번역

4. 번역된 대본: 오디오 음성의 서면 번역

구성 요소 작업은 다음과 같습니다. 음성 번역): 오디오를 번역하여 번역된 오디오를 얻습니다.

4. TTS(텍스트 음성 변환): 텍스트로 변환된 콘텐츠를 읽어 오디오를 얻습니다.

5. MT(Text-to-Text Machine Translation): 번역된 사본을 얻기 위해 사본을 번역합니다.

데이터세트는 여러 작업에 사용될 수 있으므로 연구원은 모델에 신호를 보내 어떤 작업을 수행할지 선택했습니다. 주어진 입력에 대해 모델이 수행해야 하는 사항은 입력 앞에 레이블을 추가하여 지정하고, 작업의 영어 이름과 입력 언어를 지정하는 것도 가능합니다.

예를 들어 모델이 프랑스어 코퍼스에서 ASR을 수행하도록 하려면 단어 분할 후 오디오 입력 앞에 [ASR French] 레이블을 추가해야 영어로 TTS 작업을 수행할 수 있습니다. [TTS English] 텍스트 앞에는 영어에서 프랑스어로 S2ST 작업을 수행하기 위해 분할된 영어 오디오 앞에 [S2ST English French]

Training Mix

을 사용했습니다. 훈련 데이터를 혼합하기 위한 SeqIO 라이브러리, 더 큰 데이터 세트는 가중치 감소를 거칩니다.

PicturesExperimental part

Pictures

AudioPaLM은 ASR의 성능이 최적은 아니지만 효과도 매우 좋습니다.

Google AudioPaLM은 말하기와 듣기 모두를 위한 대규모 모델인 텍스트 + 오디오 이중 모달 솔루션을 구현합니다. 연구진은 음성 콘텐츠의 번역 품질을 평가하는 것 외에도 AudioPaLM에서 생성된 언어의 품질이 충분히 높은지, 다른 언어로 번역할 때 화자의 음성이 유지되는지도 평가했습니다.

Google AudioPaLM은 말하기와 듣기 모두를 위한 대규모 모델인 텍스트 + 오디오 이중 모달 솔루션을 구현합니다. 객관적 지표

오디오 샘플이 제공될 때 참조 없는 MOS 추정기와 유사한 것을 사용하면 인지된 오디오 품질을 1에서 5까지의 범위로 추정할 수 있습니다.

언어 간 음성 전달 품질을 측정하기 위해 연구원들은 기성 화자 검증 모델을 사용하고 소스(SoundStream으로 인코딩/디코딩됨)와 번역된 음성 임베딩 간의 코사인 유사성을 계산했습니다. 소스 오디오의 음향 특성에서 대상 오디오(녹음 조건, 배경 소음)까지의 임베딩입니다.

주관적 평가

연구원들은 두 연구에서 동일한 샘플 세트를 사용하여 생성된 음성 품질과 음성 유사성을 평가하기 위해 두 가지 독립적인 연구를 수행했습니다.

말뭉치의 품질이 고르지 않기 때문에 일부에는 큰 소리로 겹치는 음성(예: 배경에서 재생되는 TV 프로그램 또는 노래) 또는 매우 강한 소음(예: 마이크에 옷이 마찰하는 소리)이 포함되어 있습니다. 인간 평가자의 업무가 복잡했기 때문에 연구원들은 MOS 추정치가 3.0 이상인 입력만 선택하여 사전 필터링하기로 결정했습니다.

등급은 1점(품질이 좋지 않거나 사운드가 완전히 다름)부터 5점(품질은 좋음, 사운드는 동일)까지 5점 척도로 제공됩니다.

Google AudioPaLM은 말하기와 듣기 모두를 위한 대규모 모델인 텍스트 + 오디오 이중 모달 솔루션을 구현합니다. Pictures

AudioPaLM은 객관적 측정과 주관적 측정 모두에서 오디오 품질 및 음성 유사성 측면에서 기본 Translatotron 2 시스템보다 훨씬 뛰어난 성능을 발휘하며 AudioPaLM이 실제 시스템보다 우수하다는 결과를 볼 수 있습니다. CVSS-T 합성 녹음은 더 높은 품질과 더 나은 음성 유사성을 가지며 대부분의 지표에서 크게 향상됩니다.

연구원들은 또한 자원이 많은 그룹과 낮은 그룹(프랑스어, 독일어, 스페인어, 카탈로니아어와 기타 언어)의 시스템을 비교한 결과 이러한 그룹 간의 측정항목에서 큰 차이가 없음을 발견했습니다.

위 내용은 Google AudioPaLM은 말하기와 듣기 모두를 위한 대규모 모델인 '텍스트 + 오디오' 이중 모달 솔루션을 구현합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Chatgpt에서 대화 기록 (대화 로그)을 저장하는 방법에 대한 이해하기 쉬운 설명!May 16, 2025 am 05:41 AM

Chatgpt 대화 레코드를 효율적으로 저장하는 다양한 방법 chatgpt 생성 대화 기록을 저장하는 것에 대해 생각한 적이 있습니까? 이 기사는 공식 기능, 크롬 확장 및 스크린 샷 등을 포함하여 다양한 저장 방법을 소개하여 ChatGpt 대화 레코드를 최대한 활용할 수 있도록합니다. 다양한 방법의 특성과 단계를 이해하고 가장 적합한 방법을 선택하십시오. [OpenAI에서 출시 된 최신 AI 프록시 "OpenAi 운영자"소개] (OpenAI 운영자에 대한 링크는 여기에 삽입해야합니다) 목차 chatgpt 내보내기를 사용하여 대화 기록을 저장합니다 공식 수출 기능을 사용하는 단계 크롬 확장을 사용하여 chatgpt 로그를 저장하십시오 chatgp

chatgpt로 일정을 만듭니다! 테이블을 만들고 조정하는 데 사용할 수있는 프롬프트 설명May 16, 2025 am 05:40 AM

현대 사회는 소모적 인 속도를 가지고 있으며 효율적인 일정 관리가 중요합니다. 일, 삶, 연구 및 기타 작업은 얽혀 있으며 우선 순위와 일정은 종종 두통입니다. 따라서 AI 기술을 사용하는 지능형 일정 관리 방법은 많은 관심을 끌었습니다. 특히 Chatgpt의 강력한 자연어 처리 기능은 지루한 일정 및 작업 관리를 자동화하여 생산성을 크게 향상시킬 수 있습니다. 이 기사는 일정 관리에 Chatgpt를 사용하는 방법을 심도있게 설명합니다. 우리는 AI가 일상 생활과 업무 효율성을 향상시킬 수있는 방법을 보여주기 위해 특정 사례와 단계를 결합합니다. 또한 Chatgpt를 사용할 때이 기술을 안전하고 효과적으로 사용 할 때 주목할 사항을 논의 할 것입니다. 지금 채팅을 경험하고 일정을 얻으십시오

스프레드 시트와 Chatgpt를 연결하는 방법! 당신이 할 수있는 일에 대한 철저한 설명May 16, 2025 am 05:39 AM

비즈니스 효율성을 향상시키기 위해 Google 시트와 Chatgpt를 연결하는 방법을 설명 할 것입니다. 이 기사에서는 초보자가 쉽게 사용할 수있는 애드온 "시트 및 문서 용 GPT"를 사용하는 방법에 대해 자세히 설명합니다. 프로그래밍 지식이 필요하지 않습니다. ChatGpt 및 스프레드 시트 통합을 통해 비즈니스 효율성을 향상시킵니다 이 기사는 추가 기능을 사용하여 Chatgpt를 스프레드 시트와 연결하는 방법에 중점을 둡니다. 추가 기능을 사용하면 Chatgpt 기능을 스프레드 시트에 쉽게 통합 할 수 있습니다. Shee를위한 GPT

2025 년 AI에 대한 6 개의 투자자 예측May 16, 2025 am 05:37 AM

AI 혁명의 향후 몇 년 동안 예측할 때 전문가들이 강조하는 트렌드와 패턴이 있습니다. 예를 들어, 데이터에 대한 상당한 수요가 있으며 나중에 논의 할 것입니다. 또한 에너지의 필요성은 d입니다

chatgpt를 사용하여 글을 쓰십시오! 팁과 프롬프트의 예에 대한 철저한 설명!May 16, 2025 am 05:36 AM

Chatgpt는 텍스트 생성 도구 일뿐 아니라 작가의 창의성을 극적으로 증가시키는 진정한 파트너입니다. 초기 원고 생성, 아이디어 아이디어 및 문체 변화와 같은 전체 작문 과정에 Chatgpt를 사용하면 시간을 절약하고 품질을 향상시킬 수 있습니다. 이 기사는 각 단계에서 ChatGpt를 사용하는 특정 방법과 생산성과 창의성을 극대화하기위한 팁을 자세히 설명합니다. 또한 Chatgpt와 문법 점검 도구 및 SEO 최적화 도구를 결합한 Synergy를 조사합니다. AI와의 협력을 통해 작가는 무료 아이디어로 독창성을 만들 수 있습니다.

chatgpt에서 그래프를 만드는 방법! 플러그인이 필요하지 않으므로 Excel에도 사용할 수 있습니다!May 16, 2025 am 05:35 AM

chatgpt를 사용한 데이터 시각화 : 그래프 생성에서 데이터 분석에 이르기까지 복잡한 정보를 이해하기 쉬운 방식으로 전달하는 데이터 시각화는 현대 사회에서 필수적입니다. 최근 몇 년 동안 AI 기술의 발전으로 인해 Chatgpt를 사용한 그래프 작성이 주목을 끌었습니다. 이 기사에서는 초보자에게도 이해하기 쉬운 방식으로 Chatgpt를 사용하여 그래프를 만드는 방법을 설명합니다. 무료 버전과 유료 버전 (Chatgpt Plus), 특정 제작 단계 및 실제 예제와 함께 일본 레이블을 표시하는 방법의 차이점을 소개합니다. chatgpt를 사용하여 그래프 생성 : 기본에서 고급 사용까지 채팅

현대 LLM의 한계를 저녁 식사 접시로 밀어 넣으십니까?May 16, 2025 am 05:34 AM

일반적으로 우리는 AI가 크고 점점 커지고 있음을 알고 있습니다. 빠르고 점점 더 빨라지고 있습니다. 특히, 모든 사람이 업계에서 최신 하드웨어 및 소프트웨어 접근 방식에 익숙한 것은 아니며 더 나은 결과를 홍보하는 방법은 아닙니다. Peopl

chatgpt 대화 내용을 보관하십시오! 저장하기위한 단계와 복원 방법 설명May 16, 2025 am 05:33 AM

Chatgpt Dialogue Record Management Guide : 지식의 보물을 효율적으로 조직하고 최대한 활용하십시오! Chatgpt 대화 기록은 창의성과 지식의 원천이지만, 성장하는 기록을 어떻게 효과적으로 관리 할 수 있습니까? 중요한 정보를 찾는 것이 시간이 걸립니까? 괜찮아요! 이 기사는 Chatgpt 대화 기록을 효과적으로 "아카이브"(저장 및 관리)하는 방법을 자세히 설명합니다. 공식 아카이브 기능, 데이터 내보내기, 공유 링크 및 데이터 활용 및 고려 사항을 다룹니다. 목차 Chatgpt의 "아카이브"기능에 대한 자세한 설명 chatgpt 아카이브 기능을 사용하는 방법 ChatGpt 아카이브 레코드의 위치 및보기 방법을 저장하십시오 ChatGpt 아카이브 레코드의 메소드를 취소하고 삭제하십시오 아카이브를 취소하십시오 아카이브를 삭제하십시오 요약 ch

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는