


Schrödinger Bridge의 도움으로 Tsinghua University의 Zhu Jun 팀은 확산 문제를 해결하기 위한 새로운 음성 합성 시스템을 개발했습니다.
이 방법의 주요 아키텍처는 위 그림에 나와 있습니다. 먼저 텍스트 인코더를 통해 입력 텍스트를 추출하여 생성된 대상의 잠재 공간 표현(멜-스펙트로그램, 멜 스펙트럼)을 추출합니다. 이후 이 정보를 잡음 분포에 통합하거나 조건 정보로 사용하는 확산 모델과 달리 Bridge-TTS 방식은 이를 직접 사전 정보로 활용하고 무작위 또는 결정적 샘플링을 지원하여
음성 합성 품질 검증을 위한 표준 데이터 세트인 LJ-Speech에서 연구팀은 9개의 고품질 음성 합성 시스템과 확산 장치로 Bridge-TTS를 가속화했습니다. 모델 샘플링 방법을 비교했습니다. 아래에 표시된 것처럼 이 방법은 다음은 Bridge-TTS의 생성 효과와 확산 모델 기반 방법의 예입니다. 더 많은 세대 샘플 비교를 보려면 프로젝트 웹사이트(https://bridge-tts.github.io/
- 1000단계 합성 효과 비교

- 4 단계 합성 효과 비교

- 2
단계 합성 효과 비교
입력 텍스트: "교도소 인구는 크게 변동했습니다."


50단계 합성에서 Bridge-TTS와 확산 모델 기반 방법 확산 모델 방법의 멜 스펙트럼 비교

전진 프로세스: 이 연구는 강력한 정보 사전 정보와 생성 목표 사이에 완전히 해결 가능한 슈뢰딩거 브리지를 구축하여 유연한 전진 프로세스를 지원합니다. 대칭 노이즈 중에서 선택합니다. 전략: , 상수
및 비대칭 잡음 전략:
, 선형
및 확산 모델에 직접적으로 대응하는 분산 보존(VP)잡음 전략. 이 방법은 음성 합성 작업에서 비대칭 잡음 전략: 선형
(gmax) 및 VP 프로세스가 대칭 잡음 전략보다 더 나은 생성 효과를 갖는다는 것을 발견했습니다.
모델 훈련: 이 방법은 단일 단계, 단일 모델, 단일 손실 함수 등 확산 모델 훈련 프로세스의 여러 장점을 유지합니다. 그리고 잡음 예측(Noise), 생성 목표 예측(Data), 확산 모델에 대응하는 흐름 매칭 기술 등 다양한 모델 매개변수화(Model paramization), 즉 네트워크 훈련 대상 선정 방법을 비교한다[10,11 ] 속도예측(Velocity) 등 기사에서는 생성 대상, 즉 멜 스펙트럼을 네트워크 예측 대상으로 사용할 경우 상대적으로 더 나은 생성 결과를 얻을 수 있음을 발견했습니다.
Sampling process: 본 연구에서는 슈뢰딩거 브리지의 완전히 해결 가능한 형태 덕분에 슈뢰딩거 브리지에 해당하는 전방향-후진 SDE 시스템을 변환하여 저자는 브리지 SDE와 추론에는 Bridge ODE가 사용됩니다. 동시에 Bridge SDE/ODE 추론의 직접 시뮬레이션 속도가 느리기 때문에 샘플링 속도를 높이기 위해 본 연구에서는 확산 모델에서 일반적으로 사용되는 지수 적분기를 사용했으며[12,13], 1차 슈뢰딩거 브리지의 SDE 및 ODE 샘플링 형식:
Tan Xu, Microsoft Research Asia 수석 연구 관리자, 음향 효과, 생체 전기 신호 합성 및 기타 애플리케이션. 그는 Microsoft, JD.com, TikTok 등 여러 회사에서 인턴으로 일했으며 ICML/NeurIPS/ICASSP 등 음성 및 기계 학습 분야의 중요한 국제 회의에서 많은 논문을 발표했습니다.
위 내용은 Schrödinger Bridge의 도움으로 Tsinghua University의 Zhu Jun 팀은 확산 문제를 해결하기 위한 새로운 음성 합성 시스템을 개발했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Microsoft Power BI 차트로 데이터 시각화의 힘을 활용 오늘날의 데이터 중심 세계에서는 복잡한 정보를 비 기술적 인 청중에게 효과적으로 전달하는 것이 중요합니다. 데이터 시각화는이 차이를 연결하여 원시 데이터를 변환합니다. i

전문가 시스템 : AI의 의사 결정 능력에 대한 깊은 다이빙 의료 진단에서 재무 계획에 이르기까지 모든 것에 대한 전문가의 조언에 접근 할 수 있다고 상상해보십시오. 그것이 인공 지능 분야의 전문가 시스템의 힘입니다. 이 시스템은 프로를 모방합니다

우선, 이것이 빠르게 일어나고 있음이 분명합니다. 다양한 회사들이 현재 AI가 작성한 코드의 비율에 대해 이야기하고 있으며 빠른 클립에서 증가하고 있습니다. 이미 주변에 많은 작업 변위가 있습니다

디지털 마케팅에서 소셜 미디어에 이르기까지 모든 창의적 부문과 함께 영화 산업은 기술 교차로에 있습니다. 인공 지능이 시각적 스토리 텔링의 모든 측면을 재구성하고 엔터테인먼트의 풍경을 바꾸기 시작함에 따라

ISRO의 무료 AI/ML 온라인 코스 : 지리 공간 기술 혁신의 관문 IIRS (Indian Institute of Remote Sensing)를 통해 Indian Space Research Organization (ISRO)은 학생과 전문가에게 환상적인 기회를 제공하고 있습니다.

로컬 검색 알고리즘 : 포괄적 인 가이드 대규모 이벤트를 계획하려면 효율적인 작업량 배포가 필요합니다. 전통적인 접근 방식이 실패하면 로컬 검색 알고리즘은 강력한 솔루션을 제공합니다. 이 기사는 언덕 등반과 Simul을 탐구합니다

릴리스에는 GPT-4.1, GPT-4.1 MINI 및 GPT-4.1 NANO의 세 가지 모델이 포함되어 있으며, 대형 언어 모델 환경 내에서 작업 별 최적화로 이동합니다. 이 모델은 사용자를 향한 인터페이스를 즉시 대체하지 않습니다

Chip Giant Nvidia는 월요일에 AI SuperComputers를 제조하기 시작할 것이라고 말했다. 이 발표는 트럼프 SI 대통령 이후에 나온다


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

드림위버 CS6
시각적 웹 개발 도구

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.
