


Schrödinger Bridge의 도움으로 Tsinghua University의 Zhu Jun 팀은 확산 문제를 해결하기 위한 새로운 음성 합성 시스템을 개발했습니다.
이 방법의 주요 아키텍처는 위 그림에 나와 있습니다. 먼저 텍스트 인코더를 통해 입력 텍스트를 추출하여 생성된 대상의 잠재 공간 표현(멜-스펙트로그램, 멜 스펙트럼)을 추출합니다. 이후 이 정보를 잡음 분포에 통합하거나 조건 정보로 사용하는 확산 모델과 달리 Bridge-TTS 방식은 이를 직접 사전 정보로 활용하고 무작위 또는 결정적 샘플링을 지원하여
음성 합성 품질 검증을 위한 표준 데이터 세트인 LJ-Speech에서 연구팀은 9개의 고품질 음성 합성 시스템과 확산 장치로 Bridge-TTS를 가속화했습니다. 모델 샘플링 방법을 비교했습니다. 아래에 표시된 것처럼 이 방법은 다음은 Bridge-TTS의 생성 효과와 확산 모델 기반 방법의 예입니다. 더 많은 세대 샘플 비교를 보려면 프로젝트 웹사이트(https://bridge-tts.github.io/
- 1000단계 합성 효과 비교

- 4 단계 합성 효과 비교

- 2
단계 합성 효과 비교
입력 텍스트: "교도소 인구는 크게 변동했습니다."


50단계 합성에서 Bridge-TTS와 확산 모델 기반 방법 확산 모델 방법의 멜 스펙트럼 비교

전진 프로세스: 이 연구는 강력한 정보 사전 정보와 생성 목표 사이에 완전히 해결 가능한 슈뢰딩거 브리지를 구축하여 유연한 전진 프로세스를 지원합니다. 대칭 노이즈 중에서 선택합니다. 전략: , 상수
및 비대칭 잡음 전략:
, 선형
및 확산 모델에 직접적으로 대응하는 분산 보존(VP)잡음 전략. 이 방법은 음성 합성 작업에서 비대칭 잡음 전략: 선형
(gmax) 및 VP 프로세스가 대칭 잡음 전략보다 더 나은 생성 효과를 갖는다는 것을 발견했습니다.
모델 훈련: 이 방법은 단일 단계, 단일 모델, 단일 손실 함수 등 확산 모델 훈련 프로세스의 여러 장점을 유지합니다. 그리고 잡음 예측(Noise), 생성 목표 예측(Data), 확산 모델에 대응하는 흐름 매칭 기술 등 다양한 모델 매개변수화(Model paramization), 즉 네트워크 훈련 대상 선정 방법을 비교한다[10,11 ] 속도예측(Velocity) 등 기사에서는 생성 대상, 즉 멜 스펙트럼을 네트워크 예측 대상으로 사용할 경우 상대적으로 더 나은 생성 결과를 얻을 수 있음을 발견했습니다.
Sampling process: 본 연구에서는 슈뢰딩거 브리지의 완전히 해결 가능한 형태 덕분에 슈뢰딩거 브리지에 해당하는 전방향-후진 SDE 시스템을 변환하여 저자는 브리지 SDE와 추론에는 Bridge ODE가 사용됩니다. 동시에 Bridge SDE/ODE 추론의 직접 시뮬레이션 속도가 느리기 때문에 샘플링 속도를 높이기 위해 본 연구에서는 확산 모델에서 일반적으로 사용되는 지수 적분기를 사용했으며[12,13], 1차 슈뢰딩거 브리지의 SDE 및 ODE 샘플링 형식:
Tan Xu, Microsoft Research Asia 수석 연구 관리자, 음향 효과, 생체 전기 신호 합성 및 기타 애플리케이션. 그는 Microsoft, JD.com, TikTok 등 여러 회사에서 인턴으로 일했으며 ICML/NeurIPS/ICASSP 등 음성 및 기계 학습 분야의 중요한 국제 회의에서 많은 논문을 발표했습니다.
위 내용은 Schrödinger Bridge의 도움으로 Tsinghua University의 Zhu Jun 팀은 확산 문제를 해결하기 위한 새로운 음성 합성 시스템을 개발했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

대형 언어 모델 (LLM)은 인기가 높아졌으며, 도구 전달 기능은 단순한 텍스트 생성을 넘어 기능을 극적으로 확장했습니다. 이제 LLM은 동적 UI 생성 및 자율적 인 A와 같은 복잡한 자동화 작업을 처리 할 수 있습니다.

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다

UNCTAD의 사무 총장 인 Rebeca Grynspan은“역사는 기술 진보가 경제 성장을 유발하거나 공평한 소득 분배를 보장하거나 포용적인 인간 발전을 촉진하지는 않습니다.

쉽게 생성 AI를 협상 교사 및 스파링 파트너로 사용하십시오. 그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 AI의 최신 Forbes 열 범위의 일부입니다.

밴쿠버에서 개최 된 TED2025 컨퍼런스는 어제 4 월 11 일 36 번째 판을 마무리했습니다. Sam Altman, Eric Schmidt 및 Palmer Luckey를 포함한 60 개 이상의 국가에서 80 명의 스피커를 선보였습니다. 테드의 주제 인“인류를 다시 상상했다”는 재단사가 만들어졌다

Joseph Stiglitz는 2001 년에 유명한 경제학자이자 노벨 경제학상을 수상했습니다. Stiglitz는 AI가 기존의 불평등과 통합 된 권력을 몇몇 지배적 인 기업의 손에 악화시킬 수 있으며 궁극적으로 경제를 훼손 할 수 있다고 주장합니다.

그래프 데이터베이스 : 관계를 통한 데이터 관리 혁명 데이터가 확장되고 그 특성이 다양한 필드에서 발전함에 따라 그래프 데이터베이스는 상호 연결된 데이터를 관리하기위한 변환 솔루션으로 떠오르고 있습니다. 전통적인 것과는 달리

대형 언어 모델 (LLM) 라우팅 : 지능형 작업 분포를 통한 성능 최적화 LLM의 빠르게 진화하는 환경은 각각 독특한 강점과 약점을 가진 다양한 모델을 제시합니다. 일부는 Creative Content Gen에서 탁월합니다


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

WebStorm Mac 버전
유용한 JavaScript 개발 도구
