찾다
기술 주변기기일체 포함'화과산의 유명한 장면'에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.

확산 모델은 이미지 생성에서 눈부신 성공을 거두었지만 이를 비디오 초해상도에 적용하는 데에는 여전히 어려움이 있습니다. 비디오 초해상도에는 출력 충실도와 시간적 일관성이 필요하며 이는 확산 모델의 고유한 확률성으로 인해 복잡해집니다. 따라서 확산 모델을 비디오 초해상도에 효과적으로 적용하는 것은 여전히 ​​어려운 작업으로 남아 있습니다.

난양 기술 대학교 S-Lab 연구팀은 비디오 초해상도를 위해 Upscale-A-Video라는 텍스트 기반 잠재 확산 프레임워크를 제안했습니다. 프레임워크는 두 가지 주요 메커니즘을 통해 시간적 일관성을 보장합니다. 첫째, 로컬 규모에서는 시간 레이어를 U-Net 및 VAE-Decoder에 통합하여 짧은 시퀀스의 일관성을 유지합니다. 둘째, 글로벌 규모에서 프레임워크는 훈련 없이 시퀀스 전반에 걸쳐 잠재성을 전파 및 융합하는 흐름 유도 반복 잠재성 전파 모듈을 도입하여 전반적인 비디오 안정성을 향상시킵니다. 이 프레임워크의 제안은 더 나은 시간적 일관성과 전반적인 안정성을 갖춘 비디오 초해상도를 위한 새로운 솔루션을 제공합니다.

화과산의 유명한 장면에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.

논문 주소: https://arxiv.org/abs/2312.06640

Upscale-A-Video는 확산 패러다임을 통해 뛰어난 유연성을 얻습니다. 텍스트 프롬프트를 사용하여 텍스처 생성을 안내할 수 있으며, 노이즈 수준을 조정하여 복구와 생성 간의 충실도와 품질의 균형을 맞출 수 있습니다. 이 기능을 사용하면 원본 콘텐츠의 의미를 유지하면서 세부 사항을 미세 조정할 수 있어 보다 정확한 결과를 얻을 수 있습니다.

실험 결과에 따르면 Upscale-A-Video는 합성 및 실제 벤치마크에서 기존 방법보다 성능이 뛰어나며 인상적인 시각적 현실감과 시간적 일관성을 제공합니다.

먼저 몇 가지 구체적인 예를 살펴보겠습니다. 예를 들어 Upscale-A-Video의 도움으로 "화과산의 유명한 장면"에는 고화질 버전이 있습니다.

화과산의 유명한 장면에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.

StableSR과 비교, Upscale -A-Video는 비디오를 만듭니다. 다람쥐 머리 질감은 다음에서 명확하게 볼 수 있습니다.

화과산의 유명한 장면에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.

방법 소개

일부 연구에서는 시간적 일관성 전략을 도입하여 비디오 작업에 적응하기 위해 이미지 확산 모델을 최적화합니다. 이러한 전략에는 다음 두 가지 방법이 포함됩니다. 첫째, 3D 컨볼루션 및 Temporal Attention과 같은 시간적 계층을 통해 비디오 모델을 미세 조정하여 비디오 처리 성능을 향상시키는 것입니다. 둘째, 프레임 간 주의 및 흐름 유도 주의와 같은 제로샷 메커니즘을 사용하여 사전 훈련된 모델을 조정하여 비디오 작업의 성능을 향상시킵니다. 이러한 방법을 도입하면 이미지 확산 모델이 비디오 작업을 더 잘 처리할 수 있어 비디오 처리 효과가 향상됩니다.

이러한 솔루션은 비디오 안정성을 크게 향상시키지만 두 가지 주요 문제가 여전히 존재합니다.

  • U-Net 기능이나 잠재 공간에서 작동하는 현재 방법은 낮은 수준의 일관성을 유지하는 데 어려움을 겪고 있으며 텍스처 깜박임과 같은 문제가 여전히 존재합니다.

  • 기존 시간 계층 및 주의 메커니즘은 짧은 로컬 입력 시퀀스에만 제약을 가할 수 있으므로 긴 비디오에서 전체 시간적 일관성을 보장하는 기능이 제한됩니다.

이러한 문제를 해결하기 위해 Upscale-A-Video는 세밀한 질감과 전체적인 일관성에 중점을 두고 비디오 재구성에서 시간적 일관성을 유지하는 로컬-글로벌 전략을 채택합니다. 로컬 비디오 클립에서 이 연구는 사전 훈련된 이미지 ×4 초해상도 모델을 미세 조정하기 위해 비디오 데이터의 추가 시간 레이어를 사용하는 방법을 탐색합니다.

구체적으로, 잠재 확산 프레임워크 내에서 이 연구는 먼저 통합된 3D 컨볼루션 및 Temporal Attention 레이어를 사용하여 U-Net을 미세 조정한 다음 비디오 조건 입력 및 3D 컨볼루션을 사용하여 VAE 디코더를 조정합니다. 전자는 로컬 시퀀스의 구조적 안정성을 크게 달성하고 후자는 낮은 수준의 일관성을 더욱 향상시키고 텍스처 깜박임을 줄입니다. 글로벌 규모에서 이 연구는 추론 중에 프레임별 전파와 잠재 융합을 양방향으로 수행하여 긴 비디오의 전반적인 안정성을 향상시키는 새로운 훈련 없는 흐름 유도 반복 잠재 전파 모듈을 소개합니다.

Upscale-A-Video 모델은 그림 1과 같이 텍스트 프롬프트를 선택적 조건으로 사용하여 모델이 보다 사실적이고 고품질의 세부 정보를 생성하도록 안내할 수 있습니다.

화과산의 유명한 장면에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.

Upscale-A-Video는 비디오를 세그먼트로 나누고 시간 레이어가 있는 U-Net을 사용하여 처리하여 세그먼트 내 일관성을 유지합니다. 순환 잠재 전파 모듈은 사용자가 지정한 전역 정제 확산 중에 조각 간 일관성을 향상시키는 데 사용됩니다. 마지막으로, 미세 조정된 VAE 디코더는 깜박임 아티팩트를 줄이고 낮은 수준의 일관성을 달성합니다.

화과산의 유명한 장면에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.
화과산의 유명한 장면에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.

실험 결과

Upscale-A-Video는 기존 벤치마크에서 SOTA 성능을 달성하여 뛰어난 시각적 현실감과 시간적 일관성을 보여줍니다.

정량적 평가. 표 1에서 볼 수 있듯이 Upscale-A-Video는 4가지 합성 데이터 세트 모두에서 가장 높은 PSNR을 달성하여 탁월한 재구성 기능을 나타냅니다.

화과산의 유명한 장면에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.

정성적 평가. 이 연구는 각각 그림 4와 5에 합성 비디오와 실제 비디오에 대한 시각적 결과를 보여줍니다. Upscale-A-Video는 아티팩트 제거 및 디테일 생성 측면에서 기존 CNN 및 확산 기반 방법보다 훨씬 뛰어난 성능을 제공합니다.

화과산의 유명한 장면에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.

화과산의 유명한 장면에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.

위 내용은 '화과산의 유명한 장면'에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까?AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까?Apr 11, 2025 pm 12:13 PM

Stanford University Institute for Human-Oriented Intificial Intelligence가 발표 한 2025 인공 지능 지수 보고서는 진행중인 인공 지능 혁명에 대한 훌륭한 개요를 제공합니다. 인식 (무슨 일이 일어나고 있는지 이해), 감사 (혜택보기), 수용 (얼굴 도전) 및 책임 (우리의 책임 찾기)의 네 가지 간단한 개념으로 해석합시다. 인지 : 인공 지능은 어디에나 있고 빠르게 발전하고 있습니다 인공 지능이 얼마나 빠르게 발전하고 확산되고 있는지 잘 알고 있어야합니다. 인공 지능 시스템은 끊임없이 개선되어 수학 및 복잡한 사고 테스트에서 우수한 결과를 얻고 있으며 1 년 전만해도 이러한 테스트에서 비참하게 실패했습니다. AI 복잡한 코딩 문제 또는 대학원 수준의 과학적 문제를 해결한다고 상상해보십시오-2023 년 이후

Meta Llama 3.2- 분석 Vidhya를 시작합니다Meta Llama 3.2- 분석 Vidhya를 시작합니다Apr 11, 2025 pm 12:04 PM

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등Apr 11, 2025 pm 12:01 PM

이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

기계와 대화하는 사람의 비용 : 챗봇이 실제로 신경 쓰일 수 있습니까?기계와 대화하는 사람의 비용 : 챗봇이 실제로 신경 쓰일 수 있습니까?Apr 11, 2025 pm 12:00 PM

연결의 편안한 환상 : 우리는 AI와의 관계에서 진정으로 번성하고 있습니까? 이 질문은 MIT Media Lab의 "AI (AI)를 사용하여 인간의 발전"심포지엄의 낙관적 톤에 도전했습니다. 이벤트는 절단 -EDG를 보여주었습니다

파이썬의 Scipy 라이브러리 이해파이썬의 Scipy 라이브러리 이해Apr 11, 2025 am 11:57 AM

소개 차등 방정식, 최적화 문제 또는 푸리에 분석과 같은 복잡한 문제를 해결하는 과학자 또는 엔지니어라고 상상해보십시오. Python의 사용 편의성 및 그래픽 기능은 매력적이지만 이러한 작업에는 강력한 도구가 필요합니다.

LLAMA 3.2를 실행하는 3 가지 방법 분석 VidhyaLLAMA 3.2를 실행하는 3 가지 방법 분석 VidhyaApr 11, 2025 am 11:56 AM

메타의 라마 3.2 : 멀티 모달 AI 강국 Meta의 최신 멀티 모드 모델 인 LLAMA 3.2는 AI의 상당한 발전으로 향상된 언어 이해력, 개선 된 정확도 및 우수한 텍스트 생성 기능을 자랑합니다. 그것의 능력 t

Dagster와 데이터 품질 검사 자동화Dagster와 데이터 품질 검사 자동화Apr 11, 2025 am 11:44 AM

데이터 품질 보증 : Dagster로 점검 자동화 및 큰 기대치 데이터 품질이 높다는 것은 데이터 중심 비즈니스에 중요합니다. 데이터 볼륨 및 소스가 증가함에 따라 수동 품질 관리는 비효율적이며 오류가 발생하기 쉽습니다.

메인 프레임은 AI 시대에 역할을합니까?메인 프레임은 AI 시대에 역할을합니까?Apr 11, 2025 am 11:42 AM

메인 프레임 : AI 혁명의 이름없는 영웅 서버는 일반 목적 애플리케이션 및 여러 클라이언트를 처리하는 데 탁월하지만 메인 프레임은 대량의 미션 크리티컬 작업을 위해 구축됩니다. 이 강력한 시스템은 자주 무거움에서 발견됩니다

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기