'화과산의 유명한 장면'에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

'화과산의 유명한 장면'에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.

王林

Jan 11, 2024 pm 07:57 PM

프로젝트

확산 모델은 이미지 생성에서 눈부신 성공을 거두었지만 이를 비디오 초해상도에 적용하는 데에는 여전히 어려움이 있습니다. 비디오 초해상도에는 출력 충실도와 시간적 일관성이 필요하며 이는 확산 모델의 고유한 확률성으로 인해 복잡해집니다. 따라서 확산 모델을 비디오 초해상도에 효과적으로 적용하는 것은 여전히 어려운 작업으로 남아 있습니다.

난양 기술 대학교 S-Lab 연구팀은 비디오 초해상도를 위해 Upscale-A-Video라는 텍스트 기반 잠재 확산 프레임워크를 제안했습니다. 프레임워크는 두 가지 주요 메커니즘을 통해 시간적 일관성을 보장합니다. 첫째, 로컬 규모에서는 시간 레이어를 U-Net 및 VAE-Decoder에 통합하여 짧은 시퀀스의 일관성을 유지합니다. 둘째, 글로벌 규모에서 프레임워크는 훈련 없이 시퀀스 전반에 걸쳐 잠재성을 전파 및 융합하는 흐름 유도 반복 잠재성 전파 모듈을 도입하여 전반적인 비디오 안정성을 향상시킵니다. 이 프레임워크의 제안은 더 나은 시간적 일관성과 전반적인 안정성을 갖춘 비디오 초해상도를 위한 새로운 솔루션을 제공합니다.

화과산의 유명한 장면에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.

논문 주소: https://arxiv.org/abs/2312.06640

Upscale-A-Video는 확산 패러다임을 통해 뛰어난 유연성을 얻습니다. 텍스트 프롬프트를 사용하여 텍스처 생성을 안내할 수 있으며, 노이즈 수준을 조정하여 복구와 생성 간의 충실도와 품질의 균형을 맞출 수 있습니다. 이 기능을 사용하면 원본 콘텐츠의 의미를 유지하면서 세부 사항을 미세 조정할 수 있어 보다 정확한 결과를 얻을 수 있습니다.

실험 결과에 따르면 Upscale-A-Video는 합성 및 실제 벤치마크에서 기존 방법보다 성능이 뛰어나며 인상적인 시각적 현실감과 시간적 일관성을 제공합니다.

먼저 몇 가지 구체적인 예를 살펴보겠습니다. 예를 들어 Upscale-A-Video의 도움으로 "화과산의 유명한 장면"에는 고화질 버전이 있습니다.

화과산의 유명한 장면에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.

StableSR과 비교, Upscale -A-Video는 비디오를 만듭니다. 다람쥐 머리 질감은 다음에서 명확하게 볼 수 있습니다.

방법 소개

일부 연구에서는 시간적 일관성 전략을 도입하여 비디오 작업에 적응하기 위해 이미지 확산 모델을 최적화합니다. 이러한 전략에는 다음 두 가지 방법이 포함됩니다. 첫째, 3D 컨볼루션 및 Temporal Attention과 같은 시간적 계층을 통해 비디오 모델을 미세 조정하여 비디오 처리 성능을 향상시키는 것입니다. 둘째, 프레임 간 주의 및 흐름 유도 주의와 같은 제로샷 메커니즘을 사용하여 사전 훈련된 모델을 조정하여 비디오 작업의 성능을 향상시킵니다. 이러한 방법을 도입하면 이미지 확산 모델이 비디오 작업을 더 잘 처리할 수 있어 비디오 처리 효과가 향상됩니다.

이러한 솔루션은 비디오 안정성을 크게 향상시키지만 두 가지 주요 문제가 여전히 존재합니다.

U-Net 기능이나 잠재 공간에서 작동하는 현재 방법은 낮은 수준의 일관성을 유지하는 데 어려움을 겪고 있으며 텍스처 깜박임과 같은 문제가 여전히 존재합니다.
기존 시간 계층 및 주의 메커니즘은 짧은 로컬 입력 시퀀스에만 제약을 가할 수 있으므로 긴 비디오에서 전체 시간적 일관성을 보장하는 기능이 제한됩니다.

이러한 문제를 해결하기 위해 Upscale-A-Video는 세밀한 질감과 전체적인 일관성에 중점을 두고 비디오 재구성에서 시간적 일관성을 유지하는 로컬-글로벌 전략을 채택합니다. 로컬 비디오 클립에서 이 연구는 사전 훈련된 이미지 ×4 초해상도 모델을 미세 조정하기 위해 비디오 데이터의 추가 시간 레이어를 사용하는 방법을 탐색합니다.

구체적으로, 잠재 확산 프레임워크 내에서 이 연구는 먼저 통합된 3D 컨볼루션 및 Temporal Attention 레이어를 사용하여 U-Net을 미세 조정한 다음 비디오 조건 입력 및 3D 컨볼루션을 사용하여 VAE 디코더를 조정합니다. 전자는 로컬 시퀀스의 구조적 안정성을 크게 달성하고 후자는 낮은 수준의 일관성을 더욱 향상시키고 텍스처 깜박임을 줄입니다. 글로벌 규모에서 이 연구는 추론 중에 프레임별 전파와 잠재 융합을 양방향으로 수행하여 긴 비디오의 전반적인 안정성을 향상시키는 새로운 훈련 없는 흐름 유도 반복 잠재 전파 모듈을 소개합니다.

Upscale-A-Video 모델은 그림 1과 같이 텍스트 프롬프트를 선택적 조건으로 사용하여 모델이 보다 사실적이고 고품질의 세부 정보를 생성하도록 안내할 수 있습니다.

Upscale-A-Video는 비디오를 세그먼트로 나누고 시간 레이어가 있는 U-Net을 사용하여 처리하여 세그먼트 내 일관성을 유지합니다. 순환 잠재 전파 모듈은 사용자가 지정한 전역 정제 확산 중에 조각 간 일관성을 향상시키는 데 사용됩니다. 마지막으로, 미세 조정된 VAE 디코더는 깜박임 아티팩트를 줄이고 낮은 수준의 일관성을 달성합니다.

실험 결과

Upscale-A-Video는 기존 벤치마크에서 SOTA 성능을 달성하여 뛰어난 시각적 현실감과 시간적 일관성을 보여줍니다.

정량적 평가. 표 1에서 볼 수 있듯이 Upscale-A-Video는 4가지 합성 데이터 세트 모두에서 가장 높은 PSNR을 달성하여 탁월한 재구성 기능을 나타냅니다.

화과산의 유명한 장면에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.

정성적 평가. 이 연구는 각각 그림 4와 5에 합성 비디오와 실제 비디오에 대한 시각적 결과를 보여줍니다. Upscale-A-Video는 아티팩트 제거 및 디테일 생성 측면에서 기존 CNN 및 확산 기반 방법보다 훨씬 뛰어난 성능을 제공합니다.

화과산의 유명한 장면에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.

위 내용은 '화과산의 유명한 장면'에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

AI 기술 격차는 공급망을 늦추고 있습니다Apr 26, 2025 am 11:13 AM

"AI-Ready Workforce"라는 용어는 자주 사용되지만 공급망 산업에서 실제로 무엇을 의미합니까? ASCM (Association for Supply Chain Management)의 CEO 인 Abe Eshkenazi에 따르면 비평가가 가능한 전문가를 의미합니다.

한 회사가 AI를 영원히 변화시키기 위해 조용히 노력하는 방법Apr 26, 2025 am 11:12 AM

분산 된 AI 혁명은 조용히 운동량을 얻고 있습니다. 이번 주 금요일 텍사스 오스틴에서 Bittensor Endgame Summit은 중추적 인 순간을 표시하여 분산 된 AI (DEAI)를 이론에서 실제 적용으로 전환합니다. 화려한 광고와 달리

NVIDIA는 NEMO 마이크로 서비스를 방출하여 AI 에이전트 개발을 간소화합니다Apr 26, 2025 am 11:11 AM

Enterprise AI는 데이터 통합 문제에 직면 해 있습니다 Enterprise AI의 적용은 비즈니스 데이터를 지속적으로 학습함으로써 정확성과 실용성을 유지할 수있는 시스템을 구축하는 주요 과제에 직면 해 있습니다. NEMO 마이크로 서비스는 NVIDIA가 "데이터 플라이휠"으로 묘사 한 내용을 작성 하여이 문제를 해결하여 AI 시스템이 엔터프라이즈 정보 및 사용자 상호 작용에 지속적으로 노출되어 관련성을 유지할 수 있도록합니다. 새로 출시 된이 툴킷에는 5 개의 주요 마이크로 서비스가 포함되어 있습니다. NEMO Customizer는 더 높은 교육 처리량으로 대형 언어 모델의 미세 조정을 처리합니다. NEMO 평가자는 사용자 지정 벤치 마크에 대한 AI 모델의 단순화 된 평가를 제공합니다. Nemo Guardrails는 보안 제어를 구현하여 규정 준수 및 적절성을 유지합니다.

AI는 미래의 미래와 디자인을위한 새로운 그림을 그립니다.Apr 26, 2025 am 11:10 AM

AI : 예술과 디자인의 미래 인공 지능 (AI)은 전례없는 방식으로 예술 및 디자인 분야를 변화시키고 있으며, 그 영향은 더 이상 아마추어에게만 국한되지 않고 전문가에게 더 큰 영향을 미칩니다. AI에 의해 생성 된 아트 워크 및 디자인 체계는 광고, 소셜 미디어 이미지 생성 및 웹 디자인과 같은 많은 트랜잭션 디자인 활동에서 전통적인 재료 이미지 및 디자이너를 빠르게 대체하고 있습니다. 그러나 전문 예술가와 디자이너는 AI의 실질적인 가치도 찾습니다. 그들은 AI를 보조 도구로 사용하여 새로운 미적 가능성을 탐색하고 다양한 스타일을 혼합하며 새로운 시각 효과를 만듭니다. AI는 아티스트와 디자이너가 반복적 인 작업을 자동화하고 다양한 디자인 요소를 제안하며 창의적인 입력을 제공하도록 도와줍니다. AI는 스타일 전송을 지원하며 이미지 스타일을 적용합니다.

에이전트 AI와의 작업을 혁신하는 방법 : 회의에서 이정표까지Apr 26, 2025 am 11:09 AM

처음에는 화상 회의 플랫폼으로 유명한 Zoom은 에이전트 AI의 혁신적인 사용으로 직장 혁명을 이끌고 있습니다. Zoom의 CTO 인 XD Huang과의 최근 대화는 회사의 야심 찬 비전을 공개했습니다. 에이전트 AI 정의 Huang d

대학에 대한 실존 적 위협Apr 26, 2025 am 11:08 AM

AI가 교육에 혁명을 일으킬까요? 이 질문은 교육자와 이해 관계자들 사이에서 심각한 반영을 촉구하고 있습니다. AI를 교육에 통합하면 기회와 도전이 모두 나타납니다. Tech Edvocate의 Matthew Lynch로서 Universit

프로토 타입 : 미국 과학자들은 해외에서 일자리를 찾고 있습니다Apr 26, 2025 am 11:07 AM

미국의 과학 연구 및 기술의 발전은 아마도 예산 삭감으로 인해 어려움에 직면 할 수 있습니다. Nature에 따르면, 해외 일자리를 신청하는 미국 과학자의 수는 2024 년 같은 기간에 비해 2025 년 1 월부터 3 월까지 32% 증가했습니다. 이전 여론 조사에 따르면 설문 조사에 참여한 연구원의 75%가 유럽과 캐나다에서 일자리 검색을 고려하고 있음을 보여주었습니다. 지난 몇 개월 동안 수백 개의 NIH와 NSF 보조금이 종료되었으며, NIH의 새로운 보조금은 올해 약 23 억 달러로 줄어 듭니다. 유출 된 예산 제안에 따르면 트럼프 행정부는 과학 기관의 예산을 급격히 줄이는 것을 고려하고 있으며 최대 50%감소 할 수 있습니다. 기본 연구 분야의 혼란은 또한 미국의 주요 장점 중 하나 인 해외 인재 유치에 영향을 미쳤습니다. 35