이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.
반년 넘게 텍스트를 이미지로 변환한 후 Meta 및 Google과 같은 거대 기술 기업은 텍스트를 비디오로라는 새로운 전장에 시선을 돌렸습니다.
지난 주 Meta는 고품질의 짧은 동영상을 생성할 수 있는 도구인 Make-A-Video를 발표했습니다. 이 도구를 사용하여 생성된 동영상은 매우 상상력이 풍부합니다.
물론 Google도 뒤처지지 않습니다. 방금 이 회사의 CEO인 Sundar Pichai는 Imagen Video와 Phenaki라는 두 가지 텍스트-비디오 도구인 이 분야의 최신 성과를 직접 발표했습니다. 전자는 영상 품질에 초점을 맞춘 반면, 후자는 주로 영상 길이에 중점을 두었습니다. 각각의 장점이 있다고 할 수 있습니다.
아래 설거지를 하는 테디베어는 Imagen Video를 사용하여 생성되었습니다. 보시다시피 사진의 해상도와 일관성이 어느 정도 보장됩니다.
Imagen 비디오: 텍스트 프롬프트가 제공되면 HD 비디오 생성
생성 모델링은 DALL-E 2, Imagen, Parti, CogView 및 Latent Diffusion과 같은 최근 텍스트-이미지 AI 시스템에서 상당한 발전을 이루었습니다. . 특히 확산 모델은 밀도 추정, 텍스트-음성, 이미지-이미지, 텍스트-이미지 및 3D 합성과 같은 다양한 생성 모델링 작업에서 큰 성공을 거두었습니다.
Google이 원하는 것은 텍스트에서 비디오를 생성하는 것입니다. 이전 비디오 생성 작업은 자기회귀 모델, 자기회귀 사전확률을 사용한 잠재변수 모델, 그리고 최근에는 비자기회귀 잠재변수 방법을 사용하는 제한된 데이터세트에 중점을 두었습니다. 확산 모델은 또한 뛰어난 중해상도 비디오 생성 기능을 보여주었습니다.
이를 바탕으로 Google은 계단식 비디오 확산 모델을 기반으로 한 텍스트 조건부 비디오 생성 시스템인 Imagen Video를 출시했습니다. 텍스트 프롬프트가 주어지면 Imagen Video는 고정된 T5 텍스트 인코더, 기본 비디오 생성 모델, 계단식 시공간 비디오 초해상도 모델로 구성된 시스템을 통해 고화질 비디오를 생성할 수 있습니다.
논문 주소: https://imagen.research.google/video/paper.pdf
논문에서 구글은 시스템을 고화질 텍스트로 확장하는 방법을 자세히 설명합니다. 특정 해상도에서 완전히 컨벌루션된 시공간 초해상도 모델을 선택하고 확산 모델의 v-매개변수화를 선택하는 등의 설계 결정을 포함한 비디오 모델. Google은 또한 이전의 확산 기반 이미지 생성 연구 결과를 비디오 생성 설정으로 성공적으로 마이그레이션했습니다.
Google은 Imagen Video가 이전 작업에서 생성된 24fps 64프레임 128×128 비디오를 128프레임 1280×768 HD 비디오로 업스케일할 수 있다는 것을 발견했습니다. 또한 Imagen Video는 높은 수준의 제어 가능성과 세계 지식을 갖추고 있으며 다양한 예술적 스타일의 비디오 및 텍스트 애니메이션을 생성할 수 있으며 3D 객체 이해 기능을 갖추고 있습니다.
자동차를 운전하는 팬더 등 Imagen Video에서 생성된 추가 동영상을 감상해 보세요.
우주를 여행하는 나무 보트:
더 많은 동영상을 보려면 다음을 참조하세요. : https:/ /imagen.research.google/video/
방법 및 실험
전체적으로 Google의 비디오 생성 프레임워크는 텍스트 조건부 비디오 생성, 공간 초해상도 및 시간 초해상도를 각각 수행하는 7개의 하위 비디오 확산 모델의 계단식입니다. 전체 캐스케이드를 사용하여 Imagen Video는 초당 24프레임으로 1280×768 HD 비디오(약 1억 2,600만 픽셀) 프레임 128개를 생성할 수 있습니다.
한편 Imagen Video는 점진적 증류의 도움으로 각 하위 모델에서 단 8개의 확산 단계를 사용하여 고품질 비디오를 생성합니다. 이를 통해 비디오 생성 시간이 약 18배 빨라집니다.
아래 그림 6은 고정된 텍스트 인코더 1개, 기본 비디오 확산 모델 1개, SSR(공간 초해상도) 3개, TSR(시간적 초해상도) 모델 3개를 포함한 Imagen Video의 전체 계단식 파이프라인을 보여줍니다. 7개의 비디오 확산 모델에는 총 116억 개의 매개변수가 있습니다.
생성 과정에서 SSR 모델은 모든 입력 프레임의 공간 해상도를 향상시키는 반면, TSR 모델은 입력 프레임 사이의 중간 프레임을 채워 시간 해상도를 향상시킵니다. 모든 모델은 전체 프레임 블록을 동시에 생성하므로 SSR 모델에 눈에 띄는 아티팩트가 발생하지 않습니다.
Imagen Video는 아래 그림 7과 같이 비디오 U-Net 아키텍처를 기반으로 구축되었습니다.
실험에서 Imagen Video는 공개적으로 사용 가능한 LAION-400M 이미지-텍스트 데이터세트, 1,400만 개의 비디오-텍스트 쌍 및 6,000만 개의 이미지-텍스트 쌍에 대해 훈련되었습니다. 결과적으로 위에서 언급한 것처럼 Imagen Video는 고화질 비디오를 생성할 수 있을 뿐만 아니라 순수하게 데이터로만 학습하는 비정형 생성 모델에는 없는 몇 가지 고유한 기능도 갖추고 있습니다.
아래 그림 8은 반 고흐의 그림 스타일이나 수채화 스타일 비디오와 같이 이미지 정보에서 학습된 예술적 스타일로 비디오를 생성하는 Imagen Video의 기능을 보여줍니다.
아래 그림 9는 물체의 일반적인 구조를 유지하면서 회전하는 물체의 비디오를 생성할 수 있는 Imagen Video의 3D 구조를 보여줍니다.
아래 그림 10은 Imagen Video가 다양한 애니메이션 스타일의 텍스트를 안정적으로 생성할 수 있는 방법을 보여줍니다. 그 중 일부는 기존 도구를 사용하여 생성하기 어렵습니다.
더 자세한 실험 내용은 원본 논문을 참고해주세요.
Phenaki: 스토리를 말하면 내가 그려줄게
동영상은 본질적으로 일련의 이미지이지만 일관성 있는 긴 동영상을 생성하는 것이 그리 쉽지 않다는 것을 알고 있습니다. 데이터가 부족하고 작업 자체가 계산적으로 까다롭습니다.
더 문제가 되는 것은 이전처럼 이미지 생성에 사용되는 짧은 텍스트 프롬프트로는 일반적으로 동영상에 대한 완전한 설명을 제공하기에 충분하지 않다는 것입니다. 비디오에 필요한 것은 일련의 프롬프트나 스토리입니다. 이상적으로 비디오 생성 모델은 임의의 길이의 비디오를 생성할 수 있어야 하며 생성된 비디오 프레임을 특정 시간 t의 즉각적인 변화에 따라 조정할 수 있어야 합니다. 이 능력이 있어야만 모델이 생성한 작품을 "움직이는 이미지"가 아닌 "비디오"라고 부를 수 있으며, 예술, 디자인 및 콘텐츠 제작 분야에서 실제 창의적 응용의 길을 열 수 있습니다.
Google 및 기타 기관의 연구자들은 "우리가 아는 한 스토리 기반 조건부 비디오 생성은 이전에 탐구된 적이 없으며 이 목표를 향해 나아가는 최초의 초기 논문입니다."라고 말했습니다. 학습할 스토리 기반 데이터 세트가 없기 때문에 연구자는 이러한 작업을 완료하기 위해 기존의 딥 러닝 방법(단순히 데이터에서 학습)에만 의존할 방법이 없습니다. 그래서 그들은 이 작업을 수행하기 위해 특별히 모델을 설계했습니다. 이 새로운 텍스트-비디오 모델은 "텍스트-비디오" 및 "텍스트-이미지" 데이터를 사용하여 공동 학습하는 Phenaki라고 합니다. 모델에는 다음과 같은 기능이 있습니다. 1. 프롬프트가 새로운 개념의 조합이더라도 오픈 도메인 프롬프트 조건에서 시간적으로 일관성 있는 다양한 비디오를 생성합니다(아래 그림 3 참조). 모델 훈련에 사용된 비디오가 1.4초(8프레임/초)에 불과하더라도 생성된 비디오의 길이는 몇 분일 수 있습니다. 2. 스토리를 기반으로 비디오를 생성합니다(예: 일련의 프롬프트). ), 그림 1 및 아래 그림 5에 표시됨: 다음 애니메이션에서 Phenaki 생성 비디오의 일관성과 다양성을 볼 수 있습니다. 이러한 기능을 구현하려면 연구하세요. 기존 비디오 인코더는 고정된 크기의 비디오만 디코딩하거나 프레임을 독립적으로 인코딩할 수 있기 때문에 이에 의존할 수 없습니다. 이 문제를 해결하기 위해 그들은 새로운 인코더-디코더 아키텍처인 C-ViViT를 도입했습니다. C-ViViT는 다음을 수행할 수 있습니다. PHENAKI 모델 아키텍처 자동 회귀 텍스트-이미지 및 텍스트-비디오에 대한 이전 연구에서 영감을 받은 Phenaki의 디자인은 주로 두 부분으로 구성됩니다(아래 그림 2 참조). Discrete 임베딩(즉, 토큰)을 위한 인코더-디코더 모델과 텍스트 임베딩을 비디오 토큰으로 변환하는 변환기 모델입니다. 비디오의 압축된 표현을 얻는 것은 텍스트에서 비디오를 생성하는 데 있어 주요 과제 중 하나입니다. 이전 작업에서는 VQ-GAN과 같은 프레임별 이미지 인코더나 VideoVQVAE와 같은 고정 길이 비디오 인코더를 사용했습니다. 전자는 임의 길이의 비디오 생성을 허용하지만 실제로 사용 시에는 인코더가 비디오를 시간 내에 압축할 수 없고 토큰이 연속 프레임에서 매우 중복되기 때문에 비디오가 짧아야 합니다. 후자가 토큰 수 측면에서 더 효율적이지만 임의 길이의 비디오 생성을 허용하지 않습니다. Phenaki에서 연구원의 목표는 비디오 토큰 수를 최대한 압축하면서 가변 길이 비디오를 생성하여 현재 컴퓨팅 리소스 제약 내에서 Transformer 모델을 사용할 수 있도록 하는 것입니다. 이를 위해 그들은 비디오 생성을 위한 추가 아키텍처 변경을 포함하는 ViViT의 원인 변형인 C-ViViT를 도입합니다. 이는 시간적 자동 회귀를 유지하면서 시간적 및 공간적 차원 모두에서 비디오를 압축할 수 있습니다. 이 기능을 사용하면 임의 길이의 자동 회귀 비디오를 생성할 수 있습니다. 텍스트 임베딩을 얻기 위해 Phenaki는 사전 훈련된 언어 모델인 T5X도 사용합니다. 구체적인 내용은 원문을 참고해주세요.
위 내용은 이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

존 롤스 (John Rawls)의 1971 년 책 The Justice의 이론에서 그는 오늘날의 AI 디자인의 핵심으로 취해야 할 사고 실험을 제안하고 의사 결정 : 무지의 베일을 제안했다. 이 철학은 형평성을 이해하기위한 간단한 도구를 제공하며 리더 가이 이해를 사용하여 AI를 공평한 방식으로 설계하고 구현할 수있는 청사진을 제공합니다. 새로운 사회에 대한 규칙을 만들고 있다고 상상해보십시오. 그러나 전제가 있습니다.이 사회에서 어떤 역할을할지 미리 알 수 없습니다. 당신은 부자 또는 가난하거나 건강하거나 장애가있을 수 있으며 다수 또는 소수의 소수에 속할 수 있습니다. 이 "무지의 베일"하에 운영되면 규칙 제조업체가 스스로 이익을 얻는 결정을 내리지 못하게합니다. 반대로, 사람들은 대중을 공식화하도록 더 동기를 부여받을 것입니다

수많은 회사들이 로봇 프로세스 자동화 (RPA)를 전문으로하며, 반복적 인 작업과 같은 반복적 인 작업 (어디서나 자동화, 파란색 프리즘 등)를 제공하는 봇을 제공합니다. 한편, 프로세스 마이닝, 오케스트레이션 및 지능형 문서 처리 Speciali

AI의 미래는 간단한 단어 예측과 대화 시뮬레이션을 넘어서고 있습니다. AI 에이전트는 새로운 행동 및 작업 완료가 가능합니다. 이러한 변화는 이미 Anthropic의 Claude와 같은 도구에서 분명합니다. AI 요원 : 연구 a

빠른 기술 발전은 미래의 업무에 대한 미래 지향적 인 관점을 필요로합니다. AI가 단순한 생산성 향상을 초월하고 사회적 구조를 형성하기 시작하면 어떻게됩니까? Topher McDougal의 다가오는 책인 Gaia Wakes :

조화 시스템 (HS)과 같은 시스템의 "HS 8471.30"과 같은 복잡한 코드를 포함하는 제품 분류는 국제 무역 및 국내 판매에 중요합니다. 이 코드는 올바른 세금 신청을 보장하여 모든 inv에 영향을 미칩니다

데이터 센터 및 기후 기술 투자의 에너지 소비의 미래 이 기사는 AI가 주도하는 데이터 센터의 에너지 소비 급증과 기후 변화에 미치는 영향을 탐구 하고이 과제를 해결하기 위해 혁신적인 솔루션 및 정책 권장 사항을 분석합니다. 에너지 수요의 과제 : 대규모 및 초대형 스케일 데이터 센터는 수십만 명의 일반 북미 가족의 합과 비슷한 대규모 전력을 소비하며, AI 초반 규모 센터는 이보다 수십 배 더 많은 힘을 소비합니다. 2024 년 첫 8 개월 동안 Microsoft, Meta, Google 및 Amazon은 AI 데이터 센터의 건설 및 운영에 약 1,250 억 달러를 투자했습니다 (JP Morgan, 2024) (표 1). 에너지 수요 증가는 도전이자 기회입니다. 카나리아 미디어에 따르면 다가오는 전기

생성 AI는 영화 및 텔레비전 제작을 혁신하고 있습니다. Luma의 Ray 2 모델과 활주로의 Gen-4, Openai의 Sora, Google의 VEO 및 기타 새로운 모델은 전례없는 속도로 생성 된 비디오의 품질을 향상시키고 있습니다. 이 모델은 복잡한 특수 효과와 현실적인 장면을 쉽게 만들 수 있으며 짧은 비디오 클립과 카메라로 인식 된 모션 효과조차도 달성되었습니다. 이러한 도구의 조작과 일관성은 여전히 개선되어야하지만 진행 속도는 놀랍습니다. 생성 비디오는 독립적 인 매체가되고 있습니다. 일부 모델은 애니메이션 제작에 능숙하고 다른 모델은 라이브 액션 이미지에 능숙합니다. Adobe 's Firefly와 Moonvalley's MA가

ChatGpt 사용자 경험 감소 : 모델 저하 또는 사용자 기대치입니까? 최근에, 많은 ChatGpt 유료 사용자가 성능 저하에 대해 불평하여 광범위한 관심을 끌었습니다. 사용자는 모델에 대한 느린 반응, 짧은 답변, 도움 부족 및 더 많은 환각을보고했습니다. 일부 사용자는 소셜 미디어에 대한 불만을 표명했으며 Chatgpt가“너무 아첨”이되었으며 중요한 피드백을 제공하기보다는 사용자보기를 확인하는 경향이 있습니다. 이는 사용자 경험에 영향을 줄뿐만 아니라 생산성 감소 및 컴퓨팅 리소스 낭비와 같은 회사 고객에게 실제 손실을 가져옵니다. 성능 저하의 증거 많은 사용자들이 ChatGpt 성능, 특히 GPT-4와 같은 이전 모델 (이번 달 말에 서비스에서 곧 중단 될 예정)에서 상당한 악화를보고했습니다. 이것


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경
