AI 영상세대는 최근 가장 핫한 분야 중 하나입니다. 다양한 대학 연구실, 거대 인터넷 AI 연구소, 스타트업 기업 등이 AI 영상 생성 트랙에 합류했다. Pika, Gen-2, Show-1, VideoCrafter, ModelScope, SEINE, LaVie, VideoLDM 등 영상세대 모델 출시가 더욱 눈길을 끈다. v⁽ⁱ⁾
다음 질문이 궁금하실 겁니다.
이를 위해 우리는 다양한 비디오 모델의 장점, 단점, 특징에 대한 정보를 사용자에게 제공하기 위해 설계된 포괄적인 "비디오 생성 모델 평가 프레임워크"인 VBench를 출시했습니다. VBench를 통해 사용자는 다양한 비디오 모델의 장점과 장점을 이해할 수 있습니다.
VBench는 비디오 생성 효과를 종합적이고 세심하게 평가할 수 있을 뿐만 아니라 사람들의 감각 경험을 일관되게 평가하여 시간과 에너지를 절약합니다.
"VBench" - "비디오 세대 모델"의 포괄적인 벤치마크 제품군
오픈소스 AI 동영상 생성 모델
VBench에서 각 오픈소스 AI 동영상 생성 모델의 성능은 다음과 같습니다.
VBench에서 다양한 오픈 소스 AI 비디오 생성 모델의 성능. 방사형 차트에서는 비교를 보다 명확하게 시각화하기 위해 각 차원의 결과를 0.3~0.8 사이로 정규화했습니다.
VBench에서 다양한 오픈 소스 AI 비디오 생성 모델의 성능.
위 6개 모델 중 VideoCrafter-1.0과 Show-1은 대부분의 차원에서 상대적인 장점을 갖고 있음을 알 수 있습니다.
스타트업의 동영상 세대 모델
VBench는 현재 Gen-2와 Pika의 두 가지 스타트업 모델에 대한 평가 결과를 제공하고 있습니다.
VBench에서 Gen-2와 Pika의 성능. 방사형 차트에서는 비교를 보다 명확하게 시각화하기 위해 VideoCrafter-1.0과 Show-1을 참조로 추가하고 각 차원의 평가 결과를 0.3~0.8 사이로 정규화했습니다.
VBench에서 Gen-2와 Pika의 성능. VideoCrafter-1.0 및 Show-1의 수치 결과를 참고자료로 포함합니다.
Gen-2와 Pika는 시간적 일관성(Temporal Consistency) 및 단일 프레임 품질(Aesthetic Quality 및 Imaging Quality) 관련 차원과 같은 비디오 품질(Video Quality)에서 분명한 이점을 가지고 있음을 알 수 있습니다. 사용자 입력 프롬프트(예: 인간 행동 및 모양 스타일)와의 의미론적 일관성 측면에서 부분 차원 오픈 소스 모델이 더 좋습니다.
비디오 생성 모델 VS 그림 생성 모델
비디오 생성 모델 VS 그림 생성 모델. 그 중 SD1.4, SD2.1, SDXL은 이미지 생성 모델이다.
8개 주요 장면 카테고리에 대한 비디오 생성 모델의 성능
다음은 8개 카테고리에 대한 다양한 모델의 평가 결과입니다.
현재 VBench는 완전한 오픈 소스이며 원클릭 설치를 지원합니다. 누구나 플레이하고, 관심 있는 모델을 테스트하고, 함께 협력하여 비디오 생성 커뮤니티의 발전을 촉진할 수 있습니다.
오픈 소스 주소: https://github.com/Vchitect/VBench
우리는 또한 일련의 프롬프트를 오픈 소스로 공개했습니다. 목록: https://github.com/Vchitect/VBench/tree/master/prompts에는 다양한 기능 차원의 평가를 위한 벤치마크와 다양한 시나리오 콘텐츠에 대한 평가 벤치마크가 포함되어 있습니다.
왼쪽의 단어 클라우드는 프롬프트 모음에서 자주 사용되는 단어의 분포를 보여주고, 오른쪽 그림은 다양한 차원과 카테고리의 프롬프트 수를 보여줍니다.
각 차원에 대해 VBench 평가 결과와 수동 평가 결과 간의 상관관계를 계산하여 우리 방법과 인간 인식의 일관성을 검증했습니다. 아래 그림에서 가로축은 다양한 차원의 수동 평가 결과를 나타내고, 세로축은 VBench 방법의 자동 평가 결과를 나타내며, 우리의 방법이 모든 차원에서 인간의 인식과 고도로 일치함을 알 수 있습니다.
VBench는 기존 모델을 평가할 수 있을 뿐만 아니라 더 중요하게는 다양한 모델에 존재할 수 있는 다양한 문제를 발견하여 미래 AI를 제공할 수 있습니다. 세대는 귀중한 통찰력을 제공합니다.
"시간적 일관성" 및 "비디오 역학": 둘 중 하나를 선택하지 말고 둘 다 개선하세요.
우리는 시간적 일관성(예: 주제 일관성, 배경 일관성, 동작 부드러움)과 비디오 모션의 진폭(동적 정도) 사이에는 일정한 균형 관계가 있습니다. 예를 들어 Show-1과 VideoCrafter-1.0은 배경 일관성과 동작 부드러움 측면에서 매우 우수한 성능을 보이지만 역학 측면에서는 점수가 낮습니다. 이는 "움직이지 않는" 그림을 생성하는 것이 타이밍에 "나타날 가능성이 더 높기 때문일 수 있습니다." "매우 일관성이 있습니다." 반면 VideoCrafter-0.9는 타이밍 일관성과 관련된 측면에서는 약하지만 동적 수준에서는 높은 점수를 얻습니다.
이는 앞으로 "시간적 일관성"과 "더 높은 동적 수준"을 동시에 달성하는 것이 실제로 어렵다는 것을 보여줍니다. 우리는 한 가지 측면을 개선하는 데에만 집중할 것이 아니라 "시간적 일관성"과 "비디오"를 개선해야 합니다. 품질'을 동시에 제공합니다. '동적 정도'는 이 두 가지 측면에서 의미가 있습니다.
장면 콘텐츠별로 평가하여 각 모델의 잠재력을 탐색하세요
일부 모델은 다양한 카테고리에서 성능에 큰 차이가 있습니다. 예를 들어, 미적 품질(Aesthetic Quality) 측면에서 CogVideo는 "음식"에 속합니다. " " 카테고리는 좋은 성적을 거두었지만, "라이프스타일" 카테고리에서는 낮은 점수를 받았습니다. 훈련 데이터를 조정하면 "LifeStyle" 카테고리에서 CogVideo의 미적 품질이 향상되어 모델의 전반적인 비디오 미적 품질이 향상될 수 있습니까?
이는 또한 비디오 생성 모델을 평가할 때 다양한 카테고리나 주제에서 모델의 성능을 고려하고, 특정 기능 차원에서 모델의 상한선을 탐색한 다음 " 뒤처지는"장면 카테고리.
복잡한 모션이 있는 카테고리: 시공간 성능이 좋지 않음
공간 복잡성이 높은 카테고리는 미적 품질 차원에서 낮은 점수를 받았습니다. 예를 들어, "라이프 스타일" 카테고리는 공간의 복잡한 요소 배치에 대한 요구 사항이 상대적으로 높으며, "휴먼" 카테고리는 힌지 구조 생성으로 인해 어려움을 겪고 있습니다.
일반적으로 복잡한 동작이 포함되는 "인간" 카테고리와 종종 더 빠르게 움직이는 "차량" 카테고리와 같이 타이밍이 복잡한 카테고리의 경우 테스트된 모든 차원에서 상대적으로 낮은 점수를 받았습니다. 이는 현재 모델이 시간적 모델링을 처리하는 데 여전히 특정 결함이 있음을 보여줍니다. 시간적 모델링 제한으로 인해 공간적 흐릿함과 왜곡이 발생하여 시간과 공간 모두에서 만족스럽지 못한 비디오 품질이 발생할 수 있습니다.
카테고리 생성 어려움: 데이터 양을 늘려도 이점이 거의 없음
일반적으로 사용되는 비디오 데이터 세트 WebVid-10M에 대한 통계를 수행한 결과 약 26%의 데이터가 다음과 관련이 있는 것으로 나타났습니다. "인간". 우리가 계산한 8개 범주 중 가장 높은 비율입니다. 하지만 평가 결과에서는 '인간' 부문이 8개 부문 중 최악의 성적을 거뒀다.
이는 '인간'과 같은 복잡한 카테고리의 경우 단순히 데이터 양을 늘리는 것만으로는 성능이 크게 향상되지 않을 수 있음을 보여줍니다. 한 가지 잠재적인 방법은 뼈대 등과 같은 "인간" 관련 사전 지식이나 제어를 도입하여 모델 학습을 안내하는 것입니다.
수백만 개의 데이터 세트: 데이터 양보다 데이터 품질 개선을 우선시합니다
"음식" 카테고리는 WebVid-10M에서 11%만을 차지하지만 거의 항상 평가에서 가장 높은 순위를 차지합니다. 미적 품질 점수. 따라서 우리는 WebVid-10M 데이터 세트에 있는 다양한 콘텐츠 카테고리의 미적 품질 성능을 추가로 분석한 결과 "음식" 카테고리도 WebVid-10M에서 가장 높은 미적 점수를 가지고 있음을 발견했습니다.
이는 수백만 개의 데이터를 기반으로 데이터 양을 늘리는 것보다 데이터 품질을 필터링/개선하는 것이 더 도움이 된다는 것을 의미합니다.
개선 가능성: 다중 객체 및 객체 간의 관계를 정확하게 생성
현재 비디오 생성 모델은 "다중 객체" 및 "공간 관계" 성능 측면에서는 여전히 따라잡을 수 없음 결합 기능 향상의 중요성을 강조하는 이미지 생성 모델(특히 SDXL)을 사용합니다. 소위 조합 능력은 모델이 비디오 생성에서 여러 개체를 정확하게 표시할 수 있는지 여부와 개체 간의 공간적 및 상호 작용 관계를 나타냅니다.
이 문제를 해결할 수 있는 잠재적인 방법은 다음과 같습니다.
위 내용은 AI 영상생성 프레임워크 테스트 경쟁 : Pika, Gen-2, ModelScope, SEINE, 누가 이길 수 있을까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!