>  기사  >  기술 주변기기  >  소라가 영상 세대를 폭발시켰을 때, 메타는 중국 작가들을 중심으로 Agent를 이용해 영상 자동 자르기를 시작했다.

소라가 영상 세대를 폭발시켰을 때, 메타는 중국 작가들을 중심으로 Agent를 이용해 영상 자동 자르기를 시작했다.

WBOY
WBOY앞으로
2024-02-20 15:50:03653검색

최근 AI 영상 기술 분야가 많은 주목을 받고 있으며, 특히 OpenAI가 출시한 소라 영상 세대 대형 모델이 폭넓은 논의를 불러일으키고 있습니다. 동시에 영상 편집 분야에서도 Agent 등 대규모 AI 모델이 강세를 보이고 있다.

영상 편집 작업은 자연어를 사용하지만, 사용자는 수동 조작 없이 직접 의도를 표현할 수 있습니다. 그러나 대부분의 최신 비디오 편집 도구에는 여전히 많은 수동 작업이 필요하며 개인화된 상황별 지원이 부족합니다. 이로 인해 사용자는 복잡한 비디오 편집 문제를 스스로 해결해야 합니다.

핵심은 편집 과정에서 공동작업자 역할을 하고 지속적으로 사용자를 지원할 수 있는 비디오 편집 도구를 디자인하는 방법입니다. 이 기사에서는 토론토대학교 Meta(Reality Labs Research)와 캘리포니아대학교 샌디에고 캠퍼스의 연구원들이 비디오 편집에 LLM(대형 언어 모델)의 다기능 언어 기능을 활용하고 미래를 탐구할 것을 제안합니다. 비디오 편집 패러다임을 통해 수동 비디오 편집 프로세스에 대한 불만을 줄입니다.

소라가 영상 세대를 폭발시켰을 때, 메타는 중국 작가들을 중심으로 Agent를 이용해 영상 자동 자르기를 시작했다.

  • 논문 제목: LAVE: 비디오 편집을 위한 LLM 기반 에이전트 지원 및 언어 보강
  • 논문 주소: https://arxiv.org/pdf/2402.10294.pdf

Research 저자는 LLM에서 제공하는 다양한 언어 향상 기능을 통합한 LAVE라는 비디오 편집 도구를 개발했습니다. LAVE는 사용자의 자유 형식 언어 지침을 해석하고 관련 작업을 계획 및 실행하여 사용자의 비디오 편집 목표를 달성할 수 있는 LLM 기반 지능형 계획 및 실행 시스템을 도입합니다. 이 지능형 시스템은 창의적인 브레인스토밍, 영상 개요 등의 개념적 지원은 물론 의미 기반 영상 검색, 스토리보드 작성, 클립 트리밍 등의 운영 지원도 제공합니다.

이러한 에이전트를 원활하게 운영하기 위해 LAVE는 VLM(Visual Language Model)을 사용하여 비디오 시각 효과에 대한 언어 설명을 자동으로 생성합니다. 이러한 시각적 설명을 통해 LLM은 비디오 콘텐츠를 이해하고 언어 기능을 사용하여 사용자의 편집을 지원합니다. 또한 LAVE는 상담원 지원과 직접 작업이라는 두 가지 대화형 비디오 편집 모드를 제공합니다. 이 이중 모드는 사용자에게 필요에 따라 에이전트 작동을 개선할 수 있는 더 큰 유연성을 제공합니다.

LAVE의 편집효과는? 연구진은 초보자와 숙련된 편집자를 포함한 8명의 참가자를 대상으로 사용자 연구를 실시한 결과 참가자들이 LAVE를 사용하여 만족스러운 AI 협업 영상을 제작할 수 있는 것으로 나타났습니다.

이 연구의 6명의 저자 중 5명이 중국인이라는 점은 주목할 가치가 있습니다. 여기에는 Yi Zuo, 토론토 대학교 컴퓨터 과학 박사 과정 학생 Bryan Wang, 메타 연구 과학자 Yuliang Li, Zhaoyang Lv 및 Yan Xu가 포함됩니다. , 캘리포니아 대학교 샌디에고 캠퍼스 조교수 Haijun Xia.

LAVE 사용자 인터페이스(UI)

먼저 아래 그림 1과 같이 LAVE의 시스템 설계를 살펴보겠습니다.

LAVE의 사용자 인터페이스는 다음과 같은 세 가지 주요 구성 요소로 구성됩니다.

  • 자동으로 생성된 언어 설명이 포함된 비디오 클립을 표시하는 언어 강화 비디오 라이브러리
  • 비디오 클립 에이전트를 사용하면 사용자가 대화 에이전트와 상호 작용하고 도움을 받을 수 있습니다.
  • 설계 논리는 다음과 같습니다. 사용자가 에이전트와 상호 작용할 때 메시지 교환이 채팅 UI에 표시됩니다. 이를 통해 에이전트는 비디오 라이브러리와 클립 타임라인을 변경합니다. 또한 사용자는 기존 편집 인터페이스와 유사하게 커서를 사용하여 비디오 라이브러리와 타임라인을 직접 조작할 수 있습니다.

소라가 영상 세대를 폭발시켰을 때, 메타는 중국 작가들을 중심으로 Agent를 이용해 영상 자동 자르기를 시작했다.언어 향상 비디오 라이브러리

언어 향상 비디오 라이브러리의 기능은 아래 그림 3에 나와 있습니다.

기존 도구와 마찬가지로 이 기능을 사용하면 클립을 재생할 수 있지만 의미 있는 제목과 요약을 포함하여 각 비디오에 대해 자동으로 생성된 텍스트 설명과 같은 시각적 내레이션도 제공됩니다. 제목은 클립을 이해하고 색인화하는 데 도움이 되며, 요약은 각 클립의 시각적 콘텐츠에 대한 개요를 제공하여 사용자가 편집 프로젝트의 스토리라인을 형성하는 데 도움을 줍니다. 각 동영상 아래에 제목과 재생 시간이 표시됩니다.

소라가 영상 세대를 폭발시켰을 때, 메타는 중국 작가들을 중심으로 Agent를 이용해 영상 자동 자르기를 시작했다.

또한 LAVE를 사용하면 사용자는 의미론적 언어 쿼리를 사용하여 비디오를 검색할 수 있으며, 검색된 비디오는 비디오 라이브러리에 표시되고 관련성에 따라 정렬됩니다. 이 기능은 Clip Agent에서 수행해야 합니다.

비디오 클립 타임라인

비디오 라이브러리에서 비디오를 선택하고 클립 타임라인에 추가하면 아래 그림 2와 같이 인터페이스 하단의 비디오 클립 타임라인에 표시됩니다. . 타임라인의 각 클립은 상자로 표시되며 세 개의 축소판 프레임(시작 프레임, 중간 프레임, 끝 프레임)을 표시합니다.

소라가 영상 세대를 폭발시켰을 때, 메타는 중국 작가들을 중심으로 Agent를 이용해 영상 자동 자르기를 시작했다.

LAVE 시스템에서 각 썸네일 프레임은 클립 내용의 1초를 나타냅니다. 비디오 갤러리와 마찬가지로 각 클립에 대한 제목과 설명이 제공됩니다. LAVE의 클립 타임라인에는 클립 정렬과 트리밍이라는 두 가지 주요 기능이 있습니다.

타임라인에서 클립 순서를 지정하는 것은 비디오 편집의 일반적인 작업이며 일관된 내러티브를 만드는 데 중요합니다. LAVE는 두 가지 정렬 방법을 지원하는데, 하나는 비디오 클립 에이전트의 스토리보드 기능을 사용하는 LLM 기반 정렬이고, 다른 하나는 각 비디오 상자를 드래그 앤 드롭하여 순서를 설정하는 것입니다. 클립이 나타납니다.

트리밍은 비디오 편집에서 핵심 부분을 강조하고 불필요한 콘텐츠를 제거하는 데에도 중요합니다. 다듬는 동안 사용자가 타임라인에서 클립을 두 번 클릭하면 아래 그림 4와 같이 1초 프레임을 표시하는 팝업 창이 열립니다.

소라가 영상 세대를 폭발시켰을 때, 메타는 중국 작가들을 중심으로 Agent를 이용해 영상 자동 자르기를 시작했다.

Video Clip Agent

LAVE의 Video Clip Agent는 사용자와 LLM 기반 에이전트 간의 상호 작용을 촉진하는 채팅 기반 구성 요소입니다. 명령줄 도구와 달리 사용자는 자유 형식 언어를 사용하여 에이전트와 상호 작용할 수 있습니다. 에이전트는 LLM의 언어 지능을 활용하여 비디오 편집 지원을 제공하고 편집 프로세스 전반에 걸쳐 사용자를 안내하고 지원하기 위한 구체적인 응답을 제공합니다. LAVE의 에이전트 지원 기능은 에이전트 작업을 통해 제공되며 각 작업에는 시스템 지원 편집 기능 수행이 포함됩니다.

일반적으로 LAVE는 아이디어 구상과 사전 기획부터 실제 편집 작업까지 전체 워크플로우를 포괄하는 기능을 제공하지만 시스템이 엄격한 워크플로우를 요구하지는 않습니다. 사용자는 자신의 편집 목표에 맞는 기능의 하위 집합을 유연하게 활용할 수 있습니다. 예를 들어 명확한 편집 비전과 명확한 스토리라인을 가진 사용자는 아이디어 단계를 건너뛰고 바로 편집에 들어갈 수 있습니다.

백엔드 시스템

이 연구에서는 OpenAI의 GPT-4를 사용하여 LAVE 백엔드 시스템의 설계를 설명합니다. 여기에는 주로 두 가지 측면, 즉 에이전트 설계와 LLM이 구동하는 편집 기능 구현이 포함됩니다.

에이전트 설계

이 연구는 LAVE 에이전트를 구축하기 위해 추론, 계획 및 스토리텔링을 포함한 LLM(예: GPT-4)의 다중 언어 기능을 활용합니다.

LAVE 에이전트에는 계획과 실행이라는 두 가지 상태가 있습니다. 이 설정에는 두 가지 주요 이점이 있습니다.

  • 사용자는 여러 작업이 포함된 높은 수준의 목표를 설정할 수 있으므로 기존 명령줄 도구처럼 각 개별 작업을 자세히 설명할 필요가 없습니다.
  • 실행 전에 에이전트는 사용자에게 계획을 제시하여 수정 기회를 제공하고 사용자가 에이전트 작동을 완전히 제어할 수 있도록 보장합니다. 연구팀은 계획 및 실행 프로세스를 완료하기 위해 백엔드 파이프라인을 설계했습니다.

아래 그림 6에 표시된 것처럼 파이프라인은 먼저 사용자 입력을 기반으로 작업 계획을 생성합니다. 그런 다음 계획은 텍스트 설명에서 함수 호출로 변환되고 해당 함수가 실행됩니다.

소라가 영상 세대를 폭발시켰을 때, 메타는 중국 작가들을 중심으로 Agent를 이용해 영상 자동 자르기를 시작했다.

LLM 기반 편집 기능 구현

사용자가 비디오 편집 작업을 완료할 수 있도록 LAVE는 주로 다음을 포함한 5가지 LLM 기반 기능을 지원합니다.

  • 자료 개요
  • 창의적 브레인스토밍
  • 동영상 검색
  • 스토리보드
  • 클립 트리밍

첫 번째 네 가지는 에이전트를 통해 액세스할 수 있습니다(그림 5). 클립 트리밍 기능을 사용하면 타임라인에서 클립을 두 번 클릭하여 1초 프레임을 보여주는 팝업 창을 열 수 있습니다(그림 4).

소라가 영상 세대를 폭발시켰을 때, 메타는 중국 작가들을 중심으로 Agent를 이용해 영상 자동 자르기를 시작했다.

그 중 언어 기반 비디오 검색은 벡터 저장 데이터베이스를 통해 구현되고 나머지는 LLM 프롬프트 엔지니어링을 통해 구현됩니다. 모든 기능은 비디오 라이브러리의 각 클립에 대한 제목과 요약을 포함하여 원본 영상에 대해 자동으로 생성된 구두 설명을 기반으로 구축되었습니다(그림 3). 연구팀은 이러한 비디오의 텍스트 설명을 시각적 내레이션이라고 부릅니다.

소라가 영상 세대를 폭발시켰을 때, 메타는 중국 작가들을 중심으로 Agent를 이용해 영상 자동 자르기를 시작했다.

소라가 영상 세대를 폭발시켰을 때, 메타는 중국 작가들을 중심으로 Agent를 이용해 영상 자동 자르기를 시작했다.

관심 있는 독자는 논문의 원문을 읽고 연구 내용에 대해 자세히 알아볼 수 있습니다.

위 내용은 소라가 영상 세대를 폭발시켰을 때, 메타는 중국 작가들을 중심으로 Agent를 이용해 영상 자동 자르기를 시작했다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제