집 >기술 주변기기 >일체 포함 >무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산

무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산

王林원래의: 2024-07-23 14:05:21995검색

현재 차세대 토큰 예측 패러다임을 사용한 자동회귀 대규모 언어 모델이 전 세계적으로 인기를 얻고 있는 동시에 인터넷의 수많은 합성 이미지와 비디오는 이미 확산의 힘을 보여주었습니다. 모델.

최근 MIT CSAIL 연구팀(그 중 한 명은 MIT 박사과정 Chen Boyuan)이 전체 시퀀스 확산 모델과 차세대 토큰 모델의 강력한 기능을 성공적으로 통합하고 트레이닝 및 샘플링을 제안했습니다. 패러다임: 확산강제(DF).

무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산

논문 제목: Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
논문 주소: https://arxiv.org/pdf/2407.01392
프로젝트 웹사이트: https:/ /arxiv.org/pdf/2407.01392 /boyuan.space/diffusion-forcing
코드 주소: https://github.com/buoyancy99/diffusion-forcing

아래에서 볼 수 있듯이 확산 강제는 확실히 모든 것보다 성능이 뛰어납니다. 일관성 및 안정성 측면에서 두 가지 방법은 시퀀스 확산과 교사 강제입니다.

무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산

이 프레임워크에서 각 토큰은 임의의 독립적인 노이즈 수준과 연관되어 있으며, 공유된 다음 토큰 예측 모델 또는 다음 토큰 예측 모델은 임의의 독립적인 토큰별 구성표에 따라 사용될 수 있습니다. 토큰의 노이즈를 제거합니다.

이 방법의 연구 영감은 다음 관찰에서 비롯됩니다. 토큰에 노이즈를 추가하는 프로세스는 부분 마스킹 프로세스의 한 형태입니다. 노이즈가 없다는 것은 토큰이 마스크되지 않았음을 의미하고 완전한 노이즈는 토큰을 완전히 마스킹한다는 것을 의미합니다. 따라서 DF는 모델이 노이즈가 있는 토큰의 변수 세트를 제거하는 마스크를 학습하도록 합니다(그림 2).

동시에 예측 방법을 여러 다음 토큰 예측 모델의 조합으로 매개변수화함으로써 시스템은 서로 다른 길이의 시퀀스를 유연하게 생성하고 조합 방식으로 새로운 궤적으로 일반화할 수 있습니다(그림 1).

팀은 시퀀스 생성에 사용되는 DF를 인과적 아키텍처를 통해 미래 토큰이 과거 토큰에 의존하는 CDF(인과 확산 강제)로 구현했습니다. 그들은 시퀀스의 모든 토큰(각 토큰이 독립적인 노이즈 수준을 가짐)을 한 번에 제거하도록 모델을 훈련했습니다.

샘플링 중에 CDF는 가우스 노이즈 프레임 시퀀스를 점차적으로 깨끗한 샘플로 제거합니다. 여기서 각 프레임은 각 노이즈 제거 단계에서 서로 다른 노이즈 수준을 가질 수 있습니다. 다음 토큰 예측 모델과 유사하게 CDF는 가변 길이의 시퀀스를 생성할 수 있습니다. 다음 토큰 예측과 달리 CDF의 성능은 다음 토큰, 미래의 수천 개의 토큰 또는 연속 토큰을 예측하든 매우 안정적입니다.

또한 풀 시퀀스 확산과 유사하게 가이던스도 받을 수 있어 높은 보상 생성이 가능합니다. 인과 관계, 유연한 범위 및 가변 노이즈 스케줄링을 공동으로 활용함으로써 CDF는 MCTG(Monte Carlo Tree Guidance)라는 새로운 기능을 지원합니다. 비인과적 전체 시퀀스 확산 모델과 비교하여 MCTG는 높은 보상 생성의 샘플링 속도를 크게 향상시킬 수 있습니다. 그림 1은 이러한 기능에 대한 개요를 제공합니다. ㅋㅋㅋ 또는 아님) t로 색인된 순서가 지정된 컬렉션입니다. 그런 다음 교사 강제를 사용하여 다음 토큰 예측을 훈련시키는 것은 시간 t에서 각 토큰 x_t를 마스킹하고 과거 x_{1:t−1}을 기반으로 예측하는 것으로 해석될 수 있습니다.

시퀀스의 경우 이 작업은 타임라인을 따라 마스킹을 수행하는 것으로 설명할 수 있습니다. 전체 시퀀스 순방향 확산(즉, 데이터에 점차적으로 노이즈를 추가하는 프로세스)을 일종의 부분 마스킹으로 생각할 수 있는데, 이는 "노이즈 축을 따라 마스킹 수행"이라고 할 수 있습니다. 실제로는 K 단계로 노이즈를 추가한 후 는 (아마도) 백색 노이즈이며 원래 데이터에 대한 정보는 더 이상 없습니다. 그림 2에서 볼 수 있듯이 팀은 이 두 축에 대한 마스크를 통합된 관점으로 설정했습니다.

2. 확산 강제: 토큰마다 노이즈 수준이 다릅니다

확산 강제(DF) 프레임워크를 사용하여 임의 시퀀스 길이의 시끄러운 토큰을 훈련하고 샘플링할 수 있습니다

. 각 토큰의 노이즈 수준 k_t는 시간 단계에 따라 변경됩니다.

이 문서는 시계열 데이터에 중점을 두므로 인과적 아키텍처를 통해 DF를 인스턴스화하여 간단히 말해서 이는 다음과 같습니다. 기본 순환 신경망(RNN)을 사용하여 얻은 최소 구현입니다. 가중치 θ를 갖는 RNN은 과거 토큰의 영향을 알리는 숨겨진 상태 z_t를 유지하며 루프 계층을 통해 동적

에 따라 진화합니다.입력 노이즈 관찰 무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산

을 얻으면 숨겨진 상태가 Markovian 방식으로 업데이트됩니다.

k_t=0이면 베이지안 필터링의 사후 업데이트이고, k_t=K(순수 잡음, 정보 없음)이면 "사후 분포" p_θ(z_t | z_{)를 모델링하는 것과 동일합니다. t-1}).

은닉 상태 z_t가 주어지면 관측 모델 p_θ(x_t^0 | z_t)의 목표는 x_t를 예측하는 것입니다. 이 유닛의 입출력 동작은 표준 조건부 확산 모델과 동일합니다. 조건 변수 z_{t−1 } 및 노이즈 토큰을 입력으로 사용하여 노이즈 없는 x_t=x_t^0을 예측하고 아핀 재매개변수화를 통해 노이즈 ε^{k_t}를 간접적으로 예측합니다. 따라서 우리는 (인과적인) 확산 강제력을 훈련시키기 위해 전통적인 확산 목표를 직접 사용할 수 있습니다. 잡음 예측 결과 ε_θ에 따라 위의 단위를 매개변수화할 수 있다. 그런 다음 다음 손실을 최소화하여 매개변수 θ를 찾습니다.

알고리즘 1은 의사코드를 제공합니다. 요점은 이 손실이 베이지안 필터링과 조건부 확산의 핵심 요소를 포착한다는 것입니다. 또한 팀은 원본 논문의 부록에 자세히 설명된 대로 확산 강제에 대한 확산 모델 훈련에 사용되는 일반적인 기술을 다시 추론했습니다. 그들은 또한 비공식적인 정리에 도달했습니다.

정리 3.1(비공식). 확산 강제 훈련 절차(알고리즘 1)는 기대 로그 가능성 무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산

에 대한 증거 하한(ELBO)을 최적화하는 재가중화입니다. 여기서 기대 값은 잡음 수준에 대해 평균화되고 무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산

는 순방향 프로세스에 따라 잡음이 있습니다. 또한 적절한 조건에서 최적화(3.1)를 수행하면 모든 잡음 수준 시퀀스의 우도 하한을 동시에 최대화할 수도 있습니다.

확산 강제 샘플링 및 결과 기능

알고리즘 2는 다음과 같이 정의되는 샘플링 프로세스를 설명합니다. 2차원 M × T 그리드 K ∈ [K]^{M×T }는 노이즈 일정을 지정합니다. 여기서 열은 시간 단계 t에 해당하고 m으로 인덱스된 행은 노이즈 수준을 결정합니다.

길이 T의 전체 시퀀스를 생성하기 위해 토큰 x_{1:T}는 먼저 잡음 수준 k = K에 해당하는 백색 잡음으로 초기화됩니다. 그런 다음 그리드 아래로 행별로 반복하고 노이즈 수준이 K에 도달할 때까지 왼쪽에서 오른쪽으로 열별로 노이즈를 제거합니다. 마지막 행의 m = 0이 될 때까지 토큰의 노이즈는 제거되었습니다. 즉, 노이즈 수준은 K_{0,t} Д 0입니다.

이 샘플링 패러다임은 다음과 같은 새로운 기능을 제공합니다.

안정적인 자동 회귀 생성
미래를 불확실하게 유지
장기적인 지침 기능

유연한 순서 결정을 위해 확산 강제를 사용하세요

확산 강제의 새로운 능력은 또한 새로운 가능성을 가져옵니다. 이를 기반으로 연구팀은 SDM(Sequence Decision Making)을 위한 새로운 프레임워크를 설계하고 이를 로봇 및 자율행위자 분야에 성공적으로 적용했다.

먼저 동적 p(s_{t+1}|s_t, a_t), 관찰 p(o_t|s_t) 및 보상 p(r_t|s_t, a_t)를 사용하여 Markov 결정 프로세스를 정의합니다. 여기서 목표는 궤적 무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산

의 예상 누적 보상을 최대화하기 위해 정책 π(a_t|o_{1:t})를 훈련시키는 것입니다. 여기서는 x_t = [a_t, r_t, o_{t+1}] 토큰이 할당됩니다. 궤도는 길이가 가변적일 수 있는 시퀀스 x_{1:T}입니다. 훈련 방법은 알고리즘 1에 나와 있습니다.

실행 프로세스의 각 단계 t에는 과거 노이즈 없는 토큰 x_{1:t-1}을 요약하는 숨겨진 상태 z_{t-1}이 있습니다.이 숨겨진 상태를 기반으로 계획 무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산

은 알고리즘 2에 따라 샘플링됩니다. 여기서 무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산

에는 예측된 행동, 보상 및 관찰이 포함됩니다. H는 모델 예측 제어의 미래 예측과 유사한 전방 관찰 창입니다. 계획된 조치를 취한 후 환경은 보상과 다음 관찰, 그리고 다음 토큰을 얻습니다. 은닉 상태는 사후 p_θ(z_t|z_{t−1}, x_t, 0)에 따라 업데이트될 수 있습니다.

프레임워크는 전략 및 계획자로 사용될 수 있으며 그 장점은 다음과 같습니다.

유연한 계획 범위
유연한 보상 안내 가능
달성 가능 몬테 미래의 불확실성을 달성하기 위한 MCTG(Carlo Tree Guidance)

실험

팀은 비디오 및 시계열 예측, 계획 및 모방 학습을 포함하는 생성 시퀀스 모델로서 확산강제의 장점을 평가했으며, 다른 응용 프로그램.

비디오 예측: 일관되고 안정적인 시퀀스 생성 및 무한 확장

비디오 생성 모델링 작업을 위해 Minecraft 게임 비디오 및 DMLab 탐색 수행을 기반으로 인과 확산 적용을 위한 컨벌루션 RNN을 훈련했습니다.

그림 3은 기준선 대비 확산강제력의 정성적 결과를 보여줍니다.

훈련 범위를 넘어서도 확산 강제가 안정적으로 전개될 수 있는 반면 교사 강제 및 전체 시퀀스 확산 벤치마크는 빠르게 분기되는 것을 볼 수 있습니다.

확산 계획: MCTG, 원인 불확실성, 유연한 범위 제어

확산 강제 능력은 의사 결정에 고유한 이점을 가져올 수 있습니다. 팀은 표준 오프라인 강화 학습 프레임워크인 D4RL을 사용하여 새로 제안된 의사 결정 프레임워크를 평가했습니다.

표 1은 정성적, 정량적 평가 결과를 보여준다. 볼 수 있듯이 Diffusion Enforcement는 6개 환경 모두에서 Diffuser 및 모든 기준보다 성능이 뛰어납니다.

제어 가능한 시퀀스 조합 생성

팀은 샘플링 방식을 수정하는 것만으로 훈련 시간에 관찰된 시퀀스의 하위 시퀀스를 유연하게 결합할 수 있음을 발견했습니다.

그들은 2D 궤적 데이터세트를 사용하여 실험을 수행했습니다. 정사각형 평면에서 모든 궤적은 한 모서리에서 시작하여 반대쪽 모서리에서 끝나 일종의 십자 모양을 형성합니다.

위의 그림 1과 같이 조합 동작이 필요하지 않은 경우 DF는 완전한 메모리를 유지하고 교차 분포를 복제할 수 있습니다. 조합이 필요한 경우 모델을 사용하여 MPC를 사용하여 메모리 없이 더 짧은 계획을 생성할 수 있으므로 이 십자가의 하위 궤적을 연결하여 V자형 궤적을 얻을 수 있습니다.

로봇: 장거리 모방 학습 및 강력한 시각적 모션 제어

확산 강제는 실제 로봇의 시각적 모션 제어를 위한 새로운 기회도 제공합니다.

모방 학습은 전문가가 관찰한 행동의 매핑을 학습하는 일반적으로 사용되는 로봇 제어 기술입니다. 그러나 기억력 부족으로 인해 장거리 작업에 대한 모방 학습이 어려운 경우가 많습니다. DF는 이러한 단점을 완화할 수 있을 뿐만 아니라 모방 학습을 더욱 강력하게 만듭니다.

모방 학습에는 기억력을 활용하세요. Franka 로봇을 원격으로 제어하여 팀은 비디오 및 모션 데이터 세트를 수집했습니다. 그림 4에서 볼 수 있듯이 작업은 세 번째 위치를 사용하여 사과와 오렌지의 위치를 바꾸는 것입니다. 과일의 초기 위치는 무작위이므로 두 가지 가능한 목표 상태가 있습니다.

또한, 세 번째 위치에 과일이 있는 경우 현재 관찰에서 원하는 결과를 추론할 수 없습니다. 전략은 이동할 과일을 결정하기 위해 초기 구성을 기억해야 합니다.일반적으로 사용되는 행동 복제 방법과 달리 DF는 자연스럽게 메모리를 자체 숨겨진 상태로 통합할 수 있습니다. DF는 80%의 성공률을 달성한 반면 확산 전략(현재 최고의 메모리리스 모방 학습 알고리즘)은 실패한 것으로 나타났습니다.

또한 DF는 소음을 더욱 강력하게 처리하고 로봇 사전 훈련을 용이하게 할 수 있습니다.

시계열 예측: 확산 강제는 탁월한 일반 시퀀스 모델입니다.

다변량 시계열 예측 작업의 경우 팀의 연구에 따르면 DF는 이전 확산 모델 및 변환기 기반 모델과 경쟁하기에 충분합니다. 유사한.

더 자세한 기술적 내용과 실험 결과는 원본 논문을 참고해주세요.

위 내용은 무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

架构 Token 循环 github 算法 rnn transformer https

성명：

이전 기사："Alibaba Star" 이후 Alibaba Taotian은 연봉 100만 달러를 기준으로 최고의 기술 인재 채용을 다시 시작했습니다.다음 기사："Alibaba Star" 이후 Alibaba Taotian은 연봉 100만 달러를 기준으로 최고의 기술 인재 채용을 다시 시작했습니다.