이미지 생성 분야가 또 바뀌는 것 같아요.
방금 OpenAI는 확산 모델보다 더 빠르고 우수한 일관성 모델을 오픈 소스로 제공했습니다.
적대적 훈련 없이도 고품질 이미지를 생성할 수 있습니다!
이 블록버스터급 뉴스가 공개되자마자 학계는 즉시 폭발했습니다.
논문 자체는 지난 3월에 조용히 공개됐지만 당시에는 OpenAI의 최첨단 연구일 뿐 세부 사항은 실제로 공개되지 않을 것이라는 인식이 일반적이었습니다.
이번에 오픈소스가 직접 나올 줄은 몰랐습니다. 일부 네티즌들은 즉시 효과 테스트를 시작했고 약 64개의 256×256 이미지를 생성하는 데 약 3.5초밖에 걸리지 않는다는 사실을 발견했습니다.
게임 끝!
이 네티즌이 생성한 이미지 효과는 꽤 좋아 보입니다.
일부 네티즌은 농담을 했습니다. 이번에 OpenAI가 드디어 공개되었습니다!
논문의 첫 번째 저자인 OpenAI 과학자 Song Yang은 16세에 리더십 프로그램을 통해 칭화대 수학 및 물리 기초 과학 수업에 입학했다는 점을 언급할 가치가 있습니다.
이번에는 OpenAI가 어떤 연구를 오픈소스로 공개했는지 살펴보겠습니다.
이미지 생성 AI로서 Consistency Model의 가장 큰 특징은 빠르고 좋다는 점입니다.
확산 모델과 비교하여 두 가지 주요 장점이 있습니다.
첫째, 적대적 훈련 없이 고품질 이미지 샘플을 직접 생성할 수 있습니다.
두 번째, 수백 또는 수천 번의 반복이 필요할 수 있는 확산 모델에 비해 일관성 모델은
채색, 노이즈 제거, 슈퍼스코어링 등 다양한 이미지 작업을 처리하는 데 한두 단계만 필요합니다. 이러한 작업에 대한 명시적인 교육 없이도 몇 가지 단계만으로 수행할 수 있습니다. (물론 퓨샷 학습을 하면 생성 효과가 더 좋아지겠죠)
그렇다면 일관성 모델은 어떻게 이 효과를 얻을 수 있을까요?
원리적인 관점에서 일관성 모델의 탄생은 ODE(상미분 방정식) 생성 확산 모델과 관련이 있습니다.
그림에서 볼 수 있듯이 ODE는 먼저 이미지 데이터를 단계별로 노이즈로 변환한 다음 역 솔루션을 수행하여 노이즈에서 이미지를 생성하는 방법을 학습합니다.
이 과정에서 저자는 생성 모델링을 위해 ODE 궤적(예: Xt, Xt 및 Xr)의 모든 지점을 원점(예: X0)에 매핑하려고 했습니다.
결과적으로 이 매핑된 모델은 출력이 모두 동일한 궤적의 동일한 지점에 있기 때문에 일관성 모델로 명명되었습니다.
이 아이디어를 기반으로 일관성 모델은 달성하기 위해 긴 반복을 거칠 필요가 없습니다. 비교적 고품질의 이미지를 생성하지만 한 단계로 생성할 수 있습니다.
다음 그림은 이미지 생성 지수 FID에 대한 일관성 모델(CD)과 확산 모델(PD)을 비교한 것입니다.
그 중 PD는 지난해 스탠포드와 구글 브레인이 제안한 최신 확산 모델 방식인 프로그레시브 증류(Progressive Distillation)의 약자이고, CD(Consistency Distillation)는 컨시스턴시 증류(Consistency Distillation) 방식이다.
거의 모든 데이터 세트에서 일관성 모델의 이미지 생성 효과가 확산 모델보다 우수하다는 것을 알 수 있습니다. 유일한 예외는 256×256 방 데이터 세트입니다.
그 외에는 , 저자는 또한 다양한 다른 데이터 세트에서 확산 모델, 일관성 모델 및 GAN과 같은 모델을 비교했습니다.
그러나 일부 네티즌들은 이번에 오픈소스 AI 일관성 모델로 생성한 이미지가 여전히 너무 작다고 언급했습니다.
이번 오픈소스 버전으로 생성한 이미지가 아직 너무 작다는 점은 아쉽습니다. 더 큰 이미지의 오픈 소스 버전을 생성하는 것은 확실히 흥미로울 것입니다.
일부 네티즌들은 OpenAI가 아직 훈련되지 않았을 수도 있다고 추측하기도 했습니다. 하지만 훈련 후에는 코드를 얻지 못할 수도 있습니다(수동 개 머리).
그러나 이 작업의 중요성에 대해 TechCrunch는 다음과 같이 말했습니다.
GPU가 여러 개인 경우 확산 모델을 사용하여 1~2분 안에 1,500회 이상 반복하면 이미지 생성 효과는 물론 훌륭한.
그러나 휴대폰이나 채팅 대화 중에 실시간으로 이미지를 생성하려는 경우 확산 모델은 최선의 선택이 아닙니다.
일관성 모델은 OpenAI의 다음 중요한 움직임입니다.
더 높은 해상도의 이미지 생성 AI의 물결, OpenAI 오픈소스를 기대합니다~
송양이 논문의 제1저자이며 현재 OpenAI에서 연구 과학자로 활동하고 있습니다.
14세 때 심사위원 17명의 만장일치로 '칭화대학교 신100주년 리더십 프로그램'에 선발되었습니다. 이듬해 대학 입학 시험에서 그는 연운항시 과학 부문 최고 득점자가 되어 칭화대학에 성공적으로 입학했습니다.
2016년 송양은 칭화대학교에서 기초 수학과 물리학을 졸업한 후 스탠포드로 진학하여 추가 공부를 했습니다. 송양은 2022년 스탠포드에서 컴퓨터 과학 박사 학위를 취득한 후 OpenAI에 입사했습니다.
박사 과정 동안 그의 첫 번째 논문인 "확률적 미분 방정식을 통한 점수 기반 생성 모델링"도 ICLR 2021 우수 논문상을 수상했습니다.
개인 홈페이지에 따르면 송양은 2024년 1월부터 공식적으로 캘리포니아 공과대학 전자 및 전산수리과학과 조교수로 부임할 예정이다.
프로젝트 주소:
https://www.php.cn/link/4845b84d63ea5fa8df6268b8d1616a8f
논문 주소:
https://www.php.cn/link/5f25fbe144e4a81a1 b00 80b6c1032778
참조 링크:
[1]https://twitter.com/alfredplpl/status/1646217811898011648
[2]https://twitter.com/_akhaliq/status/1646168119658831874
위 내용은 OpenAI의 차세대 모델은 오픈 소스 폭발입니다! 칭화대 졸업생 송양의 작품 '확산'보다 빠르고 강하다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!