>기술 주변기기 >일체 포함 >효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

王林
王林앞으로
2023-04-11 13:49:031610검색

새해가 시작되면서 Google AI는 다시 텍스트 이미지 생성 모델 작업을 시작했습니다.

이번에 새로운 모델 Muse는 CC3M 데이터 세트에서 새로운 SOTA(현재 최고 수준)에 도달했습니다.

그리고 효율성은 인기 있는 DALL·E 2, Imagen(둘 다 확산 모델) 및 Parti(자동 회귀 모델)보다 훨씬 높습니다.

——512x512 해상도 이미지 하나의 생성 시간이 단 1.3초로 압축됩니다.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

이미지 편집의 경우 텍스트 명령만으로 원본 이미지를 편집할 수 있습니다.

(PS학습 걱정은 이제 안하셔도 될 것 같습니다~)

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

좀 더 정확한 효과를 원하시면 마스크 위치를 선택하시고 특정 부위를 편집하실 수도 있습니다. 예를 들어 배경의 건물을 열기구로 교체해 보세요.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

Muse는 공식적으로 발표되자마자 빠르게 많은 관심을 받았습니다. 원본 게시물은 이미 4,000개 이상의 좋아요를 받았습니다.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

Google의 또 다른 걸작을 보고 일부 사람들은 다음과 같은 예측을 하기 시작했습니다.

현재 AI 개발자 간의 경쟁은 매우 치열하며 2023년은 매우 흥미로운 한 해가 될 것 같습니다.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음
효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

DALL·E 2 및 Imagen보다 효율적입니다

Google에서 방금 출시한 Muse로 돌아갑니다.

우선, 생성된 이미지의 품질 측면에서 Muse의 작품은 대부분 선명하고 자연스럽습니다.

더 많은 예를 살펴보면서 느껴보세요~

예를 들어 모직 모자를 쓴 나무늘보 아기가 컴퓨터를 조작하고 있는 경우도 있습니다. 또 다른 예는 와인잔 속의 양입니다.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

다양한 주제입니다. 보통 8개의 극으로 맞을 수 없는 것이 한 장의 그림 속에 조화롭게 공존하며 위화감이 없습니다.

이것이 AIGC의 기본 작업이라고만 생각하신다면 Muse의 편집 기능을 살펴보시는 것도 좋을 것 같습니다.

예를 들어 원클릭 의상 변경(성별 변경도 가능):

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

이 작업은 마스킹이 필요하지 않으며 한 문장으로 완료할 수 있습니다.

그리고 마스크를 사용하면 클릭 한 번으로 배경을 원래 장소에서 뉴욕, 파리, 샌프란시스코로 전환하는 등 6가지 작업을 더 수행할 수 있습니다.


해변에서 런던, 꽃 바다로 갈 수도 있고, 심지어 우주의 토성의 고리까지 날아가 신나는 스케이트보드 돌고래 점프를 할 수도 있습니다.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

(착한 놈, 구름을 타고 쉽게 여행할 수 있을 뿐만 아니라 클릭 한 번으로 하늘까지 날아갈 수도 있다...)

효과가 정말 뛰어납니다. 그렇다면 Muse 뒤에는 어떤 기술 지원이 있습니까? DALL·E 2 및 Imagen보다 효율성이 높은 이유는 무엇입니까?

중요한 이유는 DALL·E 2와 Imagen이 훈련 과정에서 학습된 모든 지식을 모델 매개변수에 저장해야 한다는 것입니다.

따라서 더 많은 지식을 습득하려면 더 크고 더 큰 모델과 더 많은 교육 데이터가 필요합니다. 이를 통해 Better and Bigger를 하나로 묶을 수 있습니다.

가격은 매개변수의 수가 엄청나고 효율성에도 영향을 미친다는 점입니다.

Google AI 팀에 따르면 그들이 사용하는 주요 방법은 마스크된 이미지 모델링이라고 합니다.

이것은 새로운 자기 감독 사전 훈련 방법입니다. 기본 아이디어는 다음과 같습니다.

입력 이미지의 일부가 무작위로 마스크 처리된 다음 사전 학습 텍스트 작업을 통해 재구성됩니다.

Muse 모델은 개별적으로 레이블이 지정된 공간 마스크에 대해 훈련되고 사전 훈련된 언어 대형 모델에서 추출된 텍스트와 결합되어 무작위로 마스크된 이미지 레이블을 예측합니다.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

위에서 아래로: 사전 훈련된 텍스트 인코더, 기본 모델, 초해상도 모델

Google 팀은 사전 훈련된 대규모 언어 모델을 사용하면 AI가 언어에 대한 더 자세한 이해를 철저하게 할 수 있다는 것을 발견했습니다.

출력 측면에서 AI는 물체의 공간적 관계, 자세 및 기타 요소를 잘 파악하기 때문에 생성된 이미지의 충실도가 높을 수 있습니다.

DALL·E 2 및 Imagen과 같은 픽셀 공간 확산 모델과 비교하여 Muse는 개별 토큰을 사용하며 샘플링 반복 횟수가 더 적습니다.

또한 Parti와 같은 자동 회귀 모델에 비해 Muse는 더 효율적인 병렬 디코딩을 사용합니다.

FID의 SOTA 점수

앞서 언급했듯이 Muse는 효율성이 향상되었을 뿐만 아니라 이미지 품질 생성에도 매우 뛰어납니다.

연구원들은 DALL·E, LAFITE, LDM, GLIDE, DALL·E 2는 물론 Google의 Imagen 및 Parti와 비교하고 FID 및 CLIP 점수를 테스트했습니다.

(FID 점수는 생성된 이미지의 품질을 평가하는 데 사용됩니다. 점수가 낮을수록 품질이 높으며, CLIP 점수는 텍스트와 이미지의 적합도를 나타냅니다. 점수가 높을수록 좋습니다.)

결과에 따르면 Muse-3B 모델은 COCO에서 검증되었습니다. 중앙 집중식 제로샷 FID-30K는 7.88점을 얻었으며, 매개변수가 더 큰 Imagen-3.4B 및 Parti-20B 모델에 이어 두 번째입니다.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

더욱 좋은 점은 Muse-900M 모델이 CC3M 데이터 세트에서 FID 점수 6.06으로 새로운 SOTA를 달성했다는 것입니다. 이는 텍스트와의 일치 정도가 가장 높다는 것을 의미합니다.

동시에 이 모델의 CLIP 점수도 0.26으로 동기간 최고치를 기록했습니다.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

또한 Muse의 이미지 렌더링 효율성을 더욱 확인하기 위해 연구원들은 Muse와 다른 모델의 단일 이미지 생성 시간도 비교했습니다.

Muse는 256x256 및 512x512에서 최고 해상도에 도달했습니다. 0.5초와 1.3초.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

Research Team

Muse의 연구팀은 Google 출신이며 두 명의 공동 저자는 Huiwen Chang과 Han Zhang입니다.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

Huiwen Chang, 현재 Google 수석 연구원.

청화대학교에서 학사학위를 취득하고 프린스턴대학교에서 박사학위를 취득했으며 Adobe, Facebook 등에서 인턴십 경험이 있습니다.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

Han Zhang은 중국 농업 대학교에서 학사 학위를, 베이징 우편 통신 대학교에서 석사 학위를, 러트거스 대학교에서 컴퓨터 과학 박사 학위를 받았습니다.

그의 연구 방향은 컴퓨터 비전, 딥 러닝, 의료 영상 분석입니다.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

그러나 Muse가 아직 공식적으로 출시되지 않았다는 점은 언급할 가치가 있습니다.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

일부 네티즌들은 향이 매우 좋아야 하지만 Google의 "소변 행동"으로 인해 Muse가 공식 출시까지는 아직 오랜 시간이 걸릴 수 있다고 농담했습니다. 결국 그들은 18년 동안 AI를 출시하지 않았습니다.

효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음

그러고보니 뮤즈의 효과에 대해 어떻게 생각하시나요?

정식 출시를 기대하시나요?

포털:​​https://www.php.cn/link/854f1fb6f65734d9e49f708d6cd84ad6​

참조 링크: https://twitter.com/AlphaSignalAI/status/1610404589966180360​

위 내용은 효율성이 DALL·E 2와 Imagen을 압도, Google의 새 모델은 새로운 SOTA를 달성하고 PS도 한 문장으로 처리할 수 있음의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제