친구 여러분, 이 영어 단어가 무엇인지 아시나요?
Pneumonoultramicroscopicsilicovolcanoconiosis.
이것은 세계에서 가장 긴 단어로 인식됩니다. 45자로 된 단어는 "폐에 화산 실리카 입자가 침착되어 발생하는 질병"(일반적으로 화산 규폐증으로 알려짐)을 의미합니다.
하지만 이 단어의 철자를 묻는 대신... 그림을 그리면 어떨까요?
(읽지도 못하는데 그림을 그리시나요???)
구글이 제안한 최신 AI Parti는 이런 문제를 쉽게 해결할 수 있습니다.
이 단어를 Parti에 "공급"하면 적절한 방식으로 여러 개의 합리적인 폐 질환 사진을 생성할 수 있습니다.
그러나 이는 현재 가장 발전된 Google에 따르면 Parti의 능력에 대한 작은 테스트일 뿐입니다. '텍스트를 이미지로' AI.
예를 들어 "시드니 오페라 하우스와 에펠탑을 결합하세요"라고 말하면 출력 결과는 다음과 같습니다.
(모르시면 정말 화보인 줄 알겠습니다)
그리고 알고리즘 경로에서는 수학적으로 Google 자체 Imagen과 다릅니다. Parti는 "AI 페인팅"을 새로운 수준으로 끌어 올렸다고 할 수 있습니다.
Google AI 책임자인 Jeff Dean도 여러 번 트윗을 올리며 즐거운 시간을 보냈습니다.
사실 반면에 Parti의 기능은 그렇지 않습니다. 거기서 멈춰라.
모델이 200억 개의 매개변수로 확장 가능하기 때문에 생성되는 이미지는 더욱 상세하고 사실적입니다.
단 몇 단어든, 50 단어가 넘는 짧은 단락이든 명확하게 표시할 수 있습니다.
예를 들어 바이올린 뒷면, 바이올린 뒷면.
아니면 반 고흐의 "별이 빛나는 밤"에 묘사된 밤 풍경일 수도 있습니다. ps. 이 문단에는 67개의 단어가 있습니다.
파티는 하나의 패키지로 모든 종류의 그림을 그릴 수 있다는 결과가 나왔습니다~
이것이 파티의 두 번째로 뛰어난 능력이기도 합니다. , 그러나 스타일을 변경할 수도 있습니다.
"너구리는 정장, 모자, 지팡이, 쓰레기봉투를 입고 있다"는 독특한 설명도 있어 디테일도 놓치지 않고 꽃같은 작품을 연출할 수 있다.
스타일로는 반고흐 스타일, 이집트 파라오 스타일, 픽셀 스타일, 중국 전통 회화 스타일, 추상 스타일...
때때로 말장난을 하기도 합니다.
(Toad'ay)
특히 테스트 결과 측면에서 Parti는 MS-COCO 및 Localized Narrative(LN, 4배 긴 설명)에 대한 FID 점수 측면에서 가장 진보된 결과를 달성했습니다.
특히 MS-COCO 제로 샘플의 FID 점수는 7.23에 불과하고, 미세 조정된 FID 점수는 3.22로 이전 Imagen과 DALL-E 2를 뛰어 넘었습니다.
한 달이 지난 후 Google은 AI 페인팅을 새로운 차원으로 끌어 올렸지만 저자는 다음과 같이 말했습니다. 비결은 간단합니다.
Parti는 주로 텍스트 생성 이미지를 시퀀스 간 모델링으로 처리합니다. 이는 텍스트 토큰이 인코더에 대한 입력으로 제공되고 대상 출력이 텍스트에서 이미지로 변경되는 기계 번역과 다소 유사합니다.
구조적으로 모든 구성 요소는 인코더, 디코더, 이미지 태거의 세 부분으로만 구성되며 모두 표준 Transformer를 기반으로 합니다.
먼저 이미지는 Transformer 기반 이미지 태거 ViT-VQGAN을 사용하여 개별 태그 시퀀스로 인코딩됩니다.
그리고 Transformer의 인코딩-디코딩 구조를 통해 매개변수가 200억개로 확장됩니다.
초기 GAN을 제외하고 텍스트로부터 이미지 생성에 대한 이전 연구는 크게 두 가지 아이디어로 나눌 수 있습니다.
One은 자동 회귀 모델을 기반으로 합니다. 먼저 텍스트 특징을 이미지 특징에 매핑한 다음 Transformer와 유사한 시퀀스 아키텍처를 사용하여 언어 입력과 이미지 출력 간의 관계를 학습합니다.
이 접근 방식의 핵심 구성 요소는 각 이미지를 일련의 개별 단위로 변환하는 이미지 태거입니다. 예를 들어 DALL-E와 CogView는 이 아이디어를 채택합니다.
다른 하나는 이 기간 동안 자주 발전해 온 경로입니다. DALL-E 2 및 Imagen과 같은 확산 기반의 텍스트-이미지 모델입니다.
그들은 이미지 태거를 버리고 대신 확산 모델을 사용하여 이미지를 직접 생성했습니다. 볼 수 있는 것은 이러한 모델이 더 높은 품질의 이미지를 생성하고 MS-COCO 제로 샷 FID에서 더 나은 점수를 얻는다는 것입니다.
Parti 모델의 성공은 자동 회귀 모델을 사용하여 텍스트 생성 이미지의 효과를 향상시킬 수 있음을 입증했습니다.
동시에 Parti는 12개 카테고리와 11개 챌린지에서 모델의 능력을 측정하는 데 사용되는 새로운 벤치마크 테스트인 PartiPrompts도 도입 및 출시했습니다.
파티에는 여전히 일정한 한계가 있고 연구원들은 몇 가지 버그도 보여주었습니다.
예를 들어 부정적인 설명은 쓸모가 없습니다~
바나나 없는 접시, 컵 옆에는 오렌지 주스 없는 유리잔.
또한 불합리하게 크기를 조정하는 등 상식적인 실수도 저지르세요. 예를 들어, 이 사진에서 로봇은 경주용 자동차보다 몇 배나 더 큽니다.
레이싱 슈트와 검은색 바이저를 착용한 반짝이는 로봇이 F1 차량 앞에 자랑스럽게 서 있습니다. 도시 풍경 위로 해가 집니다. 만화 그림입니다.
이 연구는 Google Research에서 수행되었으며 팀원 대부분은 중국인입니다.
핵심 연구진으로는 Yuanzhong Xu, Thang Luong 등이 있으며, 현재 Google에서 AI 관련 연구를 진행하고 있습니다.
(Thang Luong은 Google Scholar에서 최대 20,000회 이상 인용되었습니다)
Δ왼쪽: Yuanzhong Xu; 오른쪽: Thang Luong
하지만 흥미로운 점은 둘 다 "AI가 그림을 그리도록 하는 단어"라는 것입니다. , 동일한 Imagen이 Google에서 생성되었으며 Parti와 많은 관련이 있습니다.
Parti의 GitHub 프로젝트 문서에 언급되어 있습니다.
Imagen을 출시하기 전에 최근 전체 결과를 공유해 주신 Imagen 팀에 감사드립니다.
CF 안내에서 중요한 발견은 최종 Parti 모델에 특히 도움이 되었습니다.
그리고 Imagen의 작가 중 한 명인 Burcu Karagol Ayan도 Parti 프로젝트에 참여했습니다.
(Google이 "스스로 굴려"는 것과 같습니다)
그뿐만 아니라 "옆집" DALL-E 2의 저자인 Aditya Ramesh도 Parti에 대한 MS-COCO 평가에 대해 논의했습니다.
및 DALL-Eval 작성자도 Parti 데이터 작업에 도움을 제공했습니다.
한 가지 말씀드릴 점은 "텍스트 생성 이미지"는 연구자만이 사랑하는 것이 아닙니다.
네티즌들은 이 게임을 가지고 '놀기'에 결코 지치지 않습니다(너무 상상력을 많이 발휘하지 마세요).
얼마 전 Imagen에게 송나라 'VR을 입은 호랑이'를 그려달라고 부탁했는데, 이것이 바로 AI 그림배틀로 진화했습니다.
Δ사진: Art by Imagen
DALL·E, MidJourney 등이 "소식을 듣고" 참여하기 위해 왔습니다.
Δ DALL·E 그림
Wordle과 DALL-E 2의 조합도 있습니다:
...
그런데 이번에 Parti로 돌아오니 재미있긴 하지만 그래도 일부 네티즌들이 제기했습니다. "영혼을 꿰뚫는" 질문:
언제 상용화되나요? 혼자서 "밀폐된 문 뒤에서 노는" 것은 의미가 없습니다.
Parti 논문 주소:
https://parti.research.google/
GitHub 프로젝트 주소:
https://github.com/google-research/parti
참조 링크 :
[1]https://twitter.com/lmthang/status/1539664610596225024[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289 [3]https://imagen.research.google/
위 내용은 구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!