구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요-일체 포함-php.cn

집

기술 주변기기

일체 포함

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

王林

Apr 09, 2023 pm 09:51 PM

Googleaiparti

친구 여러분, 이 영어 단어가 무엇인지 아시나요?

Pneumonoultramicroscopicsilicovolcanoconiosis.

이것은 세계에서 가장 긴 단어로 인식됩니다. 45자로 된 단어는 "폐에 화산 실리카 입자가 침착되어 발생하는 질병"(일반적으로 화산 규폐증으로 알려짐)을 의미합니다.

하지만 이 단어의 철자를 묻는 대신... 그림을 그리면 어떨까요?

(읽지도 못하는데 그림을 그리시나요???)

구글이 제안한 최신 AI Parti는 이런 문제를 쉽게 해결할 수 있습니다.

이 단어를 Parti에 "공급"하면 적절한 방식으로 여러 개의 합리적인 폐 질환 사진을 생성할 수 있습니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

그러나 이는 현재 가장 발전된 Google에 따르면 Parti의 능력에 대한 작은 테스트일 뿐입니다. '텍스트를 이미지로' AI.

예를 들어 "시드니 오페라 하우스와 에펠탑을 결합하세요"라고 말하면 출력 결과는 다음과 같습니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

(모르시면 정말 화보인 줄 알겠습니다)

그리고 알고리즘 경로에서는 수학적으로 Google 자체 Imagen과 다릅니다. Parti는 "AI 페인팅"을 새로운 수준으로 끌어 올렸다고 할 수 있습니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

Google AI 책임자인 Jeff Dean도 여러 번 트윗을 올리며 즐거운 시간을 보냈습니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

200억 개의 매개변수로 확장 가능: 더 현실적이고 "더 똑똑"

사실 반면에 Parti의 기능은 그렇지 않습니다. 거기서 멈춰라.

모델이 200억 개의 매개변수로 확장 가능하기 때문에 생성되는 이미지는 더욱 상세하고 사실적입니다.

단 몇 단어든, 50 단어가 넘는 짧은 단락이든 명확하게 표시할 수 있습니다.

예를 들어 바이올린 뒷면, 바이올린 뒷면.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

아니면 반 고흐의 "별이 빛나는 밤"에 묘사된 밤 풍경일 수도 있습니다. ps. 이 문단에는 67개의 단어가 있습니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

파티는 하나의 패키지로 모든 종류의 그림을 그릴 수 있다는 결과가 나왔습니다~

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

이것이 파티의 두 번째로 뛰어난 능력이기도 합니다. , 그러나 스타일을 변경할 수도 있습니다.

"너구리는 정장, 모자, 지팡이, 쓰레기봉투를 입고 있다"는 독특한 설명도 있어 디테일도 놓치지 않고 꽃같은 작품을 연출할 수 있다.

스타일로는 반고흐 스타일, 이집트 파라오 스타일, 픽셀 스타일, 중국 전통 회화 스타일, 추상 스타일...

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

때때로 말장난을 하기도 합니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

(Toad'ay)

특히 테스트 결과 측면에서 Parti는 MS-COCO 및 Localized Narrative(LN, 4배 긴 설명)에 대한 FID 점수 측면에서 가장 진보된 결과를 달성했습니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

특히 MS-COCO 제로 샘플의 FID 점수는 7.23에 불과하고, 미세 조정된 FID 점수는 3.22로 이전 Imagen과 DALL-E 2를 뛰어 넘었습니다.

모든 구성 요소는 트랜스포머입니다

한 달이 지난 후 Google은 AI 페인팅을 새로운 차원으로 끌어 올렸지만 저자는 다음과 같이 말했습니다. 비결은 간단합니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

Parti는 주로 텍스트 생성 이미지를 시퀀스 간 모델링으로 처리합니다. 이는 텍스트 토큰이 인코더에 대한 입력으로 제공되고 대상 출력이 텍스트에서 이미지로 변경되는 기계 번역과 다소 유사합니다.

구조적으로 모든 구성 요소는 인코더, 디코더, 이미지 태거의 세 부분으로만 구성되며 모두 표준 Transformer를 기반으로 합니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

먼저 이미지는 Transformer 기반 이미지 태거 ViT-VQGAN을 사용하여 개별 태그 시퀀스로 인코딩됩니다.

그리고 Transformer의 인코딩-디코딩 구조를 통해 매개변수가 200억개로 확장됩니다.

초기 GAN을 제외하고 텍스트로부터 이미지 생성에 대한 이전 연구는 크게 두 가지 아이디어로 나눌 수 있습니다.

One은 자동 회귀 모델을 기반으로 합니다. 먼저 텍스트 특징을 이미지 특징에 매핑한 다음 Transformer와 유사한 시퀀스 아키텍처를 사용하여 언어 입력과 이미지 출력 간의 관계를 학습합니다.

이 접근 방식의 핵심 구성 요소는 각 이미지를 일련의 개별 단위로 변환하는 이미지 태거입니다. 예를 들어 DALL-E와 CogView는 이 아이디어를 채택합니다.

다른 하나는 이 기간 동안 자주 발전해 온 경로입니다. DALL-E 2 및 Imagen과 같은 확산 기반의 텍스트-이미지 모델입니다.

그들은 이미지 태거를 버리고 대신 확산 모델을 사용하여 이미지를 직접 생성했습니다. 볼 수 있는 것은 이러한 모델이 더 높은 품질의 이미지를 생성하고 MS-COCO 제로 샷 FID에서 더 나은 점수를 얻는다는 것입니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

Parti 모델의 성공은 자동 회귀 모델을 사용하여 텍스트 생성 이미지의 효과를 향상시킬 수 있음을 입증했습니다.

동시에 Parti는 12개 카테고리와 11개 챌린지에서 모델의 능력을 측정하는 데 사용되는 새로운 벤치마크 테스트인 PartiPrompts도 도입 및 출시했습니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

파티에는 여전히 일정한 한계가 있고 연구원들은 몇 가지 버그도 보여주었습니다.

예를 들어 부정적인 설명은 쓸모가 없습니다~

바나나 없는 접시, 컵 옆에는 오렌지 주스 없는 유리잔.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

또한 불합리하게 크기를 조정하는 등 상식적인 실수도 저지르세요. 예를 들어, 이 사진에서 로봇은 경주용 자동차보다 몇 배나 더 큽니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

레이싱 슈트와 검은색 바이저를 착용한 반짝이는 로봇이 F1 차량 앞에 자랑스럽게 서 있습니다. 도시 풍경 위로 해가 집니다. 만화 그림입니다.

Google "롤 자신"

이 연구는 Google Research에서 수행되었으며 팀원 대부분은 중국인입니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

핵심 연구진으로는 Yuanzhong Xu, Thang Luong 등이 있으며, 현재 Google에서 AI 관련 연구를 진행하고 있습니다.

(Thang Luong은 Google Scholar에서 최대 20,000회 이상 인용되었습니다)

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

Δ왼쪽: Yuanzhong Xu; 오른쪽: Thang Luong

하지만 흥미로운 점은 둘 다 "AI가 그림을 그리도록 하는 단어"라는 것입니다. , 동일한 Imagen이 Google에서 생성되었으며 Parti와 많은 관련이 있습니다.

Parti의 GitHub 프로젝트 문서에 언급되어 있습니다.

Imagen을 출시하기 전에 최근 전체 결과를 공유해 주신 Imagen 팀에 감사드립니다.

CF 안내에서 중요한 발견은 최종 Parti 모델에 특히 도움이 되었습니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

그리고 Imagen의 작가 중 한 명인 Burcu Karagol Ayan도 Parti 프로젝트에 참여했습니다.

(Google이 "스스로 굴려"는 것과 같습니다)

그뿐만 아니라 "옆집" DALL-E 2의 저자인 Aditya Ramesh도 Parti에 대한 MS-COCO 평가에 대해 논의했습니다.

및 DALL-Eval 작성자도 Parti 데이터 작업에 도움을 제공했습니다.

한 가지 더

한 가지 말씀드릴 점은 "텍스트 생성 이미지"는 연구자만이 사랑하는 것이 아닙니다.

네티즌들은 이 게임을 가지고 '놀기'에 결코 지치지 않습니다(너무 상상력을 많이 발휘하지 마세요).

얼마 전 Imagen에게 송나라 'VR을 입은 호랑이'를 그려달라고 부탁했는데, 이것이 바로 AI 그림배틀로 진화했습니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

Δ사진: Art by Imagen

DALL·E, MidJourney 등이 "소식을 듣고" 참여하기 위해 왔습니다.

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

Δ DALL·E 그림

Wordle과 DALL-E 2의 조합도 있습니다:

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

...

그런데 이번에 Parti로 돌아오니 재미있긴 하지만 그래도 일부 네티즌들이 제기했습니다. "영혼을 꿰뚫는" 질문:

구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요

언제 상용화되나요? 혼자서 "밀폐된 문 뒤에서 노는" 것은 의미가 없습니다.

Parti 논문 주소:

https://parti.research.google/

GitHub 프로젝트 주소:

https://github.com/google-research/parti

참조 링크 :

[1]https://twitter.com/lmthang/status/1539664610596225024[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289 [3]https://imagen.research.google/

위 내용은 구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

谷歌三件套指的是哪三个软件Sep 30, 2022 pm 01:54 PM

谷歌三件套指的是：1、google play商店，即下载各种应用程序的平台，类似于移动助手，安卓用户可以在商店下载免费或付费的游戏和软件；2、Google Play服务，用于更新Google本家的应用和Google Play提供的其他第三方应用；3、谷歌服务框架（GMS），是系统软件里面可以删除的一个APK程序，通过谷歌平台上架的应用和游戏都需要框架的支持。

为什么中国不卖google手机Mar 30, 2023 pm 05:31 PM

中国不卖google手机的原因：谷歌已经全面退出中国市场了，所以不能在中国销售，在国内是没有合法途径销售。在中国消费市场中，消费者大都倾向于物美价廉以及功能实用的产品，所以竞争实力本就因政治因素大打折扣的谷歌手机主体市场一直不在中国大陆。

谷歌超强AI超算碾压英伟达A100！TPU v4性能提升10倍，细节首次公开Apr 07, 2023 pm 02:54 PM

虽然谷歌早在2020年，就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日，谷歌才首次公布了这台AI超算的技术细节。论文地址：https://arxiv.org/abs/2304.01433相比于TPU v3，TPU v4的性能要高出2.1倍，而在整合4096个芯片之后，超算的性能更是提升了10倍。另外，谷歌还声称，自家芯片要比英伟达A100更快、更节能。与A100对打，速度快1.7倍论文中，谷歌表示，对于规模相当的系统，TPU v4可以提供比英伟达A100强1.

谷歌并未放弃TensorFlow，将于2023年发布新版，明确四大支柱Apr 12, 2023 am 11:52 AM

2015 年，谷歌大脑开放了一个名为「TensorFlow」的研究项目，这款产品迅速流行起来，成为人工智能业界的主流深度学习框架，塑造了现代机器学习的生态系统。从那时起，成千上万的开源贡献者以及众多的开发人员、社区组织者、研究人员和教育工作者等都投入到这一开源软件库上。然而七年后的今天，故事的走向已经完全不同：谷歌的 TensorFlow 失去了开发者的拥护。因为 TensorFlow 用户已经开始转向 Meta 推出的另一款框架 PyTorch。众多开发者都认为 TensorFlow 已经输掉

LLM之战，谷歌输了！越来越多顶尖研究员跳槽OpenAIApr 07, 2023 pm 05:48 PM

前几天，谷歌差点遭遇一场公关危机，Bert一作、已跳槽OpenAI的前员工Jacob Devlin曝出，Bard竟是用ChatGPT的数据训练的。随后，谷歌火速否认。而这场争议，也牵出了一场大讨论：为什么越来越多Google顶尖研究员跳槽OpenAI？这场LLM战役它还能打赢吗？知友回复莱斯大学博士、知友「一堆废纸」表示，其实谷歌和OpenAI的差距，是数据的差距。「OpenAI对LLM有强大的执念，这是Google这类公司完全比不上的。当然人的差距只是一个方面，数据的差距以及对待数据的态度才

参数少量提升，性能指数爆发！谷歌：大语言模型暗藏「神秘技能」Apr 11, 2023 pm 11:16 PM

由于可以做一些没训练过的事情，大型语言模型似乎具有某种魔力，也因此成为了媒体和研究员炒作和关注的焦点。当扩展大型语言模型时，偶尔会出现一些较小模型没有的新能力，这种类似于「创造力」的属性被称作「突现」能力，代表我们向通用人工智能迈进了一大步。如今，来自谷歌、斯坦福、Deepmind和北卡罗来纳大学的研究人员，正在探索大型语言模型中的「突现」能力。解码器提示的 DALL-E神奇的「突现」能力自然语言处理（NLP）已经被基于大量文本数据训练的语言模型彻底改变。扩大语言模型的规模通常会提高一系列下游N

四分钟对打300多次，谷歌教会机器人打乒乓球Apr 10, 2023 am 09:11 AM

让一位乒乓球爱好者和机器人对打，按照机器人的发展趋势来看，谁输谁赢还真说不准。机器人拥有灵巧的可操作性、腿部运动灵活、抓握能力出色…… 已被广泛应用于各种挑战任务。但在与人类互动紧密的任务中，机器人的表现又如何呢？就拿乒乓球来说，这需要双方高度配合，并且球的运动非常快速，这对算法提出了重大挑战。在乒乓球比赛中，首要的就是速度和精度，这对学习算法提出了很高的要求。同时，这项运动具有高度结构化（具有固定的、可预测的环境）和多智能体协作（机器人可以与人类或其他机器人一起对打）两大特点，使其成为研究人

超5800亿美元！微软谷歌神仙打架，让英伟达市值飙升，约为5个英特尔Apr 11, 2023 pm 04:31 PM

ChatGPT在手，有问必答。你可知，与它每次对话的计算成本简直让人泪目。此前，分析师称ChatGPT回复一次，需要2美分。要知道，人工智能聊天机器人所需的算力背后烧的可是GPU。这恰恰让像英伟达这样的芯片公司豪赚了一把。2月23日，英伟达股价飙升，使其市值增加了700多亿美元，总市值超5800亿美元，大约是英特尔的5倍。在英伟达之外，AMD可以称得上是图形处理器行业的第二大厂商，市场份额约为20%。而英特尔持有不到1%的市场份额。ChatGPT在跑，英伟达在赚随着ChatGPT解锁潜在的应用案

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.