찾다
기술 주변기기일체 포함대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.

현재 대형 언어 모델(LLM)은 자연어 처리(NLP) 분야에 변화의 물결을 일으키고 있습니다. 우리는 LLM이 강력한 창발적 역량을 갖고 있으며 복잡한 언어 이해 작업, 생성 작업, 심지어 추론 작업까지 잘 수행한다는 것을 알 수 있습니다. 이는 사람들이 기계 학습의 또 다른 하위 분야인 컴퓨터 비전(CV)에서 LLM의 잠재력을 더 탐구하도록 영감을 줍니다.

LLM의 뛰어난 재능 중 하나는 상황에 맞게 학습하는 능력입니다. 상황별 학습은 LLM의 어떤 매개변수도 업데이트하지 않지만, 다양한 NLP 작업에서 놀라운 결과를 보여줍니다. 그렇다면 GPT는 상황별 학습을 통해 시각적 작업을 해결할 수 있을까요?

최근 Google과 Carnegie Mellon University(CMU)의 연구원들은 이미지(또는 기타 비언어적 양식)를 LLM이 이해할 수 있는 언어로 변환할 수 있다면 이것이 가능해 보인다는 것을 보여주는 논문을 공동으로 발표했습니다.

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.Pictures

논문 주소: https://arxiv.org/abs/2306.17842

이 논문은 상황별 학습을 통해 시각적 작업을 해결하는 PaLM 또는 GPT의 능력을 밝히고 새로운 방법 SPAE( 시맨틱 피라미드 자동 인코더). 이 새로운 접근 방식을 통해 LLM은 매개변수 업데이트 없이 이미지 생성 작업을 수행할 수 있습니다. 이는 LLM이 이미지 콘텐츠를 생성할 수 있도록 상황별 학습을 사용하는 최초의 성공적인 방법이기도 합니다.

먼저 상황별 학습을 통해 이미지 콘텐츠를 생성하는 LLM의 실험 결과를 살펴보겠습니다.

예를 들어, 주어진 맥락에서 50개의 손글씨 이미지를 제공함으로써 논문은 PaLM 2에게 디지털 이미지를 출력으로 생성해야 하는 복잡한 쿼리에 답하도록 요청합니다. 이미지 입력 ​​없이 사실적인 실제 이미지 생성:

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.pictures

PaLM 2는 이미지 생성 외에도 상황 학습을 통해 이미지 설명도 수행할 수 있습니다.

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.

이미지도 있습니다. 관련 문제 시각적 Q&A:

Pictures대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.

노이즈를 제거하고 비디오를 생성할 수도 있습니다.

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.Pictures

방법 개요

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.실제로 이미지 변환 LLM이 할 수 있는 언어로 이해는 ViT(Visual Transformer) 논문에서 연구된 문제입니다. Google과 CMU의 이 논문에서는 실제 단어를 사용하여 이미지를 표현하는 다음 단계로 나아갑니다.

이 접근 방식은 텍스트로 가득 찬 탑을 쌓고 이미지의 의미와 세부 사항을 포착하는 것과 같습니다. 텍스트로 채워진 이 표현을 사용하면 이미지 설명을 쉽게 생성할 수 있으며 LLM이 이미지 관련 질문에 답하고 이미지 픽셀을 재구성할 수도 있습니다.

구체적으로, 이 연구에서는 훈련된 인코더와 CLIP 모델을 사용하여 이미지를 토큰 공간으로 변환한 다음 LLM을 사용하여 적절한 어휘 토큰을 생성하고 마지막으로 훈련된 디코더를 사용하여 이를 변환할 것을 제안합니다. 다시 픽셀 공간으로 변환됩니다. 이 독창적인 프로세스는 이미지를 LLM이 이해할 수 있는 언어로 변환하여 비전 작업에서 LLM의 생성 능력을 활용할 수 있도록 해줍니다.

실험 및 결과

본 연구에서는 SPAE와 SOTA 방식 Frozen 및 LQAE를 실험적으로 비교하였으며, 그 결과를 아래 표 1에 나타내었다. SPAEGPT는 2%의 토큰만 사용하면서 모든 작업에서 LQAE보다 성능이 뛰어납니다.

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.Pictures

전체적으로 mini-ImageNet 벤치마크 테스트 결과 SPAE 방식은 이전 SOTA 방식에 비해 성능이 25% 향상되는 것으로 나타났습니다.

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.Pictures

본 연구에서는 SPAE 설계 방법의 유효성을 검증하기 위해 Ablation 실험을 실시하였고, 실험 결과는 아래 Table 4와 Figure 10에 나타내었다.

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.Pictures

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.Pictures

관심 있는 독자는 논문의 원문을 읽고 연구 내용에 대해 자세히 알아볼 수 있습니다.

위 내용은 대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법Apr 12, 2025 pm 12:09 PM

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서Apr 12, 2025 pm 12:00 PM

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서Apr 12, 2025 am 11:58 AM

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Apr 12, 2025 am 11:52 AM

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.Apr 12, 2025 am 11:51 AM

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

생성 AI는 사이코브블을 만난다생성 AI는 사이코브블을 만난다Apr 12, 2025 am 11:50 AM

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 ​​할 일

프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다Apr 12, 2025 am 11:49 AM

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

AI 분석가의 부상 : AI 혁명에서 이것이 가장 중요한 일이 될 수있는 이유AI 분석가의 부상 : AI 혁명에서 이것이 가장 중요한 일이 될 수있는 이유Apr 12, 2025 am 11:41 AM

최근 Enterprise Analytics 플랫폼 Alteryx의 CEO 인 Andy MacMillan과의 대화는 AI 혁명 에서이 비판적이면서도 저평가 된 역할을 강조했습니다. MacMillan에서 설명했듯이 원시 비즈니스 데이터와 AI-Ready Informat의 격차

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.