순수 텍스트 모델은 '시각적' 표현을 학습합니다! MIT의 최신 연구: 언어 모델은 코드를 사용하여 그림을 그릴 수 있습니다-일체 포함-php.cn

집

기술 주변기기

일체 포함

순수 텍스트 모델은 '시각적' 표현을 학습합니다! MIT의 최신 연구: 언어 모델은 코드를 사용하여 그림을 그릴 수 있습니다

王林

Feb 01, 2024 pm 09:12 PM

모델기차준비

"읽기"만 가능한 대규모 언어 모델이 실제 시각적 인식을 갖습니까? 문자열 간의 관계를 모델링함으로써 언어 모델은 시각적 세계에 대해 정확히 무엇을 배울 수 있습니까?

최근 MIT CSAIL(컴퓨터 과학 및 인공 지능 연구소)의 연구원들은 시각적 기능에 중점을 두고 언어 모델을 평가했습니다. 그들은 단순한 모양과 물체부터 복잡한 장면에 이르기까지 점점 더 복잡해지는 시각적 개념을 생성하고 인식하도록 요청하여 모델의 능력을 테스트했습니다. 연구원들은 또한 텍스트 전용 모델을 사용하여 예비 시각적 표현 학습 시스템을 훈련하는 방법을 보여주었습니다. 이 연구를 통해 그들은 시각적 표현 학습 시스템의 추가 개발 및 개선을 위한 기반을 마련했습니다.

순수 텍스트 모델은 시각적 표현을 학습합니다! MIT의 최신 연구: 언어 모델은 코드를 사용하여 그림을 그릴 수 있습니다

논문 링크: https://arxiv.org/abs/2401.01862

언어 모델은 시각적 정보를 처리할 수 없기 때문에 연구에서는 코드를 사용하여 이미지를 렌더링합니다.

LLM에서 생성된 이미지는 자연 이미지만큼 현실적이지 않을 수 있지만 생성 결과와 모델의 자체 수정을 통해 문자열/텍스트를 정확하게 모델링할 수 있으므로 언어 모델이 학습할 수 있습니다. 다양한 개념의 시각적 세계.

연구원들은 텍스트 모델에서 생성된 이미지를 사용하여 자기 지도형 시각적 표현 학습 방법도 연구했습니다. 결과는 이 방법이 비전 모델을 훈련하고 LLM만을 사용하여 자연 이미지의 의미론적 평가를 수행하는 데 사용될 가능성이 있음을 보여줍니다.

언어 모델의 시각적 개념

먼저 질문하세요. 사람들이 "개구리"의 시각적 개념을 이해한다는 것은 무엇을 의미합니까?

피부색, 다리 개수, 눈 위치, 점프할 때의 모습 등 세부 사항만 알면 충분할까요?

사람들은 종종 개구리의 개념을 이해하려면 개구리의 이미지를 보고 다양한 각도와 실제 시나리오에서 관찰해야 한다고 생각합니다.

텍스트만 관찰하면 다양한 개념의 시각적 의미를 어디까지 이해할 수 있나요?

모델 학습 관점에서 보면 LLM(대형 언어 모델)의 학습 입력은 텍스트 데이터일 뿐이지만, 모델이 모양, 색상 등 개념에 대한 정보를 이해하고 비전으로 변환할 수도 있음이 입증되었습니다. 모델 표현의 선형 변환을 통해.

순수 텍스트 모델은 시각적 표현을 학습합니다! MIT의 최신 연구: 언어 모델은 코드를 사용하여 그림을 그릴 수 있습니다

즉, 시각적 모델과 언어 모델은 세계 표현 측면에서 매우 유사합니다.

그러나 모델 특성화를 위한 대부분의 기존 방법은 모델이 인코딩하는 정보를 탐색하기 위해 미리 선택된 속성 세트를 기반으로 합니다. 이 방법은 속성을 동적으로 확장할 수 없으며 모델의 내부 매개변수에 대한 액세스도 필요합니다. .

순수 텍스트 모델은 시각적 표현을 학습합니다! MIT의 최신 연구: 언어 모델은 코드를 사용하여 그림을 그릴 수 있습니다

그래서 연구자들은 두 가지 질문을 제기했습니다.

1. 언어 모델은 시각적 세계에 대해 얼마나 알고 있습니까?

2. "텍스트 모델만 사용하여" 자연스러운 이미지에 사용할 수 있는 시각적 시스템을 훈련할 수 있나요?

연구자들은 렌더링(그리기)에서 다양한 언어 모델을 테스트하고 실제 시각적 개념을 인식(참조)하여 모델에 어떤 정보가 포함되어 있는지 평가함으로써 측정을 수행했습니다. 각 속성에 대해 개별적으로 기능 분류기를 훈련합니다.

언어 모델은 이미지를 생성할 수 없지만 GPT-4와 같은 대형 모델은 객체 렌더링을 위한 코드를 생성할 수 있습니다. 이 기사에서는 텍스트 프롬프트 -> 코드 -> 이미지 프로세스를 사용하여 측정할 객체 렌더링의 난이도를 점차 높입니다. 모델 능력.

연구원들은 LLM이 여러 객체로 구성된 복잡한 시각적 장면을 생성하는 데 놀라울 정도로 뛰어나고 공간 관계를 효율적으로 모델링할 수 있지만 질감, 정확한 모양 및 색상과 같은 객체의 속성을 포함하여 시각적 세계를 잘 포착할 수 없다는 사실을 발견했습니다. 이미지의 다른 물체와의 표면 접촉.

또한 기사에서는 지각 개념을 식별하는 LLM의 능력을 평가하고 코드로 표현된 그림을 입력하며 코드에는 모양의 순서, 위치 및 색상이 포함된 다음 언어 모델에 설명된 시각적 내용에 답하도록 요청합니다. 코드.

순수 텍스트 모델은 시각적 표현을 학습합니다! MIT의 최신 연구: 언어 모델은 코드를 사용하여 그림을 그릴 수 있습니다

실험 결과 LLM은 인간과 정반대라는 사실이 밝혀졌습니다. 인간의 경우 코드 작성 과정은 어렵지만 모델은 어려운 반면 이미지의 내용을 확인하는 것은 쉽습니다. 코드의 내용을 해석/인식하지만 복잡한 장면을 생성할 수 있습니다.

또한 연구 결과는 텍스트 기반 교정을 통해 언어 모델의 시각적 생성 능력이 더욱 향상될 수 있음을 입증했습니다.

연구원들은 먼저 언어 모델을 사용하여 개념을 설명하는 코드를 생성한 다음 코드를 수정하는 조건으로 "생성된 코드 개선"이라는 프롬프트를 지속적으로 입력하여 최종 모델을 생성할 수 있습니다. 이러한 반복적인 접근 방식을 통해 시각적 효과가 향상되었습니다.

순수 텍스트 모델은 시각적 표현을 학습합니다! MIT의 최신 연구: 언어 모델은 코드를 사용하여 그림을 그릴 수 있습니다

시각적 능력 데이터 세트: 장면 가리키기

연구원들은 낮은 수준에서 높은 수준의 복잡성으로 이미지 렌더링 코드를 생성, 인식 및 수정하는 모델의 능력을 측정하기 위해 세 가지 텍스트 설명 데이터 세트를 구축했습니다. , 사물 및 복잡한 장면.

순수 텍스트 모델은 시각적 표현을 학습합니다! MIT의 최신 연구: 언어 모델은 코드를 사용하여 그림을 그릴 수 있습니다

1. 모양과 그 구성

에는 점, 선, 2D 모양 및 3D 모양과 같은 다양한 범주의 모양 구성이 포함되어 있으며 색상, 질감, 위치, 공간 배치.

전체 데이터 세트에는 400,000개 이상의 예가 포함되어 있으며 그 중 1500개의 샘플이 실험 테스트에 사용됩니다.

2. 객체

ADE 20K 데이터세트에서 가장 일반적인 객체 1000개가 포함되어 있으며, 더 복잡한 모양 조합이 포함되어 있기 때문에 생성 및 인식이 더 어렵습니다.

3. 장면

은 여러 개체와 다양한 위치를 포함하는 복잡한 장면 설명으로 구성되며 MS-COCO 데이터 세트에서 1000개의 장면 설명을 무작위로 균일하게 샘플링하여 얻습니다.

데이터 세트의 시각적 개념은 언어로 설명됩니다. 예를 들어 장면 설명은 "푸른 하늘과 잔잔한 바다가 있는 해변의 화창한 여름날"입니다.

테스트 과정에서 LLM은 묘사된 장면을 기반으로 코드를 생성하고 렌더링된 이미지를 컴파일하라는 요청을 받았습니다.

실험 결과

모델 평가 작업은 크게 세 가지로 구성됩니다.

1. 텍스트 생성/그리기: 특정 개념에 해당하는 이미지 렌더링 코드를 생성하는 LLM의 능력을 평가합니다.

2. 텍스트 인식/보기: 코드로 표현된 시각적 개념과 장면을 인식하는 LLM의 성능을 테스트합니다. 우리는 각 모델에서 사람 그림의 코드 표현을 테스트합니다.

3. 텍스트 피드백을 사용하여 그림 수정: 생성된 자연어 피드백을 사용하여 생성된 코드를 반복적으로 수정하는 LLM의 능력을 평가합니다.

테스트에서 모델 입력에 대한 프롬프트는 다음과 같습니다. [개념]을 그리는 프로그래밍 언어 [프로그래밍 언어 이름]으로 코드를 작성합니다. 그런 다음 모델의 출력 코드에 따라 컴파일하고 렌더링하고 시각적으로 이미지 생성 품질과 다양성이 평가됩니다.

1. 충실도

이미지에 대한 최상의 설명을 검색하여 생성된 이미지와 실제 설명 간의 충실도를 계산합니다. CLIP 점수는 먼저 각 이미지와 동일한 카테고리(모양/물체/장면)의 모든 잠재적 설명 간의 일치도를 계산하는 데 사용되며, 실제 설명의 순위는 백분율로 보고됩니다(예: 100% 점수는 진짜 컨셉이 1순위라는 것) .

2. 다양성

모델의 다양한 콘텐츠 렌더링 능력을 평가하기 위해 동일한 시각적 개념을 나타내는 이미지 쌍에 LPIPS 다양성 점수가 사용됩니다.

3. 사실주의

ImageNet에서 샘플링한 1K 이미지 컬렉션의 경우 FID(Fréchet Inception Distance)를 사용하여 자연 이미지와 LLM 생성 이미지 간의 분포 차이를 수량화합니다.

비교 실험에서는 Stable Diffusion으로 얻은 모델을 기준으로 사용했습니다.

LLM은 무엇을 시각화할 수 있나요?

연구 결과에 따르면 LLM은 전체 시각적 계층 구조에서 실제 개념을 시각화하고, 관련 없는 두 가지 개념(예: 자동차 모양 케이크)을 결합하고, 시각적 현상(예: 흐릿한 이미지)을 생성하고, 공간을 올바르게 해석할 수 있는 것으로 나타났습니다. 관계(예: 가로로 배열된 "자전거 열") ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

순수 텍스트 모델은 시각적 표현을 학습합니다! MIT의 최신 연구: 언어 모델은 코드를 사용하여 그림을 그릴 수 있습니다

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

역시 CLIP 점수 결과를 보면, 모양에서 장면으로 개념적 복잡성이 증가함에 따라 모델의 기능은 감소합니다.

여러 개체가 포함된 장면 그리기와 같은 더 복잡한 시각적 개념의 경우 처리 및 tikz를 사용하여 더 정확한 복잡한 설명이 있는 장면을 그릴 때 GPT-3.5 및 GPT-4가 python-matplotlib 및 python-turtle보다 낫습니다. .

물체와 장면의 경우 "사람", "차량", "야외 장면"을 포함한 개념이 가장 그리기 쉽다는 것을 CLIP 점수는 보여줍니다. 복잡한 장면을 렌더링하는 이러한 능력은 렌더링 코드의 표현력에서 비롯됩니다. 모델은 시나리오 내의 각 프로그래밍 기능과 관련된 다양한 개념의 내부 표현의 품질에 있습니다.

LLM이 시각화할 수 없는 것은 무엇입니까?

어떤 경우에는 비교적 단순한 개념으로도 모델을 그리기가 어려운데, 연구자들은 세 가지 일반적인 실패 모드를 요약했습니다.

1. 언어 모델은 일련의 모양과 특정 개념을 처리할 수 없습니다. 2. 특히 matplotlib 및 거북이 코딩을 사용할 때 Davinci에서 가장 흔히 볼 수 있는 거친 그림 및 세부 사항 부족 3. 개념(일반적인 시나리오 범주). 4. 모든 모델은 그림을 그릴 수 없습니다. 다양성과 현실성언어 모델은 동일한 개념에 대해 다양한 시각화를 생성하는 능력을 보여줍니다. 동일한 장면의 다양한 샘플을 생성하기 위해 이 기사에서는 두 가지 전략을 비교합니다. 1. 모델에서 반복 샘플링 2 매개변수를 변경하여 생성할 수 있는 샘플링. 개념의 새로운 플롯. 시각적 개념의 다양한 구현을 표현하는 모델의 능력은 높은 LPIPS 다양성 점수에 반영됩니다. 다양한 이미지를 생성하는 능력은 LLM이 특정 방식에 국한되지 않고 다양한 방식으로 시각적 개념을 표현할 수 있음을 보여줍니다. 한정 세트 프로토타입. LLM에서 생성된 이미지는 자연 이미지보다 훨씬 덜 사실적이며 Stable Diffusion에 비해 FID 측정 기준에서 모델 점수가 매우 낮지만 최신 모델은 이전 모델보다 성능이 더 좋습니다. 텍스트에서 시각적 시스템 학습훈련 및 평가연구원들은 비지도 학습으로 얻은 사전 훈련된 시각적 모델을 네트워크의 백본으로 사용했으며, MoCo-v2 방법을 사용하여 130만 개를 생성했습니다. LLM의 384× ResNet-50 모델은 총 200개의 에포크 동안 384개 이미지 데이터세트에서 교육되었습니다. 교육 후에는 각 데이터세트에 대해 교육된 모델의 성능을 평가하는 데 두 가지 방법이 사용됩니다. 1. ImageNet-1 k 분류 100 epoch 동안 백본의 선형 레이어를 훈련합니다.

2 ImageNet-100에서 5-최근접 이웃(kNN) 검색을 사용합니다.

순수 텍스트 모델은 시각적 표현을 학습합니다! MIT의 최신 연구: 언어 모델은 코드를 사용하여 그림을 그릴 수 있습니다

결과에서 볼 수 있듯이 LLM에서 생성된 데이터만을 사용하여 학습한 모델은 선형 레이어를 학습할 필요 없이 자연 이미지에 대한 강력한 표현 기능을 제공할 수 있습니다.

결과 분석

연구원들은 LLM에서 생성된 이미지를 데드 레바브, 프랙탈, StyleGAN과 같은 간단한 생성 프로그램을 포함한 기존 프로그램에서 생성된 이미지와 비교하여 매우 다양한 이미지를 생성했습니다.

결과에서 LLM 방법은 데드 레바브 및 프랙탈보다 우수하지만 데이터를 수동으로 검사한 후 연구원들은 이러한 열등함을 확인했습니다. 대부분의 LLM 생성 이미지에는 질감이 부족합니다. .

이 문제를 해결하기 위해 연구원들은 Shaders-21k 데이터 세트를 LLM에서 얻은 샘플과 결합하여 질감이 풍부한 이미지를 생성했습니다.

결과에서 볼 수 있듯이 이 솔루션은 성능을 크게 향상시키고 다른 프로그램 생성 솔루션보다 성능이 뛰어납니다.

위 내용은 순수 텍스트 모델은 '시각적' 표현을 학습합니다! MIT의 최신 연구: 언어 모델은 코드를 사용하여 그림을 그릴 수 있습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

무지의 베일 뒤에 직장 AI를 만들어야합니다.Apr 29, 2025 am 11:15 AM

존 롤스 (John Rawls)의 1971 년 책 The Justice의 이론에서 그는 오늘날의 AI 디자인의 핵심으로 취해야 할 사고 실험을 제안하고 의사 결정 : 무지의 베일을 제안했다. 이 철학은 형평성을 이해하기위한 간단한 도구를 제공하며 리더 가이 이해를 사용하여 AI를 공평한 방식으로 설계하고 구현할 수있는 청사진을 제공합니다. 새로운 사회에 대한 규칙을 만들고 있다고 상상해보십시오. 그러나 전제가 있습니다.이 사회에서 어떤 역할을할지 미리 알 수 없습니다. 당신은 부자 또는 가난하거나 건강하거나 장애가있을 수 있으며 다수 또는 소수의 소수에 속할 수 있습니다. 이 "무지의 베일"하에 운영되면 규칙 제조업체가 스스로 이익을 얻는 결정을 내리지 못하게합니다. 반대로, 사람들은 대중을 공식화하도록 더 동기를 부여받을 것입니다

결정, 결정… 실용적인 적용 AI를위한 다음 단계Apr 29, 2025 am 11:14 AM

수많은 회사들이 로봇 프로세스 자동화 (RPA)를 전문으로하며, 반복적 인 작업과 같은 반복적 인 작업 (어디서나 자동화, 파란색 프리즘 등)를 제공하는 봇을 제공합니다. 한편, 프로세스 마이닝, 오케스트레이션 및 지능형 문서 처리 Speciali

에이전트가오고 있습니다 - AI 파트너 옆에서 우리가 할 일에 대해 더 많이Apr 29, 2025 am 11:13 AM

AI의 미래는 간단한 단어 예측과 대화 시뮬레이션을 넘어서고 있습니다. AI 에이전트는 새로운 행동 및 작업 완료가 가능합니다. 이러한 변화는 이미 Anthropic의 Claude와 같은 도구에서 분명합니다. AI 요원 : 연구 a

AI 중심의 미래에 리더를위한 통제보다 공감이 더 중요한 이유Apr 29, 2025 am 11:12 AM

빠른 기술 발전은 미래의 업무에 대한 미래 지향적 인 관점을 필요로합니다. AI가 단순한 생산성 향상을 초월하고 사회적 구조를 형성하기 시작하면 어떻게됩니까? Topher McDougal의 다가오는 책인 Gaia Wakes :

제품 분류를위한 AI : 기계가 세법을 마스터 할 수 있습니까?Apr 29, 2025 am 11:11 AM

조화 시스템 (HS)과 같은 시스템의 "HS 8471.30"과 같은 복잡한 코드를 포함하는 제품 분류는 국제 무역 및 국내 판매에 중요합니다. 이 코드는 올바른 세금 신청을 보장하여 모든 inv에 영향을 미칩니다

데이터 센터 요구가 기후 기술 반등을 일으킬 수 있습니까?Apr 29, 2025 am 11:10 AM

데이터 센터 및 기후 기술 투자의 에너지 소비의 미래 이 기사는 AI가 주도하는 데이터 센터의 에너지 소비 급증과 기후 변화에 미치는 영향을 탐구 하고이 과제를 해결하기 위해 혁신적인 솔루션 및 정책 권장 사항을 분석합니다. 에너지 수요의 과제 : 대규모 및 초대형 스케일 데이터 센터는 수십만 명의 일반 북미 가족의 합과 비슷한 대규모 전력을 소비하며, AI 초반 규모 센터는 이보다 수십 배 더 많은 힘을 소비합니다. 2024 년 첫 8 개월 동안 Microsoft, Meta, Google 및 Amazon은 AI 데이터 센터의 건설 및 운영에 약 1,250 억 달러를 투자했습니다 (JP Morgan, 2024) (표 1). 에너지 수요 증가는 도전이자 기회입니다. 카나리아 미디어에 따르면 다가오는 전기

AI와 할리우드의 다음 황금 시대Apr 29, 2025 am 11:09 AM

생성 AI는 영화 및 텔레비전 제작을 혁신하고 있습니다. Luma의 Ray 2 모델과 활주로의 Gen-4, Openai의 Sora, Google의 VEO 및 기타 새로운 모델은 전례없는 속도로 생성 된 비디오의 품질을 향상시키고 있습니다. 이 모델은 복잡한 특수 효과와 현실적인 장면을 쉽게 만들 수 있으며 짧은 비디오 클립과 카메라로 인식 된 모션 효과조차도 달성되었습니다. 이러한 도구의 조작과 일관성은 여전히 개선되어야하지만 진행 속도는 놀랍습니다. 생성 비디오는 독립적 인 매체가되고 있습니다. 일부 모델은 애니메이션 제작에 능숙하고 다른 모델은 라이브 액션 이미지에 능숙합니다. Adobe 's Firefly와 Moonvalley's MA가

chatgpt가 천천히 AI의 가장 큰 예-맨이되고 있습니까?Apr 29, 2025 am 11:08 AM

ChatGpt 사용자 경험 감소 : 모델 저하 또는 사용자 기대치입니까? 최근에, 많은 ChatGpt 유료 사용자가 성능 저하에 대해 불평하여 광범위한 관심을 끌었습니다. 사용자는 모델에 대한 느린 반응, 짧은 답변, 도움 부족 및 더 많은 환각을보고했습니다. 일부 사용자는 소셜 미디어에 대한 불만을 표명했으며 Chatgpt가“너무 아첨”이되었으며 중요한 피드백을 제공하기보다는 사용자보기를 확인하는 경향이 있습니다. 이는 사용자 경험에 영향을 줄뿐만 아니라 생산성 감소 및 컴퓨팅 리소스 낭비와 같은 회사 고객에게 실제 손실을 가져옵니다. 성능 저하의 증거 많은 사용자들이 ChatGpt 성능, 특히 GPT-4와 같은 이전 모델 (이번 달 말에 서비스에서 곧 중단 될 예정)에서 상당한 악화를보고했습니다. 이것

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.