대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.

王林

Jul 14, 2023 pm 03:37 PM

기계 학습능력

현재 대형 언어 모델(LLM)은 자연어 처리(NLP) 분야에 변화의 물결을 일으키고 있습니다. 우리는 LLM이 강력한 창발적 역량을 갖고 있으며 복잡한 언어 이해 작업, 생성 작업, 심지어 추론 작업까지 잘 수행한다는 것을 알 수 있습니다. 이는 사람들이 기계 학습의 또 다른 하위 분야인 컴퓨터 비전(CV)에서 LLM의 잠재력을 더 탐구하도록 영감을 줍니다.

LLM의 뛰어난 재능 중 하나는 상황에 맞게 학습하는 능력입니다. 상황별 학습은 LLM의 어떤 매개변수도 업데이트하지 않지만, 다양한 NLP 작업에서 놀라운 결과를 보여줍니다. 그렇다면 GPT는 상황별 학습을 통해 시각적 작업을 해결할 수 있을까요?

최근 Google과 Carnegie Mellon University(CMU)의 연구원들은 이미지(또는 기타 비언어적 양식)를 LLM이 이해할 수 있는 언어로 변환할 수 있다면 이것이 가능해 보인다는 것을 보여주는 논문을 공동으로 발표했습니다.

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다. Pictures

논문 주소: https://arxiv.org/abs/2306.17842

이 논문은 상황별 학습을 통해 시각적 작업을 해결하는 PaLM 또는 GPT의 능력을 밝히고 새로운 방법 SPAE( 시맨틱 피라미드 자동 인코더). 이 새로운 접근 방식을 통해 LLM은 매개변수 업데이트 없이 이미지 생성 작업을 수행할 수 있습니다. 이는 LLM이 이미지 콘텐츠를 생성할 수 있도록 상황별 학습을 사용하는 최초의 성공적인 방법이기도 합니다.

먼저 상황별 학습을 통해 이미지 콘텐츠를 생성하는 LLM의 실험 결과를 살펴보겠습니다.

예를 들어, 주어진 맥락에서 50개의 손글씨 이미지를 제공함으로써 논문은 PaLM 2에게 디지털 이미지를 출력으로 생성해야 하는 복잡한 쿼리에 답하도록 요청합니다. 이미지 입력 없이 사실적인 실제 이미지 생성:

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다. pictures

PaLM 2는 이미지 생성 외에도 상황 학습을 통해 이미지 설명도 수행할 수 있습니다.

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.

이미지도 있습니다. 관련 문제 시각적 Q&A:

Pictures 대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.

노이즈를 제거하고 비디오를 생성할 수도 있습니다.

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다. Pictures

방법 개요

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다. 실제로 이미지 변환 LLM이 할 수 있는 언어로 이해는 ViT(Visual Transformer) 논문에서 연구된 문제입니다. Google과 CMU의 이 논문에서는 실제 단어를 사용하여 이미지를 표현하는 다음 단계로 나아갑니다.

이 접근 방식은 텍스트로 가득 찬 탑을 쌓고 이미지의 의미와 세부 사항을 포착하는 것과 같습니다. 텍스트로 채워진 이 표현을 사용하면 이미지 설명을 쉽게 생성할 수 있으며 LLM이 이미지 관련 질문에 답하고 이미지 픽셀을 재구성할 수도 있습니다.

구체적으로, 이 연구에서는 훈련된 인코더와 CLIP 모델을 사용하여 이미지를 토큰 공간으로 변환한 다음 LLM을 사용하여 적절한 어휘 토큰을 생성하고 마지막으로 훈련된 디코더를 사용하여 이를 변환할 것을 제안합니다. 다시 픽셀 공간으로 변환됩니다. 이 독창적인 프로세스는 이미지를 LLM이 이해할 수 있는 언어로 변환하여 비전 작업에서 LLM의 생성 능력을 활용할 수 있도록 해줍니다.

실험 및 결과

본 연구에서는 SPAE와 SOTA 방식 Frozen 및 LQAE를 실험적으로 비교하였으며, 그 결과를 아래 표 1에 나타내었다. SPAEGPT는 2%의 토큰만 사용하면서 모든 작업에서 LQAE보다 성능이 뛰어납니다.

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다. Pictures

전체적으로 mini-ImageNet 벤치마크 테스트 결과 SPAE 방식은 이전 SOTA 방식에 비해 성능이 25% 향상되는 것으로 나타났습니다.

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다. Pictures

본 연구에서는 SPAE 설계 방법의 유효성을 검증하기 위해 Ablation 실험을 실시하였고, 실험 결과는 아래 Table 4와 Figure 10에 나타내었다.

대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다. Pictures

관심 있는 독자는 논문의 원문을 읽고 연구 내용에 대해 자세히 알아볼 수 있습니다.

위 내용은 대규모 언어 모델의 시각적 재능: GPT는 상황별 학습을 통해 시각적 작업도 해결할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

AI 기술 격차는 공급망을 늦추고 있습니다Apr 26, 2025 am 11:13 AM

"AI-Ready Workforce"라는 용어는 자주 사용되지만 공급망 산업에서 실제로 무엇을 의미합니까? ASCM (Association for Supply Chain Management)의 CEO 인 Abe Eshkenazi에 따르면 비평가가 가능한 전문가를 의미합니다.

한 회사가 AI를 영원히 변화시키기 위해 조용히 노력하는 방법Apr 26, 2025 am 11:12 AM

분산 된 AI 혁명은 조용히 운동량을 얻고 있습니다. 이번 주 금요일 텍사스 오스틴에서 Bittensor Endgame Summit은 중추적 인 순간을 표시하여 분산 된 AI (DEAI)를 이론에서 실제 적용으로 전환합니다. 화려한 광고와 달리

NVIDIA는 NEMO 마이크로 서비스를 방출하여 AI 에이전트 개발을 간소화합니다Apr 26, 2025 am 11:11 AM

Enterprise AI는 데이터 통합 문제에 직면 해 있습니다 Enterprise AI의 적용은 비즈니스 데이터를 지속적으로 학습함으로써 정확성과 실용성을 유지할 수있는 시스템을 구축하는 주요 과제에 직면 해 있습니다. NEMO 마이크로 서비스는 NVIDIA가 "데이터 플라이휠"으로 묘사 한 내용을 작성 하여이 문제를 해결하여 AI 시스템이 엔터프라이즈 정보 및 사용자 상호 작용에 지속적으로 노출되어 관련성을 유지할 수 있도록합니다. 새로 출시 된이 툴킷에는 5 개의 주요 마이크로 서비스가 포함되어 있습니다. NEMO Customizer는 더 높은 교육 처리량으로 대형 언어 모델의 미세 조정을 처리합니다. NEMO 평가자는 사용자 지정 벤치 마크에 대한 AI 모델의 단순화 된 평가를 제공합니다. Nemo Guardrails는 보안 제어를 구현하여 규정 준수 및 적절성을 유지합니다.

AI는 미래의 미래와 디자인을위한 새로운 그림을 그립니다.Apr 26, 2025 am 11:10 AM

AI : 예술과 디자인의 미래 인공 지능 (AI)은 전례없는 방식으로 예술 및 디자인 분야를 변화시키고 있으며, 그 영향은 더 이상 아마추어에게만 국한되지 않고 전문가에게 더 큰 영향을 미칩니다. AI에 의해 생성 된 아트 워크 및 디자인 체계는 광고, 소셜 미디어 이미지 생성 및 웹 디자인과 같은 많은 트랜잭션 디자인 활동에서 전통적인 재료 이미지 및 디자이너를 빠르게 대체하고 있습니다. 그러나 전문 예술가와 디자이너는 AI의 실질적인 가치도 찾습니다. 그들은 AI를 보조 도구로 사용하여 새로운 미적 가능성을 탐색하고 다양한 스타일을 혼합하며 새로운 시각 효과를 만듭니다. AI는 아티스트와 디자이너가 반복적 인 작업을 자동화하고 다양한 디자인 요소를 제안하며 창의적인 입력을 제공하도록 도와줍니다. AI는 스타일 전송을 지원하며 이미지 스타일을 적용합니다.

에이전트 AI와의 작업을 혁신하는 방법 : 회의에서 이정표까지Apr 26, 2025 am 11:09 AM

처음에는 화상 회의 플랫폼으로 유명한 Zoom은 에이전트 AI의 혁신적인 사용으로 직장 혁명을 이끌고 있습니다. Zoom의 CTO 인 XD Huang과의 최근 대화는 회사의 야심 찬 비전을 공개했습니다. 에이전트 AI 정의 Huang d

대학에 대한 실존 적 위협Apr 26, 2025 am 11:08 AM

AI가 교육에 혁명을 일으킬까요? 이 질문은 교육자와 이해 관계자들 사이에서 심각한 반영을 촉구하고 있습니다. AI를 교육에 통합하면 기회와 도전이 모두 나타납니다. Tech Edvocate의 Matthew Lynch로서 Universit

프로토 타입 : 미국 과학자들은 해외에서 일자리를 찾고 있습니다Apr 26, 2025 am 11:07 AM

미국의 과학 연구 및 기술의 발전은 아마도 예산 삭감으로 인해 어려움에 직면 할 수 있습니다. Nature에 따르면, 해외 일자리를 신청하는 미국 과학자의 수는 2024 년 같은 기간에 비해 2025 년 1 월부터 3 월까지 32% 증가했습니다. 이전 여론 조사에 따르면 설문 조사에 참여한 연구원의 75%가 유럽과 캐나다에서 일자리 검색을 고려하고 있음을 보여주었습니다. 지난 몇 개월 동안 수백 개의 NIH와 NSF 보조금이 종료되었으며, NIH의 새로운 보조금은 올해 약 23 억 달러로 줄어 듭니다. 유출 된 예산 제안에 따르면 트럼프 행정부는 과학 기관의 예산을 급격히 줄이는 것을 고려하고 있으며 최대 50%감소 할 수 있습니다. 기본 연구 분야의 혼란은 또한 미국의 주요 장점 중 하나 인 해외 인재 유치에 영향을 미쳤습니다. 35