>기술 주변기기 >일체 포함 >대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과

대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과

WBOY
WBOY앞으로
2024-01-05 12:56:09685검색

다중 모드 대형 모델에 감지 및 분할 모듈이 통합되면 이미지 컷아웃이 더 쉬워집니다!

저희 모델은 자연어 설명을 통해 찾고 있는 개체에 빠르게 라벨을 지정하고 텍스트 설명을 제공하여 작업을 쉽게 완료할 수 있도록 도와줍니다.

싱가포르 국립대학교 NExT++ 연구소와 칭화대학교 Liu Zhiyuan 팀이 개발한 새로운 다중 모드 대형 모델은 우리에게 강력한 지원을 제공합니다. 이 모델은 퍼즐 해결 과정에서 플레이어에게 포괄적인 도움과 안내를 제공하기 위해 세심하게 제작되었습니다. 다양한 양식의 정보를 결합하여 플레이어에게 새로운 퍼즐 해결 방법과 전략을 제시합니다. 이 모델을 적용하면 플레이어에게 도움이 됩니다.

대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과

GPT-4v 출시로 다중 모드 분야에서는 LLaVA, BLIP-2 등과 같은 일련의 새로운 모델이 등장했습니다. 이러한 모델의 출현은 다중 모드 작업의 성능과 효율성을 향상시키는 데 큰 기여를 했습니다.

다중 대형 모델의 지역 이해 능력을 더욱 향상시키기 위해 연구팀은 NExT-Chat이라는 다중 모드 모델을 개발했습니다. 이 모델은 대화, 탐지, 분할을 동시에 수행하는 기능을 갖추고 있습니다.

대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과

NExT-Chat의 가장 큰 특징은 다중 모드 모델에 위치 입력 및 출력을 도입하는 기능입니다. 이 기능을 통해 NExT-Chat은 상호 작용 중에 사용자 요구를 보다 정확하게 이해하고 대응할 수 있습니다. NExT-Chat은 위치 입력을 통해 사용자의 지리적 위치를 기반으로 관련 정보와 제안을 제공함으로써 사용자 경험을 향상시킬 수 있습니다. NExT-Chat은 위치 출력을 통해 특정 지리적 위치에 대한 관련 정보를 사용자에게 전달하여 사용자에게 더 나은 도움을 줄 수 있습니다.

그 중 위치 입력 기능은 지정된 영역을 기반으로 질문에 답변하는 기능을 말하고 위치 출력 기능은 위치- 특정 대화. 이 두 가지 능력은 퍼즐 게임에서 매우 중요합니다.

대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과

복잡한 위치 지정 문제도 쉽게 해결할 수 있습니다.

대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과

물체 위치 지정 외에도 NExT-Chat은 이미지나 이미지의 특정 부분을 설명할 수도 있습니다.

대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과
해당 내용을 분석한 후 image 이후 NExT-Chat은 획득한 정보를 사용하여 추론을 수행할 수 있습니다.

대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과

NExT-Chat의 성능을 정확하게 평가하기 위해 연구팀은 여러 작업 데이터 세트에 대한 테스트를 수행했습니다.

여러 데이터 세트에서 SOTA 달성

저자는 먼저 RES(Reference Expression Segmentation) 작업에 대한 NExT-Chat의 실험 결과를 보여주었습니다.

매우 적은 양의 분할 데이터만 사용하지만 NExT-Chat은 일련의 지도 모델(예: MCN, VLT 등)을 물리치고 분할 마스크를 5배 이상 사용하는 등 우수한 참조 분할 기능을 보여주었습니다. . 주석이 달린 LISA 방법.

대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과

ΔRES 작업에 대한 NExT-Chat 결과

그리고 연구팀은 REC 작업에 대한 NExT-Chat의 실험 결과를 보여주었습니다.

아래 표에서 볼 수 있듯이 일련의 감독 방법(예: UNITER)에 비해 NExT-Chat은 더 나은 결과를 얻을 수 있습니다.

흥미로운 발견은 NExT-Chat이 유사한 박스 트레이닝 데이터를 사용하는 Shikra보다 약간 덜 효과적이라는 것입니다.

저자는 이는 pix2emb 방식에서 LM 손실과 검출 손실의 균형을 맞추기가 더 어렵고, Shikra가 기존 일반 텍스트 대형 모델의 사전 학습 형태에 더 가깝기 때문이라고 추측합니다.

대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과

ΔNExT-Chat의 REC 작업 결과

이미지 환상 작업에서 표 3과 같이 NExT-Chat은 Random 및 Popular 데이터 세트에서 최고의 정확도를 달성할 수 있습니다.

대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과

ΔPOPE 데이터 세트에 대한 NExT-Chat 결과

영역 설명 작업에서도 NExT-Chat은 최고의 CIDEr 성능을 달성했으며 이 지표의 4샷 사례에서 Kosmos-2를 능가했습니다.

대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과

ΔRefCOCOg 데이터 세트의 NExT-Chat 결과

그렇다면 NExT-Chat에는 어떤 방법이 사용됩니까?

이미지 코딩의 새로운 방법을 제안합니다

기존 방법의 단점

기존 모델은 주로 pix2seq를 통해 LLM 관련 위치 모델링을 수행합니다.

예를 들어 Kosmos-2는 이미지를 32x32 블록으로 나누고 각 블록의 id를 사용하여 점의 좌표를 나타냅니다. Shikra는 LLM이 좌표를 이해할 수 있도록 개체 프레임의 좌표를 일반 텍스트로 변환합니다.

그러나 pix2seq 방법을 사용한 모델 출력은 주로 상자, 점과 같은 단순한 형식으로 제한되며 분할 마스크와 같은 밀도가 높은 다른 위치 표현 형식으로 일반화하기 어렵습니다.

이 문제를 해결하기 위해 이 기사에서는 새로운 임베딩 기반 위치 모델링 방법인 pix2emb를 제안합니다.

pix2emb 방법

pix2seq와 달리 pix2emb의 모든 위치 정보는 LLM 자체의 텍스트 예측 헤더에 의존하지 않고 해당 인코더 및 디코더를 통해 인코딩 및 디코딩됩니다.

대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과

Δpix2emb 방식의 간단한 예

위 그림과 같이 위치 입력은 해당 인코더에 의해 위치 임베딩으로 인코딩되고, 출력 위치 임베딩은 Box Decoder와 Mask Decoder를 거쳐 박스와 마스크로 변환됩니다. .

이렇게 하면 두 가지 이점이 있습니다.

  • 모델의 출력 형식을 분할 마스크와 같은 더 복잡한 형태로 쉽게 확장할 수 있습니다.
  • 모델은 작업에서 기존의 실제 방법을 쉽게 찾을 수 있습니다. 예를 들어 이 기사의 감지 손실은 L1 손실과 GIoU 손실을 사용합니다(pix2seq는 손실을 생성하기 위해 텍스트만 사용할 수 있음). 초기화를 수행합니다.

pix2seq와 pix2emb를 결합하여 저자는 새로운 NExT-Chat 모델을 교육했습니다.

NExT-Chat 모델

대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과

ΔNExT-Chat 모델 아키텍처

NExT-Chat은 전체적으로 LLaVA 아키텍처를 채택하고 있습니다. 즉, Image Encoder를 통해 이미지 정보를 인코딩하고 LLM에 입력하여 이해하게 되며, 이에 대해 기본적으로 Box Encoder와 Two Position Output Decoder가 대응됩니다.

언어의 LM 헤드나 위치 디코더를 언제 사용해야 할지 모르는 LLM의 문제를 해결하기 위해 NExT-Chat에서는 위치 정보를 식별할 수 있는 새로운 토큰 유형을 추가로 도입합니다.

모델이 출력되면 토큰 임베딩이 언어 디코더 대신 디코딩을 위해 해당 위치 디코더로 전송됩니다.

또한, 입력 단계와 출력 단계 사이의 위치 정보의 일관성을 유지하기 위해 NExT-Chat은 추가 정렬 제약 조건을 도입합니다.

대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과

Δ위치 입력 및 출력 제약

그림과 같이 위의 박스 임베딩과 포지션 임베딩은 각각 디코더, 인코더, 디코더-인코더로 결합되며 전후에는 변경되지 않아야 합니다.

저자는 이 방법이 위치 입력 기능의 융합을 크게 촉진할 수 있다는 것을 발견했습니다.

NExT-Chat의 모델 훈련은 주로 3단계로 구성됩니다.

  • 첫 번째 단계: 모델 훈련 기본 상자 입력 및 출력 기능. NExT-Chat은 사전 훈련을 위해 Flickr-30K, RefCOCO, VisualGenome 및 상자 입력 및 출력이 포함된 기타 데이터 세트를 사용합니다. 훈련 과정에서 모든 LLM 매개변수가 훈련됩니다.
  • 두 번째 단계: LLM의 지시 따르기 능력을 조정합니다. 일부 Shikra-RD, LLaVA-instruct 및 기타 지침을 통해 데이터를 미세 조정하면 모델이 인간의 요구 사항에 더 잘 대응하고 보다 인간적인 결과를 출력할 수 있습니다.
  • 세 번째 단계: NExT-Chat 모델 분할 기능을 제공. 위의 두 가지 훈련 단계를 통해 모델은 이미 좋은 위치 모델링 기능을 갖추고 있습니다. 저자는 이 기능을 더욱 확장하여 출력을 마스크합니다. 실험 결과 NExT-Chat은 매우 적은 양의 마스크 주석 데이터와 훈련 시간(약 3시간)을 사용하여 우수한 분할 기능을 빠르게 달성할 수 있는 것으로 나타났습니다.

이러한 훈련 프로세스의 장점은 감지 프레임 데이터가 풍부하고 훈련 오버헤드가 더 적다는 것입니다.

NExT-Chat은 풍부한 감지 프레임 데이터에 대한 기본 위치 모델링 기능을 교육한 후 더 어렵고 주석이 부족한 분할 작업으로 빠르게 확장할 수 있습니다.

위 내용은 대규모 모델은 간단한 대화만으로 이미 이미지에 주석을 달 수 있습니다! Tsinghua & NUS의 연구 결과의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제