>기술 주변기기 >일체 포함 >SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM

WBOY
WBOY앞으로
2024-01-10 21:46:36628검색

멀티모달 대형 모델이 폭발적으로 증가하고 있습니다. 이미지 편집, 자율주행, 로봇공학 등 세밀한 작업에 실제 응용할 준비가 되셨나요?

현재 대부분 모델의 기능은 여전히 ​​전체 이미지 또는 특정 영역에 대한 텍스트 설명을 생성하는 것으로 제한되어 있으며 픽셀 수준 이해(예: 개체 분할) 기능도 상대적으로 제한되어 있습니다.

이 문제에 대응하여 일부 작업에서는 다중 모드 대형 모델을 사용하여 사용자 분할 지침을 처리하는 방법을 모색하기 시작했습니다(예: "그림에서 비타민 C가 풍부한 과일을 분할하세요").

그러나 시중에 나와 있는 방법에는 두 가지 주요 단점이 있습니다.

1) 실제 시나리오에서 필수적인 여러 대상 개체와 관련된 작업을 처리할 수 없음

2) 이러한 사전 작업을 위해 SAM과 같은 도구에 의존 -훈련된 이미지 분할 모델, SAM의 한 번의 전방 전파에 필요한 계산량은 Llama-7B가 500개 이상의 토큰을 생성하는 데 충분합니다.

이 문제를 해결하기 위해 ByteDance의 지능형 생성 팀은 베이징 교통 대학교 및 베이징 과학 기술 대학교의 연구원과 협력하여 SAM에 의존하지 않는 최초의 효율적인 대규모 픽셀 수준 추론 모델인 PixelLM을 제안했습니다.

자세히 소개하기 전에 PixelLM의 여러 그룹의 실제 분할 효과를 경험해 보겠습니다.

이전 작업과 비교하여 PixelLM의 장점은 다음과 같습니다.

  • 수에 관계없이 오픈 도메인 대상과 다양하고 복잡한 추론을 능숙하게 처리할 수 있습니다. 작업을 분할합니다.
  • 비용이 많이 드는 추가 분할 모델을 방지하여 효율성을 높이고 다양한 애플리케이션으로의 마이그레이션 기능을 향상시킵니다.

또한, 이 연구 분야의 모델 훈련 및 평가를 지원하기 위해 연구팀은 LVIS 데이터 세트와 GPT-4V를 기반으로 다목적 추론 분할 시나리오를 위한 데이터 세트 MUSE를 구축했으며 200,000개 이상 900,000개 이상을 포함하고 있습니다. 900,000개 이상의 인스턴스 분할 마스크가 포함된 질문-답변 쌍입니다.

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM

위의 효과를 얻기 위해 이번 연구는 어떻게 진행되었나요?

뒤에 있는 원리

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLMPictures

문서의 프레임워크 다이어그램에 표시된 것처럼 PixelLM 아키텍처는 매우 간단하며 네 가지 주요 부분으로 구성됩니다. 후자의 두 부분은 PixelLM의 핵심입니다.

  1. Pre- training된 CLIP-ViT 비전 인코더
  2. 대형 언어 모델
  3. 경량 픽셀 디코더
  4. Seg 코드북

Seg 코드북에는 CLIP-ViT의 다양한 규모에서 대상 정보를 인코딩하는 데 사용되는 학습 가능한 토큰이 포함되어 있습니다. 그런 다음 픽셀 디코더는 이러한 토큰과 CLIP-ViT의 이미지 기능을 기반으로 객체 분할 결과를 생성합니다. 이러한 설계 덕분에 PixelLM은 외부 분할 모델 없이도 고품질 분할 결과를 생성할 수 있어 모델 효율성이 크게 향상됩니다.

연구원의 설명에 따르면 Seg 코드북의 토큰은 L 그룹으로 나눌 수 있으며 각 그룹에는 N 토큰이 포함되어 있으며 각 그룹은 CLIP-ViT 시각적 기능의 척도에 해당합니다.

입력 이미지의 경우 PixelLM은 CLIP-ViT 시각적 인코더에서 생성된 이미지 특징에서 L 스케일 특징을 추출합니다. 마지막 레이어는 전역 이미지 정보를 포함하며 LLM에서 이미지 내용을 이해하는 데 사용됩니다.

Seg 코드북의 토큰은 텍스트 지침 및 이미지 기능의 마지막 레이어와 함께 LLM에 입력되어 자동 회귀 형식으로 출력을 생성합니다. 출력에는 LLM에서 처리된 Seg 코드북 토큰도 포함되며, 이는 최종 분할 결과를 생성하기 위해 L 스케일 CLIP-ViT 기능과 함께 픽셀 디코더에 입력됩니다.

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLMPictures

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLMPictures

그렇다면 N 토큰을 포함하도록 각 그룹을 설정해야 하는 이유는 무엇일까요? 연구원들은 다음 그림과 함께 설명했습니다.

여러 대상이 포함된 시나리오 또는 대상에 포함된 의미가 매우 복잡하지만 LLM은 자세한 텍스트 응답을 제공할 수 있지만 단일 토큰만으로는 모든 대상 의미를 완전히 캡처하지 못할 수 있습니다. 콘텐츠.

복잡한 추론 시나리오에서 모델의 능력을 향상시키기 위해 연구원들은 각 스케일 그룹 내에 여러 토큰을 도입하고 하나의 토큰의 선형 융합 연산을 수행했습니다. 토큰이 디코더에 전달되기 전에 선형 투영 레이어를 사용하여 각 그룹 내의 토큰을 병합합니다.

아래 그림은 각 그룹에 여러 개의 토큰이 있을 때의 효과를 보여줍니다. 어텐션 맵은 디코더에서 처리된 후 각 토큰의 모습입니다. 이 시각화는 여러 토큰이 고유하고 보완적인 정보를 제공하여 보다 효과적인 분할 출력을 제공한다는 것을 보여줍니다.

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLMPictures

또한 모델의 여러 대상을 구별하는 능력을 향상시키기 위해 PixelLM은 추가 대상 정제 손실도 설계했습니다.

MUSE 데이터 세트

위의 솔루션이 제안되었지만 모델의 기능을 완전히 활용하려면 모델에 여전히 적절한 교육 데이터가 필요합니다. 현재 사용 가능한 공개 데이터 세트를 검토한 결과 기존 데이터에는 다음과 같은 주요 제한 사항이 있음을 발견했습니다.

1) 개체 세부 정보에 대한 설명이 부족합니다.
2) 복잡한 추론과 다양한 대상 숫자를 포함하는 질문-답변 쌍이 부족합니다.

이러한 문제를 해결하기 위해 연구팀은 GPT-4V를 사용하여 자동화된 데이터 주석 파이프라인을 구축하고 이를 통해 MUSE 데이터 세트를 생성했습니다. 아래 그림은 MUSE 생성 시 사용되는 프롬프트와 생성된 데이터의 예를 보여줍니다.

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLMPictures

MUSE에서 모든 인스턴스 마스크는 LVIS 데이터세트에서 가져온 것이며 이미지 콘텐츠를 기반으로 생성된 추가로 자세한 텍스트 설명이 추가됩니다. MUSE에는 246,000개의 질문-답변 쌍이 포함되어 있으며 각 질문-답변 쌍에는 평균 3.7개의 대상 개체가 포함됩니다. 또한, 연구팀은 데이터 세트에 대한 철저한 통계 분석을 수행했습니다.

카테고리 통계: 원본 LVIS 데이터 세트의 MUSE에는 1000개 이상의 카테고리가 있으며, 질문-답변 쌍을 기반으로 한 고유한 설명이 있는 900,000개의 인스턴스는 카테고리에 따라 다릅니다. 문맥. 그림 (a)는 모든 질문-답변 쌍에 걸쳐 각 범주의 인스턴스 수를 보여줍니다.

토큰 수 통계: 그림 (b)는 예시에 설명된 토큰 수의 분포를 보여 주며, 그 중 일부에는 100개 이상의 토큰이 포함되어 있습니다. 이러한 설명은 단순한 범주 이름에 국한되지 않고 GPT-4V 기반 데이터 생성 프로세스를 통해 모양, 속성, 다른 개체와의 관계 등 각 인스턴스에 대한 자세한 정보로 풍부해집니다. 데이터 세트에 있는 정보의 깊이와 다양성은 훈련된 모델의 일반화 능력을 향상시켜 개방형 도메인 문제를 효과적으로 해결할 수 있게 해줍니다.

대상 수 통계: 그림 (c)는 각 질문-답변 쌍에 대한 대상 수 통계를 보여줍니다. 평균 타겟 수는 3.7개이며, 최대 타겟 수는 34개에 달할 수 있습니다. 이 숫자는 단일 이미지에 대한 대부분의 대상 추론 시나리오를 포괄할 수 있습니다.

알고리즘 평가

연구팀은 MUSE 벤치마크, 참조 분할 벤치마크, 다중 참조 분할 벤치마크 등 3가지 벤치마크에서 PixelLM의 성능을 평가했습니다. 문제 참조 분할 벤치마크에서 각 이미지에 포함된 여러 개체를 지속적으로 분할합니다.

동시에 PixelLM은 여러 대상이 관련된 복잡한 픽셀 추론 작업을 처리하는 최초의 모델이므로 연구팀은 모델 비교 분석을 수행하기 위해 4가지 기준을 설정했습니다.

3가지 기준선은 PixelLM에서 가장 관련성이 높은 작업인 LISA를 기반으로 합니다. LISA를 사용하여 텍스트 분할 ;

3) LISA_aug: MUSE를 LISA의 학습 데이터에 직접 추가합니다.

4) 다른 하나는 LLM을 사용하지 않는 일반 분할 모델인 SEEM입니다.

Pictures

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM 세 가지 벤치마크의 대부분 지표에서 PixelLM의 성능은 다른 방법보다 우수하며 PixelLM은 SAM에 의존하지 않기 때문에 TFLOP가 같은 크기의 모델보다 훨씬 낮습니다. 관심 있는 친구들은 먼저 관심을 갖고 코드가 오픈소스가 될 때까지 기다려주세요~

참조 링크:

[1]

https://www.php.cn/link/9271858951e6fe9504d1f05ae8576001

[2]
https:/ /www.php.cn/link/f1686b4badcf28d33ed632036c7ab0b8

위 내용은 SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제