SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM-일체 포함-php.cn

집

기술 주변기기

일체 포함

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 10, 2024 pm 09:46 PM

성능모델pixellm

멀티모달 대형 모델이 폭발적으로 증가하고 있습니다. 이미지 편집, 자율주행, 로봇공학 등 세밀한 작업에 실제 응용할 준비가 되셨나요?

현재 대부분 모델의 기능은 여전히 전체 이미지 또는 특정 영역에 대한 텍스트 설명을 생성하는 것으로 제한되어 있으며 픽셀 수준 이해(예: 개체 분할) 기능도 상대적으로 제한되어 있습니다.

이 문제에 대응하여 일부 작업에서는 다중 모드 대형 모델을 사용하여 사용자 분할 지침을 처리하는 방법을 모색하기 시작했습니다(예: "그림에서 비타민 C가 풍부한 과일을 분할하세요").

그러나 시중에 나와 있는 방법에는 두 가지 주요 단점이 있습니다.

1) 실제 시나리오에서 필수적인 여러 대상 개체와 관련된 작업을 처리할 수 없음

2) 이러한 사전 작업을 위해 SAM과 같은 도구에 의존 -훈련된 이미지 분할 모델, SAM의 한 번의 전방 전파에 필요한 계산량은 Llama-7B가 500개 이상의 토큰을 생성하는 데 충분합니다.

이 문제를 해결하기 위해 ByteDance의 지능형 생성 팀은 베이징 교통 대학교 및 베이징 과학 기술 대학교의 연구원과 협력하여 SAM에 의존하지 않는 최초의 효율적인 대규모 픽셀 수준 추론 모델인 PixelLM을 제안했습니다.

자세히 소개하기 전에 PixelLM의 여러 그룹의 실제 분할 효과를 경험해 보겠습니다.

이전 작업과 비교하여 PixelLM의 장점은 다음과 같습니다.

수에 관계없이 오픈 도메인 대상과 다양하고 복잡한 추론을 능숙하게 처리할 수 있습니다. 작업을 분할합니다.
비용이 많이 드는 추가 분할 모델을 방지하여 효율성을 높이고 다양한 애플리케이션으로의 마이그레이션 기능을 향상시킵니다.

또한, 이 연구 분야의 모델 훈련 및 평가를 지원하기 위해 연구팀은 LVIS 데이터 세트와 GPT-4V를 기반으로 다목적 추론 분할 시나리오를 위한 데이터 세트 MUSE를 구축했으며 200,000개 이상 900,000개 이상을 포함하고 있습니다. 900,000개 이상의 인스턴스 분할 마스크가 포함된 질문-답변 쌍입니다.

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM

위의 효과를 얻기 위해 이번 연구는 어떻게 진행되었나요?

뒤에 있는 원리

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM Pictures

문서의 프레임워크 다이어그램에 표시된 것처럼 PixelLM 아키텍처는 매우 간단하며 네 가지 주요 부분으로 구성됩니다. 후자의 두 부분은 PixelLM의 핵심입니다.

Pre- training된 CLIP-ViT 비전 인코더
대형 언어 모델
경량 픽셀 디코더
Seg 코드북

Seg 코드북에는 CLIP-ViT의 다양한 규모에서 대상 정보를 인코딩하는 데 사용되는 학습 가능한 토큰이 포함되어 있습니다. 그런 다음 픽셀 디코더는 이러한 토큰과 CLIP-ViT의 이미지 기능을 기반으로 객체 분할 결과를 생성합니다. 이러한 설계 덕분에 PixelLM은 외부 분할 모델 없이도 고품질 분할 결과를 생성할 수 있어 모델 효율성이 크게 향상됩니다.

연구원의 설명에 따르면 Seg 코드북의 토큰은 L 그룹으로 나눌 수 있으며 각 그룹에는 N 토큰이 포함되어 있으며 각 그룹은 CLIP-ViT 시각적 기능의 척도에 해당합니다.

입력 이미지의 경우 PixelLM은 CLIP-ViT 시각적 인코더에서 생성된 이미지 특징에서 L 스케일 특징을 추출합니다. 마지막 레이어는 전역 이미지 정보를 포함하며 LLM에서 이미지 내용을 이해하는 데 사용됩니다.

Seg 코드북의 토큰은 텍스트 지침 및 이미지 기능의 마지막 레이어와 함께 LLM에 입력되어 자동 회귀 형식으로 출력을 생성합니다. 출력에는 LLM에서 처리된 Seg 코드북 토큰도 포함되며, 이는 최종 분할 결과를 생성하기 위해 L 스케일 CLIP-ViT 기능과 함께 픽셀 디코더에 입력됩니다.

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM Pictures

그렇다면 N 토큰을 포함하도록 각 그룹을 설정해야 하는 이유는 무엇일까요? 연구원들은 다음 그림과 함께 설명했습니다.

여러 대상이 포함된 시나리오 또는 대상에 포함된 의미가 매우 복잡하지만 LLM은 자세한 텍스트 응답을 제공할 수 있지만 단일 토큰만으로는 모든 대상 의미를 완전히 캡처하지 못할 수 있습니다. 콘텐츠.

복잡한 추론 시나리오에서 모델의 능력을 향상시키기 위해 연구원들은 각 스케일 그룹 내에 여러 토큰을 도입하고 하나의 토큰의 선형 융합 연산을 수행했습니다. 토큰이 디코더에 전달되기 전에 선형 투영 레이어를 사용하여 각 그룹 내의 토큰을 병합합니다.

아래 그림은 각 그룹에 여러 개의 토큰이 있을 때의 효과를 보여줍니다. 어텐션 맵은 디코더에서 처리된 후 각 토큰의 모습입니다. 이 시각화는 여러 토큰이 고유하고 보완적인 정보를 제공하여 보다 효과적인 분할 출력을 제공한다는 것을 보여줍니다.

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM Pictures

또한 모델의 여러 대상을 구별하는 능력을 향상시키기 위해 PixelLM은 추가 대상 정제 손실도 설계했습니다.

MUSE 데이터 세트

위의 솔루션이 제안되었지만 모델의 기능을 완전히 활용하려면 모델에 여전히 적절한 교육 데이터가 필요합니다. 현재 사용 가능한 공개 데이터 세트를 검토한 결과 기존 데이터에는 다음과 같은 주요 제한 사항이 있음을 발견했습니다.

1) 개체 세부 정보에 대한 설명이 부족합니다.
2) 복잡한 추론과 다양한 대상 숫자를 포함하는 질문-답변 쌍이 부족합니다.

이러한 문제를 해결하기 위해 연구팀은 GPT-4V를 사용하여 자동화된 데이터 주석 파이프라인을 구축하고 이를 통해 MUSE 데이터 세트를 생성했습니다. 아래 그림은 MUSE 생성 시 사용되는 프롬프트와 생성된 데이터의 예를 보여줍니다.

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM Pictures

MUSE에서 모든 인스턴스 마스크는 LVIS 데이터세트에서 가져온 것이며 이미지 콘텐츠를 기반으로 생성된 추가로 자세한 텍스트 설명이 추가됩니다. MUSE에는 246,000개의 질문-답변 쌍이 포함되어 있으며 각 질문-답변 쌍에는 평균 3.7개의 대상 개체가 포함됩니다. 또한, 연구팀은 데이터 세트에 대한 철저한 통계 분석을 수행했습니다.

카테고리 통계: 원본 LVIS 데이터 세트의 MUSE에는 1000개 이상의 카테고리가 있으며, 질문-답변 쌍을 기반으로 한 고유한 설명이 있는 900,000개의 인스턴스는 카테고리에 따라 다릅니다. 문맥. 그림 (a)는 모든 질문-답변 쌍에 걸쳐 각 범주의 인스턴스 수를 보여줍니다.

토큰 수 통계: 그림 (b)는 예시에 설명된 토큰 수의 분포를 보여 주며, 그 중 일부에는 100개 이상의 토큰이 포함되어 있습니다. 이러한 설명은 단순한 범주 이름에 국한되지 않고 GPT-4V 기반 데이터 생성 프로세스를 통해 모양, 속성, 다른 개체와의 관계 등 각 인스턴스에 대한 자세한 정보로 풍부해집니다. 데이터 세트에 있는 정보의 깊이와 다양성은 훈련된 모델의 일반화 능력을 향상시켜 개방형 도메인 문제를 효과적으로 해결할 수 있게 해줍니다.

대상 수 통계: 그림 (c)는 각 질문-답변 쌍에 대한 대상 수 통계를 보여줍니다. 평균 타겟 수는 3.7개이며, 최대 타겟 수는 34개에 달할 수 있습니다. 이 숫자는 단일 이미지에 대한 대부분의 대상 추론 시나리오를 포괄할 수 있습니다.

알고리즘 평가

연구팀은 MUSE 벤치마크, 참조 분할 벤치마크, 다중 참조 분할 벤치마크 등 3가지 벤치마크에서 PixelLM의 성능을 평가했습니다. 문제 참조 분할 벤치마크에서 각 이미지에 포함된 여러 개체를 지속적으로 분할합니다.

동시에 PixelLM은 여러 대상이 관련된 복잡한 픽셀 추론 작업을 처리하는 최초의 모델이므로 연구팀은 모델 비교 분석을 수행하기 위해 4가지 기준을 설정했습니다.

3가지 기준선은 PixelLM에서 가장 관련성이 높은 작업인 LISA를 기반으로 합니다. LISA를 사용하여 텍스트 분할 ;

3) LISA_aug: MUSE를 LISA의 학습 데이터에 직접 추가합니다.

4) 다른 하나는 LLM을 사용하지 않는 일반 분할 모델인 SEEM입니다.

Pictures

SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM 세 가지 벤치마크의 대부분 지표에서 PixelLM의 성능은 다른 방법보다 우수하며 PixelLM은 SAM에 의존하지 않기 때문에 TFLOP가 같은 크기의 모델보다 훨씬 낮습니다. 관심 있는 친구들은 먼저 관심을 갖고 코드가 오픈소스가 될 때까지 기다려주세요~

참조 링크:

[1]

https://www.php.cn/link/9271858951e6fe9504d1f05ae8576001

[2]
https:/ /www.php.cn/link/f1686b4badcf28d33ed632036c7ab0b8

위 내용은 SA 종속성 없이 픽셀 수준 추론을 효율적으로 구현하는 바이트 다중 모드 대형 모델인 PixelLM의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Gemma Scope : AI의 사고 과정으로 들여다 보는 Google의 현미경Apr 17, 2025 am 11:55 AM

젬마 범위로 언어 모델의 내부 작업 탐색 AI 언어 모델의 복잡성을 이해하는 것은 중요한 도전입니다. 포괄적 인 툴킷 인 Gemma Scope의 Google 릴리스는 연구원에게 강력한 강력한 방법을 제공합니다.

비즈니스 인텔리전스 분석가는 누구이며 하나가되는 방법은 무엇입니까?Apr 17, 2025 am 11:44 AM

비즈니스 성공 잠금 해제 : 비즈니스 인텔리전스 분석가가되는 가이드 원시 데이터를 조직의 성장을 이끌어내는 실행 가능한 통찰력으로 바꾸는 것을 상상해보십시오. 이것은 비즈니스 인텔리전스 (BI) 분석가의 힘 - GU에서 중요한 역할입니다.

SQL에서 열을 추가하는 방법? - 분석 VidhyaApr 17, 2025 am 11:43 AM

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

비즈니스 분석가 대 데이터 분석가Apr 17, 2025 am 11:38 AM

소개 두 전문가가 중요한 프로젝트에 대해 협력하는 번화 한 사무실을 상상해보십시오. 비즈니스 분석가는 회사의 목표, 개선 영역을 식별하며 시장 동향과의 전략적 조정을 보장합니다. 시무

Excel의 Count와 Counta는 무엇입니까? - 분석 VidhyaApr 17, 2025 am 11:34 AM

Excel 데이터 계산 및 분석 : 카운트 및 카운트 기능에 대한 자세한 설명 정확한 데이터 계산 및 분석은 특히 큰 데이터 세트로 작업 할 때 Excel에서 중요합니다. Excel은이를 달성하기위한 다양한 기능을 제공하며, 카운트 및 카운타 기능은 다른 조건에서 셀 수를 계산하기위한 핵심 도구입니다. 두 기능 모두 셀을 계산하는 데 사용되지만 설계 목표는 다른 데이터 유형을 대상으로합니다. Count 및 Counta 기능의 특정 세부 사항을 파고 고유 한 기능과 차이점을 강조하고 데이터 분석에 적용하는 방법을 배우겠습니다. 핵심 포인트 개요 수를 이해하고 쿠션하십시오

Chrome은 AI와 함께 여기에 있습니다 : 매일 새로운 것을 경험하고 있습니다 !!Apr 17, 2025 am 11:29 AM

Chrome 's AI Revolution : 개인화되고 효율적인 탐색 경험 인공 지능 (AI)은 우리의 일상 생활을 빠르게 변화시키고 있으며 Chrome은 웹 브라우징 경기장에서 요금을 주도하고 있습니다. 이 기사는 흥분을 탐구합니다

AI '의 인간 측면 : 웰빙과 4 배의 결론Apr 17, 2025 am 11:28 AM

재구성 영향 : 4 배의 결론 너무 오랫동안 대화는 AI의 영향에 대한 좁은 견해로 인해 주로 이익의 결론에 중점을 두었습니다. 그러나보다 전체적인 접근 방식은 BU의 상호 연결성을 인식합니다.

5 게임 변화 양자 컴퓨팅 사용 사례에 대해 알아야합니다.Apr 17, 2025 am 11:24 AM

상황이 그 시점을 꾸준히 움직이고 있습니다. 양자 서비스 제공 업체와 신생 기업에 쏟아지는 투자는 업계의 중요성을 이해하고 있음을 보여줍니다. 그리고 점점 더 많은 실제 사용 사례가 그 가치를 보여주기 위해 떠오르고 있습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.