다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 03, 2023 pm 05:17 PM

meta프로젝트llama2anymal

여러 벤치마크 테스트에서 업계 최고의 제로샷 성능을 새롭게 선보입니다.

다양한 모달 입력 콘텐츠(텍스트, 이미지, 비디오, 오디오, IMU 모션 센서 데이터)를 이해하고 텍스트 응답을 생성할 수 있는 통합 모델입니다. 이 기술은 Llama 2를 기반으로 하며 Meta에서 제공됩니다.

어제 멀티모달 대형 모델 애니말(AnyMAL)에 대한 연구가 AI 연구계의 주목을 끌었습니다.

대형 언어 모델(LLM)은 엄청난 크기와 복잡성으로 유명하며, 이는 인간의 언어를 이해하고 표현하는 기계의 능력을 크게 향상시킵니다. LLM의 발전으로 시각적 언어 분야에서 상당한 발전이 가능해졌으며, 이미지 인코더와 LLM 간의 격차를 해소하고 추론 기능을 결합했습니다. 이전의 다중 모드 LLM 연구는 텍스트 및 이미지 모델과 같은 다른 양식과 텍스트를 결합하는 모델이나 오픈 소스가 아닌 독점 언어 모델에 중점을 두었습니다.

다중 모드 기능을 달성하고 LLM에 다양한 모드를 포함하는 더 좋은 방법이 있다면 이것이 우리에게 다른 경험을 가져다 줄까요? ㅋㅋㅋ 출력 example

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

이 문제를 해결하기 위해 Meta의 연구진은 최근 AnyMAL(Any-Modality Augmented Language Model)을 출시했습니다. 이는 다양한 양식(이미지, 비디오, 오디오 및 IMU 모션 센서 데이터 포함)의 데이터를 LLM

의 텍스트 임베딩 공간으로 변환하도록 훈련된 다중 모드 인코더 모음입니다. Paper 주소: https://huggingface. co/papers/2309.16058

설명에 따르면 이 연구의 주요 기여는 다음과 같습니다.

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

다중 모드 LLM 구축을 위한 효율적이고 확장 가능한 솔루션이 제안됩니다. 이 기사에서는 여러 양식(예: 2억 개의 이미지, 220만 개의 오디오 세그먼트, 500,000개의 IMU 시계열, 2,800만 개의 비디오 세그먼트)을 포함하는 대규모 데이터 세트에 대해 사전 훈련된 프로젝션 레이어를 제공합니다. 모두 동일한 대규모 모델(LLaMA-2- 70B-채팅), 인터리브된 다중 모드 상황별 단서를 가능하게 합니다.

이 연구에서는 단순한 질문 응답(QA) 영역을 넘어 다양한 무제한 작업을 포괄하는 세 가지 양식(이미지, 비디오 및 오디오)에 걸쳐 다중 모드 명령 세트를 사용하여 모델을 더욱 미세 조정합니다. 이 데이터 세트에는 인간이 수집한 고품질 교육 데이터가 포함되어 있으므로 본 연구에서는 이를 복잡한 다중 모드 추론 작업의 벤치마크로 사용합니다

이 문서의 가장 좋은 모델은 다양한 작업 및 양식에 대한 자동 및 인간 평가에서 좋은 결과를 얻었습니다. 기존 문헌의 모델과 비교하여 VQAv2의 상대 정확도는 7.0% 증가하고, 제로 오류 COCO 이미지 자막의 CIDEr는 8.4%, AudioCaps의 CIDEr는 14.5% 증가하여 새로운 모델을 만들었습니다. SOTA

메소드 개요

특정 데이터를 포함하는 페어링된 멀티모달 데이터를 사용하여 다시 작성해야 함 모달 신호 및 텍스트 내러티브), 이 연구에서는 다중 달성을 위해 LLM을 사전 훈련했습니다. -그림 2에 표시된 모달 이해 기능. 특히 입력 신호를 특정 LLM의 텍스트 토큰 내장 공간에 투영하는 각 양식에 대한 경량 어댑터를 교육합니다. 이러한 방식으로 LLM의 텍스트 토큰 임베딩 공간은 토큰이 텍스트 또는 기타 형식을 나타낼 수 있는 공동 토큰 임베딩 공간이 됩니다.

이미지 정렬 연구와 관련하여 우리는 LAION-2B 데이터세트의 깨끗한 하위 집합을 사용했으며 CAT 방법을 사용했습니다. 필터링을 위해 감지 가능한 얼굴은 모두 흐리게 처리됩니다. 오디오 정렬 연구를 위해 AudioSet(2.1M), AudioCaps(46K) 및 CLOTHO(5K) 데이터 세트가 사용되었습니다. 또한 IMU 및 텍스트 정렬(528K)을 위해 Ego4D 데이터세트도 사용했습니다.

대규모 데이터세트의 경우 사전 훈련을 70B 매개변수 모델로 확장하려면 많은 리소스가 필요하며 종종 여러 GPU에서 FSDP 래퍼를 사용해야 하는 경우도 있습니다. 샤딩되어 있습니다. 훈련을 효과적으로 확장하기 위해 모델의 LLM 부분이 고정되고 모달 토크나이저만 훈련 가능한 다중 모드 설정에서 양자화 전략(4비트 및 8비트)을 구현합니다. 이 접근 방식은 메모리 요구 사항을 몇 배나 줄여줍니다. 따라서 70B AnyMAL은 배치 크기가 4인 단일 80GB VRAM GPU에서 훈련을 완료할 수 있습니다. FSDP와 비교하여 이 글에서 제안하는 양자화 방법은 GPU 리소스의 절반만 사용하지만 동일한 처리량을 달성합니다

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

미세 조정을 위해 다중 모드 명령 데이터 세트를 사용한다는 것은 미세 조정을 위해 다중 모드 명령 데이터 세트를 사용한다는 의미입니다.

다양한 입력 양식에 대한 명령을 따르는 모델의 능력을 더욱 향상시키기 위해 우리는 다중 모드 명령어 데이터 세트 사용 MM-IT(Dynamic Instruction Tuning) 데이터 세트에 대한 추가 미세 조정이 수행되었습니다. 구체적으로, 응답 대상이 텍스트 명령과 모달 입력을 모두 기반으로 하도록 입력을 [ 다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다. ]으로 연결합니다. 연구는 다음 두 가지 상황에 대해 수행됩니다: (1) LLM 매개변수를 변경하지 않고 투영 계층을 훈련하거나 (2) LM 동작을 추가로 조정하기 위해 낮은 수준 적응(Low-Rank Adaptation)을 사용합니다. 이 연구에서는 수동으로 수집한 명령 조정 데이터 세트와 합성 데이터를 모두 사용합니다.

실험 및 결과

이미지 캡션 생성은 이미지에 해당하는 캡션을 자동으로 생성하는 데 사용되는 인공 지능 기술입니다. 컴퓨터 비전과 자연어 처리 방식을 결합해 이미지의 내용과 특징을 분석하고 의미와 구문을 이해해 이미지와 관련된 설명 캡션을 생성하는 기술이다. 이미지 캡션 생성은 이미지 검색, 이미지 주석, 이미지 검색 등을 포함한 다양한 분야에서 폭넓게 적용됩니다. 제목을 자동으로 생성함으로써 이미지에 대한 이해도와 검색 엔진의 정확성이 향상되어 사용자에게 더 나은 이미지 검색 및 탐색 경험을 제공할 수 있습니다

표 2는 COCO의 결과와 "상세 설명"(MM- IT-Cap의 MM-IT 데이터세트 하위 집합에 대한 제로샷 이미지 캡션 생성 성능. 볼 수 있듯이 AnyMAL 변종은 두 데이터 세트 모두에서 기준보다 훨씬 더 나은 성능을 발휘합니다. 특히 AnyMAL-13B와 AnyMAL-70B 변형 간에는 성능에 큰 차이가 없습니다. 이 결과는 이미지 캡션 생성을 위한 기본 LLM 기능이 이미지에 대한 해당 캡션을 자동으로 생성하는 데 사용되는 인공 지능 기술임을 보여줍니다. 컴퓨터 비전과 자연어 처리 방식을 결합해 이미지의 내용과 특징을 분석하고 의미와 구문을 이해해 이미지와 관련된 설명 캡션을 생성하는 기술이다. 이미지 캡션 생성은 이미지 검색, 이미지 주석, 이미지 검색 등을 포함한 다양한 분야에서 폭넓게 적용됩니다. 캡션 생성을 자동화하면 이미지 이해도와 검색 엔진 정확도가 향상되어 사용자에게 더 나은 이미지 검색 및 탐색 경험을 제공할 수 있습니다. 작업의 영향은 적지만 데이터 크기 및 등록 방법에 따라 크게 달라집니다.

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

필요한 재작성은 다음과 같습니다: 다중 모달 추론 작업에 대한 인간 평가

그림 3은 AnyMAL이 기준선(LLaVA: 34.4% 승률 및 MiniGPT4: 27.0% 승률)과 비교됨을 보여줍니다. 성능은 다음과 같습니다. 강력하고 실제 사람이 주석을 추가한 샘플과의 격차가 작습니다(승률 41.1%). 특히, 전체 명령어 세트로 미세 조정된 모델은 가장 높은 우선순위 승률을 보여 인간이 주석을 추가한 응답에 필적하는 시각적 이해 및 추론 능력을 보여주었습니다. BLIP-2와 InstructBLIP은 공개 VQA 벤치마크에서는 좋은 성능을 발휘하지만 이러한 공개 쿼리에서는 성능이 좋지 않다는 점도 주목할 가치가 있습니다(각각 4.1% 및 16.7% 우선순위 승률).

VQA 벤치마크

표 4에서는 문헌에 보고된 각 벤치마크에 대한 Hateful Meme 데이터 세트인 VQAv2, TextVQA, ScienceQA, VizWiz 및 OKVQA에 대한 제로샷 성능을 보여줍니다. 샘플 결과를 비교했습니다. 우리의 연구는 추론 시간에 공개 쿼리에 대한 모델 성능을 가장 정확하게 추정하기 위한 제로 샷 평가에 중점을 두고 있습니다.

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

동영상 QA 벤치마크

표 6에 표시된 대로 세 가지 모델을 연구합니다. 비디오 QA 벤치마크.

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

오디오 자막 재생성

표 5는 AudioCaps 벤치마크 데이터 세트에서 오디오 자막을 재생성한 결과를 보여줍니다. AnyMAL은 문헌의 다른 최첨단 오디오 자막 모델(예: CIDEr +10.9pp, SPICE +5.8pp)보다 훨씬 뛰어난 성능을 보여 제안된 방법이 비전뿐만 아니라 다양한 양식에도 적용 가능함을 나타냅니다. 텍스트 70B 모델은 7B 및 13B 변형에 비해 분명한 이점을 보여줍니다.

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

흥미롭게도 AnyMAL 논문 제출 방법, 유형, 시기를 기준으로 메타는 새로 출시한 혼합현실/메타버스 헤드셋을 통해 다중 모드 데이터를 수집할 계획인 것으로 보입니다. 이러한 연구 결과는 Meta의 Metaverse 제품 라인에 통합되거나 곧 소비자 애플리케이션에 적용될 수 있습니다.

자세한 내용은 원본 기사를 읽어보세요.

위 내용은 다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

자동 생성 쿼리에 대한 SQL 어시스턴트Apr 12, 2025 am 09:13 AM

단순히 데이터베이스와 대화하고, 일반 언어로 질문을하고, 복잡한 SQL 쿼리를 작성하거나 스프레드 시트를 정렬하지 않고 즉각적인 답변을받을 수 있기를 바랐습니까? Langchain의 SQL 툴킷으로 Groq a

AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까?Apr 11, 2025 pm 12:13 PM

Stanford University Institute for Human-Oriented Intificial Intelligence가 발표 한 2025 인공 지능 지수 보고서는 진행중인 인공 지능 혁명에 대한 훌륭한 개요를 제공합니다. 인식 (무슨 일이 일어나고 있는지 이해), 감사 (혜택보기), 수용 (얼굴 도전) 및 책임 (우리의 책임 찾기)의 네 가지 간단한 개념으로 해석합시다. 인지 : 인공 지능은 어디에나 있고 빠르게 발전하고 있습니다 인공 지능이 얼마나 빠르게 발전하고 확산되고 있는지 잘 알고 있어야합니다. 인공 지능 시스템은 끊임없이 개선되어 수학 및 복잡한 사고 테스트에서 우수한 결과를 얻고 있으며 1 년 전만해도 이러한 테스트에서 비참하게 실패했습니다. AI 복잡한 코딩 문제 또는 대학원 수준의 과학적 문제를 해결한다고 상상해보십시오-2023 년 이후

Meta Llama 3.2- 분석 Vidhya를 시작합니다Apr 11, 2025 pm 12:04 PM

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등Apr 11, 2025 pm 12:01 PM

이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

기계와 대화하는 사람의 비용 : 챗봇이 실제로 신경 쓰일 수 있습니까?Apr 11, 2025 pm 12:00 PM

연결의 편안한 환상 : 우리는 AI와의 관계에서 진정으로 번성하고 있습니까? 이 질문은 MIT Media Lab의 "AI (AI)를 사용하여 인간의 발전"심포지엄의 낙관적 톤에 도전했습니다. 이벤트는 절단 -EDG를 보여주었습니다

파이썬의 Scipy 라이브러리 이해Apr 11, 2025 am 11:57 AM

소개 차등 방정식, 최적화 문제 또는 푸리에 분석과 같은 복잡한 문제를 해결하는 과학자 또는 엔지니어라고 상상해보십시오. Python의 사용 편의성 및 그래픽 기능은 매력적이지만 이러한 작업에는 강력한 도구가 필요합니다.

LLAMA 3.2를 실행하는 3 가지 방법 분석 VidhyaApr 11, 2025 am 11:56 AM

메타의 라마 3.2 : 멀티 모달 AI 강국 Meta의 최신 멀티 모드 모델 인 LLAMA 3.2는 AI의 상당한 발전으로 향상된 언어 이해력, 개선 된 정확도 및 우수한 텍스트 생성 기능을 자랑합니다. 그것의 능력 t

Dagster와 데이터 품질 검사 자동화Apr 11, 2025 am 11:44 AM

데이터 품질 보증 : Dagster로 점검 자동화 및 큰 기대치 데이터 품질이 높다는 것은 데이터 중심 비즈니스에 중요합니다. 데이터 볼륨 및 소스가 증가함에 따라 수동 품질 관리는 비효율적이며 오류가 발생하기 쉽습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

Dreamweaver Mac版

시각적 웹 개발 도구

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.