Bytedance Doubao와 무한 대학은 CAL을 제안했습니다: 시각적으로 관련된 토큰을 통해 다중 모드 정렬 효과를 향상합니다.

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
- 문서 링크: https://arxiv.org/pdf/2405.17871
- 코드 링크: https://github.com/foundation-multimodal-models/CAL
- 은 추가 사전 교육 단계 없이 교육 프로세스에 직접 중첩될 수 있습니다.
- 시각화를 통해 CAL이 이미지 모달 정렬을 향상시키는 것을 확인할 수 있습니다.
- CAL을 사용하면 학습 프로세스가 시끄러운 데이터에 대한 저항력을 더욱 높일 수 있습니다.
- : 다음 단어나 이전 텍스트에서 유추할 수 있는 내용 등. 이러한 토큰은 실제로 VLM의 일반 텍스트 기능을 교육하는 데 주로 사용됩니다.
-
이미지 내용과 모순되는 텍스트 : 이러한 토큰은 이미지 정보와 일치하지 않으며 오해의 소지가 있는 정보를 제공하여 다중 모드 정렬 프로세스에 부정적인 영향을 미칠 수도 있습니다. - 标 그림 1: 녹색 표시는 관련성이 높은 토큰과 관련이 있고 빨간색은 내용과 반대이며 무색은 중립 토큰입니다. 토큰은 실제로 더 큰 비율을 차지하지만 이미지에 크게 의존하지 않기 때문에 이미지의 모달 정렬에 거의 영향을 미치지 않습니다. 따라서 더 나은 정렬을 위해서는 첫 번째 유형의 텍스트 토큰, 즉 이미지와 관련성이 높은 토큰의 가중치를 높일 필요가 있습니다. 이 토큰 부분을 어떻게 찾는지가 이 문제를 해결하는 열쇠가 되었습니다.
Method 이미지와 관련성이 높은 토큰 찾기 이 문제는 조건 대조를 통해 해결할 수 있습니다.학습 데이터의 각 이미지-텍스트 쌍에 대해 이미지 입력이 없는 경우 각 텍스트 토큰의 로짓은 컨텍스트 및 기존 지식 값을 기반으로 이 상황 발생에 대한 LLM의 추정치를 나타냅니다.
앞에 이미지 입력을 추가하면 추가 상황 정보를 제공하는 것과 같습니다. 이 경우 각 텍스트 토큰의 로짓은 새로운 상황에 따라 조정됩니다. 이 두 경우의 로짓 변경은 각 텍스트 토큰에 대한 그림의 새로운 조건의 영향을 나타냅니다.- 특히 훈련 과정에서 CAL은 이미지와 텍스트 시퀀스, 개별 텍스트 시퀀스를 각각 LLM(대형 언어 모델)에 입력하여 각 텍스트 토큰의 로짓을 얻습니다. 두 경우의 로짓 차이를 계산함으로써 이미지가 각 토큰에 미치는 영향을 측정할 수 있습니다. 로짓 차이가 클수록 이미지가 토큰에 미치는 영향이 커지므로 토큰이 이미지와 더 관련성이 높습니다. 아래 그림은 텍스트 토큰에 대한 로짓 차이 및 CAL 방법의 흐름도를 보여줍니다.对 그림 2: 왼쪽 그림은 두 가지 상황에서의 토큰 로짓 차이의 시각화입니다. 오른쪽 그림은 CAL 방법 프로세스의 시각화입니다. 주류 모델: MGM, MGM, 다양한 크기의 모델에서 성능 향상이 이루어졌습니다.
- 다음 네 가지 검증 부분이 포함되어 있습니다.
(1) CAL을 사용하는 모델은 다양한 벤치마크 지표에서 더 나은 성능을 발휘합니다. (2) 두 이미지-텍스트 쌍의 텍스트를 비율에 맞게 무작위로 교환하여 노이즈 데이터(이미지-텍스트 불일치) 배치를 생성하고 이를 모델 훈련에 사용합니다. 훈련 과정을 만듭니다. 더 강력한 데이터 소음 방지 성능을 갖습니다. 도 그림 3: 다양한 강도의 소음 훈련의 경우 CAL의 성능과 기준선 (3) QA 사례의 답변 부분에서 그림 토큰의 주의 점수를 계산하고 이를 플롯팅합니다. 원본 이미지에서 CAL 훈련 모델은 더 명확한 주의 분포 맵을 갖습니다. C 그림 4: 기준선과 CAL의 Attention Map을 시각화할 수 있습니다. 각 쌍의 오른쪽은 CAL (4)과 가장 유사한 LLM 어휘의 텍스트 토큰입니다. 원본 이미지에서는 CAL로 훈련된 모델 매핑 콘텐츠가 이미지 콘텐츠에 더 가깝습니다. ㅋㅋ ~ > Doubao Big Model 팀은 AI 분야에 대한 장기적인 비전과 의지를 가지고 있으며 연구 방향은 NLP, CV, 연설 등을 포함하며 중국에 실험실과 연구직이 있습니다. 싱가포르, 미국 및 기타 장소. 플랫폼의 충분한 데이터, 컴퓨팅 및 기타 리소스를 기반으로 팀은 자체 개발한 일반 대형 모델을 출시하여 다중 모드 기능을 제공하고 있으며 Doubao, Buttons 등 50개 이상의 비즈니스를 지원합니다. 및 Jimeng이며 Volcano Engine 고객을 통해 대중에게 공개됩니다. 현재 Doubao APP는 중국 시장에서 가장 많은 사용자를 보유한 AIGC 애플리케이션이 되었습니다. ByteDance Beanbao 모델 팀에 합류하신 것을 환영합니다.
위 내용은 Bytedance Doubao와 무한 대학은 CAL을 제안했습니다: 시각적으로 관련된 토큰을 통해 다중 모드 정렬 효과를 향상합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

소개 매일 몇 주 만에 작물의 진행 상황을 관찰하는 농부가 있다고 가정합니다. 그는 성장률을보고 몇 주 안에 식물이 얼마나 키가 커질 수 있는지에 대해 숙고하기 시작합니다. Th

Soft AI-대략적인 추론, 패턴 인식 및 유연한 의사 결정을 사용하여 구체적이고 좁은 작업을 수행하도록 설계된 AI 시스템으로 정의 된 것은 모호성을 수용하여 인간과 같은 사고를 모방하려고합니다. 그러나 이것이 바이러스의 의미는 무엇입니까?

클라우드 컴퓨팅이 클라우드 네이티브 보안 도구로의 전환이 필요했기 때문에 AI는 AI의 고유 한 요구를 위해 특별히 설계된 새로운 유형의 보안 솔루션을 요구합니다. 클라우드 컴퓨팅 및 보안 수업의 상승이 배웠습니다 th

기업가와 AI 및 생성 AI를 사용하여 비즈니스를 개선합니다. 동시에, 모든 기술과 마찬가지로 생성 AI를 기억하는 것이 중요합니다. 앰프는 앰프입니다. 엄격한 2024 연구 o

임베딩 모델의 힘 잠금 해제 : Andrew Ng의 새로운 코스에 대한 깊은 다이빙 기계가 완벽한 정확도로 질문을 이해하고 응답하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. AI의 발전 덕분에 R이되었습니다

대형 언어 모델 (LLM) 및 환각의 피할 수없는 문제 Chatgpt, Claude 및 Gemini와 같은 AI 모델을 사용했을 것입니다. 이들은 대규모 텍스트 데이터 세트에 대해 교육을받은 강력한 AI 시스템의 대형 언어 모델 (LLM)의 예입니다.

최근의 연구에 따르면 AI 개요는 산업 및 검색 유형에 따라 유기 트래픽이 15-64% 감소 할 수 있습니다. 이러한 급격한 변화로 인해 마케팅 담당자는 디지털 가시성에 관한 전체 전략을 재고하게합니다. 새로운

Elon University의 Digital Future Center를 상상 한 최근 보고서는 거의 300 명의 글로벌 기술 전문가를 조사했습니다. 결과적인 보고서 인‘2035 년에 인간이되는 것’은 대부분 AI 시스템의 심화가 T에 대한 우려가 있다고 결론지었습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.
