>기술 주변기기 >일체 포함 >비전 언어 모델을 제기합니다

비전 언어 모델을 제기합니다

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의
2025-02-25 23:42:08592검색

Vision Language Models (VLMS) : 멀티 모달 프롬프트에 대한 깊은 다이빙

VLM은 텍스트 및 시각적 입력을 원활하게 통합하여 멀티 모달 데이터 처리에서 상당한 도약을 나타냅니다. 텍스트에서만 작동하는 LLM과 달리 VLM은 두 방식을 모두 처리하여 시각적 및 텍스트 이해가 필요한 작업을 가능하게합니다. 이렇게하면 VQA (Visual 질문 응답) 및 이미지 캡션과 같은 응용 프로그램에 대한 문이 열립니다. 이 게시물은 VLM이 시각적 이해력을 활용할 수있는 효과적인 프롬프트 기술을 탐구합니다.

목차 :

Prompting Vision Language Models 소개 프롬프트 vlms Zero-Shot 프롬프트

소수의 샷 프롬프트

사고의 사슬 객체 감지 유도 프롬프트 결론

참조
    소개 :
  1. VLMS는 LLMS를 기반으로하여 시각적 처리를 추가 양식으로 추가합니다. 훈련에는 일반적으로 공유 벡터 공간 내에서 이미지 및 텍스트 표현을 정렬하는 것이 포함되며, 종종 교차 중심 메커니즘을 사용합니다 [1, 2, 3, 4]. 이를 통해 편리한 텍스트 기반 상호 작용 및 이미지 쿼리가 가능합니다. VLMS는 텍스트 전용 모델 범위를 넘어서 작업을 처리하는 텍스트 및 시각적 데이터 간의 간격을 연결하는 데 탁월합니다. VLM 아키텍처에 대한 더 깊은 이해는 멀티 모달 LLM에 관한 Sebastian Raschka의 기사를 참조하십시오.
  2. 프롬프트 vlms :
  3. LLMS와 유사하게 VLMS는 이미지 포함으로 향상된 다양한 프롬프트 기술을 사용합니다. 이 게시물은 객체 감지 통합과 함께 제로 샷, 소수의 샷 및 사슬의 프롬프트를 다룹니다. 실험은 OpenAI의 GPT-4O-Mini VLM을 사용합니다
  4. 코드와 리소스는 GitHub에서 사용할 수 있습니다 [링크 생략, 지침에 따라].
  5. 사용 된 데이터 :
  6. unsplash [링크 생략]의 5 개의 허가 된 라이센스 이미지가 사용되었으며 이미지 URL에서 파생 된 캡션이 사용되었습니다.
  7. Zero-샷 프롬프트 :
  8. Zero-샷 프롬프트에는 작업 설명과 이미지 만 제공하는 것이 포함됩니다. VLM은 출력 생성에 대한이 설명에만 의존합니다. 이것은 최소 정보 접근법을 나타냅니다. 이점은 잘 만들어진 프롬프트가 이미지 분류 또는 캡션을 위해 큰 데이터 세트를 요구하는 이전 방법과 달리 광범위한 교육 데이터없이 괜찮은 결과를 낳을 수 있다는 것입니다. OpenAI는 Base64 인코딩 된 이미지 URL을 지원합니다 [2]. 요청 구조는 LLM 프롬프트와 비슷하지만 Base64 인코딩 된 이미지를 포함합니다.
    <code class="language-json">{
      "role": "system",
      "content": "You are a helpful assistant that can analyze images and provide captions."
    },
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "Please analyze the following image:"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "data:image/jpeg;base64,{base64_image}",
            "detail": "detail"
          }
        }
      ]
    }</code>
    여러 이미지가 포함될 수 있습니다. Base64 인코딩, 프롬프트 구성 및 병렬 API 호출에 대한 헬퍼 기능이 구현됩니다. [지침에 따라 코드 스 니펫이 생략 됨]. 결과는 제로 샷 프롬프트에서 생성 된 상세한 캡션을 보여줍니다. [지침에 따라 이미지 생략]

    소수의 샷 프롬프트 :

    소수의 샷 프롬프트는 컨텍스트로 작업 예제를 제공하여 모델 이해를 향상시킵니다. [지침에 따라 코드 스 니펫이 생략 됨]. 세 가지 예제 이미지를 사용하면 생성 된 캡션이 제로 샷 프롬프트의 캡션보다 더 간결함을 보여줍니다. [지침에 따라 이미지가 생략되었습니다]. 이것은 예제 선택이 VLM 출력 스타일 및 세부 사항에 미치는 영향을 강조합니다. 사고의 사슬 프롬프트 :

    사고 체인 (COT) 프롬프트 [9]는 복잡한 문제를 더 간단한 단계로 나눕니다. 이것은 VLM에 적용되므로 추론을 위해 이미지와 텍스트를 모두 활용할 수 있습니다. [지침에 따라 코드 스 니펫이 생략 됨]. COT 트레이스는 OpenAI의 O1 모델을 사용하여 작성되며 몇 가지 예제로 사용됩니다. [예 : 지침에 따라 COT 트레이스 및 이미지 생략]. 결과는 최종 캡션을 생성하기 전에 중간 단계를 통해 추론하는 VLM의 능력을 보여줍니다. [지침에 따라 이미지 생략] 객체 감지 유도 프롬프트 : Prompting Vision Language Models 객체 감지는 VLM 프롬프트를 향상시킬 수 있습니다. Open-Vocabulary 객체 감지 모델 인 Owl-Vit [11]가 사용됩니다. 먼저 VLM은 높은 수준의 객체를 식별합니다. 이들은 올빼미가 경계 상자를 생성하기위한 프롬프트로 사용됩니다. 그런 다음 주석이 달린 이미지를 VLM으로 전달하여 캡션을합니다. [지침에 따라 코드 스 니펫이 생략 됨]. 간단한 이미지의 경우 영향이 제한되지만이 기술은 문서 이해와 같은 복잡한 작업에 유용합니다. [지침에 따라 이미지 생략]

    결론 :

    VLM은 시각적 및 텍스트 이해가 필요한 작업에 강력한 기능을 제공합니다. 이 포스트는 VLM 성능에 미치는 영향을 보여주는 다양한 프롬프트 전략을 탐구했습니다. 창의적 프롬프트 기술에 대한 추가 탐구는 엄청난 잠재력을 가지고 있습니다. VLM 프롬프트에 대한 추가 리소스가 가능합니다 [13]

    참고 문헌 :

    [1-13] [지침에 따라 참조가 생략 됨]

위 내용은 비전 언어 모델을 제기합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.