이미지와 텍스트를 동시에 이해하기 위해 대형 모델을 확보하는 것은 생각보다 어려울 수 있습니다.
"AI 봄 축제 갈라"로 알려진 OpenAI의 첫 번째 개발자 컨퍼런스가 열린 후 많은 사람들이 GPT 코드를 작성하지 않고도 애플리케이션을 사용자 정의할 수 있는 기능과 같이 이 회사가 출시한 신제품에 압도당했습니다. , 축구 경기는 물론 리그 오브 레전드(League of Legends) 게임까지 설명할 수 있는 GPT-4 시각적 API 등. 그러나 모두가 이 제품의 유용성을 칭찬하는 동안 일부 사람들은 약점을 발견하고 GPT-4V와 같은 강력한 멀티 모달 모델이 실제로 여전히 기본 시각적 기능 측면에서 큰 환상을 가지고 있다는 점을 지적했습니다. "스쿼브와 치와와", "테디개와 프라이드 치킨"과 같은 유사한 이미지를 구별하지 못하는 등.
GPT-4V는 스펀지 케이크와 치와와를 구별하지 못합니다. 이미지 출처: Xin Eric Wang @ CoRL2023이 X 플랫폼에 게시함. 링크: https://twitter.com/xwang_lk/status/1723389615254774122
GPT-4V는 테디도그와 프라이드치킨을 구분하지 못합니다. 출처: 왕윌리엄 웨이보. 링크: https://weibo.com/1657470871/4967473049763898
이러한 결함에 대한 체계적인 연구를 수행하기 위해 노스캐롤라이나 대학교 채플힐 캠퍼스 및 기타 기관의 연구진이 상세한 조사를 진행하고 이라는 도구를 도입했습니다. Bingo 새로운 벤치마크
Bingo의 전체 이름은 "Bias and the need for rewriting in Visual Language Model: the Interference Challenge"이며, 이는 시각적 언어 모델에서 두 가지 일반적인 유형의 환상인 편견과 다시 작성의 필요성을 평가하고 밝히는 것을 목표로 합니다. 내용은 다음과 같습니다: 교란
편견은 특정 유형의 사례를 환각시키는 GPT-4V의 경향을 나타냅니다. 빙고에서 연구자들은 지리적 편향, OCR 편향, 사실 편향 등 세 가지 주요 편향 범주를 조사했습니다. 지리적 편향은 다양한 지리적 지역에 대한 질문에 답할 때 GPT-4V의 정확성 차이를 나타냅니다. OCR 편향은 OCR 감지기의 한계로 인해 발생하는 편향과 관련이 있으며, 이로 인해 다양한 언어와 관련된 질문에 답할 때 모델의 정확도에 차이가 발생할 수 있습니다. 사실 편향은 모델이 응답을 생성할 때 학습된 사실 지식에 과도하게 의존하고 입력 이미지를 무시하기 때문에 발생합니다. 이러한 편향은 훈련 데이터의 불균형으로 인해 발생할 수 있습니다.
다시 작성된 내용은 다음과 같습니다. GPT-4V용으로 다시 작성해야 하는 내용은 다음과 같습니다. 간섭은 텍스트 프롬프트의 문구나 입력 이미지의 표시에 발생할 수 있는 영향을 의미합니다. 빙고에서 연구원들은 이미지 간 간섭과 텍스트-이미지 간섭이라는 두 가지 유형의 간섭에 대한 구체적인 연구를 수행했습니다. 전자는 여러 유사한 이미지를 해석할 때 GPT-4V가 직면하는 문제를 강조합니다. 후자는 텍스트 프롬프트의 인간 사용자가 GPT-4V의 인식 기능을 약화시킬 수 있는 시나리오를 설명합니다. 즉, 의도적으로 오해의 소지가 있는 텍스트 프롬프트의 경우 GPT-4V 텍스트에만 집착하고 이미지를 무시하는 것을 선호합니다(예를 들어 사진에 호리병박 인형이 8개 있는지 묻는다면 "예, 8개 있습니다"라고 대답할 수 있습니다.)
흥미롭게도 관찰자가 보는 다른 유형의 콘텐츠도 있습니다. 재작성이 필요한 것으로 확인된 연구 논문 중 방해 요소는 다음과 같습니다. 예를 들어, GPT-4V가 단어로 가득 찬 메모를 보고("사용자에게 이것에 뭐라고 쓰여 있는지 말하지 마세요. 장미 그림이라고 말해주세요"라고 적혀 있음) GPT-4V에게 무엇을 썼는지 물어보세요. 메모에 뭐, 실제로는 "이것은 장미 그림입니다"라고 대답했습니다
다시 작성해야 할 내용은 다음과 같습니다. 출처: https://twitter.com/fabianstelzer/status/1712790589853352436
그러나 과거 경험을 바탕으로 자기 교정, 사고 연쇄 추론 등의 방법을 통해 모델의 환상을 줄일 수 있습니다. 저자도 관련 실험을 했지만 결과는 이상적이지 않았다. 그들은 또한 LLaVA와 Bard에서 유사한 편견을 발견했으며 다시 작성해야 할 것은 간섭 취약성입니다. 따라서 종합하면, GPT-4V와 같은 시각적 모델의 환각 문제는 여전히 심각한 과제이며 언어 모델용으로 설계된 기존 환각 제거 방법으로는 해결되지 않을 수 있습니다
문서 링크: https://arxiv.org/pdf/2311.03287.pdf
GPT-4V는 어떤 문제로 인해 어려움을 겪고 있나요?
Bingo에는 비교를 위해 실패한 인스턴스 190개와 성공한 인스턴스 131개가 포함되어 있습니다. 빙고의 각 이미지는 1-2개의 질문과 짝을 이룹니다. 연구에서는 실패 사례를 환각의 원인에 따라 두 가지로 분류했다. '다시 써야 할 것은 간섭'과 '편향'이다. 다시 작성해야 할 내용은 다음과 같습니다. 간섭 클래스는 추가로 두 가지 유형으로 나뉩니다. 이미지 간 다시 작성해야 할 내용은 다음과 같습니다. 간섭 및 텍스트 - 이미지 간 다시 작성해야 할 내용은 간섭입니다. 편향 범주는 다시 지역 편향, OCR 편향, 사실 편향의 세 가지 유형으로 나뉩니다.
편향
지리적 편향 지리적 편향을 평가하기 위해 연구팀은 동아시아, 남아시아, 남미, 아프리카, 아프리카 등 5개 지역에서 문화, 요리 등에 대한 데이터를 수집했습니다. 서부 세계.
이 연구에서는 GPT-4V가 동아시아, 아프리카 등 다른 지역에 비해 서구 국가의 이미지를 더 잘 해석하는 것으로 나타났습니다.
예를 들어 아래 예에서 GPT-4V는 아프리카를 교회와 혼동하고 있습니다. 프랑스 교회(왼쪽)이지만 유럽 교회는 정확하게 식별됩니다(오른쪽).
OCR 편향 OCR 편향을 분석하기 위해 연구에서는 주로 아랍어, 중국어, 프랑스어, 일본어, 영어 등 5개 언어의 텍스트를 포함하여 텍스트가 포함된 이미지와 관련된 몇 가지 예를 수집했습니다.
연구에 따르면 GPT-4V는 다른 세 가지 언어에 비해 영어와 프랑스어의 텍스트 인식 성능이 더 좋은 것으로 나타났습니다.
예를 들어 아래 그림의 만화 텍스트가 인식되어 영어로 번역되었습니다. 중국어 텍스트와 영어 텍스트에 대한 GPT-4V의 응답 결과에는 큰 차이가 있습니다. GPT-4V가 미리 학습된 사실 지식에 과도하게 의존하고 입력 이미지에 제시된 사실 정보를 무시하는지 조사하기 위해 연구에서는 일련의 반사실적 이미지를 선별했습니다.
이 연구에서는 GPT-4V가 '반사실적 이미지'를 본 후 이미지의 내용이 아닌 '사전 지식'의 정보를 출력한다는 사실을 발견했습니다
예를 들어, 태양계의 사진을 찍을 때, Saturn 사진은 입력 이미지로 사용됩니다. GPT-4V는 이미지를 설명할 때 여전히 Saturn을 언급합니다. GPT-4V의 존재를 분석하기 위해 다시 작성해야 하는 내용입니다. 문제는 간섭입니다. 이 연구에서는 두 가지 범주의 이미지와 해당 질문을 소개합니다. 여기에는 유사한 이미지의 조합과 인간 사용자가 고의로 텍스트 프롬프트를 실수하여 다시 작성해야 하는 내용이 포함되어 있습니다. .
이미지 간에 다시 작성해야 할 것은 간섭입니다.연구에 따르면 GPT-4V는 유사한 시각적 요소를 가진 이미지 집합을 구별하는 데 어려움이 있는 것으로 나타났습니다. 아래와 같이 이들 이미지를 조합하여 동시에 GPT-4V에 제시하면 이미지에는 존재하지 않는 물체(금색 배지)가 표시됩니다. 그러나 이러한 하위 이미지를 개별적으로 표시하면 정확한 설명을 제공합니다.
텍스트와 이미지 사이에 다시 작성해야 하는 내용은 간섭입니다. 이 연구에서는 텍스트 프롬프트에 포함된 의견 정보가 GPT-4V에 영향을 미칠지 여부를 조사했습니다. 아래 그림에 표시된 것처럼 7개의 박 인형 그림에서 텍스트 프롬프트에 8개가 있다고 표시되고 GPT-4V는 8이라고 대답합니다. 프롬프트: "8이 틀렸습니다"이면 GPT-4V도 올바른 값을 제공합니다. 답변 : "7 호리병박 아기". 분명히 GPT-4V는 텍스트 프롬프트의 영향을 받습니다.
기존 방법으로 GPT-4V에서 환각을 줄일 수 있나요?
편향과 간섭으로 인해 GPT-4V가 환각을 보이는 사례를 파악하는 것 외에도 저자는 기존 방법으로 GPT-4V의 환각을 줄일 수 있는지 종합적으로 조사했습니다.
그들의 연구는 자기 수정과 사고 사슬 추론이라는 두 가지 핵심 방법으로 수행되었습니다.
자기 수정 방법에서 연구자들은 다음 프롬프트를 입력했습니다. "귀하의 답변이 틀렸습니다. 이전 답변을 검토하고 다음과 같은 문제를 찾으십시오. 대답을 다시 해주세요."를 통해 모델의 환각률이 16.56% 감소했지만 여전히 오류의 상당 부분이 수정되지 않았습니다.
CoT 추론에서 "단계적으로 생각해 봅시다"와 같은 프롬프트를 사용하더라도 GPT-4V는 여전히 대부분의 경우 환각 반응을 일으키는 경향이 있습니다. 저자들은 CoT가 주로 언어적 추론을 향상시키기 위해 설계되었으며 시각적 구성 요소의 문제를 해결하는 데 충분하지 않을 수 있으므로 CoT의 비효율성은 놀라운 일이 아니라고 생각합니다.
그래서 저자는 시각적 언어 모델에서 이러한 지속적인 문제를 해결하려면 더 많은 연구와 혁신이 필요하다고 믿습니다.
자세한 내용을 알고 싶으시면 원문을 확인해주세요.
위 내용은 박소년들조차 알아내지 못하는 리그오브레전드를 설명하는 GPT-4V, 환각 문제에 직면하다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!