GPT-4는 한때 수많은 사람들을 놀라게 했던 유명한 인터넷 밈 "치와와 또는 블루베리 와플"을 해결했습니다.
그러나 지금은 '사기' 혐의로 고소당하고 있습니다!
Pictures
원제목에 나오는 사진은 다 그대로 사용했는데 순서나 배열이 엉망이네요.
GPT-4 최신 버전은 올인원 기능으로 유명합니다. 그런데 놀랍게도 인식한 이미지 개수에 오류가 발생했고, 원래 제대로 인식되었던 치와와도 인식 오류가 나더군요
Pictures
GPT-4가 원본에서 이렇게 좋은 성능을 발휘한 이유 이미지뭐야?
UCSC Xin Eric Wang 조교수의 추측에 따르면, 이 테스트를 실시하는 이유는 인터넷에 있는 원본 이미지가 너무 인기가 있기 때문이라고 합니다. 그는 GPT-4가 훈련 과정에서 원래의 답을 여러 번 접했고 그것을 성공적으로 기억했다고 믿습니다.
세 명의 튜링상 수상자 중 한 명인 LeCun도 이 문제에 주목하며 다음과 같이 말했습니다:
훈련에 주의하세요 테스트를 설정합니다.
사진
원작 사진이 얼마나 인기가 많나요? 유명한 인터넷 밈일 뿐만 아니라, 컴퓨터 비전 분야에서도 고전적인 문제가 되었고, 관련 주제에 여러 번 등장 논문 연구가 진행 중입니다.
사진
GPT-4의 성능이 어떤 측면에서 제한되어 있는지를 고려하여 많은 네티즌들은 원본 이미지의 영향에 관계없이 자체 테스트 계획을 제안했습니다.
배치가 너무 복잡한지 배제하기 위해 그리고 어떤 영향을 끼치는지, 어떤 사람들은 그것을 간단한 것으로 수정했습니다. 3x3 배열도 많은 실수를 인정합니다.
Pictures
Pictures
누군가 사진 일부를 분해하여 개별적으로 GPT-4에 보냈는데 정확도가 5/5였습니다.
Pictures
Xin Eric Wang은 이러한 쉽게 혼동되는 이미지를 하나로 묶는 것이 이 도전의 핵심이라고 믿습니다. "와 "단계적으로 생각하기"가 두 가지 핵심 팁이고 올바른 결과를 얻습니다
Pictures
GPT-4 문구 "이것은 시각적 말장난이나 유명한 밈의 예입니다", 또한 노출되었습니다. 원본 이미지가 실제로 훈련 데이터에 존재할 수 있다는 것입니다. 다음과 같이 표현됨: 그러나 GPT-4는 답변에 "이것은 시각적 말장난이나 유명한 밈의 예입니다"라고 사용했으며 이는 또한 원본 이미지가 실제로 훈련 데이터에 존재할 수 있음을 나타냅니다
image
마지막으로 누군가 자주 등장하는 '테디냐 프라이드치킨' 테스트도 테스트한 결과, GPT-4가 잘 구분하지 못하는 것으로 나타났습니다.
사진
이 "블루베리나 초코빈"은 좀 과해요...
사진
대형 모델의 "넌센스"를 학계에서는 환상 문제라고 부릅니다. 최근 다중 모드 대형 모델의 시각적 환상 문제가 인기 있는 연구 방향이 되었습니다.
EMNLP 2023의 연구에서 우리는 1600개의 데이터 포인트가 포함된 GVIL 데이터 세트를 만들고 시각적 환상 문제에 대한 체계적인 평가를 수행했습니다.
Pictures
연구에 따르면 규모가 클수록 모델이 더 취약한 것으로 나타났습니다.
pictures
또 다른 최근 연구는 편견과 간섭이라는 두 가지 유형의 환상을 평가하는 데 중점을 둡니다.
pictures
Pictures
연구에 따르면 GPT-4V는 여러 이미지를 함께 해석할 때 종종 혼란을 겪고 "치와와 또는 와플" 테스트의 관찰 결과와 일치하여 이미지를 개별적으로 보낼 때 더 나은 성능을 발휘한다고 지적했습니다.
Pictures
자기 수정 및 사고 사슬 프롬프트와 같은 인기 있는 완화 조치는 이러한 문제를 효과적으로 해결하지 못하며, 테스트 결과 LLaVA 및 Bard와 같은 다중 모드 모델에도 유사한 문제가 있는 것으로 나타났습니다
또한 , 연구에서도 GPT-4V가 서구 문화적 배경이 있는 이미지나 영어 텍스트가 포함된 이미지를 더 잘 해석하는 것으로 나타났습니다.
예를 들어 GPT-4V는 일곱 난쟁이 + 백설공주를 정확하게 셀 수 있지만 일곱 박 인형은 10으로 계산합니다.
Pictures
참조 링크: [1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv.org/abs/2311.00047[3]https://arxiv. org/abs/2311.03287
위 내용은 GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!