집 >기술 주변기기 >일체 포함 >GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다.

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다.

PHPz앞으로: 2023-11-13 20:17:23748검색

GPT-4는 한때 수많은 사람들을 놀라게 했던 유명한 인터넷 밈 "치와와 또는 블루베리 와플"을 해결했습니다.

그러나 지금은 '사기' 혐의로 고소당하고 있습니다!

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. Pictures

원제목에 나오는 사진은 다 그대로 사용했는데 순서나 배열이 엉망이네요.

GPT-4 최신 버전은 올인원 기능으로 유명합니다. 그런데 놀랍게도 인식한 이미지 개수에 오류가 발생했고, 원래 제대로 인식되었던 치와와도 인식 오류가 나더군요

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. Pictures

GPT-4가 원본에서 이렇게 좋은 성능을 발휘한 이유 이미지뭐야?

UCSC Xin Eric Wang 조교수의 추측에 따르면, 이 테스트를 실시하는 이유는 인터넷에 있는 원본 이미지가 너무 인기가 있기 때문이라고 합니다. 그는 GPT-4가 훈련 과정에서 원래의 답을 여러 번 접했고 그것을 성공적으로 기억했다고 믿습니다.

세 명의 튜링상 수상자 중 한 명인 LeCun도 이 문제에 주목하며 다음과 같이 말했습니다:

훈련에 주의하세요 테스트를 설정합니다.

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. 사진

테디와 프라이드치킨은 구분이 안가네요

원작 사진이 얼마나 인기가 많나요? 유명한 인터넷 밈일 뿐만 아니라, 컴퓨터 비전 분야에서도 고전적인 문제가 되었고, 관련 주제에 여러 번 등장 논문 연구가 진행 중입니다.

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. 사진

GPT-4의 성능이 어떤 측면에서 제한되어 있는지를 고려하여 많은 네티즌들은 원본 이미지의 영향에 관계없이 자체 테스트 계획을 제안했습니다.

배치가 너무 복잡한지 배제하기 위해 그리고 어떤 영향을 끼치는지, 어떤 사람들은 그것을 간단한 것으로 수정했습니다. 3x3 배열도 많은 실수를 인정합니다.

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. Pictures

누군가 사진 일부를 분해하여 개별적으로 GPT-4에 보냈는데 정확도가 5/5였습니다.

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. Pictures

Xin Eric Wang은 이러한 쉽게 혼동되는 이미지를 하나로 묶는 것이 이 도전의 핵심이라고 믿습니다. "와 "단계적으로 생각하기"가 두 가지 핵심 팁이고 올바른 결과를 얻습니다

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. Pictures

GPT-4 문구 "이것은 시각적 말장난이나 유명한 밈의 예입니다", 또한 노출되었습니다. 원본 이미지가 실제로 훈련 데이터에 존재할 수 있다는 것입니다. 다음과 같이 표현됨: 그러나 GPT-4는 답변에 "이것은 시각적 말장난이나 유명한 밈의 예입니다"라고 사용했으며 이는 또한 원본 이미지가 실제로 훈련 데이터에 존재할 수 있음을 나타냅니다

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. image

마지막으로 누군가 자주 등장하는 '테디냐 프라이드치킨' 테스트도 테스트한 결과, GPT-4가 잘 구분하지 못하는 것으로 나타났습니다.

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. 사진

이 "블루베리나 초코빈"은 좀 과해요...

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. 사진

시각적 환상이 인기 있는 방향이 되었습니다

대형 모델의 "넌센스"를 학계에서는 환상 문제라고 부릅니다. 최근 다중 모드 대형 모델의 시각적 환상 문제가 인기 있는 연구 방향이 되었습니다.

EMNLP 2023의 연구에서 우리는 1600개의 데이터 포인트가 포함된 GVIL 데이터 세트를 만들고 시각적 환상 문제에 대한 체계적인 평가를 수행했습니다.

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. Pictures

연구에 따르면 규모가 클수록 모델이 더 취약한 것으로 나타났습니다.

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. pictures

또 다른 최근 연구는 편견과 간섭이라는 두 가지 유형의 환상을 평가하는 데 중점을 둡니다.

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. pictures

편향 지수 모델은 특정 유형의 반응을 생성하는 경향이 있습니다 훈련 데이터의 불균형 때문일 수 있습니다.
텍스트 프롬프트의 표현 방식이나 입력 이미지 표시 방식으로 인해 간섭이 발생하여 다른 장면이 제거될 수 있습니다.

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. Pictures

연구에 따르면 GPT-4V는 여러 이미지를 함께 해석할 때 종종 혼란을 겪고 "치와와 또는 와플" 테스트의 관찰 결과와 일치하여 이미지를 개별적으로 보낼 때 더 나은 성능을 발휘한다고 지적했습니다.

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. Pictures

자기 수정 및 사고 사슬 프롬프트와 같은 인기 있는 완화 조치는 이러한 문제를 효과적으로 해결하지 못하며, 테스트 결과 LLaVA 및 Bard와 같은 다중 모드 모델에도 유사한 문제가 있는 것으로 나타났습니다

또한 , 연구에서도 GPT-4V가 서구 문화적 배경이 있는 이미지나 영어 텍스트가 포함된 이미지를 더 잘 해석하는 것으로 나타났습니다.

예를 들어 GPT-4V는 일곱 난쟁이 + 백설공주를 정확하게 셀 수 있지만 일곱 박 인형은 10으로 계산합니다.

GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다. Pictures

참조 링크: [1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv.org/abs/2311.00047[3]https://arxiv. org/abs/2311.03287

위 내용은 GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

人工智能 bard https gpt

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：지식 추출에 대해 이야기해 볼까요?다음 기사：지식 추출에 대해 이야기해 볼까요?