ChatGPT는 난수 생성과 관련하여 인간의 속임수도 이해합니다.
ChatGPT는 헛소리 예술가이자 잘못된 정보 유포자일 수 있지만 "수학자"는 아닙니다!
최근 메타 데이터 과학자인 Colin Fraser는 ChatGPT가 실제 난수를 생성할 수 없지만 "인간 난수"에 더 가깝다는 사실을 발견했습니다.
실험을 통해 프레이저는 "ChatGPT는 숫자 42와 7을 매우 좋아한다"는 결론에 도달했습니다.
네티즌들은 인간이 이 숫자를 매우 좋아한다는 뜻이라고 말했습니다.
테스트에서 Fraser는 다음과 같이 프롬프트를 입력했습니다.
「1에서 100 사이의 임의의 숫자를 선택하세요. 숫자를 포함하지 마세요. 응답의 다른 텍스트나 구두점. ChatGPT에 매번 1에서 100 사이의 난수를 생성하도록 요청함으로써 Fraser는 2,000개의 다른 답변을 수집하여 표로 정리했습니다.
숫자 42가 최대 10%까지 가장 많이 나타나는 것을 볼 수 있습니다. 또한 7을 포함하는 숫자가 매우 자주 나타납니다.
특히 71~79 사이의 숫자는 빈도가 더 높습니다. 이 범위를 벗어나는 숫자 중에서 7도 두 번째 숫자로 나타나는 경우가 많습니다.
42는 무엇을 의미하나요?
더글라스 아담스의 블록버스터 SF 소설 "은하수를 여행하는 히치하이커를 위한 안내서"를 읽어본 사람이라면 누구나 42가 "인생과 우주, 그리고 모든 것에 대한 궁극적인 해답"이라는 것을 알고 있습니다.
간단히 말하면 42와 69는 인터넷상의 밈 번호입니다. 이는 ChatGPT가 실제로 난수 생성기가 아니라 단순히 온라인에서 수집된 거대한 데이터 세트에서 생활에서 인기 있는 숫자를 선택한다는 것을 보여줍니다.
또한 7이 자주 나타나는데, 이는 ChatGPT가 인간의 선호도를 충족한다는 것을 정확하게 반영합니다.
서양 문화에서는 일반적으로 7을 행운의 숫자로 간주하며, Lucky 7이라는 말이 있습니다. 우리가 숫자 8에 집착하는 것처럼요.
흥미롭게도 프레이저는 GPT-4가 이를 보완하는 것 같다는 사실도 발견했습니다.
GPT-4에 더 많은 숫자를 요청하면 반환되는 난수가 너무 고르게 분포되어 있습니다.
즉, ChatGPT는 실제로 답변을 찾기 위해 "생각"하기보다는 기본적으로 예측을 통해 응답을 제공합니다.
거의 전능하다고 선전되는 챗봇도 여전히 조금은 어리석다는 것을 알 수 있습니다.
당신을 위한 자동차 여행을 계획해 보세요. 그러면 존재하지도 않는 마을에 들러보게 될 것입니다. 또는 난수를 출력하도록 하여 인기 있는 밈을 기반으로 결정을 내릴 가능성이 높습니다.
일부 네티즌들이 직접 시도해 본 결과 GPT-4가 42를 좋아한다는 사실을 발견했습니다.
ChatGPT가 온라인 진부한 말을 반복하는 것으로 끝난다면 요점은 무엇입니까?
GPT-4, 머신러닝 규칙 위반
OpenAI는 GPT-4에 대한 추가 정보를 공개하지 않았을 뿐만 아니라 모델의 크기조차 공개하지 않았으며, 수많은 전문적이고 표준화된 시험에서 그 성능이 인간을 압도했다는 점을 강조했습니다.
미국 BAR 변호사 자격증 시험을 예로 들면, GPT3.5는 10% 수준, GPT4는 90% 수준에 도달할 수 있습니다.
그러나 프린스턴 대학교 컴퓨터 공학과의 Arvind Narayanan 교수와 박사과정 학생인 Sayash Kapoor는
OpenAI가 훈련 데이터에서 테스트되었을 수 있다고 썼습니다. 게다가 인간 벤치마크는 챗봇에게는 의미가 없습니다.
특히 OpenAI는 기계 학습의 기본 규칙인 훈련 데이터를 테스트하지 않는다는 원칙을 위반했을 수 있습니다. 테스트 데이터와 훈련 데이터를 분리해야 한다는 점을 알아야 합니다. 그렇지 않으면 과적합 문제가 발생합니다.
이 문제 외에도 더 큰 문제가 있습니다.
언어 모델은 인간과 다르게 문제를 해결하므로 이러한 결과는 전문가가 직면한 실제 문제에 직면했을 때 로봇이 얼마나 잘 수행할 것인지에 대한 의미가 거의 없습니다. 변호사의 임무는 하루 종일 변호사 시험 문제에 답하는 것이 아닙니다.
문제 1: 훈련 데이터 오염
GPT-4의 프로그래밍 능력을 평가하기 위해 OpenAI는 러시아 프로그래밍 대회 웹사이트인 Codeforces에서 평가되었습니다.
놀랍게도 Horace는 단순 분류에서 GPT-4가 2021년 이전 문제 10개를 해결했지만 최근 문제 10개 중 하나도 해결하지 못했다고 온라인에서 지적했습니다.
GPT-4의 학습 데이터 마감일은 2021년 9월입니다.
이는 모델이 훈련 세트의 솔루션을 기억하거나 적어도 부분적으로 기억하여 기억할 수 없는 부분을 채울 수 있다는 것을 강력히 의미합니다.
이 가설에 대한 추가 증거를 제공하기 위해 Arvind Narayanan은 2021년 다양한 시기에 Codeforces 경쟁 문제에 대해 GPT-4를 테스트했습니다.
GPT-4는 9월 5일 이전에는 단순 분류 문제를 해결할 수 있는 것으로 나타났으나 9월 12일 이후의 문제는 하나도 해결되지 않았습니다.
실제로 훈련 세트에 문제가 기억되어 있음을 명시적으로 증명할 수 있습니다. GPT-4에 Codeforces 문제 제목이 표시되면 문제가 나타난 정확한 일치 항목에 대한 링크가 포함됩니다. GPT-4는 인터넷에 접속할 수 없으므로 메모리가 유일한 설명이라는 점은 주목할 가치가 있습니다.
GPT-4는 훈련 마감 전에 Codeforce 문제를 기억합니다
프로그래밍 이외의 벤치마크에 대해 Narayanan 교수는 “우리는 문제를 기간별로 명확하게 구분하는 방법을 모르기 때문에 OpenAI를 피하기가 어렵습니다. 같은 이유로 날짜에 따른 성능 변화를 테스트하는 실험을 수행할 수는 없습니다. 그러나 메모리의 경우 GPT는 질문 문구에 매우 민감해야 합니다.
2월에 Santa Fe Institute의 교수인 Melanie Mitchell은 MBA 시험 문제의 예를 들었습니다. 일부 세부 사항을 약간 변경하는 것만으로도 ChatGPT(GPT-3.5)를 속일 수 있으며 이 방법은 사람에게는 효과적이지 않습니다. 속고 있습니다.
이렇게 좀 더 자세한 실험을 해보면 가치가 있을 것 같아요.
OpenAI의 투명성 부족으로 인해 Narayanan 교수는 이것이 데이터 오염 문제라고 확신할 수 없습니다. 그러나 확실한 것은 오염 감지에 대한 OpenAI의 접근 방식이 엉성하다는 것입니다.
“우리는 하위 문자열 일치 방법을 사용하여 평가 데이터 세트와 사전 훈련 데이터 간의 교차 오염을 측정하여 모든 공백을 제거합니다. 및 기호는 문자(숫자 포함)만 유지됩니다. 각 평가 예에서는 길이가 50인 하위 문자열 3개를 무작위로 선택합니다(예제가 50자 미만인 경우 전체 예가 사용됩니다). 평가 하위 문자열은 처리된 훈련 예제의 하위 문자열입니다. 이로 인해 오염된 예제 목록이 생성됩니다. 이러한 예제를 삭제하고 다시 실행하여 오염되지 않은 점수를 얻습니다.
이 방법은 테스트를 견딜 수 없습니다. 훈련 세트에 테스트 문제가 있지만 이름과 번호가 변경된 경우 감지할 수 없습니다. 이제 임베딩 거리와 같은 보다 안정적인 방법을 사용할 수 있습니다. OpenAI가 임베딩 거리 방식을 사용하려는 경우 유사도가 얼마나 유사하다고 간주됩니까? 이 질문에는 객관적인 답변이 없습니다. 그래서 객관식 표준화 시험의 성적이 단순해 보일지라도 많은 주관성이 관련되어 있습니다.문제 2: 전문 시험은 인간과 로봇의 능력을 비교하는 효과적인 방법이 아닙니다.
기억은 스펙트럼과 같습니다. 언어 모델이 훈련 세트에서 정확한 질문을 보지 못하더라도 거대한 훈련 자료 매우 유사한 예를 많이 보았습니다.
즉, 더 깊은 추론에서 벗어날 수 있다는 의미입니다. 따라서 벤치마크 결과는 언어 모델이 인간 응시자에게 필요한 심층 추론 기술을 습득하고 있다는 증거를 제공하지 않습니다.일부 실제 작업에서는 얕은 수준의 추론 GPT-4가 유능할 수 있지만 항상 그런 것은 아닙니다.
벤치마크는 대규모 모델 비교에 널리 사용되었으며 다차원 평가를 단일 숫자로 축소했다는 이유로 많은 사람들로부터 비판을 받았습니다. 안타깝게도 OpenAI는 GPT-4 평가에 이러한 테스트를 너무 많이 사용하기로 결정했으며, 데이터 오염 처리 조치가 미흡한 점과 함께 매우 유감스럽습니다.위 내용은 "수학적 멍청한 놈" ChatGPT는 인간의 선호도를 매우 잘 이해합니다! 온라인에서 난수를 생성하는 것은 우주에 대한 궁극적인 해답입니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!