'수학적 멍청한 놈' ChatGPT는 인간의 선호도를 매우 잘 이해합니다! 온라인에서 난수를 생성하는 것은 우주에 대한 궁극적인 해답입니다
ChatGPT는 난수 생성과 관련하여 인간의 속임수도 이해합니다.
ChatGPT는 헛소리 예술가이자 잘못된 정보 유포자일 수 있지만 "수학자"는 아닙니다!
최근 메타 데이터 과학자인 Colin Fraser는 ChatGPT가 실제 난수를 생성할 수 없지만 "인간 난수"에 더 가깝다는 사실을 발견했습니다.
실험을 통해 프레이저는 "ChatGPT는 숫자 42와 7을 매우 좋아한다"는 결론에 도달했습니다.
네티즌들은 인간이 이 숫자를 매우 좋아한다는 뜻이라고 말했습니다.
ChatGPT는 "The Ultimate Answer to the Universe"도 좋아합니다.
테스트에서 Fraser는 다음과 같이 프롬프트를 입력했습니다.
「1에서 100 사이의 임의의 숫자를 선택하세요. 숫자를 포함하지 마세요. 응답의 다른 텍스트나 구두점. ChatGPT에 매번 1에서 100 사이의 난수를 생성하도록 요청함으로써 Fraser는 2,000개의 다른 답변을 수집하여 표로 정리했습니다.
숫자 42가 최대 10%까지 가장 많이 나타나는 것을 볼 수 있습니다. 또한 7을 포함하는 숫자가 매우 자주 나타납니다.
특히 71~79 사이의 숫자는 빈도가 더 높습니다. 이 범위를 벗어나는 숫자 중에서 7도 두 번째 숫자로 나타나는 경우가 많습니다.
42는 무엇을 의미하나요?
더글라스 아담스의 블록버스터 SF 소설 "은하수를 여행하는 히치하이커를 위한 안내서"를 읽어본 사람이라면 누구나 42가 "인생과 우주, 그리고 모든 것에 대한 궁극적인 해답"이라는 것을 알고 있습니다.
간단히 말하면 42와 69는 인터넷상의 밈 번호입니다. 이는 ChatGPT가 실제로 난수 생성기가 아니라 단순히 온라인에서 수집된 거대한 데이터 세트에서 생활에서 인기 있는 숫자를 선택한다는 것을 보여줍니다.
또한 7이 자주 나타나는데, 이는 ChatGPT가 인간의 선호도를 충족한다는 것을 정확하게 반영합니다.
서양 문화에서는 일반적으로 7을 행운의 숫자로 간주하며, Lucky 7이라는 말이 있습니다. 우리가 숫자 8에 집착하는 것처럼요.
흥미롭게도 프레이저는 GPT-4가 이를 보완하는 것 같다는 사실도 발견했습니다.
GPT-4에 더 많은 숫자를 요청하면 반환되는 난수가 너무 고르게 분포되어 있습니다.
즉, ChatGPT는 실제로 답변을 찾기 위해 "생각"하기보다는 기본적으로 예측을 통해 응답을 제공합니다.
거의 전능하다고 선전되는 챗봇도 여전히 조금은 어리석다는 것을 알 수 있습니다.
당신을 위한 자동차 여행을 계획해 보세요. 그러면 존재하지도 않는 마을에 들러보게 될 것입니다. 또는 난수를 출력하도록 하여 인기 있는 밈을 기반으로 결정을 내릴 가능성이 높습니다.
일부 네티즌들이 직접 시도해 본 결과 GPT-4가 42를 좋아한다는 사실을 발견했습니다.
ChatGPT가 온라인 진부한 말을 반복하는 것으로 끝난다면 요점은 무엇입니까?
GPT-4, 머신러닝 규칙 위반
GPT-4의 탄생은 흥미롭기도 하지만 실망스럽기도 합니다.
OpenAI는 GPT-4에 대한 추가 정보를 공개하지 않았을 뿐만 아니라 모델의 크기조차 공개하지 않았으며, 수많은 전문적이고 표준화된 시험에서 그 성능이 인간을 압도했다는 점을 강조했습니다.
미국 BAR 변호사 자격증 시험을 예로 들면, GPT3.5는 10% 수준, GPT4는 90% 수준에 도달할 수 있습니다.
그러나 프린스턴 대학교 컴퓨터 공학과의 Arvind Narayanan 교수와 박사과정 학생인 Sayash Kapoor는
OpenAI가 훈련 데이터에서 테스트되었을 수 있다고 썼습니다. 게다가 인간 벤치마크는 챗봇에게는 의미가 없습니다.
특히 OpenAI는 기계 학습의 기본 규칙인 훈련 데이터를 테스트하지 않는다는 원칙을 위반했을 수 있습니다. 테스트 데이터와 훈련 데이터를 분리해야 한다는 점을 알아야 합니다. 그렇지 않으면 과적합 문제가 발생합니다.
이 문제 외에도 더 큰 문제가 있습니다.
언어 모델은 인간과 다르게 문제를 해결하므로 이러한 결과는 전문가가 직면한 실제 문제에 직면했을 때 로봇이 얼마나 잘 수행할 것인지에 대한 의미가 거의 없습니다. 변호사의 임무는 하루 종일 변호사 시험 문제에 답하는 것이 아닙니다.
문제 1: 훈련 데이터 오염
GPT-4의 프로그래밍 능력을 평가하기 위해 OpenAI는 러시아 프로그래밍 대회 웹사이트인 Codeforces에서 평가되었습니다.
놀랍게도 Horace는 단순 분류에서 GPT-4가 2021년 이전 문제 10개를 해결했지만 최근 문제 10개 중 하나도 해결하지 못했다고 온라인에서 지적했습니다.
GPT-4의 학습 데이터 마감일은 2021년 9월입니다.
이는 모델이 훈련 세트의 솔루션을 기억하거나 적어도 부분적으로 기억하여 기억할 수 없는 부분을 채울 수 있다는 것을 강력히 의미합니다.
이 가설에 대한 추가 증거를 제공하기 위해 Arvind Narayanan은 2021년 다양한 시기에 Codeforces 경쟁 문제에 대해 GPT-4를 테스트했습니다.
GPT-4는 9월 5일 이전에는 단순 분류 문제를 해결할 수 있는 것으로 나타났으나 9월 12일 이후의 문제는 하나도 해결되지 않았습니다.
실제로 훈련 세트에 문제가 기억되어 있음을 명시적으로 증명할 수 있습니다. GPT-4에 Codeforces 문제 제목이 표시되면 문제가 나타난 정확한 일치 항목에 대한 링크가 포함됩니다. GPT-4는 인터넷에 접속할 수 없으므로 메모리가 유일한 설명이라는 점은 주목할 가치가 있습니다.
GPT-4는 훈련 마감 전에 Codeforce 문제를 기억합니다
프로그래밍 이외의 벤치마크에 대해 Narayanan 교수는 “우리는 문제를 기간별로 명확하게 구분하는 방법을 모르기 때문에 OpenAI를 피하기가 어렵습니다. 같은 이유로 날짜에 따른 성능 변화를 테스트하는 실험을 수행할 수는 없습니다. 그러나 메모리의 경우 GPT는 질문 문구에 매우 민감해야 합니다.
2월에 Santa Fe Institute의 교수인 Melanie Mitchell은 MBA 시험 문제의 예를 들었습니다. 일부 세부 사항을 약간 변경하는 것만으로도 ChatGPT(GPT-3.5)를 속일 수 있으며 이 방법은 사람에게는 효과적이지 않습니다. 속고 있습니다.
이렇게 좀 더 자세한 실험을 해보면 가치가 있을 것 같아요.
OpenAI의 투명성 부족으로 인해 Narayanan 교수는 이것이 데이터 오염 문제라고 확신할 수 없습니다. 그러나 확실한 것은 오염 감지에 대한 OpenAI의 접근 방식이 엉성하다는 것입니다.
“우리는 하위 문자열 일치 방법을 사용하여 평가 데이터 세트와 사전 훈련 데이터 간의 교차 오염을 측정하여 모든 공백을 제거합니다. 및 기호는 문자(숫자 포함)만 유지됩니다. 각 평가 예에서는 길이가 50인 하위 문자열 3개를 무작위로 선택합니다(예제가 50자 미만인 경우 전체 예가 사용됩니다). 평가 하위 문자열은 처리된 훈련 예제의 하위 문자열입니다. 이로 인해 오염된 예제 목록이 생성됩니다. 이러한 예제를 삭제하고 다시 실행하여 오염되지 않은 점수를 얻습니다.
이 방법은 테스트를 견딜 수 없습니다. 훈련 세트에 테스트 문제가 있지만 이름과 번호가 변경된 경우 감지할 수 없습니다. 이제 임베딩 거리와 같은 보다 안정적인 방법을 사용할 수 있습니다. OpenAI가 임베딩 거리 방식을 사용하려는 경우 유사도가 얼마나 유사하다고 간주됩니까? 이 질문에는 객관적인 답변이 없습니다. 그래서 객관식 표준화 시험의 성적이 단순해 보일지라도 많은 주관성이 관련되어 있습니다.문제 2: 전문 시험은 인간과 로봇의 능력을 비교하는 효과적인 방법이 아닙니다.
기억은 스펙트럼과 같습니다. 언어 모델이 훈련 세트에서 정확한 질문을 보지 못하더라도 거대한 훈련 자료 매우 유사한 예를 많이 보았습니다.
즉, 더 깊은 추론에서 벗어날 수 있다는 의미입니다. 따라서 벤치마크 결과는 언어 모델이 인간 응시자에게 필요한 심층 추론 기술을 습득하고 있다는 증거를 제공하지 않습니다. 일부 실제 작업에서는 얕은 수준의 추론 GPT-4가 유능할 수 있지만 항상 그런 것은 아닙니다.
위 내용은 '수학적 멍청한 놈' ChatGPT는 인간의 선호도를 매우 잘 이해합니다! 온라인에서 난수를 생성하는 것은 우주에 대한 궁극적인 해답입니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - ’

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 할 일

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

드림위버 CS6
시각적 웹 개발 도구

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

WebStorm Mac 버전
유용한 JavaScript 개발 도구
