GPT-4가 튜링 테스트를 통과할 수 있나요?
충분히 강력한 모델이 탄생하면 사람들은 종종 Turing 테스트를 사용하여 이 LLM의 지능을 측정합니다.
최근 UCSD 인지과학과 연구원들은 다음을 발견했습니다.
튜링 테스트에서 사람들은 GPT-4와 인간을 구별할 수 없습니다!
문서 주소: https://arxiv.org/pdf/2405.08007
튜링 테스트에서 GPT-4는 54%의 확률로 인간으로 판단되었습니다.
실험 결과에 따르면 "상호작용형" 2인 튜링 테스트에서 시스템이 경험적으로 통과된 것은 이번이 처음입니다.
연구원 Cameron R. Jones는 500명의 자원봉사자를 모집하여 5가지 역할로 나눴습니다: 4명의 평가자, 즉 GPT-4, GPT-3.5, ELIZA 및 인간, 또 다른 역할 그냥 인간으로서 "행동"합니다. , 화면 반대편에 숨어 평가자가 발견하기를 기다리고 있습니다.
다음은 게임에서 발췌한 내용입니다. 어떤 대화 상자가 인간인지 알 수 있나요?
그림 1: 인간 심문관(녹색)과 증인(회색)의 대화 일부
실제로 이 네 가지 대화 중 하나는 인간 증인과의 대화이고, 나머지는 인공지능과의 대화입니다.
지난 74년 동안 사람들은 튜링 테스트를 수없이 시도했지만 통제된 실험은 거의 수행되지 않았습니다.
유명한 롭너상은 매년 열리는 대회이지만, 1990년부터 2020년까지 처음 개최된 이후 어떤 시스템도 시험을 통과한 적이 없습니다.
최근 대규모 연구에 따르면 인간은 2분 온라인 대화에서 60%의 정확도로 일련의 LLM을 인식할 수 있는 것으로 나타났습니다.
현재까지 기계가 테스트를 통과한 "통제된" 실험 시연은 없습니다.
사람들이 현재 AI 시스템의 속임수를 간파하는 것이 가능한지 테스트하기 위해 연구원들은 GPT-4를 사용하여 무작위로 제어되는 2인 Turing 테스트를 수행했습니다.
테스트 요구 사항은 매우 간단합니다. 즉, 인간 참가자는 인간 및 인공 지능과 5분간 대화를 시작하고 대화 상대가 인간인지 확인합니다.
서두에서 언급했듯이 연구원들은 GPT-4, GPT-3.5, ELIZA 총 3가지 모델을 평가했습니다.
처음 두 LLM의 경우 연구원들은 GPT-4 및 GPT-3.5 탐색 연구에서 가장 성과가 좋은 힌트를 적용하여 대규모 모델에 메시지에 응답하는 방법을 지시했습니다.
튜링 테스트를 해석할 때의 핵심 과제는 시스템의 뛰어난 성능이 두 가지 이유에서 비롯될 수 있다고 연구자들은 말합니다.
- 첫째, 인간을 잘 모방합니다.
- 둘째, 판사는 너무 속기 쉽습니다
후자의 상황을 흔히 ELIZA 효과라고 합니다. 즉, 참가자는 단순한 시스템도 인간화합니다.
ELIZA 시스템은 누구에게나 매우 친숙합니다.
1960년대의 단순한 규칙 기반 챗봇이었지만 사용자들은 인간의 특성도 거기에 귀속시키는 것을 발견했습니다.
따라서 연구진은 실험에서 ELIZA를 기준으로, 한편으로는 ELIZA 효과를 실증적으로 정량화하고, 다른 한편으로는 실험에서 작동 확인을 수행했습니다.
그렇다면 이번 튜링 테스트의 구체적인 결과는 무엇일까요?
먼저 중요한 지표인 합격률을 살펴보세요.
연구원들은 합격률을 평가자가 인간이라고 판단한 게임 내 평가 대상의 비율로 정의합니다.
GPT-4의 합격률은 54%로 GPT-3.5(50%) 및 ELIZA 기준선(22%)을 초과하지만 인간 피험자(67%)보다는 낮습니다.
평가자 합격률(왼쪽)과 평가자 신뢰도(오른쪽). 오른쪽 그림의 각 점은 게임을 나타냅니다
이 결과는 실제로 놀라운 것이 아니며 기본적으로 연구 초기 단계의 가정과 일치합니다.
실험에 앞서 연구자들은 몇 가지 가정을 세웠습니다. 첫째, 인간의 GPT-4 탐지 능력은 우연(50%)을 초과하지 않을 것이라고 가정했습니다.
이를 검증하기 위해 연구진은 로지스틱 회귀 모델을 피팅하여 절편만의 합격률을 예측했습니다.
절편과 0 사이에는 큰 차이가 없으며(z=0.14, p=0.482), 이는 GPT-4의 합격률이 대략 50%에 이를 수 있음을 보여줍니다. 베이지안 모델은 GPT-4 절편에 대한 95% 신뢰 구간을 -0.24-0.55로 예측합니다(통과율 44%-63%에 해당).
이것은 인간이 GPT-4에 직면했을 때 차별에 성공할 확률이 동전을 던지는 것과 거의 같다는 것을 의미합니다!
결과는 또한 연구원의 두 번째 및 세 번째 가설을 확인했습니다. 인간의 합격률은 GPT-4 합격률(z=2.42, p=0.017)보다 훨씬 높았고 GPT-4 합격률은 더 높았습니다. ELIZA 합격률(z=4.11, p
그러나 연구원의 실험 가정과 일치하지 않는 점은 GPT-4와 GPT-3.5의 성능이 거의 동일하다는 것입니다(z=0.497, p=0.619).
'사람인 척' 분야에서는 동점이다.
놀랍게도 LLM 작동 방식을 더 잘 이해했다고 보고한 참가자는 LLM 식별에 성공하지 못했습니다(z = -0.023, p = 0.869).
탐사적 분석에서 연구자들은 연령이 질문자 정확도에 부정적인 영향을 미치는 것으로 나타났지만(z = -2.24, p = 0.025), 성별, 교육 수준, 챗봇 상호 작용 빈도 등 기타 인구통계학적 변수가 상호 작용 빈도에 영향을 미치는 것으로 나타났습니다. )에는 유의미한 효과가 없었다.
왜 이런 결과가 나온 걸까요? 그 이유를 분석해 보겠습니다.
평가자의 결정에 정확히 영향을 미치는 것이 무엇인지 알아보기 위해 평가자가 사용한 전략과 결정에 제공한 이유를 분류했습니다.
36%의 평가자는 평가 대상과 대화를 나누며 개인 정보나 일상 활동에 대해 질문합니다.
두 번째 및 세 번째 범주에서 가장 일반적인 전략은 사회적, 정서적(25%)입니다. 예를 들어 평가자의 의견과 경험을 묻고 유머 감각이 있는지 관찰합니다.
기타는 수학, 논리 및 일반 지식에 대한 질문을 포함하여 지식과 추론(13%)에 중점을 둡니다.
요청 전략(왼쪽)과 평균 정확도(오른쪽)
각 전략의 효과를 비교하기 위해 연구원들은 이러한 전략을 사용하여 평균 정확도를 계산했습니다.
평가자가 상대방에게 인간의 경험(75%), 논리와 수학(78%)에 대해 질문하거나, 인공지능에 대해 직접적으로 '고발'(80%)하는 경우는 대개 ''에 더 가깝습니다. 정답".
게임에서 인공지능이 '결점을 드러내는' 이유는 대개 평가자가 너무 태만하거나 개성이 부족하여 역할을 강요하는 것 같다고 느끼기 때문입니다.
그리고 ELIZA는 주로 부자연스러운 반응과 상황 인식 부족으로 인해 쉽게 "노출"됩니다.
게임에 참여한 자원봉사자들이 사용한 전략과 의사결정 이유 모두에서 전통적인 지적 범주보다는 언어 스타일과 사회 정서적 요인에 더 많은 관심을 기울인 것을 알 수 있습니다. (지식과 추론).
이는 자원봉사자들의 기본 가정을 반영하는 것 같습니다. 즉, 사회적 지능은 AI의 가장 흉내낼 수 없는 인간 특성입니다.
시스템이 튜링 테스트를 통과했는지 어떻게 알 수 있나요?
튜링은 1950년 논문에서 세기 말에는 AI 시스템이 모방 게임을 매우 잘 수행할 수 있어서 시험관이 5-5 이후에 정확한 식별을 할 확률이 70을 넘지 않을 것이라고 예측했습니다. 분 교환 %.
이 결론은 많은 연구자들의 논의 대상이 된 AI 합격률이 30%에 도달할 수 있는지 여부로 이어졌습니다.
그러나 이 벤치마크는 임의적으로 보이며 Turing이 이를 성공의 정의로 의도했는지 여부는 불분명합니다.
사실 50% 기준은 인간 검토자가 AI를 식별하는 데 있어서 우연보다 나을 것이 없다는 것을 더 잘 증명하기 때문에 더 합리적입니다.
이 정의는 특히 사용자가 온라인 상호 작용 중에 다른 사람을 안정적으로 식별할 수 있는지 알아내는 목표와 관련이 있습니다.
연구원들의 사전 공개 분석에서 이 문제는 ELIZA 기준을 조작 확인으로 사용하여 해결되었습니다.
분석 결과 ELIZA의 합격률이 확률보다 낮고, GPT-4의 합격률이 확률보다 낮지 않은 경우에만 모델이 테스트를 통과한 것으로 판단할 수 있습니다.
그리고 이 정의에 따르면 GPT-4는 이 버전의 Turing 테스트를 분명히 통과했습니다.
또한 참가자의 신뢰 점수와 의사 결정 기반은 무작위로 추측하지 않았음을 보여주었습니다. GPT-4의 평균 인간 신뢰도는 73%입니다(그림 2 참조).
일부 네티즌들은 튜링 테스트를 지능과 동일시하려면 튜링 테스트는 좋은 테스트가 아니라고 말했습니다. 그러나 AI가 거의 항상 인간을 속일 수 있다는 사실은 다소 우려스럽습니다.
어떤 사람들은 이런 종류의 테스트에 회의적이라고 말했습니다. GPT-4는 대부분의 인간보다 성능이 뛰어나기 때문에 누가 인간이고 누가 인공지능인지 쉽게 구별할 수 있을 것이다.
연구원들은 이것이 실제로 우리가 직면한 문제라고 말했습니다. 예를 들어, GPT-4의 지식 보유량이 "너무 풍부"하거나 너무 많은 언어를 마스터합니다. 우리는 모델이 이러한 상황을 피하도록 명시적으로 촉구하는데, 이는 어느 정도 효과적입니다.
위 내용은 GPT-4는 튜링 테스트를 54%의 승률로 통과했습니다! UCSD 신작: 인간은 GPT-4를 인식할 수 없다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!