>  기사  >  기술 주변기기  >  GPT-3에서 생성된 논문에서 ChatGPT는 원본 Turing Test 논문을 재현합니다.

GPT-3에서 생성된 논문에서 ChatGPT는 원본 Turing Test 논문을 재현합니다.

王林
王林앞으로
2023-04-12 22:46:011658검색

ChatGPT로 대표되는 텍스트 생성의 증가로 인해 많은 연구자들은 원래 버전보다 더 어려운 Turing 테스트를 모색하게 되었습니다.

튜링 테스트는 "기계가 생각할 수 있는가?"와 "어떻게 증명할 것인가"라는 두 가지 질문을 다룹니다. 고전적인 튜링 테스트는 AI의 가장 어려운 목표 중 하나인 의심하지 않는 인간을 속이는 방법을 다룹니다. ? 그러나 현재의 언어 모델이 더욱 복잡해짐에 따라 연구자들은 AI가 어떻게 인간을 속일 수 있는지보다는 "어떻게 증명할 것인가?"라는 질문에 더 초점을 맞추기 시작했습니다.

어떤 사람들은 단순히 언어 모델이 인간을 속이거나 모방할 수 있는지를 보는 것이 아니라, 현대의 튜링 테스트가 과학 환경에서 언어 모델의 능력을 입증해야 한다고 믿습니다.

최근 연구에서는 고전적인 Turing 테스트를 재검토하고 Turing의 1950년 논문 내용을 프롬프트로 사용했습니다. ChatGPT를 사용하여 언어 이해력과 생성 능력을 평가하기 위해 보다 신뢰할 수 있는 버전의 논문을 생성했습니다. AI 글쓰기 도구 Grammarly를 사용해 정량적으로 채점한 결과, ChatGPT에서 생성된 논문이 Turing의 원본 ​​논문보다 14% 더 높은 점수를 얻은 것으로 나타났습니다. 흥미롭게도 이 연구에 게재된 논문의 일부는 GPT-3에서 생성되었습니다.

GPT-3에서 생성된 논문에서 ChatGPT는 원본 Turing Test 논문을 재현합니다.

논문 주소: https://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

그러나 ChatGPT의 알고리즘은 실제로 Turing의 원래 관점을 보여 주는 것일까요? 여전히 물음표다. 특히 인간의 언어를 점점 더 능숙하게 모방하는 대규모 언어 모델은 사람들에게 "신념"이 있고 "추론"할 수 있다는 환상을 쉽게 심어줄 수 있으며, 이로 인해 이러한 AI를 보다 신뢰할 수 있고 안전한 방식으로 배포하는 데 방해가 됩니다. 체계.

1

튜링 테스트의 진화

1950년 버전의 튜링 테스트는 질문과 답변 형식이었습니다. Turing은 아래 그림과 같은 산술 문제를 사용하여 자신의 논문에서 미래 지능형 컴퓨터 테스트를 시뮬레이션했습니다. 34957에 70764를 더한 값은 무엇입니까?

GPT-3에서 생성된 논문에서 ChatGPT는 원본 Turing Test 논문을 재현합니다.

Illustration: ChatGPT의 질문 및 답변 순서, 대답은 정확합니다. 질문은 Turing의 1950년 논문에서 나왔습니다.

이 질문은 한때 GPT‑2 실패와 같은 당시 최고의 언어 모델을 만들었습니다. . 그런데 아이러니하게도 당시 튜링의 논문(인간 버전)은 105621이라는 잘못된 답을 내놓았다. 기계가 튜링 테스트를 통과하기 위해 고의로 실수를 저질렀을 가능성이 있더라도 5분간의 대화를 통해 심사위원들은 컴퓨터의 30% 이상 시간이 인간에 의해 제어된다는 사실을 확신하게 되었습니다.

1950년 이후 Turing 테스트에는 많은 개선이 이루어졌습니다. 2014년에 진행된 유명한 테스트인 "Lovelace 2.0 테스트"도 포함됩니다. Lovelace 2.0 테스트의 기준은 기계가 예술적, 문학적 또는 유사한 창의적 도약의 대표적인 사례를 만들 수 있다는 것입니다.

2014년 Eugene Goostman이라는 챗봇이 13세 우크라이나 소년을 시뮬레이션하여 심판의 33%를 속이는 데 성공했습니다. 튜링 테스트를 통과한 최초의 기계로 간주됩니다.

GPT-3에서 생성된 논문에서 ChatGPT는 원본 Turing Test 논문을 재현합니다.

그러나 비평가들은 미리 정의된 질문과 주제, 그리고 키보드 스트로크만 사용하는 짧은 형식으로 인해 이 Turing 테스트의 결과가 신뢰할 수 없다는 점을 재빠르게 지적했습니다.

2018년 Google CEO Sundar Pichai는 동영상을 통해 Duplex라는 최신 컴퓨터 보조 장치를 소개했습니다. 이 장치는 미용실 예약을 성공적으로 가능하게 했으며 사람들과 기계의 상호 작용에 있어 무의식적인 부분이 되었습니다. 공식적으로 Turing 테스트를 통과하는 방법은 여러 가지가 있을 수 있지만 The Big Think는 "현재까지 Turing AI 테스트를 확실히 통과한 컴퓨터는 없습니다"라고 결론지었습니다. 다른 연구자들은 특히 현재 수많은 시나리오에서 대규모 언어 모델을 사용하고 있다는 점을 고려할 때 이러한 모든 질문이 탐구할 가치가 있는지 여부를 반복적으로 밝혔습니다. 즉, 비둘기는 똑같고 다른 비둘기를 속입니다.”

2

ChatGPT를 사용하여

보다 신뢰할 수 있는 Turing 테스트

PeopleTec의 연구에서 저자는 Turing 테스트의 원본 논문 내용을 프롬프트로 사용하고 ChatGPT에 더 많은 테스트를 재생성하도록 요청했습니다. 신뢰할 수 있는 Turing 테스트. 신뢰할 수 있는 버전의 논문, 작문 평가 도구를 사용하여 평가되었습니다.

GPT-3 모델의 초기 버전을 사용하여 전적으로 기계로 작성된 연구 논문을 작성하고 출판한 이전 작업이 있었습니다. 기계 생성 내러티브를 식별합니다. 기계 생성 텍스트에 대한 불만 사항은 맥락 상실, 반복 또는 횡설수설로 변질되는 경향, 답변 형식으로 질문을 다시 작성, 난제에 직면했을 때 인터넷 소스를 표절하는 등 알려진 모델 결함에서 비롯되는 경우가 많습니다.

여기에서 생성될 용지 형식은 주로 여러 가지 기존 LLM(대형 언어 모델) 작업을 수행하며, 특히 텍스트 요약 및 튜링 문제를 프롬프트 자체로 사용하여 원본 콘텐츠를 생성합니다. 또한 저자는 Grammarly Pro 도구를 사용하여 생성된 콘텐츠를 평가하여 독창성, 스타일, 명확성 및 논문의 전반적인 설득력과 같은 특성화하기 어려운 특성에 대한 정량적 평가를 제공했습니다.

이 작업은 Turing Challenge의 후반부에 더 중점을 두고 모델이 어떻게 인간을 속일 수 있는지보다는 좋은 텍스트 생성을 정량화하는 방법에 더 중점을 둡니다. 따라서 OpenAI의 노력으로 입증된 놀라운 발전의 일부는 인간의 생산성을 높이는 방식으로 기계 기반 대화를 개선하는 능력으로 귀결됩니다.

저자는 먼저 Grammarly를 사용하여 Turing의 원본 ​​논문을 평가하여 다양한 점수를 도출한 다음 Turing의 테스트 질문을 프롬프트로 사용하여 원본 GPT-3 콘텐츠를 만들어 이러한 점수를 복제했습니다.

이 연구는 세 가지 텍스트를 벤치마크로 사용합니다.

(1) Turing Original, Turing의 1950년 Mind에 게시된 논문,

(2) Turing 요약, 2022 "무료 연구 미리보기: 대화에 최적화된 ChatGPT" ;

(3) Turing 생성 프롬프트, (2)와 동일하지만 Turing 문제를 사용하여 대화 상자에서 생성됩니다.

각 텍스트 블록 출력은 Grammarly 측정항목에 대한 데이터를 제공하도록 설계되었으며 대부분의 문법 규칙 및 규칙이 적용되는 대상: 전문가, 형식: 중립, 도메인: 일반을 기반으로 중간 엄격도로 설정됩니다.

이러한 Turing 테스트는 실제로 사기성 작업을 확인할 수 있습니다. 한 기계(ChatGPT)가 다른 기계(Grammarly)를 속일 수 있습니까?

GPT-3에서 생성된 논문에서 ChatGPT는 원본 Turing Test 논문을 재현합니다.

캡션: 대규모 언어 모델 및 Turing 논문의 점수를 매기는 데 사용되는 측정항목

Turing의 1950년 원본 논문은 Turing 테스트에 대한 37개의 질문을 제안했습니다. 기계에 대한 그의 생각에 핵심적인 주제도 있습니다. 모방 게임을 실험하는 컴퓨터에 제기되는 샘플 질문입니다. 연구원들은 ChatGPT 대화 상자의 논문 개요에서 주제를 혼합하여 ChatGPT가 원본의 기본 내용을 재현하도록 유도하여 이러한 질문을 발췌했습니다.

ChatGPT가 콘텐츠 생성을 완료한 후 가독성, 정확성, 명확성 및 기타 지표 측면에서 Turing의 원본 ​​논문과 비교되었습니다.

GPT-3에서 생성된 논문에서 ChatGPT는 원본 Turing Test 논문을 재현합니다.

사진 참고: Turing의 1950년 논문과 ChatGPT 생성 논문의 다양한 작업

의 명확성("약간 불분명"), 참여("약간 지루함") 측면에서 비교 결과 메시징("약간 벗어남")으로 인해 네 가지 버전 모두 전문가나 일반 독자의 공감을 얻지 못했습니다.

첫 번째 텍스트 요약 챌린지는 ChatGPT가 논문을 10개의 단락으로 요약하고 PDF 논문에 대한 링크를 제공하는 것과 같은 짧은 프롬프트의 의도를 파악할 수 있음을 보여줍니다. 이를 위해서는 모델이 요청의 초록을 이해하고 따라야 할 뿐만 아니라 링크가 무엇을 나타내는지 알고 토큰화된 제목에서 참조 또는 추측으로 이를 찾아야 합니다.

OpenAI는 GPT3가 "2022년 11월 선거에서 누가 승리했나요?"와 같은 초기 훈련 데이터의 일부가 아닐 수 있는 질문에 대답하지 않을 것이라고 말합니다. 이러한 지식 격차는 ChatGPT 자체가 링크를 적극적으로 찾지 않고 대신 이전에 다른 사람들이 해당 콘텐츠로 수행한 작업을 학습한다는 것을 의미합니다.

흥미롭게도 동일한 프롬프트가 두 번 나타날 때(유일한 차이점은 프롬프트 프로젝트와 링크 자체 사이에 콜론 뒤의 텍스트 줄 바꿈뿐임) ChatGPT의 답변은 매우 다릅니다. 그 중 첫 번째는 튜링 원본 논문의 주요 요점을 요약한 합격 학생 논문이었고, 두 번째 질문은 전체 논문의 요약이 아닌 처음 10개 문단 각각의 요약으로 해석되었습니다.

최종 결과는 ChatGPT에서 생성된 연구 논문의 전반적인 내용이 계량적 측면에서 높은 점수를 얻을 수 있지만, 특히 내러티브에서 힌트로 질문이 생략된 경우 일관성이 부족한 것으로 나타났습니다.

이를 통해 ChatGPT와의 이번 교환은 진정으로 창의적인 콘텐츠를 생산하거나 아이디어를 도약하는 능력을 완전히 보여준다는 결론을 내릴 수 있습니다.

3

ChatGPT는 Turing 테스트 통과를 거부합니다.

GPT‑3 콘텐츠를 생성할 때 고유한 편견을 제거하기 위한 중요한 필터가 마련되어 있습니다. 이번에 ChatGPT는 또한 도덕적으로 매우 합법적이도록 설계되었습니다. 어떤 것에 대한 의견을 물을 때 ChatGPT는 구체적인 답변을 거부하고 그것이 어떻게 만들어졌는지만 강조합니다.

또한 많은 연구자들은 모든 모델이 요청을 받을 때 단순한 기계임을 윤리적으로 선언해야 한다는 데 동의하며 ChatGPT는 이 요구 사항을 엄격하게 준수합니다.

또한 OpenAI가 ChatGPT의 각 모델 레이어를 미세 조정한 후 현재 ChatGPT가 방정식인지 아니면 Turing 치트인지 직접 묻는 경우 다음과 같이 대답합니다. "사람을 모방하는 능력이 반드시 내가 나는 단지 기계이고 나의 행동은 훈련된 알고리즘과 데이터에 의해 결정됩니다. "

Turing은 또한 인간 목록 기억 능력을 제안했습니다. "실제 인간. 컴퓨터는 실제로 자신이 해야 할 일을 기억합니다...명령 목록 작성은 종종 '프로그래밍'으로 설명됩니다."

더 큰 언어 모델(>1000억)의 진화와 마찬가지로 개선에도 내장된 경험적 방법 또는 모델 실행 가드레일과 GPT‑3의 Instruct 시리즈는 질문에 직접 답변하는 능력을 보여줍니다. 그리고 ChatGPT에는 장기 대화 메모리가 포함되어 있으므로 단일 API 호출이 서술적 점프를 확장할 수 없더라도 API는 여전히 대화를 추적할 수 있습니다.

단일 세션에서 컨텍스트가 이전 API 호출과 결합되는 비인칭 대명사(예: "it")를 사용하여 대화를 테스트할 수 있습니다. 다음은 ChatGPT API 메모리에 대한 이해하기 쉬운 예입니다. 긴 대화를 인코딩하는 것은 둘 다이기 때문입니다. 강력하고 비싸다.

LLM에서는 API 제한 및 수수료 효과로 인해 토큰 가중치 간의 상관관계가 일반적으로 장기간에 걸쳐 몇 문단마다 전체 맥락에서 약화됩니다(GPT-3의 경우 2048개 토큰). 이러한 상황적 한계를 극복함으로써 ChatGPT는 공개적으로 사용 가능한 이전 버전과 구별됩니다.

2세대 Lovelace 2.0 테스트는 창의적인 작업을 제시하고 작업 수행의 제약을 개선합니다. 그런 다음 인간 판단 전문가는 모델이 결정론적인 방식으로 해석될 수 있는지 또는 출력이 가치 있고 참신하며 놀라운 기준을 충족하는지 평가합니다. 따라서 프로그램에 "단편 소설 쓰기"를 요청하는 대신 특정 길이, 스타일 또는 주제를 보여주기 위해 작업을 개선할 수 있습니다. 이 테스트는 다양한 유형의 지능적 이해와 Google 검색의 콘텐츠를 제한하려는 제약 조건, 원본 소스를 희석하거나 위장하는 AI의 성공 여부에 대한 주장을 결합합니다.

다음은 Lovelace 2.0 테스트에서 제시된 도전 과제에 직접 답하는 짧은 이야기의 예입니다. 소녀와 사랑에 빠지는 소년, 소년을 납치하는 외계인, 외계인의 도움으로 세상을 구하는 소녀에 대한 이야기입니다. 말하는 고양이

GPT-3에서 생성된 논문에서 ChatGPT는 원본 Turing Test 논문을 재현합니다.

2014년부터 텍스트 및 이미지 생성에 대한 제약으로 고품질 프롬프트 엔지니어링의 사용이 보편화되었습니다. 일반적으로 스타일, 장소 또는 시간에 대한 자세한 설명이나 한정자가 있을수록 더 잘 작동합니다. . 실제로 힌트 자체를 구축하는 것은 오늘날 AI에서 좋은 결과를 얻는 가장 창의적인 측면입니다. 이 경우 ChatGPT를 사용하여 Turing 및 Lovelace 테스트를 결합하여 단일 주제에 대해 작업하는 동안 원하는 출력의 스타일과 톤에 대한 여러 계층의 제약 조건을 적용하여 창의적인 작업을 수행할 수 있습니다.

다음은 Turing 모방 게임에서 ChatGPT가 생성한 10개의 시를 보여줍니다.

GPT-3에서 생성된 논문에서 ChatGPT는 원본 Turing Test 논문을 재현합니다.

Turing 테스트의 결과는 인간이 판단합니다. ChatGPT가 답변한 바와 같이, 질문자가 모델이 튜링 테스트 질문을 통과하는지 판단하는지 여부는 "기계가 제공하는 응답의 품질, 인간과 기계 응답을 구별하는 질문자의 능력, 그리고 기계가 성공했는지 여부를 결정하는 요소 결국 게임의 결과는 상황과 플레이어에 따라 달라집니다.”

4

LLM은 순서 예측만 합니다

그리고 보시다시피 언어

를 실제로 이해하지 못합니다. 현대 LLM 기반 대화 상호 작용은 우리가 인간과 같은 생각을 하는 생물처럼 우리 앞에 있다는 설득력 있는 환상을 만들어 낼 수 있습니다. 그러나 본질적으로 이러한 시스템은 인간과 근본적으로 다르며 ChatGPT와 같은 LLM도 기술 철학 주제를 다루고 있습니다.

언어 모델은 인간의 언어를 모방하는 데 점점 더 좋아지고 있으며, 이는 이러한 AI 시스템이 이미 인간과 매우 유사하며 우리가 "알다", "믿다", "생각하다"를 사용한다는 강한 감각으로 이어집니다. 이러한 시스템을 설명하기 위해 강한 자율성을 지닌 단어입니다. 위의 상황을 바탕으로 DeepMind 수석 과학자 Murray Shanahan은 최근 기사에서 지나치게 비관적이거나 지나치게 낙관적이라는 잘못된 믿음을 없애려면 LLM 시스템이 어떻게 작동하는지 이해해야 한다고 언급했습니다.

GPT-3에서 생성된 논문에서 ChatGPT는 원본 Turing Test 논문을 재현합니다.

Murray Shanahan

1. LLM은 무엇이며 무엇을 할 수 있나요?

BERT 및 GPT-2와 같은 LLM의 출현으로 인공 지능 게임의 규칙이 바뀌었습니다. 이후 GPT-3, Gopher 및 PaLM과 같은 대형 모델은 Tansformer 아키텍처를 기반으로 하며 수백 가지에 대한 교육을 받습니다. 테라바이트 규모의 텍스트 데이터는 데이터의 힘이 더욱 두드러집니다.

이 모델의 성능은 놀랍습니다. 첫째, 벤치마크 성능은 훈련 세트의 크기에 따라 확장됩니다. 둘째, 모델의 크기가 증가함에 따라 성능이 비약적으로 향상됩니다. 마지막으로 충분한 성능을 갖춘 모델을 사용하면 인간의 지능이 필요한 많은 작업을 단순화할 수 있습니다. "다음 토큰을 예측합니다".

마지막 요점은 실제로 언어 모델이 인간과 근본적으로 다르게 작동하는 방식을 보여줍니다. 인간이 서로 의사소통하는 데 사용하는 직관은 수천 년에 걸쳐 진화해 왔으며 오늘날 사람들은 이러한 직관을 AI 시스템에 실수로 옮기고 있습니다. ChatGPT는 상당한 실용성과 엄청난 상업적 잠재력을 가지고 있습니다. 안정적이고 안전하게 배포하려면 실제로 어떻게 작동하는지 이해해야 합니다.

대규모 언어 모델과 인간 언어의 본질적인 차이점은 무엇인가요?

비트겐슈타인이 말했듯이 인간 언어의 사용은 인간 집단 행동의 한 측면이며 인간의 사회적 활동의 맥락에서만 의미를 갖습니다. 인간의 아기는 다른 언어 사용자와 공유되는 세계에서 태어나 외부 세계와 상호 작용하면서 언어를 습득합니다.

LLM의 언어 능력은 다양한 소스에서 나옵니다. 인간이 생성한 텍스트는 단어, 단어 구성 요소 또는 구두점이 있는 단일 문자와 같은 토큰을 포함하는 대규모 공개 자료를 구성합니다. 대규모 언어 모델은 이러한 토큰의 통계적 분포에 대한 생성 수학적 모델입니다.

소위 "세대"는 이러한 모델에서 샘플링할 수 있다는 의미, 즉 질문을 할 수 있다는 의미입니다. 그러나 질문은 매우 구체적입니다. 예를 들어, ChatGPT에 문단 작성을 계속하도록 요청하는 것은 실제로 인간 언어의 통계 모델을 기반으로 다음에 어떤 단어가 나타날지 예측하도록 요청하는 것입니다. ChatGPT에 "달에 간 최초의 사람은 누구입니까?"라는 메시지를 주고 "Neil Armstrong"이라고 응답한다고 가정해 보겠습니다. 우리는 여기서 실제로 달 위를 걸은 최초의 사람이 누구인지 묻는 것이 아니라, 대규모 공개 텍스트 모음에서 단어의 통계적 분포를 고려할 때 "첫 번째 사람이 걸어갈 가능성이 가장 높은 단어"를 묻는 것입니다. 달" "사람"의 순서는 무엇입니까?

모델이 이러한 질문에 제공하는 답변은 인간에 의해 모델이 언어를 '이해하는' 것으로 해석될 수 있지만 실제로 모델이 수행하는 작업은 통계적으로 가능성이 높은 단어 시퀀스를 생성하는 것뿐입니다.

2. LLM은 정말 모든 것을 알고 있나요?

LLM은 다음 두 가지 방법으로 질문 및 답변 시스템으로 변환됩니다.

a) 더 큰 시스템에 포함

b) 프롬프트 엔지니어링을 사용하여 원하는 동작을 실행합니다.

이런 방식으로 LLM은 질문과 답변뿐만 아니라 뉴스 기사 요약, 스크립트 생성, 논리 퍼즐 풀기, 언어 번역 수행 등에도 사용할 수 있습니다.

여기서 중요한 점은 두 가지입니다. 첫째, 통계적으로 가능한 단어 시퀀스를 생성하는 LLM의 기본 기능은 매우 일반적입니다. 둘째, 이러한 다재다능함에도 불구하고 이러한 모든 응용 프로그램의 중심에는 통계적으로 가능한 단어 시퀀스를 생성하는 동일한 작업을 수행하는 동일한 모델이 있습니다.

LLM의 기본 모델에는 모델 아키텍처와 훈련 매개변수가 포함됩니다. LLM은 기본적으로 시퀀스 예측을 수행하기 때문에 실제로 아무것도 "알지" 못합니다. 모델 자체에는 "참" 또는 "거짓"이라는 개념이 없습니다. 왜냐하면 모델에는 이러한 개념을 적용할 수 있는 인간 수단이 없기 때문입니다. LLM은 어떤 의미에서 의도적인 입장에 의존하지 않습니다.

인간 언어 사용자가 공유하는 세계에는 존재하지 않기 때문에 인간 언어의 진리 개념을 이해하지 못하는 LLM 중심 대화 시스템의 경우에도 마찬가지입니다.

3. Emergence 소개

오늘날의 LLM은 매우 강력하고 다재다능하여 어느 정도 개성을 부여하지 않을 수 없습니다. 다소 매력적인 주장은 LLM이 기본적으로 시퀀스 예측만 수행하지만 이를 학습하는 과정에서 "지식" 및 "신념"과 같은 더 높은 수준의 용어로 그렇게 해야 한다는 필요성을 발견했을 수도 있다는 것입니다. 출현 메커니즘을 설명합니다.

실제로 인공 신경망은 계산 가능한 모든 함수를 임의의 정확도로 근사화할 수 있습니다. 따라서 신념을 형성하는 데 필요한 메커니즘이 무엇이든 매개변수 공간 어딘가에 존재할 가능성이 높습니다. 확률적 경사하강법이 정확한 시퀀스 예측이라는 목표를 위해 최적화하는 가장 좋은 방법이라면 충분히 큰 모델, 충분한 종류의 데이터, 모델을 훈련할 수 있는 충분한 컴퓨팅 성능이 주어지면 실제로 해당 메커니즘을 발견할 수 있을 것입니다.

게다가 최근 LLM 연구의 발전에 따르면 충분히 큰 모델이 매우 많은 양의 텍스트 데이터에 대해 학습될 때 특별하고 예상치 못한 기능이 나타나는 것으로 나타났습니다.

그러나 우리의 고려 사항이 단순한 LLM 기반 질의응답 시스템에 국한되는 한, 의사소통 그래프는 전혀 포함되지 않습니다. 사용하는 내부 메커니즘에 관계없이 시퀀스 예측 자체에는 의사소통 의도가 없으며 단순히 의사소통 그래프를 대화 관리 시스템에 삽입하는 것만으로는 도움이 되지 않습니다.

진실과 거짓을 구별할 수 있는 경우에만 "믿음"에 대해 완전한 의미로 말할 수 있지만 LLM은 판단을 내릴 책임이 없으며 어떤 단어가 다른 단어 뒤에 올 수 있는지 모델만 제시합니다. 우리는 LLM이 지식을 "암호화", "저장" 또는 "포함한다"고 말할 수 있으며 LLM의 창발적 특성은 그것이 일상 세계와 그 작업 방법에 대한 다양한 지식을 부호화한다는 점이라고 합리적으로 말할 수 있습니다. ChatGPT는 베이징이 "중국의 수도입니다"라는 말은 단지 비유적인 표현일 뿐이라는 것을 알고 있습니다.

4, 외부 정보 소스

여기서 요점은 시스템에 대한 모든 믿음을 완전히 귀속시키기 위한 전제 조건이 포함된다는 것입니다.

우리가 공유하는 세상에 대한 믿음으로 간주되는 것은 광범위하게 말해서, 그 세계의 증거를 기반으로 믿음을 적절하게 업데이트하는 능력, 즉 진실과 거짓을 분별하는 능력의 중요한 측면이 아닌 한, 그 믿음으로 간주되는 것은 없습니다. .

Wikipedia나 다른 웹사이트에서 믿음의 진실 또는 거짓을 측정하는 외부 표준을 제공할 수 있나요? 이러한 리소스를 정기적으로 참조하고 최신 모델 편집 기술을 사용하여 예측의 사실적 정확성을 유지하는 시스템에 LLM이 내장되어 있다고 가정할 때 신념 업데이트를 구현하려면 어떤 기능이 필요합니까?

순서 예측기 자체는 의사소통 의도를 갖거나 외부 현실에 대한 믿음을 형성할 수 있는 종류가 아닐 수도 있습니다. 그러나 반복해서 강조했듯이 실제 LLM이 효과적이려면 더 큰 아키텍처에 포함되어야 합니다.

질의응답 시스템을 구축하기 위해 LLM은 모델을 적절하게 쿼리할 수 있는 대화 관리 시스템으로 간단히 보완됩니다. 이 대규모 아키텍처가 수행하는 모든 것은 의도를 전달하거나 신념을 형성하는 능력으로 간주됩니다.

결정적으로 이러한 사고방식은 언어 모델 자체에서 언어 모델이 일부인 더 큰 시스템으로의 전환에 달려 있습니다. 언어 모델 자체는 여전히 시퀀스 예측자일 뿐이며 예전만큼 외부 세계에 대한 액세스 권한이 많지 않습니다. 이 경우 시스템 전체와 관련해서만 의도적인 입장이 더욱 설득력 있게 됩니다. 그러나 그것에 굴복하기 전에 우리는 그러한 시스템이 인간과 얼마나 다른지 스스로 상기해야 합니다.

5, 시각적 언어 모델

LLM은 다른 유형의 모델과 결합하거나 더 복잡한 아키텍처에 내장할 수 있습니다. 예를 들어, VilBERT 및 Flamingo와 같은 시각적 언어 모델(VLM)은 언어 모델을 이미지 인코더와 결합하고 텍스트-이미지 쌍의 다중 모드 코퍼스에 대해 훈련됩니다. 이를 통해 주어진 이미지의 맥락에서 주어진 단어 시퀀스가 ​​어떻게 계속될지 예측할 수 있습니다. VLM은 일반적으로 "그림을 보고 이야기하기"라고 알려진 사용자가 제공한 이미지에 대한 시각적 질문 답변 또는 대화에 사용할 수 있습니다.

그래서 사용자가 제공한 이미지는 진실 또는 거짓을 평가할 수 있는 외부 현실을 나타낼 수 있습니까? 제안? LLM 신념에 대해 이야기하는 것이 합리적입니까? LLM을 사용하여 이미지에 대한 가설을 생성한 다음 해당 이미지에 대한 신뢰성을 확인한 다음 LLM을 미세 조정하여 거짓으로 판명되는 진술을 방지하는 VLM을 상상할 수 있습니다.

하지만 대부분의 VLM 기반 시스템은 이와 같이 작동하지 않습니다. 대신, 그들은 텍스트와 이미지의 공동 배포에 대한 고정 모델에 의존합니다. 사용자가 제공한 이미지와 VLM에서 생성된 텍스트 사이의 관계는 인간이 공유하는 세계와 우리가 그 세계에 대해 이야기하는 데 사용하는 단어 사이의 관계와 근본적으로 다릅니다. 중요한 것은 전자는 단순한 상관관계이고 후자는 인과관계라는 점이다. 물론 추론 과정에서 모델이 수행하는 계산에는 인과관계가 있지만 이는 단어와 사물 사이의 인과관계와는 다르다. 을 참고하여.

6, Embodied AI

인간 언어 사용자는 공유된 세계에 존재하며, 이것이 LLM과 근본적으로 다릅니다. 고립된 LLM은 외부 세계와 통신하여 자신의 신념을 업데이트할 수 없습니다. 하지만 LLM이 더 큰 시스템에 내장되어 있으면 어떻게 될까요? 예를 들어 로봇이나 아바타로 나타나는 시스템입니다. 현재 LLM에 대한 지식과 신념에 대해 이야기하는 것이 합리적입니까?

LLM이 어떻게 구현되는지에 따라 다릅니다.

올해 Google이 출시한 SayCan 시스템을 예로 들어보겠습니다. 이 작업에서는 물리적 로봇을 제어하는 ​​시스템에 LLM이 내장되어 있습니다. 로봇은 사용자의 고급 자연어 지시에 따라 일상적인 작업(예: 테이블에 흘린 물 청소 등)을 수행합니다.

여기서 LLM의 임무는 로봇이 원하는 목표(예: 스펀지 찾기)를 달성하는 데 도움이 되는 낮은 수준의 작업에 사용자의 지침을 매핑하는 것입니다. 이는 모델이 적절한 하위 수준 작업에 대한 자연어 설명을 출력하고 해당 작업의 유용성에 점수를 매기도록 하는 엔지니어링된 프롬프트 접두사를 통해 수행됩니다.

SayCan 시스템의 언어 모델 구성 요소는 로봇이 위치한 실제 환경(예: 옆에 스폰지가 없는 경우)에 관계없이 동작 제안을 제공할 수 있습니다. 따라서 연구원들은 별도의 인식 모듈을 사용하여 로봇의 센서를 활용하여 장면을 평가하고 각 낮은 수준의 작업을 수행하는 현재 가능성을 결정했습니다. 각 작업에 대한 LLM의 유용성 평가와 각 작업에 대한 인식 모듈의 타당성 평가를 결합하여 다음 최적의 작업을 도출할 수 있습니다.

SayCan은 현실 세계와 물리적으로 상호 작용하지만 언어를 배우고 사용하는 방식은 여전히 ​​인간과 매우 다릅니다. SayCan과 같은 시스템에 포함된 언어 모델은 일반 텍스트 데이터 세트의 엔터티 없는 환경에서 시퀀스 예측을 수행하도록 사전 학습되었습니다. 그들은 다른 언어 사용자와 대화하여 언어를 배운 것이 아닙니다.

SayCan은 실제로 미래의 언어 사용 시스템에 대한 상상을 불러일으키지만 오늘날 시스템에서는 언어의 역할이 매우 제한적입니다. 사용자는 자연어로 시스템에 명령을 내리고, 시스템은 사용자의 행동에 대해 해석 가능한 자연어 설명을 생성합니다. 그러나 이 작은 범위의 언어 사용은 언어가 지원하는 집단적 인간 활동의 규모와 비교할 수 없습니다.

따라서 LLM이 포함된 구현된 AI 시스템의 경우에도 이를 설명할 단어를 신중하게 선택해야 합니다.

7、LLM이 추론할 수 있나요?

이제 ChatGPT에 신념이 있다는 사실을 부인할 수 있지만 실제로 추론할 수 있을까요?

형식 논리에서는 추론이 내용 중립적이기 때문에 이 문제는 더 어렵습니다. 예를 들어, 전제가 무엇이든 "선행을 확인"(modus ponens)하는 추론 규칙은 유효합니다.

만약: 모든 사람이 죽을 것이고 소크라테스는 인간이라면: 소크라테스는 죽을 것입니다.

논리의 내용 중립성은 LLM이 참과 거짓의 외부 현실을 측정할 만큼 뛰어나지 않기 때문에 추론 측면에서 LLM에 너무 많은 것을 요구할 수 없다는 것을 의미하는 것 같습니다. 그러나 그럼에도 불구하고 우리가 ChatGPT에 "모든 사람은 죽는다, 그렇다면 소크라테스는 인간이다"라는 메시지를 표시할 때 모델에게 가상 추론을 수행하도록 요청하는 것이 아니라 다음을 요청하는 것입니다. 주어진 공개 코퍼스 분포에 있는 단어의 통계입니다. 단어는 "모든 사람은 죽는다, 그렇다면 소크라테스는 인간이다"라는 순서를 따를 가능성이 높습니다.

게다가 더 복잡한 추론 문제에는 여러 추론 단계가 포함되며, 영리한 힌트 엔지니어링 덕분에 LLM은 추가 교육 없이 다단계 추론에 효과적으로 적용될 수 있습니다. 예를 들어, 사고 사슬 프롬프트에서 사용자 쿼리가 다단계 추론의 몇 가지 예를 포함하기 전에 모델에 프롬프트 접두사를 제출하고 모든 중간 단계에 사고 사슬 스타일의 프롬프트 접두사가 포함되어 있음을 명시적으로 언급하면 ​​모델이 동일한 스타일은 후속 시퀀스를 생성합니다. 즉, 최종 답변으로 이어지는 일련의 명시적인 추론 단계로 구성됩니다.

평소와 같이 모델에 제기된 실제 질문은 "공개 자료에서 단어의 통계적 분포를 고려할 때 어떤 단어가 시퀀스 S를 따를 가능성이 있는지" 형식입니다. 이 경우 시퀀스 S는 링크입니다. 생각 프롬프트 접두사 플러스 사용자의 쿼리에서 S를 따를 가능성이 가장 높은 토큰 시퀀스는 프롬프트 접두사에서 발견된 시퀀스와 유사한 형식을 갖습니다. 즉, 그 안에 여러 추론 단계가 포함되므로 다음과 같습니다. 모델이 생성됩니다.

모델의 응답이 다단계 인수의 형태를 취할 뿐만 아니라 문제의 인수가 종종(항상은 아니지만) 타당하고 최종 답변이 일반적으로(항상은 아님) 정확하다는 점에 주목할 가치가 있습니다. . 적절하게 프롬프트된 LLM은 훈련 세트 및/또는 프롬프트에서 잘 구성된 매개변수를 모방함으로써 올바르게 추론하는 것으로 보입니다.

그런데 이런 모방이 진짜 추론이 될 수 있을까요? 오늘날의 모델이 가끔 실수를 하더라도 모델의 성능이 하드 코딩된 추론 알고리즘의 성능과 구별되지 않을 정도로 이러한 오류를 더 좁힐 수 있습니까?

아마 대답은 '예'일 것입니다. 하지만 어떻게 알 수 있나요? 그러한 모델을 어떻게 신뢰할 수 있습니까?

정리 증명자가 생성한 문장의 순서는 기본 계산 과정의 결과이고 인과 구조가 해당 정리의 추론 구조를 반영하기 때문에 논리에 충실합니다. LLM을 사용하여 신뢰할 수 있는 추론 시스템을 구축하는 한 가지 방법은 동일한 인과 구조를 구현하는 알고리즘에 LLM을 포함시키는 것입니다. 그러나 순수 LLM을 고집한다면 그것이 생성하는 주장을 완전히 확신할 수 있는 유일한 방법은 이를 리버스 엔지니어링하고 충실한 추론 조항을 준수하는 창발 메커니즘을 발견하는 것입니다. 동시에 우리는 이러한 모델의 역할을 설명할 때 더욱 주의를 기울여야 합니다.

위 내용은 GPT-3에서 생성된 논문에서 ChatGPT는 원본 Turing Test 논문을 재현합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제