번역가 | Li Rui
리뷰어 | Sun Shujuan
OpenAI가 다시 인기를 끌고 있습니다! 최근 많은 사람들이 사랑받고 두려워하는 무자비한 캐릭터를 친구들 사이에서 발견했기 때문에 StackOverflow는 서둘러 해당 캐릭터를 선반에서 제거해야 했습니다.
최근 OpenAI는 채팅 AI ChatGPT를 출시했는데, 불과 며칠 만에 사용자 수가 100만 명에 이르렀고, 서버는 등록된 사용자로 가득 찼습니다.
네티즌들이 '구글 검색 너머'에 감탄하는 이런 유물은 어떻게 하는 걸까요? 신뢰할 수 있나요?
OpenAI는 최근 플래그십 GPT 시리즈를 기반으로 한 또 다른 대형 언어 모델(LLM)이자 대화형 상호 작용에 특별히 사용되는 모델인 ChatGPT를 출시했습니다. 사용자는 회사의 무료 데모 버전을 다운로드할 수 있습니다.
대부분의 LLM(대형 언어 모델) 릴리스와 마찬가지로 ChatGPT 릴리스도 몇 가지 논란을 불러일으켰습니다. 출시된 지 불과 몇 시간 만에 새로운 언어 모델은 트위터에서 큰 반향을 불러일으켰고, 사용자들은 ChatGPT의 인상적인 성과나 치명적인 실패에 대한 스크린샷을 업로드했습니다.
그러나 대규모 언어 모델의 넓은 관점에서 보면 ChatGPT는 짧지만 풍부한 해당 분야의 역사를 반영하여 불과 몇 년 만에 얼마나 많은 발전이 이루어졌는지, 해결해야 할 근본적인 문제가 무엇인지를 나타냅니다.
비지도 학습은 여전히 인공지능 커뮤니티가 추구하는 목표 중 하나이며, 인터넷에는 귀중한 지식과 정보가 많이 있습니다. 그러나 최근까지 이 정보의 대부분은 머신러닝 시스템에서 사용할 수 없었습니다. 대부분의 기계 학습 및 딥 러닝 애플리케이션은 감독됩니다. 즉, 인간은 기계 학습 시스템을 훈련하기 위해 많은 수의 데이터 샘플을 가져와 각 샘플에 주석을 달아야 합니다.
대규모 언어 모델의 핵심 구성 요소인 Transformer 아키텍처의 출현으로 이는 변경되었습니다. 변환기 모델은 레이블이 지정되지 않은 대규모 텍스트 말뭉치를 사용하여 학습할 수 있습니다. 텍스트의 일부를 무작위로 마스크하고 누락된 부분을 예측하려고 합니다. 이 작업을 반복적으로 수행함으로써 Transformer는 매개변수를 조정하여 큰 순서에서 서로 다른 단어 간의 관계를 나타냅니다.
이는 매우 효과적이고 확장 가능한 전략임이 입증되었습니다. 매우 큰 훈련 자료를 사람이 라벨링할 필요 없이 수집할 수 있으므로 점점 더 큰 Transformer 모델을 생성하고 훈련할 수 있습니다. 연구 및 실험에 따르면 Transformer 모델과 LLM(대형 언어 모델)의 크기가 증가함에 따라 더 길고 일관성 있는 텍스트 시퀀스를 생성할 수 있습니다. LLM(대형 언어 모델)은 대규모 비상 대응 기능도 보여줍니다.
대형 언어 모델(LLM)은 일반적으로 텍스트 전용이므로 모방하려는 인간의 풍부한 다감각 경험이 부족합니다. GPT-3과 같은 대형 언어 모델(LLM)은 인상적인 결과를 달성하지만 일반적으로 텍스트에서 생략되는 상식, 논리, 계획, 추론 및 기타 지식이 필요한 작업에서는 예측할 수 없게 만드는 몇 가지 근본적인 결함이 있습니다. LLM(대형 언어 모델)은 착각에 빠진 응답을 생성하고, 일관되지만 실제로는 거짓인 텍스트를 생성하며, 종종 사용자 프롬프트의 명백한 의도를 잘못 해석하는 것으로 알려져 있습니다.
모델과 해당 훈련 자료의 크기를 늘려 과학자들은 대규모 언어 모델에서 명백한 오류의 빈도를 줄일 수 있었습니다. 그러나 근본적인 문제는 사라지지 않습니다. 심지어 가장 큰 LLM(대형 언어 모델)도 약간의 노력으로 어리석은 실수를 할 수 있습니다.
대형 언어 모델(LLM)이 벤치마크 성능을 추적하기 위해 과학 연구실에서만 사용된다면 이는 큰 문제가 아닐 수도 있습니다. 그러나 실제 애플리케이션에서 LLM(대형 언어 모델)을 사용하는 것에 대한 관심이 높아지면서 이러한 문제와 기타 문제를 해결하는 것이 더욱 중요해졌습니다. 엔지니어는 기계 학습 모델이 다양한 조건에서 견고하게 유지되고 사용자 요구 사항을 충족하는지 확인해야 합니다.
이 문제를 해결하기 위해 OpenAI는 이전에 강화 학습 모델을 최적화하기 위해 개발된 RLHF(Reinforcement Learning from Human Feedback) 기술을 사용합니다. 강화 학습 모델이 환경과 행동을 무작위로 탐색하도록 하는 대신 RLHF(사람 피드백을 통한 강화 학습)는 인간 감독자의 가끔 피드백을 사용하여 에이전트를 올바른 방향으로 안내합니다. 인간 피드백을 통한 강화 학습(RLHF)의 이점은 최소한의 인간 피드백으로 강화 학습 에이전트의 훈련을 향상시킨다는 것입니다.
OpenAI는 나중에 사용자 프롬프트의 지침을 더 잘 이해하고 응답하도록 설계된 대규모 언어 모델(LLM) 제품군인 InstructGPT에 인간 피드백(RLHF)을 사용한 강화 학습을 적용했습니다. InstructGPT는 사람의 피드백을 기반으로 미세 조정된 GPT-3 모델입니다.
이것은 분명히 절충안입니다. 인간의 주석은 확장 가능한 훈련 과정에서 병목 현상이 될 수 있습니다. 그러나 비지도 학습과 지도 학습 사이의 적절한 균형을 찾음으로써 OpenAI는 지침에 대한 더 나은 응답, 유해한 출력 감소, 리소스 최적화 등 중요한 이점을 얻을 수 있습니다. OpenAI의 연구 결과에 따르면 13억 개의 매개변수 InstructionGPT는 일반적으로 명령 추적에서 1750억 개의 매개변수 GPT-3 모델보다 성능이 뛰어납니다.
ChatGPT 교육 과정
ChatGPT는 InstructGPT 모델에서 얻은 경험을 바탕으로 구축되었습니다. 인간 주석자는 사용자 프롬프트와 모델 응답을 포함하는 대화 예시 세트를 생성합니다. 이 데이터는 ChatGPT가 구축된 GPT-3.5 모델을 미세 조정하는 데 사용됩니다. 다음 단계에서는 미세 조정된 모델에 새로운 프롬프트가 제공되고 여러 응답이 제공됩니다. 주석 작성자는 이러한 응답의 순위를 매깁니다. 이러한 상호 작용에서 생성된 데이터는 보상 모델을 훈련하는 데 사용되며, 이는 강화 학습 파이프라인에서 LLM(대형 언어 모델)을 더욱 세부적으로 조정하는 데 도움이 됩니다.
OpenAI는 강화 학습 과정의 전체 세부 사항을 공개하지 않았지만 사람들은 이 과정의 "확장 불가능 비용", 즉 얼마나 많은 인력이 필요한지 알고 싶어합니다.
ChatGPT의 결과는 인상적입니다. 이 모델은 코드에 대한 피드백 제공, 시 쓰기, 다양한 어조로 기술 개념 설명, 생성 인공 지능 모델에 대한 프롬프트 생성 등 다양한 작업을 완료했습니다.
그러나 이 모델은 존재하지 않는 논문과 책을 인용하거나 직관적인 물리학을 오해하거나 구성에 실패하는 등 LLM(대형 언어 모델)에서 발생하는 오류와 유사한 오류가 발생하기 쉽습니다.
사람들은 이러한 실패에 놀라지 않습니다. ChatGPT는 어떤 마술도 작동하지 않으며 이전 버전과 동일한 문제를 겪게 됩니다. 그러나 실제 응용 프로그램에서 어디에서 어느 정도까지 신뢰할 수 있습니까? Codex 및 GitHubCopilot에서 LLM(대형 언어 모델)을 매우 효과적으로 사용할 수 있는 것처럼 여기에는 분명히 가치 있는 것이 있습니다.
여기서 ChatGPT가 유용한지 여부를 결정하는 것은 ChatGPT와 함께 구현되는 도구 및 보호의 종류입니다. 예를 들어, ChatGPT는 코딩 및 그래픽 디자인을 위한 디지털 컴패니언과 같은 비즈니스용 챗봇을 만드는 데 아주 좋은 플랫폼이 될 수 있습니다. 첫째, InstructGPT의 예를 따르면 더 적은 수의 매개변수로 복잡한 모델의 성능을 얻을 수 있으므로 비용 효율적입니다. 또한 OpenAI가 기업이 인간 피드백(RLHF)을 통해 강화 학습의 미세 조정을 구현할 수 있는 도구를 제공한다면 특정 애플리케이션에 더욱 최적화될 수 있으며, 대부분의 경우 챗봇보다 더 유용할 것입니다. 무엇이든. 마지막으로, 애플리케이션 개발자에게 ChatGPT를 애플리케이션 시나리오와 통합하고 입력 및 출력을 특정 애플리케이션 이벤트 및 작업에 매핑하는 도구가 제공되면 모델이 불안정하게 작동하는 것을 방지하기 위한 올바른 가드레일을 설정할 수 있습니다.
기본적으로 OpenAI는 강력한 인공 지능 도구를 만들었지만 명백한 결함이 있습니다. 이제 제품 팀이 ChatGPT의 기능을 활용할 수 있도록 올바른 개발 도구 생태계를 만들어야 합니다. GPT-3은 예측할 수 없는 많은 응용 프로그램에 대한 길을 열어 주므로 ChatGPT가 무엇을 보유하고 있는지 아는 것은 흥미로울 것입니다.
원본 링크: https://bdtechtalks.com/2022/12/05/openai-chatgpt/
위 내용은 5일 만에 사용자 100만 명 돌파, ChatGPT의 비밀은 무엇일까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!