며칠 전 Meta의 수석 인공지능 과학자 Yann LeCun의 ChatGPT에 대한 발언이 업계 전반에 빠르게 퍼져 많은 논의를 불러일으켰습니다.
Zoom의 미디어 및 경영진이 모인 소규모 모임에서 LeCun은 다음과 같은 놀라운 발언을 했습니다. "기본 기술에 관한 한 ChatGPT는 대단한 혁신이 아닙니다."
"비록 대중의 눈에는 혁명적입니다."
ChatGPT는 지난 몇 달 동안 "최고 수준의" 챗봇이었습니다. 전 세계적으로 인기를 끌었습니다. 심지어 일부 사람들의 직업과 학교 교육의 현재 상황까지 변화시켰습니다.
전 세계가 놀랐을 때, ChatGPT에 대한 LeCun의 리뷰는 너무나 "절제적"이었습니다.
그러나 사실 그의 발언은 무리한 것이 아니다.
ChatGPT와 같은 데이터 기반 인공 지능 시스템은 많은 기업과 연구소에서 사용할 수 있습니다. LeCun은 OpenAI가 이 분야에서 독특하지 않다고 말했습니다.
"Google과 Meta 외에도 6개의 스타트업이 있는데 기본적으로 모두 매우 유사한 기술을 보유하고 있습니다." LeCun은 덧붙였습니다.
그리고 LeCun은 약간 신랄해졌습니다 -
"ChatGPT는 자기 지도 방식으로 사전 훈련된 Transformer 아키텍처를 사용하는데, 자기 지도 학습은 제가 오랫동안 옹호해 온 것입니다. 에서 그 당시 OpenAI는 아직 탄생하지 않았습니다.”
그 중 Transformer는 Google의 발명품입니다. 이러한 종류의 언어 신경망은 GPT-3와 같은 대규모 언어 모델의 기초가 됩니다.
최초의 신경망 언어 모델은 20년 전 Yoshua Bengio가 제안했습니다. Bengio의 주의 메커니즘은 나중에 Google의 Transformer에서 사용되었으며 이후 모든 언어 모델의 핵심 요소가 되었습니다.
또한 ChatGPT는 Google DeepMind Lab에서 개척한 인간 피드백 강화 학습(RLHF) 기술을 사용합니다.
LeCun의 관점에서 ChatGPT는 과학적 혁신이라기보다는 성공적인 엔지니어링 사례에 가깝습니다.
OpenAI의 기술은 "기초과학 측면에서 혁신적이지 않고 단지 잘 설계되었을 뿐입니다."
"물론 그것을 비판하지는 않겠습니다."
저는 OpenAI 작업을 비판하는 것이 아닙니다. , 그들의 생각을 비판하는 것도 아닙니다.
대중과 미디어의 견해를 바로잡고 싶습니다. 그들은 일반적으로 ChatGPT가 혁신적이고 독특한 기술 혁신이라고 믿고 있지만 그렇지 않습니다.
뉴욕타임스 기자 케이드 메츠와의 패널토론에서 르쿤은 참견하는 사람들의 의구심을 느꼈습니다.
"구글과 메타는 왜 비슷한 시스템이 없냐고 묻고 싶을 수도 있겠네요. 제 대답은 구글과 메타가 이런 말도 안되는 챗봇을 출시하면 손실이 꽤 클 것이라는 것입니다." 그는 웃으며 말했습니다.
공교롭게도 OpenAI가 마이크로소프트와 다른 투자자들의 지지를 받아 그 가치가 290억 달러로 치솟았다는 소식이 나오자마자 마커스도 밤새 자신의 블로그에 이를 조롱하는 글을 썼습니다.
기사에서 Marcus는 다음과 같은 황금 문장을 말했습니다. OpenAI는 Google이 할 수 없는 일이 무엇이며, 290억 달러라는 엄청난 가격의 가치가 있습니까?
더 이상 고민하지 말고 AI 거대 기업의 챗봇을 꺼내 데이터가 스스로 말하도록 합시다.
LeCun은 많은 기업과 연구실에서 ChatGPT와 유사한 AI 챗봇을 보유하고 있다고 밝혔는데, 이는 사실입니다.
ChatGPT는 언어 모델을 기반으로 한 최초의 AI 챗봇이 아니며 많은 "전임자"를 보유하고 있습니다.
OpenAI 이전에는 Meta, Google, DeepMind 등이 모두 Meta의 BlenderBot, Google의 LaMDA, DeepMind의 Sparrow 등 자체 챗봇을 출시했습니다.
일부 팀에서는 자체 오픈 소스 챗봇 계획도 발표했습니다. 예를 들어 LAION의 Open-Assistant입니다.
Huggingface의 블로그에서는 여러 저자가 RLHF, SFT, IFT 및 CoT(모두 ChatGPT의 키워드) 주제에 대한 중요한 논문을 조사하고 분류하고 요약했습니다.
공용 액세스, 훈련 데이터, 모델 아키텍처, 평가 방향 등의 세부 사항을 기반으로 BlenderBot, LaMDA, Sparrow 및 InstructGPT와 같은 AI 챗봇을 비교하는 표를 만들었습니다.
참고: ChatGPT는 문서화되어 있지 않기 때문에 ChatGPT의 기초로 간주될 수 있는 OpenAI의 명령 미세 조정 모델인 InstructGPT의 세부 정보를 사용하고 있습니다.
LaMDA |
BlenderBot 3 |
Sparrow |
ChatGPT/ InstructGPT |
|
조직 | |
Meta |
DeepMind |
OpenAI |
액세스 |
Closed |
공개 |
닫음 |
제한적 |
매개변수 규모 |
1,370억 |
1,750억 |
700억 |
1,750억 |
기본 모델 |
알 수 없음 |
OPT |
Chinchilla |
GPT-3.5 |
말뭉치 크기 |
2조 8100억 |
1000억 |
1조 4천억 |
Unknown |
웹 |
✔️ |
✔️ |
✔️ |
✖️ |
감독 및 미세 조정 |
✔️ |
✔️ |
✔️ |
✔️ |
미세 조정 데이터 크기 |
고품질: 6.4K 보안: 8K 부동성: 4K IR: 49K |
20개 18K에서 1.2M까지의 NLP 데이터세트 |
알 수 없음 |
12.7K (ChatGPT는 더 많을 수 있음) |
RLHF |
✖️ |
✖️ |
✔️ |
✔️ |
수동 안전 수칙 |
✔ |
✖️ |
✔ |
✖️ |
훈련 데이터, 기본 모델 및 미세 조정의 많은 차이점에도 불구하고 이러한 챗봇에는 모두 한 가지 공통점이 있습니다. 즉 지침을 따른다는 것입니다.
예를 들어 ChatGPT에 명령을 내려 미세 조정에 관한 시를 쓸 수 있습니다.
ChatGPT는 매우 "인지적"이며 시를 쓸 때 LeCun과 Hinton을 칭찬하는 것을 결코 잊지 않는다는 것을 알 수 있습니다.
그러자 그는 "넛지, 넛지, 당신은 아름다운 춤이다"라고 열정적으로 칭찬했습니다.
보통 기본 모델의 언어 모델링으로는 충분하지 않습니다. 사용자 지침을 따르는 방법을 배우려면.
모델 교육에서 연구자들은 전통적인 NLP 작업(예: 감정, 텍스트 분류, 요약 등)을 사용하는 것 외에도 지침 미세 조정(IFT)도 사용합니다. 매우 다양한 작업. 텍스트 명령은 기본 모델을 미세 조정합니다.
그 중 이 명령어 예제는 명령어, 입력, 출력의 세 가지 주요 부분으로 구성됩니다.
입력은 선택 사항이며 위 ChatGPT 예시의 오픈 빌드와 같은 일부 작업에는 지침만 필요합니다.
입력과 출력이 나타나면 예제가 형성됩니다. 특정 명령어에 대해 여러 입력 및 출력 예제가 있을 수 있습니다. 예를 들어, 다음 예는 다음과 같습니다.
IFT 데이터는 일반적으로 사람이 작성한 지침과 언어 모델이 안내하는 지침 예제의 모음입니다.
부팅 프로세스 중에 LM은 몇 번의 설정(위 그림 참조) 메시지를 받고 새로운 명령, 입력 및 출력을 생성하라는 지시를 받습니다.
각 라운드에서 모델은 사람이 작성한 샘플과 모델이 생성한 샘플 중에서 선택하라는 메시지를 받습니다.
데이터세트 생성에 대한 인간과 모델의 기여도는 스펙트럼과 같습니다(아래 이미지 참조).
한 쪽 끝에는 부자연스러운 지침과 같은 순수 모델 생성 IFT 데이터세트가 있고 다른 쪽 끝에는 초자연적인 지침과 같이 인위적으로 생성된 수많은 지침이 있습니다.
그 사이에는 더 작지만 더 높은 품질의 시드 데이터 세트를 사용한 다음 Self-instruct와 같은 안내 작업을 수행하는 것이 있습니다.
IFT용 데이터세트를 구성하는 또 다른 방법은 다양한 작업(프롬프트 포함)에서 기존의 고품질 크라우드소싱 NLP 데이터세트를 활용하고 통합 스키마 또는 다른 템플릿 지침을 사용하여 이러한 데이터세트를 변환하는 것입니다.
이 영역의 작업에는 T0, 자연 지침 데이터 세트, FLAN LM 및 OPT-IML이 포함됩니다.
자연 명령 데이터 세트 관련 논문: https://arxiv.org/abs/2104.08773
한편, OpenAI의 InstructGPT, DeepMind의 Sparrow 및 Anthropic의 Constitutional AI는 RLHF(인간 피드백 기반 강화 학습, 즉 인간 선호도 주석)가 사용됩니다.
RLHF에서는 인간의 피드백을 기반으로 일련의 모델 응답의 순위가 결정됩니다(예: 더 인기 있는 텍스트 소개 선택).
다음으로 연구원들은 이러한 주석이 달린 응답에 대한 선호도 모델을 훈련하여 RL 최적화 프로그램에 스칼라 보상을 반환했습니다.
마지막으로 강화 학습을 통해 챗봇을 훈련시켜 이 선호 모델을 시뮬레이션합니다.
CoT(Chain of Thought) 프롬프트는 챗봇이 출력을 생성하기 위해 단계별로 추론하도록 유도하는 명령 예제의 특별한 경우입니다.
CoT로 미세 조정된 모델은 인간 주석을 통한 단계별 추론을 위한 지침 데이터 세트를 사용합니다.
이것이 유명한 프롬프트 "단계적으로 생각해보자"의 유래입니다.
다음 예는 "Scaling Instruction-Finetuned Language Models"에서 가져온 것입니다. 그 중 주황색은 명령을 강조하고, 분홍색은 입력과 출력을, 파란색은 CoT 추론을 나타냅니다.
이 논문에서는 CoT 미세 조정을 사용하는 모델이 상식, 산술 및 상징적 추론과 관련된 작업에서 더 나은 성능을 발휘한다고 지적합니다.
또한 CoT 미세 조정은 민감한 주제(때때로 RLHF보다 낫음)에도 매우 효과적이며, 특히 모델 손상을 방지하기 위해 "죄송합니다. 답변할 수 없습니다."
방금 언급했듯이, 지시에 따라 미세 조정된 언어 모델이 항상 유용하고 안전한 응답을 생성할 수는 없습니다.
예를 들어 "죄송합니다. 이해가 안 됩니다"와 같은 쓸데없는 답변을 제공하거나 민감한 주제를 제기하는 사용자에게 안전하지 않은 응답을 출력하여 회피합니다.
이 동작을 개선하기 위해 연구자들은 SFT(감독 미세 조정) 형식으로 인간이 주석을 추가한 고품질 데이터에 대한 기본 언어 모델을 미세 조정하여 모델의 유용성과 무해성을 개선합니다.
SFT와 IFT의 연결은 매우 가깝습니다. IFT는 SFT의 하위 집합으로 볼 수 있습니다. 최근 문헌에서 SFT 단계는 IFT 이후에 완료되는 특정 교육 주제보다는 보안 주제에 자주 사용됩니다.
향후에는 분류와 설명이 더 명확한 사용 사례를 가져야 합니다.
또한 Google의 LaMDA는 일련의 규칙에 따라 보안 주석이 있는 안전하게 주석이 달린 대화 데이터 세트를 미세 조정합니다.
이러한 규칙은 연구자가 미리 정의하고 개발한 경우가 많으며 피해, 차별, 잘못된 정보 등을 포함한 광범위한 주제를 다룹니다.
다음과 같이 AI 챗봇에 관해 아직 탐구해야 할 많은 질문이 있습니다.
1. 인간 피드백을 통해 학습하는 데 RL이 얼마나 중요합니까? 더 높은 품질의 데이터 교육을 통해 IFT 또는 SFT에서 RLHF의 성능을 얻을 수 있습니까?
2. Sparrow의 SFT+RLHF 보안은 LaMDA의 SFT 보안과 어떻게 비교되나요?
3. 이미 IFT, SFT, CoT 및 RLHF가 있다는 점을 고려하면 사전 교육이 얼마나 더 필요합니까? 절충안은 무엇입니까? 퍼블릭 및 프라이빗 모두에서 가장 좋은 기본 모델은 무엇입니까?
4. 이제 이러한 모델은 연구자들이 구체적으로 실패 모드를 검색하고 밝혀진 문제를 기반으로 향후 교육(팁 및 방법 포함)에 영향을 미치도록 신중하게 설계되었습니다. 이러한 방법의 효과를 어떻게 체계적으로 문서화하고 재현할 수 있습니까?
1. 학습 데이터와 비교하면, 학습 미세 조정에 필요한 부분은 매우 적습니다(수백 자릿수).
2. 감독된 미세 조정은 사람의 주석을 사용하여 모델의 출력을 더욱 안전하고 유용하게 만듭니다.
3. CoT 미세 조정은 단계별 사고 작업에서 모델의 성능을 향상하고 모델이 항상 민감한 문제에서 벗어나는 것을 방지합니다.
참조:
https://huggingface.co/blog/dialog-agents
위 내용은 Google, Meta, OpenAI 간의 챗봇 경쟁에 초점을 맞춘 ChatGPT는 LeCun의 불만을 주제로 삼습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!