집 >기술 주변기기 >일체 포함 >빅모델 리뷰는 여기까지입니다! 한 기사는 글로벌 AI 거대 기업의 대형 모델의 진화 역사를 명확히 하는 데 도움이 될 것입니다.

빅모델 리뷰는 여기까지입니다! 한 기사는 글로벌 AI 거대 기업의 대형 모델의 진화 역사를 명확히 하는 데 도움이 될 것입니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2023-05-17 09:22:052175검색

Xi Xiaoyao 과학 기술 토크 원본
작성자 | Xiaoxi, Python

대형 모델의 초보자라면 GPT, PaLm, LLaMA라는 단어의 이상한 조합을 처음 볼 때 어떤 생각이 들겠습니까? 더 깊이 들어가 보면 BERT, BART, RoBERTa, ELMo 같은 이상한 단어들이 연달아 나오는 걸 보면 초보인 제가 미칠 것 같지 않나요?

오랜 시간 동안 NLP의 소규모 서클에 있었던 베테랑이라도 대형 모델의 폭발적인 개발 속도로 인해 새롭고 빠른 대형 모델의 급속한 발전에 혼란을 느끼고 따라잡지 못할 수도 있습니다. . 이때에는 대규모 모델 리뷰를 요청하셔야 도움이 될 수도 있습니다! Amazon, Texas A&M University 및 Rice University의 연구자들이 시작한 이 대규모 모델 검토 "실제 LLM의 힘 활용: ChatGPT 및 그 이상에 대한 설문조사"는 "가계도"를 구축하는 방법을 제공합니다. ChatGPT로 대표되는 대형 모델의 과거, 현재, 미래를 다루고 있으며, 작업을 기반으로 매우 포괄적인 대형 모델 실용 가이드를 구축하고 다양한 작업에서 대형 모델의 장단점을 소개했으며 마지막으로 현재의 문제점을 지적했습니다. 모델의 위험과 과제.

논문 제목:
실제 LLM의 힘 활용: ChatGPT 및 그 이상에 대한 설문조사

논문 링크: https://www.php.cn/link/f50fb34f27bd263e6be8ffcf8967ced0

프로젝트 홈페이지: https:// www.php.cn/link/968b15768f3d19770471e9436d97913c

가계도 - 대형 모델의 과거와 현재의 삶

대형 모델의 "모든 악의 근원"에 대한 추적은 아마도 "주의가 필요한 전부"라는 기사에서 시작되어야 할 것입니다. "라는 글을 바탕으로 Google 기계 번역 팀이 제안한 여러 그룹의 인코더와 디코더로 구성된 기계 번역 모델인 Transformer에서 시작하여 대형 모델의 개발은 일반적으로 두 가지 경로를 따라 왔습니다. 하나의 경로는 디코더 부분을 버리고 인코더는 인코더의 사전 훈련 모델로만 사용하세요. 가장 유명한 대표자는 Bert 제품군입니다. 이들 모델은 다른 데이터보다 쉽게 얻을 수 있는 대규모 자연어 데이터를 더 잘 활용하기 위해 "비지도 사전 학습" 방법을 시도하기 시작했으며, "비지도" 방법은 Let Mask 제거를 통해 MLM(Masked Language Model)입니다. 문장의 일부 단어를 선택하고 모델이 컨텍스트를 사용하여 마스크에 의해 제거된 단어를 예측하는 기능을 학습하도록 합니다. Bert가 나왔을 때 NLP 분야에서는 폭탄으로 간주되었습니다. 동시에 SOTA는 감정 분석, 명명된 엔터티 인식 등과 같은 자연어 처리의 많은 일반적인 작업에 사용되었습니다. Bert와 ALbert를 제외하고는. Bert 가문의 대표적인 대표주자인 Google의 이 외에도 Baidu의 ERNIE, Meta의 RoBERTa, Microsoft의 DeBERTa 등이 있습니다.

빅모델 리뷰는 여기까지입니다! 한 기사는 글로벌 AI 거대 기업의 대형 모델의 진화 역사를 명확히 하는 데 도움이 될 것입니다.

안타깝게도 Bert의 접근 방식은 규모의 법칙을 깨는 데 실패했으며 이 점은 현재 대형 모델의 주력, 즉 대형 모델 개발의 또 다른 방식인 Encoder 부분을 버리고 Decoder를 기반으로 한 것입니다. GPT의 일부 가족이 정말 해냈습니다. GPT 제품군의 성공은 한 연구원의 놀라운 발견에서 비롯됩니다. "언어 모델의 크기를 확장하면 제로샷(zero-shot) 및 스몰샷(few-shot) 학습 능력이 크게 향상될 수 있습니다. 이는 일관됩니다." Fine-tuning을 기반으로 한 Bert 계열과는 큰 차이가 있으며, 이는 오늘날 대규모 언어 모델의 마법적인 힘의 원천이기도 합니다. GPT 계열은 이전 단어 시퀀스를 바탕으로 다음 단어를 예측하는 방식으로 학습되므로 처음에는 GPT가 텍스트 생성 모델로만 등장했으며 GPT-3의 출현은 GPT 계열의 운명에 전환점이 되었습니다. 3은 텍스트 생성 자체를 넘어 대형 모델이 가져온 마법의 능력을 사람들에게 보여주고 이러한 자동 회귀 언어 모델의 우수성을 보여줍니다. GPT-3를 시작으로 현재의 ChatGPT, GPT-4, Bard, PaLM, LLaMA 등이 번성하면서 현재의 대형모델 시대를 맞이하게 되었습니다.

빅모델 리뷰는 여기까지입니다! 한 기사는 글로벌 AI 거대 기업의 대형 모델의 진화 역사를 명확히 하는 데 도움이 될 것입니다.

이 가계도의 두 가지를 병합하는 것부터 Word2Vec과 FastText의 초기 단계, 사전 훈련 모델에서 ELMo와 ULFMiT의 초기 탐색, 대박이 난 Bert의 출현까지 볼 수 있습니다. GPT-3의 놀라운 데뷔까지 ChatGPT는 기술의 반복 외에도 조용히 자체 기술 경로를 고수하고 결국에는 하늘로 솟아 올랐습니다. 우리는 Google이 전체 인코더-디코더 모델 아키텍처에서 큰 노력을 기울인 것을 확인했으며 Meta의 주요 이론적 기여와 대규모 모델 오픈 소스 프로젝트에 대한 Meta의 지속적인 참여를 확인했습니다. 또한 GPT-3 이후 LLM이 점차 "폐쇄형" 소스로 변하는 추세를 확인했습니다. 앞으로 대부분의 연구가 API 기반 연구로 변경될 가능성이 매우 높습니다.

빅모델 리뷰는 여기까지입니다! 한 기사는 글로벌 AI 거대 기업의 대형 모델의 진화 역사를 명확히 하는 데 도움이 될 것입니다.

데이터 - 대형 모델의 힘의 원천

결론적으로 대형 모델의 마력은 GPT에서 나오는 걸까요? 대답은 '아니요'라고 생각합니다. GPT 제품군의 기능이 거의 모두 향상되면서 사전 학습 데이터의 양, 품질 및 다양성이 크게 향상되었습니다. 대형 모델의 학습 데이터에는 책, 기사, 웹 사이트 정보, 코드 정보 등이 포함됩니다. 이러한 데이터를 대형 모델에 입력하는 목적은 대형 모델의 단어, 문법, 구문 및 의미 정보를 통해 모델은 맥락을 인식하고 일관된 응답을 생성하여 인간 지식, 언어, 문화 등의 측면을 포착하는 능력을 얻을 수 있습니다.

일반적으로 말해서, 많은 NLP 작업에 직면하면 데이터 주석 정보의 관점에서 이를 제로 샘플, 소수 샘플, 다중 샘플로 분류할 수 있습니다. 의심할 여지 없이 LLM은 제로샷 작업에 가장 적합한 방법입니다. 거의 예외 없이 대형 모델은 제로샷 작업에서 다른 모델보다 훨씬 앞서 있습니다. 동시에 소수 샘플 작업은 대형 모델의 적용에도 매우 적합합니다. 대형 모델에 대한 "질문-답변" 쌍을 표시하면 대형 모델의 성능이 향상될 수 있습니다. 이 접근 방식은 일반적으로 In-Context라고도 합니다. 학습. 대형 모델도 다중 샘플 작업을 처리할 수 있지만 미세 조정이 여전히 최선의 방법일 수 있습니다. 물론 개인 정보 보호 및 컴퓨팅과 같은 일부 제약 조건에서는 대형 모델이 여전히 유용할 수 있습니다.

빅모델 리뷰는 여기까지입니다! 한 기사는 글로벌 AI 거대 기업의 대형 모델의 진화 역사를 명확히 하는 데 도움이 될 것입니다.

동시에 미세 조정 모델은 훈련 데이터와 테스트 데이터의 분포 변화 문제에 직면할 가능성이 높습니다. 특히 미세 조정 모델은 일반적으로 OOD 데이터에서 매우 낮은 성능을 발휘합니다. 이에 따라 LLM은 명시적인 피팅 프로세스가 없기 때문에 훨씬 더 나은 성능을 발휘합니다. 인간 피드백(RLHF)을 기반으로 하는 일반적인 ChatGPT 강화 학습은 대부분의 배포 외 분류 및 번역 작업에서도 잘 수행됩니다. OOD 평가를 위해 설계된 데이터 세트 DDXPlus.

실용 가이드 - 작업 중심의 대형 모델 시작

"대형 모델이 좋다!"라는 주장 뒤에는 "대형 모델을 어떻게 사용하고 언제 사용해야 할까요?"라는 질문이 뒤따르는 경우가 많습니다. task에서 미세 조정을 선택해야 할까요, 아니면 아무 생각 없이 큰 모델부터 시작해야 할까요? 본 논문에서는 "인간을 모방해야 하는지", "추론 능력이 필요한지", "인간을 모방하는 것이 필요한지", "인간을 모방하는 것이 필요한지" 등 일련의 질문을 바탕으로 대형 모델을 사용할지 여부를 판단하는 데 도움이 되는 실용적인 "의사결정 흐름"을 정리합니다. 멀티 태스킹입니다."

빅모델 리뷰는 여기까지입니다! 한 기사는 글로벌 AI 거대 기업의 대형 모델의 진화 역사를 명확히 하는 데 도움이 될 것입니다.

NLP 작업 분류의 관점에서:

전통적인 자연어 이해

현재 대량의 풍부한 주석 데이터가 포함된 NLP 작업이 많이 있으며 미세 조정 모델이 여전히 이점을 확실하게 제어할 수 있습니다. 대부분의 경우 데이터 세트의 LLM은 미세 조정 모델보다 열등합니다. 특히:

텍스트 분류: 텍스트 분류에서 LLM은 일반적으로 미세 조정 모델보다 열등합니다.
감정 분석: IMDB 및 SST 작업에서 성능은 독성 모니터링과 같은 작업에서는 거의 모든 대형 모델이 미세 조정 모델보다 나쁩니다.
자연 언어 추론: RTE 및 SNLI에서는 미세 조정 모델이 LLM보다 낫습니다. CB 및 기타 데이터에서 LLM은 미세 조정 모델과 유사합니다.
Q&A: SQuADv2, QuAC 및 기타 여러 데이터 세트에서는 미세 조정 모델이 더 나은 성능을 보이는 반면 CoQA에서는 LLM이 미세 조정 모델과 유사하게 수행됩니다.
정보 검색: LLM은 정보 검색 분야에서 널리 사용되지 않았습니다. 정보 검색의 작업 특성으로 인해 대규모 모델에 대한 정보 검색 작업을 모델링하는 자연스러운 방법이 없습니다.
명명된 엔터티 인식: 명명된 엔터티 인식에서, 대형 모델은 여전히 미세 조정 모델에 비해 상당히 열등하며 CoNLL03에서 미세 조정 모델의 성능은 모델 크기의 두 배에 가깝지만 고전적인 NLP 중급 작업인 명명된 엔터티 인식은 더 효율적일 가능성이 높습니다. 대형 모델로 교체되었습니다.

간단히 말하면, 대부분의 전통적인 자연어 이해 작업에서는 미세 조정된 모델이 더 나은 성능을 발휘합니다. 물론 LLM의 잠재력은 완전히 출시되지 않은 Prompt 프로젝트로 인해 제한됩니다(실제로 미세 조정 모델은 상한선에 도달하지 않았습니다). 동시에 기타 텍스트와 같은 일부 틈새 분야에서도 마찬가지입니다. 분류, 적대적 NLI 및 기타 작업, 더 강력한 일반화 능력으로 인해 LLM은 더 나은 성능으로 이어지지만 현재로서는 성숙하게 레이블이 지정된 데이터의 경우 모델을 미세 조정하는 것이 여전히 기존 작업에 대한 최적의 솔루션일 수 있습니다.

자연어 생성

자연어 이해에 비해 자연어 생성은 대형 모델의 무대일 수 있습니다. 자연어 생성의 주요 목표는 일관되고 원활하며 의미 있는 시퀀스를 만드는 것입니다. 일반적으로 두 가지 범주로 나눌 수 있습니다. 하나는 기계 번역 및 단락 정보 요약으로 표시되는 작업이고 다른 하나는 보다 개방적인 자연어 쓰기입니다. 이메일 작성, 뉴스 작성, 스토리 작성 등 구체적으로:

텍스트 요약: 텍스트 요약의 경우 ROUGE와 같은 기존 자동 평가 지표를 사용하면 LLM은 뚜렷한 이점을 나타내지 않지만 수동 평가 결과를 도입하면 LLM의 성능이 Fine보다 크게 향상됩니다. - 튜닝된 모델. 이는 실제로 현재의 자동 평가 지표가 텍스트 생성의 효과를 완전하고 정확하게 반영하지 않는다는 것을 보여줍니다.
기계 번역: 성숙한 상업용 소프트웨어를 사용한 기계 번역과 같은 작업의 경우 LLM의 성능은 일반적으로 상업용보다 약간 나쁩니다. 번역 도구이지만 일부 인기 없는 언어의 번역에서 LLM은 때때로 더 나은 결과를 보여줍니다. 예를 들어 루마니아어를 영어로 번역하는 작업에서 LLM은 샘플이 없고 샘플이 적은 경우 미세 조정 모델의 SOTA를 이겼습니다.
오픈 포뮬러 생성: 오픈 생성 측면에서 대형 모델이 가장 뛰어난 부분은 디스플레이입니다. LLM이 생성한 뉴스 기사는 사람이 작성한 실제 뉴스와 거의 구별할 수 없습니다. 수정.

지식 집약적 작업

지식 집약적 작업은 일반적으로 배경 지식, 도메인별 전문 지식 또는 일반적인 세계 지식에 크게 의존하는 작업을 의미하며 단순한 패턴 인식 및 구문 분석과 다릅니다. 세상에는 "상식"이 있으며 이를 올바르게 사용할 수 있습니다. 구체적으로는 다음과 같습니다.

비공개 질문 답변: 비공개 책 질문 답변 작업에서 모델은 외부 정보 없이 사실에 기반한 질문에 답변해야 합니다. 정보에 따르면 NaturalQuestions, WebQuestions 및 TriviaQA와 같은 LLM은 모두 더 나은 성능을 보여줍니다. 특히 TriviaQA에서는 제로 샘플 LLM이 미세 조정 모델보다 더 나은 성별 성능을 보여줍니다.
대규모 다중 작업 언어 이해; -scale 다중 작업 언어 이해(MMLU)에는 다양한 주제에 대한 57개의 객관식 질문이 포함되어 있으며 모델에 일반 지식이 필요합니다. 이 작업에서 가장 인상적인 것은 MMLU % 정답률에서 86.5점을 얻은 GPT-4입니다. .

지식 집약적인 작업에서 대형 모델이 항상 효과적인 것은 아니라는 점은 주목할 가치가 있습니다. 때로는 대형 모델이 실제 지식에 쓸모가 없거나 심지어 잘못된 것일 수도 있습니다. 무작위 추측보다 성능이 나빴습니다. 예를 들어 수학 재정의 작업에서는 모델이 원래 의미와 재정의된 의미 중에서 선택해야 합니다. 이를 위해서는 대규모 언어 모델에서 학습한 지식과 정확히 반대되는 능력이 필요하므로 LLM의 성능은 훨씬 더 나쁩니다. 무작위로.

추론 작업

LLM의 확장성은 사전 훈련된 언어 모델의 능력을 크게 향상시킬 수 있습니다. 모델 크기가 기하급수적으로 증가하면 매개변수 확장, LLM의 산술 추론 기능을 통해 일부 주요 추론 기능이 점차 활성화됩니다. 상식적인 이성은 육안으로 볼 수 있는 매우 강력합니다.

산술 추론: GPT-4의 산술 및 추론 판단 능력은 이전 모델의 GSM8k를 능가한다고 해도 과언이 아닙니다. AQuA의 SVAMP 및 대형 모델에는 CoT(사고 사슬) 프롬프트 방법을 통해 LLM의 컴퓨팅 성능이 크게 향상될 수 있다는 점을 지적할 가치가 있습니다.
상식 추론: 상식 추론에는 대형 모델이 필요합니다. 사실 정보를 기억하고 수행합니다. 다단계 추론의 경우 LLM은 대부분의 데이터 세트, 특히 GPT-4의 성능이 거의 근접한 ARC-C(3~9학년 과학 시험의 어려운 질문)에서 미세 조정 모델보다 우월함을 유지합니다. 100% (96.3%) .

추론 외에도 모델의 크기가 커짐에 따라 우연 연산, 논리적 도출, 개념 이해 등과 같은 일부 창발 능력도 모델에 나타납니다. 그러나 LLM의 규모가 커질수록 모델 성능이 처음에는 증가했다가 감소하기 시작하는 현상을 말하는 "U자형 현상"이라는 흥미로운 현상도 있습니다. 대표적인 것이 수학을 재정의하는 문제입니다. 이러한 현상은 대형 모델의 원리에 대한 보다 심층적이고 상세한 연구가 필요합니다.

요약 - 대형 모델의 도전과 미래

대형 모델은 앞으로도 오랫동안 우리의 일과 삶의 일부가 될 수밖에 없을 것이며, 이러한 '빅 가이'에게는 퍼포먼스뿐만 아니라 우리 삶과도 밀접한 상호작용을 하게 될 것입니다. , 효율성 및 비용 다른 문제 외에도 대규모 언어 모델의 보안 문제는 대형 모델이 직면한 모든 문제 중에서 거의 최우선 순위입니다. 현재 탁월한 솔루션이 없는 대형 모델의 경우 기계 환각이 주요 문제입니다. 대형 모델의 출력에는 편차나 유해한 환각이 있어 사용자에게 심각한 결과를 초래할 수 있습니다. 동시에 LLM의 "신뢰도"가 높아짐에 따라 사용자는 LLM에 지나치게 의존하게 되고 LLM이 정확한 정보를 제공할 수 있다고 믿을 수 있습니다. 이러한 예측 가능한 추세는 대규모 모델의 보안 위험을 증가시킵니다.

LLM이 생성하는 텍스트의 품질이 높고 비용이 저렴하기 때문에 오해의 소지가 있는 정보 외에도 증오, 차별, 폭력, 허위 정보 제공 등의 공격 도구로 LLM이 악용될 수도 있습니다. 보도에 따르면 삼성 직원들은 업무를 처리하기 위해 ChatGPT를 사용하던 중 실수로 최신 프로그램의 소스 코드 속성, 하드웨어 관련 내부 회의 기록 등 극비 데이터를 유출했습니다.

빅모델 리뷰는 여기까지입니다! 한 기사는 글로벌 AI 거대 기업의 대형 모델의 진화 역사를 명확히 하는 데 도움이 될 것입니다.

또한 대형 모델이 의료, 금융, 법률 등 민감한 분야에 적용될 수 있는지 여부의 핵심은 현재 대형 모델에 대한 '신뢰성' 문제입니다. 샘플이 0개이면 끈적임이 감소하는 경향이 있습니다. 동시에 LLM은 사회적으로 편향되거나 차별적인 것으로 나타났으며, 많은 연구에서 악센트, 종교, 성별, 인종과 같은 인구통계학적 범주 간의 상당한 성과 차이가 관찰되었습니다. 이로 인해 대형 모델의 경우 "공정성" 문제가 발생할 수 있습니다.

마지막으로 사회 문제에서 벗어나 요약하자면, 대형 모델 연구의 미래도 살펴볼 수 있습니다. 현재 대형 모델이 직면하고 있는 주요 과제는 다음과 같이 분류할 수 있습니다.

실용적 검증: 현재 대형 모델에 대한 평가 데이터 세트는 '장난감'에 가까운 학술 데이터 세트인 경우가 많지만, 이러한 학술 데이터 세트는 현실 세계의 다양한 문제와 과제를 완벽하게 반영하지 못하므로 실제적인 평가가 시급합니다. 모델이 실제 문제에 대처할 수 있도록 다양하고 복잡한 실제 문제에 대한 모델을 평가하는 데이터 세트
모델 정렬: 대규모 모델의 힘은 또한 모델이 인간의 가치 선택과 일치해야 함을 의미합니다. 모델이 예상대로 작동하고 바람직하지 않은 결과를 "강화"하지 않도록 해야 합니다. 고급 복합 시스템으로서 이 윤리적 문제를 심각하게 다루지 않으면 인류에게 재앙이 될 수 있습니다.
안전 위험: 대형 모델에 대한 연구는 더욱 강화되어야 합니다. 안전 문제를 강조하고 안전 위험을 제거하려면 보안 연구 및 개발에는 모델 해석, 감독 및 관리에 대한 더 많은 작업이 필요합니다. 보안 문제는 불필요한 장식이 아닌 모델 개발의 중요한 부분이어야 합니다.

위 내용은 빅모델 리뷰는 여기까지입니다! 한 기사는 글로벌 AI 거대 기업의 대형 모델의 진화 역사를 명확히 하는 데 도움이 될 것입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：Tesla의 자율주행 기술 솔루션에 대한 심층 분석다음 기사：Tesla의 자율주행 기술 솔루션에 대한 심층 분석