>  기사  >  기술 주변기기  >  GPT 모델 뒤에 있는 데이터 중심 AI에 대해 이야기하세요.

GPT 모델 뒤에 있는 데이터 중심 AI에 대해 이야기하세요.

王林
王林앞으로
2023-04-11 23:55:011341검색

인공 지능(AI)은 우리가 살고 일하고 기술과 상호 작용하는 방식을 변화시키는 데 큰 진전을 이루고 있습니다. 최근 눈에 띄게 진전된 분야는 GPT-3, ChatGPT, GPT-4 등의 LLM(Large Language Model) 개발이다. 이러한 모델은 언어 번역, 텍스트 요약, 질문 답변 등의 작업을 정확하게 수행할 수 있습니다.

GPT 모델 뒤에 있는 데이터 중심 AI에 대해 이야기하세요.

계속 증가하는 LLM의 모델 크기를 무시하기는 어렵지만 LLM의 성공이 주로 훈련에 사용되는 대량의 고품질 데이터에 기인한다는 점을 인식하는 것도 중요합니다.

이 기사에서는 데이터 중심 AI 관점에서 LLM의 최근 발전에 대한 개요를 제공합니다. 데이터 과학 커뮤니티에서 점점 커지고 있는 개념인 데이터 중심 AI 렌즈를 통해 GPT 모델을 살펴보겠습니다. 훈련 데이터 개발, 추론 데이터 개발, 데이터 유지 관리라는 세 가지 데이터 중심 AI 목표를 논의하여 GPT 모델 뒤에 있는 데이터 중심 AI 개념을 공개합니다.

대형 언어 모델(LLM) 및 GPT 모델

LLM은 문맥에 따라 단어를 추론하도록 훈련된 자연어 처리 모델입니다. 예를 들어, LLM의 가장 기본적인 기능은 주어진 상황에서 누락된 마커를 예측하는 것입니다. 이를 위해 LLM은 방대한 양의 데이터에서 각 후보 단어의 확률을 예측하도록 훈련되었습니다. 아래 그림은 누락된 마커의 확률을 예측하기 위해 LLM을 맥락에서 사용하는 예시입니다.

GPT 모델 뒤에 있는 데이터 중심 AI에 대해 이야기하세요.

GPT 모델은 GPT-1, GPT-2, GPT-3, InstructGPT, ChatGPT/GPT-4 등과 같이 OpenAI에서 만든 일련의 LLM을 나타냅니다. 다른 LLM과 마찬가지로 GPT 모델의 아키텍처는 주로 텍스트 및 위치 임베딩을 입력으로 사용하고 주의 레이어를 사용하여 토큰 관계를 모델링하는 Transformers를 기반으로 합니다.

GPT 모델 뒤에 있는 데이터 중심 AI에 대해 이야기하세요.

GPT-1 모델 아키텍처

최신 GPT 모델은 더 많은 모델 매개변수와 더 많은 레이어, 더 큰 컨텍스트 길이, 숨겨진 레이어 크기 등을 사용하는 것을 제외하고 GPT-1과 유사한 아키텍처를 사용합니다.

GPT 모델 뒤에 있는 데이터 중심 AI에 대해 이야기하세요.

데이터 중심 인공 지능이란 무엇입니까

데이터 중심 AI는 AI 시스템 구축 방법에 대한 새로운 사고 방식입니다. 데이터 중심 AI는 인공지능 시스템을 구축하는 데 사용되는 데이터를 체계적으로 설계하는 학문이다.

과거에는 데이터가 기본적으로 변경되지 않은 상태에서 더 나은 모델(모델 중심 AI)을 만드는 데 주로 집중했습니다. 그러나 이 접근 방식은 라벨 부정확성, 중복, 편향 등 데이터에서 발생할 수 있는 다양한 문제를 고려하지 않기 때문에 현실 세계에서 문제를 일으킬 수 있습니다. 따라서 데이터 세트를 "과적합"한다고 해서 반드시 모델 동작이 더 좋아지는 것은 아닙니다.

반면, 데이터 중심 AI는 AI 시스템 구축에 사용되는 데이터의 질과 양을 개선하는 데 중점을 둡니다. 이는 데이터 자체에 관심이 집중되고 모델이 상대적으로 더 고정되어 있음을 의미합니다. AI 시스템 개발에 데이터 중심 접근 방식을 사용하면 훈련에 사용되는 데이터가 궁극적으로 모델의 최대 기능을 결정하므로 실제 시나리오에서 더 큰 잠재력을 갖습니다.

"데이터 중심"과 "데이터 중심" 사이에는 근본적인 차이가 있다는 점에 유의해야 합니다. 후자는 데이터를 사용하여 인공 지능 개발을 안내하는 것만 강조하며 일반적으로 여전히 데이터보다는 모델 개발에 중점을 둡니다.

GPT 모델 뒤에 있는 데이터 중심 AI에 대해 이야기하세요.

데이터 중심 AI와 모델 중심 AI의 비교

데이터 중심 AI 프레임워크에는 세 가지 목표가 포함됩니다.

  • 훈련 데이터 개발은 기계 학습 모델의 훈련을 지원하기 위해 풍부한 고품질 데이터를 수집하고 생산하는 것입니다.
  • 추론 데이터 개발은 모델에 대한 보다 세밀한 통찰력을 제공하거나 데이터 입력을 통해 모델의 특정 기능을 트리거할 수 있는 새로운 평가 세트를 만드는 것입니다.
  • 데이터 유지관리는 역동적인 환경에서 데이터의 품질과 신뢰성을 보장하는 것입니다. 실제 데이터는 한 번 생성되는 것이 아니라 지속적인 유지 관리가 필요하기 때문에 데이터 유지 관리가 중요합니다.

GPT 모델 뒤에 있는 데이터 중심 AI에 대해 이야기하세요.

데이터 중심 AI 프레임워크

데이터 중심 AI가 GPT 모델을 성공으로 이끄는 이유

몇 달 전 Yann LeCun은 ChatGPT가 새로운 것이 아니라고 트윗했습니다. 실제로 ChatGPT 및 GPT-4에서 사용되는 모든 기술(변환기, 인간 피드백을 통한 강화 학습 등)은 전혀 새로운 것이 아닙니다. 그러나 이전 모델에서는 불가능했던 결과를 얻었습니다. 그렇다면 그들의 성공 이유는 무엇일까?

훈련 데이터 개발. 더 나은 데이터 수집, 데이터 라벨링 및 데이터 준비 전략을 통해 GPT 모델을 훈련하는 데 사용되는 데이터의 양과 품질이 크게 향상되었습니다.

  • GPT-1: BooksCorpus 데이터세트가 훈련에 사용됩니다. 데이터 세트에는 모험, 판타지, 로맨스 등 다양한 장르의 책을 다루는 4629.00MB의 원시 텍스트가 포함되어 있습니다.
    -데이터 중심 AI 전략: 없음.
    - 결과: 이 데이터세트에서 GPT-1을 사용하면 미세 조정을 통해 다운스트림 작업의 성능이 향상됩니다.
  • GPT-2: 교육에 WebText 사용. 이는 Reddit의 아웃바운드 링크를 스크랩하여 생성된 OpenAI 내의 내부 데이터세트입니다.
    - 데이터 중심 AI 전략: (1) 최소 3 카르마를 획득한 Reddit의 아웃바운드 링크만 사용하여 데이터를 관리/필터링합니다. (2) Dragnet 및 Newspaper 도구를 사용하여 깨끗한 콘텐츠를 추출합니다. (3) 중복 제거 및 기타 휴리스틱 기반 정리를 사용합니다.
    -결과: 필터링 후 40GB의 텍스트가 생성됩니다. GPT-2는 미세 조정 없이도 강력한 제로샷 결과를 달성합니다.
  • GPT-3: GPT-3의 교육은 주로 Common Crawl을 기반으로 합니다.
    -데이터 중심 AI 전략: (1) 각 문서의 WebText(고품질 문서)와의 유사성을 기반으로 품질이 낮은 문서를 필터링하도록 분류자를 훈련시킵니다. (2) Spark의 MinHashLSH를 사용하여 문서를 퍼지하고 중복 제거합니다. (3) WebText, book corpus 및 Wikipedia를 사용한 데이터 증대.
    - 결과: 45TB의 일반 텍스트를 필터링하여 570GB의 텍스트를 얻었습니다(이 품질 필터링을 위해 데이터의 1.27%만 선택되었습니다). GPT-3은 제로 샘플 설정에서 GPT-2보다 훨씬 뛰어난 성능을 보입니다.
  • InstructGPT: 사람의 평가가 사람의 기대에 더 잘 부합하도록 GPT-3 답변을 조정하도록 하세요. 그들은 주석자를 위한 테스트를 설계했고, 테스트를 통과한 사람만이 주석을 달 수 있는 자격을 얻었습니다. 그들은 주석 작성자가 주석 프로세스에 완전히 참여했는지 확인하기 위한 설문 조사도 설계했습니다.
    -데이터 중심 AI 전략: (1) 인간이 제공한 프롬프트에 대한 답변을 사용하여 지도 학습을 통해 모델을 조정합니다. (2) 비교 데이터를 수집하여 보상 모델을 훈련한 후 이 보상 모델을 사용하여 인간 피드백 강화 학습(RLHF)을 통해 GPT-3를 조정합니다.
    - 결과: InstructGPT는 더 나은 사실성과 더 적은 편견, 즉 더 나은 정렬을 보여줍니다.
  • ChatGPT/GPT-4: OpenAI는 세부 정보를 공개하지 않았습니다. 그러나 우리 모두 알고 있듯이 ChatGPT/GPT-4는 이전 GPT 모델의 설계를 크게 따르고 있으며 여전히 RLHF를 사용하여 모델을 조정합니다(아마도 더 많은 고품질 데이터/라벨 사용). 일반적으로 GPT-4는 모델 가중치가 증가함에 따라 더 큰 데이터 세트를 사용하는 것으로 인정됩니다.

추론 데이터 개발. 최근 GPT 모델은 충분히 강력해졌기 때문에 모델이 수정되는 동안 힌트를 조정하거나 추론 데이터를 조정하여 다양한 목표를 달성할 수 있습니다. 예를 들어, 요약할 텍스트를 제공하고 추론 프로세스를 안내하는 "요약" 또는 "TL;DR"과 같은 지침을 제공하여 텍스트 요약을 수행할 수 있습니다.

GPT 모델 뒤에 있는 데이터 중심 AI에 대해 이야기하세요.

시간 맞춰 조정

올바른 추론 프롬프트를 디자인하는 것은 어려운 작업입니다. 이는 휴리스틱에 크게 의존합니다. 좋은 설문조사는 다양한 판촉 방법을 요약합니다. 때로는 의미상 유사한 단서라도 매우 다른 출력을 가질 수 있습니다. 이 경우 변동을 줄이기 위해 소프트 큐 기반 교정이 필요할 수 있습니다.

GPT 모델 뒤에 있는 데이터 중심 AI에 대해 이야기하세요.

LLM 추론 데이터 개발에 대한 연구는 아직 초기 단계입니다. 가까운 미래에는 다른 작업에 사용되었던 보다 추론적인 데이터 개발 기술이 LLM에 적용될 수 있습니다.

데이터 유지관리. ChatGPT/GPT-4는 상용 제품으로서 한 번만 학습되는 것이 아니라 지속적으로 업데이트되고 유지됩니다. 분명히 우리는 OpenAI 외부에서 데이터 유지 관리가 어떻게 수행되는지 알 수 없습니다. 따라서 우리는 GPT 모델과 함께 사용되었거나 사용될 가능성이 가장 높은 몇 가지 일반적인 데이터 중심 AI 전략에 대해 논의합니다.
- 지속적인 데이터 수집: ChatGPT/GPT-4/ 사용 시 팁 피드백은 차례로 사용될 수 있습니다. OpenAI는 모델을 더욱 발전시키기 위해 노력하고 있습니다. 프로세스 중에 고품질 데이터를 수집하기 위해 품질 지표 및 보증 전략이 설계 및 구현되었을 수 있습니다.
- 데이터 이해 도구: 사용자 데이터를 시각화 및 이해하고, 사용자 요구 사항을 더 잘 이해하고, 향후 개선 방향을 안내하기 위해 다양한 도구를 개발할 수 있습니다.
- 효율적인 데이터 처리: ChatGPT/GPT-4 사용자 수가 급증함에 따라 신속한 데이터 수집을 위해서는 효율적인 데이터 관리 시스템이 필요합니다.

GPT 모델 뒤에 있는 데이터 중심 AI에 대해 이야기하세요.

위 사진은 ChatGPT/GPT-4가 "좋아요"와 "싫어요"를 통해 사용자 피드백을 수집하는 예입니다.

데이터 과학 커뮤니티가 LLM의 물결에서 배울 수 있는 것

LLM의 성공은 인공 지능에 혁명을 일으켰습니다. 앞으로 LLM은 데이터 과학 수명주기에 더욱 혁명을 일으킬 수 있습니다. 우리는 두 가지 예측을 내립니다.

  • 데이터 중심 인공지능이 더욱 중요해집니다. 수년간의 연구 끝에 모델 디자인은 특히 Transformer 이후 매우 성숙해졌습니다. 데이터는 미래에 AI 시스템을 개선하는 핵심 방법이 됩니다. 또한 모델이 충분히 강력해지면 일상 작업에서 모델을 훈련할 필요가 없습니다. 대신, 모델의 지식을 탐색하기 위해 적절한 추론 데이터만 디자인하면 됩니다. 따라서 데이터 중심 AI의 연구개발이 미래 발전을 견인할 것입니다.
  • LLM은 더 나은 데이터 중심 인공 지능 솔루션을 가능하게 합니다.

많은 지루한 데이터 과학 작업을 LLM의 도움으로 보다 효율적으로 수행할 수 있습니다. 예를 들어 ChaGPT/GPT-4를 사용하면 이미 데이터를 처리하고 정리하는 작업 코드를 작성할 수 있습니다. 또한 LLM을 사용하여 교육 데이터를 생성할 수도 있습니다. 예를 들어 LLM을 사용하여 합성 데이터를 생성하면 텍스트 마이닝에서 모델 성능을 향상시킬 수 있습니다.

GPT 모델 뒤에 있는 데이터 중심 AI에 대해 이야기하세요.

위 내용은 GPT 모델 뒤에 있는 데이터 중심 AI에 대해 이야기하세요.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제