인공 지능(AI)은 우리가 살고 일하고 기술과 상호 작용하는 방식을 변화시키는 데 큰 진전을 이루고 있습니다. 최근 눈에 띄게 진전된 분야는 GPT-3, ChatGPT, GPT-4 등의 LLM(Large Language Model) 개발이다. 이러한 모델은 언어 번역, 텍스트 요약, 질문 답변 등의 작업을 정확하게 수행할 수 있습니다.
계속 증가하는 LLM의 모델 크기를 무시하기는 어렵지만 LLM의 성공이 주로 훈련에 사용되는 대량의 고품질 데이터에 기인한다는 점을 인식하는 것도 중요합니다.
이 기사에서는 데이터 중심 AI 관점에서 LLM의 최근 발전에 대한 개요를 제공합니다. 데이터 과학 커뮤니티에서 점점 커지고 있는 개념인 데이터 중심 AI 렌즈를 통해 GPT 모델을 살펴보겠습니다. 훈련 데이터 개발, 추론 데이터 개발, 데이터 유지 관리라는 세 가지 데이터 중심 AI 목표를 논의하여 GPT 모델 뒤에 있는 데이터 중심 AI 개념을 공개합니다.
LLM은 문맥에 따라 단어를 추론하도록 훈련된 자연어 처리 모델입니다. 예를 들어, LLM의 가장 기본적인 기능은 주어진 상황에서 누락된 마커를 예측하는 것입니다. 이를 위해 LLM은 방대한 양의 데이터에서 각 후보 단어의 확률을 예측하도록 훈련되었습니다. 아래 그림은 누락된 마커의 확률을 예측하기 위해 LLM을 맥락에서 사용하는 예시입니다.
GPT 모델은 GPT-1, GPT-2, GPT-3, InstructGPT, ChatGPT/GPT-4 등과 같이 OpenAI에서 만든 일련의 LLM을 나타냅니다. 다른 LLM과 마찬가지로 GPT 모델의 아키텍처는 주로 텍스트 및 위치 임베딩을 입력으로 사용하고 주의 레이어를 사용하여 토큰 관계를 모델링하는 Transformers를 기반으로 합니다.
GPT-1 모델 아키텍처
최신 GPT 모델은 더 많은 모델 매개변수와 더 많은 레이어, 더 큰 컨텍스트 길이, 숨겨진 레이어 크기 등을 사용하는 것을 제외하고 GPT-1과 유사한 아키텍처를 사용합니다.
데이터 중심 AI는 AI 시스템 구축 방법에 대한 새로운 사고 방식입니다. 데이터 중심 AI는 인공지능 시스템을 구축하는 데 사용되는 데이터를 체계적으로 설계하는 학문이다.
과거에는 데이터가 기본적으로 변경되지 않은 상태에서 더 나은 모델(모델 중심 AI)을 만드는 데 주로 집중했습니다. 그러나 이 접근 방식은 라벨 부정확성, 중복, 편향 등 데이터에서 발생할 수 있는 다양한 문제를 고려하지 않기 때문에 현실 세계에서 문제를 일으킬 수 있습니다. 따라서 데이터 세트를 "과적합"한다고 해서 반드시 모델 동작이 더 좋아지는 것은 아닙니다.
반면, 데이터 중심 AI는 AI 시스템 구축에 사용되는 데이터의 질과 양을 개선하는 데 중점을 둡니다. 이는 데이터 자체에 관심이 집중되고 모델이 상대적으로 더 고정되어 있음을 의미합니다. AI 시스템 개발에 데이터 중심 접근 방식을 사용하면 훈련에 사용되는 데이터가 궁극적으로 모델의 최대 기능을 결정하므로 실제 시나리오에서 더 큰 잠재력을 갖습니다.
"데이터 중심"과 "데이터 중심" 사이에는 근본적인 차이가 있다는 점에 유의해야 합니다. 후자는 데이터를 사용하여 인공 지능 개발을 안내하는 것만 강조하며 일반적으로 여전히 데이터보다는 모델 개발에 중점을 둡니다.
데이터 중심 AI와 모델 중심 AI의 비교
데이터 중심 AI 프레임워크에는 세 가지 목표가 포함됩니다.
데이터 중심 AI 프레임워크
몇 달 전 Yann LeCun은 ChatGPT가 새로운 것이 아니라고 트윗했습니다. 실제로 ChatGPT 및 GPT-4에서 사용되는 모든 기술(변환기, 인간 피드백을 통한 강화 학습 등)은 전혀 새로운 것이 아닙니다. 그러나 이전 모델에서는 불가능했던 결과를 얻었습니다. 그렇다면 그들의 성공 이유는 무엇일까?
훈련 데이터 개발. 더 나은 데이터 수집, 데이터 라벨링 및 데이터 준비 전략을 통해 GPT 모델을 훈련하는 데 사용되는 데이터의 양과 품질이 크게 향상되었습니다.
추론 데이터 개발. 최근 GPT 모델은 충분히 강력해졌기 때문에 모델이 수정되는 동안 힌트를 조정하거나 추론 데이터를 조정하여 다양한 목표를 달성할 수 있습니다. 예를 들어, 요약할 텍스트를 제공하고 추론 프로세스를 안내하는 "요약" 또는 "TL;DR"과 같은 지침을 제공하여 텍스트 요약을 수행할 수 있습니다.
올바른 추론 프롬프트를 디자인하는 것은 어려운 작업입니다. 이는 휴리스틱에 크게 의존합니다. 좋은 설문조사는 다양한 판촉 방법을 요약합니다. 때로는 의미상 유사한 단서라도 매우 다른 출력을 가질 수 있습니다. 이 경우 변동을 줄이기 위해 소프트 큐 기반 교정이 필요할 수 있습니다.
LLM 추론 데이터 개발에 대한 연구는 아직 초기 단계입니다. 가까운 미래에는 다른 작업에 사용되었던 보다 추론적인 데이터 개발 기술이 LLM에 적용될 수 있습니다.
데이터 유지관리. ChatGPT/GPT-4는 상용 제품으로서 한 번만 학습되는 것이 아니라 지속적으로 업데이트되고 유지됩니다. 분명히 우리는 OpenAI 외부에서 데이터 유지 관리가 어떻게 수행되는지 알 수 없습니다. 따라서 우리는 GPT 모델과 함께 사용되었거나 사용될 가능성이 가장 높은 몇 가지 일반적인 데이터 중심 AI 전략에 대해 논의합니다.
- 지속적인 데이터 수집: ChatGPT/GPT-4/ 사용 시 팁 피드백은 차례로 사용될 수 있습니다. OpenAI는 모델을 더욱 발전시키기 위해 노력하고 있습니다. 프로세스 중에 고품질 데이터를 수집하기 위해 품질 지표 및 보증 전략이 설계 및 구현되었을 수 있습니다.
- 데이터 이해 도구: 사용자 데이터를 시각화 및 이해하고, 사용자 요구 사항을 더 잘 이해하고, 향후 개선 방향을 안내하기 위해 다양한 도구를 개발할 수 있습니다.
- 효율적인 데이터 처리: ChatGPT/GPT-4 사용자 수가 급증함에 따라 신속한 데이터 수집을 위해서는 효율적인 데이터 관리 시스템이 필요합니다.
위 사진은 ChatGPT/GPT-4가 "좋아요"와 "싫어요"를 통해 사용자 피드백을 수집하는 예입니다.
LLM의 성공은 인공 지능에 혁명을 일으켰습니다. 앞으로 LLM은 데이터 과학 수명주기에 더욱 혁명을 일으킬 수 있습니다. 우리는 두 가지 예측을 내립니다.
많은 지루한 데이터 과학 작업을 LLM의 도움으로 보다 효율적으로 수행할 수 있습니다. 예를 들어 ChaGPT/GPT-4를 사용하면 이미 데이터를 처리하고 정리하는 작업 코드를 작성할 수 있습니다. 또한 LLM을 사용하여 교육 데이터를 생성할 수도 있습니다. 예를 들어 LLM을 사용하여 합성 데이터를 생성하면 텍스트 마이닝에서 모델 성능을 향상시킬 수 있습니다.
위 내용은 GPT 모델 뒤에 있는 데이터 중심 AI에 대해 이야기하세요.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!