2022년은 생성 AI의 원년이라고 할 수 있습니다. 최근 Yu Shilun 팀은 AIGC에 대한 포괄적인 설문 조사를 발표하여 GAN에서 ChatGPT까지의 개발 역사를 소개했습니다.
이제 막 지나간 2022년은 의심의 여지없이 생성 AI가 폭발적으로 폭발하는 특이점입니다.
제너레이티브 AI는 2021년부터 가트너의 '인공지능 기술 하이프 사이클'에 2년 연속 선정되어 향후 중요한 AI 기술 트렌드로 꼽히고 있습니다.
최근 Yu Shilun 팀은 AIGC에 대한 포괄적인 설문 조사를 발표하여 GAN에서 ChatGPT까지의 개발 역사를 소개했습니다.
논문 주소: https://arxiv.org/pdf/2303.04226.pdf
이 글은 소개를 위해 논문의 일부를 발췌했습니다.
최근 몇 년 동안 인공지능 기반 콘텐츠(AIGC, 생성 AI라고도 함)가 컴퓨터 과학계 외부에서도 폭넓은 관심을 끌었습니다.
ChatGPT, DALL-E-2 등 대기업이 개발한 다양한 콘텐츠 생성 제품에 사회 전체가 큰 관심을 갖기 시작했습니다.
AIGC는 생성 인공지능(GAI) 기술을 이용해 콘텐츠를 생성하는 것을 말하며, 짧은 시간에 대량의 콘텐츠를 자동으로 생성할 수 있습니다.
ChatGPT는 대화 구축을 위해 OpenAI에서 개발한 AI 시스템입니다. 시스템은 인간의 언어를 의미 있는 방식으로 효과적으로 이해하고 응답할 수 있습니다.
또한 DALL-E-2는 OpenAI가 개발한 또 다른 최첨단 GAI 모델로, 몇 분 안에 텍스트 설명을 바탕으로 고유한 고품질 이미지를 생성할 수 있습니다.
이미지 생성에서 AIGC의 예
기술적으로 AIGC는 모델이 작업을 완료하도록 안내할 수 있는 주어진 지침을 말하며 GAI를 사용하여 지침을 충족하는 콘텐츠를 생성합니다. 이 생성 프로세스는 일반적으로 명령어에서 의도 정보를 추출하고 추출된 의도를 기반으로 콘텐츠를 생성하는 두 단계로 구성됩니다.
그러나 이전 연구에서 입증되었듯이 위의 두 단계를 포함하는 GAI 모델의 패러다임은 완전히 새로운 것은 아닙니다.
이전 작업과 비교하여 최근 AIGC 진행의 핵심은 더 큰 데이터 세트에서 더 복잡한 생성 모델을 훈련하고, 더 큰 기본 모델 프레임워크를 사용하며, 광범위한 컴퓨팅 리소스에 액세스할 수 있다는 것입니다.
예를 들어 GPT-3의 메인 프레임워크는 GPT-2와 동일하지만 사전 학습 데이터 크기가 WebText(38GB)에서 CommonCrawl(필터링 후 570GB)로 증가하고 기본 모델 크기가 1.5B에서 증가합니다. 175B로.
따라서 GPT-3는 다양한 작업에 대해 GPT-2보다 일반화 능력이 더 좋습니다.
데이터 볼륨 및 컴퓨팅 성능 증가로 인한 이점 외에도 연구원들은 새로운 기술을 GAI 알고리즘과 결합하는 방법도 모색하고 있습니다.
예를 들어 ChatGPT는 RLHF(Reinforcement Learning with Human Feedback)를 활용하여 주어진 지침에 대한 가장 적절한 응답을 결정함으로써 시간이 지남에 따라 모델의 신뢰성과 정확성을 향상시킵니다. 이 접근 방식을 통해 ChatGPT는 긴 대화에서 인간의 선호도를 더 잘 이해할 수 있습니다.
동시에 CV에서는 2022년 Stability AI가 제안한 Stable Diffusion이 이미지 생성에서도 큰 성공을 거두었습니다.
이전 방법과 달리 생성 확산 모델은 탐색과 활용 간의 균형을 제어하여 고해상도 이미지를 생성하는 데 도움이 되며, 이를 통해 생성된 이미지의 다양성과 훈련 데이터와의 유사성의 조화로운 조합을 달성할 수 있습니다.
이러한 발전을 결합함으로써 이 모델은 AIGC의 사명에 상당한 진전을 이루었으며 예술, 광고, 교육 등 다양한 산업에서 채택되었습니다.
가까운 미래에도 AIGC는 계속해서 머신러닝 연구의 중요한 영역이 될 것입니다.
일반적으로 GAI 모델은 단일 모드 모델과 다중 모드 모델의 두 가지 유형으로 나눌 수 있습니다.
따라서 과거 연구를 종합적으로 검토하고 이 분야의 기존 문제를 식별하는 것이 중요합니다. 이번 조사는 AIGC 분야의 핵심 기술과 응용 분야에 초점을 맞춘 첫 번째 조사다.
AIGC가 기술 및 응용 측면에서 GAI에 대한 포괄적인 조사를 요약한 것은 이번이 처음입니다.
이전 설문조사에서는 자연어 생성, 이미지 생성, 멀티모달 머신러닝 생성 등 다양한 관점에서 GAI를 주로 소개했습니다. 그러나 이러한 이전 작업은 AIGC의 특정 부분에만 중점을 두었습니다.
이번 설문조사에서는 먼저 AIGC에서 일반적으로 사용되는 기본 기술을 검토했습니다. 그런 다음 단일 모드 및 다중 모드 생성을 포함하여 고급 GAI 알고리즘에 대한 포괄적인 요약이 추가로 제공됩니다. 또한 이 문서에서는 AIGC의 응용 프로그램과 잠재적인 과제를 검토합니다.
마지막으로 이 분야의 향후 방향이 강조됩니다. 요약하자면, 이 논문의 주요 기여는 다음과 같습니다:
- 우리가 아는 한, 우리는 AIGC 및 AI 증강 생성 프로세스에 대한 공식적인 정의와 포괄적인 조사를 최초로 제공했습니다.
- AIGC의 역사와 기초기술을 검토하고, 유니모달 세대와 멀티모달 세대의 관점에서 GAI 과제와 모델의 최신 진행 상황을 종합적으로 분석했습니다.
-이 기사에서는 AIGC가 직면한 주요 과제와 향후 연구 동향에 대해 논의합니다.
생성 모델은 1950년대 HMM(Hidden Markov Model) 및 GMM(Gaussian Mixture Model) 개발까지 거슬러 올라가 인공 지능 분야에서 오랜 역사를 가지고 있습니다.
이러한 모델은 음성 및 시계열과 같은 연속 데이터를 생성합니다. 그러나 생성 모델의 성능이 크게 향상된 것은 딥러닝이 등장한 이후였습니다.
초기 심층 생성 모델에서는 일반적으로 서로 다른 도메인이 많이 겹치지 않았습니다.
CV, NLP, VL의 생성 AI 개발 역사
NLP에서 문장을 생성하는 전통적인 방법은 N-gram 언어 모델을 사용하여 단어의 분포를 학습한 후 가장 좋은 문장을 검색하는 것입니다. 순서. 그러나 이 방법은 긴 문장에 효과적으로 적용할 수 없습니다.
이 문제를 해결하기 위해 나중에 RNN(Recurrent Neural Networks)이 언어 모델링 작업에 도입되어 상대적으로 긴 종속성을 모델링할 수 있게 되었습니다.
두 번째는 훈련 중 기억을 제어하기 위해 게이팅 메커니즘을 활용하는 LSTM(Long Short-Term Memory) 및 GRU(Gated Recurrent Unit)의 개발입니다. 이러한 방법은 샘플에서 약 200개의 토큰을 처리할 수 있으며 이는 N-gram 언어 모델에 비해 상당한 개선을 나타냅니다.
한편 CV에서는 딥러닝 기반 방법이 등장하기 전 전통적인 이미지 생성 알고리즘에서는 텍스처 합성(PTS), 텍스처 매핑과 같은 기술을 사용했습니다.
이러한 알고리즘은 손으로 디자인한 기능을 기반으로 하며 복잡하고 다양한 이미지를 생성하는 데에는 한계가 있습니다.
2014년 GAN(Generative Adversarial Networks)이 처음 제안되었으며 다양한 응용 분야에서 인상적인 결과를 보여 인공 지능 분야의 이정표가 되었습니다.
VAE(변형 자동 인코더) 및 생성 확산 모델과 같은 기타 방법도 이미지 생성 프로세스를 보다 세밀하게 제어하고 고품질 이미지를 생성할 수 있도록 개발되었습니다.
다양한 분야의 생성 모델 개발은 다양한 경로를 따르지만 결국에는 트랜스포머 아키텍처라는 교차점이 있습니다.
2017년에 Transformer는 Vaswani et al.에 의해 NLP 작업에 도입되었고 나중에 CV에 적용된 후 다양한 분야의 많은 생성 모델에서 지배적인 아키텍처가 되었습니다.
NLP 분야에서는 BERT 및 GPT와 같은 많은 유명한 대규모 언어 모델이 Transformer 아키텍처를 주요 빌딩 블록으로 채택합니다. 이전 빌딩 블록, 즉 LSTM 및 GRU와 비교하면 장점이 있습니다.
CV에서는 ViT(Vision Transformer)와 Swin Transformer가 나중에 이 개념을 더욱 발전시켜 Transformer 아키텍처와 비전 구성 요소를 결합하여 이미지 기반 다운링크 시스템에 적용할 수 있게 되었습니다.
Transformer가 단일 양식으로 가져온 개선 사항 외에도 이 크로스오버를 통해 다양한 분야의 모델을 융합하여 다중 모드 작업을 수행할 수도 있습니다.
다중 모드 모델의 예로 CLIP이 있습니다. CLIP은 공동 시각 언어 모델입니다. 이는 Transformer 아키텍처와 시각적 구성 요소를 결합하여 대량의 텍스트 및 이미지 데이터에 대한 교육을 가능하게 합니다.
사전 훈련에서 시각적 지식과 언어적 지식을 결합하기 때문에 CLIP은 다중 모드 큐 생성에서 이미지 인코더로도 사용할 수 있습니다. 즉, Transformer 기반 모델의 등장은 인공지능 세대에 혁명을 가져왔고 대규모 훈련의 가능성을 가져왔습니다.
최근 몇 년 동안 연구자들은 이러한 모델을 기반으로 한 새로운 기술을 도입하기 시작했습니다.
예를 들어 NLP에서는 모델이 작업 요구 사항을 더 잘 이해할 수 있도록 돕기 위해 사람들은 때때로 몇 번의 힌트를 선호합니다. 이는 데이터 세트에서 선택한 일부 예를 프롬프트에 포함하는 것을 의미합니다.
시각 언어에서 연구자들은 패턴별 모델을 자기 지도 대조 학습 목표와 결합하여 더욱 강력한 표현을 제공합니다.
앞으로 AIGC가 점점 중요해짐에 따라 점점 더 많은 기술이 도입될 것이며, 이는 이 분야에 큰 활력을 불어넣을 것입니다.
이 섹션에서는 일반적으로 사용되는 AIGC 기본 모델을 소개합니다.
기본 모델
Transformer
Transformer는 GPT-3, DALL-E-2, Codex 및 Gopher와 같은 많은 최첨단 모델의 백본 아키텍처입니다.
가변 길이 시퀀스 처리 및 상황 인식에 있어 RNN과 같은 기존 모델의 한계를 해결하기 위해 처음 제안되었습니다.
Transformer의 아키텍처는 주로 self-attention 메커니즘을 기반으로 하며, 이를 통해 모델은 입력 시퀀스의 다양한 부분에 주의를 기울일 수 있습니다.
Transformer는 인코더와 디코더로 구성됩니다. 인코더는 입력 시퀀스를 수신하고 숨겨진 표현을 생성하는 반면, 디코더는 숨겨진 표현을 수신하여 출력 시퀀스를 생성합니다.
인코더와 디코더의 각 레이어는 다중 헤드 어텐션과 피드포워드 신경망으로 구성됩니다. 멀티 헤드 어텐션은 태그의 관련성에 따라 서로 다른 가중치를 할당하는 방법을 학습하는 Transformer의 핵심 구성 요소입니다.
이 정보 라우팅 접근 방식을 사용하면 모델이 장기적인 종속성을 더 잘 처리할 수 있으므로 광범위한 NLP 작업의 성능이 향상됩니다.
Transformer의 또 다른 장점은 아키텍처가 고도로 병렬화되고 데이터가 유도 바이어스를 극복할 수 있다는 것입니다. 이 기능을 통해 Transformer는 대규모 사전 훈련에 매우 적합하므로 Transformer 기반 모델이 다양한 다운스트림 작업에 적응할 수 있습니다.
사전 훈련된 언어 모델
Transformer 아키텍처가 도입된 이후 병렬성과 학습 기능으로 인해 자연어 처리의 주류 선택이 되었습니다.
일반적으로 이러한 Transformer 기반 사전 훈련된 언어 모델은 훈련 작업에 따라 일반적으로 자동 회귀 언어 모델과 마스크 언어 모델의 두 가지 범주로 나눌 수 있습니다.
여러 토큰으로 구성된 문장이 주어지면 BERT 및 RoBERTa와 같은 마스크된 언어 모델링의 목표는 상황별 정보를 바탕으로 마스크된 토큰의 확률을 예측하는 것입니다.
마스킹된 언어 모델의 가장 주목할만한 예는 마스크된 언어 모델링과 다음 문장 예측 작업을 포함하는 BERT입니다. RoBERTa는 BERT와 동일한 아키텍처를 사용하여 사전 훈련 데이터의 양을 늘리고 보다 까다로운 사전 훈련 목표를 통합하여 성능을 향상시킵니다.
XL-Net은 각 훈련 반복에 대한 예측 순서를 변경하는 순열 작업을 통합하여 모델이 더 많은 교차 레이블 정보를 학습할 수 있도록 하는 BERT를 기반으로 합니다.
그리고 GPT-3 및 OPT와 같은 자동 회귀 언어 모델은 이전 토큰이 주어진 확률을 모델링하므로 왼쪽에서 오른쪽으로의 언어 모델입니다. 마스크된 언어 모델과 달리 자동 회귀 언어 모델은 생성 작업에 더 적합합니다.
인간 피드백을 통한 강화 학습
AIGC는 대규모 데이터로 교육을 받았지만 항상 사용자 의도와 일치하는 콘텐츠를 출력하지 못할 수도 있습니다.
AIGC 출력이 인간 선호도와 더 잘 일치하도록 인간 피드백 강화 학습(RLHF)이 Sparrow, InstructGPT, ChatGPT와 같은 다양한 애플리케이션의 모델 미세 조정에 적용되었습니다.
일반적으로 RLHF의 전체 프로세스에는 사전 훈련, 보상 학습, 강화 학습 미세 조정의 세 단계가 포함됩니다.
컴퓨팅
하드웨어
최근 몇 년간 하드웨어 기술이 크게 발전하여 대형 모델의 훈련이 용이해졌습니다.
과거에는 CPU를 사용하여 대규모 신경망을 훈련하는 데 며칠 또는 몇 주가 걸릴 수 있었습니다. 그러나 컴퓨팅 성능이 향상됨에 따라 이 프로세스는 몇 배나 가속화되었습니다.
예를 들어 NVIDIA의 NVIDIA A100 GPU는 BERT 대규모 추론 프로세스에서 V100보다 7배 빠르고 T4보다 11배 빠릅니다.
또한 Google의 TPU(텐서 처리 장치)는 딥 러닝을 위해 특별히 설계되어 A100 GPU에 비해 더 높은 컴퓨팅 성능을 제공합니다.
컴퓨팅 성능의 가속화된 발전으로 인공 지능 모델 훈련의 효율성이 크게 향상되어 크고 복잡한 모델 개발에 새로운 가능성이 제공되었습니다.
분산 교육
또 다른 주요 개선 사항은 분산 교육입니다.
기존 기계 학습에서는 일반적으로 단일 프로세서를 사용하는 기계에서 훈련이 수행됩니다. 이 접근 방식은 작은 데이터 세트와 모델에 적합하지만 대규모 데이터 세트와 복잡한 모델을 처리할 때는 실용적이지 않습니다.
분산 훈련에서는 훈련 작업이 여러 프로세서나 기계에 분산되어 모델의 훈련 속도가 크게 향상됩니다.
일부 회사에서는 딥 러닝 스택의 분산 교육 프로세스를 단순화하는 프레임워크도 출시했습니다. 이러한 프레임워크는 개발자가 기본 인프라를 관리할 필요 없이 여러 프로세서 또는 컴퓨터에 교육 작업을 쉽게 배포할 수 있는 도구와 API를 제공합니다.
클라우드 컴퓨팅
클라우드 컴퓨팅은 대규모 모델을 훈련하는 데에도 중요한 역할을 합니다. 이전에는 모델이 로컬에서 훈련되는 경우가 많았습니다. 이제 강력한 컴퓨팅 리소스에 대한 액세스를 제공하는 AWS 및 Azure와 같은 클라우드 컴퓨팅 서비스를 통해 딥 러닝 연구자 및 실무자는 주문형 대규모 모델 교육에 필요한 대규모 GPU 또는 TPU 클러스터를 생성할 수 있습니다.
총체적으로 이러한 발전은 더욱 복잡하고 정확한 모델 개발을 가능하게 하여 인공 지능 연구 및 응용의 다양한 영역에서 새로운 가능성을 열어줍니다.
Philip S. Yu는 컴퓨터 공학 분야의 학자이자 ACM/IEEE Fellow이며 일리노이 대학교 시카고(UIC) 컴퓨터 공학과의 석좌 교수입니다.
빅데이터 마이닝 및 관리 이론과 기술 분야에서 세계적으로 유명한 업적을 이루었습니다. 규모, 속도 및 다양성 측면에서 빅데이터의 과제에 대응하여 그는 특히 다양한 데이터, 마이닝 데이터 스트림, 빈번한 패턴 및 하위 공간의 통합에서 데이터 마이닝 및 관리 방법과 기술에 대한 효과적이고 최첨단 솔루션을 제안했습니다. 그는 그래프에 획기적인 공헌을 했습니다.
병렬 및 분산 데이터베이스 처리 기술 분야에서도 선구적인 공헌을 했으며, 이를 IBM S/390 Parallel Sysplex 시스템에 적용하여 기존 IBM 메인프레임을 병렬 마이크로프로세서 아키텍처로 성공적으로 전환했습니다.
위 내용은 30페이지 분량! Yu Shilun 팀의 새로운 작업: AIGC 종합 조사, GAN에서 ChatGPT까지의 개발 내역의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!