집 >기술 주변기기 >일체 포함 >'GAN에서 ChatGPT까지: Lehigh University는 AI 생성 콘텐츠 개발을 자세히 설명합니다.'

'GAN에서 ChatGPT까지: Lehigh University는 AI 생성 콘텐츠 개발을 자세히 설명합니다.'

王林앞으로: 2023-04-20 17:55:081198검색

ChatGPT 및 기타 생성 AI(GAI) 기술은 AI 모델을 통해 이미지, 음악, 자연어와 같은 디지털 콘텐츠를 생성하는 인공지능 생성 콘텐츠(AIGC) 범주에 속합니다. AIGC의 목표는 콘텐츠 제작 프로세스를 보다 효율적이고 접근 가능하게 만들어 고품질 콘텐츠를 더 빠른 속도로 제작하는 것입니다. AIGC는 인간이 제공한 지시로부터 의도 정보를 추출하고 이해하고, 인간의 지식과 의도 정보를 기반으로 콘텐츠를 생성함으로써 달성됩니다.

최근 AIGC에서는 더 나은 의도 추출을 제공하여 생성 결과를 향상시키는 대규모 모델이 점점 중요해졌습니다. 데이터와 모델 크기가 커짐에 따라 모델이 학습할 수 있는 분포는 더욱 포괄적이고 현실에 가까워져 더욱 사실적이고 고품질의 콘텐츠가 생성됩니다.

이 글에서는 단일 모달 상호 작용부터 다중 모달 상호 작용까지 AIGC의 역사와 기본 구성 요소, 최근 진행 상황을 종합적으로 검토합니다. 단일 양식 관점에서 텍스트 및 이미지 생성 작업과 관련 모델을 소개합니다. 다중 모드 관점에서 위의 양식 간의 교차 적용이 소개됩니다. 마지막으로 AIGC의 열린 이슈와 향후 과제에 대해 논의합니다.

GAN에서 ChatGPT까지: Lehigh University는 AI 생성 콘텐츠 개발을 자세히 설명합니다.

논문 주소: https://arxiv.org/abs/2303.04226

소개

최근 AIGC(인공지능 생성 콘텐츠)는 컴퓨터의 영향을 받아 널리 확산되었습니다. 과학계 외부의 관심이 높아지면서 사회 전체는 ChatGPT[4] 및 DALL-E2[5]와 같은 대규모 기술 회사가 구축한 다양한 콘텐츠 생성 제품에 관심을 갖기 시작했습니다[3]. AIGC는 인간이 만든 콘텐츠가 아닌 GAI(Advanced Genative AI) 기술을 사용해 생성된 콘텐츠를 말합니다. AIGC는 단시간에 대량의 콘텐츠를 자동으로 생성할 수 있습니다. 예를 들어, ChatGPT는 인간의 언어 입력을 의미 있는 방식으로 효과적으로 이해하고 응답할 수 있는 대화형 인공 지능 시스템을 구축하기 위해 OpenAI에서 개발한 언어 모델입니다. 또한, DALL-E-2는 역시 OpenAI가 개발한 또 다른 최첨단 GAI 모델로, 그림 1에서 볼 수 있듯이 텍스트 설명에서 독특한 고품질 이미지를 몇 분 안에 생성할 수 있습니다. 현실적인 스타일의 승마". AIGC의 뛰어난 성과로 인해 많은 사람들은 이것이 인공지능의 새로운 시대가 될 것이며 전 세계에 큰 영향을 미칠 것이라고 믿고 있습니다.

GAN에서 ChatGPT까지: Lehigh University는 AI 생성 콘텐츠 개발을 자세히 설명합니다.

기술적으로 AIGC는 주어진 인간 지침을 의미합니다. 이는 모델이 작업을 완료하도록 가르치고 안내하는 데 도움이 되며 GAI 알고리즘을 사용하여 지침을 충족하는 콘텐츠를 생성하는 데 도움이 됩니다. 생성 프로세스에는 일반적으로 사람의 지시에서 의도 정보를 추출하는 단계와 추출된 의도를 기반으로 콘텐츠를 생성하는 두 단계가 포함됩니다. 그러나 이전 연구[6,7]에서 보듯이 위의 두 단계를 포함하는 GAI 모델의 패러다임은 완전히 새로운 것은 아니다. 이전 작업과 비교하여 최근 AIGC의 핵심 진전은 더 큰 데이터 세트에서 더 복잡한 생성 모델을 훈련하고 더 큰 기본 모델 아키텍처를 사용하며 광범위한 컴퓨팅 리소스에 액세스할 수 있다는 것입니다. 예를 들어 GPT-3의 기본 프레임워크는 GPT-2와 동일하게 유지되지만 사전 학습 데이터 크기는 WebText [8](38GB)에서 CommonCrawl [9](필터링 후 570GB)로 증가하고 기본 모델 크기는 1.5B에서 175B로 증가합니다. 따라서 GPT-3는 인간의 의도 추출과 같은 작업에서 GPT-2보다 일반화 능력이 더 좋습니다.

데이터 볼륨 및 컴퓨팅 성능 증가의 이점 외에도 연구원들은 새로운 기술을 GAI 알고리즘과 통합하는 방법도 모색하고 있습니다. 예를 들어 ChatGPT는 인간 피드백(RLHF)의 강화 학습[10-12]을 활용하여 주어진 지침에 대한 가장 적절한 응답을 결정함으로써 시간이 지남에 따라 모델의 신뢰성과 정확성을 향상시킵니다. 이 접근 방식을 통해 ChatGPT는 긴 대화에서 인간의 선호도를 더 잘 이해할 수 있습니다. 동시에 컴퓨터 비전 분야에서는 Stability [13]에 의해 안정적인 확산이 제안되었습니다. AI는 2022년에도 이미지 생성 분야에서 큰 성공을 거뒀다. 이전 방법과 달리 생성 확산 모델은 탐색과 활용 간의 균형을 제어하여 고해상도 이미지를 생성하는 데 도움이 되며 생성된 이미지의 다양성과 훈련 데이터와의 유사성을 조화롭게 결합할 수 있습니다.

이러한 발전을 결합하여 이 모델은 AIGC 작업에서 상당한 진전을 이루었으며 예술[14], 광고[15], 교육[16] 등 다양한 산업에 적용되었습니다. 가까운 미래에도 AIGC는 머신러닝의 중요한 연구 분야가 될 것입니다. 따라서 과거 연구에 대한 광범위한 조사를 수행하고 해당 분야의 미해결 질문을 파악하는 것이 중요합니다. AIGC 분야의 핵심기술과 활용방안을 검토한다.

이 글은 GAI를 기술적인 측면과 응용적인 측면에서 요약한 최초의 AIGC 종합 리뷰입니다. 이전 연구는 자연어 생성 [17], 이미지 생성 [18], 다중 모드 기계 학습 생성 [7, 19]을 포함하여 다양한 관점에서 GAI에 중점을 두었습니다. 그러나 이전 작업은 AIGC의 특정 부분에만 중점을 두었습니다. 이 기사에서는 먼저 AIGC에서 일반적으로 사용되는 기본 기술을 검토합니다. 그림 2와 같이 단일 피크 생성 및 다중 피크 생성을 포함하여 고급 GAI 알고리즘에 대한 포괄적인 요약이 추가로 제공됩니다. 또한 AIGC의 응용과 잠재적인 과제에 대해서도 논의합니다. 마지막으로 이 분야의 기존 문제점과 향후 연구 방향을 지적한다. 요약하면 이 논문의 주요 기여는 다음과 같습니다.

우리가 아는 한, 우리는 AIGC 및 AI 강화 생성 프로세스에 대한 공식적인 정의와 철저한 조사를 최초로 제공했습니다.
AIGC의 역사와 기본 기술을 검토하고, 단일 모드 세대와 다중 모드 세대의 관점에서 GAI 작업 및 모델의 최신 진행 상황을 종합적으로 분석합니다.
AIGC가 직면한 주요 과제와 AIGC의 향후 연구 동향에 대해 논의했습니다.

나머지 설문조사는 다음과 같이 구성됩니다. 2장에서는 주로 시각양식과 언어양식이라는 두 가지 측면에서 AIGC의 역사를 검토한다. 섹션 3에서는 현재 GAI 모델 훈련에 널리 사용되는 기본 구성 요소를 소개합니다. 섹션 4에서는 GAI 모델의 최근 진행 상황을 요약합니다. 섹션 4.1에서는 단일 모드 관점에서 진행 상황을 검토하고 섹션 4.2에서는 다중 모드 세대 관점에서 진행 상황을 검토합니다. 다중 모드 생성에서는 시각적 언어 모델, 텍스트 오디오 모델, 텍스트 그래프 모델 및 텍스트 코드 모델이 도입됩니다. 섹션 5와 6에서는 AIGC에 GAI 모델을 적용하고 이 분야와 관련된 몇 가지 중요한 연구를 소개합니다. 섹션 7과 8에서는 AIGC 기술의 위험, 기존 문제 및 향후 개발 방향을 밝힙니다. 마지막으로 우리는 연구를 9로 요약한다.

생성 인공 지능의 역사

생성 모델은 1950년대부터 Hidden Markov Models(HMM) [20] 및 Gaussian Mixture Models(GMMs) [ 21]을 포함하여 인공 지능 분야에서 오랜 역사를 가지고 있습니다. 개발. 이러한 모델은 음성 및 시계열과 같은 순차 데이터를 생성합니다. 그러나 생성 모델의 성능이 크게 개선된 것은 딥 러닝이 등장한 이후였습니다.

GAN에서 ChatGPT까지: Lehigh University는 AI 생성 콘텐츠 개발을 자세히 설명합니다.

초기 심층 생성 모델에서는 서로 다른 도메인이 일반적으로 많이 겹치지 않았습니다. 자연어 처리(NLP)에서 문장을 생성하는 전통적인 방법은 N-gram 언어 모델링[22]을 사용하여 단어 분포를 학습한 후 최상의 시퀀스를 검색하는 것입니다. 그러나 이 방법은 긴 문장에 효과적으로 적용할 수 없습니다. 이 문제를 해결하기 위해 RNN(Recurrent Neural Networks) [23]이 나중에 언어 모델링 작업에 도입되어 상대적으로 긴 종속성을 모델링할 수 있게 되었습니다. 그 후, 학습 중에 메모리를 제어하기 위해 게이팅 메커니즘을 활용하는 장단기 기억(LSTM)[24]과 게이트 순환 장치(GRU)[25]가 개발되었습니다. 이러한 방법은 샘플[26]에서 최대 200개의 토큰을 처리할 수 있으며 이는 N-gram 언어 모델에 비해 크게 개선되었습니다.

한편 컴퓨터 비전(CV) 분야에서는 딥러닝 기반 방법이 등장하기 이전까지 전통적인 이미지 생성 알고리즘에서는 텍스처 합성[27], 텍스처 매핑[28]과 같은 기술을 사용했습니다. 이러한 알고리즘은 수작업으로 디자인한 기능을 기반으로 하며 복잡하고 다양한 이미지를 생성하는 데에는 한계가 있습니다. 2014년에 GAN(Generative Adversarial Networks)[29]이 처음 제안되었으며 다양한 응용 분야에서 인상적인 결과를 얻었으며 이는 이 분야에서 중요한 이정표입니다. VAE(Variational Autoencoder)[30] 및 확산 생성 모델[31]과 같은 기타 방법도 이미지 생성 프로세스를 보다 세밀하게 제어하고 고품질 이미지를 생성하는 기능을 위해 개발되었습니다

다양한 분야의 생성 모델 개발은 다양한 경로를 따르지만 결국 트랜스포머 아키텍처[32]라는 교차 문제가 발생합니다. Vaswani et al.은 2017년에 NLP 작업을 도입했으며 이후 Transformer는 CV에 적용되어 다양한 분야의 많은 생성 모델의 주요 백본이 되었습니다[9, 33, 34]. NLP 분야에서 BERT 및 GPT와 같이 잘 알려진 많은 대규모 언어 모델은 변환기 아키텍처를 주요 빌딩 블록으로 채택하며 이는 LSTM 및 GRU와 같은 이전 빌딩 블록에 비해 장점이 있습니다. CV에서는 Vision Transformer(ViT)[35]와 Swin Transformer[36]가 나중에 이미지 기반 다운스트림에 적용할 수 있도록 Transformer 아키텍처를 비전 구성 요소와 결합하여 이 개념을 더욱 발전시켰습니다. 개별 양식에 대한 변환기의 개선 사항 외에도 이 크로스오버를 통해 다양한 도메인의 모델을 융합하여 다중 모드 작업을 완료할 수도 있습니다. 다중 모드 모델의 예로는 CLIP[37]이 있습니다. CLIP은 변환기 아키텍처와 비전 구성 요소를 결합한 공동 비전 언어 모델로, 대량의 텍스트 및 이미지 데이터에 대해 학습할 수 있습니다. 사전 훈련 중에 시각적 지식과 언어적 지식을 결합하므로 다중 모드 큐 생성에서 이미지 인코더로 사용할 수도 있습니다. 전체적으로, 트랜스포머 기반 모델의 등장은 인공지능 생산에 혁명을 일으켰고 대규모 훈련의 가능성을 가져왔습니다.

최근 몇 년 동안 연구자들은 이러한 모델을 기반으로 한 새로운 기술을 도입하기 시작했습니다. 예를 들어 NLP에서 사람들은 모델이 작업 요구 사항을 더 잘 이해할 수 있도록 힌트에 데이터 세트에서 선택한 몇 가지 예를 포함하는 미세 조정보다 소수의 힌트[38]를 선호하는 경우가 있습니다. 시각적 언어에서 연구자들은 보다 강력한 표현을 제공하기 위해 양식별 모델을 자기 지도 대조 학습 목표와 결합하는 경우가 많습니다. 앞으로 AIGC가 점점 더 중요해짐에 따라 점점 더 많은 기술이 도입될 것이며 이 분야는 활력이 넘칠 것입니다.

GAN에서 ChatGPT까지: Lehigh University는 AI 생성 콘텐츠 개발을 자세히 설명합니다.

생성 인공 지능

최첨단 단일 모달 생성 모델을 소개합니다. 이러한 모델은 텍스트나 이미지와 같은 특정 원시 데이터 형식을 입력으로 받아들인 다음 입력과 동일한 형식으로 예측을 생성하도록 설계되었습니다. 우리는 GPT3 [9], BART [34], T5 [56]와 같은 생성 언어 모델과 GAN [29], VAE [30]와 같은 생성 비전 모델을 포함하여 이러한 모델에 사용되는 가장 유망한 방법과 기술에 대해 논의할 것입니다. ] 및 표준화된 흐름[57].

GAN에서 ChatGPT까지: Lehigh University는 AI 생성 콘텐츠 개발을 자세히 설명합니다.

Multimodal model

Multimodal 생성은 오늘날 AIGC의 중요한 부분입니다. 다중 모드 생성의 목표는 데이터의 다중 모드 연결과 상호 작용을 학습하여 원래 양식의 모델을 생성하는 방법을 배우는 것입니다[7]. 양식 간의 이러한 연결과 상호 작용은 때로는 매우 복잡하여 단일 모드 표현 공간에 비해 다중 모드 표현 공간을 배우기 어렵게 만듭니다. 그러나 앞서 언급한 강력한 패턴별 인프라가 등장하면서 이 문제를 해결하기 위한 방법이 점점 더 많이 제안되고 있습니다. 이 섹션에서는 시각적 언어 생성, 텍스트 오디오 생성, 텍스트 그래픽 생성 및 텍스트 코드 생성 분야의 최첨단 다중 모드 모델을 소개합니다. 대부분의 다중 모드 생성 모델은 항상 실제 적용과 관련성이 높기 때문에 이 섹션에서는 주로 다운스트림 작업의 관점에서 소개합니다.

GAN에서 ChatGPT까지: Lehigh University는 AI 생성 콘텐츠 개발을 자세히 설명합니다.

애플리케이션

GAN에서 ChatGPT까지: Lehigh University는 AI 생성 콘텐츠 개발을 자세히 설명합니다.

효율성

지난 10년 동안 신경망을 갖춘 심층 생성 AI 모델이 머신 러닝 분야를 지배해 왔으며 그 상승세는 다음과 같습니다. 2012년 ImageNet 대회[210]에서 이는 더 깊고 복잡한 모델을 만들기 위한 경쟁으로 이어졌습니다. 이러한 추세는 BERT 및 GPT-3와 같은 모델이 많은 수의 매개변수를 개발한 자연어 이해 분야에서도 나타났습니다. 그러나 증가하는 모델 공간과 복잡성, 교육 및 배포에 필요한 비용과 리소스로 인해 실제 세계에서 실제 배포하는 데 어려움이 따릅니다. 핵심 과제는 효율성이며 다음과 같이 분류할 수 있습니다.

추론 효율성: 이는 추론을 위한 모델 배포, 즉 주어진 입력에 대한 모델의 출력을 계산하는 실제 고려 사항과 관련이 있습니다. 추론 효율성은 주로 추론 중 모델 크기, 속도 및 리소스 소비(예: 디스크 및 RAM 사용량)와 관련이 있습니다.
교육 효율성: 여기에는 교육 시간, 메모리 공간, 여러 장치에 걸친 확장성 등 모델 교육의 속도 및 리소스 요구 사항에 영향을 미치는 요소가 포함됩니다. 또한 주어진 작업에서 최적의 성능을 달성하는 데 필요한 데이터의 양을 고려하는 것도 포함될 수 있습니다.

위 내용은 'GAN에서 ChatGPT까지: Lehigh University는 AI 생성 콘텐츠 개발을 자세히 설명합니다.'의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：자율주행 궤적 예측 기술 현황 및 개발 동향에 대해 논의다음 기사：자율주행 궤적 예측 기술 현황 및 개발 동향에 대해 논의