찾다
기술 주변기기일체 포함BERT부터 ChatGPT까지, 베이항대학교를 포함한 9개 최고 연구 기관에 대한 종합적인 리뷰: 우리가 수년간 함께 추구해 온 '사전 훈련 기본 모델'

Few-Shot 및 Zero-Shot 시나리오에서 ChatGPT의 놀라운 성능으로 인해 연구자들은 "사전 훈련"이 올바른 경로라는 확신을 갖게 되었습니다.

사전 훈련된 기초 모델(PFM)은 BERT, GPT-3, MAE, DALLE-E 및 ChatGPT에 대한 다양한 데이터 모드, 즉 대규모 데이터를 기반으로 하는 다양한 다운스트림 작업의 기초로 간주됩니다. 사전 훈련된 기본 모델은 다운스트림 애플리케이션에 대한 합리적인 매개변수 초기화를 제공하도록 훈련됩니다.

BERT부터 ChatGPT까지, 베이항대학교를 포함한 9개 최고 연구 기관에 대한 종합적인 리뷰: 우리가 수년간 함께 추구해 온 '사전 훈련 기본 모델'

PFM의 사전 학습 아이디어는 대규모 모델 적용에서 중요한 역할을 합니다. 컨볼루션 및 재귀 모듈을 사용하는 이전의 특징 추출 방법과 달리 생성적 사전 학습(GPT) 방법입니다. Transformer를 특징 추출기로 사용하여 대규모 데이터 세트에 대해 자동 회귀 훈련을 수행합니다.

PFM이 다양한 분야에서 큰 성공을 거두면서 최근 발표된 논문에서 수많은 방법, 데이터 세트 및 평가 지표가 제안되었으며 업계에서는 BERT에서 ChatGPT까지의 개발 프로세스를 추적하는 포괄적인 검토가 필요합니다. .

최근 베이항대학교, 미시간주립대학교, 리하이대학교, 난양공과대학, 듀크 등 국내외 유명 대학 및 기업의 연구자들이 사전 훈련 기본 모델에 대한 리뷰를 공동으로 작성하여 최근 연구 진행 상황을 제공합니다. 텍스트, 이미지, 그래프 분야뿐만 아니라 현재와 미래의 과제와 기회에도 관심을 갖고 있습니다.

BERT부터 ChatGPT까지, 베이항대학교를 포함한 9개 최고 연구 기관에 대한 종합적인 리뷰: 우리가 수년간 함께 추구해 온 '사전 훈련 기본 모델'

논문 링크: https://arxiv.org/pdf/2302.09419.pdf

연구진은 먼저 자연어 처리, 컴퓨터 비전 및 그래픽 학습의 기본 구성 요소와 기존 전처리를 검토했습니다. 그런 다음 데이터 품질과 양을 고려한 기타 고급 PFM 및 통합 PFM의 데이터 모드와 모델 효율성, 압축, 보안 및 개인정보 보호를 포함한 PFM의 기본 원칙에 대한 관련 연구를 논의합니다. 연구 방향, 과제 및 공개 질문.

BERT에서 ChatGPT까지

사전 학습 기본 모델(PFM)은 빅데이터 시대의 인공지능 시스템 구축에 중요한 부분으로 자연어 처리(NLP), 컴퓨터 비전 등에 널리 사용됩니다. (CV) 및 그래프 학습(GL) 인공지능의 세 가지 주요 분야가 광범위하게 연구되고 적용되었습니다.

PFM은 다양한 분야 또는 크로스 도메인 작업에 효과적인 일반 모델로, 텍스트 분류, 텍스트 생성, 이미지 분류, 객체 감지 및 이미지 분류 등 다양한 학습 작업에서 특징 표현 학습에 큰 잠재력을 보여줍니다. .

PFM은 대규모 말뭉치로 여러 작업을 훈련하고 유사한 소규모 작업을 미세 조정하는 데 탁월한 성능을 보여 신속한 데이터 처리를 가능하게 합니다.

PFM 및 사전 훈련

PFM은 사전 훈련 기술을 기반으로 하며, 이는 다양한 다운스트림 애플리케이션에서 쉽게 미세 조정할 수 있는 일반 모델을 훈련하기 위해 많은 양의 데이터와 작업을 활용하는 것을 목표로 합니다.

사전 훈련의 아이디어는 CV 작업의 전이 학습에서 비롯되었습니다. 사람들은 CV 분야에서 사전 훈련의 효과를 인식한 후 다른 분야의 모델 성능을 향상시키기 위해 사전 훈련 기법을 사용하기 시작했습니다. 사전 훈련 기술이 NLP 분야에 적용되면 잘 훈련된 언어 모델(LM)은 장기 종속성, 계층적 관계 등과 같은 다운스트림 작업에 유용한 풍부한 지식을 포착할 수 있습니다.

또한 NLP 분야에서 사전 훈련의 중요한 이점은 훈련 데이터가 레이블이 없는 텍스트 코퍼스에서 나올 수 있다는 것입니다. 즉, 사전 훈련 과정에서 훈련 데이터의 양이 무제한이라는 것입니다.

초기 사전 훈련은 NNLM, Word2vec과 같은 정적 방법이었지만 나중에는 다른 의미론적 환경에 적응하기 어려웠으며 일부 연구자들은 BERT, XLNet 등과 같은 동적 사전 훈련 기술을 제안했습니다.

BERT부터 ChatGPT까지, 베이항대학교를 포함한 9개 최고 연구 기관에 대한 종합적인 리뷰: 우리가 수년간 함께 추구해 온 '사전 훈련 기본 모델'

NLP, CV 및 GL 분야에서 PFM의 역사와 진화

사전 학습 기술을 기반으로 하는 PFM은 대규모 말뭉치를 사용하여 공통 의미 표현을 학습합니다. 다운스트림 작업 및 애플리케이션에 등장하여 적용되었습니다.

주목할만한 PFM 적용사례로는 최근 인기를 끌고 있는 ChatGPT가 있습니다.

BERT부터 ChatGPT까지, 베이항대학교를 포함한 9개 최고 연구 기관에 대한 종합적인 리뷰: 우리가 수년간 함께 추구해 온 '사전 훈련 기본 모델'

ChatGPT는 텍스트와 코드의 혼합 코퍼스에 대한 교육 후 생성적 사전 교육 Transformer인 GPT-3.5에서 미세 조정되었습니다. ChatGPT는 인간 피드백(RLHF) 기술의 강화 학습을 사용합니다. 현재 대규모 LM을 인간의 의도와 일치시키는 가장 유망한 방법 중 하나입니다.

ChatGPT의 탁월한 성능은 각 PFM 유형의 교육 패러다임 전환, 즉 강화 학습(RL), 프롬프트 튜닝 및 체인 연결을 포함한 교육 정렬 기술의 적용에 중요한 지점으로 이어질 수 있습니다. 생각), 궁극적으로 일반 인공지능으로 나아가게 됩니다.

이 글에서 연구자들은 상대적으로 성숙한 연구 분류 방법인 텍스트, 이미지, 그래프와 관련된 PFM을 주로 검토합니다.

BERT부터 ChatGPT까지, 베이항대학교를 포함한 9개 최고 연구 기관에 대한 종합적인 리뷰: 우리가 수년간 함께 추구해 온 '사전 훈련 기본 모델'

텍스트의 경우 언어 모델은 다음 단어나 문자를 예측하여 다양한 작업을 수행할 수 있습니다. 예를 들어 PFM은 기계 번역, 질문 응답 시스템, 주제 모델링, 감정 분석 등에 사용될 수 있습니다. .

텍스트의 PFM과 유사한 이미지의 경우 대규모 데이터 세트를 사용하여 여러 CV 작업에 적합한 대규모 모델을 교육합니다.

그래프의 경우 유사한 사전 학습 아이디어를 사용하여 많은 다운스트림 작업에 사용할 수 있는 PFM을 얻습니다.

특정 데이터 도메인에 대한 PFM 외에도 이 기사에서는 음성, 비디오 및 도메인 간 데이터에 대한 PFM, 다중 모드 PFM과 같은 기타 고급 PFM도 검토하고 설명합니다.

또한 다중 양식을 처리할 수 있는 PFM의 대규모 융합 추세가 나타나고 있습니다. 이를 통합 PFM이라고 합니다. 연구자들은 통합 PFM의 개념을 먼저 정의한 후 최신 기술을 검토했습니다. OFA, UNIFIED-IO, FLAVA, BEiT-3 등을 포함한 최근 연구 통합 PFM의 예술

이 세 가지 분야의 기존 PFM의 특성을 바탕으로 연구원들은 PFM이 다음과 같은 두 가지 주요 이점을 가지고 있다고 결론지었습니다.

1 다운스트림 작업 성능에 대한 모델을 개선하려면 최소한의 미세 조정만 필요합니다.

2. PFM은 품질 테스트를 통과했습니다.

유사한 문제를 해결하기 위해 처음부터 모델을 구축하는 것보다 더 나은 옵션은 작업 관련 데이터 세트에 PFM을 적용하는 것입니다.

PFM의 엄청난 전망은 모델 효율성, 보안, 압축과 같은 문제에 초점을 맞추는 많은 관련 작업에 영감을 주었습니다.

이 리뷰의 특징은 다음과 같습니다.

  • 연구원들은 최신 연구 결과를 추적하고 NLP, CV 및 GL의 PFM 개발에 대한 확실한 요약을 작성하고 이 세 가지 공통 사항에 대한 정보를 논의하고 제공했습니다. 주요 응용 분야의 PFM 설계 및 사전 교육 방법.

  • 에서는 음성, 영상 등 다른 멀티미디어 분야의 PFM 개발을 요약하고 통합 PFM, 모델 효율성 및 압축, 보안 및 개인 정보 보호를 비롯한 PFM에 대한 심층적인 주제에 대해 논의합니다.

  • 다양한 양식의 다양한 작업에 대한 PFM 검토를 통해 빅 데이터 시대의 초대형 모델에 대한 향후 연구의 주요 과제와 기회에 대해 논의합니다. 이는 차세대 협업 및 협업 기술 개발을 안내할 것입니다. PFM 기반의 대화형 지능.

참고자료: https://arxiv.org/abs/2302.09419

위 내용은 BERT부터 ChatGPT까지, 베이항대학교를 포함한 9개 최고 연구 기관에 대한 종합적인 리뷰: 우리가 수년간 함께 추구해 온 '사전 훈련 기본 모델'의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
외삽에 대한 포괄적 인 가이드외삽에 대한 포괄적 인 가이드Apr 15, 2025 am 11:38 AM

소개 매일 몇 주 만에 작물의 진행 상황을 관찰하는 농부가 있다고 가정합니다. 그는 성장률을보고 몇 주 안에 식물이 얼마나 키가 커질 수 있는지에 대해 숙고하기 시작합니다. Th

소프트 AI의 부상과 오늘날 비즈니스의 의미소프트 AI의 부상과 오늘날 비즈니스의 의미Apr 15, 2025 am 11:36 AM

Soft AI-대략적인 추론, 패턴 인식 및 유연한 의사 결정을 사용하여 구체적이고 좁은 작업을 수행하도록 설계된 AI 시스템으로 정의 된 것은 모호성을 수용하여 인간과 같은 사고를 모방하려고합니다. 그러나 이것이 바이러스의 의미는 무엇입니까?

AI 국경을위한 진화 보안 프레임 워크AI 국경을위한 진화 보안 프레임 워크Apr 15, 2025 am 11:34 AM

클라우드 컴퓨팅이 클라우드 네이티브 보안 도구로의 전환이 필요했기 때문에 AI는 AI의 고유 한 요구를 위해 특별히 설계된 새로운 유형의 보안 솔루션을 요구합니다. 클라우드 컴퓨팅 및 보안 수업의 상승이 배웠습니다 th

3 가지 방법 생성 AI 기업가를 증폭시킵니다 : 평균을 조심하십시오!3 가지 방법 생성 AI 기업가를 증폭시킵니다 : 평균을 조심하십시오!Apr 15, 2025 am 11:33 AM

기업가와 AI 및 생성 AI를 사용하여 비즈니스를 개선합니다. 동시에, 모든 기술과 마찬가지로 생성 AI를 기억하는 것이 중요합니다. 앰프는 앰프입니다. 엄격한 2024 연구 o

Andrew Ng의 모델 임베딩에 대한 새로운 단기 과정Andrew Ng의 모델 임베딩에 대한 새로운 단기 과정Apr 15, 2025 am 11:32 AM

임베딩 모델의 힘 잠금 해제 : Andrew Ng의 새로운 코스에 대한 깊은 다이빙 기계가 완벽한 정확도로 질문을 이해하고 응답하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. AI의 발전 덕분에 R이되었습니다

대형 언어 모델 (LLMS)에서 환각이 불가피합니까?대형 언어 모델 (LLMS)에서 환각이 불가피합니까?Apr 15, 2025 am 11:31 AM

대형 언어 모델 (LLM) 및 환각의 피할 수없는 문제 Chatgpt, Claude 및 Gemini와 같은 AI 모델을 사용했을 것입니다. 이들은 대규모 텍스트 데이터 세트에 대해 교육을받은 강력한 AI 시스템의 대형 언어 모델 (LLM)의 예입니다.

60% 문제 - AI 검색이 트래픽을 배출하는 방법60% 문제 - AI 검색이 트래픽을 배출하는 방법Apr 15, 2025 am 11:28 AM

최근의 연구에 따르면 AI 개요는 산업 및 검색 유형에 따라 유기 트래픽이 15-64% 감소 할 수 있습니다. 이러한 급격한 변화로 인해 마케팅 담당자는 디지털 가시성에 관한 전체 전략을 재고하게합니다. 새로운

AI R & D의 중심에 인간 번성을하는 MIT Media LabAI R & D의 중심에 인간 번성을하는 MIT Media LabApr 15, 2025 am 11:26 AM

Elon University의 Digital Future Center를 상상 한 최근 보고서는 거의 300 명의 글로벌 기술 전문가를 조사했습니다. 결과적인 보고서 인‘2035 년에 인간이되는 것’은 대부분 AI 시스템의 심화가 T에 대한 우려가 있다고 결론지었습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 채팅 명령 및 사용 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구