>기술 주변기기 >일체 포함 >ChatGPT의 학습 학습은 무엇입니까? PSU는 '교육 학습'에 대한 최초의 종합 리뷰를 발표했습니다.

ChatGPT의 학습 학습은 무엇입니까? PSU는 '교육 학습'에 대한 최초의 종합 리뷰를 발표했습니다.

王林
王林앞으로
2023-04-07 19:51:011173검색

작업 의미 체계는 입력-출력 예제 또는 텍스트 명령 집합으로 표현될 수 있습니다. 기존의 자연어 처리(NLP) 기계 학습 방법은 주로 대규모 작업별 샘플 세트의 가용성에 의존합니다.

그러나 두 가지 문제가 발생합니다. 첫째, 작업에 주석을 달기에는 너무 복잡하거나 비용이 많이 들거나 시스템이 새 작업을 즉시 처리해야 하는 시나리오에는 적합하지 않습니다. 둘째, 이는 사용자가 아닙니다. 최종 사용자는 시스템을 사용하기 전에 일련의 예제보다는 작업 설명을 제공하는 것을 선호할 수 있습니다.

따라서 커뮤니티에서는 NLP의 새로운 감독 추구 패러다임인 작업 지침에서 학습에 점점 더 많은 관심을 기울이고 있습니다. 인상적인 진전에도 불구하고 커뮤니티는 여전히 몇 가지 공통적인 문제에 직면해 있습니다.

이 글은 현재의 교수 학습 연구를 다음과 같은 측면에서 요약하려고 시도합니다.

(1) 과제 지시란 무엇이며 어떤 유형의 지시가 존재합니까?

(2) 지침을 모델링하는 방법은 무엇입니까?

(3) 명령어 실행에 영향을 주고 설명하는 요소는 무엇인가요?

(4) 이 지침에는 어떤 다른 과제가 있습니까?

우리가 아는 한, 이것은 텍스트 명령에 대한 최초의 포괄적인 조사입니다.

ChatGPT의 학습 학습은 무엇입니까? PSU는 교육 학습에 대한 최초의 종합 리뷰를 발표했습니다.

논문 주소: https://arxiv.org/pdf/2303.10475v2.pdf

1 서론

인공지능의 목표 중 하나는 보편적으로 할 수 있는 시스템을 구축하는 것입니다. 새로운 과제 시스템을 이해하고 해결합니다. 주류 작업 표현으로서 레이블이 지정된 예는 널리 사용 가능하거나 존재하지 않을 가능성이 높습니다. 그렇다면 작업 이해에 기여할 수 있는 다른 작업 표현이 있습니까? 작업 지침은 작업 의미론을 표현하기 위한 또 다른 감독 차원을 제공하며 지침에는 단일 레이블이 지정된 예보다 대상 작업에 대한 더 추상적이고 포괄적인 지식이 포함되는 경우가 많습니다.

교수 학습은 새로운 과제에 대한 일반적인 인간 학습에서 영감을 얻었습니다. 예를 들어, 어린이는 지침과 몇 가지 예를 통해 학습함으로써 새로운 수학 과제를 잘 해결할 수 있습니다. 이 새로운 학습 패러다임은 최근 기계 학습 및 NLP 커뮤니티에서 큰 관심을 끌었습니다.

그림 1에 표시된 것처럼 작업 지침의 가용성을 통해 특히 작업별 주석이 부족한 경우 새로운 작업을 처리할 수 있는 시스템을 빠르게 구축할 수 있습니다.

ChatGPT의 학습 학습은 무엇입니까? PSU는 교육 학습에 대한 최초의 종합 리뷰를 발표했습니다.

작업 지침에 관해서 우리 대부분은 먼저 개념을 프롬프트와 연관시킵니다. 짧은 템플릿을 사용하여 새로운 입력을 언어 모델링 문제로 다시 포맷하여 PLM 시작에 대한 응답 응답을 제공합니다. 힌트는 텍스트 분류, 기계 번역 등 어디에나 존재하지만 힌트는 지침의 특별한 경우일 뿐입니다. 이 기사는 교육 중심 NLP 연구에 대한 포괄적이고 광범위한 관점을 제공합니다. 구체적으로 다음 질문에 대답하려고 합니다.

  • 작업 지시란 무엇이며 어떤 지시 유형이 존재합니까?
  • 작업 지시가 주어졌을 때 목표 작업을 완료하는 데 도움이 되도록 어떻게 인코딩할 수 있습니까? 어떤 요인(예: 모델 크기, 작업 수)이 수업 중심 시스템의 성능에 영향을 미치고 더 나은 지침을 설계하는 방법은 무엇입니까? 수업 학습이 가져올 수 있는 응용 프로그램은 무엇입니까?
  • 우리가 아는 한, 이 논문은 텍스트 교육 학습을 조사한 최초의 논문입니다. 프롬프트, 입력별 시연, 추론 등 특정 맥락 지침에 초점을 맞춘 일부 기존 설문조사와 비교하여, 우리는 이 분야의 다양한 연구를 체계적으로 연결하는 더 넓은 관점을 제공합니다. 이 기사가 더 나은 교육 학습 스토리를 제시하고 더 많은 동료들이 이 어려운 인공 지능 문제를 연구하도록 유도할 수 있기를 바랍니다. 우리는 또한 이 설문조사에 해당하는 읽기 목록을 게시했습니다.

    2 기본 지식

    작업 기반 학습의 목표는 지침에 따라 주어진 입력의 출력을 달성하도록 시스템을 구동하는 것입니다. 따라서 데이터 세트는 세 가지 요소로 구성됩니다.

    입력(X): 인스턴스의 입력은 텍스트 조각(예: 감정 분류) 또는 텍스트 집합(예: 텍스트 암시)일 수 있습니다. , 질문 답변 등).

    출력(Y): 분류 문제에서 인스턴스의 출력은 텍스트 생성 작업에서 하나 이상의 사전 정의된 레이블일 수 있으며 모든 개방형 텍스트일 수 있습니다.

    템플릿(T): 작업의 의미를 단독으로 표현하거나 X와 y 사이의 가교 역할을 시도하는 텍스트 템플릿입니다. T는 아직 컴포넌트 구조가 아닐 수도 있습니다.

    3 작업 순서란 무엇인가요?

    다양한 유형의 텍스트 지침 이 프롬프트, Amazon Mechanical Turk 지침과 같은 이전 제로샷 및 소수 샷 NLP 작업에 사용되었으며 시연 지침 및 사고 체인 설명으로 보완되었습니다. 다양한 지침은 원래 다양한 목표를 위해 설계되었습니다(예: Mturk 지침은 원래 인간 주석자의 이해를 위해 만들어졌고 프롬프트는 PLM 제어용이었습니다). 이 섹션에서는 그림 2에 표시된 대로 먼저 이러한 명령을 형식 정의인 T의 다양한 조합을 실행하는 세 가지 범주로 요약합니다.

    3.1 I=T^+Y: 수반 주도 지침

    분류 작업을 처리하는 전통적인 솔루션은 대상 레이블을 인덱스로 변환하고 모델이 입력이 속하는 인덱스를 결정하도록 하는 것입니다. 이 패러다임은 레이블 의미를 상실하면서 입력 의미를 인코딩하는 데 중점을 둡니다. 시스템이 많은 수의 레이블이 지정된 예에 의존하지 않고 새 레이블을 인식하기 위해 Yin et al.은 각 레이블에 대한 가설을 설정할 것을 제안합니다. 그러면 레이블의 파생된 진리값이 결정된 레이블의 진리값으로 변환됩니다. 가설. 표 1에서 볼 수 있듯이 이 방법은 명령어 I에 내장되어 있으며 템플릿 T와 레이블 Y를 결합하여 각 대상 레이블 Y를 해석합니다. 이 패러다임은 자연스럽게 텍스트 수반(TE, 작업 입력과 명령을 각각 전제와 가설로 볼 수 있음)의 형식을 만족하므로 이러한 유형의 명령을 "수행 지향 명령"이라고 합니다.

    수반 지향 수업 학습 방법에는 다음과 같은 네 가지 장점이 있습니다.

    (1) 입력 인코딩과 출력 인코딩이 입력-출력 관계를 모델링할 때 동일한 관심을 받도록 레이블 의미를 유지합니다.

    ( 2) 다양한 NLP 문제를 처리하기 위해 통합된 추론 프로세스(텍스트 수반)를 형성합니다.

    (3) 사전 훈련된 TE 모델이 이러한 목표를 수행할 수 있도록 기존 TE 데이터 세트의 간접적인 감독을 활용할 수 있는 기회를 만듭니다. 작업별 미세 조정이 없는 작업

    (4) 원래의 폐쇄 집합 레이블 분류 문제를 일반 클래스 샘플이 거의 또는 전혀 없는 개방형 도메인으로 확장 개방형 레이블 인식 문제.

    따라서 주제, 감정, 자세, 개체 유형 및 개체 관계를 분류하는 등 다양한 퓨샷/제로샷 분류 작업에 널리 사용됩니다.

    ChatGPT의 학습 학습은 무엇입니까? PSU는 교육 학습에 대한 최초의 종합 리뷰를 발표했습니다.

    3.2 I=T^ + 작업 입력 시(접두사 프롬프트) 또는 cloze 질문 템플릿(cloze 프롬프트). 주로 사전 훈련된 언어 모델(PLM)에서 중간 응답(추가로 최종 답변으로 변환될 수 있음)을 쿼리하는 데 사용됩니다.

    예를 들어 프롬프트 입력은 PLM의 사전 학습 목표를 충족하므로 게슈탈트 스타일 입력은 마스크된 언어 모델링 목표를 충족하므로 기존 감독 미세 조정에 대한 의존성을 없애고 비용을 크게 절감하는 데 도움이 됩니다. 수동 주석. 결과적으로 빠른 학습은 질문 답변, 기계 번역, 감정 분석, 텍스트 수반 및 명명된 엔터티 인식과 같은 이전의 수많은 소수/제로 샷 NLP 작업에서 인상적인 결과를 얻었습니다.

    ChatGPT의 학습 학습은 무엇입니까? PSU는 교육 학습에 대한 최초의 종합 리뷰를 발표했습니다.

    3.3 인간 중심 지침

    인간 중심 지침은 기본적으로 인간 주석 플랫폼(예: Amazon MTurk 지침)에서 크라우드소싱에 사용되는 지침을 의미합니다. 인간 중심 지침과 달리 인간 중심 지침은 일반적으로 작업 제목, 범주, 정의, 피해야 할 사항 등으로 구성된 사람이 읽을 수 있고 설명이 포함된 단락 스타일의 작업별 텍스트 정보입니다. 따라서 인간 중심 지침은 보다 사용자 친화적이며 거의 모든 복잡한 NLP 작업에 이상적으로 적용될 수 있습니다.

    4 지침을 모델링하는 방법은 무엇입니까?

    이 섹션에서는 교육 학습을 위한 가장 인기 있는 몇 가지 모델링 전략을 요약합니다. 전반적으로 이 논문에서는 네 가지 모델링 방식을 소개합니다. 초기 기계 학습 기반 시스템의 경우 (1) 의미론적 파서 기반 전략은 신경망 및 사전 훈련된 언어 모델의 출현으로 명령어를 인코딩하는 일반적인 방법입니다. ) 큐 템플릿 기반 및 (3) 접두어 명령 기반 교육 모델이 최근 선호되는 두 가지 패러다임이 되었으며, (4) 하이퍼네트워크 기반 방법도 더 큰 관심을 끌었습니다.

    5 응용 프로그램

    5.1 인간-컴퓨터 상호 작용

    텍스트 명령은 자연스럽게 인간-컴퓨터 상호 작용의 한 형태로 간주될 수 있습니다. 이전 연구에서는 다양한 실제 작업을 수행하도록 컴퓨터에 "지시"하기 위해 자연어 지침을 사용했습니다.

    NLP가 아닌(다중 모드) 작업의 경우 대부분 환경 기반 언어 학습에 중점을 둡니다. 즉, 에이전트가 자연어 지침을 환경과 연관시키고 이에 따라 반응하도록 유도합니다(예: 이미지/비디오). 탐색 지침, 지도에 해당 추적 그리기, 주어진 규칙에 따라 축구/카드 게임 플레이, 실시간 스포츠 방송 생성, 소프트웨어 제어 및 외부 데이터베이스 쿼리 등이 가능합니다. 동시에 문자열 조작, 주어진 설명을 기반으로 이메일 분류, 텍스트-코드 생성을 위한 지침 따르기 등 NLP 작업을 해결하기 위해 시스템과 통신하는 데 도움이 되는 지침도 널리 사용됩니다.

    최근에는 인간-기계 통신 프로세스를 반복적이고 모듈화된 방식으로 설계하는 연구가 점점 더 많아지고 있습니다. 예를 들어 Li 등은 사용자의 일상적인 작업(예: 커피 주문 또는 Uber 요청)을 돕는 시스템을 구축했습니다. 사용자 친화적인 그래픽 인터페이스 덕분에 시스템은 작업에 대해 반복적으로 질문할 수 있으며 사용자는 명확하지 않은 설명이나 모호한 개념을 피하기 위해 지침을 지속적으로 개선할 수 있습니다. 마찬가지로 Dwivedi-Yu 등은 PLM을 반복적으로 안내하여 텍스트를 개선하는 벤치마크를 제안했습니다. 여기서 각 반복에서는 정확한 목적(예: "텍스트 단순화" 또는 "텍스트 중립화")을 가진 짧은 지침 세트만 사용합니다. 또한 Chakrabarty 등은 사용자가 처음에는 모호한 지침(예: "케이크에 대한 시 쓰기")을 제공한 다음 모델의 중간 출력을 관찰하여 점차적으로 이를 더 세부적으로 개선할 수 있는 공동 시 쓰기 시스템을 구축했습니다. 예: "초콜릿이라는 단어가 포함되어 있습니다.") 한편 Mishra와 Nouri는 사용자로부터 필요한 개인 정보를 점진적으로 수집(대화 시나리오에서 사용자를 안내하는 질문을 통해)하고 궁극적으로 단락 기반 전기를 생성하는 전기 생성 시스템을 제안했습니다. 비전문가 사용자가 한 번에 완전한 지침을 작성하는 데 어려움을 겪는 문제에 대응하여, 지침 기반 인공지능 시스템 설계에 반복적이고 모듈화된 설계 패러다임을 채택하면 사용자가 점차적으로 작업 지침을 풍부하게 하여 사용자의 사고를 효과적으로 완화할 수 있습니다. 필요에 따라 시스템을 보다 사용자 지향적으로 만드십시오. 이 기사에서는 실용적인 가치를 고려할 때 이 작업 분야의 중요성을 강조합니다.

    5.2 데이터 및 기능 개선

    작업 지시는 감독의 간접적인 원천으로 간주되며 때로는 피상적이고 자의적인 규칙이 포함되어 있습니다. 이러한 규칙은 라벨링 기능이라고도 하며 주석에 직접 적용할 수 있습니다(예: "매우 공정한 가격"이라는 문장은 "가격이라는 단어가 공정하다" 바로 앞에 오기 때문에 감정적으로 긍정적입니다). 따라서 일부 기존 작업에서는 지침을 원격 감독으로 사용하여 데이터 또는 기능 향상을 수행하기도 합니다. 예를 들어, Srivastava 등은 의미론적 파서를 사용하여 자연어 설명을 논리적 형식으로 변환하고 이를 데이터 세트의 모든 인스턴스에 적용하여 추가 이진 기능을 생성합니다. Wang et al.은 라벨 해석을 사용하여 원본 코퍼스에 자동으로 주석을 달고 생성된 노이즈 데이터에 대해 분류기를 훈련했습니다. 직접적인 확장 외에도 Su et al.은 모델 표현을 강화하고 강력한 교차 작업 일반화를 달성하기 위해 작업 지침을 추가로 사용했습니다. 특히 그들은 대조 학습을 통해 다양한 명령 데이터세트에 임베딩 모델(단일 인코더)을 훈련한 다음 이 모델을 사용하여 다운스트림 보이지 않는 작업에 대한 명령 기반 작업별 표현을 생성했습니다.

    5.3 Universal Language Model

    AGI(Artificial General Intelligence)의 정의에 따르면 "보편적 모델"은 일반적으로 다양한 작업을 수행할 수 있고 변화하는 환경에서 확장 가능한 시스템입니다. 제작자가 원래 기대했던 것보다 훨씬 더 나아질 것입니다. NLP 도메인에 국한되지만 일반 언어 모델은 다양한 실제 NLP 작업과 다양한 언어를 완전히 제로샷/퓨샷 방식으로 능숙하게 처리할 수 있는 뛰어난 다중 작업 도우미여야 합니다. 많은 기존 작업이 교차 작업 일반화에서 지침을 사용하는 놀라운 능력을 보여주기 때문에 이 지침은 이 궁극적인 목표를 향한 돌파구가 될 가능성이 높습니다.

    최근 주목할만한 두 가지 명령 응용 프로그램인 InstructGPT와 ChatGPT도 일반 언어 모델 구축을 향한 큰 진전을 의미한다는 점은 주목할 가치가 있습니다. 그러나 주로 교육 학습을 채택하는 다른 작업과 달리 ChatGPT는 RLHF(Reinforcement Learning with Human Feedback)와 같은 다른 구성 요소도 채택합니다. "ChatGPT의 우수한 결과에 더 많은 기여를 하는 구성 요소"에 대한 대답은 여전히 ​​모호하고 추가 조사가 필요하지만, 교육 학습의 중요한 역할을 강조하기 위한 최근 연구를 소개합니다. 예를 들어, Chung 등은 PaLM에 대한 인간 선호도 정렬을 평가하기 위해 광범위한 실험을 수행했습니다. 그들은 인간의 피드백 없이도 교육의 미세 조정이 성별 및 직업적 편견과 같은 PaLM 개방형 세대의 독성을 크게 줄인다는 것을 발견했습니다. 또한 일부 다른 작업에서는 인간의 피드백이 아닌 창의적인 지침만 사용하여 중요한 교차 작업 결과를 달성했습니다. ChatGPT는 아직 만족스럽지 못한 측면이 많고 아직 보편적인 언어 모델과는 거리가 멀지만, 교육 학습을 포함한 보다 강력한 기술의 채택과 개발을 통해 AGI의 목표가 계속해서 촉진될 수 있기를 바랍니다.

위 내용은 ChatGPT의 학습 학습은 무엇입니까? PSU는 '교육 학습'에 대한 최초의 종합 리뷰를 발표했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제