자연어 처리 작업에서 대규모 언어 모델은 제로샷 및 퓨샷 학습에서 인상적인 결과를 달성했습니다. 그러나 모든 모델에는 추가 확장을 통해 부분적으로만 해결될 수 있는 본질적인 한계가 있습니다. 구체적으로 모델의 한계로는 최신 정보에 접근할 수 없다는 점, 사실에 대한 '정보 환각', 저자원 언어 이해의 어려움, 정확한 계산을 위한 수학적 능력 부족 등이 있습니다.
이러한 문제를 해결하는 간단한 방법은 모델에 검색 엔진, 계산기 또는 달력과 같은 외부 도구를 장착하는 것입니다. 그러나 기존 방법은 종종 광범위한 수동 주석에 의존하거나 도구 사용을 특정 작업 설정으로 제한하여 외부 도구와 결합된 언어 모델의 사용을 일반화하기 어렵게 만듭니다.
이 병목 현상을 해결하기 위해 Meta AI는 최근 언어 모델이 다양한 외부 도구를 "사용"하는 방법을 학습할 수 있는 Toolformer라는 새로운 방법을 제안했습니다.
논문 주소: https://arxiv.org/pdf/2302.04761v1.pdf
Toolformer는 곧 큰 주목을 받았고, 이 논문이 문제를 해결했다고 생각하는 사람들도 있습니다. 현재 대규모 언어 모델에는 많은 문제가 있으며 그는 "이것은 최근 몇 주 동안 가장 중요한 논문입니다."라고 칭찬했습니다.
누군가는 Toolformer가 자기 지도 학습을 사용하여 대규모 언어 모델이 몇 개의 샘플만으로 일부 API 및 도구를 사용하는 방법을 학습할 수 있다는 점을 지적했습니다. 이는 매우 유연하고 효율적입니다.
어떤 사람들은 Toolformer가 우리를 인공일반지능(AGI)에 한발 더 가까이 다가갈 것이라고 생각하기도 합니다.
Toolformer는 다음과 같은 실질적인 요구 사항을 충족하기 때문에 매우 높은 평가를 받았습니다.
이것은 위에서 언급한 병목 현상을 분명히 해결합니다. Toolformer의 방법과 실험 결과를 자세히 살펴보겠습니다.
Toolformer는 다음과 같은 기능을 갖춘 대규모 언어 모델을 기반으로 처음부터 데이터 세트를 생성한다는 아이디어(Schick and Schütze, 2021b; Honovich et al., 2022; Wang et al., 2022)를 기반으로 합니다. 컨텍스트 학습(ICL): API를 사용하는 인간의 샘플이 몇 개만 주어지면 LM이 잠재적인 API 호출로 거대한 언어 모델링 데이터세트에 주석을 달도록 한 다음 자체 감독 손실 함수를 사용하여 실제로 모델 예측에 도움이 되는 API 호출을 결정할 수 있습니다. 향후 토큰, 그리고 마지막으로 LM 자체에 유용한 API 호출을 기반으로 미세 조정합니다.
Toolformer는 사용된 데이터 세트에 구애받지 않기 때문에 모델이 사전 훈련된 것과 정확히 동일한 데이터 세트에 사용할 수 있으므로 모델이 일반성과 언어 모델링 기능을 잃지 않습니다.
구체적으로 이 연구의 목표는 언어 모델 M에 API 호출을 통해 다양한 도구를 사용할 수 있는 기능을 제공하는 것입니다. 이를 위해서는 각 API의 입력 및 출력이 텍스트 시퀀스로 특성화될 수 있어야 합니다. 이를 통해 각 호출의 시작과 끝을 표시하는 데 사용되는 특수 토큰을 사용하여 API 호출을 특정 텍스트에 원활하게 삽입할 수 있습니다.
이 연구는 각 API 호출을 튜플로 표현합니다
, 여기서 a_c는 API의 이름이고 i_c는 해당 입력입니다. 해당 결과 r이 있는 API 호출 c가 주어지면 이 연구는 결과를 제외하고 포함하는 선형화된 API 호출 순서를
여기서,
데이터세트
가 주어지면 연구에서는 먼저 API 호출을 추가하여 이 데이터세트를 데이터세트 C*로 변환했습니다. 이는 아래 그림 2에 표시된 것처럼 세 단계로 수행됩니다. 먼저 연구에서는 M의 상황 내 학습 기능을 활용하여 다수의 잠재적 API 호출을 샘플링한 다음 이러한 API 호출을 실행하고 얻은 응답이 예측에 도움이 되는지 확인합니다. 필터링 기준으로 사용될 미래 토큰입니다. 필터링 후 연구에서는 API 호출을 다른 도구에 병합하여 궁극적으로 데이터 세트 C*를 생성하고 이 데이터 세트에서 M 자체를 미세 조정합니다.
이 연구에서는 다양한 다운스트림 작업에 대한 실험을 수행했으며 결과는 다음과 같습니다. 사전 학습된 6.7B 매개변수를 기반으로 Toolformer(다양한 API 사용 방법 학습) GPT-J 모델 및 도구)는 다양한 작업에서 더 큰 GPT-3 모델 및 기타 여러 기준보다 훨씬 뛰어난 성능을 발휘합니다.
이 연구에서는 LAMA 벤치마크의 SQuAD, GoogleRE 및 T-REx 하위 집합에 대한 여러 모델을 평가했으며 실험 결과는 아래 표 3에 나와 있습니다.
Toolformer Inference의 수학을 테스트하려면 기능, 본 연구에서는 ASDiv, SVAMP 및 MAWPS 벤치마크에 대한 실험을 수행했습니다. 실험에 따르면 Toolformer는 대부분의 경우 계산기 도구를 사용하며 이는 OPT(66B) 및 GPT-3(175B)보다 훨씬 뛰어납니다.
질문 응답 측면에서 본 연구는 웹 질문, 자연 질문 및 TriviaQA의 세 가지 질의 응답 데이터 세트에 대한 실험을 수행했습니다. Toolformer는 동일한 크기의 기본 모델보다 성능이 크게 뛰어나지만 GPT-3(175B)보다 열등합니다.
언어 간 작업 측면에서 본 연구에서는 Toolformer와 MLQA의 모든 기본 모델을 비교했으며 그 결과는 아래 표 6과 같습니다.
달력 API 연구 유용성을 입증하기 위해 이 연구에서는 TEMPLAMA에 대한 여러 모델과 DATESET이라는 새로운 데이터 세트를 실험합니다. Toolformer는 모든 기준보다 성능이 뛰어나지만 TEMPLAMA 달력 도구를 사용하지 않습니다.
다양한 다운스트림 작업의 성능 향상을 검증하는 것 외에도, 본 연구에서는 API 호출의 미세 조정으로 인해 Toolformer의 언어 모델링 성능이 저하되지 않는지 확인하기를 희망합니다. 이를 위해 본 연구에서는 두 가지 언어 모델링 데이터셋을 대상으로 실험을 수행하여 평가하였으며, 모델의 Perplexity는 아래 표 8과 같다.
API 호출이 없는 언어 모델링의 경우 API 호출을 추가하는 데 비용이 들지 않습니다.
마지막으로 연구자들은 언어 모델의 규모가 커짐에 따라 외부 도구의 도움을 구하는 기능이 모델 성능에 미치는 영향을 분석했습니다. 분석 결과는 아래 그림 4에 나와 있습니다
관심 있는 독자는 원본 논문을 읽고 더 많은 연구 세부 사항을 알아볼 수 있습니다.
위 내용은 언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!