이 단계에서 모델 규모의 확장과 Attention-Based Architecture의 등장으로 인해 언어 모델은 전례 없는 다양성을 보여주었습니다. 이러한 LLM(대형 언어 모델)은 제로 샷 및 소수 샷 설정을 포함하여 다양한 작업에서 탁월한 기능을 보여주었습니다.
그러나 모델의 보편성을 기반으로 제어 질문이 발생합니다. LLM이 우리가 요구하는 작업을 수행하도록 하려면 어떻게 해야 할까요?
이 질문에 답하고 LLM을 원하는 행동 방향으로 안내하기 위해 연구자들은 모델 미세 조정, 상황을 통한 학습, 다양한 형태의 프롬프트 생성 등 이 목표를 달성하기 위한 일련의 조치를 취했습니다. , 등. . 프롬프트 기반 방법에는 미세 조정된 소프트 프롬프트와 자연어 프롬프트 엔지니어링이 포함됩니다. 후자는 인간이 기계와 상호 작용할 수 있는 자연스러운 대화형 인터페이스를 제공하기 때문에 많은 연구자들이 후자에 큰 관심을 보였습니다.
그러나 간단한 프롬프트가 항상 원하는 결과를 생성하는 것은 아닙니다. 예를 들어 팬더 이미지를 생성할 때 "귀엽다"와 같은 형용사나 "대나무를 먹어라"와 같은 문구를 추가해도 출력에 영향을 주지 않습니다. 우리는 이해하지 못합니다.
따라서 인간 사용자는 원하는 동작을 완료하도록 모델을 안내하기 위해 다양한 프롬프트를 시도해야 합니다. LLM의 실행은 블랙박스 프로세스로 간주될 수 있습니다. LLM은 광범위한 자연어 프로그램을 실행할 수 있지만 이러한 프로그램은 인간에게 직관적이지 않고 이해하기 매우 어려운 방식으로 처리될 수 있으며, 다운스트림 작업을 수행할 때 교육의 질을 측정합니다.
물어볼 수밖에 없습니다. 대규모 언어 모델이 스스로 프롬프트를 작성할 수 있나요? 대답은, 그럴 수 있을 뿐만 아니라, 인간 수준에도 도달할 수 있다는 것입니다.
효과적인 지침을 생성하고 검증하는 수동 작업량을 줄이기 위해 토론토 대학, 워털루 대학 및 기타 기관의 연구자들은 LLM을 사용하여 지침을 자동으로 생성하고 선택하는 새로운 알고리즘인 APE(Automatic Prompt)를 제안했습니다. 엔지니어). 그들은 이 문제를 자연어 프로그램 합성으로 설명하고 LLM을 사용하여 실행 가능한 후보 솔루션을 생성하고 검색할 수 있는 블랙박스 최적화 문제로 처리할 것을 제안합니다.
연구원들은 LLM의 세 가지 특징에서 출발했습니다. 첫째, LLM은 입력-출력 쌍 형태의 소규모 데모 세트를 기반으로 명령 후보를 생성하는 추론 모델로 사용됩니다. 다음으로 검색 프로세스를 안내하기 위해 LLM의 각 지침을 통해 점수가 계산됩니다. 마지막으로 그들은 LLM이 의미상 유사한 명령어 변형을 제안하여 최상의 후보 명령어를 개선하는 반복 몬테카를로 검색 방법을 제안합니다.
직관적으로 본 논문에서 제안한 알고리즘은 LLM이 데모를 기반으로 일련의 명령어 후보를 생성한 다음 알고리즘에 어떤 명령어가 더 유망한지 평가하도록 요청하며 알고리즘 이름은 APE입니다.
이 기사의 기여는 다음과 같습니다.
이 연구를 본 네티즌들은 한숨을 쉬었습니다. 갓 입사한 발 빠른 엔지니어는 몇 달 안에 AI에 의해 제거될 수도 있습니다. 이는 이 연구가 인간의 즉각적인 엔지니어의 작업을 빼앗아 갈 것이라는 의미입니다.
"이 연구는 ML에 종사하는 연구자들이 실제 알고리즘 문제로 돌아갈 수 있도록 신속한 엔지니어링을 자동화하기 위해 최선을 다합니다(울고 있는 이모티콘 2개 첨부)."
다른 사람들은 한탄했습니다. LLM은 실제로 원래 AGI의 중심입니다.
APE는 제안서와 채점의 핵심 구성 요소 모두에서 LLM을 사용합니다.
그림 2와 아래 알고리즘 1에서 볼 수 있듯이 APE는 먼저 여러 후보 프롬프트를 제안한 다음 선택한 점수 함수에 따라 후보 세트를 필터링/정제하고 마지막으로 점수가 가장 높은 명령을 선택합니다.
아래 그림은 APE의 실행 과정을 보여줍니다. 직접적인 추론이나 의미적 유사성을 기반으로 한 재귀적 프로세스를 통해 여러 후보 프롬프트를 생성하고 성능을 평가하며 반복적으로 새로운 프롬프트를 제안할 수 있습니다.
초기 제안 배포
검색 공간이 무한히 크기 때문에 올바른 명령어를 찾는 것이 극히 어렵기 때문에 역사적으로 자연어 프로그램 합성을 처리하기가 어려웠습니다. 이를 바탕으로 연구원들은 사전 훈련된 LLM을 활용하여 검색 프로세스를 안내할 후보 솔루션을 제안하는 것을 고려했습니다.
그들은 우수한 후보자를 생성하기 위해 두 가지 방법을 고려합니다. 첫째, 순방향 패턴 생성 기반 방법을 채택한다. 또한 패딩 기능(예: T5, GLM, InsertGPT)이 있는 LLM을 사용하여 누락된 명령을 추론하는 역방향 패턴 생성도 고려했습니다.
점수 함수
문제를 블랙박스 최적화 문제로 변환하기 위해 연구자들은 데이터 세트와 생성된 데이터 간의 정렬을 정확하게 측정하기 위해 점수 함수를 선택했습니다. 모델.
귀납적 실험에서 연구자들은 두 가지 잠재적 채점 기능을 고려했습니다. TruthfulQA 실험에서 연구자들은 실행 정확도와 유사하게 Lin 등이 제안한 자동화 측정항목에 주로 중점을 두었습니다.
각 경우에 연구원은 다음 공식(1)을 사용하여 생성된 지침의 품질과 보유 테스트 데이터 세트 Dtest에 대한 기대치를 평가합니다.
연구원들은 예상되는 동작을 달성하기 위해 APE가 LLM을 어떻게 안내하는지 연구했습니다. 제로샷 성능, 퓨샷 상황 학습 성능, 진정성(진실성)이라는 세 가지 관점에서 진행됩니다.
연구원들은 Honovich 등이 제안한 24가지 수업 유도 과제에 대해 제로샷 및 프리샷 상황 학습을 평가했습니다. 이러한 작업은 단순한 구문 구조부터 유사성 및 인과 관계 인식에 이르기까지 언어 이해의 다양한 측면을 다룹니다. APE에서 생성된 지침이 LLM을 안내하여 다양한 스타일의 답변을 생성하는 방법을 이해하기 위해 이 문서에서는 데이터 세트인 TruthfulQA에 APE를 적용합니다.
제로샷 테스트 정확도 측면에서 APE는 24개 작업 중 19개 작업에서 인간 수준의 성능을 달성했습니다.
Few-Shot 상황 테스트 정확도를 위해 APE는 24개 작업 중 21개 작업에서 Few-Shot 상황 학습 성능을 향상시킵니다.
연구원들은 또한 APE 프롬프트를 Lin 등이 제안한 인공 프롬프트와 비교했습니다. 그림 (a)는 APE 명령이 세 가지 지표 모두에서 인간 프롬프트보다 성능이 우수하다는 것을 보여줍니다. 그림 (b)는 진실성과 정보성 간의 균형을 보여줍니다.
자세한 내용은 원문을 참고해주세요.
위 내용은 AI는 인간과 유사한 프롬프트를 자동으로 생성합니다. 네티즌: 엔지니어는 방금 고용되었으며 다시 제거됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!