>기술 주변기기 >일체 포함 >GPT-4는 DeepMind 훈련을 통해 정확도를 13.7% 향상시켜 더 나은 유도 및 추론 능력을 달성했습니다.

GPT-4는 DeepMind 훈련을 통해 정확도를 13.7% 향상시켜 더 나은 유도 및 추론 능력을 달성했습니다.

WBOY
WBOY앞으로
2023-10-14 20:13:03855검색

현재 LLM(대형 언어 모델)은 특히 예제와 중간 단계가 제공되는 경우 추론 작업에 대한 놀라운 기능을 보여줍니다. 그러나 프롬프트 방법은 대개 LLM의 암시적 지식에 의존하며, 암시적 지식이 틀리거나 작업과 일치하지 않는 경우 LLM이 잘못된 답변을 제공할 수 있습니다

GPT-4는 DeepMind 훈련을 통해 정확도를 13.7% 향상시켜 더 나은 유도 및 추론 능력을 달성했습니다.

현재 Google, Mila Institute 등에서 연구 기관들은 LLM이 추론 규칙을 학습할 수 있도록 하는 새로운 방법을 공동으로 탐구하고 HtT(가설-이론)라는 새로운 프레임워크를 제안했습니다. 이 새로운 방법은 다단계 추론을 향상시킬 뿐만 아니라 해석 가능성과 전달 가능성의 장점도 가지고 있습니다

GPT-4는 DeepMind 훈련을 통해 정확도를 13.7% 향상시켜 더 나은 유도 및 추론 능력을 달성했습니다.

논문 주소: https://arxiv.org/abs/2310.07064

에 따르면 수치추론과 관계추론 문제에 대한 결과는 HtT 방법이 기존 프롬프트 방법을 개선하고 정확도를 11~27% 증가시키는 것으로 나타났습니다. 동시에, 학습된 규칙은 동일한 문제의 다른 모델이나 다른 형태로 이전될 수도 있습니다

방법 소개

일반적으로 HtT 프레임워크에는 귀납적 단계와 연역적이라는 두 단계가 포함됩니다. 단계. 기존 기계 학습의 훈련 및 테스트와 유사합니다.

GPT-4는 DeepMind 훈련을 통해 정확도를 13.7% 향상시켜 더 나은 유도 및 추론 능력을 달성했습니다.

유도 단계에서 LLM은 먼저 훈련 예제에 대한 규칙 세트를 생성하고 확인해야 합니다. 본 연구에서는 CoT를 사용하여 규칙을 선언하고 답을 도출하고, 규칙의 빈도와 정확성을 평가하고, 자주 등장하여 정답으로 이어지는 규칙을 수집하고, 규칙 기반을 형성합니다

좋은 규칙 기반을 갖춘 다음 단계는 다음과 같습니다. 이 연구를 적용하려면 이러한 규칙이 문제를 해결합니다. 이를 위해 추론 단계에서 본 연구에서는 프롬프트에서 규칙 베이스를 추가하고 LLM이 규칙 베이스에서 규칙을 검색하여 추론을 수행하고 암묵적 추론을 명시적 추론으로 변환하도록 요구합니다.

그러나 연구 결과에 따르면 매우 강력한 LLM(예: GPT-4)이라도 모든 단계에서 올바른 규칙을 검색하는 데 어려움을 겪는 것으로 나타났습니다. 따라서 본 연구에서는 LLM의 컨텍스트 검색 기능을 향상시키기 위한 XML 마크업 기법을 개발합니다.

GPT-4는 DeepMind 훈련을 통해 정확도를 13.7% 향상시켜 더 나은 유도 및 추론 능력을 달성했습니다.

실험 결과

HtT를 평가하기 위해 본 연구에서는 두 가지 다단계 추론 문제를 벤치마킹합니다. 실험 결과는 HtT가 소수 샘플 프롬프트 방법을 개선한다는 것을 보여줍니다. 저자들은 또한 HtT에 대한 보다 포괄적인 이해를 제공하기 위해 광범위한 절제 연구를 수행했습니다.

수치적 추론과 관계형 추론 문제에 대한 새로운 방법을 평가합니다. 수치 추론에서 그들은 GPT-4의 정확도가 21.0% 향상되는 것을 관찰했습니다. 관계형 추론에서 GPT-4는 정확도가 13.7% 향상되었으며, GPT-3.5는 훨씬 더 많은 이점을 얻어 성능이 두 배 향상되었습니다. 성능 향상은 주로 규칙 환상의 감소에서 비롯됩니다.

GPT-4는 DeepMind 훈련을 통해 정확도를 13.7% 향상시켜 더 나은 유도 및 추론 능력을 달성했습니다.

구체적으로 아래 표 1은 산술의 16진수, 11진수, 9진수 데이터세트에 대한 결과를 보여줍니다. 모든 기본 시스템 중에서 0샷 CoT는 두 LLM 모두에서 최악의 성능을 나타냅니다.

GPT-4는 DeepMind 훈련을 통해 정확도를 13.7% 향상시켜 더 나은 유도 및 추론 능력을 달성했습니다.

표 2는 CLUTRR의 다양한 방법을 비교한 결과를 보여줍니다. 0-shot CoT는 GPT3.5와 GPT4에서 가장 나쁜 성능을 보이는 것을 볼 수 있습니다. 몇 번의 프롬프트 방법의 경우 CoT와 LtM은 유사하게 수행됩니다. 평균 정확도 측면에서 HtT는 두 모델의 힌트 방법보다 지속적으로 11.1~27.2% 더 우수합니다. GPT3.5는 CLUTRR 규칙을 검색하는 데 나쁘지 않으며 GPT4보다 HtT에서 더 많은 이점을 얻는다는 점은 주목할 가치가 있습니다. 아마도 산술보다 CLUTRR에 규칙이 적기 때문일 것입니다.

GPT4의 규칙을 사용하면 GPT3.5의 CoT 성능이 27.2% 향상된다는 점을 언급할 가치가 있습니다. 이는 CoT 성능의 두 배 이상이며 GPT4의 CoT 성능에 가깝습니다. 따라서 저자는 HtT가 강력한 LLM에서 약한 LLM으로의 새로운 형태의 지식 증류 역할을 할 수 있다고 믿습니다.

GPT-4는 DeepMind 훈련을 통해 정확도를 13.7% 향상시켜 더 나은 유도 및 추론 능력을 달성했습니다.

표 3은 HtT가 GPT-4(텍스트 버전)의 성능을 크게 향상시키는 것을 보여줍니다. 이러한 개선 사항은 GPT3.5에서는 중요하지 않습니다. 텍스트 입력을 처리할 때 규칙 환상 이외의 오류가 자주 발생하기 때문입니다.

GPT-4는 DeepMind 훈련을 통해 정확도를 13.7% 향상시켜 더 나은 유도 및 추론 능력을 달성했습니다.

GPT-4는 DeepMind 훈련을 통해 정확도를 13.7% 향상시켜 더 나은 유도 및 추론 능력을 달성했습니다.

위 내용은 GPT-4는 DeepMind 훈련을 통해 정확도를 13.7% 향상시켜 더 나은 유도 및 추론 능력을 달성했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제