현재 LLM(대형 언어 모델)은 특히 예제와 중간 단계가 제공되는 경우 추론 작업에 대한 놀라운 기능을 보여줍니다. 그러나 프롬프트 방법은 대개 LLM의 암시적 지식에 의존하며, 암시적 지식이 틀리거나 작업과 일치하지 않는 경우 LLM이 잘못된 답변을 제공할 수 있습니다
현재 Google, Mila Institute 등에서 연구 기관들은 LLM이 추론 규칙을 학습할 수 있도록 하는 새로운 방법을 공동으로 탐구하고 HtT(가설-이론)라는 새로운 프레임워크를 제안했습니다. 이 새로운 방법은 다단계 추론을 향상시킬 뿐만 아니라 해석 가능성과 전달 가능성의 장점도 가지고 있습니다
논문 주소: https://arxiv.org/abs/2310.07064
에 따르면 수치추론과 관계추론 문제에 대한 결과는 HtT 방법이 기존 프롬프트 방법을 개선하고 정확도를 11~27% 증가시키는 것으로 나타났습니다. 동시에, 학습된 규칙은 동일한 문제의 다른 모델이나 다른 형태로 이전될 수도 있습니다
방법 소개
일반적으로 HtT 프레임워크에는 귀납적 단계와 연역적이라는 두 단계가 포함됩니다. 단계. 기존 기계 학습의 훈련 및 테스트와 유사합니다.
유도 단계에서 LLM은 먼저 훈련 예제에 대한 규칙 세트를 생성하고 확인해야 합니다. 본 연구에서는 CoT를 사용하여 규칙을 선언하고 답을 도출하고, 규칙의 빈도와 정확성을 평가하고, 자주 등장하여 정답으로 이어지는 규칙을 수집하고, 규칙 기반을 형성합니다
좋은 규칙 기반을 갖춘 다음 단계는 다음과 같습니다. 이 연구를 적용하려면 이러한 규칙이 문제를 해결합니다. 이를 위해 추론 단계에서 본 연구에서는 프롬프트에서 규칙 베이스를 추가하고 LLM이 규칙 베이스에서 규칙을 검색하여 추론을 수행하고 암묵적 추론을 명시적 추론으로 변환하도록 요구합니다.
그러나 연구 결과에 따르면 매우 강력한 LLM(예: GPT-4)이라도 모든 단계에서 올바른 규칙을 검색하는 데 어려움을 겪는 것으로 나타났습니다. 따라서 본 연구에서는 LLM의 컨텍스트 검색 기능을 향상시키기 위한 XML 마크업 기법을 개발합니다.
실험 결과
HtT를 평가하기 위해 본 연구에서는 두 가지 다단계 추론 문제를 벤치마킹합니다. 실험 결과는 HtT가 소수 샘플 프롬프트 방법을 개선한다는 것을 보여줍니다. 저자들은 또한 HtT에 대한 보다 포괄적인 이해를 제공하기 위해 광범위한 절제 연구를 수행했습니다.
수치적 추론과 관계형 추론 문제에 대한 새로운 방법을 평가합니다. 수치 추론에서 그들은 GPT-4의 정확도가 21.0% 향상되는 것을 관찰했습니다. 관계형 추론에서 GPT-4는 정확도가 13.7% 향상되었으며, GPT-3.5는 훨씬 더 많은 이점을 얻어 성능이 두 배 향상되었습니다. 성능 향상은 주로 규칙 환상의 감소에서 비롯됩니다.
구체적으로 아래 표 1은 산술의 16진수, 11진수, 9진수 데이터세트에 대한 결과를 보여줍니다. 모든 기본 시스템 중에서 0샷 CoT는 두 LLM 모두에서 최악의 성능을 나타냅니다.
표 2는 CLUTRR의 다양한 방법을 비교한 결과를 보여줍니다. 0-shot CoT는 GPT3.5와 GPT4에서 가장 나쁜 성능을 보이는 것을 볼 수 있습니다. 몇 번의 프롬프트 방법의 경우 CoT와 LtM은 유사하게 수행됩니다. 평균 정확도 측면에서 HtT는 두 모델의 힌트 방법보다 지속적으로 11.1~27.2% 더 우수합니다. GPT3.5는 CLUTRR 규칙을 검색하는 데 나쁘지 않으며 GPT4보다 HtT에서 더 많은 이점을 얻는다는 점은 주목할 가치가 있습니다. 아마도 산술보다 CLUTRR에 규칙이 적기 때문일 것입니다.
GPT4의 규칙을 사용하면 GPT3.5의 CoT 성능이 27.2% 향상된다는 점을 언급할 가치가 있습니다. 이는 CoT 성능의 두 배 이상이며 GPT4의 CoT 성능에 가깝습니다. 따라서 저자는 HtT가 강력한 LLM에서 약한 LLM으로의 새로운 형태의 지식 증류 역할을 할 수 있다고 믿습니다.
표 3은 HtT가 GPT-4(텍스트 버전)의 성능을 크게 향상시키는 것을 보여줍니다. 이러한 개선 사항은 GPT3.5에서는 중요하지 않습니다. 텍스트 입력을 처리할 때 규칙 환상 이외의 오류가 자주 발생하기 때문입니다.
위 내용은 GPT-4는 DeepMind 훈련을 통해 정확도를 13.7% 향상시켜 더 나은 유도 및 추론 능력을 달성했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

내 칼럼을 처음 접할 수있는 분들을 위해, 나는 구체화 된 AI, AI 추론, AI의 첨단 획기적인 혁신, AI 교육, AI의 수비, ai re

유럽의 야심 찬 AI 대륙 행동 계획은 EU를 인공 지능의 글로벌 리더로 설립하는 것을 목표로합니다. 핵심 요소는 AI Gigafactories 네트워크를 만드는 것입니다. 각각 약 100,000 개의 고급 AI 칩을 보유하고 있습니다 - Capaci의 4 배

AI 에이전트 애플리케이션에 대한 Microsoft의 통합 접근 방식 : 비즈니스를위한 명확한 승리 새로운 AI 에이전트 기능에 관한 Microsoft의 최근 발표는 명확하고 통합 된 프레젠테이션에 깊은 인상을 받았습니다. 많은 기술 발표와는 달리 TE에서 멍청한 것입니다

Shopify CEO Tobi Lütke의 최근 메모는 AI 숙련도가 모든 직원에 대한 근본적인 기대를 대담하게 선언하여 회사 내에서 중요한 문화적 변화를 표시합니다. 이것은 도망가는 트렌드가 아닙니다. 그것은 p에 통합 된 새로운 운영 패러다임입니다

IBM의 Z17 메인 프레임 : 향상된 비즈니스 운영을 위해 AI를 통합합니다 지난 달, IBM의 뉴욕 본사에서 Z17의 기능을 미리 보았습니다. Z16의 성공을 기반으로 (2022 년에 시작되어 지속적인 수익을 보여주는 시연

흔들리지 않는 자신감을 해제하고 외부 검증의 필요성을 제거하십시오! 이 다섯 개의 chatgpt 프롬프트는 완전한 자립과 자기 인식의 변형적인 변화로 당신을 안내 할 것입니다. 간단히 괄호를 복사, 붙여 넣기 및 사용자 정의하십시오

인공 지능 보안 및 연구 회사 인 Anthropic의 최근 [연구]는 이러한 복잡한 과정에 대한 진실을 밝히기 시작하여 우리 자신의인지 영역과 방해가되는 복잡성을 보여줍니다. 자연 지능과 인공 지능은 우리가 생각하는 것보다 더 유사 할 수 있습니다. 내부 스누핑 : 의인성 해석 가능성 연구 Anthropic이 수행 한 연구에서 얻은 새로운 연구 결과는 AI의 내부 컴퓨팅을 역 엔지니어링하는 것을 목표로하는 기계적 해석 성 분야에서 상당한 발전을 나타냅니다. AI가하는 일을 관찰 할뿐만 아니라 인공 뉴런 수준에서 어떻게 수행하는지 이해합니다. 누군가가 특정한 대상을 보거나 특정한 아이디어에 대해 생각할 때 어떤 뉴런이 발사하는지 그림으로 뇌를 이해하려고한다고 상상해보십시오. 에이

Qualcomm 's Dragonwing : 기업 및 인프라로의 전략적 도약 Qualcomm은 새로운 Dragonwing 브랜드를 통해 전 세계적으로 엔터프라이즈 및 인프라 시장을 대상으로 모바일을 넘어 범위를 적극적으로 확장하고 있습니다. 이것은 단지 Rebran이 아닙니다


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

드림위버 CS6
시각적 웹 개발 도구

뜨거운 주제



