MIT, '고급 수학' 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달-일체 포함-php.cn

집

기술 주변기기

일체 포함

MIT, '고급 수학' 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 04:04 PM

openaimit사전 훈련된 모델

초등 수학 단어 문제뿐만 아니라, 고급 수학도 AI가 정복하기 시작했습니다!

최근 MIT 연구진은 OpenAI Codex 사전 학습 모델을 기반으로 퓨샷 학습을 통해 학부 수준의 수학 문제에서 81%의 정확도를 달성했다고 발표했습니다!

MIT, 고급 수학 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달

페이퍼 링크: https://arxiv.org/abs/2112.15594
코드 링크: https://github.com/idrori/mathq

몇 가지 작은 질문에 대한 답변을 살펴보겠습니다. 단일 변수 함수의 그래프를 축을 중심으로 회전시켜 생성된 부피 계산, 로렌츠 어트랙터 및 투영 계산, 특이값 분해(SVD)의 기하학적 형태 계산 및 묘사와 같은 질문을 먼저 해야 올바르게 답할 수 있을 뿐만 아니라 , 그러나 해당 설명을 제공할 수도 있습니다!

MIT, 고급 수학 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달

정말 믿기지 않습니다. 과거를 돌이켜보면 높은 점수는 모두 지나갔습니다. 이제 AI가 한방에 81점을 얻을 수 있게 되었다고 일방적으로 선언합니다.

더 놀라운 점은 일반적인 머신러닝 모델로는 해결하기 어려운 문제를 해결하는 것 외에도 이 기술이 대규모로 홍보될 수 있고 해당 강좌 및 유사한 강좌에서 문제를 해결할 수 있다는 사실을 이번 연구를 통해 보여줍니다.

단일 머신러닝 모델이 이렇게 대규모 수학 문제를 해결할 수 있을 뿐만 아니라, 설명하고 그림을 그리며 새로운 질문을 생성할 수도 있는 것은 역사상 최초이기도 합니다!

사실 이 논문은 개정된 지 반년 만에 114페이지에서 181페이지로 늘어났습니다. 부록에는 A부터 Z까지 번호가 매겨져 있습니다. .

MIT, 고급 수학 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달

이 기사에는 MIT, 컬럼비아 대학교, 하버드 대학교, 워털루 대학교 등 4개의 주요 저자 단위가 있습니다.

제1저자 Iddo Drori는 MIT 전기공학 및 컴퓨터과학과 AI학과 강사이자 컬럼비아대학교 공학 및 응용과학대학 겸임 부교수입니다. CCAI NeurIPS 2021 최우수 논문상을 수상했습니다.

MIT, 고급 수학 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달

그의 주요 연구 방향은 기계가 대학 수준의 수학을 해결하고 설명하고 생성하도록 하는 교육용 기계 학습과 극심한 기후 변화를 기반으로 예측하고 모니터링하는 기후 과학을 위한 STEM 기계 학습입니다. 수천 년의 기후 데이터를 기반으로 대서양의 해양 생지화학의 다년간의 변화를 예측하기 위한 다학제적 작업 통합, 자율 주행을 위한 기계 학습 알고리즘 등

그는 Cambridge University Press에서 출판한 The Science of Deep Learning의 저자이기도 합니다.

고등 교육의 이정표

이 논문 이전에 대부분의 연구자들은 신경망이 숫자가 큰 문제를 처리할 수 없으며 몇 가지 간단한 수학적 문제만 해결할 수 있다고 믿었습니다.

Transformer 모델이 다양한 NLP 작업에서 인간의 성능을 능가하더라도 수학적 문제를 해결하는 데는 여전히 나쁘지 않습니다. 주된 이유는 GPT-3와 같은 다양한 대형 모델이 텍스트 데이터로만 사전 훈련되기 때문입니다.

나중에 일부 연구자들은 언어 모델이 여전히 단계별 분석(생각의 사슬)을 통해 몇 가지 간단한 수학적 질문을 추론하고 대답할 수 있지만 고급 수학 문제는 해결하기가 쉽지 않다는 것을 발견했습니다.

MIT, 고급 수학 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달

목표가 숫자가 높은 문제인 경우 먼저 일련의 훈련 데이터를 수집해야 합니다.

저자는 다음을 포함하여 MIT의 7개 과정 각각에서 25개의 질문을 무작위로 선택했습니다.

18.01 단일 변수 미적분
18.02 다변수 미적분
18.03 미분 방정식
18.05 확률 및 통계 소개
18.06 선형 대수 브라
6.042 컴퓨터 과학 수학
COMS3251 컬럼비아 대학의 전산 선형 대수

MATH 데이터 세트의 경우 연구원들은 데이터 세트의 6가지 주제(대수학, 계산 및 확률, 중급 대수학, 정수론, 예비 대수학)의 데이터를 연구했습니다. ) 대수학 및 예비 대학에서 무작위로 선택된 15개의 질문).

모델에서 생성된 결과가 훈련 데이터에 과적합되지 않는지 검증하기 위해 연구진은 생성된 결과를 검증하기 위해 인터넷에 공개되지 않은 COMS3251 과정을 선택했습니다.

MIT, 고급 수학 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달

Workflow

모델은 강좌 질문을 입력으로 받은 다음, 이에 대한 맥락을 바탕으로 자동 확대를 수행하고, 합성된 프로그램을 생성하고, 최종적으로 답변과 생성된 설명을 출력합니다.

질문에 따라 출력 결과가 다를 수 있습니다. 예를 들어 18.01에 대한 답은 방정식이고, 18.02에 대한 답은 부울 값이고, 18.03과 18.06에 대한 답은 그래프 또는 벡터이고, 18.05에 대한 답은 다를 수 있습니다. 숫자 값입니다.

MIT, 고급 수학 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달

질문을 받으면 첫 번째 단계는 모델이 질문과 관련된 맥락을 찾도록 하는 것입니다. 연구진은 주로 Codex에서 생성된 Python 프로그램에 중점을 두었기 때문에 질문 앞에 "프로그램 작성"이라는 텍스트를 추가하고 해당 텍스트를 Python 프로그램의 따옴표 세 개 안에 배치하여 프로그램에서 독스트링인 것처럼 가장했습니다.

프로그램을 생성한 후 가져올 라이브러리를 지정하려면 Codex 프롬프트가 필요합니다. 저자는 문제를 해결하기 위해 합성된 프로그램이 이 패키지를 사용해야 함을 지정하여 질문 앞에 "use Sympy" 문자열을 추가하기로 결정했습니다.

각 강좌에서 사용하는 Python 프로그래밍 패키지 수를 세어보면 모든 강좌에서 NumPy와 Sympy를 사용하고 있음을 알 수 있습니다. Matplotlib은 플로팅이 필요한 문제가 있는 강좌에만 사용됩니다. 강좌의 약 절반이 수학, 무작위 및 SciPy를 사용합니다. 실제 작업 과정에서 연구진은 SymPy나 도면 관련 패키지만 가져오도록 지정했고, 가져온 다른 패키지는 자동으로 합성했다.

MIT, 고급 수학 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달

제로샷 학습을 활용하면, 즉 원래 문제에 대한 자동 향상만을 사용하면 문제의 71%가 자동으로 해결될 수 있습니다.

문제를 해결할 수 없는 경우 연구자들은 이러한 문제를 해결하기 위해 퓨샷 학습을 사용하려고 합니다.

먼저 OpenAI의 text-similarity-babbag-001 임베딩 엔진을 사용하여 모든 문제의 2048차원 임베딩을 얻은 다음 모든 벡터에 대해 코사인 유사성 계산을 사용하여 해결된 문제와 가장 유사한 미해결 문제를 찾습니다. 마지막으로 가장 유사한 문제와 해당 코드가 새로운 문제의 몇 가지 예시로 사용됩니다.

생성된 코드가 정답을 출력하지 않는 경우 다음 유사한 해결 문제를 사용할 때마다 또 다른 해결 질문-코드 쌍을 추가하세요.

실제로는 Few-Shot 학습에 최대 5개의 예제를 사용하는 것이 가장 좋은 효과를 볼 수 있으며, 자동으로 풀 수 있는 문제의 총 개수는 Zero-Shot 학습의 71%에서 81%로 증가합니다. -샷 학습.

나머지 19%의 문제를 해결하려면 인간 편집자가 개입해야 합니다.

연구원들은 먼저 모든 질문을 수집한 결과 대부분이 영화 캐릭터에 대한 언급이나 시사 문제 등 모호하거나 중복된 정보를 포함하고 있음을 발견했습니다. 질문의 본질을 추출하려면 질문을 정리해야 했습니다.

질문 정렬에는 주로 중복된 정보를 제거하고, 긴 문장 구조를 더 작은 구성 요소로 나누고, 프롬프트를 프로그래밍 형식으로 변환하는 작업이 포함됩니다.

수동 개입이 필요한 또 다른 상황은 질문에 대한 답변을 설명하기 위해 여러 단계의 그리기가 필요하다는 것입니다. 즉, 원하는 시각화 효과가 달성될 때까지 Codex를 대화형으로 프롬프트해야 합니다.

MIT, 고급 수학 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달

모델은 답변을 생성하는 것 외에도 "위의 코드가 수행하는 작업은 다음과 같습니다. 1"이라는 프롬프트 단어를 사용하여 모델을 생성할 수 있어야 합니다. 단계별 설명 결과.

질문에 답한 후 다음 단계는 Codex를 사용하여 각 코스에 대한 새로운 질문을 생성하는 것입니다.

연구원들은 각 수업에서 학생들이 작성한 질문 목록을 무작위로 작성한 후 잘라냈고, 그 결과는 Codex가 다음 질문을 생성하는 데 사용되었습니다.

이 과정은 각 코스마다 새로운 질문이 충분히 생성될 때까지 반복됩니다.

생성된 질문을 평가하기 위해 연구자들은 이러한 과정이나 그에 상응하는 과정을 수강한 MIT 학생들을 대상으로 설문조사를 실시하여 기계 생성 질문의 품질과 난이도를 원래 과정과 비교했습니다.

MIT, 고급 수학 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달

학생 설문조사 결과에서 다음을 확인할 수 있습니다.

기계 채점의 품질은 이미 인간 질문의 품질과 비슷합니다.
난이도 측면에서는 인간 질문이 코스 질문에 더 적합한 반면 기계 생성 결과는 약간 더 어렵습니다. 학생들은 인간에게 가장 가까운 질문이 18.01 과정

참고:

https://www.reddit.com/r/artificial/comments/v8liqh/researchers_built_a_neural_network_that_not_only임을 확인할 수 있습니다. /

위 내용은 MIT, '고급 수학' 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Gemma Scope : AI의 사고 과정으로 들여다 보는 Google의 현미경Apr 17, 2025 am 11:55 AM

젬마 범위로 언어 모델의 내부 작업 탐색 AI 언어 모델의 복잡성을 이해하는 것은 중요한 도전입니다. 포괄적 인 툴킷 인 Gemma Scope의 Google 릴리스는 연구원에게 강력한 강력한 방법을 제공합니다.

비즈니스 인텔리전스 분석가는 누구이며 하나가되는 방법은 무엇입니까?Apr 17, 2025 am 11:44 AM

비즈니스 성공 잠금 해제 : 비즈니스 인텔리전스 분석가가되는 가이드 원시 데이터를 조직의 성장을 이끌어내는 실행 가능한 통찰력으로 바꾸는 것을 상상해보십시오. 이것은 비즈니스 인텔리전스 (BI) 분석가의 힘 - GU에서 중요한 역할입니다.

SQL에서 열을 추가하는 방법? - 분석 VidhyaApr 17, 2025 am 11:43 AM

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

비즈니스 분석가 대 데이터 분석가Apr 17, 2025 am 11:38 AM

소개 두 전문가가 중요한 프로젝트에 대해 협력하는 번화 한 사무실을 상상해보십시오. 비즈니스 분석가는 회사의 목표, 개선 영역을 식별하며 시장 동향과의 전략적 조정을 보장합니다. 시무

Excel의 Count와 Counta는 무엇입니까? - 분석 VidhyaApr 17, 2025 am 11:34 AM

Excel 데이터 계산 및 분석 : 카운트 및 카운트 기능에 대한 자세한 설명 정확한 데이터 계산 및 분석은 특히 큰 데이터 세트로 작업 할 때 Excel에서 중요합니다. Excel은이를 달성하기위한 다양한 기능을 제공하며, 카운트 및 카운타 기능은 다른 조건에서 셀 수를 계산하기위한 핵심 도구입니다. 두 기능 모두 셀을 계산하는 데 사용되지만 설계 목표는 다른 데이터 유형을 대상으로합니다. Count 및 Counta 기능의 특정 세부 사항을 파고 고유 한 기능과 차이점을 강조하고 데이터 분석에 적용하는 방법을 배우겠습니다. 핵심 포인트 개요 수를 이해하고 쿠션하십시오

Chrome은 AI와 함께 여기에 있습니다 : 매일 새로운 것을 경험하고 있습니다 !!Apr 17, 2025 am 11:29 AM

Chrome 's AI Revolution : 개인화되고 효율적인 탐색 경험 인공 지능 (AI)은 우리의 일상 생활을 빠르게 변화시키고 있으며 Chrome은 웹 브라우징 경기장에서 요금을 주도하고 있습니다. 이 기사는 흥분을 탐구합니다

AI '의 인간 측면 : 웰빙과 4 배의 결론Apr 17, 2025 am 11:28 AM

재구성 영향 : 4 배의 결론 너무 오랫동안 대화는 AI의 영향에 대한 좁은 견해로 인해 주로 이익의 결론에 중점을 두었습니다. 그러나보다 전체적인 접근 방식은 BU의 상호 연결성을 인식합니다.

5 게임 변화 양자 컴퓨팅 사용 사례에 대해 알아야합니다.Apr 17, 2025 am 11:24 AM

상황이 그 시점을 꾸준히 움직이고 있습니다. 양자 서비스 제공 업체와 신생 기업에 쏟아지는 투자는 업계의 중요성을 이해하고 있음을 보여줍니다. 그리고 점점 더 많은 실제 사용 사례가 그 가치를 보여주기 위해 떠오르고 있습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.