초등 수학 단어 문제뿐만 아니라, 고급 수학도 AI가 정복하기 시작했습니다!
최근 MIT 연구진은 OpenAI Codex 사전 학습 모델을 기반으로 퓨샷 학습을 통해 학부 수준의 수학 문제에서 81%의 정확도를 달성했다고 발표했습니다!
몇 가지 작은 질문에 대한 답변을 살펴보겠습니다. 단일 변수 함수의 그래프를 축을 중심으로 회전시켜 생성된 부피 계산, 로렌츠 어트랙터 및 투영 계산, 특이값 분해(SVD)의 기하학적 형태 계산 및 묘사와 같은 질문을 먼저 해야 올바르게 답할 수 있을 뿐만 아니라 , 그러나 해당 설명을 제공할 수도 있습니다!
정말 믿기지 않습니다. 과거를 돌이켜보면 높은 점수는 모두 지나갔습니다. 이제 AI가 한방에 81점을 얻을 수 있게 되었다고 일방적으로 선언합니다.
더 놀라운 점은 일반적인 머신러닝 모델로는 해결하기 어려운 문제를 해결하는 것 외에도 이 기술이 대규모로 홍보될 수 있고 해당 강좌 및 유사한 강좌에서 문제를 해결할 수 있다는 사실을 이번 연구를 통해 보여줍니다.
단일 머신러닝 모델이 이렇게 대규모 수학 문제를 해결할 수 있을 뿐만 아니라, 설명하고 그림을 그리며 새로운 질문을 생성할 수도 있는 것은 역사상 최초이기도 합니다!
사실 이 논문은 개정된 지 반년 만에 114페이지에서 181페이지로 늘어났습니다. 부록에는 A부터 Z까지 번호가 매겨져 있습니다. .
이 기사에는 MIT, 컬럼비아 대학교, 하버드 대학교, 워털루 대학교 등 4개의 주요 저자 단위가 있습니다.
제1저자 Iddo Drori는 MIT 전기공학 및 컴퓨터과학과 AI학과 강사이자 컬럼비아대학교 공학 및 응용과학대학 겸임 부교수입니다. CCAI NeurIPS 2021 최우수 논문상을 수상했습니다.
그의 주요 연구 방향은 기계가 대학 수준의 수학을 해결하고 설명하고 생성하도록 하는 교육용 기계 학습과 극심한 기후 변화를 기반으로 예측하고 모니터링하는 기후 과학을 위한 STEM 기계 학습입니다. 수천 년의 기후 데이터를 기반으로 대서양의 해양 생지화학의 다년간의 변화를 예측하기 위한 다학제적 작업 통합, 자율 주행을 위한 기계 학습 알고리즘 등
그는 Cambridge University Press에서 출판한 The Science of Deep Learning의 저자이기도 합니다.
이 논문 이전에 대부분의 연구자들은 신경망이 숫자가 큰 문제를 처리할 수 없으며 몇 가지 간단한 수학적 문제만 해결할 수 있다고 믿었습니다.
Transformer 모델이 다양한 NLP 작업에서 인간의 성능을 능가하더라도 수학적 문제를 해결하는 데는 여전히 나쁘지 않습니다. 주된 이유는 GPT-3와 같은 다양한 대형 모델이 텍스트 데이터로만 사전 훈련되기 때문입니다.
나중에 일부 연구자들은 언어 모델이 여전히 단계별 분석(생각의 사슬)을 통해 몇 가지 간단한 수학적 질문을 추론하고 대답할 수 있지만 고급 수학 문제는 해결하기가 쉽지 않다는 것을 발견했습니다.
목표가 숫자가 높은 문제인 경우 먼저 일련의 훈련 데이터를 수집해야 합니다.
저자는 다음을 포함하여 MIT의 7개 과정 각각에서 25개의 질문을 무작위로 선택했습니다.
MATH 데이터 세트의 경우 연구원들은 데이터 세트의 6가지 주제(대수학, 계산 및 확률, 중급 대수학, 정수론, 예비 대수학)의 데이터를 연구했습니다. ) 대수학 및 예비 대학에서 무작위로 선택된 15개의 질문).
모델에서 생성된 결과가 훈련 데이터에 과적합되지 않는지 검증하기 위해 연구진은 생성된 결과를 검증하기 위해 인터넷에 공개되지 않은 COMS3251 과정을 선택했습니다.
모델은 강좌 질문을 입력으로 받은 다음, 이에 대한 맥락을 바탕으로 자동 확대를 수행하고, 합성된 프로그램을 생성하고, 최종적으로 답변과 생성된 설명을 출력합니다.
질문에 따라 출력 결과가 다를 수 있습니다. 예를 들어 18.01에 대한 답은 방정식이고, 18.02에 대한 답은 부울 값이고, 18.03과 18.06에 대한 답은 그래프 또는 벡터이고, 18.05에 대한 답은 다를 수 있습니다. 숫자 값입니다.
질문을 받으면 첫 번째 단계는 모델이 질문과 관련된 맥락을 찾도록 하는 것입니다. 연구진은 주로 Codex에서 생성된 Python 프로그램에 중점을 두었기 때문에 질문 앞에 "프로그램 작성"이라는 텍스트를 추가하고 해당 텍스트를 Python 프로그램의 따옴표 세 개 안에 배치하여 프로그램에서 독스트링인 것처럼 가장했습니다.
프로그램을 생성한 후 가져올 라이브러리를 지정하려면 Codex 프롬프트가 필요합니다. 저자는 문제를 해결하기 위해 합성된 프로그램이 이 패키지를 사용해야 함을 지정하여 질문 앞에 "use Sympy" 문자열을 추가하기로 결정했습니다.
각 강좌에서 사용하는 Python 프로그래밍 패키지 수를 세어보면 모든 강좌에서 NumPy와 Sympy를 사용하고 있음을 알 수 있습니다. Matplotlib은 플로팅이 필요한 문제가 있는 강좌에만 사용됩니다. 강좌의 약 절반이 수학, 무작위 및 SciPy를 사용합니다. 실제 작업 과정에서 연구진은 SymPy나 도면 관련 패키지만 가져오도록 지정했고, 가져온 다른 패키지는 자동으로 합성했다.
제로샷 학습을 활용하면, 즉 원래 문제에 대한 자동 향상만을 사용하면 문제의 71%가 자동으로 해결될 수 있습니다.
문제를 해결할 수 없는 경우 연구자들은 이러한 문제를 해결하기 위해 퓨샷 학습을 사용하려고 합니다.
먼저 OpenAI의 text-similarity-babbag-001 임베딩 엔진을 사용하여 모든 문제의 2048차원 임베딩을 얻은 다음 모든 벡터에 대해 코사인 유사성 계산을 사용하여 해결된 문제와 가장 유사한 미해결 문제를 찾습니다. 마지막으로 가장 유사한 문제와 해당 코드가 새로운 문제의 몇 가지 예시로 사용됩니다.
생성된 코드가 정답을 출력하지 않는 경우 다음 유사한 해결 문제를 사용할 때마다 또 다른 해결 질문-코드 쌍을 추가하세요.
실제로는 Few-Shot 학습에 최대 5개의 예제를 사용하는 것이 가장 좋은 효과를 볼 수 있으며, 자동으로 풀 수 있는 문제의 총 개수는 Zero-Shot 학습의 71%에서 81%로 증가합니다. -샷 학습.
나머지 19%의 문제를 해결하려면 인간 편집자가 개입해야 합니다.
연구원들은 먼저 모든 질문을 수집한 결과 대부분이 영화 캐릭터에 대한 언급이나 시사 문제 등 모호하거나 중복된 정보를 포함하고 있음을 발견했습니다. 질문의 본질을 추출하려면 질문을 정리해야 했습니다.
질문 정렬에는 주로 중복된 정보를 제거하고, 긴 문장 구조를 더 작은 구성 요소로 나누고, 프롬프트를 프로그래밍 형식으로 변환하는 작업이 포함됩니다.
수동 개입이 필요한 또 다른 상황은 질문에 대한 답변을 설명하기 위해 여러 단계의 그리기가 필요하다는 것입니다. 즉, 원하는 시각화 효과가 달성될 때까지 Codex를 대화형으로 프롬프트해야 합니다.
모델은 답변을 생성하는 것 외에도 "위의 코드가 수행하는 작업은 다음과 같습니다. 1"이라는 프롬프트 단어를 사용하여 모델을 생성할 수 있어야 합니다. 단계별 설명 결과.
질문에 답한 후 다음 단계는 Codex를 사용하여 각 코스에 대한 새로운 질문을 생성하는 것입니다.
연구원들은 각 수업에서 학생들이 작성한 질문 목록을 무작위로 작성한 후 잘라냈고, 그 결과는 Codex가 다음 질문을 생성하는 데 사용되었습니다.
이 과정은 각 코스마다 새로운 질문이 충분히 생성될 때까지 반복됩니다.
생성된 질문을 평가하기 위해 연구자들은 이러한 과정이나 그에 상응하는 과정을 수강한 MIT 학생들을 대상으로 설문조사를 실시하여 기계 생성 질문의 품질과 난이도를 원래 과정과 비교했습니다.
학생 설문조사 결과에서 다음을 확인할 수 있습니다.
https://www.reddit.com/r/artificial/comments/v8liqh/researchers_built_a_neural_network_that_not_only임을 확인할 수 있습니다. /
위 내용은 MIT, '고급 수학' 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!