찾다
기술 주변기기일체 포함AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

고등학교 수학 시험에서 잘 떨어지는 것은 많은 사람들에게 악몽입니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

고등학교 수학 시험이 AI만큼 좋지 않다고 하면 받아들이기가 더 어렵나요?

그렇습니다. OpenAI의 Codex는 MIT의 7개 고급 수학 과정에서 MIT 학부생 수준인 81.1%의 정확도를 달성했습니다.

교과목은 기초 미적분학부터 미분방정식, 확률론, 선형대수학까지 다양합니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

이 사건은 최근 Weibo에서 화제가 되었습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

Δ "Only"가 81점을 얻었습니다. AI에 대한 기대가 너무 높습니다

이제 Google에서 최신 빅 뉴스가 나옵니다.

우리 AI는 수학뿐만 아니라 과학 전반에 걸쳐 수행합니다. 공학과목은 이미 최고점수를 획득했어요!

기술 대기업들이 'AI 질문 전문가' 양성에 새로운 차원에 도달한 것 같습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

최신 AI 질문 메이커 Google이 4번의 시험을 치렀습니다.

수학 대회 시험 MATH의 경우 과거에는 IMO 금메달리스트 3회만이 90점을 얻었고 일반 컴퓨터 박사도 40점 정도만 얻을 수 있습니다.

다른 AI 문답의 경우 이전 최고 점수가 6.9점에 불과했는데...

그런데 이번에 구글의 새로운 AI가 컴퓨터 박사보다 높은 50점을 기록했습니다.

종합 시험 MMLU-STEM에는 수학, 물리학, 화학, 전자 공학 및 컴퓨터 과학이 포함됩니다. 문제의 난이도는 고등학교 또는 대학 수준에 이릅니다.

이번에는 Google AI의 '풀 헬스 버전'도 모든 문항 중 가장 높은 점수를 받아 약 20점 정도 직접적으로 점수를 올렸습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

GSM8k는 초등학교 수학 문제로 점수를 78점으로 직접 올렸는데, 이에 비해 GPT-3는 실패했습니다(55점).

고체화학, 천문학, 미분 방정식, 특수 상대성 이론 등 MIT 학부 및 대학원 과정에서도 Google의 새로운 AI는 200개 이상의 질문 중 거의 1/3에 답할 수 있습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

가장 중요한 점은 '프로그래밍 능력'에 의지해 수학에서 고득점을 얻는 OpenAI의 방식과 달리, 이번에는 구글 AI가 '사람처럼 생각하는' 길을 가고 있다는 점이다. 교양과 학생 저는 문제를 풀지 않고 교과서만 승인했습니다. 하지만 과학과 공학 분야에서 더 나은 문제 해결 능력을 습득했습니다.

논문의 제1저자인 Lewkowycz도 논문에 언급되지 않은 하이라이트를 공유했다는 점을 언급할 가치가 있습니다.

저희 모델은 올해 폴란드 수학 대학 입학 시험에 참가했는데, 그 점수가 전국 평균.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.이것을 보고 더 이상 가만히 앉아있지 못하는 부모들도 있습니다.

딸에게 이 말을 하면 아이가 숙제를 AI로 하게 될까 봐 두렵습니다. 하지만 만약 당신이 그녀에게 말하지 않는다면, 당신은 그녀의 미래를 준비시키지 않는 것입니다!

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

업계 관계자의 눈에는 하드 코딩된 산술, 논리, 대수학 없이 언어 모델에만 의존하여 이 수준에 도달한 것이 이번 연구에서 가장 놀라운 점입니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

그럼 어떻게 진행되나요?

AI는 arXiv에서 200만 개의 논문을 미친 듯이 읽습니다.

새로운 모델 Minerva는 Pathway 아키텍처의 일반 언어 모델 PaLM을 기반으로 합니다.

추가 교육은 각각 80억, 600억, 5400억 개의 매개변수 PaLM 모델을 기반으로 수행됩니다.

Minerva의 질문 답변 방식은 Codex의 접근 방식과 완전히 다릅니다.

Codex의 방법은 각 수학 문제를 프로그래밍 문제로 다시 작성한 다음 코드를 작성하여 해결하는 것입니다.

미네르바는 반면에 미친 듯이 논문을 읽고, 자연어와 마찬가지로 수학 기호를 이해하려고 애썼습니다.

PaLM을 기반으로 계속 훈련합니다. 새로운 데이터 세트는 세 부분으로 구성됩니다.

주로 arXiv에서 수집된 200만 개의 학술 논문, LaTeX 공식이 포함된 60GB 웹 페이지, PaLM 훈련 단계에서 사용되는 작은 부분이 텍스트를 전달합니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

일반적인 NLP 데이터 정리 프로세스에서는 모든 기호를 삭제하고 순수한 텍스트만 유지하므로 불완전한 수식이 생성됩니다. 예를 들어 아인슈타인의 유명한 질량 에너지 방정식에는 Emc2만 남습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

하지만 이번에 Google은 모든 공식을 유지하고 일반 텍스트와 마찬가지로 Transformer 훈련 프로그램을 진행하여 AI가 언어와 같은 기호를 이해할 수 있도록 했습니다.

이것은 Minerva가 이전 언어 모델에 비해 수학 문제에서 더 나은 성능을 발휘하는 이유 중 하나입니다.

그러나 수학 문제를 전문적으로 푸는 AI와 비교할 때 Minerva는 훈련에 명시적인 기본 수학적 구조가 없기 때문에 단점과 장점이 있습니다.

단점은 AI가 정답을 얻기 위해 잘못된 단계를 사용할 수 있다는 것입니다.

다양한 학문에 적용할 수 있다는 장점이 있습니다. 일부 문제는 형식적인 수학 언어로 표현할 수 없더라도 자연어 이해 기능을 결합하면 해결할 수 있습니다.

AI 추론 단계에서 Minerva는 최근 Google이 개발한 여러 신기술도 결합합니다.

첫 번째는 올해 1월 구글 브레인팀이 제안한 Chain of Thought 사고 링크 프롬프트입니다.

구체적으로 질문할 때 안내할 수 있는 단계별 답변 예시를 제시하세요. AI는 질문에 답할 때 유사한 사고 과정을 사용하여 그렇지 않으면 부정확하게 답변될 질문에 올바르게 답할 수 있습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

그리고 Google과 MIT가 공동 개발한 Scrathpad 방식이 있는데, 이를 통해 AI가 단계별 계산의 중간 결과를 임시로 저장할 수 있습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

마지막으로 올해 3월에야 출시된 과반수 투표 방식이 있습니다.

AI가 동일한 질문에 여러 번 답변하도록 하고 가장 자주 나타나는 답변을 선택하세요.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

이 모든 기술을 사용한 후 5,400억 개의 매개변수를 가진 Minerva는 다양한 테스트 세트에서 SOTA에 도달합니다.

80억 매개변수 버전의 미네르바도 대회 수준의 수학 문제와 MIT 공개 강좌 문제에서는 최신 업데이트된 davinci-002 버전의 GPT-3 수준에 도달할 수 있습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

너무 많이 말했는데, 미네르바는 구체적으로 어떤 질문을 할 수 있나요?

Google에서도 샘플 세트를 공개했으니 살펴보겠습니다.

수학, 물리, 화학, 심지어 기계 학습까지 다재다능합니다

수학에서 미네르바는 직접적으로 폭력적으로 해결하는 것이 아니라 인간처럼 단계별로 값을 계산할 수 있습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

단어 문제의 경우 자신만의 방정식을 만들고 단순화할 수 있습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

증명을 도출할 수도 있습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

물리학에서 Minerva는 중성 질소 바닥 상태(Z = 7)에서 전자의 총 스핀 양자 수를 찾는 것과 같은 대학 수준의 문제를 해결할 수 있습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

미네르바는 생물학과 화학 분야에서도 언어 이해 능력으로 다양한 객관식 문제에 답할 수 있습니다.

다음 점 돌연변이 형태 중 DNA 서열로 형성된 단백질에 부정적인 영향을 미치지 않는 것은 무엇입니까?

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

다음 중 방사성 원소는 무엇인가요?

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

그리고 천문학: 지구에는 왜 강한 자기장이 있나요?

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

머신러닝 측면에서 "배포 외 샘플 감지"의 구체적인 의미를 설명하여 이 용어를 다른 방식으로 정확하게 설명합니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

...

그러나 미네르바는 방정식의 양쪽에 있는 √를 취소하는 등의 어리석은 실수를 할 때도 있습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

미네르바는 8%의 확률로 다음과 같이 추론 과정은 틀리지만 결과는 맞는 '거짓양성' 상황을 겪게 됩니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

분석 결과 오류의 주요 형태는 계산 오류와 추론 오류에서 비롯되었으며, 질문의 의미를 이해하는 오류, 잘못된 사실을 사용하는 오류 등 기타 상황에서는 극히 일부만 발생하는 것으로 나타났습니다. 단계.

계산 오류는 외부 계산기나 Python 인터프리터에 접근하면 쉽게 해결할 수 있지만, 다른 유형의 오류는 신경망이 너무 크기 때문에 조정하기 어렵습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

일반적으로 미네르바의 성능은 많은 사람들을 놀라게 했고, 댓글란에 API를 요청하기도 했습니다(아쉽게도 구글은 아직 공개 계획을 세우지 않았습니다).

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

일부 네티즌들은 GPT-3의 문제 해결 정확도가 지난 며칠 동안 61%나 치솟은 '동축' 방법과 결합하여 정확도가 여전히 향상될 수 있다고 생각했나요?

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

그러나 저자의 반응은 동축 방식은 영표본 학습에 속하며, 아무리 강력하더라도 4개의 예를 사용한 소수표본 학습만큼 좋지 않을 수 있다는 것입니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

일부 네티즌들은 질문도 할 수 있으니 반대로도 쓸 수 있냐고 물으시더군요.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

실제로 MIT는 OpenAI와 협력하여 AI를 사용하여 대학생들을 위한 질문을 설정했습니다.

인간이 제기한 질문과 AI가 제기한 질문을 혼합하여 학생들에게 설문지를 작성하도록 했습니다. 모든 사람이 AI가 제기한 질문인지 구별하기가 어려웠습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

요컨대, AI 관련 종사자들이 이 논문을 읽느라 바쁘다는 점만 빼면 현재 상황은 그렇습니다.

학생들은 언젠가 AI를 사용하여 숙제를 할 수 있는 날을 고대하고 있습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

교사들도 AI를 활용해 시험지를 만들 수 있는 날을 기대하고 있습니다.

AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.

논문 주소: https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

데모 주소: https://minerva-demo.github.io/

관련 논문: Chain of Thought https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114과반수 투표 https://arxiv.org/abs/2203.11171

참조 링크:

https://ai.googleblog .com/2022/06/minerva-solving-qualitative-reasoning.html

https://twitter.com/bneyshabur/status/1542563148334596098

https://twitter.com/alewkowycz/status/1542559176483823622​

위 내용은 AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
신속한 엔지니어링에서 일련의 질문은 무엇입니까? - 분석 Vidhya신속한 엔지니어링에서 일련의 질문은 무엇입니까? - 분석 VidhyaApr 17, 2025 am 11:06 AM

일련의 질문 : 신속한 엔지니어링 혁명 각 질문이 이전의 질문을 기반으로하는 AI와의 대화를 상상해보십시오. 이것은 신속한 엔지니어링에서 일련의 질문 (COQ)의 힘입니다.

Mistral Nemo 액세스 : 기능, 응용 프로그램 및 시사점Mistral Nemo 액세스 : 기능, 응용 프로그램 및 시사점Apr 17, 2025 am 11:04 AM

Mistral Nemo : 강력한 오픈 소스 다국어 LLM Mistral AI와 Nvidia의 협력 노력 인 Mistral Nemo는 최첨단 자연 자연 언어 처리를 제공하는 최첨단 오픈 소스 대형 언어 모델 (LLM)입니다. 이 12 억 파

Excel의 둥근 함수는 무엇입니까? - 분석 VidhyaExcel의 둥근 함수는 무엇입니까? - 분석 VidhyaApr 17, 2025 am 10:56 AM

정확한 수치 데이터를 위해 Microsoft Excel의 라운드 기능을 마스터합니다 숫자는 스프레드 시트의 기본이지만 정확성과 가독성을 달성하려면 종종 원시 데이터 이상의 것이 필요합니다. Microsoft Excel의 라운드 기능은 TRA를위한 강력한 도구입니다.

llamaindex를 사용한 반사제 안내서llamaindex를 사용한 반사제 안내서Apr 17, 2025 am 10:41 AM

AI 인텔리전스 향상 : llamaindex를 가진 반사 AI 에이전트에 대한 깊은 다이빙 문제를 해결할뿐만 아니라 개선을위한 자체 사고 과정을 반영하는 AI를 상상해보십시오. 이것은 반사 AI 요원의 영역 이며이 기사는 탐구합니다.

랭케인으로 벡터 임베딩을 계산하고 저장하는 방법은 무엇입니까?랭케인으로 벡터 임베딩을 계산하고 저장하는 방법은 무엇입니까?Apr 17, 2025 am 10:37 AM

향상된 컨텐츠 검색을 위해 Langchain 및 벡터 임베딩을 활용합니다 이전 기사는 쿼리 관련 컨텐츠 추출을위한 데이터로드 및 분할 기술을 다루었습니다. 이 기사는 벡터 임베딩을 사용하여 고급 데이터 검색을 탐구합니다.

2025 년에 데이터 과학 신입생을 고용하는 상위 13 개 회사2025 년에 데이터 과학 신입생을 고용하는 상위 13 개 회사Apr 17, 2025 am 10:30 AM

데이터 과학 경력 : 2024 년 최고의 회사 및 성공을위한 팁 최근 데이터 과학 졸업생 및 최종 1 년간의 공학 학생들은 다국적 기업 (MNC)을 목표로합니다. 많은 옵션이 있습니다. 이 안내서는 데이터를 고용하는 주요 회사를 강조합니다

Genai와의 매력적인 고객 경험을 만드는 방법은 무엇입니까?Genai와의 매력적인 고객 경험을 만드는 방법은 무엇입니까?Apr 17, 2025 am 10:27 AM

생성 AI를 통한 고객 경험 향상 : 전략적 접근 고객 만족도가 가장 중요하며 비즈니스는 점점 탁월한 경험을 제공 할 필요성을 인식하고 있습니다. 고객의 70% 이상이 개인화 된 서비스를 원합니다

Flux.1, Gemma 2, Sam 2 등을 특징으로하는 AI 혁신Flux.1, Gemma 2, Sam 2 등을 특징으로하는 AI 혁신Apr 17, 2025 am 10:26 AM

AI 주간 다이제스트 : 획기적인 혁신 및 윤리적 고려 사항 AV 바이트에 다시 오신 것을 환영합니다. 이번 주 하이라이트는 텍스트-이미지 생성, Model Efficie의 놀라운 진행 상황을 보여줍니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 채팅 명령 및 사용 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기