O1-MINI : STEM 및 추론을위한 게임 변화 모델-일체 포함-php.cn

집

기술 주변기기

일체 포함

O1-MINI : STEM 및 추론을위한 게임 변화 모델

尊渡假赌尊渡假赌尊渡假赌

Apr 13, 2025 am 09:55 AM

OpenAI는 STEM 과목에 중점을 둔 비용 효율적인 추론 모델 인 O1-MINI를 소개합니다. 이 모델은 다양한 평가 벤치 마크에서 전임자 OpenAi O1과 밀접하게 비슷한 수학 및 코딩의 인상적인 성능을 보여줍니다. Openai는 O1-MINI가 광범위한 글로벌 지식없이 추론 기능을 요구하는 응용 프로그램에 신속하고 경제적 인 솔루션으로 사용될 것으로 예상합니다. O1-MINI의 출시는 Tier 5 API 사용자를 대상으로하며 Openai O1-Preview에 비해 80% 비용 절감을 제공합니다. O1 Mini의 작동을 더 깊이 살펴 보겠습니다.

개요

Openai의 O1-Mini는 비용 효율적인 STEM 추론 모델로 동료보다 성능이 우수합니다.
전문 교육을 통해 O1-Mini는 STEM 전문가가되어 수학 및 코딩에서 탁월합니다.
인간의 평가는 O1-Mini의 추론 강점을 보여 주어 GPT-4O보다 유리합니다.
안전 조치는 탈옥 견고성을 강화하면서 O1-MINI의 책임감있는 용도를 보장합니다.
O1-MINI를 통한 OpenAi의 혁신은 신뢰할 수 있고 투명한 STEM 도구를 제공합니다.

O1-MINI vs 기타 LLM

LLM은 일반적으로 큰 텍스트 데이터 세트에서 미리 훈련됩니다. 그러나 여기에 캐치가 있습니다. 그들은이 방대한 지식을 가지고 있지만 때로는 약간의 부담이 될 수 있습니다. 알다시피,이 모든 정보는 실제 시나리오에서 사용하는 데 약간 느리고 비용이 많이 듭니다.

다른 LLM과 O1-MINI를 분리하는 것은 STEM을 위해 훈련을 받았다는 사실입니다. 이 전문 교육은 O1-Mini가 STEM 관련 작업 전문가가됩니다. 이 모델은 효율적이고 비용 효율적이며 STEM 응용 프로그램에 적합합니다. 특히 수학 및 코딩에서 성능이 인상적입니다. O1-MINI는 STEM 추론의 속도와 정확도에 최적화되었습니다. 연구원과 교육자에게 귀중한 도구입니다.

O1-MINI는 지능 및 추론 벤치 마크에서 탁월하고 O1- 프리뷰 및 O1을 능가하지만 비 스템 사실 지식 작업으로 어려움을 겪고 있습니다.

O1-MINI : STEM 및 추론을위한 게임 변화 모델

또한 읽기 : O1 : 힘든 문제에 대답하기 전에 '생각하는'OpenAi의 새로운 모델

GPT 4O 대 O1 대 O1- 미니

단어 추론 질문에 대한 응답의 비교는 성능 불균형을 강조합니다. GPT-4O가 어려움을 겪는 동안 O1-MINI와 O1- 프리뷰는 정확한 답변을 제공했습니다. 특히 O1-Mini의 속도는 놀랍고 약 3-5 배 더 빠르게 응답했습니다.

O1-Mini를 사용하는 방법?

O1-MINI : STEM 및 추론을위한 게임 변화 모델

Chatgpt Plus 및 팀 사용자 : 오늘 모델 피커에서 O1-Mini에 액세스하고 매주 50 개의 메시지가 있습니다.
Chatgpt Enterprise 및 Education 사용자 : 다음 주에 두 모델에 대한 액세스가 시작됩니다.
개발자 : API Tier 5 사용자는 오늘날 이러한 모델을 실험 할 수 있지만 기능 호출 및 스트리밍과 같은 기능은 아직 사용할 수 없습니다.
Chatgpt 무료 사용자 : O1-MINI는 곧 모든 무료 사용자가 사용할 수 있습니다.

O1-Mini의 훌륭한 성능 : 수학, 코딩 및 그 이상

OpenAi O1-Mini 모델은 다양한 경쟁과 벤치 마크에서 테스트를 시작했으며 그 성능은 매우 인상적입니다. 다른 구성 요소를 하나씩 살펴 보겠습니다.

수학

고등학교 AIME 수학 대회에서 O1-MINI는 70.0%를 기록했으며, 이는 더 비싼 O1 모델 (74.4%)과 동등하며 O1- 프리뷰 (44.6%)보다 훨씬 우수합니다. 이 점수는 O1-Mini를 상위 500 명의 미국 고등학생 중 하나이며 놀라운 성과입니다.

코딩

코딩으로 넘어 가면서 O1-Mini는 Codeforces 경쟁 웹 사이트에서 1650 년의 ELO 점수를 달성합니다.이 점수는 O1 (1673)과 경쟁하고 O1-PREVIEW (1258)를 능가합니다. 이것은 Codeforces 플랫폼에서 경쟁하는 프로그래머의 86 번째 백분위 수에 O1-Mini를 배치합니다. 또한 O1-MINI는 HumaneVal 코딩 벤치 마크 및 고등학교 수준의 사이버 보안 캡처 플래그 챌린지 (CTF)에서 잘 수행되어 코딩 능력을 더욱 강화합니다.

O1-MINI : STEM 및 추론을위한 게임 변화 모델

줄기

O1-Mini는 강력한 추론 기술이 필요한 다양한 학문적 벤치 마크에서 미틀을 입증했습니다. GPQA (Science) 및 MATH-500과 같은 벤치 마크에서 O1-MINI는 GPT-4O를 능가하여 STEM 관련 작업에서 우수성을 보여줍니다. 그러나 MMLU와 같은 광범위한 지식이 필요한 작업과 관련하여 O1-MINI는 GPT-4O뿐만 아니라 수행되지 않을 수 있습니다. 이는 O1-Mini가 줄기 추론에 최적화되어 있고 GPT-4O가 보유하고있는 광범위한 세계 지식이 부족할 수 있기 때문입니다.

O1-MINI : STEM 및 추론을위한 게임 변화 모델

인간 선호도 평가

인간 평가자는 다양한 영역에서 도전적인 프롬프트에 대한 GPT-4O와 O1-MINI의 성능을 적극적으로 비교했습니다. 결과는 추론이 많은 도메인에서 O1-MINI에 대한 선호도를 보여 주었지만 GPT-4O는 언어 중심 영역에서 주도권을 잡아 다른 상황에서 모델의 강점을 강조했습니다.

O1-MINI : STEM 및 추론을위한 게임 변화 모델

O1-MINI의 안전성 구성 요소

O1-MINI 모델의 안전성과 정렬은 책임감 있고 윤리적 인 사용을 보장하는 데 가장 중요합니다. 구현 된 안전 조치에 대한 설명은 다음과 같습니다.

훈련 기술 : O1-MINI의 교육 접근 방식은 정렬 및 안전에 중점을 둔 전임자 O1- 프리뷰의 것과 반영됩니다. 이 전략은 모델의 출력이 인간의 가치와 일치하고 개발의 중요한 측면 인 잠재적 위험을 완화하도록합니다.
탈옥 견고성 : O1-MINI의 주요 안전 기능 중 하나는 강화 된 탈옥 견고성입니다. O1-Mini는 StrongReject DataSet의 내부 버전에서 GPT-4O에 비해 59% 더 높은 탈옥 견고성을 보여줍니다. 탈옥 견고성은 모델이 출력을 조작하거나 오용하려는 시도에 저항하는 능력을 말해서 의도 된 목적과 일치하는 상태를 유지합니다.
안전 평가 : O1-MINI를 배치하기 전에 철저한 안전 평가가 수행되었습니다. 이 평가는 준비 조치, 외부 적색 팀 밍 및 포괄적 인 안전 평가를 포함하여 O1- 프리뷰에 사용 된 것과 동일한 접근법을 따랐습니다. 외부 레드 팀은 독립적 인 전문가를 참여시키기 위해 잠재적 인 취약점과 보안 위험을 식별합니다.
자세한 결과 : 이러한 안전 평가 결과는 함께 제공되는 시스템 카드에 게시됩니다. 이러한 투명성을 통해 사용자와 연구원은 모델의 안전 조치를 이해하고 사용에 대한 정보에 근거한 결정을 내릴 수 있습니다. 시스템 카드는 모델의 성능, 한계 및 잠재적 위험에 대한 통찰력을 제공하여 책임있는 배포 및 사용을 보장합니다.

끝 참고

OpenAi의 O1-Mini는 STEM 응용 프로그램의 게임 체인저로 비용 효율성과 인상적인 성능을 제공합니다. 전문 교육은 특히 수학 및 코딩에서 추론 능력을 향상시킵니다. 강력한 안전 조치로 O1-MINI는 STEM 벤치 마크에서 뛰어나 연구원과 교육자에게 신뢰할 수 있고 투명한 도구를 제공합니다.

O1 Mini의 사용에 대해 더 많이 알기 위해 분석 Vidhya 블로그를 계속 지켜봐 주시기 바랍니다!

위 내용은 O1-MINI : STEM 및 추론을위한 게임 변화 모델의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

California는 AI를 빠른 트랙 산불 복구 허가에 탭합니다May 04, 2025 am 11:10 AM

AI는 산불 복구 허가를 간소화합니다 기계 학습 및 컴퓨터 비전을 활용하는 호주 기술 회사 인 Archistar의 AI 소프트웨어는 지역 규정 준수를위한 건축 계획 평가를 자동화합니다. 이 예비 검증은 중요합니다

미국이 에스토니아의 AI 기반 디지털 정부로부터 배울 수있는 것May 04, 2025 am 11:09 AM

에스토니아의 디지털 정부 : 미국의 모델? 미국은 관료적 비 효율성과의 투쟁이지만 에스토니아는 설득력있는 대안을 제공합니다. 이 소규모 국가는 AI가 구동하는 거의 100% 디지털화 된 시민 중심 정부를 자랑합니다. 이것은 아닙니다

생성 AI를 통한 결혼 계획May 04, 2025 am 11:08 AM

결혼식을 계획하는 것은 기념비적 인 일이며, 종종 가장 조직화 된 커플조차도 압도적입니다. AI의 영향에 관한 진행중인 Forbes 시리즈의 일부인이 기사 (여기 링크 참조)는 생성 AI가 결혼 계획에 혁명을 일으킬 수있는 방법을 탐구합니다. 결혼식 pl

Digital Defense AI 에이전트는 무엇입니까?May 04, 2025 am 11:07 AM

기업은 AI 에이전트를 판매하기 위해 점점 더 활용하는 반면 정부는 다양한 기존의 작업에이를 활용합니다. 그러나 소비자 옹호자들은 개인이 자주 조정 된 사람들에 대한 방어로 자신의 AI 에이전트를 소유해야 할 필요성을 강조합니다.

생성 엔진 최적화에 대한 비즈니스 리더 안내서 (GEO)May 03, 2025 am 11:14 AM

Google은 이러한 변화를 이끌고 있습니다. "AI 개요"기능은 이미 10 억 명 이상의 사용자에게 제공되며, 누군가가 링크를 클릭하기 전에 완전한 답변을 제공합니다. [^2] 다른 플레이어들도 빨리지면을 얻고 있습니다. Chatgpt, Microsoft Copilot 및 PE

이 스타트 업은 AI 에이전트를 사용하여 악의적 인 광고와 가장하는 계정과 싸우고 있습니다.May 03, 2025 am 11:13 AM

2022 년에 그는 사회 공학 방어 스타트 업 도플을 설립하여 바로 그렇게했습니다. 그리고 사이버 범죄자들이 공격을 터보 차지하기 위해 더욱 진보 된 AI 모델을 활용함에 따라 Doppel의 AI 시스템은 비즈니스가 더 빠르게 빠르게 그리고 더 빠르게 그리고 규모로 싸우는 데 도움이되었습니다.