OpenAI는 STEM 과목에 중점을 둔 비용 효율적인 추론 모델 인 O1-MINI를 소개합니다. 이 모델은 다양한 평가 벤치 마크에서 전임자 OpenAi O1과 밀접하게 비슷한 수학 및 코딩의 인상적인 성능을 보여줍니다. Openai는 O1-MINI가 광범위한 글로벌 지식없이 추론 기능을 요구하는 응용 프로그램에 신속하고 경제적 인 솔루션으로 사용될 것으로 예상합니다. O1-MINI의 출시는 Tier 5 API 사용자를 대상으로하며 Openai O1-Preview에 비해 80% 비용 절감을 제공합니다. O1 Mini의 작동을 더 깊이 살펴 보겠습니다.
개요
- Openai의 O1-Mini는 비용 효율적인 STEM 추론 모델로 동료보다 성능이 우수합니다.
- 전문 교육을 통해 O1-Mini는 STEM 전문가가되어 수학 및 코딩에서 탁월합니다.
- 인간의 평가는 O1-Mini의 추론 강점을 보여 주어 GPT-4O보다 유리합니다.
- 안전 조치는 탈옥 견고성을 강화하면서 O1-MINI의 책임감있는 용도를 보장합니다.
- O1-MINI를 통한 OpenAi의 혁신은 신뢰할 수 있고 투명한 STEM 도구를 제공합니다.
목차
- O1-MINI vs 기타 LLM
- GPT 4O 대 O1 대 O1- 미니
- O1-Mini를 사용하는 방법?
- O1-Mini의 훌륭한 성능 : 수학, 코딩 및 그 이상
- 수학
- 코딩
- 줄기
- 인간 선호도 평가
- O1-MINI의 안전성 구성 요소
- 끝 참고
O1-MINI vs 기타 LLM
LLM은 일반적으로 큰 텍스트 데이터 세트에서 미리 훈련됩니다. 그러나 여기에 캐치가 있습니다. 그들은이 방대한 지식을 가지고 있지만 때로는 약간의 부담이 될 수 있습니다. 알다시피,이 모든 정보는 실제 시나리오에서 사용하는 데 약간 느리고 비용이 많이 듭니다.
다른 LLM과 O1-MINI를 분리하는 것은 STEM을 위해 훈련을 받았다는 사실입니다. 이 전문 교육은 O1-Mini가 STEM 관련 작업 전문가가됩니다. 이 모델은 효율적이고 비용 효율적이며 STEM 응용 프로그램에 적합합니다. 특히 수학 및 코딩에서 성능이 인상적입니다. O1-MINI는 STEM 추론의 속도와 정확도에 최적화되었습니다. 연구원과 교육자에게 귀중한 도구입니다.
O1-MINI는 지능 및 추론 벤치 마크에서 탁월하고 O1- 프리뷰 및 O1을 능가하지만 비 스템 사실 지식 작업으로 어려움을 겪고 있습니다.
또한 읽기 : O1 : 힘든 문제에 대답하기 전에 '생각하는'OpenAi의 새로운 모델
GPT 4O 대 O1 대 O1- 미니
단어 추론 질문에 대한 응답의 비교는 성능 불균형을 강조합니다. GPT-4O가 어려움을 겪는 동안 O1-MINI와 O1- 프리뷰는 정확한 답변을 제공했습니다. 특히 O1-Mini의 속도는 놀랍고 약 3-5 배 더 빠르게 응답했습니다.
O1-Mini를 사용하는 방법?
- Chatgpt Plus 및 팀 사용자 : 오늘 모델 피커에서 O1-Mini에 액세스하고 매주 50 개의 메시지가 있습니다.
- Chatgpt Enterprise 및 Education 사용자 : 다음 주에 두 모델에 대한 액세스가 시작됩니다.
- 개발자 : API Tier 5 사용자는 오늘날 이러한 모델을 실험 할 수 있지만 기능 호출 및 스트리밍과 같은 기능은 아직 사용할 수 없습니다.
- Chatgpt 무료 사용자 : O1-MINI는 곧 모든 무료 사용자가 사용할 수 있습니다.
O1-Mini의 훌륭한 성능 : 수학, 코딩 및 그 이상
OpenAi O1-Mini 모델은 다양한 경쟁과 벤치 마크에서 테스트를 시작했으며 그 성능은 매우 인상적입니다. 다른 구성 요소를 하나씩 살펴 보겠습니다.
수학
고등학교 AIME 수학 대회에서 O1-MINI는 70.0%를 기록했으며, 이는 더 비싼 O1 모델 (74.4%)과 동등하며 O1- 프리뷰 (44.6%)보다 훨씬 우수합니다. 이 점수는 O1-Mini를 상위 500 명의 미국 고등학생 중 하나이며 놀라운 성과입니다.
코딩
코딩으로 넘어 가면서 O1-Mini는 Codeforces 경쟁 웹 사이트에서 1650 년의 ELO 점수를 달성합니다.이 점수는 O1 (1673)과 경쟁하고 O1-PREVIEW (1258)를 능가합니다. 이것은 Codeforces 플랫폼에서 경쟁하는 프로그래머의 86 번째 백분위 수에 O1-Mini를 배치합니다. 또한 O1-MINI는 HumaneVal 코딩 벤치 마크 및 고등학교 수준의 사이버 보안 캡처 플래그 챌린지 (CTF)에서 잘 수행되어 코딩 능력을 더욱 강화합니다.
줄기
O1-Mini는 강력한 추론 기술이 필요한 다양한 학문적 벤치 마크에서 미틀을 입증했습니다. GPQA (Science) 및 MATH-500과 같은 벤치 마크에서 O1-MINI는 GPT-4O를 능가하여 STEM 관련 작업에서 우수성을 보여줍니다. 그러나 MMLU와 같은 광범위한 지식이 필요한 작업과 관련하여 O1-MINI는 GPT-4O뿐만 아니라 수행되지 않을 수 있습니다. 이는 O1-Mini가 줄기 추론에 최적화되어 있고 GPT-4O가 보유하고있는 광범위한 세계 지식이 부족할 수 있기 때문입니다.
인간 선호도 평가
인간 평가자는 다양한 영역에서 도전적인 프롬프트에 대한 GPT-4O와 O1-MINI의 성능을 적극적으로 비교했습니다. 결과는 추론이 많은 도메인에서 O1-MINI에 대한 선호도를 보여 주었지만 GPT-4O는 언어 중심 영역에서 주도권을 잡아 다른 상황에서 모델의 강점을 강조했습니다.
O1-MINI의 안전성 구성 요소
O1-MINI 모델의 안전성과 정렬은 책임감 있고 윤리적 인 사용을 보장하는 데 가장 중요합니다. 구현 된 안전 조치에 대한 설명은 다음과 같습니다.
- 훈련 기술 : O1-MINI의 교육 접근 방식은 정렬 및 안전에 중점을 둔 전임자 O1- 프리뷰의 것과 반영됩니다. 이 전략은 모델의 출력이 인간의 가치와 일치하고 개발의 중요한 측면 인 잠재적 위험을 완화하도록합니다.
- 탈옥 견고성 : O1-MINI의 주요 안전 기능 중 하나는 강화 된 탈옥 견고성입니다. O1-Mini는 StrongReject DataSet의 내부 버전에서 GPT-4O에 비해 59% 더 높은 탈옥 견고성을 보여줍니다. 탈옥 견고성은 모델이 출력을 조작하거나 오용하려는 시도에 저항하는 능력을 말해서 의도 된 목적과 일치하는 상태를 유지합니다.
- 안전 평가 : O1-MINI를 배치하기 전에 철저한 안전 평가가 수행되었습니다. 이 평가는 준비 조치, 외부 적색 팀 밍 및 포괄적 인 안전 평가를 포함하여 O1- 프리뷰에 사용 된 것과 동일한 접근법을 따랐습니다. 외부 레드 팀은 독립적 인 전문가를 참여시키기 위해 잠재적 인 취약점과 보안 위험을 식별합니다.
- 자세한 결과 : 이러한 안전 평가 결과는 함께 제공되는 시스템 카드에 게시됩니다. 이러한 투명성을 통해 사용자와 연구원은 모델의 안전 조치를 이해하고 사용에 대한 정보에 근거한 결정을 내릴 수 있습니다. 시스템 카드는 모델의 성능, 한계 및 잠재적 위험에 대한 통찰력을 제공하여 책임있는 배포 및 사용을 보장합니다.
끝 참고
OpenAi의 O1-Mini는 STEM 응용 프로그램의 게임 체인저로 비용 효율성과 인상적인 성능을 제공합니다. 전문 교육은 특히 수학 및 코딩에서 추론 능력을 향상시킵니다. 강력한 안전 조치로 O1-MINI는 STEM 벤치 마크에서 뛰어나 연구원과 교육자에게 신뢰할 수 있고 투명한 도구를 제공합니다.
O1 Mini의 사용에 대해 더 많이 알기 위해 분석 Vidhya 블로그를 계속 지켜봐 주시기 바랍니다!
위 내용은 O1-MINI : STEM 및 추론을위한 게임 변화 모델의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

소개 새로운 초고층 건물을 짓고 있다고 상상해보십시오. 청사진 없이는 시작하지 않을 것입니다. 마찬가지로, 소프트웨어를 개발할 때 올바른 프레임 워크를 갖는 것이 중요합니다. 파이썬의 광대 한 세계에서 프레임 워크 AC

소개 Prompt Engineering은 2024 년에 인기있는 주제였으며,이 경쟁 분야에서 기술을 실현하기 위해 생성 AI 학습자의 급속한 발전이있었습니다. 프롬프트 엔지니어링 마스터링은 파워프의 열쇠를 갖는 것과 같습니다.

적응 프롬프트 : DSPY와의 AI 상호 작용 혁신 AI 동반자가 모든 뉘앙스를 완벽하게 이해하고 응답하는 대화를 상상해보십시오. 이것은 공상 과학이 아닙니다. 적응 형 프롬프트의 힘입니다. 이 기술은 역동적입니다

소개 인공 지능에서 과학적 발견의 과정을 재구성 할 것을 약속하는 획기적인 발전이 등장했습니다. O University of O의 AI 연구를 위해 Foerster Lab과 협력하여

소개 분야의 광대 한 특성과 필요한 다양한 지식과 능력으로 인해 AI 면접을 준비하는 것은 어려울 수 있습니다. AI 산업의 확장은 증가하는 RE에 해당합니다.

Adalflow : LLM 작업 파이프 라인을 간소화하기위한 Pytorch 라이브러리 Li Yin에 의해 주도 된 Adalflow는 검색 된 세대 (RAG) 연구와 실제 적용 사이의 격차를 해소합니다. Pytorch를 활용하면 EXI의 한계를 해결합니다

Microsoft는 PHI-3.5를 공개합니다 : 효율적이고 강력한 소규모 언어 모델의 가족 PHI-3.5 제품군 인 Microsoft의 최신 소규모 언어 모델 (SLMS)은 언어를 포괄하는 다양한 벤치 마크에서 우수한 성능을 자랑합니다.

Python : 효율적이고 읽을 수있는 코드를위한 마스터 링 함수 및 Lambda 기능 우리는 Python의 다양성을 탐구했습니다. 이제 코드 효율성과 가독성을 향상시키기위한 기능을 탐구합시다. 생산 레브에서 코드 모듈성 유지


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

Dreamweaver Mac版
시각적 웹 개발 도구

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

드림위버 CS6
시각적 웹 개발 도구
