O1-Mini：一種改變遊戲規則的STEM和推理模型-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

O1-Mini：一種改變遊戲規則的STEM和推理模型

尊渡假赌尊渡假赌尊渡假赌

Apr 13, 2025 am 09:55 AM

OpenAI引入了O1-Mini，這是一種具有成本效益的推理模型，重點是STEM受試者。該模型在數學和編碼中表現出令人印象深刻的性能，與其前身OpenAI O1非常相似，以各種評估基準。 OpenAI預計，O1-Mini將作為要求推理能力的應用程序的迅速而經濟的解決方案，而無需全球知識。 O1-Mini的推出目標是5級API用戶，與OpenAI O1-Preview相比，成本降低了80％。讓我們更深入地了解O1 Mini的工作。

概述

Openai的O1-Mini是一種經濟高效的STEM推理模型，表現優於其同齡人。
專業培訓使O1-Mini成為STEM的專家，在數學和編碼方面表現出色。
人類評估展示了O1-Mini在推理方面的優勢，而不是GPT-4O。
安全措施可確保O1-Mini的負責任使用，並增強越獄的魯棒性。
Openai對O1-Mini的創新提供了可靠且透明的STEM工具。

O1-Mini與其他LLM

LLM通常在大型文本數據集上進行預訓練。但這是捕獲；儘管他們擁有如此廣泛的知識，但有時可能會有些負擔。您會看到，所有這些信息使它們在現實世界中的情況下有點慢且昂貴。

將O1米尼與其他LLM分開的事實是，它接受了STEM的訓練。這種專門的培訓使O1-Mini成為與STEM相關的任務專家。該模型有效且具有成本效益，非常適合STEM應用。它的性能令人印象深刻，尤其是在數學和編碼方面。 O1-Mini是針對莖推理的速度和準確性進行了優化的。對於研究人員和教育者來說，這是一個有價值的工具。

O1-Mini在智能和推理基準方面表現出色，表現優於O1-preiview和O1，但在非莖事實知識任務中掙扎。

O1-Mini：一種改變遊戲規則的STEM和推理模型

另請閱讀：O1：Openai的新模型，該模型在回答棘手的問題之前“思考”

GPT 4O與O1 vs O1 Mini

在單詞推理問題上的響應比較突出了性能差異。雖然GPT-4O掙扎，但O1-Mini和O1-preiview表現出色，提供了準確的答案。值得注意的是，O1-Mini的速度非常出色，回答的速度約為3-5倍。

如何使用O1-Mini？

O1-Mini：一種改變遊戲規則的STEM和推理模型

Chatgpt Plus和團隊用戶：今天從模型選擇器中訪問O1-Mini，每週限制50條消息。
CHATGPT企業和教育用戶：兩種型號的訪問將於下週開始。
開發人員：API Tier 5用戶今天可以嘗試這些模型，但是尚不可用功能呼叫和流式的功能。
免費用戶：O1-Mini將很快提供給所有免費用戶。

O1-Mini的出色表現：數學，編碼及其他

Openai O1-Mini模型已在各種比賽和基準測試中進行了測試，其性能令人印象深刻。讓我們一一看一下不同的組件：

數學

在高中AIME數學比賽中，O1-Mini的得分為70.0％，與更昂貴的O1型號（74.4％）相當，並且明顯優於O1-Preview（44.6％）。該分數將O1-Mini置於美國500名高中學生中，這是一項了不起的成就。

編碼

繼續進行編碼，O1米尼在CodeForces競賽網站上發揮了1650分的ELO分數。該分數與O1（1673）具有競爭力，並且超過O1-Preview（1258）。這將O1-Mini置於在CodeForces平台上競爭的第86個百分位數。此外，O1-Mini在人道編碼的基準和高中網絡安全捕獲範圍挑戰（CTF）上表現良好，進一步鞏固了其編碼能力。

O1-Mini：一種改變遊戲規則的STEM和推理模型

幹

O1-Mini已證明其在需要強大推理技能的各種學術基準中。在GPQA（Science）和Math-500等基準測試中，O1-Mini的表現優於GPT-4O，展示了其在與STEM相關的任務方面的卓越表現。但是，當涉及需要更廣泛知識的任務時，例如MMLU，O1-Mini可能不如GPT-4O的性能。這是因為O1-Mini是針對STEM推理進行了優化的，並且可能缺乏GPT-4O擁有的廣泛世界知識。

O1-Mini：一種改變遊戲規則的STEM和推理模型

人類偏好評估

人類評估者在各個領域的挑戰提示中積極比較了O1-Mini與GPT-4O的表現。結果表明，在較重的推理領域中對O1-Mini的偏愛，但GPT-4O領導著以語言為中心的領域，突出了模型在不同情況下的優勢。

O1-Mini：一種改變遊戲規則的STEM和推理模型

O1米尼的安全組件

O1-MINI模型的安全性和對齊方式對於確保其負責任和道德使用至關重要。這是對實施安全措施的解釋：

訓練技術： O1-Mini的訓練方法反映了其前身O1-preiview的側重於對齊和安全。該策略確保模型的產出與人類價值觀保持一致，並減輕潛在風險，這是其發展的關鍵方面。
越獄魯棒性： O1-Mini的主要安全特徵之一是增強的越獄魯棒性。在內部版本的StrongRepent數據集中，與GPT-4O相比，O1-Mini顯示出越獄的魯棒性59％。越獄的魯棒性是指該模型抵制操縱或濫用其產出的嘗試的能力，以確保其與預期目的保持一致。
安全評估：在部署O1米尼之前，進行了徹底的安全評估。該評估遵循與O1審查相同的方法，其中包括準備措施，外部紅線和全面的安全評估。外部紅色團隊涉及吸引獨立專家以確定潛在的漏洞和安全風險。
詳細的結果：這些安全評估的結果發表在隨附的系統卡中。這種透明度使用戶和研究人員能夠了解該模型的安全措施，並就其使用情況做出明智的決定。該系統卡提供了有關模型的性能，限制和潛在風險的見解，從而確保負責任的部署和使用。

結尾

Openai的O1-Mini是用於STEM應用程序的遊戲規則，提供成本效益和令人印象深刻的性能。它的專業培訓增強了推理能力，尤其是在數學和編碼方面。通過強大的安全措施，O1-Mini在STEM基準測試中表現出色，為研究人員和教育者提供了可靠且透明的工具。

請繼續關注Analytics Vidhya博客，以了解有關O1 Mini的用途的更多信息！

以上是O1-Mini：一種改變遊戲規則的STEM和推理模型的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

如何使用代理抹布構建智能常見問題聊天機器人May 07, 2025 am 11:28 AM

人工智能代理人現在是企業大小的一部分。從醫院的填寫表格到檢查法律文件到分析錄像帶和處理客戶支持 - 我們擁有各種任務的AI代理。伴侶

從恐慌到權力：領導者在AI時代必須學會什麼May 07, 2025 am 11:26 AM

生活是美好的。也可以預見的是，您的分析思維更喜歡它的方式。您今天只開會進入辦公室，完成一些最後一刻的文書工作。之後，您要帶您的伴侶和孩子們度過當之無愧的假期去陽光

為什麼預測AGI將超過AI專家的科學共識的原因為什麼May 07, 2025 am 11:24 AM

但是，科學共識具有打ic和陷阱，也許是通過使用融合的證據，也稱為合奏，也許是一種更加謹慎的方法。讓我們來談談。對創新AI突破的這種分析是我的一部分

吉卜力工作室的困境 - 生成AI時代的版權May 07, 2025 am 11:19 AM

Openai和Studio Ghibli都沒有回應此故事的評論請求。但是他們的沉默反映了創造性經濟中更廣泛，更複雜的緊張局勢：版權在生成AI時代應該如何運作？使用類似的工具

mulesoft為鍍鋅代理AI連接製定混合May 07, 2025 am 11:18 AM

混凝土和軟件都可以在需要的情況下鍍鋅以良好的性能。兩者都可以接受壓力測試，兩者都會隨著時間的流逝而遭受裂縫和裂縫，兩者都可以分解並重構為“新建”，兩種功能的產生

據報導，Openai達成了30億美元的交易來購買WindsurfMay 07, 2025 am 11:16 AM

但是，許多報告都在非常表面的水平上停止。如果您想弄清楚帆衝浪的全部內容，您可能會或可能不會從顯示在Google搜索引擎頂部出現的聯合內容中得到想要的東西

對所有美國孩子的強制性AI教育？ 250多個首席執行官說是May 07, 2025 am 11:15 AM

關鍵事實簽署公開信的領導者包括Adobe，Accenture，AMD，American Airlines，Blue Origin，Cognizant，Dell，Dellbox，IBM，LinkedIn，Lyftin，Lyft，Microsoft，Microsoft，Salesforce，Uber，Uber，Yahoo和Zoom）等高調公司的首席執行官。