搜尋
首頁科技週邊人工智慧Openai O1:一種在回答問題之前'思考”的新模型

你聽到了大新聞嗎? Openai剛剛推出了一系列新型AI模型的預覽 - OpenAi O1 (也稱為草莓/Q*)。這些模型很特別,因為它們在給您答案之前花費更多的時間“思考”。這意味著與早期模型相比,他們更好地解決了科學,編碼和數學等領域的真正棘手問題,這在很大程度上要歸功於先進的OpenAI O1參數

Openai以O1系列的方式將座右銘“思考”以“思考”

概述

  • Openai的新O1模型系列在數學,科學和編碼方面的棘手問題上表現出色,使以前的版本超出了以前的版本。
  • O1概覽模型可以解決高級任務,解決了93%的AIME數學問題並超過了科學基準的人類專家。這些成功的大部分取決於如何有效地設置OpenAI O1參數來處理複雜的任務。
  • Openai的O1-Mini以80%的成本提供了強大的編碼功能,使其成為開發人員的可訪問工具。
  • 通過改進的安全措施,O1模型確保了負責的AI使用,同時為研究人員,開發人員和教育者提供了增強的問題。

目錄

  • 有什麼大不了的?
  • Openai O1的用例
  • 令人印象深刻的測試結果
    • 高級數學比賽
    • 科學專業知識
    • 編碼
    • 其他基準和視覺理解
  • 認識O1-Mini
  • 使用O1 mini的數學
  • 誰可以使用O1-preiview?
  • 如何訪問O1-preview?
  • 安全也很重要
  • 接下來是什麼?
  • 最後的想法

有什麼大不了的?

O1-preiview模型經過訓練,可以退後一步,並真正思考事物,就像面臨棘手的問題時人類一樣。他們考慮了不同的方法,完善自己的想法,甚至在此過程中遇到自己的錯誤。這種更深層次的思維水平使他們能夠解決舊模型無法應付的問題。

Openai O1的用例

用Openai O1編碼

用Openai O1編寫難題

HTML蛇與Openai O1

令人印象深刻的測試結果

要查看與較早的GPT-4O模型相比,O1的更好,OpenAI使他們通過一系列艱難的測試,包括人類考試和機器學習基準。猜猜是什麼? O1在大多數這些推理的任務中的表現都優於GPT-4O!

讓我們分解一些結果:

高級數學比賽

他們在AIME(美國邀請賽數學考試)上測試了模型,這是美國頂尖學生的超級挑戰性數學考試

  • GPT-4O :解決了大約12%的問題(大約15個問題中的1.8個)。
  • Openai O1 :每次嘗試僅一嚐試就解決了74% (大約15個中的11.1)。當他們讓模型多次嘗試並取出最常見的答案時,它得分為83% 。使用更高級的方法,它達到了93% ,解決了15個問題中約13.9個!

綜上所述,在全國500名學生中,將獲得13.9的成績,超過美國數學奧林匹克運動會的臨界。那是一些嚴重的腦力!

科學專業知識

他們還評估了O1在GPQA-Diamond上的O1,這是一種艱難的基準測試,可測試化學,物理學和生物學方面的知識。 Openai甚至引進了博士學位的專家來回答這些問題。

  • 結果:O1優於這些人類專家,成為第一個在此基準下這樣做的AI模型!這表明O1可以在很高的水平上解決複雜的科學問題。

編碼

在諸如CodeForces之類的編碼競賽中,新模型達到了第89個百分位,表明它們可以輕鬆生成和調試複雜的代碼。

Openai O1:一種在回答問題之前'思考”的新模型

其他基準和視覺理解

但這不是全部! O1模型還顯示了其他領域的顯著改善:

了解視覺信息(視覺感知)

O1模型現在可以解釋和理解圖像 - 一種稱為視覺感知的功能。這意味著它可以分析視覺數據並回答有關它的問題,這對於AI來說是一大步。

醫學成像測試(MMMU基準)

Openai在一個名為MMMU的具有挑戰性的基准上測試了O1(該基準(該基準)代表了多模式的醫療機器理解)。該測試評估了AI可以理解醫學圖像並進行準確評估的程度,類似於醫療專業人員執行的任務。

結果:O1在此測試中得分78.2% ,這使其成為第一個以與人類醫學成像專家相當的水平執行的AI模型。這很大,因為理解和解釋醫學圖像需要深厚的知識和精度。

廣泛的知識(MMLU基準)

還對O1模型進行了測試,該模型在MMLU(大量的多任務語言理解)基准上進行了測試,該基準涵蓋了57個不同的主題,從歷史和文學到數學和計算機科學。

結果:O1在57名受試者中有54位優於GPT-4O!這表明O1不僅在一個領域中專業,還表明了廣泛主題的理解得到了提高。

Openai O1:一種在回答問題之前'思考”的新模型

用更簡單的話來說,O1能夠同時了解文本和圖像的能力意味著它變得更加通用和有能力。無論是分析複雜的醫學圖像,解決高級數學問題還是在各種主題上回答問題,O1都為AI做些什麼制定了新的標準。

認識O1-Mini

Openai還推出了O1-Mini ,這是O1-Preigiew模型的較小,更快,更實惠的版本,特別擅長編碼任務。它便宜80% ,這是對於需要強大推理能力的開發人員而無需破壞銀行的開發人員的絕佳選擇。

我們還發布了Openai O1-Mini,這是一種具有成本效益的推理模型,在STEM上表現出色,尤其是數學和編碼。

- 2024年9月12日Openai(@Openai)

使用O1 mini的數學

另請閱讀:Openai的O1-Mini:具有成本效益推理的STEM的改變遊戲規則的模型

誰可以使用O1-preiview?

這些新型號是針對任何處理複雜問題的人的遊戲規則改變者:

  • 研究人員和科學家:它們可以幫助註釋細胞測序數據或在量子物理等領域中產生所需的複雜公式。
  • 開發人員:構建和執行多步驟工作流變得更加容易,更高效。
  • 學生和教育工作者:他們提供了一種探索數學和科學中具有挑戰性概念的新方法。

如何訪問O1-preview?

Chatgpt Plus和團隊用戶:您可以從今天開始訪問ChatGPT中的O1-preview和O1-Mini模型。只需從模型選擇器中選擇它們即可。目前有每週的消息限制(O1-preiview的30條消息,O1-Mini的50條消息),但Openai正在努力盡快增加這些限制。

Openai O1:一種在回答問題之前'思考”的新模型

  • CHATGPT Enterprise和EDU用戶:從下週開始,您將可以訪問這兩種型號。
  • 開發人員:如果您處於API使用層5,則可以立即通過API開始嘗試這些模型。某些功能諸如函數調用和流媒體之類的功能尚不可用,但是它們正在路上。
  • chatgpt免費用戶:好消息! OpenAI計劃使所有自由用戶都可以使用O1-Mini。

安全也很重要

Openai還通過這些型號提高了安全功能。他們已經接受了培訓,以更好地理解和遵循安全指南,通過對對話期間的規則進行推理。這意味著他們不太可能被欺騙去做他們不應該做的事情(您可能聽說過“越獄”的AI模型)。

在艱難的安全測試中,O1-preview模型得分為100分,而GPT-4O的得分為22 。這是一個重大的改進,表明他們傾向在安全和適當的界限範圍內更好。

Openai與美國和英國的安全組織緊密合作,他們甚至鑑於這些機構的早期訪問模型,以幫助研究並確保一切都達到標準。

接下來是什麼?

這只是開始。 Openai正在計劃對這些模型進行定期更新和改進。他們正在尋找添加諸如瀏覽網絡,上傳文件和圖像之類的功能,以及更多的功能,以使它們更有幫助。

他們還繼續在GPT系列中與這個新的O1系列一起開發模型,因此有很多期待。

最後的想法

在AI世界中,O1-preview和O1-Mini模型的推出是一件大事。它們代表了AI如何通過複雜問題推理的重要一步。通過更好的性能和增強的安全措施,這些模型將成為許多從事挑戰任務的人的遊戲改變者。

請繼續關注Analytics Vidhya博客,以了解有關O1和O1 Mini的用途的更多信息!

以上是Openai O1:一種在回答問題之前'思考”的新模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
如何使用代理抹布構建智能常見問題聊天機器人如何使用代理抹布構建智能常見問題聊天機器人May 07, 2025 am 11:28 AM

人工智能代理人現在是企業大小的一部分。從醫院的填寫表格到檢查法律文件到分析錄像帶和處理客戶支持 - 我們擁有各種任務的AI代理。伴侶

從恐慌到權力:領導者在AI時代必須學會什麼從恐慌到權力:領導者在AI時代必須學會什麼May 07, 2025 am 11:26 AM

生活是美好的。 也可以預見的是,您的分析思維更喜歡它的方式。您今天只開會進入辦公室,完成一些最後一刻的文書工作。之後,您要帶您的伴侶和孩子們度過當之無愧的假期去陽光

為什麼預測AGI將超過AI專家的科學共識的原因為什麼為什麼預測AGI將超過AI專家的科學共識的原因為什麼May 07, 2025 am 11:24 AM

但是,科學共識具有打ic和陷阱,也許是通過使用融合的證據,也稱為合奏,也許是一種更加謹慎的方法。 讓我們來談談。 對創新AI突破的這種分析是我的一部分

吉卜力工作室的困境 - 生成AI時代的版權吉卜力工作室的困境 - 生成AI時代的版權May 07, 2025 am 11:19 AM

Openai和Studio Ghibli都沒有回應此故事的評論請求。但是他們的沉默反映了創造性經濟中更廣泛,更複雜的緊張局勢:版權在生成AI時代應該如何運作? 使用類似的工具

mulesoft為鍍鋅代理AI連接製定混合mulesoft為鍍鋅代理AI連接製定混合May 07, 2025 am 11:18 AM

混凝土和軟件都可以在需要的情況下鍍鋅以良好的性能。兩者都可以接受壓力測試,兩者都會隨著時間的流逝而遭受裂縫和裂縫,兩者都可以分解並重構為“新建”,兩種功能的產生

據報導,Openai達成了30億美元的交易來購買Windsurf據報導,Openai達成了30億美元的交易來購買WindsurfMay 07, 2025 am 11:16 AM

但是,許多報告都在非常表面的水平上停止。 如果您想弄清楚帆衝浪的全部內容,您可能會或可能不會從顯示在Google搜索引擎頂部出現的聯合內容中得到想要的東西

對所有美國孩子的強制性AI教育? 250多個首席執行官說是對所有美國孩子的強制性AI教育? 250多個首席執行官說是May 07, 2025 am 11:15 AM

關鍵事實 簽署公開信的領導者包括Adobe,Accenture,AMD,American Airlines,Blue Origin,Cognizant,Dell,Dellbox,IBM,LinkedIn,Lyftin,Lyft,Microsoft,Microsoft,Salesforce,Uber,Uber,Yahoo和Zoom)等高調公司的首席執行官。

我們自滿的危機:導航AI欺騙我們自滿的危機:導航AI欺騙May 07, 2025 am 11:09 AM

這種情況不再是投機小說。在一項受控的實驗中,阿波羅研究表明,GPT-4執行非法內幕交易計劃,然後向研究人員撒謊。這一集生動地提醒了兩條曲線

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器