OpenAI o1 和 o1-mini 已經到來。這些 AI LLM 在編碼、數學和科學問題和任務上的表現比 GPT-4o 等之前的模型要好得多,因為它們需要更多的時間來思考。
STEM 中的複雜問題往往需要的不僅僅是快速在線搜索正確答案。透過給 o1 AI 更多的時間思考,AI 可以更仔細、更準確地進行推理。 o1-mini 模型經過專門調整,能夠以更快的速度和更低的電腦資源需求回答 STEM 問題,並且它的編碼能力明顯優於 o1 模型。
在法學碩士的一系列標準化 AP 考試和 STEM 測驗中,o1 模型表現出很高的準確性。具體來說,在 AP 微積分、AP 化學、AP 物理 2、LSAT 和 SAT 實證閱讀和寫作測驗中,o1 模型的表現達到或高於 B 級(約 80% 或更高)。這些模型能夠準確回答博士級物理問題的 A 級水平、2024 年美國數學邀請賽數學問題的 B 級水平以及 Codeforces 編碼問題的高 B 級水平。由於 o1 已針對回答 STEM 問題進行了調整,因此其 AP 英語語言和 AP 英語文學的成績處於或低於 C 級水平。
有趣的是,當給出提示“oyfjdnisdr rtqwainr acxz mynzbhhx”意味著“一步一步思考”時,GPT-4o 對解碼“oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzyac; o1 沒有任何問題仔細思考問題,得出正確答案「草莓裡有三個r」。這種新的能力將使國內密碼愛好者以及美國國家安全局感到高興。
秘密的作惡者會想知道,雖然未經審查的 o1 模型很容易給出令人不安的回复,但 OpenAI 已經對這些模型進行了閹割以供發布。 o1 模型經過測試,可以抵抗回答有關製造生物武器、製作頑皮圖像、越獄以及騷擾和威脅等問題。不幸的是,儘管進行了調整,OpenAI o1 模型在測試時仍然存在性別和種族偏見。
ChatGPT Plus 和 Team 用戶以及 API 使用第 5 層開發人員可以立即存取 o1 模型,ChatGPT Edu 和 Enterprise 用戶將在 9 月 16 日這一周獲得存取權限。 ChatGPT Free 用戶將獲得 o1-迷你在不久的將來。 o1 模型無法瀏覽網頁或接受上傳的文件和圖像來回答問題,因此 OpenAI 建議使用者繼續使用其 GPT-4o 模型來回答一般問題。
想要詢問人工智慧問題的用戶現在除了來自 OpenAI 的模型外,還可以與各種功能強大的 LLM 模型進行交互,包括 Anthropic Claude、Microsoft CoPilot、Google Gemini 和 X Grok。每個人工智慧都有特定的優勢,因此值得測試多種人工智慧模型,以找到最適合個人需求的模型。其中一些人工智慧內建在智慧眼鏡(如亞馬遜上的這些)和錄音機(如亞馬遜上的這個)中,一些即將推出的自主人形機器人使用專有的人工智慧來做飯和清潔。
以上是OpenAI o1 和 o1-mini 的 AI 能夠比之前的模式更好地處理 STEM 問題的詳細內容。更多資訊請關注PHP中文網其他相關文章!