Openai的O1:為期12天的禮物狂歡始於他們迄今為止最強大的模型
12月的到來帶來了全球放緩,世界某些地區的雪花放緩,但Openai才剛剛開始。山姆·奧特曼(Sam Altman)和他的團隊正在推出12天的禮物盛會,第一屆禮物是主要禮物:Openai O1,迄今為止最先進的車型。幾個月以來,GPT-4一直在統治最高,但O1在這裡挑戰其統治地位。該博客將O1與GPT-4O在多個任務中對抗GPT-4O,以確定高級模型。
目錄
Openai O1:關鍵改進
OpenAI的O1在2024年9月的O1-preview型號的基礎上為複雜的任務提供了提高的精度和速度。與其前身相比:
訪問O1
O1可通過Chatgpt Plus和Chatgpt Pro訂閱(不是免費計劃)獲得。 Chatgpt Pro提供無限的O1訪問,而Plus提供有限數量的交互。訪問:
O1與GPT-4O:正面比較
雖然O1-preview印象深刻,但GPT-4O(2024年5月推出)仍然是其準確性,速度和多功能性在處理文本,圖像和音頻的最佳選擇。它的MMLU基準評分為88.7%,為多模式AI設定了高標準。 O1現在旨在超越GPT-4O,尤其是在數學,編碼和復雜的問題解決方面。五個挑戰將揭示勝利者:
挑戰1:情感分析的流程圖設計
提示:設計流程圖並解釋情感分析系統所需的工具,該系統獲取股票新聞(新聞API),分析情感,並向客戶提供140個字符的摘要和情感。
結果: O1產生了一個清晰,無錯誤的流程圖,並提供了詳細的解釋和其他工具的建議。 GPT-4O提供了概念描述和缺陷圖。
判決: O1獲勝。
挑戰2:科學圖像分析
提示:計算此電路圖的輸出。 (提供的電路圖圖像)
結果: O1正確識別的組件,從圖形中讀取值,描述的電路操作和計算的參數。 GPT-4O確定了一些組件,但需要其他輸入值。
判決: O1獲勝。
挑戰3:數學圖像分析
提示:確定此遊戲中每個團隊的勝利概率。 (提供的板球記分牌的圖像)
結果: O1準確地分析了圖像,確定了遊戲格式,並以理由進行了計算的勝利概率。 GPT-4O部分理解了遊戲,但未能提供概率。
判決: O1獲勝。
挑戰4:Sudoku解決方案
提示:解決此Sudoku難題並提供解決方案作為圖像。 (提供的Sudoku拼圖的圖像)
結果:這兩個模型都無法提供正確的解決方案。
判決:領帶(都失敗)。
挑戰5:圖像生成
提示:創建在海邊附近跑步的狗的圖像。
結果: GPT-4O生成了請求的圖像; O1目前缺乏圖像生成功能。
判決: GPT-4O獲勝。
結果摘要:O1與GPT-4O
挑戰 | GPT-4O結果 | O1結果 | 判決 |
---|---|---|---|
流程圖設計 | 概念,不清楚的錯誤 | 清晰,詳細,無錯誤 | O1 |
科學圖像分析 | 部分組件識別,不完整 | 完整的分析,準確的計算 | O1 |
數學圖像分析 | 部分理解,沒有給出的概率 | 準確的分析,計算的概率 | O1 |
Sudoku解決方案 | 不正確 | 不正確 | 領帶 |
圖像生成 | 正確生成的圖像 | 無法生成圖像 | GPT-4O |
結論
O1在許多領域都明顯勝過GPT-4O,表明推理和精度較高。它的速度和簡潔性也是對O1審視的值得注意的改進。但是,它並非完美無瑕,可能需要迭代精緻。 O1是需要先進解決問題能力的研究人員,科學家和專業人員的強大工具。
常見問題
以上是O1 vs GPT-4O:OpenAI的新型號比GPT-4O好嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!