研究公司Futuresearch評估了11種領先的大語模型,以處理其處理複雜的現實研究任務,總共89項任務。這些任務涉及尋找原始資源,尋求數據,收集證據,彙編數據和驗證索賠。
達到的最高分數為0.51,在一個假設的“完美”代理商中得分約為0.8。這表明當前的最高AI代理仍然被人類研究人員顯著超過。
該研究得出的結論是,“邊境代理……差不多的時間出色的聰明的通才研究人員”。
以下是各種AI模型的分數:
- O3(OpenAI):0.51
- 克勞德3.7十四行詩(思考):0.49
- Claude 3.7十四行詩(STD):0.48
- 雙子座2.5 Pro:0.45
- GPT-4.1L:0.42
- DeepSeek-R1:0.31
- Mistral Small:0.30
- GPT-4渦輪增壓:0.27
- Gemma 3:0.20
儘管有這些結果,AI代理仍顯示出快速改善。從一年曆史的Chatgpt-4-Turbo取得的0.27分數中,研究人員估計,“智能通才研究人員和邊境代理商之間約有45%的差距在一年內被彌合了。
此外,像DeepSeek這樣的便宜或自由推動者正在使用Openai的高級模型來縮小性能差距。雖然Openai的O3模型領先,緊隨其後的是Claude和Gemini,但封閉的模型目前在研究密集型任務中表現出色。但是,開源和免費模型變得越來越有競爭力。
但是,所有基於LLM的AI代理仍然面臨重大挑戰。他們落後於智能人類研究人員在戰略規劃,徹底性,來源質量評估和“記憶管理”方面經常忘記任務期間的早期發現。一個值得注意的問題是“滿意”,AI代理人會尋求低質量的回應,而不是尋求最佳答案。
Chatgpt的O3模型之所以排名榜首,是因為它更徹底地驗證了其答案,並且不太頻繁地解決次優響應。
鑑於精英人類和最佳AI代理商之間的近一半是一年之內關閉的,因此AI代理商可能很快就會超越最佳的人類研究人員。
然而,Chatgpt的最新模型過於愉快的最新挑戰表明,改進的途徑並不是一件直接的。
目前,至關重要的是驗證AI代理等生成AI應用程序結果的準確性。
以上是Chatgpt擊敗了Google的雙子座Claude,DeepSeek測試了AI代理商的詳細內容。更多資訊請關注PHP中文網其他相關文章!

高效保存ChatGPT對話記錄的多種方法 您是否曾想過保存ChatGPT生成的對話記錄?本文將詳細介紹多種保存方法,包括官方功能、Chrome擴展程序和截圖等,助您充分利用ChatGPT對話記錄。 了解各種方法的特點和步驟,選擇最適合您的方式。 [OpenAI最新發布的AI代理“OpenAI Operator”介紹](此處應插入OpenAI Operator的鏈接) 目錄 使用ChatGPT導出功能保存對話記錄 官方導出功能的使用步驟 使用Chrome擴展程序保存ChatGPT日誌 ChatGP

现代社会节奏紧凑,高效的日程管理至关重要。工作、生活、学习等任务交织在一起,优先级排序和日程安排常常让人头疼不已。 因此,利用AI技术的智能日程管理方法备受关注。特别是利用ChatGPT强大的自然语言处理能力,可以自动化繁琐的日程安排和任务管理,显著提高生产力。 本文将深入讲解如何利用ChatGPT进行日程管理。我们将结合具体的案例和步骤,展示AI如何提升日常生活和工作效率。 此外,我们还会讨论使用ChatGPT时需要注意的事项,确保安全有效地利用这项技术。 立即体验ChatGPT,让您的日程

我們將解釋如何將Google表和Chatgpt聯繫起來,以提高業務效率。在本文中,我們將詳細解釋如何使用易於使用的“床單和文檔的GPT”附加組件。無需編程知識。 通過CHATGPT和電子表格集成提高業務效率 本文將重點介紹如何使用附加組件將Chatgpt與電子表格連接。附加組件使您可以輕鬆地將ChatGpt功能集成到電子表格中。 gpt for shee

專家們預測AI革命的未來幾年,專家們預測專家們都在強調了總體趨勢和模式。例如,對數據的需求很大,我們將在後面討論。此外,對能量的需求是D

Chatgpt不僅是文本生成工具,而且是一個真正的合作夥伴,可顯著提高作家的創造力。通過在整個寫作過程中使用chatgpt,例如初始手稿創建,構思想法和風格變化,您可以同時節省時間並提高質量。本文將詳細說明在每個階段使用Chatgpt的特定方法,以及最大化生產力和創造力的技巧。此外,我們將研究將Chatgpt與語法檢查工具和SEO優化工具相結合的協同作用。通過與AI的合作,作家可以通過免費想法創造獨創性

使用chatgpt的數據可視化:從圖創建到數據分析 數據可視化以易於理解的方式傳達複雜信息,在現代社會中至關重要。近年來,由於AI技術的進步,使用Chatgpt的圖形創建引起了人們的關注。在本文中,我們將解釋如何以易於理解的方式使用Chatgpt創建圖形,甚至對於初學者。我們將介紹免費版本和付費版本(Chatgpt Plus),特定創建步驟以及如何顯示日語標籤以及實際示例之間的差異。 使用chatgpt創建圖形:從基礎到高級使用 chatg

通常,我們知道AI很大,而且越來越大。快速,越來越快。 但是,具體來說,並不是每個人都熟悉行業中一些最新的硬件和軟件方法,以及它們如何促進更好的結果。人民

ChatGPT對話記錄管理指南:高效整理,充分利用你的知識寶庫! ChatGPT對話記錄是創意和知識的源泉,但不斷增長的記錄如何有效管理呢? 查找重要信息耗時費力?別擔心!本文將詳細講解如何有效“歸檔”(保存和管理)你的ChatGPT對話記錄。我們將涵蓋官方歸檔功能、數據導出、共享鏈接以及數據利用和注意事項。 目錄 ChatGPT的“歸檔”功能詳解 ChatGPT歸檔功能使用方法 ChatGPT歸檔記錄的保存位置和查看方法 ChatGPT歸檔記錄的取消和刪除方法 取消歸檔 刪除歸檔 總結 Ch


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

WebStorm Mac版
好用的JavaScript開發工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3漢化版
中文版,非常好用

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)