首頁  >  文章  >  科技週邊  >  AI智能體的炒作與現實:GPT-4都撐不起,現實任務成功率不到15%

AI智能體的炒作與現實:GPT-4都撐不起,現實任務成功率不到15%

PHPz
PHPz原創
2024-06-03 18:38:42978瀏覽

按照大語言模型的持續進化和自我革新,性能、準確度、穩定性都有了大幅的提升,這已經被各個基準問題集驗證過了。

但是,對於現有版本的 LLM 來說,它們的綜合能力似乎並不能完全支撐得起 AI 智能體。

AI智能體的炒作與現實:GPT-4都撐不起,現實任務成功率不到15%


多模態、多任務、多領域推論成為AI 智能體在公共傳媒空間內的必須要求,但是在具體的功能實踐中所展現的真實效果卻差異強烈。這似乎再次提醒各個 AI 智能體新創公司以及大型科技巨頭認清現實:腳踏實地一點,先別把攤子鋪得太大,從 AI 增強功能開始做起。

近日,一篇關於AI智能體在宣傳和真實表現上的差距的部落格中,強調了一個觀點:「AI智能體在宣傳上是個巨人,而現實卻很不妙。隨著科技的不斷進步,AI被賦予了許多令人矚目的特點和能力,然而實際應用中卻經常出現一些問題和

自主AI 智能體能夠夠執行複雜任務的背景已經引起極大的興奮。透過與外部工具和功能的交互,LLMs 可以在沒有人為幹預的情況下完成多步驟的工作流程。

但現實證明,這比預期的要更具挑戰性。

WebArena排行榜是一個真實可重複的網路環境,用於評估實用智能體的效能。對LLM智能體在現實任務中的表現進行了基準測試,結果顯示即使是表現最好的模型,成功率也只有35.8%。

AI智能體的炒作與現實:GPT-4都撐不起,現實任務成功率不到15%

WebArena 排行榜對LLM 智能體在現實任務中的表現進行的基準測試結果:SteP 模型在成功率指標上表現最為良好,達到了35.8%,而知名的GPT-4 的成功率僅達到了14.9%。

什麼是 AI 智能體?

「AI 智能體」這個術語並沒有真正被定義,對智能體究竟是什麼也存在著很多的爭議。

AI 智能體可以定義為「一個被賦予行動能力的LLM(通常在RAG 環境中進行函數呼叫),以便在環境中對如何執行任務做出高層次的決策。模型處理整個任務,並基於其全面的上下文理解做出所有決策和行動。這種方法利用了大型模型的湧現能力,避免了將任務分解所帶來資訊的遺失。

多智能體系統:將任務分解為子任務,每個子任務由一個更小、更專業的智能體處理。與嘗試使用一個難以控制和測試的大型通用智能體相比,人們可以使用許多較小的智能體來為特定子任務選擇正確的策略。由於上下文視窗長度的限製或不同技能組合的需要等實際約束,這種方法有時是必要的。

  1. 理論上,具有無限上下文長度和完美注意力的單一智能體是理想的。由於上下文較短,在特定問題上,多智能體系統總是比單一系統效果差。
  2. 實踐中的挑戰

在見證了許多AI 智能體的嘗試之後,作者認為它們目前仍為時過早、成本過高、速度過慢且不夠可靠。許多 AI 智能體新創公司似乎在等待一個模型突破,以開啟智能體產品化的競賽。

AI 智能體在實際運用上的表現並不夠成熟,這體現在輸出不精確、效能差強人意、成本較高、賠償風險、無法獲得使用者信任等問題:
  • 可靠性:眾所周知,LLMs 容易產生幻覺和不一致性。將多個 AI 步驟連接起來會加劇這些問題,尤其是對於需要精確輸出的任務。
  • 效能和成本:GPT-4、Gemini-1.5 和Claude Opus 在使用工具/ 函數呼叫方面表現不錯,但它們仍然較慢且成本高,特別是如果需要進行循環和自動重試時。
  • 法律問題:公司可能需要對其智能體的錯誤負責。最近的一個例子是,加拿大航空被命令向一位被航空公司聊天機器人誤導的客戶賠償。
  • 使用者信任:AI 智能體的「黑箱」性質以及類似範例使得使用者難以理解和信任其輸出。在涉及付款或個人資訊的敏感任務中(如支付帳單、購物等),贏得用戶信任將會很困難。

現實世界中的嘗試

#目前,以下幾家新創公司正在涉足AI 智能體領域,但大多數仍處於實驗階段或僅限邀請使用:

  • adept.ai - 融資3.5 億美元,但存取權限仍然非常有限。
  • MultiOn - 融資情況未知,他們的 API 優先方法看起來很有前景。
  • HypeWrite - 融資 280 萬美元,起初是一個 AI 寫作助手,後來擴展到智能體領域。
  • minion.ai - 最初引起了一些關注,但現在已經沉寂,僅有等候名單。

它們中似乎只有 MultiOn 在追求「給予指令並觀察其執行」的方法,這與 AI 智能體的承諾更為一致。

其他所有公司都在走記錄和重播的 RPA(record-and-replay)路線,這在現階段可能是為保證可靠性所必需的。

同時,一些大公司也在將 AI 功能帶到桌面和瀏覽器,看起來將會在系統層面上獲得本地的 AI 整合。

OpenAI 宣布了他們的 Mac 桌面應用程序,可以與作業系統螢幕互動。

在 Google I/O 大會上,Google 示範了 Gemini 自動處理購物退貨。

AI智能體的炒作與現實:GPT-4都撐不起,現實任務成功率不到15%

微軟宣布了 Copilot Studio,它將允許開發人員建立 AI 智能體機器人。

AI智能體的炒作與現實:GPT-4都撐不起,現實任務成功率不到15%

這些技術演示令人印象深刻,人們可以拭目以待這些智能體功能在公開發布並在真實場景中測試時的表現,而不是僅限於精心挑選的演示案例。

AI 智能體將走向哪條路?

作者強調:「AI 智能體被過度炒作了,大多數還沒有準備好用於關鍵任務。」

然而,隨著基礎模型和架構迅速進步,他表示人們仍可以期待看到更多成功的實際應用。

AI 智能體最有前途的前進道路可能是這樣的:

  • 近期的重點應放在利用AI 增強現有工具,而不是提供廣泛的全自主獨立服務。
  • 人機協同的方法,讓人類參與監督和處理邊緣案例。
  • 根據目前的能力和限制,設定不脫離現實的期望。

透過結合嚴格約束的LLMs、良好的評估數據、人機協同監督和傳統工程方法,就可以在自動化等複雜任務方面實現可靠且良好的結果。

對於 AI 智能體是否會自動化乏味重複的工作,例如網頁抓取、填表和資料輸入?

作者:「是的,絕對會。」

那AI 智能體是否會在沒有人們幹預的情況下自動預訂假期?

作者:「至少在近期內不太可能。」


以上是AI智能體的炒作與現實:GPT-4都撐不起,現實任務成功率不到15%的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn