按照大語言模型的持續進化和自我革新,性能、準確度、穩定性都有了大幅的提升,這已經被各個基準問題集驗證過了。
但是,對於現有版本的 LLM 來說,它們的綜合能力似乎並不能完全支撐得起 AI 智能體。
多模態、多任務、多領域推論成為AI 智能體在公共傳媒空間內的必須要求,但是在具體的功能實踐中所展現的真實效果卻差異強烈。這似乎再次提醒各個 AI 智能體新創公司以及大型科技巨頭認清現實:腳踏實地一點,先別把攤子鋪得太大,從 AI 增強功能開始做起。
近日,一篇關於AI智能體在宣傳和真實表現上的差距的部落格中,強調了一個觀點:「AI智能體在宣傳上是個巨人,而現實卻很不妙。隨著科技的不斷進步,AI被賦予了許多令人矚目的特點和能力,然而實際應用中卻經常出現一些問題和
自主AI 智能體能夠夠執行複雜任務的背景已經引起極大的興奮。透過與外部工具和功能的交互,LLMs 可以在沒有人為幹預的情況下完成多步驟的工作流程。
但現實證明,這比預期的要更具挑戰性。
WebArena排行榜是一個真實可重複的網路環境,用於評估實用智能體的效能。對LLM智能體在現實任務中的表現進行了基準測試,結果顯示即使是表現最好的模型,成功率也只有35.8%。
WebArena 排行榜對LLM 智能體在現實任務中的表現進行的基準測試結果:SteP 模型在成功率指標上表現最為良好,達到了35.8%,而知名的GPT-4 的成功率僅達到了14.9%。
「AI 智能體」這個術語並沒有真正被定義,對智能體究竟是什麼也存在著很多的爭議。
AI 智能體可以定義為「一個被賦予行動能力的LLM(通常在RAG 環境中進行函數呼叫),以便在環境中對如何執行任務做出高層次的決策。模型處理整個任務,並基於其全面的上下文理解做出所有決策和行動。這種方法利用了大型模型的湧現能力,避免了將任務分解所帶來資訊的遺失。
多智能體系統:將任務分解為子任務,每個子任務由一個更小、更專業的智能體處理。與嘗試使用一個難以控制和測試的大型通用智能體相比,人們可以使用許多較小的智能體來為特定子任務選擇正確的策略。由於上下文視窗長度的限製或不同技能組合的需要等實際約束,這種方法有時是必要的。
在見證了許多AI 智能體的嘗試之後,作者認為它們目前仍為時過早、成本過高、速度過慢且不夠可靠。許多 AI 智能體新創公司似乎在等待一個模型突破,以開啟智能體產品化的競賽。
#目前,以下幾家新創公司正在涉足AI 智能體領域,但大多數仍處於實驗階段或僅限邀請使用:
它們中似乎只有 MultiOn 在追求「給予指令並觀察其執行」的方法,這與 AI 智能體的承諾更為一致。
其他所有公司都在走記錄和重播的 RPA(record-and-replay)路線,這在現階段可能是為保證可靠性所必需的。
同時,一些大公司也在將 AI 功能帶到桌面和瀏覽器,看起來將會在系統層面上獲得本地的 AI 整合。
OpenAI 宣布了他們的 Mac 桌面應用程序,可以與作業系統螢幕互動。
在 Google I/O 大會上,Google 示範了 Gemini 自動處理購物退貨。
微軟宣布了 Copilot Studio,它將允許開發人員建立 AI 智能體機器人。
這些技術演示令人印象深刻,人們可以拭目以待這些智能體功能在公開發布並在真實場景中測試時的表現,而不是僅限於精心挑選的演示案例。
作者強調:「AI 智能體被過度炒作了,大多數還沒有準備好用於關鍵任務。」
然而,隨著基礎模型和架構迅速進步,他表示人們仍可以期待看到更多成功的實際應用。
AI 智能體最有前途的前進道路可能是這樣的:
透過結合嚴格約束的LLMs、良好的評估數據、人機協同監督和傳統工程方法,就可以在自動化等複雜任務方面實現可靠且良好的結果。
對於 AI 智能體是否會自動化乏味重複的工作,例如網頁抓取、填表和資料輸入?
作者:「是的,絕對會。」
那AI 智能體是否會在沒有人們幹預的情況下自動預訂假期?
作者:「至少在近期內不太可能。」
以上是AI智能體的炒作與現實:GPT-4都撐不起,現實任務成功率不到15%的詳細內容。更多資訊請關注PHP中文網其他相關文章!