搜尋
首頁科技週邊人工智慧全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent

近日,國內領先的人工智慧大模型公司面壁智能又放大招,聯合清華大學NLP 實驗室共同研發並推出大模型“超級英雄」——XAgent

透過任務測試,XAgent 在真實複雜任務的處理能力已全面超越 AutoGPT。

全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent


XAgent 在真實複雜任務處理中全面超越AutoGPT

  • 現已在GitHub 正式開源,網址https://github.com/OpenBMB/XAgent
  • ##案例展示網址:https ://x-agent.net/
  • 部落格網址:https://blog.x-agent.net

#XAgent 何許「人」也?

全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent

#XAgent 是可以自主解決複雜任務的全新AI 智能體,以LLM 為核心,能夠理解人類指令、制定複雜計劃並自主採取行動。

傳統智能體通常受到人類自訂規則的限制,只能在限定範圍內解決問題。它們更像是人類所用的「工具」,而不是真正的「自主智能體」,難以自主解決複雜問題。

相反,XAgent 被賦予了自主規劃和決策的能力,使它能夠獨立運行,發現新的策略和解決方案,不受人類預設的束縛。

它的能力已全面超越AutoGPT,在眾多場景任務上展示出了驚人的自主性和複雜任務的求解能力,將AI 智能體的智能水平提升到了一個全新高度。

那麼問題又來了:它是如何實現的呢?

「左右腦」協同,雙循環機制

#正如人類具備「左腦」 和「右腦」,在處理複雜任務時通常從「 宏觀」和「微觀」 兩個視角進行考慮,既要針對全局進行統籌和規劃,也要從執行層面來考慮。

全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent

相較於AutoGPT,面壁智慧和清華大學在XAgent 的設計中創新地引入了一種「雙循環機制」:

  • 外循環:負責全域任務規劃,將複雜任務分解為可操作的簡單任務。
  • 內部循環:負責局部任務執行,專注於細節。

透過雙循環機制的協作,XAgent 如同大模型領域的「超級英雄」,它在應對複雜任務的不同環節時,展現出超強的專業度和豐富的技能。

就像漫威宇宙中的「美隊」,XAgent 既有全局觀的領導力,也有細緻入微的執行力。

在外循環中,XAgent 展現出作為一個「規劃」(PlanAgent)的領導力,它會把複雜任務拆分成若干簡單任務,並監督問題解決的完整過程。

首先,它將給定的複雜任務分解成更小、更易於管理的「子任務」,產生“初始規劃”,形成任務序列。

隨後,它將逐次把每個子任務傳遞給內部循環解決。在這個過程中,外循環會不斷監督任務的進度和狀態,並根據回饋對後續規劃進行「迭代優化」。

在內循環中,XAgent 快速轉變身份,展現出作為一個高效「執行者」(ToolAgent)的專業度,確保外循環傳遞的子任務達到預期。

根據子任務性質的不同,它可以從外部系統中檢索工具,並針對子任務進行一步步求解。

在子任務完成後,它將產生目前子任務執行過程的反思,回饋給外循環,指示目前任務是否完成,以及任務執行中的潛在最佳化點。

如圖所示,使用者給 XAgent 提交了 iris.zip 文件,讓 XAgent 對資料進行分析。

全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent

可以看到,XAgent 先透過外迴圈將這個任務分解變成4 個子任務:

  1. 檢查資料與理解;
  2. 檢查系統的Python 環境,查看相關資料分析庫是否存在;
  3. 撰寫資料分析程式碼,對資料進行處理與分析;
  4. 根據python 程式碼執行結果撰寫分析報告。

隨後,在執行每一個子任務時,XAgent 透過內循環熟練地使用檔案讀取寫入、 shell 指令、python notebook 及對應pandas、sci-kit learn、 seaborn、matplotlib 等資料分析函式庫,甚至會對資料進行視覺化分析。

全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent

全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent

#AutoGPT 在執行相同任務時,並沒有製定檢查python 環境與相關函式庫的規劃,而是直接開始寫程式碼執行,導致使用相關函式庫時失敗報錯,最終也沒有完成資料的複雜分析。

人機協作:智能體互動新範式

#雖然AutoGPT 在一定程度上突破了傳統GPT 模型的局限性,但它仍有死循環、錯誤調用等執行出錯的現象,需要人工幹預才能解決。

而XAgent 在設計之初就針對相關問題進行了考量,並引入了專為增強人機協作的交互機制:它可以自主與用戶進行交互,並向人類發出乾預和指導的請求。

對於一個智能體而言,「是否能夠與人類協作」也是體現其智慧程度的重要指標。

首先,XAgent 具備直覺的介面,使用者可以直接涵蓋或修改它提出的建議,從而將AI 效率與人類的直覺和專業知識有效結合。

其次,在面臨陌生挑戰的情況下,XAgent 具備「向人類尋求幫助」能力,它會向使用者徵求即時回饋、建議或指導,確保即使在不確定的領域,智能體也能發揮最佳效果。

全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent圖片

#這種互動範式,將AI 的自主性與人類的智慧有機融合,展現了人與XAgent 之間的全新的協作關係。

如圖所示,用戶想讓 XAgent 幫忙推薦一些好吃的餐廳來和朋友聚會,但卻沒有提供具體詳細的資訊。

這時候XAgent 可以意識到目前使用者所提供的資訊不夠充足,難以進行推薦,於是向人類提出請求,詢問使用者的傾向地點、預算範圍、口味喜好、有哪些忌口等等,在得到用戶的回饋後從而提供了推薦的餐廳。

而 AutoGPT 則直接開始到網路上搜尋餐廳資訊進行推薦,最終推薦的結果地點不對,也沒有考慮用戶的預算,沒有符合用戶的需求。

高效能通訊語言,超強工具呼叫

無論「雙循環」的運作機制,或是「人機協作」 的互動能力,在XAgent 的整體設計中,面壁智能和清華團隊著重考慮的是智能體的穩定、高效和安全等核心特性。

結構化的通訊方式同樣是建立強大、穩定智能體的重要因素之一。

XAgent 採用 Function Call 作為其內部的通訊語言,具備結構化、標準化、統一化等優勢。

  • 結構化:Function Call 具備清晰嚴謹的格式,可以明確表述所需內容,從而最小化了潛在的錯誤。
  • 標準化:Function Call 可以將與外部工具的互動過程標準化,提供一種通用語言,使智能體具備使用和整合多種工具的能力,解決複雜任務。
  • 統一化:透過將資訊摘要、任務規劃、工具執行等所有環節轉化為特定的Function Call 形式,確保每個環節均以統一的方式進行處理,從而簡化系統設計。

此外,工具呼叫也是評估 AI Agent 是否具備解決複雜問題的重要能力之一。

XAgent 在設計中原創了工具執行引擎 ToolServer,可實現更安全、高效、可擴充的工具執行能力。

它在隔離的 Docker 環境中運行,確保工具執行不會危及主系統的穩定性或安全性。

這種設計帶來多重好處:

  • 「安全性
  • ##:在Docker 容器內執行工具可以保護主系統免受潛在危害。
  • 高效率

:系統可以根據需求和使用模式啟動、停止和重新啟動節點,以實現最佳資源使用。

可擴充

:方便管理程式碼,除錯和擴充性更強。

全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgentToolServer 的關鍵元件包括:ToolServerNode、ToolServerMonitor、ToolServerManager,在執行操作、節點檢查、週期管理等方面提供強大的能力。

全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent

目前,XAgent 的 ToolSever 支援 FileSystemEnv、PythonNotoBook、WebEnv、ExecuteShell、RapidAPIEnv、AskHumanforHelp 等多種工具。

全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent

XAgent 不僅可以幫我們做一些簡單的任務,它甚至可以幫助我們訓練模型。 全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent

例如,使用者希望能夠對電影評論進行分析,判斷大眾對電影評價的好壞。這時候 XAgent 會先下載 imdb 資料集去訓練一個 BERT 模型,並使用訓練好的 BERT 模型對電影評論進行預測。

################## 釋放大模型潛力,全面超越AutoGPT############經過在一系列任務中的測試可以看到(如下圖a、b 所示),基於GPT-4 的XAgent 表現效果在所有基準測試中都超過了原始的GPT-4,並且全面超越了AutoGPT。 ############這些任務需要Agent 推理規劃和使用外部工具的能力,包括:用搜尋引擎回答問題的能力(FreshQA HotpotQA)、Python 程式設計能力(MBPP)、數學推理能力( MATH)、互動式程式設計能力(InterCode)、具身推理能力(ALFWorld)、真實複雜任務等。 ######

全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent圖a:XAgent 在真實複雜任務處理中全面超越AutoGPT

全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent

圖b:超越AutoGPTXAgent 在六大AI Agent 基準測試中全面領先GPT-4

可以看出,XAgent 的系統設計能夠充分釋放GPT-4 的基礎能力,並達到極高的測試效果和人類傾向(Human Preference)。

這不僅表明XAgent 在需要推理規劃的傳統AI 測試中表現出色,而且在處理複雜的實際指令時具有更高的性能

拓展應用邊界,堅實技術基礎

AI Agent 的出現讓整個產業看到了大模型技術的重要落地方向,無需進行複雜的prompt 探索,就可以實現整套工作流程的任務執行。

作為具有無限潛力的大模型「超級英雄」,XAgent 可以成為每個普通的人的「個人助理」。它可以幫助我們規劃日程,安排行程,管理生活和工作的時間和資源分配。

它還可以自主使用多種資料收集、處理和分析工具,全自動地完成對大量資料的分析並形成報告,幫助使用者有效率地取得重要資訊。

此外,XAgent 還能結合外部工具與自主規劃演算法,根據環境資訊做出決策,以實現更有效率且精確的任務執行。

XAgent 的研發團隊是由來自面壁智慧和清華大學 THUNLP 實驗室的多位大模型領域的專家和學者組成。他們更像是大模型領域的「超級英雄」。

這項創新成果之所以能夠成功推出,正是團隊在長期的科學研究工作過程中建構了一系列前沿創新的大模型Infra,堅實技術基礎,拓展創新和研發的邊界。

面壁智慧聯合清華大學NLP 實驗室、OpenBMB 開源社群打造了一個「三位一體」 的大模型產學研生態佈局,提出並發布了多個大模型工具使用框架和引擎:

  • Tool Learning:大模型工具學習範式,將專業工具與大模型的優勢相融合,在問題解決方面達到更高的準確性、效率和自主性。
  • BMTools:大模型學習引擎,是讓語言模型使用擴充工具的開源倉庫,同時也是開源社群建構和共享工具平台。
  • ToolLLM,大模型工具學習框架,給大模型存取 16000 真實 API,讓大模型可以透過呼叫外部工具來完成更複雜的使用者指令任務。
  • WebCPM,中文領域首個支援聯網搜尋的模型框架,填補國產大模型該領域的空白,讓大模型能像人類一樣在網頁上即時搜尋答案,提高了AIGC 的即時性和準確性。

XAgent 拓展了 AI 智能體在執行複雜任務中的能力上限,讓我們看到大模型技術融入生產和生活的前沿趨勢和無限潛力。

以上是全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中