近期,復旦大學自然語言處理團隊(FudanNLP)推出 LLM-based Agents 綜述論文,全文長達 86 頁,共有 600 篇參考文獻!作者們從 AI Agent 的歷史出發,全面梳理了基於大型語言模型的智能代理現狀,包括:LLM-based Agent 的背景、構成、應用場景、以及備受關注的代理社會。同時,作者們探討了 Agent 相關的前瞻開放問題,對於相關領域的未來發展趨勢具有重要價值。
- 論文連結:https://arxiv.org/pdf/2309.07864.pdf
- LLM -based Agent 論文清單:https://github.com/WooooDyy/LLM-Agent-Paper-List
##團隊成員還將為每篇相關論文加上「一句話概括」,歡迎Star 倉庫。 #長期以來,研究者一直在追求與人類相當、甚至超越人類水準的通用
人工智慧(Artificial General Intelligence,AGI)。早在 1950 年代,Alan Turing 就將「智慧」的概念擴展到了人工實體,並提出了著名的圖靈測試。這些人工智慧實體通常被稱為 —— 代理(Agent*)。 「代理」這個概念起源於哲學,描述了一個擁有慾望、信念、意圖以及採取行動能力的實體。在人工智慧領域,這個術語被賦予了一層新的意義:具有自主性、反應性、積極性和社交能力特徵的智慧實體。 *Agent 術語的中文譯本並未形成共識,有學者將其翻譯為智能體、行為體、代理或智能代理,本文中出現的「代理」和「智慧代理」均指Agent。 從那時起,代理商的設計就成為人工智慧社群的焦點。然而,過去的工作主要集中在增強代理人的特定能力,如符號推理或對特定任務的掌握(西洋棋、圍棋等)。這些研究更加重視演算法設計和訓練策略,而忽略了模型固有的通用能力的發展,如知識記憶、長期規劃、有效泛化和高效互動等。事實證明,
增強模型固有能力是推動智慧代理進一步發展的關鍵因素。 大型語言模型(LLMs)的出現為智慧代理的進一步發展帶來了希望。如果將 NLP 到 AGI 的發展路線分為五級:語料庫、互聯網、感知、具身和社會屬性,那麼目前的大型語言模型已經來到了第二級,具有互聯網規模的文本輸入和輸出。在這個基礎上,如果賦予 LLM-based Agents 感知空間和行動空間,它們將達到第三、第四級。進一步地,多個代理人透過互動、合作解決更複雜的任務,或反映出現實世界的社會行為,則有潛力來到第五級 —— 代理社會。
筆者所設想的一個由智慧代理人所構成的和諧社會,人類也能參與其中。場景取材自《原神》中的海燈節。 ##有大模型加持的智能代理會是什麼樣子?作者們受到達爾文「適者生存」法則的啟發,提出了基於大模型的智慧代理通用框架。一個人如果想要在社會中生存,就必須學會適應環境,因此需要具備認知能力,並且能夠感知、應對外界的變化。同樣,智慧代理的框架也由三個部分組成:控制端(Brain)、感知端(Perception)和行動端(Action)。
- 控制端:通常由 LLMs 構成,是智慧代理的核心。它不僅可以儲存記憶和知識,還承擔資訊處理、決策等不可或缺的功能。它可以呈現推理和計劃的過程,並很好地應對未知任務,反映出智慧代理的泛化性和遷移性。
- 感知端:將智慧代理的感知空間從純文字拓展到包括文字、視覺和聽覺等多模態領域,使代理人能夠更有效地從周圍環境中獲取與利用資訊。
- 行動端:除了常規的文本輸出,還賦予代理具身能力、使用工具的能力,使其能夠更好地適應環境變化,透過回饋與環境交互,甚至能塑造環境。
LLM-based Agent 的概念框架,包含三個組成部分:控制端(Brain)、感知端(Perception)和行動端(Action)。 作者們用一個例子來說明來了LLM-based Agent 的工作流程:當人類詢問是否會下雨時,感知端(Perception)將指令轉換為LLMs 可以理解的表示。然後控制端(Brain)開始根據當前天氣和網路上的天氣預報進行推理和行動規劃。最後,行動端(Action)做出回應並將雨傘遞給人類。 透過重複上述過程,智慧代理可以不斷獲得回饋並與環境互動。 #控制端作為智慧型代理最核心的組成成分,作者們從五個面向展開介紹其能力:自然語言互動:語言是溝通的媒介,其中包含著豐富的訊息。由於採用 LLMs 強大的自然語言生成和理解能力,智慧代理能夠透過自然語言與外界進行多輪交互,進而實現目標。具體而言,可以分為兩個方面:
- 高品質文字生成:大量評估實驗表明,LLMs 能夠產生流暢、多樣、新穎、可控制的文字。儘管在個別語言上表現欠佳,但整體上具備良好的多語言能力。
- 言下之意的理解:除了直覺表現出的內容,語言背後可能也傳遞了說話者的意圖、偏好等訊息。言下之意有助於代理更有效率地溝通與合作,大模型展現了這方面的潛力。
#知識:基於大量語料訓練的 LLMs,擁有了儲存大量知識(Knowledge)的能力。除了語言知識以外,常識知識和專業技能知識都是 LLM-based Agents 的重要組成部分。 雖然LLMs 本身仍然存在知識過期、幻覺等問題,現有的一些研究透過知識編輯或調用外部知識庫等方法,可以在一定程度上得到緩解。 記憶:在本文架構中,記憶模組(Memory)儲存了代理過往的觀察、思考和行動序列。透過特定的記憶機制,代理可以有效地反思並應用先前的策略,使其借鑒過去的經驗來適應陌生的環境。
- 擴充Backbone 架構的長度限制:針對Transformers 固有的序列長度限制問題進行改進。
- 總結記憶(Summarizing):對記憶進行摘要總結,增強代理人從記憶中提取關鍵細節的能力。
- 壓縮記憶(Compressing):透過使用向量或適當的資料結構對記憶進行壓縮,可以提高記憶檢索效率。
此外,記憶的檢索方法也很重要,只有檢索到適當的內容,代理才能夠存取到最相關和準確的資訊。 推理 & 規劃:推理能力(Reasoning)對於智慧代理人進行決策、分析等複雜任務至關重要。具體到 LLMs 上,就是一系列以 思維鏈(Chain-of-Thought,CoT)為代表的提示方法。而規劃(Planning)則是面對大型挑戰時常用的策略。它幫助代理人組織思維、設定目標並確定實現這些目標的步驟。在具體實作中,規劃可以包含兩個步驟:
- #計畫制定(Plan Formulation):代理人將複雜任務分解為更容易管理的子任務。例如:一次性分解再依序執行、逐步規劃並執行、多路規劃並選取最優路徑等。在一些需要專業知識的場景中,代理可與特定領域的 Planner 模組集成,提升能力。
- 計畫反思(Plan Reflection):在製定計劃後,可以進行反思並評估其優劣。這種反思一般來自三個面向:借助內在回饋機制;與人類互動獲得回饋;從環境中獲得回饋。
#遷移性& 泛化性:擁有世界知識的LLMs 賦予智慧代理人具備強大的遷移與泛化能力。一個好的代理人不是靜態的知識庫,還應具備動態的學習能力:
- #對未知任務的泛化:隨著模型規模與訓練資料的增大,LLMs 在解決未知任務上湧現了驚人的能力。通过指令微调的大模型在 zero-shot 测试中表现良好,在许多任务上都取得了不亚于专家模型的成绩。
- 情景学习(In-context Learning):大模型不仅能够从上下文的少量示例中进行类比学习,这种能力还可以扩展到文本以外的多模态场景,为代理在现实世界中的应用提供了更多可能性。
- 持续学习(Continual Learning):持续学习的主要挑战是灾难性遗忘,即当模型学习新任务时容易丢失过往任务中的知识。专有领域的智能代理应当尽量避免丢失通用领域的知识。
人类通过多模态的方式感知世界,所以研究者们对 LLM-based Agents 抱有同样的期待。多模态感知能加深代理对工作环境的理解,显著提升了其通用性。文本输入:作为 LLMs 最基础的能力,这里不再赘述。视觉输入:LLMs 本身并不具备视觉的感知能力,只能理解离散的文本内容。而视觉输入通常包含有关世界的大量信息,包括对象的属性,空间关系,场景布局等等。常见的方法有:
- 将视觉输入转为对应的文本描述(Image Captioning):可以被 LLMs 直接理解,并且可解释性高。
- 对视觉信息进行编码表示:以视觉基础模型 LLMs 的范式来构成感知模块,通过对齐操作来让模型理解不同模态的内容,可以端到端的方式进行训练。
听觉输入:听觉也是人类感知中的重要组成部分。由于 LLMs 有着优秀的工具调用能力,一个直观的想法就是:代理可以将 LLMs 作为控制枢纽,通过级联的方式调用现有的工具集或者专家模型,感知音频信息。此外,音频也可以通过频谱图(Spectrogram)的方式进行直观表示。频谱图可以作为平面图像来展示 2D 信息,因此,一些视觉的处理方法可以迁移到语音领域。其他输入:现实世界中的信息远不止文本、视觉和听觉。作者们希望在未来,智能代理能配备更丰富的感知模块,例如触觉、嗅觉等器官,用于获取目标物体更加丰富的属性。同时,代理也能对周围环境的温度、湿度和明暗程度有清楚的感受,采取更 Environment-aware 的行动。此外,还可以为代理引入对更广阔的整体环境的感知:采用激光雷达、GPS、惯性测量单元等成熟的感知模块。在大脑做出分析、决策后,代理还需要做出行动以适应或改变环境:文本输出:作为 LLMs 最基础的能力,这里不再赘述。工具使用:尽管 LLMs 拥有出色的知识储备和专业能力,但在面对具体问题时,也可能会出现鲁棒性问题、幻觉等一系列挑战。与此同时,工具作为使用者能力的扩展,可以在专业性、事实性、可解释性等方面提供帮助。例如,可以通过使用计算器来计算数学问题、使用搜索引擎来搜寻实时信息。另外,工具也可以扩展智能代理的行动空间。例如,通过调用语音生成、图像生成等专家模型,来获得多模态的行动方式。因此,如何让代理成为优秀的工具使用者,即学会如何有效地利用工具,是非常重要且有前景的方向。目前,主要的工具学习方法包括从演示中学习和从反馈中学习。此外,也可以通过元学习、课程学习等方式来让代理程序在使用各种工具方面具备泛化能力。更进一步,智能代理还可以进一步学习如何「自给自足」地制造工具,从而提高其自主性和独立性。具身行动:具身(Embodyment)是指代理与环境交互过程中,理解、改造环境并更新自身状态的能力。具身行动(Embodied Action)被视为虚拟智能与物理现实的互通桥梁。傳統的基於強化學習的Agent 在樣本效率、泛化性和複雜問題推理等方面存在局限性,而LLM-based Agents 透過引入大模型豐富的內在知識,使得Embodied Agent 能夠像人類一樣主動感知、影響物理環境。根據代理在任務中的自主程度或說Action 的複雜程度,可以有以下的原子Action:
- Observation 可以幫助智慧代理在環境中定位自身位置、感知物件物品和獲取其他環境資訊;
- Manipulation 則是完成一些具體的抓取、推動等操作任務;
- Navigation 要求智慧代理根據任務目標變換自身位置並根據環境資訊更新自身狀態。
透過組合這些原子行動,代理人可以完成更複雜的任務。例如「廚房的西瓜比碗大嗎?」這類具身的 QA 任務。為了解決這個問題,代理商需要導航到廚房,並在觀察二者的大小後得出答案。 受限於實體世界硬體的高成本和具身資料集缺乏等問題,目前具身行動的研究仍主要集中於遊戲平台《我的世界》等虛擬沙盒環境中。因此,一方面作者們期待有一種更貼近現實的任務範式和評價標準,另一方面,也需要大家在高效能建構相關資料集上面有更多的探索。 Agent in Practice:多樣化的應用場景##當下,LLM-based Agents 已經展現了令人矚目的多樣性和強大性能。 AutoGPT、MetaGPT、CAMEL 以及 GPT Engineer 等耳熟能詳的應用實例正以前所未有的速度蓬勃發展。
在介紹的具體的應用之前,作者們討論了Agent in Practice 的設計原則:
##1 . 幫助使用者從日常任務、重複勞動中解脫出來,減輕人類的工作壓力,提高解決任務的效率;2. 不再需要使用者提出顯式的低階指令,就可以完全自主的分析、規劃、解決問題;3. 在解放用戶的雙手以後,嘗試解放大腦:在前沿科學領域充分發揮潛能,完成創新性的、探索性的工作。 ## -based Agent 的三種應用範式:單代理、多代理、人機互動。
可以接受人類自然語言指令,執行日常任務的智慧代理目前備受使用者青睞,具有很高的現實使用價值。作者們首先在單一智能代理的應用場景中,闡述了其多樣化的應用場景與對應能力。 在本文中,單一智能代理的應用程式被分割成下列三個層次:
單一元件應用情境的三個層級上:任務導向、創新導向、生命週期導向。
- 在任務導向的部署中,代理人幫助人類使用者處理日常基本任務。它們需要具備基本的指令理解、任務分解、與環境互動的能力。具體來說,根據現有的任務類型,代理的實際應用又可分為模擬網路環境與模擬生活場景。
- 在創新導向的部署中,代理人能夠在前沿科學領域展現出自主探究的潛力。雖然來自專業領域的固有複雜性和訓練資料的缺乏為智慧代理的建構帶來了阻礙,但目前已經有許多工作在化學、材料、電腦等領域取得了進展。
- 在生命週期導向的部署中,代理商具備在一個開放世界中不斷探索、學習和使用新技能,並長久生存的能力。在本節中,作者們以《我的世界》遊戲為例展開介紹。由於遊戲中的生存挑戰可以被認為是現實世界的縮影,已經有許多研究者將其作為開發和測試代理綜合能力的獨特平台。
早在1986 年, Marvin Minsky 就做出了前瞻性的預言。他在《心智社會》(The Society of Mind)一書中提出了一種新穎的智力理論,認為智力是在許多較小的、特定功能的代理的相互作用中產生的。例如,一些代理可能負責識別模式,而其他代理可能負責做出決策或產生解決方案。 這個想法隨著分散式人工智慧的興起得到了具體實踐。多代理系統(Multi-Agent System)作為其中主要的研究問題之一,主要關注代理如何有效地協調並協作解決問題。本文作者將多重代理人之間的互動劃分為以下兩種形式:
多重代理人應用情境的兩種互動形式中:合作型互動式、對抗型互動。 #合作型互動:作為實際應用中部署最廣泛的類型,合作型的代理系統可以有效提高任務效率、共同改善決策。具體來說,根據合作形式的不同,作者們將合作型互動細分為無序合作與有序合作。
- 當所有代理人自由地表達自己的觀點、看法,以一種沒有順序的方式進行合作時,稱為無序合作。
- 當所有代理人遵循一定的規則,例如以流水線的形式逐一發表自己的觀點時,整個合作過程井然有序,稱為有序合作。
對抗型互動:智慧型代理以針鋒相對(tit for tat)的方式進行互動。透過競爭、談判、辯論的形式,代理拋棄原先可能錯誤的信念,對自己的行為或推理過程進行有意義的反思,最終帶來整個系統反應品質的提升。 人機互動(Human-Agent Interaction),顧名思義,是智能代理透過與人類交互,合作完成任務。一方面,代理的動態學習能力需要溝通交流來支持;另一方面,目前的代理系統在可解釋性上的表現依然不足,可能會存在安全性、合法性等方面的問題,因此需要人類參與進行規範與監督。 作者在論文中將 Human-Agent 的互動劃分為以下兩種模式:
人機互動情境中的兩種模式:Instructor-Executor 模式 vs. Equal Partnership 模式的。
- Instructor-Executor 模式:人類作為指導者,給予指令、回饋意見;而代理人作為執行者,依據指示逐步調整、優化。這種模式在教育、醫療、商業等領域得到了廣泛的應用。
- Equal Partnership 模式:有研究觀察到代理人能夠在與人類的溝通中表現出共感能力,或是以平等的身分參與任務執行中。智能代理展現出在日常生活中的應用潛力,並有望在未來融入人類社會。
##長期以來,研究人員一直憧憬著建構「互動式的人工社會」,從沙盒遊戲《模擬市民》到「元宇宙」,人們對模擬社會的定義可以概述為:環境環境中生存、互動的個體。
在文章中,作者們用一張圖描述了 Agent 社會的概念架構:
代理社會的概念架構,分為兩個關鍵部分:代理人且環境為代理人。
- 左側部分:在個體層面上,代理人表現出多種內化行為,例如計劃、推理和反思。此外,代理人也顯現出內在的人格特徵,涵蓋認知、情緒和性格三個面向。
- 中間部分:單一代理人可以與其他代理個體組成群體,共同展現出合作等群體行為,例如協同合作等。
- 右邊部分:環境的形式可以是虛擬的沙盒環境,也可以是真實的物理世界。環境中的要素包括了人類參與者和各類可用資源。對於單一代理而言,其他代理也屬於環境的一部分。
- 整體互動:代理人們透過感知外界環境、採取行動,積極參與整個互動過程。
- ##文章從外在行為和內在人格來審視了代理人在社會中的表現:
-
社會行為:
從社會的角度出發,行為可以分為個體和集體兩個層次:
個體行為構成了代理自身運作和發展的基礎。包括以感知為代表的輸入、行動為代表的輸出,以及代理本身的內化行為。 群體行為是指兩個以上代理自發性互動時所產生的行為。包括以協作為代表的積極行為、衝突為代表的消極行為,以及從眾、旁觀等中立行為。
-
人格:
包含認知、情感和性格。就像人類在社會化過程中逐漸形成自己的特質一樣,代理也展現了所謂的 "類人智能",即透過與群體和環境的互動中逐漸塑造人格。
認知(Cognitive abilities):涵蓋了代理獲取和理解知識的過程,研究表明,基於LLM 的代理在某些方面能夠表現出類似於人類的深思熟慮和智力水平。 情緒(Emotional intelligence):涉及主觀感受和情緒狀態,如喜怒哀樂,以及表現出同情和共感的能力。
性格(Character portrayal):為了理解和分析LLMs 的性格特徵,研究人員利用了成熟的評測方式,如大五人格、MBTI 測試,以探究性格的多樣性和複雜性。 代理社會不僅由獨立的個體構成,也包括了與其互動的環境。環境對代理的感知、行動和互動產生影響。反過來,代理也透過他們的行為和決策也改變環境的狀態。對於單一代理而言,環境包括其他自主代理、人類以及可使用的資源。
基於文本的環境: - 由於LLMs 主要依賴語言作為其輸入和輸出格式,因此基於文字的環境是代理最自然的操作平台。透過文字的方式來描述社會現象和互動,文本環境提供了語義和背景知識。代理存在於這樣的文本世界中,依賴文本資源來感知、推理和採取行動。
-
虛擬沙盒環境:
在電腦領域,沙盒是指一種可受控且隔離的環境,常用於進行軟體測試和病毒分析。而代理社會的虛擬沙盒環境則是作為模擬社會互動和行為模擬的平台,其主要特徵包括:
視覺化:可使用簡單的2D 圖形介面乃至複雜的3D 建模來展示世界,以直觀的方式刻畫模擬社會的方方面面。 ############可擴展性:可以建構和部署各種不同的場景(Web、遊戲等)進行各種實驗,為代理提供了廣闊的探索空間。 ######################## 真實的物理環境:###物理環境是由實際物件和空間組成的有形環境,代理人在其中進行觀察和行動。這種環境引入了豐富的感官輸入(視覺、聽覺和空間感)。與虛擬環境不同,實體空間對代理行為提出了更多的要求。即代理在物理環境中必須具備適應性,產生可執行的運動控制。作者舉了一個例子來解釋物理環境的複雜性:想像智慧代理人在工廠裡操作機械手臂的情景,操作機械手臂時需要精確控制力度,以避免損壞不同材質的物體;此外,代理商需要在實體工作空間中導航,及時調整移動路徑,以規避障礙物並優化機械手臂的運動軌跡。 這些要求都增加了代理人在物理環境中的複雜性和挑戰性。 在文章中,作者認為一個模擬社會應該具有開放性、持久性、情境性和組織性。開放性允許代理人自主地進出模擬社會;持久性是指社會具有隨著時間的推移而發展的連貫軌跡;情境性強調主體在特定環境中的存在和運作;組織性則確保模擬社會擁有類似物理世界的規則與限制。 至於模擬社會的意義,史丹佛大學的Generative Agents 小鎮為大家提供了生動的例子-Agent 社會可以用來探索群體智慧的能力邊界,例如代理們共同籌辦了一場情人節派對;也可以用來加速社會科學的研究,例如透過模擬社交網路來觀察傳播現象。此外,還有研究透過模擬道德決策場景來探討代理背後的價值觀、透過模擬政策對社會的影響來輔助決策等。 進一步地,作者指出這些模擬還可能存在一定風險,包括但不限於:有害社會現象;刻板印象和偏見;隱私安全問題;過度依賴與成癮性。 #在論文的最後,作者也討論了一些前瞻開放性問題,拋磚引玉,供讀者思考:#智能代理與大語言模型的研究該如何互相促進、共同發展? 大模型在語言理解、決策制定以及泛化能力等方面展現出強大的潛力,成為代理構建過程中的關鍵角色,而代理的進展也為大模型提出了更高的要求。 LLM-based Agents 會帶來哪些挑戰與隱憂? 智能代理能否真正落地,需要經過嚴謹的安全性評估,避免對真實世界帶來危害。作者總結了更多潛在威脅,例如:非法濫用、失業風險、對人類福祉造成影響等等。 代理程式數量的提升(scaling up)會帶來哪些機會和挑戰? 在模擬社會中,提升個體數量可以顯著提升模擬的可信度與真實性。然而,隨著代理人數量的上升,通訊與訊息傳播問題會變得相當複雜,訊息的失真、誤解或幻覺現像都會顯著降低整個類比系統的效率。 網路上關於 LLM-based Agent 是否是通往 AGI 的合適道路的爭論。 有研究者認為,以 GPT-4 為代表的大模型已經在足夠的語料上進行了訓練,在此基礎上構建的代理有潛力成為打開 AGI 之門的鑰匙。但也有其他研究者認為,自回歸語言建模(Auto-regressive Language Modeling)並不能顯現出真正的智能,因為它們只是做出回應。更完整的建模方式,例如世界模型(World Model),才能通往 AGI。 群體智能的演化歷程。群體智能是一種集結眾人的意見進而轉化為決策的過程。 然而,一味透過增加代理的數量,是否會產生真正的「智能」?此外,如何協調單一代理,讓智慧代理社會克服「團體迷思」和個人認知偏差? 代理程式即服務(Agent as a Service,AaaS)。 由於 LLM-based Agents 比大模型本身更加複雜,中小型企業或個人更難在本地構建,因此雲廠商可以考慮以服務的形式來將智能代理落地,即 Agent-as-a-Service。就像其他的雲端服務一樣,AaaS 有潛力為用戶提供高靈活性和按需的自助服務。 以上是復旦NLP團隊發表80頁大模型Agent綜述,一文綜觀AI智能體的現況與未來的詳細內容。更多資訊請關注PHP中文網其他相關文章!