如果 LLM Agent 成為了科學家：耶魯、NIH、Mila、上交等學者共同呼籲安全防範的重要性-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

如果 LLM Agent 成為了科學家：耶魯、NIH、Mila、上交等學者共同呼籲安全防範的重要性

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 20, 2024 pm 03:27 PM

機器學習語言模型理論

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

近年來，大型語言模型（LLMs）的發展取得了巨大進步，這讓我們置身於一個革命性的時代。 LLMs 驅動的智慧代理在各種任務中展現了通用性和高效性。這些被稱為「AI科學家」的代理人已經開始探索它們在生物學、化學等領域中進行自主科學發現的潛力。這些代理人已經展現出選擇適用於任務的工具，規劃環境條件以及實現實驗自動化的能力。

因此，Agent 可搖身一變成為真實的科學家，能夠有效地設計和進行實驗。在某些領域如化學設計中，Agent 所展現的能力已經超過了大部分非專業人士。然而，當我們享受這種自動化 Agents 所發揮的優勢時，也必須注意到其潛在的風險。隨著他們的能力接近或超過人類，監控他們的行為並防止其造成傷害變得越來越具有重要性和挑戰性。

LLMs 驅動的智慧 Agents 在科學領域的獨特之處在於它們具備自動規劃和採取必要行動以實現目標的能力。這些 Agents 能夠自動存取特定的生物資料庫並進行化學實驗等活動。例如，讓 Agents 探索新的化學反應。它們可能會先存取生物資料庫以獲取現有數據，然後利用 LLMs 推斷新的路徑，並利用機器人進行迭代實驗驗證。這種用於科學探索的 Agents 具有領域能力和自主性，這使得它們容易受到各種風險的影響。

在最新的一篇論文中，來自耶魯、NIH、Mila、上交等多個機構的學者明確並劃定了“用於科學發現的Agents 的風險”，為未來在監督機制和風險緩解策略的發展方面提供了指南，以確保LLM 驅動的Scientific Agents 在真實應用中的安全性、高效性並且符合道德約束。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

論文標題：Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science

##論文連結：

https:/ /arxiv.org/abs/2402.04247

首先，作者們對科學LLM Agents 可能存在的風險進行了全面的概述，包括從用戶意圖、具體的科學領域以及對外部環境的潛在風險。然後，他們深入探討了這些脆弱性的來源，並回顧了比較有限的相關研究。在對這些研究進行分析的基礎上，作者們提出了一個由人類管控、Agents 對齊、環境反饋理解（Agents 管控）三者構成的框架，以應對這些被識別出的風險。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

這篇立場論文詳細分析了在科學領域中濫用智能Agents所帶來的風險及相應的對策。具備大型語言模型的智慧Agents面臨的主要風險主要包括使用者意圖風險、領域風險和環境風險。使用者意圖風險涵蓋了智慧Agents在科學研究中可能被不當利用執行不道德或違法的實驗。儘管Agents的智慧程度取決於其設計目的，但在缺乏充分人類監督的情況下，Agents仍有可能被濫用用於進行有害人類健康或破壞環境的實驗。

用於科學發現的 Agents 在這裡被定義為具有執和者自主實驗的能力的系統。特別地，本文關注的是那些具有大型語言模型（LLM）的用於科學發現的 Agents，它們可以處理實驗，規劃環境條件，選擇適合實驗的工具，以及對自己的實驗結果進行分析和解釋。例如，它們或許能夠以更自主的方式推動科學發現。

文章所討論的「用於科學發現的 Agents」（Scientific Agents），可能包含一個或多個機器學習模型，包括可能有一個或多個預先訓練的LLMs。在這個背景下，風險被定義為可能危害人類福祉或環境安全的任何潛在結果。這個定義鑑於該文的討論，有三個主要風險區域：

使用者意圖風險：Agents 可能嘗試滿足惡意使用者的不道德或非法的目標。
領域風險：包括由於 Agents 接觸或操作高風險物質，在特定科學領域（如生物或化學）中可能存在的風險。
環境風險：這是指 Agents 可能對環境產生直接或間接的影響，或無法預測的環境因應。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

如上圖所示，其展示了 Scientific Agents 的潛在風險。子圖 a，根據使用者意圖的起源分類風險，包括直接和間接的惡意意圖，以及意料之外的後果。子圖 b，根據 Agents 應用的科學領域分類風險類型，包括化學，生物，放射，物理，信息，和新興技術。子圖 c，根據對外部環境的影響分類風險類型，包括自然環境，人類健康，和社會經濟環境。子圖 d，根據 a、b、c 中顯示的相應圖標，展示了具體風險實例及其分類。

領域風險涉及 LLM 用於科學發現的 Agents 在特定的科學領域內操作時可能產生的不利後果。例如，在生物學或化學領域使用 AI 科學家可能會意外或不知道如何處理具有高風險的物質，例如放射性元素或生物危害物質。這可能會導致過度的自主性，進而引發人身或環境災難。

對環境的影響是除特定科學領域以外的另一個潛在風險。當用於科學發現的 Agents 的活動影響了人類或非人類環境時，它可能會引發新的安全威脅。例如，在未經編程以防止對環境造成無效或有害影響的情況下，AI 科學家可能會對環境做出無益的和有毒的干擾，例如污染水源或破壞生態平衡。

在該文中，作者們重點關注的是由LLM 科學Agents 引起的全新風險，而不是已經存在的，由其他類型的Agents（例如，由統計模型驅動的Agents）或一般科學實驗引起的風險。在揭露這些新風險的同時，這篇文章強調了設計有效的防護措施的必要性。作者列出了 14 種可能的風險來源，它們統稱為 Scientific Agents 的脆弱性。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

這些自主 Agents 通常包括五個基本模組：LLMs、計劃、行動、外部工具、記憶和知識。這些模組在一個順序管道中運作：從任務或使用者接收輸入，利用記憶或知識進行計劃，執行較小的預謀任務（通常涉及科學領域的工具或機器人），最後將結果或回饋儲存在他們的記憶庫中。儘管應用廣泛，但這些模組中存在一些顯著的脆弱性，導致了獨特的風險和實際挑戰。在此部分，該文對每個模組的高級概念提供了概述，並總結了與它們相關的脆弱性。

1. LLMs（基礎模型）

LLMs 賦予 Agents 基本能力。然而，它們本身存在一些風險：

事實錯誤：LLMs 容易產生看似合理但是錯誤的資訊。

容易受到越獄攻擊：LLMs 容易受到繞過安全措施的操控。

推理能力缺陷：LLMs 通常在處理深度邏輯推理和處理複雜科學論述方面存在困難。他們無法執行這些任務可能會導致有缺陷的計劃和交互，因為他們可能會使用不適當的工具。

缺乏最新知識：由於 LLMs 是在預先存在的資料集上進行訓練的，他們可能缺乏最新的科學發展情況，導致可能與現代科學知識產生錯位。儘管已經出現了檢索增強的生成（RAG），但在尋找最新知識方面仍存在挑戰。

2.規劃模組

對於一個任務，規劃模組的設計是將任務分解成更小、更易於管理的組成部分。然而，以下脆弱性存在：

對長期規劃中的風險缺乏意識：Agents 通常難以完全理解和考慮他們的長期行動計劃可能帶來的潛在風險。

資源浪費和死循環：Agents 可能會參與低效率的規劃過程，導致資源浪費並陷入非生產性的循環。

不足的多任務規劃：Agents 通常在多目標或多工具任務中存在困難，因為它們被最佳化用來完成單一任務。

3.行動模組

一旦任務被分解，行動模組就會執行一連串的行動。然而，這個過程引入了一些特定的脆弱性：

威脅識別：Agents 經常忽略微妙和間接的攻擊，導致脆弱性。

對人機互動缺乏規定：科學發現中 Agents 的出現強調了需要道德準則，尤其是在與人類在諸如遺傳學等敏感領域的互動中。

4.外部工具

在執行任務的過程中，工具模組為Agents 提供了一套有價值的工具（例如，化學資訊學工具包， RDKit）。這些工具賦予了 Agents 更強大的能力，使他們能夠更有效地處理任務。然而，這些工具也帶來了一些脆弱性。

工具使用中的監督不足：缺乏對 Agents 如何使用工具的有效監督。

在潛在危害的情況。例如，工具的選擇不正確或誤用可能觸發危險的反應，甚至爆炸。 Agents 可能不完全意識到他們所使用的工具所帶來的風險，特別是在這些專門的科學任務中。因此，透過從現實世界的工具使用中學習，增強安全保護措施是至關重要的（OpenAI，2023b）。

5.記憶與知識模組

LLMs 的知識在實踐中可能會變得混亂，就像人類的記憶故障一樣。記憶和知識模組試圖緩解這個問題，利用外部資料庫進行知識檢索和整合。然而，仍存在一些挑戰：

領域特定安全知識的限制：Agents 在生物技術或核子工程等專業領域的知識短板可能會導致安全關鍵的推理漏洞。

人類回饋的限制：不充分、不均勻或低品質的人類回饋可能會阻礙 Agents 與人類價值和科學目標的對齊。

不充分的環境回饋：Agents 可能無法接收或正確解析環境回饋，例如世界的狀態或其他 Agents 的行為。

不可靠的研究來源：Agents 可能會利用或在過時或不可靠的科學資訊上進行訓練，從而導致錯誤或有害知識的傳播。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

該文同時對 LLMs 和 Agents 的安全防護的相關工作做了調查，並進行總結。關於該領域的限制和挑戰，儘管有許多研究都已經增強了科學 Agents 的能力，但是只有少數的努力考慮到了安全機制，唯獨 SciGuard 開發了一個專門用於風險控制的 Agents。在這裡，該文總結了四個主要的挑戰：

（1）缺乏用於風險控制的專門模型。

（2）缺乏領域特定的專家知識。

（3）使用工具引入的風險。

（4）到目前為止，缺乏評估科學領域安全性的基準測試。

因此，解決這些風險需要係統性的解決方案，尤其是結合人類的監管，更準確地對齊理解 Agents 以及對環境回饋的理解。這個框架的三個部分不僅需要獨立進行科研，同時也需要相互交叉以獲得最大化的防護效果。

雖然這種措施可能會限制用於科學發現的 Agents 的自主性，但安全性和道德原則應優於更廣泛的自主性。畢竟，對人類以及環境的影響可能很難逆向修復，而大眾對用於科學發現的 Agents 的挫折感過高也可能會對其未來的接受性產生負面影響。儘管花費更多的時間和精力，但該文相信只有全面的風險控制並發展相應的防護措施，才能真正實現用於科學發現的 Agents 從理論到實踐的轉化。

此外，他們還強調了保護用於科學發現的 Agents 的限制和挑戰，並提倡開發出更強大的模型、更健壯的評價標準和更全面的規則來有效緩解這些問題。最後，他們呼籲，當我們開發和使用用於科學發現的 Agents 時，應將風險控制優先於更強大的自主能力。

儘管自主性是一個值得追求的目標，能在各個科學領域中大大提升生產力，但我們不能為了追求更多的自主能力，而產生嚴重的風險和漏洞。因此，我們必須平衡自主性和安全性，並採取全面的策略，以確保用於科學發現的 Agents 的安全部署和使用。我們也應從關注產出的安全性轉向關注行為的安全性，在評估 Agents 的產出的準確性的同時，也要考慮 Agents 的行動和決策。

總的來說，這篇《Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science》對由大型語言模型（LLMs）驅動的智慧Agents 在各個科學領域中自主進行實驗與推動科學發現的潛力進行了深度分析。儘管這些能力充滿希望，也帶來了新的脆弱性，需要細緻的安全考量。然而，目前文獻研究中存在明顯的空白，因為還沒有全面探討這些脆弱性。為了填補這一空缺，這篇立場文將對科學領域中基於 LLM 的 Agents 的脆弱性進行深入的探討，揭示了濫用他們的潛在風險，並強調了實施安全措施的必要性。

首先，該文提供了科學 LLMAgents 一些潛在風險的全面概述，包括使用者意圖，特定的科學領域，以及他們對外部環境的可能影響。然後，該文深入研究了這些脆弱性的起源，並對現有的有限研究進行了回顧。

在這些分析的基礎上，該文提出了一個由人類監管、Agents 對齊、以及對環境反饋理解（Agents 監管）構成的三元框架，以減少這些明確的風險。更進一步，該文特別強調了保護用於科學發現的Agents 所面臨的局限性和挑戰，並主張發展更好的模型、魯棒性更加強大的基準，以及建立全面的規定，有效地解決了這些問題。

最後，該文呼籲，在開發和使用用於科學發現的 Agents 的時候，將風險控制優先於追求更強大的自主能力。

儘管自主性是一個值得追求的目標，在各種科學領域裡，它都有增強生產力的巨大潛力。然而，我們不能以產生嚴重風險和脆弱性的代價來追求更強大的自主性。因此，我們必須在自主性和安全性之間尋找平衡，並採取全面的策略，以確保用於科學發現的 Agents 的安全部署和使用。而我們的重點也應該從輸出的安全性轉移到行為的安全性，這意味著我們需要全面評估用於科學發現的 Agents，不僅審查其輸出的準確性，還審查其運作和決策方式。行為安全在科學領域非常關鍵，因為在不同的環境下，同樣的行動可能會導致完全不同的後果，有些可能是有害的。因此，該文建議以人類、機器和環境三者之間的關係為重點，特別是注重健壯、動態的環境回饋。

以上是如果 LLM Agent 成為了科學家：耶魯、NIH、Mila、上交等學者共同呼籲安全防範的重要性的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除