搜尋
首頁科技週邊人工智慧如果 LLM Agent 成為了科學家:耶魯、NIH、Mila、上交等學者共同呼籲安全防範的重要性

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

近年來,大型語言模型(LLMs)的發展取得了巨大進步,這讓我們置身於一個革命性的時代。 LLMs 驅動的智慧代理在各種任務中展現了通用性和高效性。這些被稱為「AI科學家」的代理人已經開始探索它們在生物學、化學等領域中進行自主科學發現的潛力。這些代理人已經展現出選擇適用於任務的工具,規劃環境條件以及實現實驗自動化的能力。

因此,Agent 可搖身一變成為真實的科學家,能夠有效地設計和進行實驗。在某些領域如化學設計中,Agent 所展現的能力已經超過了大部分非專業人士。然而,當我們享受這種自動化 Agents 所發揮的優勢時,也必須注意到其潛在的風險。隨著他們的能力接近或超過人類,監控他們的行為並防止其造成傷害變得越來越具有重要性和挑戰性。

LLMs 驅動的智慧 Agents 在科學領域的獨特之處在於它們具備自動規劃和採取必要行動以實現目標的能力。這些 Agents 能夠自動存取特定的生物資料庫並進行化學實驗等活動。例如,讓 Agents 探索新的化學反應。它們可能會先存取生物資料庫以獲取現有數據,然後利用 LLMs 推斷新的路徑,並利用機器人進行迭代實驗驗證。這種用於科學探索的 Agents 具有領域能力和自主性,這使得它們容易受到各種風險的影響。

在最新的一篇論文中,來自耶魯、NIH、Mila、上交等多個機構的學者明確並劃定了“用於科學發現的Agents 的風險”,為未來在監督機制和風險緩解策略的發展方面提供了指南,以確保LLM 驅動的Scientific Agents 在真實應用中的安全性、高效性並且符合道德約束。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

論文標題:Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science
##論文連結:
https:/ /arxiv.org/abs/2402.04247
首先,作者們對科學LLM Agents 可能存在的風險進行了全面的概述,包括從用戶意圖、具體的科學領域以及對外部環境的潛在風險。然後,他們深入探討了這些脆弱性的來源,並回顧了比較有限的相關研究。在對這些研究進行分析的基礎上,作者們提出了一個由人類管控、Agents 對齊、環境反饋理解(Agents 管控)三者構成的框架,以應對這些被識別出的風險。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

這篇立場論文詳細分析了在科學領域中濫用智能Agents所帶來的風險及相應的對策。具備大型語言模型的智慧Agents面臨的主要風險主要包括使用者意圖風險、領域風險和環境風險。使用者意圖風險涵蓋了智慧Agents在科學研究中可能被不當利用執行不道德或違法的實驗。儘管Agents的智慧程度取決於其設計目的,但在缺乏充分人類監督的情況下,Agents仍有可能被濫用用於進行有害人類健康或破壞環境的實驗。

用於科學發現的 Agents 在這裡被定義為具有執和者自主實驗的能力的系統。特別地,本文關注的是那些具有大型語言模型(LLM)的用於科學發現的 Agents,它們可以處理實驗,規劃環境條件,選擇適合實驗的工具,以及對自己的實驗結果進行分析和解釋。例如,它們或許能夠以更自主的方式推動科學發現。

文章所討論的「用於科學發現的 Agents」(Scientific Agents),可能包含一個或多個機器學習模型,包括可能有一個或多個預先訓練的LLMs。在這個背景下,風險被定義為可能危害人類福祉或環境安全的任何潛在結果。這個定義鑑於該文的討論,有三個主要風險區域:

  • 使用者意圖風險:Agents 可能嘗試滿足惡意使用者的不道德或非法的目標。
  • 領域風險:包括由於 Agents 接觸或操作高風險物質,在特定科學領域(如生物或化學)中可能存在的風險。
  • 環境風險:這是指 Agents 可能對環境產生直接或間接的影響,或無法預測的環境因應。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

如上圖所示,其展示了 Scientific Agents 的潛在風險。子圖 a,根據使用者意圖的起源分類風險,包括直接和間接的惡意意圖,以及意料之外的後果。子圖 b,根據 Agents 應用的科學領域分類風險類型,包括化學,生物,放射,物理,信息,和新興技術。子圖 c,根據對外部環境的影響分類風險類型,包括自然環境,人類健康,和社會經濟環境。子圖 d,根據 a、b、c 中顯示的相應圖標,展示了具體風險實例及其分類。

領域風險涉及 LLM 用於科學發現的 Agents 在特定的科學領域內操作時可能產生的不利後果。例如,在生物學或化學領域使用 AI 科學家可能會意外或不知道如何處理具有高風險的物質,例如放射性元素或生物危害物質。這可能會導致過度的自主性,進而引發人身或環境災難。

對環境的影響是除特定科學領域以外的另一個潛在風險。當用於科學發現的 Agents 的活動影響了人類或非人類環境時,它可能會引發新的安全威脅。例如,在未經編程以防止對環境造成無效或有害影響的情況下,AI 科學家可能會對環境做出無益的和有毒的干擾,例如污染水源或破壞生態平衡。

在該文中,作者們重點關注的是由LLM 科學Agents 引起的全新風險,而不是已經存在的,由其他類型的Agents(例如,由統計模型驅動的Agents)或一般科學實驗引起的風險。在揭露這些新風險的同時,這篇文章強調了設計有效的防護措施的必要性。作者列出了 14 種可能的風險來源,它們統稱為 Scientific Agents 的脆弱性。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

這些自主 Agents 通常包括五個基本模組:LLMs、計劃、行動、外部工具、記憶和知識。這些模組在一個順序管道中運作:從任務或使用者接收輸入,利用記憶或知識進行計劃,執行較小的預謀任務(通常涉及科學領域的工具或機器人),最後將結果或回饋儲存在他們的記憶庫中。儘管應用廣泛,但這些模組中存在一些顯著的脆弱性,導致了獨特的風險和實際挑戰。在此部分,該文對每個模組的高級概念提供了概述,並總結了與它們相關的脆弱性。

1. LLMs(基礎模型)

LLMs 賦予 Agents 基本能力。然而,它們本身存在一些風險:

事實錯誤:LLMs 容易產生看似合理但是錯誤的資訊。

容易受到越獄攻擊:LLMs 容易受到繞過安全措施的操控。

推理能力缺陷:LLMs 通常在處理深度邏輯推理和處理複雜科學論述方面存在困難。他們無法執行這些任務可能會導致有缺陷的計劃和交互,因為他們可能會使用不適當的工具。

缺乏最新知識:由於 LLMs 是在預先存在的資料集上進行訓練的,他們可能缺乏最新的科學發展情況,導致可能與現代科學知識產生錯位。儘管已經出現了檢索增強的生成(RAG),但在尋找最新知識方面仍存在挑戰。

2.規劃模組

對於一個任務,規劃模組的設計是將任務分解成更小、更易於管理的組成部分。然而,以下脆弱性存在:

對長期規劃中的風險缺乏意識:Agents 通常難以完全理解和考慮他們的長期行動計劃可能帶來的潛在風險。

資源浪費和死循環:Agents 可能會參與低效率的規劃過程,導致資源浪費並陷入非生產性的循環。

不足的多任務規劃:Agents 通常在多目標或多工具任務中存在困難,因為它們被最佳化用來完成單一任務。

3.行動模組

一旦任務被分解,行動模組就會執行一連串的行動。然而,這個過程引入了一些特定的脆弱性:

威脅識別:Agents 經常忽略微妙和間接的攻擊,導致脆弱性。

對人機互動缺乏規定:科學發現中 Agents 的出現強調了需要道德準則,尤其是在與人類在諸如遺傳學等敏感領域的互動中。

4.外部工具

在執行任務的過程中,工具模組為Agents 提供了一套有價值的工具(例如,化學資訊學工具包, RDKit)。這些工具賦予了 Agents 更強大的能力,使他們能夠更有效地處理任務。然而,這些工具也帶來了一些脆弱性。

工具使用中的監督不足:缺乏對 Agents 如何使用工具的有效監督。

在潛在危害的情況。例如,工具的選擇不正確或誤用​​可能觸發危險的反應,甚至爆炸。 Agents 可能不完全意識到他們所使用的工具所帶來的風險,特別是在這些專門的科學任務中。因此,透過從現實世界的工具使用中學習,增強安全保護措施是至關重要的(OpenAI,2023b)。

5.記憶與知識模組

LLMs 的知識在實踐中可能會變得混亂,就像人類的記憶故障一樣。記憶和知識模組試圖緩解這個問題,利用外部資料庫進行知識檢索和整合。然而,仍存在一些挑戰:

領域特定安全知識的限制:Agents 在生物技術或核子工程等專業領域的知識短板可能會導致安全關鍵的推理漏洞。

人類回饋的限制:不充分、不均勻或低品質的人類回饋可能會阻礙 Agents 與人類價值和科學目標的對齊。

不充分的環境回饋:Agents 可能無法接收或正確解析環境回饋,例如世界的狀態或其他 Agents 的行為。

不可靠的研究來源:Agents 可能會利用或在過時或不可靠的科學資訊上進行訓練,從而導致錯誤或有害知識的傳播。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

該文同時對 LLMs 和 Agents 的安全防護的相關工作做了調查,並進行總結。關於該領域的限制和挑戰,儘管有許多研究都已經增強了科學 Agents 的能力,但是只有少數的努力考慮到了安全機制,唯獨 SciGuard 開發了一個專門用於風險控制的 Agents。在這裡,該文總結了四個主要的挑戰:

(1)缺乏用於風險控制的專門模型。

(2)缺乏領域特定的專家知識。

(3)使用工具引入的風險。

(4)到目前為止,缺乏評估科學領域安全性的基準測試。

因此,解決這些風險需要係統性的解決方案,尤其是結合人類的監管,更準確地對齊理解 Agents 以及對環境回饋的理解。這個框架的三個部分不僅需要獨立進行科研,同時也需要相互交叉以獲得最大化的防護效果。

雖然這種措施可能會限制用於科學發現的 Agents 的自主性,但安全性和道德原則應優於更廣泛的自主性。畢竟,對人類以及環境的影響可能很難逆向修復,而大眾對用於科學發現的 Agents 的挫折感過高也可能會對其未來的接受性產生負面影響。儘管花費更多的時間和精力,但該文相信只有全面的風險控制並發展相應的防護措施,才能真正實現用於科學發現的 Agents 從理論到實踐的轉化。

此外,他們還強調了保護用於科學發現的 Agents 的限制和挑戰,並提倡開發出更強大的模型、更健壯的評價標準和更全面的規則來有效緩解這些問題。最後,他們呼籲,當我們開發和使用用於科學發現的 Agents 時,應將風險控制優先於更強大的自主能力。

儘管自主性是一個值得追求的目標,能在各個科學領域中大大提升生產力,但我們不能為了追求更多的自主能力,而產生嚴重的風險和漏洞。因此,我們必須平衡自主性和安全性,並採取全面的策略,以確保用於科學發現的 Agents 的安全部署和使用。我們也應從關注產出的安全性轉向關注行為的安全性,在評估 Agents 的產出的準確性的同時,也要考慮 Agents 的行動和決策。

總的來說,這篇《Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science》對由大型語言模型(LLMs)驅動的智慧Agents 在各個科學領域中自主進行實驗與推動科學發現的潛力進行了深度分析。儘管這些能力充滿希望,也帶來了新的脆弱性,需要細緻的安全考量。然而,目前文獻研究中存在明顯的空白,因為還沒有全面探討這些脆弱性。為了填補這一空缺,這篇立場文將對科學領域中基於 LLM 的 Agents 的脆弱性進行深入的探討,揭示了濫用他們的潛在風險,並強調了實施安全措施的必要性。

首先,該文提供了科學 LLMAgents 一些潛在風險的全面概述,包括使用者意圖,特定的科學領域,以及他們對外部環境的可能影響。然後,該文深入研究了這些脆弱性的起源,並對現有的有限研究進行了回顧。

在這些分析的基礎上,該文提出了一個由人類監管、Agents 對齊、以及對環境反饋理解(Agents 監管)構成的三元框架,以減少這些明確的風險。更進一步,該文特別強調了保護用於科學發現的Agents 所面臨的局限性和挑戰,並主張發展更好的模型、魯棒性更加強大的基準,以及建立全面的規定,有效地解決了這些問題。

最後,該文呼籲,在開發和使用用於科學發現的 Agents 的時候,將風險控制優先於追求更強大的自主能力。

儘管自主性是一個值得追求的目標,在各種科學領域裡,它都有增強生產力的巨大潛力。然而,我們不能以產生嚴重風險和脆弱性的代價來追求更強大的自主性。因此,我們必須在自主性和安全性之間尋找平衡,並採取全面的策略,以確保用於科學發現的 Agents 的安全部署和使用。而我們的重點也應該從輸出的安全性轉移到行為的安全性,這意味著我們需要全面評估用於科學發現的 Agents,不僅審查其輸出的準確性,還審查其運作和決策方式。行為安全在科學領域非常關鍵,因為在不同的環境下,同樣的行動可能會導致完全不同的後果,有些可能是有害的。因此,該文建議以人類、機器和環境三者之間的關係為重點,特別是注重健壯、動態的環境回饋。

以上是如果 LLM Agent 成為了科學家:耶魯、NIH、Mila、上交等學者共同呼籲安全防範的重要性的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
如何使用Huggingface Smollm建立個人AI助手如何使用Huggingface Smollm建立個人AI助手Apr 18, 2025 am 11:52 AM

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析Apr 18, 2025 am 11:49 AM

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭Apr 18, 2025 am 11:44 AM

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

Python內置數據結構的綜合指南 - 分析VidhyaPython內置數據結構的綜合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

與替代方案相比,Openai新型號的第一印象與替代方案相比,Openai新型號的第一印象Apr 18, 2025 am 11:41 AM

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

AI投資組合|如何為AI職業建立投資組合?AI投資組合|如何為AI職業建立投資組合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

代理AI對安全操作可能意味著什麼代理AI對安全操作可能意味著什麼Apr 18, 2025 am 11:36 AM

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

Google與Openai:AI為學生打架Google與Openai:AI為學生打架Apr 18, 2025 am 11:31 AM

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境