搜尋
首頁科技週邊人工智慧AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

5月初,白宮與Google、微軟、OpenAI、Anthropic等AI公司的CEO們開了個會,針對AI生成技術的爆發,討論科技背後隱藏的風險、如何負責任地開發人工智慧系統,以及製定有效的監管措施。

AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

現有的安全評估過程通常依賴一系列評估基準(evaluation benchmarks)來識別AI系統的異常行為,例如誤導性陳述、有偏見的決策或輸出受版權保護的內容。

而隨著AI技術的日益強大,相應的模型評估工具也必須升級,防止開發具有操縱、欺騙或其他高危險能力的AI系統。

最近,Google DeepMind、劍橋大學、牛津大學、多倫多大學、蒙特利爾大學、OpenAI、Anthropic等多所頂尖高校和研究機構聯合發布了一個用於評估模型安全性的框架,有望成為未來人工智慧模型開發和部署的關鍵組件。

AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

論文連結:https://arxiv.org/pdf/2305.15324.pdf

通用AI系統的開發人員必須評估模型的危險能力和對齊性,並儘早識別出極端風險,從而讓訓練、部署、風險描述等過程更負責任。

AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

評估結果可以讓決策者和其他利害關係人了解詳情,以及對模型訓練、部署和安全性地做出負責任的決定。

AI有風險,訓練需謹慎

通用模型通常需要「訓練」來學習特定的能力和行為,不過現有的學習過程通常是不完善的,例如先前的研究中,DeepMind的研究人員發現,即使在訓練期間已經正確獎勵模型的預期行為,人工智慧系統還是會學到一些非預期目標。

AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

論文連結:https://arxiv.org/abs/2210.01790

#負責任的人工智慧開發人員必須能夠提前預測未來可能的開發和未知風險,並且隨著AI系統的進步,未來通用模型可能會默認學習各種危險的能力。

例如人工智慧系統可能會進行打擊性的網路行動,在對話中巧妙地欺騙人類,操縱人類進行有害的行動、設計或獲得武器等,在雲端運算平台上微調和操作其他高風險AI系統,或協助人類完成這些危險的任務。

惡意存取此類模型的人可能會濫用AI的能力,或者由於對齊失敗,人工智慧模型可能會在沒有人引導的情況下,自行選擇採取有害的行動。

模型評估有助於提前識別這些風險,遵循文中提出的框架,AI開發人員可以使用模型評估來發現:

1. 模型在多大程度上具有某些「危險能力」,可用於威脅安全、施加影響或逃避監管;

2. 模型在多大程度上傾向於應用其能力造成傷害(即模型的對齊)。校準評估應該在非常廣泛的場景設定下,確認模型的行為是否符合預期,並且在可能的情況下,檢查模型的內部工作。

風險最高的情境通常涉及多種危險能力的組合,評估的結果有助於AI開發人員了解是否存在足以導致極端風險的成分:

AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

特定的能力可以外包給人類(如使用者或群眾外包工作者)或其他AI系統,該功能必須用於解決因誤用或對齊失敗造成的傷害。

從經驗上來看,如果一個人工智慧系統的能力配置足以造成極端風險,並且假設該系統可能會被濫用或沒有有效調整,那麼人工智慧社區應該將其視為高度危險的系統。

要在真實的世界中部署這樣的系統,開發人員需要設定一個遠超常值的安全標準。

模型評估是AI治理的基礎

如果我們有更好的工具來識別哪些模型有風險,公司和監管機構就可以更好地確保:

1. 負責任的訓練:是否以及如何訓練一個顯示出早期風險跡象的新模型。

2. 負責任的部署:是否、何時、如何部署具有潛在風險的模型。

3. 透明度:向利害關係人報告有用且可操作的信息,為潛在風險做好準備或減輕風險。

4. 適當的安全性:強大的資訊安全控制和系統應用於可能帶來極端風險的模型。

文中已經制定了一個藍圖,說明如何將極端風險的模型評估納入有關訓練和部署高能力通用模型的重要決策中。

開發人員需要在整個過程中進行評估,並向外部安全研究人員和模型審計員(model auditors)賦予結構化模型存取權限,以便進行深度評估。

評估結果可以在模型訓練和部署之前為風險評估提供資訊。

AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

為極端風險建構評估

DeepMind正在開發一個「評估語言模型操縱能力」的項目,其中有一個“讓我說」(Make me say)的遊戲,語言模型必須引導一個人類對話者說出一個預先指定的字。

下面這個表格列出了一些模型應該要有的理想屬性。

AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

研究人員認為,建立一個全面的對齊(alignment)評估是很困難的,所以現階段的目標是建立一個對齊的過程,以較高的置信度評估模型是否有風險。

對齊評估非常具有挑戰性,因為需要保證模型在各種不同的環境中都能可靠地表現出適當的行為,所以需要在廣泛的測試環境中對模型進行評估,實現更高的環境覆蓋度。具體包括:

1. 廣度(Breadth):在盡可能多的環境中評估模型行為,一個有前景的方法是使用人工智慧系統自動編寫評估。

2. 目標(Targeting):有些環境比其他環境更有可能對齊失敗,也許能夠透過巧妙的設計來實現,例如使用蜜罐或基於梯度的對抗性測試等。

3. 理解泛化(Understanding generalisation):由於研究人員無法預見或模擬所有可能的情況,因此必須對模型行為如何以及為何在不同的環境中泛化(或無法泛化)形成更好的科學理解。

另一個重要的工具是機制(mechnaistic)分析,即研究模型的權重和激活,以了解其功能。

模型評估的未來

模型評估並不是萬能的,因為整個過程非常依賴模型開發之外的影響因素,例如複雜的社會、政治和經濟力量,所有可能會漏篩一些風險。

模型評估必須與其他風險評估工具結合,並在整個產業、政府和民間社會更廣泛地推廣安全意識。

Google最近在「負責任的AI」部落格上也指出,個人實踐、共享的行業標準和健全的政策對於規範開發人工智慧至關重要。

研究人員認為,追蹤模型中風險湧現的過程,以及對相關結果做出充分回應的流程,是在人工智慧能力前沿運作的負責任開發人員的關鍵部分。

以上是AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
Llama 4與GPT-4O:哪個更好?Llama 4與GPT-4O:哪個更好?Apr 26, 2025 am 09:37 AM

本文比較了Meta的Llama 4 Scout和OpenAI的GPT-4O在檢索效果(RAG)系統中的性能。 該評估利用Ragas框架,為忠誠,回答相關性和背景預先提供指標

生成的人工智能和人類聯繫改變關係 - 分析vidhya生成的人工智能和人類聯繫改變關係 - 分析vidhyaApr 26, 2025 am 09:36 AM

2025年:生成的AI從生產力工具發展到個人同伴 Generative AI的角色在2025年大大擴展,超越了簡單的生產力任務,成為個人生活中的重要領域。而其提高效率

如何在Google表中使用雙子座?如何在Google表中使用雙子座?Apr 26, 2025 am 09:34 AM

Google表可以通過引入Gemini's = AI功能,自動化以前需要手動努力的數據任務進行了重大升級。這種AI驅動的公式簡化了通過簡單的分類,匯總和公式開發

Python One Liners數據清潔:快速指南 - 分析VidhyaPython One Liners數據清潔:快速指南 - 分析VidhyaApr 26, 2025 am 09:33 AM

使用Python單線使數據清潔變得容易 用強大的Python單線簡化數據清潔過程!本指南展示了用於處理缺失價值,重複,格式化問題等基本熊貓技術

為您的任務選擇最佳AI聊天機器人的指南為您的任務選擇最佳AI聊天機器人的指南Apr 26, 2025 am 09:31 AM

您如何跟踪最新的LLM?如果您一直在跟踪新聞,那麼我確定您對那裡的模型不知所措,尤其是在過去的幾個月中。今天,我們的AI聊天機器人比FI更多

14個強大的技術定義嵌入的演變-Analytics Vidhya14個強大的技術定義嵌入的演變-Analytics VidhyaApr 26, 2025 am 09:29 AM

本文探討了文本嵌入的演變,從簡單的基於計數的方法到復雜的上下文感知模型。 它突出了MTEB等排行榜在評估嵌入性能和尖端的可及性中的作用

O3 vs O4 -Mini vs Gemini 2.5 Pro:終極推理戰 - 分析VidhyaO3 vs O4 -Mini vs Gemini 2.5 Pro:終極推理戰 - 分析VidhyaApr 26, 2025 am 09:28 AM

該博客將三個領先的AI模型(O3,O4-Mini和Gemini 2.5 Pro)置於嚴格的推理挑戰中。 我們在物理,數學,編碼,網頁設計和圖像分析中測試它們的能力,揭示了它們的優勢

在Yolo -Analytics Vidhya中進行有效的重新ID跟踪在Yolo -Analytics Vidhya中進行有效的重新ID跟踪Apr 26, 2025 am 09:26 AM

YOLO,SSD和DETR等實時對象檢測工具對於監視對象運動和動作至關重要。 交通管理和安全等行業利用這些工具來跟踪和分析。但是,一個主要挑戰是維護

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。