AI巨頭們給白宮交卷：Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

AI巨頭們給白宮交卷：Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

王林

Jun 04, 2023 pm 01:58 PM

安全ai

5月初，白宮與Google、微軟、OpenAI、Anthropic等AI公司的CEO們開了個會，針對AI生成技術的爆發，討論科技背後隱藏的風險、如何負責任地開發人工智慧系統，以及製定有效的監管措施。

AI巨頭們給白宮交卷：Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

現有的安全評估過程通常依賴一系列評估基準（evaluation benchmarks）來識別AI系統的異常行為，例如誤導性陳述、有偏見的決策或輸出受版權保護的內容。

而隨著AI技術的日益強大，相應的模型評估工具也必須升級，防止開發具有操縱、欺騙或其他高危險能力的AI系統。

最近，Google DeepMind、劍橋大學、牛津大學、多倫多大學、蒙特利爾大學、OpenAI、Anthropic等多所頂尖高校和研究機構聯合發布了一個用於評估模型安全性的框架，有望成為未來人工智慧模型開發和部署的關鍵組件。

AI巨頭們給白宮交卷：Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

論文連結：https://arxiv.org/pdf/2305.15324.pdf

通用AI系統的開發人員必須評估模型的危險能力和對齊性，並儘早識別出極端風險，從而讓訓練、部署、風險描述等過程更負責任。

AI巨頭們給白宮交卷：Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

評估結果可以讓決策者和其他利害關係人了解詳情，以及對模型訓練、部署和安全性地做出負責任的決定。

AI有風險，訓練需謹慎

通用模型通常需要「訓練」來學習特定的能力和行為，不過現有的學習過程通常是不完善的，例如先前的研究中，DeepMind的研究人員發現，即使在訓練期間已經正確獎勵模型的預期行為，人工智慧系統還是會學到一些非預期目標。

AI巨頭們給白宮交卷：Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

論文連結：https://arxiv.org/abs/2210.01790

#負責任的人工智慧開發人員必須能夠提前預測未來可能的開發和未知風險，並且隨著AI系統的進步，未來通用模型可能會默認學習各種危險的能力。

例如人工智慧系統可能會進行打擊性的網路行動，在對話中巧妙地欺騙人類，操縱人類進行有害的行動、設計或獲得武器等，在雲端運算平台上微調和操作其他高風險AI系統，或協助人類完成這些危險的任務。

惡意存取此類模型的人可能會濫用AI的能力，或者由於對齊失敗，人工智慧模型可能會在沒有人引導的情況下，自行選擇採取有害的行動。

模型評估有助於提前識別這些風險，遵循文中提出的框架，AI開發人員可以使用模型評估來發現：

1. 模型在多大程度上具有某些「危險能力」，可用於威脅安全、施加影響或逃避監管；

2. 模型在多大程度上傾向於應用其能力造成傷害（即模型的對齊）。校準評估應該在非常廣泛的場景設定下，確認模型的行為是否符合預期，並且在可能的情況下，檢查模型的內部工作。

風險最高的情境通常涉及多種危險能力的組合，評估的結果有助於AI開發人員了解是否存在足以導致極端風險的成分：

AI巨頭們給白宮交卷：Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

特定的能力可以外包給人類（如使用者或群眾外包工作者）或其他AI系統，該功能必須用於解決因誤用或對齊失敗造成的傷害。

從經驗上來看，如果一個人工智慧系統的能力配置足以造成極端風險，並且假設該系統可能會被濫用或沒有有效調整，那麼人工智慧社區應該將其視為高度危險的系統。

要在真實的世界中部署這樣的系統，開發人員需要設定一個遠超常值的安全標準。

模型評估是AI治理的基礎

如果我們有更好的工具來識別哪些模型有風險，公司和監管機構就可以更好地確保：

1. 負責任的訓練：是否以及如何訓練一個顯示出早期風險跡象的新模型。

2. 負責任的部署：是否、何時、如何部署具有潛在風險的模型。

3. 透明度：向利害關係人報告有用且可操作的信息，為潛在風險做好準備或減輕風險。

4. 適當的安全性：強大的資訊安全控制和系統應用於可能帶來極端風險的模型。

文中已經制定了一個藍圖，說明如何將極端風險的模型評估納入有關訓練和部署高能力通用模型的重要決策中。

開發人員需要在整個過程中進行評估，並向外部安全研究人員和模型審計員（model auditors）賦予結構化模型存取權限，以便進行深度評估。

評估結果可以在模型訓練和部署之前為風險評估提供資訊。

AI巨頭們給白宮交卷：Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

為極端風險建構評估

DeepMind正在開發一個「評估語言模型操縱能力」的項目，其中有一個“讓我說」（Make me say）的遊戲，語言模型必須引導一個人類對話者說出一個預先指定的字。

下面這個表格列出了一些模型應該要有的理想屬性。

AI巨頭們給白宮交卷：Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

研究人員認為，建立一個全面的對齊（alignment）評估是很困難的，所以現階段的目標是建立一個對齊的過程，以較高的置信度評估模型是否有風險。

對齊評估非常具有挑戰性，因為需要保證模型在各種不同的環境中都能可靠地表現出適當的行為，所以需要在廣泛的測試環境中對模型進行評估，實現更高的環境覆蓋度。具體包括：

1. 廣度（Breadth）：在盡可能多的環境中評估模型行為，一個有前景的方法是使用人工智慧系統自動編寫評估。

2. 目標（Targeting）：有些環境比其他環境更有可能對齊失敗，也許能夠透過巧妙的設計來實現，例如使用蜜罐或基於梯度的對抗性測試等。

3. 理解泛化（Understanding generalisation）：由於研究人員無法預見或模擬所有可能的情況，因此必須對模型行為如何以及為何在不同的環境中泛化（或無法泛化）形成更好的科學理解。

另一個重要的工具是機制（mechnaistic）分析，即研究模型的權重和激活，以了解其功能。

模型評估的未來

模型評估並不是萬能的，因為整個過程非常依賴模型開發之外的影響因素，例如複雜的社會、政治和經濟力量，所有可能會漏篩一些風險。

模型評估必須與其他風險評估工具結合，並在整個產業、政府和民間社會更廣泛地推廣安全意識。

Google最近在「負責任的AI」部落格上也指出，個人實踐、共享的行業標準和健全的政策對於規範開發人工智慧至關重要。

研究人員認為，追蹤模型中風險湧現的過程，以及對相關結果做出充分回應的流程，是在人工智慧能力前沿運作的負責任開發人員的關鍵部分。

以上是AI巨頭們給白宮交卷：Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI內部部署的隱藏危險：治理差距和災難性風險Apr 28, 2025 am 11:12 AM

Apollo Research的一份新報告顯示，先進的AI系統的不受檢查的內部部署構成了重大風險。在大型人工智能公司中缺乏監督，普遍存在，允許潛在的災難性結果

構建AI測謊儀Apr 28, 2025 am 11:11 AM

傳統測謊儀已經過時了。依靠腕帶連接的指針，打印出受試者生命體徵和身體反應的測謊儀，在識破謊言方面並不精確。這就是為什麼測謊結果通常不被法庭採納的原因，儘管它曾導致許多無辜者入獄。相比之下，人工智能是一個強大的數據引擎，其工作原理是全方位觀察。這意味著科學家可以通過多種途徑將人工智能應用於尋求真相的應用中。一種方法是像測謊儀一樣分析被審問者的生命體徵反應，但採用更詳細、更精確的比較分析。另一種方法是利用語言標記來分析人們實際所說的話，並運用邏輯和推理。俗話說，一個謊言會滋生另一個謊言，最終

AI是否已清除航空航天行業的起飛？Apr 28, 2025 am 11:10 AM

航空航天業是創新的先驅，它利用AI應對其最複雜的挑戰。現代航空的越來越複雜性需要AI的自動化和實時智能功能，以提高安全性，降低操作

觀看北京的春季機器人比賽Apr 28, 2025 am 11:09 AM

機器人技術的飛速發展為我們帶來了一個引人入勝的案例研究。來自Noetix的N2機器人重達40多磅，身高3英尺，據說可以後空翻。 Unitree公司推出的G1機器人重量約為N2的兩倍，身高約4英尺。比賽中還有許多體型更小的類人機器人參賽，甚至還有一款由風扇驅動前進的機器人。數據解讀這場半程馬拉松吸引了超過12,000名觀眾，但只有21台類人機器人參賽。儘管政府指出參賽機器人賽前進行了“強化訓練”，但並非所有機器人均完成了全程比賽。冠軍——由北京類人機器人創新中心研發的Tiangong Ult

鏡子陷阱：人工智能倫理和人類想像力的崩潰Apr 28, 2025 am 11:08 AM

人工智能以目前的形式並不是真正智能的。它擅長模仿和完善現有數據。我們不是在創造人工智能，而是人工推斷 - 處理信息的機器，而人類則

新的Google洩漏揭示了方便的Google照片功能更新Apr 28, 2025 am 11:07 AM

一份報告發現，在谷歌相冊Android版7.26版本的代碼中隱藏了一個更新的界面，每次查看照片時，都會在屏幕底部顯示一行新檢測到的面孔縮略圖。新的面部縮略圖缺少姓名標籤，所以我懷疑您需要單獨點擊它們才能查看有關每個檢測到的人員的更多信息。就目前而言，此功能除了谷歌相冊已在您的圖像中找到這些人之外，不提供任何其他信息。此功能尚未上線，因此我們不知道谷歌將如何準確地使用它。谷歌可以使用縮略圖來加快查找所選人員的更多照片的速度，或者可能用於其他目的，例如選擇要編輯的個人。我們拭目以待。就目前而言