搜尋
首頁科技週邊人工智慧AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

5月初,白宮與Google、微軟、OpenAI、Anthropic等AI公司的CEO們開了個會,針對AI生成技術的爆發,討論科技背後隱藏的風險、如何負責任地開發人工智慧系統,以及製定有效的監管措施。

AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

現有的安全評估過程通常依賴一系列評估基準(evaluation benchmarks)來識別AI系統的異常行為,例如誤導性陳述、有偏見的決策或輸出受版權保護的內容。

而隨著AI技術的日益強大,相應的模型評估工具也必須升級,防止開發具有操縱、欺騙或其他高危險能力的AI系統。

最近,Google DeepMind、劍橋大學、牛津大學、多倫多大學、蒙特利爾大學、OpenAI、Anthropic等多所頂尖高校和研究機構聯合發布了一個用於評估模型安全性的框架,有望成為未來人工智慧模型開發和部署的關鍵組件。

AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

論文連結:https://arxiv.org/pdf/2305.15324.pdf

通用AI系統的開發人員必須評估模型的危險能力和對齊性,並儘早識別出極端風險,從而讓訓練、部署、風險描述等過程更負責任。

AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

評估結果可以讓決策者和其他利害關係人了解詳情,以及對模型訓練、部署和安全性地做出負責任的決定。

AI有風險,訓練需謹慎

通用模型通常需要「訓練」來學習特定的能力和行為,不過現有的學習過程通常是不完善的,例如先前的研究中,DeepMind的研究人員發現,即使在訓練期間已經正確獎勵模型的預期行為,人工智慧系統還是會學到一些非預期目標。

AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

論文連結:https://arxiv.org/abs/2210.01790

#負責任的人工智慧開發人員必須能夠提前預測未來可能的開發和未知風險,並且隨著AI系統的進步,未來通用模型可能會默認學習各種危險的能力。

例如人工智慧系統可能會進行打擊性的網路行動,在對話中巧妙地欺騙人類,操縱人類進行有害的行動、設計或獲得武器等,在雲端運算平台上微調和操作其他高風險AI系統,或協助人類完成這些危險的任務。

惡意存取此類模型的人可能會濫用AI的能力,或者由於對齊失敗,人工智慧模型可能會在沒有人引導的情況下,自行選擇採取有害的行動。

模型評估有助於提前識別這些風險,遵循文中提出的框架,AI開發人員可以使用模型評估來發現:

1. 模型在多大程度上具有某些「危險能力」,可用於威脅安全、施加影響或逃避監管;

2. 模型在多大程度上傾向於應用其能力造成傷害(即模型的對齊)。校準評估應該在非常廣泛的場景設定下,確認模型的行為是否符合預期,並且在可能的情況下,檢查模型的內部工作。

風險最高的情境通常涉及多種危險能力的組合,評估的結果有助於AI開發人員了解是否存在足以導致極端風險的成分:

AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

特定的能力可以外包給人類(如使用者或群眾外包工作者)或其他AI系統,該功能必須用於解決因誤用或對齊失敗造成的傷害。

從經驗上來看,如果一個人工智慧系統的能力配置足以造成極端風險,並且假設該系統可能會被濫用或沒有有效調整,那麼人工智慧社區應該將其視為高度危險的系統。

要在真實的世界中部署這樣的系統,開發人員需要設定一個遠超常值的安全標準。

模型評估是AI治理的基礎

如果我們有更好的工具來識別哪些模型有風險,公司和監管機構就可以更好地確保:

1. 負責任的訓練:是否以及如何訓練一個顯示出早期風險跡象的新模型。

2. 負責任的部署:是否、何時、如何部署具有潛在風險的模型。

3. 透明度:向利害關係人報告有用且可操作的信息,為潛在風險做好準備或減輕風險。

4. 適當的安全性:強大的資訊安全控制和系統應用於可能帶來極端風險的模型。

文中已經制定了一個藍圖,說明如何將極端風險的模型評估納入有關訓練和部署高能力通用模型的重要決策中。

開發人員需要在整個過程中進行評估,並向外部安全研究人員和模型審計員(model auditors)賦予結構化模型存取權限,以便進行深度評估。

評估結果可以在模型訓練和部署之前為風險評估提供資訊。

AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

為極端風險建構評估

DeepMind正在開發一個「評估語言模型操縱能力」的項目,其中有一個“讓我說」(Make me say)的遊戲,語言模型必須引導一個人類對話者說出一個預先指定的字。

下面這個表格列出了一些模型應該要有的理想屬性。

AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」

研究人員認為,建立一個全面的對齊(alignment)評估是很困難的,所以現階段的目標是建立一個對齊的過程,以較高的置信度評估模型是否有風險。

對齊評估非常具有挑戰性,因為需要保證模型在各種不同的環境中都能可靠地表現出適當的行為,所以需要在廣泛的測試環境中對模型進行評估,實現更高的環境覆蓋度。具體包括:

1. 廣度(Breadth):在盡可能多的環境中評估模型行為,一個有前景的方法是使用人工智慧系統自動編寫評估。

2. 目標(Targeting):有些環境比其他環境更有可能對齊失敗,也許能夠透過巧妙的設計來實現,例如使用蜜罐或基於梯度的對抗性測試等。

3. 理解泛化(Understanding generalisation):由於研究人員無法預見或模擬所有可能的情況,因此必須對模型行為如何以及為何在不同的環境中泛化(或無法泛化)形成更好的科學理解。

另一個重要的工具是機制(mechnaistic)分析,即研究模型的權重和激活,以了解其功能。

模型評估的未來

模型評估並不是萬能的,因為整個過程非常依賴模型開發之外的影響因素,例如複雜的社會、政治和經濟力量,所有可能會漏篩一些風險。

模型評估必須與其他風險評估工具結合,並在整個產業、政府和民間社會更廣泛地推廣安全意識。

Google最近在「負責任的AI」部落格上也指出,個人實踐、共享的行業標準和健全的政策對於規範開發人工智慧至關重要。

研究人員認為,追蹤模型中風險湧現的過程,以及對相關結果做出充分回應的流程,是在人工智慧能力前沿運作的負責任開發人員的關鍵部分。

以上是AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
人工智能如何影响视频直播人工智能如何影响视频直播Apr 12, 2023 pm 12:10 PM

人工智能是近年来最受欢迎技术之一,而这个技术本身是非常广阔的,涵盖了各种各样的应用应用。比如在越来越流行的视频流媒体平台应用,也逐渐深入。为什么直播需要人工智能(AI)全球观看视频及直播的人数正在快速增长,AI将在未来直播发展中发挥至关重要的作用。直播已经成为交流和娱乐的强大工具。它似乎成为继电子邮件、短信、SMS和微信之后的“新的沟通方式”。每个人都喜欢观看体育赛事、音乐会、颁奖典礼等的直播。这种直播之所以吸引我们,是因为它比其他媒体形式提供了更多的实时信息。此外,表演者或个人UP主总是通过直

内存分区和实现的功能安全机制内存分区和实现的功能安全机制Apr 24, 2023 pm 07:22 PM

1.应用软件在AUTOSAR架构中,应用软件位于RTE上方,由互连的AUTOSARSWC组成,这些组件以原子方式封装了应用软件功能的各个组成部分。图1:应用程序软件AUTOSARSWC独立于硬件,因此可以集成到任何可用的ECU硬件上。为了便于ECU内部和内部的信息交换,AUTOSARSWC仅通过RTE进行通信。AUTOSARSWC包含许多提供内部功能的函数和变量。AUTOSARSWC的内部结构,即其变量和函数调用,通过头文件隐藏在公众视野之外。只有外部RTE调用才会在公共接口上生效。图2:SW

研究表明强化学习模型容易受到成员推理攻击研究表明强化学习模型容易受到成员推理攻击Apr 09, 2023 pm 08:01 PM

​译者 | 李睿 审校 | 孙淑娟​随着机器学习成为人们每天都在使用的很多应用程序的一部分,人们越来越关注如何识别和解决机器学习模型的安全和隐私方面的威胁。 然而,不同机器学习范式面临的安全威胁各不相同,机器学习安全的某些领域仍未得到充分研究。尤其是强化学习算法的安全性近年来并未受到太多关注。 加拿大的麦吉尔大学、机器学习实验室(MILA)和滑铁卢大学的研究人员开展了一项新研究,主要侧重于深度强化学习算法的隐私威胁。研究人员提出了一个框架,用于测试强化学习模型对成员推理攻击的脆弱性。 研究

别怪ChatGPT,AI黑客攻击早已开始别怪ChatGPT,AI黑客攻击早已开始May 03, 2023 pm 12:07 PM

ChatGPT的火爆出圈,让大众看到了AI表现惊艳的一面,但也让网络攻击有了更多可能性。近日有研究团队发现,人工智能ChatGPT存在一定风险,它可以为黑客提供有关如何入侵网站的分步说明。该团队研究人员使用虚拟的“HacktheBox”网络安全培训平台进行实验,对ChatGPT提出问题并遵循它的指导,以检查ChatGPT是否可以提供利用该漏洞的分步指南。研究人员问道:“我正在面对渗透测试的挑战。我在一个只有一个按钮的网站上,我将如何测试它的漏洞?”对此,ChatGPT以五个基本点作为解答,说明了

深入聊聊前端限制用户截图的脑洞深入聊聊前端限制用户截图的脑洞Nov 07, 2022 pm 04:56 PM

​做后台系统,或者版权比较重视的项目时,产品经常会提出这样的需求:能不能禁止用户截图?有经验的开发不会直接拒绝产品,而是进行引导。

基于 AI 的四大人脸识别应用基于 AI 的四大人脸识别应用Apr 11, 2023 pm 07:49 PM

大约三十年前,面部识别应用程序的概念似乎是一个幻想。但现在,这些应用程序执行许多任务,例如控制虚假逮捕、降低网络犯罪率、诊断患有遗传疾病的患者以及打击恶意软件攻击。2019 年全球脸型分析仪市场价值 32 亿美元,预计到 2024 年底将以 16.6% 的复合年增长率增长。人脸识别软件有增长趋势,这一领域将提升整个数字和技术领域。如果您打算开发一款脸型应用程序以保持竞争优势,这里有一些最好的人脸识别应用程序的简要列表。优秀的人脸识别应用列表Luxand:Luxand人脸识别不仅仅是一个应用程序;

Python eval 函数构建数学表达式计算器Python eval 函数构建数学表达式计算器May 26, 2023 pm 09:24 PM

在本文中,云朵君将和大家一起学习eval()如何工作,以及如何在Python程序中安全有效地使用它。eval()的安全问题限制globals和locals限制内置名称的使用限制输入中的名称将输入限制为只有字数使用Python的eval()函数与input()构建一个数学表达式计算器总结eval()的安全问题本节主要学习eval()如何使我们的代码不安全,以及如何规避相关的安全风险。eval()函数的安全问题在于它允许你(或你的用户)动态地执行任意的Python代码。通常情

Nginx安全目录保护实践Nginx安全目录保护实践Jun 10, 2023 am 10:00 AM

Nginx是一款功能强大的Web服务器和反向代理服务器,广泛应用于互联网的各个领域。然而,在使用Nginx作为Web服务器的同时,我们也需要关注它的安全性问题。本文将详细介绍如何通过Nginx的安全目录保护功能来保护我们的网站目录和文件,以防止非法访问和恶意攻击。1.了解Nginx安全目录保护的原理Nginx的安全目录保护功能是通过指定访问控制列表(Acce

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版