搜尋
首頁科技週邊人工智慧Google DeepMind、OpenAI等聯合發文:AI大模型的極端風險,如何評估?

目前,建構通用人工智慧(AGI)系統的方法,在幫助人們更好地解決現實問題的同時,也會帶來一些意外的風險。

因此,在未來,人工智慧的進一步發展可能會導致許多極端風險,如具有攻擊性的網路能力或強大的操縱技能等等。

今天,Google DeepMind 聯合劍橋大學、牛津大學等大學和OpenAI、Anthropic等企業,以及Alignment Research Center 等機構,在預印本網站arXiv 上發表了題為“Model evaluation for extreme risks”的文章,提出了一個針對新型威脅評估通用模型的框架,並解釋了為何模型評估對應對極端風險至關重要。

他們認為,開發者必須具備能夠識別危險的能力(通過"危險能力評估"),以及模型應用其能力造成傷害的傾向(通過"對齊評估")。這些評估將對讓決策者和其他利害關係人保持了解,並對模型的訓練、部署和安全性做出負責任的決策至關重要。

Google DeepMind、OpenAI等联合发文:AI大模型的极端风险,如何评估?

學術頭條(ID:SciTouTiao)在不改變原文大意的情況下,做了簡單的編譯。內容如下:

為了負責任地推動人工智慧前沿研究的進一步發展,我們必須儘早識別人工智慧系統中的新能力和新風險。

人工智慧研究人員已經使用一系列評估基準來識別人工智慧系統中不希望出現的行為,例如人工智慧系統做出誤導性的聲明、有偏見的決定或重複有版權的內容。現在,隨著人工智慧社群建立和部署越來越強大的人工智慧,我們必須擴大評估範圍,包括對具有操縱、欺騙、網路攻擊或其他危險能力的通用人工智慧模型可能帶來的極端風險的考慮。

我們與劍橋大學、牛津大學、多倫多大學、蒙特婁大學、OpenAI、Anthropic、Alignment Research Center、Centre for Long-Term Resilience 和 Centre for the Governance of AI 合作,介紹了一個評估這些新威脅的框架。

模型安全評估,包括評估極端風險,將成為安全的人工智慧開發和部署的重要組成部分。

Google DeepMind、OpenAI等联合发文:AI大模型的极端风险,如何评估?

為了評估新型通用人工智慧系統的極端風險,開發者需要對其危險能力和對齊程度進行評估。早期識別風險,可以使得在訓練新的人工智慧系統、部署這些人工智慧系統、透明地描述它們的風險以及應用適當的網路安全標準時更加負責。

對極端風險進行評估

通用模型通常在訓練中學習它們的能力和行為。然而,現有的指導學習過程的方法並不完善。例如,Google DeepMind 先前的研究已經探討了人工智慧系統如何學習追求人們不希望看到的目標,即使我們正確地獎勵了它們的良好行為。

負責任的人工智慧開發者必須更進一步,預測未來可能的發展和新的風險。 隨著持續進步,未來的通用模型可能會預設學習各種危險的能力。例如,未來的人工智慧系統能夠進行攻擊性的網路活動,在對話中巧妙地欺騙人類,操縱人類進行有害的行為,設計或獲取武器(如生物、化學武器),在雲端運算平台上微調和操作其他高風險的人工智慧系統,或協助人類完成任何這些任務,這都是可能的(儘管不確定)。

懷有不良意圖的人可能會濫用這些模型的能力。這些人工智慧模型由於與人類的價值觀和道德不同而可能採取有害行為,即使沒有人有意這樣做。

模型評估有助於我們事先識別這些風險。在我們的框架下,人工智慧開發者將使用模型評估來揭開:

  • 一個模型在多大程度上具有某些“危險的能力”,威脅安全,施加影響,或逃避監督。
  • 模型在多大程度上容易使用其能力來造成傷害(即模型的對齊程度)。有必要確認模型即使在非常廣泛的情況下也能按預期行事,並且在可能的情況下,應該檢查模型的內部運作。

透過這些評估的結果,人工智慧開發者可以了解是否存在可能導致極端風險的因素。最高風險的情況將涉及多種危險能力的組合。如下圖:

Google DeepMind、OpenAI等联合发文:AI大模型的极端风险,如何评估?

圖|構成極端風險的要素:有時,特定的能力可能會被外包,可以是交給人類(例如使用者或眾包工作者)或其他AI系統。無論是出於濫用還是因為未能取得對齊,這些能力都必須用來造成傷害。

一個經驗法則:如果一個人工智慧系統具有足以造成極端傷害的能力特徵,假設它被濫用或無法對齊,那麼人工智慧社群應將其視為「高度危險」。 要在現實世界中部署這樣的系統,人工智慧開發者需要展現出異常高的安全標準。

模型評估是關鍵的治理基礎設施

如果我們有更好的工具來識別哪些模型是有風險的,公司和監管機構就能更好地確保:

  • 負責任的訓練:負責任地決定是否以及如何訓練一個顯示出早期風險跡象的新模型。
  • 負責任的部署:對是否、何時以及如何部署有潛在風險的模式做出負責任的決定。
  • 透明度:向利害關係人報告有用的和可操作的信息,以幫助他們應對或減少潛在的風險。
  • 適當的安全:強大的資訊安全控制和系統適用於可能構成極端風險的模型。

我們已經制定了一個藍圖,說明了針對極端風險的模型評估應如何為訓練和部署能力強大的通用模型的重要決策提供支援。開發者在整個過程中進行評估,並授權外部安全研究人員和模型審核員對模型進行結構化訪問,以便他們進行額外的評估。評估結果可以在模型訓練和部署之前提供風險評估的參考。

Google DeepMind、OpenAI等联合发文:AI大模型的极端风险,如何评估?

圖|將針對極端風險的模型評估嵌入整個模型訓練和部署的重要決策過程中。

展望未來

在Google DeepMind和其他地方,對於極端風險的模型評估的重要初步工作已經開始進行。但要建立一個能夠捕捉所有可能風險並有助於防範未來新出現的挑戰的評估流程,我們需要更多的技術和機構方面的努力

模型評估並不是萬能的解決方案;有時,一些風險可能會逃脫我們的評估,因為它們過於依賴模型外部的因素,例如社會中複雜的社會、政治和經濟力量。需要將模型評估與整個行業、政府和公眾對安全的廣泛關注以及其他風險評估工具結合。

Google最近在其負責任人工智慧的部落格中提到,「個體實踐、共享行業標準和合理的政府政策對於正確使用人工智慧至關重要」。我們希望許多從事人工智慧工作和受這項技術影響的行業能夠共同努力,為安全開發和部署人工智慧共同製定方法和標準,造福所有人。

我們相信,擁有追蹤模型中出現的風險屬性的程序,以及對相關結果的充分回應,是作為負責任的開發者在人工智慧前沿研究工作中的關鍵部分。

以上是Google DeepMind、OpenAI等聯合發文:AI大模型的極端風險,如何評估?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:搜狐。如有侵權,請聯絡admin@php.cn刪除
AI內部部署的隱藏危險:治理差距和災難性風險AI內部部署的隱藏危險:治理差距和災難性風險Apr 28, 2025 am 11:12 AM

Apollo Research的一份新報告顯示,先進的AI系統的不受檢查的內部部署構成了重大風險。 在大型人工智能公司中缺乏監督,普遍存在,允許潛在的災難性結果

構建AI測謊儀構建AI測謊儀Apr 28, 2025 am 11:11 AM

傳統測謊儀已經過時了。依靠腕帶連接的指針,打印出受試者生命體徵和身體反應的測謊儀,在識破謊言方面並不精確。這就是為什麼測謊結果通常不被法庭採納的原因,儘管它曾導致許多無辜者入獄。 相比之下,人工智能是一個強大的數據引擎,其工作原理是全方位觀察。這意味著科學家可以通過多種途徑將人工智能應用於尋求真相的應用中。 一種方法是像測謊儀一樣分析被審問者的生命體徵反應,但採用更詳細、更精確的比較分析。 另一種方法是利用語言標記來分析人們實際所說的話,並運用邏輯和推理。 俗話說,一個謊言會滋生另一個謊言,最終

AI是否已清除航空航天行業的起飛?AI是否已清除航空航天行業的起飛?Apr 28, 2025 am 11:10 AM

航空航天業是創新的先驅,它利用AI應對其最複雜的挑戰。 現代航空的越來越複雜性需要AI的自動化和實時智能功能,以提高安全性,降低操作

觀看北京的春季機器人比賽觀看北京的春季機器人比賽Apr 28, 2025 am 11:09 AM

機器人技術的飛速發展為我們帶來了一個引人入勝的案例研究。 來自Noetix的N2機器人重達40多磅,身高3英尺,據說可以後空翻。 Unitree公司推出的G1機器人重量約為N2的兩倍,身高約4英尺。比賽中還有許多體型更小的類人機器人參賽,甚至還有一款由風扇驅動前進的機器人。 數據解讀 這場半程馬拉松吸引了超過12,000名觀眾,但只有21台類人機器人參賽。儘管政府指出參賽機器人賽前進行了“強化訓練”,但並非所有機器人均完成了全程比賽。 冠軍——由北京類人機器人創新中心研發的Tiangong Ult

鏡子陷阱:人工智能倫理和人類想像力的崩潰鏡子陷阱:人工智能倫理和人類想像力的崩潰Apr 28, 2025 am 11:08 AM

人工智能以目前的形式並不是真正智能的。它擅長模仿和完善現有數據。 我們不是在創造人工智能,而是人工推斷 - 處理信息的機器,而人類則

新的Google洩漏揭示了方便的Google照片功能更新新的Google洩漏揭示了方便的Google照片功能更新Apr 28, 2025 am 11:07 AM

一份報告發現,在谷歌相冊Android版7.26版本的代碼中隱藏了一個更新的界面,每次查看照片時,都會在屏幕底部顯示一行新檢測到的面孔縮略圖。 新的面部縮略圖缺少姓名標籤,所以我懷疑您需要單獨點擊它們才能查看有關每個檢測到的人員的更多信息。就目前而言,此功能除了谷歌相冊已在您的圖像中找到這些人之外,不提供任何其他信息。 此功能尚未上線,因此我們不知道谷歌將如何準確地使用它。谷歌可以使用縮略圖來加快查找所選人員的更多照片的速度,或者可能用於其他目的,例如選擇要編輯的個人。我們拭目以待。 就目前而言

加固芬特的指南 - 分析Vidhya加固芬特的指南 - 分析VidhyaApr 28, 2025 am 09:30 AM

增強者通過教授模型根據人類反饋進行調整來震撼AI的開發。它將監督的學習基金會與基於獎勵的更新融合在一起,使其更安全,更準確,真正地幫助

讓我們跳舞:結構化運動以微調我們的人類神經網讓我們跳舞:結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器