OpenAI、微軟、智譜AI等全球16家公司共同簽署前沿人工智慧安全承諾-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

OpenAI、微軟、智譜AI等全球16家公司共同簽署前沿人工智慧安全承諾

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 03, 2024 pm 10:24 PM

人工智慧ai

人工智慧（AI）的安全問題，正以前所未有的關注度在全球範圍內被討論。

在OpenAI創始人、首席科學家Ilya Sutskever與OpenAI超級對齊團隊共同領導人Jan Leike相繼離開OpenAI之前，Leike甚至在X發布了一系列帖子，稱OpenAI及其領導階層忽略了安全而偏愛光鮮亮麗的產品。這在業界引起了廣泛關注，在一定程度上凸顯了當前AI安全問題的嚴峻性。

在5月21日，《Science》雜誌上刊登的一篇文章呼籲世界各國領導人針對人工智慧（AI）風險採取更有力的行動。文章指出，權威科學家和學者，包括圖靈獎得主Yoshua Bengio、Geoffrey Hinton和姚期智等，認為近幾個月的進展還不夠。他們的觀點是，人工智慧技術的發展速度迅猛，但在AI的發展和應用上存在著許多潛在風險，包括資料隱私、人工智慧武器的濫用、人工智慧對就業市場的影響等。因此，各國政府必須加強監管和立法，制定適當的政策來管理和引導人工智慧的發展。此外，文章也

OpenAI、微軟、智譜AI等全球16家公司共同簽署前沿人工智慧安全承諾

我們認為，AI 的無節制發展很有可能最終導致生命和生物圈的大規模損失，以及人類的邊緣化或滅絕。

在他們看來，AI 模型的安全問題，已經上升到足夠威脅人類未來生存的層次。

同樣，AI 模型的安全問題，也已經是可以影響每個人、每一個人都有必要關心的話題。

5 月22 日，注定是人工智慧史上的一個重大時刻：OpenAI、Google、微軟和智譜AI 等來自不同國家和地區的公司共同簽署了前沿人工智慧安全承諾（Frontier AI Safety Commitments）；歐盟理事會正式批准了《人工智慧法案》（AI Act），全球首部AI 全面監管法規即將生效。

再一次，AI 的安全問題在政策層面被提及。

人工智慧首爾高峰會「宣言」

在以「安全、創新、包容」為議題的「人工智慧首爾峰會」（AI Seoul Summit）上，來自北美、亞洲、歐洲和中東地區的16 家公司就AI 開發的安全承諾達成一致，共同簽署了前沿人工智慧安全承諾，包括以下要點：

確保前沿AI 安全的負責任治理結構和透明度；
基於人工智慧安全框架，負責任地說明將如何衡量前沿AI 模型的風險；
建立前沿AI 安全模型風險緩解機制的明確流程。

圖靈獎得主Yoshua Bengio 認為，前沿人工智慧安全承諾的簽署“標誌著在建立國際治理制度以促進人工智慧安全方面邁出了重要一步” 。

作為來自中國的大模型公司，智譜AI 也簽署了這項新的前沿人工智慧安全承諾，完整簽署方名單如下：

OpenAI、微軟、智譜AI等全球16家公司共同簽署前沿人工智慧安全承諾

#對此，OpenAI 全球事務副總裁Anna Makanju 表示，「前沿人工智慧安全承諾是促進更廣泛地實施先進AI 系統安全實踐的重要一步。伴隨著先進技術而來的是確保AI 安全的重要責任。 Road to AGI」的主題演講分享了他們針對AI 安全的具體做法。

他們認為，超級對齊（Superalignment）技術將協助提升大模型的安全性，並已經啟動了類似OpenAI 的Superalignment 計劃，希望讓機器學會自己學習、自己判斷，從而實現學習安全的內容。

OpenAI、微軟、智譜AI等全球16家公司共同簽署前沿人工智慧安全承諾他們透露，GLM-4V 即內建了這些安全措施，以防止有害或不道德的行為，同時保護使用者隱私和資料安全；而GLM-4 的後續升級版本即GLM-4.5 及其升級模型，也應基於超級智慧（Superintelligence）和超級對齊技術。

我們也發現，在一篇近期發表的論文中，智譜AI、清華團隊介紹了一種透過利用大量自生成的否定詞而實現的無回饋（feedback -free）大型語言模式對齊方法－Self-Contrast。

據論文描述，在只有監督微調（SFT）目標的情況下，Self-Contrast 就可以利用LLM 本身生成大量不同的候選詞，並利用預先訓練的嵌入模型根據文本相似性過濾多個否定詞。

OpenAI、微軟、智譜AI等全球16家公司共同簽署前沿人工智慧安全承諾

論文連結：https://arxiv.org/abs/2404.00604

#在三個資料集上進行的直接偏好最佳化（DPO）實驗表明，Self-Contrast 可以持續大幅超越SFT 和標準DPO 訓練。而且，隨著自生成的負樣本數量增加，Self-Contrast 的表現也不斷提高。

OpenAI、微軟、智譜AI等全球16家公司共同簽署前沿人工智慧安全承諾

總的來說，這項研究為偏好資料缺失情況下的對齊（如RLHF 方法）提供了一種新的方法。在偏好資料標註代價昂貴且難以取得的情況下，可以利用未標註的 SFT 資料建立語法偏好數據，透過增加負樣本的數量來彌補因正樣本不足造成的效能損失。

歐盟理事會正式批准《人工智慧法案》

#同日，歐盟理事會也於同日正式批准了《人工智慧法案》（AI Act），這是全球首部AI 全面監管法規，這項具有里程碑意義的人工智慧法規將於下個月生效，目前僅適用於歐盟法律範圍內的領域，或將為商業和日常生活中使用的科技設定一個潛在的全球基準。

「這部具有里程碑意義的法規是世界上第一部此類法規，它解決了一個全球性的技術挑戰，同時也為我們的社會和經濟創造了機遇，” 比利時數位化大臣Mathieu Michel 在一份聲明中說。

這項綜合性的 AI 立法採用「基於風險」的方法，意味著對社會造成傷害的風險越高，規則就越嚴格。例如，不構成系統性風險的通用目的 AI 模型將承擔一些有限的要求，但那些具有系統性風險的則需要遵守更嚴格的規定。

違反《人工智慧法案》中行為的罰款，該法案設定為違規公司前一個財年全球年營業額的百分比或預定的金額，以較高者為準。

如今，無論是小到科技公司，或是大到政府機構，都已經將預防、解決 AI 安全問題提上日程。正如牛津大學工程科學系教授Philip Torr 所言：

「在上一次人工智慧高峰會上，全世界一致認為我們需要採取行動，但現在是時候從模糊的建議轉變為具體的承諾了。

以上是OpenAI、微軟、智譜AI等全球16家公司共同簽署前沿人工智慧安全承諾的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

AI內部部署的隱藏危險：治理差距和災難性風險Apr 28, 2025 am 11:12 AM

Apollo Research的一份新報告顯示，先進的AI系統的不受檢查的內部部署構成了重大風險。在大型人工智能公司中缺乏監督，普遍存在，允許潛在的災難性結果

構建AI測謊儀Apr 28, 2025 am 11:11 AM

傳統測謊儀已經過時了。依靠腕帶連接的指針，打印出受試者生命體徵和身體反應的測謊儀，在識破謊言方面並不精確。這就是為什麼測謊結果通常不被法庭採納的原因，儘管它曾導致許多無辜者入獄。相比之下，人工智能是一個強大的數據引擎，其工作原理是全方位觀察。這意味著科學家可以通過多種途徑將人工智能應用於尋求真相的應用中。一種方法是像測謊儀一樣分析被審問者的生命體徵反應，但採用更詳細、更精確的比較分析。另一種方法是利用語言標記來分析人們實際所說的話，並運用邏輯和推理。俗話說，一個謊言會滋生另一個謊言，最終

AI是否已清除航空航天行業的起飛？Apr 28, 2025 am 11:10 AM

航空航天業是創新的先驅，它利用AI應對其最複雜的挑戰。現代航空的越來越複雜性需要AI的自動化和實時智能功能，以提高安全性，降低操作

觀看北京的春季機器人比賽Apr 28, 2025 am 11:09 AM

機器人技術的飛速發展為我們帶來了一個引人入勝的案例研究。來自Noetix的N2機器人重達40多磅，身高3英尺，據說可以後空翻。 Unitree公司推出的G1機器人重量約為N2的兩倍，身高約4英尺。比賽中還有許多體型更小的類人機器人參賽，甚至還有一款由風扇驅動前進的機器人。數據解讀這場半程馬拉松吸引了超過12,000名觀眾，但只有21台類人機器人參賽。儘管政府指出參賽機器人賽前進行了“強化訓練”，但並非所有機器人均完成了全程比賽。冠軍——由北京類人機器人創新中心研發的Tiangong Ult

鏡子陷阱：人工智能倫理和人類想像力的崩潰Apr 28, 2025 am 11:08 AM

人工智能以目前的形式並不是真正智能的。它擅長模仿和完善現有數據。我們不是在創造人工智能，而是人工推斷 - 處理信息的機器，而人類則

新的Google洩漏揭示了方便的Google照片功能更新Apr 28, 2025 am 11:07 AM

一份報告發現，在谷歌相冊Android版7.26版本的代碼中隱藏了一個更新的界面，每次查看照片時，都會在屏幕底部顯示一行新檢測到的面孔縮略圖。新的面部縮略圖缺少姓名標籤，所以我懷疑您需要單獨點擊它們才能查看有關每個檢測到的人員的更多信息。就目前而言，此功能除了谷歌相冊已在您的圖像中找到這些人之外，不提供任何其他信息。此功能尚未上線，因此我們不知道谷歌將如何準確地使用它。谷歌可以使用縮略圖來加快查找所選人員的更多照片的速度，或者可能用於其他目的，例如選擇要編輯的個人。我們拭目以待。就目前而言