人工智慧(AI)的安全問題,正以前所未有的關注度在全球範圍內被討論。
在OpenAI創始人、首席科學家Ilya Sutskever與OpenAI超級對齊團隊共同領導人Jan Leike相繼離開OpenAI之前,Leike甚至在X發布了一系列帖子,稱OpenAI及其領導階層忽略了安全而偏愛光鮮亮麗的產品。這在業界引起了廣泛關注,在一定程度上凸顯了當前AI安全問題的嚴峻性。
在5月21日,《Science》雜誌上刊登的一篇文章呼籲世界各國領導人針對人工智慧(AI)風險採取更有力的行動。文章指出,權威科學家和學者,包括圖靈獎得主Yoshua Bengio、Geoffrey Hinton和姚期智等,認為近幾個月的進展還不夠。 他們的觀點是,人工智慧技術的發展速度迅猛,但在AI的發展和應用上存在著許多潛在風險,包括資料隱私、人工智慧武器的濫用、人工智慧對就業市場的影響等。因此,各國政府必須加強監管和立法,制定適當的政策來管理和引導人工智慧的發展。 此外,文章也
我們認為,AI 的無節制發展很有可能最終導致生命和生物圈的大規模損失,以及人類的邊緣化或滅絕。
在他們看來,AI 模型的安全問題,已經上升到足夠威脅人類未來生存的層次。
同樣,AI 模型的安全問題,也已經是可以影響每個人、每一個人都有必要關心的話題。
5 月22 日,注定是人工智慧史上的一個重大時刻:OpenAI、Google、微軟和智譜AI 等來自不同國家和地區的公司共同簽署了前沿人工智慧安全承諾(Frontier AI Safety Commitments);歐盟理事會正式批准了《人工智慧法案》(AI Act),全球首部AI 全面監管法規即將生效。
再一次,AI 的安全問題在政策層面被提及。
人工智慧首爾高峰會「宣言」
在以「安全、創新、包容」為議題的「人工智慧首爾峰會」(AI Seoul Summit)上,來自北美、亞洲、歐洲和中東地區的16 家公司就AI 開發的安全承諾達成一致,共同簽署了前沿人工智慧安全承諾,包括以下要點:
- 確保前沿AI 安全的負責任治理結構和透明度;
- 基於人工智慧安全框架,負責任地說明將如何衡量前沿AI 模型的風險;
- 建立前沿AI 安全模型風險緩解機制的明確流程。
圖靈獎得主Yoshua Bengio 認為,前沿人工智慧安全承諾的簽署“標誌著在建立國際治理制度以促進人工智慧安全方面邁出了重要一步” 。
作為來自中國的大模型公司,智譜AI 也簽署了這項新的前沿人工智慧安全承諾,完整簽署方名單如下:
#對此,OpenAI 全球事務副總裁Anna Makanju 表示,「前沿人工智慧安全承諾是促進更廣泛地實施先進AI 系統安全實踐的重要一步。伴隨著先進技術而來的是確保AI 安全的重要責任。 Road to AGI」的主題演講分享了他們針對AI 安全的具體做法。
他們認為,超級對齊(Superalignment)技術將協助提升大模型的安全性,並已經啟動了類似OpenAI 的Superalignment 計劃,希望讓機器學會自己學習、自己判斷,從而實現學習安全的內容。
他們透露,GLM-4V 即內建了這些安全措施,以防止有害或不道德的行為,同時保護使用者隱私和資料安全;而GLM-4 的後續升級版本即GLM-4.5 及其升級模型,也應基於超級智慧(Superintelligence)和超級對齊技術。
我們也發現,在一篇近期發表的論文中,智譜AI、清華團隊介紹了一種透過利用大量自生成的否定詞而實現的無回饋(feedback -free)大型語言模式對齊方法-Self-Contrast。
據論文描述,在只有監督微調(SFT)目標的情況下,Self-Contrast 就可以利用LLM 本身生成大量不同的候選詞,並利用預先訓練的嵌入模型根據文本相似性過濾多個否定詞。
論文連結:https://arxiv.org/abs/2404.00604
#在三個資料集上進行的直接偏好最佳化(DPO)實驗表明,Self-Contrast 可以持續大幅超越SFT 和標準DPO 訓練。而且,隨著自生成的負樣本數量增加,Self-Contrast 的表現也不斷提高。
總的來說,這項研究為偏好資料缺失情況下的對齊(如RLHF 方法)提供了一種新的方法。在偏好資料標註代價昂貴且難以取得的情況下,可以利用未標註的 SFT 資料建立語法偏好數據,透過增加負樣本的數量來彌補因正樣本不足造成的效能損失。
歐盟理事會正式批准《人工智慧法案》
#同日,歐盟理事會也於同日正式批准了《人工智慧法案》 (AI Act),這是全球首部AI 全面監管法規,這項具有里程碑意義的人工智慧法規將於下個月生效,目前僅適用於歐盟法律範圍內的領域,或將為商業和日常生活中使用的科技設定一個潛在的全球基準。
「這部具有里程碑意義的法規是世界上第一部此類法規,它解決了一個全球性的技術挑戰,同時也為我們的社會和經濟創造了機遇,” 比利時數位化大臣Mathieu Michel 在一份聲明中說。
這項綜合性的 AI 立法採用「基於風險」的方法,意味著對社會造成傷害的風險越高,規則就越嚴格。例如,不構成系統性風險的通用目的 AI 模型將承擔一些有限的要求,但那些具有系統性風險的則需要遵守更嚴格的規定。
違反《人工智慧法案》中行為的罰款,該法案設定為違規公司前一個財年全球年營業額的百分比或預定的金額,以較高者為準。
如今,無論是小到科技公司,或是大到政府機構,都已經將預防、解決 AI 安全問題提上日程。正如牛津大學工程科學系教授Philip Torr 所言:
「在上一次人工智慧高峰會上,全世界一致認為我們需要採取行動,但現在是時候從模糊的建議轉變為具體的承諾了。
以上是OpenAI、微軟、智譜AI等全球16家公司共同簽署前沿人工智慧安全承諾的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Apollo Research的一份新報告顯示,先進的AI系統的不受檢查的內部部署構成了重大風險。 在大型人工智能公司中缺乏監督,普遍存在,允許潛在的災難性結果

傳統測謊儀已經過時了。依靠腕帶連接的指針,打印出受試者生命體徵和身體反應的測謊儀,在識破謊言方面並不精確。這就是為什麼測謊結果通常不被法庭採納的原因,儘管它曾導致許多無辜者入獄。 相比之下,人工智能是一個強大的數據引擎,其工作原理是全方位觀察。這意味著科學家可以通過多種途徑將人工智能應用於尋求真相的應用中。 一種方法是像測謊儀一樣分析被審問者的生命體徵反應,但採用更詳細、更精確的比較分析。 另一種方法是利用語言標記來分析人們實際所說的話,並運用邏輯和推理。 俗話說,一個謊言會滋生另一個謊言,最終

航空航天業是創新的先驅,它利用AI應對其最複雜的挑戰。 現代航空的越來越複雜性需要AI的自動化和實時智能功能,以提高安全性,降低操作

機器人技術的飛速發展為我們帶來了一個引人入勝的案例研究。 來自Noetix的N2機器人重達40多磅,身高3英尺,據說可以後空翻。 Unitree公司推出的G1機器人重量約為N2的兩倍,身高約4英尺。比賽中還有許多體型更小的類人機器人參賽,甚至還有一款由風扇驅動前進的機器人。 數據解讀 這場半程馬拉松吸引了超過12,000名觀眾,但只有21台類人機器人參賽。儘管政府指出參賽機器人賽前進行了“強化訓練”,但並非所有機器人均完成了全程比賽。 冠軍——由北京類人機器人創新中心研發的Tiangong Ult

人工智能以目前的形式並不是真正智能的。它擅長模仿和完善現有數據。 我們不是在創造人工智能,而是人工推斷 - 處理信息的機器,而人類則

一份報告發現,在谷歌相冊Android版7.26版本的代碼中隱藏了一個更新的界面,每次查看照片時,都會在屏幕底部顯示一行新檢測到的面孔縮略圖。 新的面部縮略圖缺少姓名標籤,所以我懷疑您需要單獨點擊它們才能查看有關每個檢測到的人員的更多信息。就目前而言,此功能除了谷歌相冊已在您的圖像中找到這些人之外,不提供任何其他信息。 此功能尚未上線,因此我們不知道谷歌將如何準確地使用它。谷歌可以使用縮略圖來加快查找所選人員的更多照片的速度,或者可能用於其他目的,例如選擇要編輯的個人。我們拭目以待。 就目前而言

增強者通過教授模型根據人類反饋進行調整來震撼AI的開發。它將監督的學習基金會與基於獎勵的更新融合在一起,使其更安全,更準確,真正地幫助

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SublimeText3漢化版
中文版,非常好用

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中