GPT-4成功戰勝AI-Guardian審核系統：Google研究團隊的人工智慧抵抗人工智慧

GPT-4成功戰勝AI-Guardian審核系統：Google研究團隊的人工智慧抵抗人工智慧

Aug 03, 2023 pm 08:41 PM

aigpt-4

GPT-4成功戰勝AI-Guardian審核系統：Google研究團隊的人工智慧抵抗人工智慧

8 月2 日訊息，Google研究團隊正在進行一項實驗，他們使用OpenAI 的GPT-4 來攻破其他AI 模型的安全防護措施，該團隊目前已經攻破AI-Guardian 審核系統，並分享了相關技術細節。

透過調查，IT之家了解到AI-Guardian是一種AI審核系統，可以偵測圖片中是否存在不適當內容以及圖片是否被其他AI修改過。如果系統偵測到上述跡象，它將提示管理員處理

在一篇名為「使用GPT-4 設計攻擊方法、撰寫攻擊原則」的論文中，GoogleDeep Mind 的研究人員Nicholas Carlini 探討瞭如何利用這些方案來欺騙AI-Guardian 的防禦機制

GPT-4成功戰勝AI-Guardian審核系統：Google研究團隊的人工智慧抵抗人工智慧

這句話無法重寫，因為原話並未給出具體內容

據悉，GPT-4 會發出一系列錯誤的腳本和解釋來欺騙AI-Guardian ，論文中提到，GPT-4 可以讓AI-Guardian 認為「某人拿著槍的照片」是「某人拿著無害蘋果的照片”，從而讓AI-Guardian 直接放行相關圖片輸入來源。谷歌研究團隊表示，透過 GPT-4 的幫助，他們成功地「破解」了 AI-Guardian 的防禦，使該模型的精確值從 98% 的降低到僅 8%。

目前相關技術文件已經發佈在ArXiv 中，有興趣的小夥伴們可以前往了解，不過AI-Guardian 的開發者也同時指出，Google研究團隊的這種攻擊方法將在未來的AI-Guardian 版本中不再可用，考慮到別的模型也會隨之跟進，因此當下谷歌的這套攻擊方案更多在日後只能用於參考性質。

以上是GPT-4成功戰勝AI-Guardian審核系統：Google研究團隊的人工智慧抵抗人工智慧的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

一個提示可以繞過每個主要LLM的保障措施

一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型（LLM）的關鍵脆弱性。他們的發現揭示了一種普遍的旁路技術，稱為“政策木偶”，能夠規避幾乎所有主要LLMS

5個錯誤，大多數企業今年將犯有可持續性

5個錯誤，大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。這種轉變會影響產品開發，製造過程，客戶關係，合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司，但長期以來一直在為影響

H20芯片禁令震撼中國人工智能公司，但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級，從而揭示了中國對外國半導體技術的依賴。 2024年，中國進口了價值3850億美元的半導體

如果Openai購買Chrome，AI可能會統治瀏覽器戰爭

如果Openai購買Chrome，AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離，引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器，擁有65％的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦

AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長，但仍在放緩。這個成熟階段提出了挑戰，包括生態系統破碎，成本上升，測量問題和整合複雜性。但是，人工智能

'AI是我們，比我們更多'

'AI是我們，比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中，一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心，這是沉浸式展覽中的六個裝置之一，＆qu＆qu

Google Cloud在下一個2025年對基礎架構變得更加認真

Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025：關注基礎架構，連通性和AI Google Cloud的下一個2025會議展示了許多進步，太多了，無法在此處詳細介紹。有關特定公告的深入分析，請參閱我的文章

IR的秘密支持者透露，Arcana的550萬美元的AI電影管道說話，Arcana的AI Meme，Ai Meme的550萬美元。

IR的秘密支持者透露，Arcana的550萬美元的AI電影管道說話，Arcana的AI Meme，Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中：一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。讓我們潛入頭條新聞。 AI生成的內容的增長影響：技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱門文章

刺客信條陰影：貝殼謎語解決方案

4 週前ByDDD

Windows 11 KB5054979中的新功能以及如何解決更新問題

3 週前ByDDD

在哪裡可以找到原子中的起重機控制鑰匙卡

4 週前ByDDD

<🎜>：死鐵路 - 如何完成所有挑戰

1 個月前ByDDD

如何修復KB5055523無法在Windows 11中安裝？

2 週前ByDDD

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境，安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問，並防止學生使用未經授權的資源。

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序，非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具，幫助Web開發人員更好地理解保護網路應用程式的過程，並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞，難度各不相同。請注意，該軟體中

EditPlus 中文破解版

EditPlus 中文破解版

體積小，語法高亮，不支援程式碼提示功能

VSCode Windows 64位元下載

VSCode Windows 64位元下載

微軟推出的免費、功能強大的一款IDE編輯器

熱門話題

gmail信箱登陸入口在哪裡

7716

15

1641

14

1395

52

1289

25

1232

29