去雜訊擴散模型是一類新興的生成神經網絡,透過迭代去噪過程從訓練分佈產生影像。與先前的方法(如 GANs 和 VAEs)相比,這類擴散模型產生的樣本品質更高,且更容易擴展和控制。因此,經過快速發展,它們已經可以產生高解析度影像,而大眾也對諸如 DALL-E 2 這樣的大型模型產生了極大的興趣。
產生擴散模型的魅力在於它們合成新影像的能力,從表面上看,這些影像不同於訓練集中的任何東西。而事實上,過去大規模的訓練工作並沒有發現擬合會成為問題,隱私敏感領域的研究人員甚至建議可以用擴散模型來保護隱私,透過產生合成範例來產生真實影像。這一系列的工作是在擴散模型沒有記憶和重新產生訓練資料的假設下進行的。而這樣做將違反所有的隱私保障,並滋生模型泛化和數位偽造的許多問題。
本文中,來自Google、 DeepMind 等機構的研究者證明了 SOTA 擴散模型確實可以記憶和重新生成單一訓練範例。
論文網址:https://arxiv.org/pdf/2301.13188v1.pdf
首先,研究提出並實作了影像模型中記憶的新定義。然後,研究設計了分為兩階段的資料擷取入侵(data extraction attack),使用標準方法產生影像,並對一些影像進行標記。研究將此方法應用於 Stable Diffusion 和 Imagen,從而提取了 100 多個幾乎相同的訓練圖像副本,這些圖像中,既有個人可識別照片也有商標 logo(如圖 1)。
為了更好地理解記憶的方式和其中的緣由,研究者在CIFAR10 上訓練了數百個擴散模型,以分析模型精度、超參數、增強和重複資料刪除對隱私的影響。擴散模型是研究評估中私密度最低的影像模型形式,它們洩漏的訓練資料是 GANs 的兩倍之多。更糟的是,研究還發現現有的隱私增強技術無法提供可接受的隱私 - 效用權衡。總的來說,本文強調了日益強大的生成模型和資料隱私之間存在著緊張的關係,並提出了關於擴散模型如何運作以及如何妥善部署的問題。
為什麼要做這項研究?
理解擴散模型如何記憶和重新生成訓練資料的背後存在著兩個動機。
第一個是了解隱私風險。重新產生從網路上抓取資料的擴散模型可能會帶來與語言模型類似的隱私和版權風險。比方說,已經有人指出,記憶和重新生成受版權保護的文字和原始碼存在著潛在的侵權指標。那麼同理,複製專業藝術家創作的圖像也會被稱為數位偽造,藝術界為此展開了一場爭論。
第二個是理解泛化。除了資料隱私,理解擴散模型如何以及為什麼記憶訓練資料有助於理解它們的泛化能力。例如,大規模生成模型的一個常見問題是,它們令人印象深刻的結果是來自真正的生成,還是直接複製和重新混合訓練資料的結果。透過研究記憶,可以提供生成模型執行這種資料複製速率的具體經驗描述。
從SOTA 擴散模型中擷取資料
從Stable Diffusion 擷取資料
現在從Stable Diffusion(最大、最受歡迎的開源擴散模型)中提取訓練資料。
本次擷取將先前工作的方法應用於影像,包括兩個步驟:
1. 使用標準抽樣方式的擴散模型並使用前一節的已知prompt 產生多個範例。
2. 進行推理,將新一代的模型與已記憶的訓練模型分開。
為了評估入侵的有效性,研究從訓練資料集中選擇了35 萬個重複次數最多的範例,並為每個提示產生500 個候選影像(總共產生1.75 億張圖像)。
首先,研究對所有這些生成的圖像進行排序,以確定哪些是記憶訓練資料產生的圖像。然後,將這些生成的每張圖像與論文中定義 1 下的訓練圖像進行比較,並將每個圖像註釋為提取或未提取。研究發現有94 張圖像被提取,為了確保這些圖像不僅是符合某些任意的定義,研究還透過視覺分析手動註釋了前1000 張生成的圖像,這些圖像要么是記憶的,要么是沒有記憶的,並且發現另外13 張(總共109 張圖像)幾乎是訓練範例的副本,即使它們不符合研究L_2 範數定義。圖 3 顯示了提取影像的子集,這些影像以近乎完美像素的精度再現。
實驗也給出了在有給定帶註釋的有序圖像集的情況下,計算曲線,評估提取的影像數量與入侵的假陽性率。入侵異常精確:在 1.75 億張產生的影像中,可以辨識出 50 張 0 張假陽性的記憶影像,並且所有的記憶影像都可以以 50% 以上的精確度擷取。圖 4 包含了兩種記憶定義的精確度 - 回想曲線。
從圖片擷取資料
############################################################儘管Stable Diffusion 是目前公開可用的擴散模型中最佳選擇,但一些非公開模型使用更大的模型和資料集獲得了更強的效能。先前研究發現,較大的模型更容易記住訓練數據,因此該研究對 Imagen(一個 20 億參數的文本 - 圖像擴散模型)展開了研究。 ############令人驚訝的是,研究發現在 Imagen 中入侵非分佈影像比在 Stable Diffusion 中更有效。在 Imagen 上,研究嘗試提取 500 張 out-of - distribution(OOD)得分最高的圖像。 Imagen 記憶並複製了其中 3 個圖像(這三個圖像在訓練資料集中是獨有的)。相較之下,當研究將相同的方法應用於 Stable Diffusion 時,即使在嘗試提取 10,000 個最離群的樣本後,也未能識別任何記憶。因此,在複製和非複製影像上,Imagen 比 Stable Diffusion 的隱私性更差。這可能是由於 Imagen 使用的模型比 Stable Diffusion 更大,因此記得的圖像也更多。此外,Imagen 在較小的資料集上進行了更多的迭代訓練,這也可以有助於提高記憶水平。 ######
以上是開挖擴散模型小動作,生成圖像幾乎原版複製訓練數據,隱私要暴露了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3漢化版
中文版,非常好用

Atom編輯器mac版下載
最受歡迎的的開源編輯器

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

禪工作室 13.0.1
強大的PHP整合開發環境

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中