首頁 >科技週邊 >人工智慧 >大模型也有小偷？為保護你的參數，上交大給大模型製作「人類可讀指紋」

大模型也有小偷？為保護你的參數，上交大給大模型製作「人類可讀指紋」

PHPz轉載: 2024-02-02 21:33:301475瀏覽

將不同的基底模型象徵為不同品種的狗，其中相同的「狗形指紋」表明它們源自同一個基底模型。

大模型的預訓練需要耗費大量的運算資源和數據，因此預訓練模型的參數成為各大機構重點保護的核心競爭力和資產。然而，與傳統軟體智慧財產權保護不同，對預訓練模型參數盜用的判斷有以下兩個新問題：

1）預訓練模型的參數，尤其是千億等級模型的參數，通常不會開源。

預訓練模型的輸出和參數會受到後續處理步驟（如SFT、RLHF、continue pretraining等）的影響，這使得判斷一個模型是否基於另一個現有模型微調得來變得困難。無論是基於模型輸出或模型參數的判斷都存在一定的挑戰。

因此，對大模型參數的保護是一個尚缺乏有效解決方案的全新問題。

上海交通大學林洲漢老師的 Lumia 研究團隊開發了一項創新技術，能夠識別大模型之間的血統關係。這種方法採用了一種人類可讀的大模型指紋，而無需公開模型參數。這項技術的研發對於大模型的發展與應用具有重要意義。

此方法提供兩種判別方式：一種是定量的判別方式，透過比較被測大模型與一系列基底模型的相似度來判斷是否盜用了預訓練基模型；另一種是定性的判別方式，透過產生人類可讀的「狗圖」來快速發現模型之間的繼承關係。

^{6 個不同基礎模型（第一行）及其對應後代模型（下面兩行）的指紋。}

^{對 24 個不同的大模型所製作的人類可讀大模型指紋。}

動機和整體方法

大型模型的快速發展帶來了廣泛的應用前景，但同時也引發了一系列新的挑戰。其中突出的兩個問題包括：

模型盜用問題：一個聰明的「小偷」，他們只對原有的大型模型進行微小調整，隨後便聲稱創造了一個全新的模型，誇大自己的貢獻。我們如何辨識出它是盜版模型？
模型濫用問題：當一個不法分子惡意修改LLaMA 模型並用它來產生有害資訊時，儘管Meta 的政策明確禁止這種行為，我們如何證明它所使用的正是LLaMA 模型呢？

在此之前，解決這類問題的常規方法包括在模型訓練和推理過程中加入水印，或對由大型模型產生的文本進行分類。然而，這些方法要么會削弱大型模型的性能，要么容易被簡單的微調或 further pretrain 規避。

這引發了一個關鍵問題：是否存在一種方法，既不干擾大型模型的輸出分佈，又能對微調和further pretrain 魯棒，同時還能夠準確追踪大模型的基模型，從而有效保護模型版權的目的。

上海交通大學的團隊從人類指紋的獨一無二特性中汲取靈感，研究開發了一種為大模型製作「人類可讀指紋」的方法。他們將不同的基模型象徵為不同品種的狗，其中相同的“狗形指紋”表明它們源自同一個基模型。

這種直覺的方法使大眾能夠輕鬆辨識不同大模型之間的聯繫，並透過這些指紋追蹤到模型的基底模型，有效預防模型的盜版和濫用。值得注意的是，大模型的製造商無需公佈其參數，僅需公開不變項用於產生指紋。

Alpaca 和LLaMA 的「指紋」極為相似，這是因為Alpaca 模型是透過對LLaMA 進行微調而得到的；而其他幾種模型的指紋則顯示了明顯的差異，反映了它們源自於不同的基底模型。

論文《HUREF: HUMAN-READABLE FINGERPRINT FOR LARGE LANGUAGE MODELS》：

論文下載網址：https://arxiv.org/pdf/2312.04828.pdf

從實驗觀察到不變項

#交大團隊發現，在對大模型進行微調或further pretrain 時，這些模型的參數向量方向變化非常微小。相反，對於從新開始訓練的大模型，其參數方向將與其他基底模型完全不同。

他們在LLaMA 的一系列衍生模型上進行了驗證，包括透過對LLaMA 進行微調得到的Alpaca 和Vicuna，以及由LLaMA further pretrain 得到的Chinese LLaMA 和Chinese Alpaca。此外，他們也測試如百川和書生等獨立訓練的基底模型。

表格中用藍色標記的LLaMA 衍生模型與LLaMA-7B 基底模型在參數向量上展現出了極高的餘弦相似度，意味著這些衍生模型在參數向量方向上與基底模型極為接近。相較之下，以紅色標記的獨立訓練的基底模型則呈現出截然不同的情況，它們的參數向量方向完全無關。

基於這些觀察，他們考慮是否可以依據這種經驗規律來創建模型的指紋。然而，存在一個關鍵問題：這種方法對於惡意攻擊是否足夠魯棒？

為了驗證這一點，研究團隊在對LLaMA 進行微調時，加入了模型間參數的相似度作為懲罰損失，以使模型在微調的同時，參數方向盡量偏離基模型，測試模型能否在保持性能的同時偏離原始參數方向：

他們在BoolQ 和MMLU 等8 個benchmark 上測試了原始模型和加入懲罰損失微調得到的模型。從下圖表可見，模型的表現隨著餘弦相似度的下降迅速惡化。這說明，想要在不損害基底模型能力的情況下偏離原參數方向是相當困難的！

目前來看，大模型的參數向量方向成為識別其基底模型的一個極為有效且穩健的指標。但是，直接利用參數向量方向作為辨識工具似乎還存在一些問題。首先，這種方法需要揭示模型的參數，這對於許多大型模型可能是不可接受的。其次，攻擊者有可以透過簡單地置換隱藏單元，從而在不犧牲模型效能的情況下對參數向量方向發動攻擊。

以Transformer 中的前饋神經網路（FFN）為例，僅對隱藏單元進行簡單的置換，並相應地調整其權重，就可以在不改變網路輸出的情況下實現對權重方向的修改。

此外，團隊還深入分析了線性映射攻擊以及對大模型 word embedding 的置換攻擊。這些發現引發了一個問題：在面對如此多樣化的攻擊手段時，我們應該如何有效地應對和解決這些問題？

他們透過參數矩陣間的乘法消除攻擊矩陣，從而推導出了三組對這些攻擊穩健的不變項。

從不變項到人類可讀的指紋

雖然上述推導出的不變項已足以作為大型型的身份標識，但它們通常以龐大的矩陣形式出現，不僅不夠直觀，而且還需要進行額外的相似度計算來判定不同大模型之間的關係。是否存在一種更直觀且易於理解的方法來展示這些資訊？

為了解決這個問題，上海交大團隊研發了一套由模型參數產生人類可讀指紋的方法 —HUREF。

他們先從大模型的部分參數中提取出不變項，然後利用CNN Encoder 在維持局部性（locality）的前提下，將不變項矩陣編碼成服從高斯分佈的特徵向量，最後使用使用平滑的GAN 或VAE 作為圖片生成器，將這些特徵向量解碼成可視化圖像（即狗的圖片）。這些圖片不僅人類可讀，而且直觀地展示了不同模型之間的相似性，有效地作為大型模型的「視覺指紋」。以下是詳細的訓練和推理過程。

在這個框架中，CNN Encoder 是唯一需要訓練的部分。他們採用對比學習確保 Encoder 的局部保持性，同時透過生成對抗學習確保特徵向量服從高斯分佈，以此與 GAN 或 VAE 生成器的輸入空間保持一致。

重要的是，在訓練過程中，他們不需要使用任何真實的模型參數，所有資料都是透過常態分佈取樣來獲得。在實際應用中，直接採用經過訓練的 CNN Encoder 和現成的在 AFHQ 犬類資料集上訓練得到的 StyleGAN2 產生器來進行推理。

為不同大模型產生指紋

為了驗證此方法的有效性，團隊在多種廣泛使用的大模型上進行了實驗。他們選取了若干知名的開源大模型，如Falcon、MPT、LLaMA2、Qwen、Baichuan 和InternLM，以及它們的衍生模型，計算了這些模型的不變項，並據此產生瞭如下圖所示的指紋圖片。

衍生模型的指紋與其原始模型極為相似，我們可以直觀地從圖像中辨認出它們是基於哪個原型模型構建的。此外，這些衍生模型與原始模型在不變項上也保持了很高的餘弦相似性。

隨後，他們對LLaMA 家族模型進行了廣泛的測試，包括透過SFT 得到的Alpaca 和Vicuna，擴展了中文詞彙表的模型，透過further pretrain 得到的Chinese LLaMA 和BiLLa，透過RLHF 得到的Beaver 以及多模態模式Minigpt4 等。

表中展示了LLaMA 家族模型之間不變項的餘弦相似度，同時，圖中是為這14 個模型生成的指紋圖片，它們的相似度依然很高。我們能夠根據指紋圖片判斷它們來自相同的模型，值得注意的是，這些模型涵蓋了SFT，further pretrain，RLHF 和多模態等多種不同的訓練方法，這進一步驗證了團隊所提出的方法對大模型後續不同訓練範式的穩健性。

此外，下圖是他們在 24 個獨立訓練的開源基底模型上進行的實驗結果。透過他們的方法，各個獨立的基底模型被賦予了獨特的指紋圖像，這些圖像生動地展現了不同大模型間指紋的多樣性和差異性。表中，這些模型間的相似度計算結果與其指紋影像所呈現的差異性保持了一致。

最後，團隊進一步驗證了小規模獨立訓練的語言模型參數方向的唯一性和穩定性。他們利用 Pile 資料集的十分之一從零開始預訓練了四個 GPT-NeoX-350M 模型。

這些模型在設定上完全相同，唯一的差異在於使用了不同的隨機數種子。從下圖表中可以明顯看出，僅隨機數種子的差異就導致了模型參數方向和指紋的顯著不同，這充分說明了獨立訓練的語言模型參數方向的唯一性。

最後，透過比較相鄰 checkpoints 的相似度，他們發現，在預訓練過程中，模型的參數逐漸趨向穩定。他們認為這種趨勢在更長的訓練步驟和更大規模的模型中將更為明顯，這在一定程度上也解釋了他們方法的有效性。

以上是大模型也有小偷？為保護你的參數，上交大給大模型製作「人類可讀指紋」的詳細內容。更多資訊請關注PHP中文網其他相關文章！

for continue 继承 cnn transformer https gpt llama embedding word

陳述：

本文轉載於：jiqizhixin.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：2B參數效能超Mistral-7B：面壁智慧多模態端側模型開源下一篇：2B參數效能超Mistral-7B：面壁智慧多模態端側模型開源

看更多