2022年什麼最值錢? prompt!
基於文字的圖像生成(text-guided image generation)模型,如DALL-E 2大火後,網友們也是樂此不疲地產生各種搞怪圖像。
但想要讓模型產生清晰、可用的目標圖像,必須得掌握正確的「咒語」才行,也就是prompt須得精心設計之後才能用,甚至有人架設網站賣了prompt
要是prompt是邪惡咒語,那產生的圖片可能會「涉嫌違規」。
雖然DALL-E 2發布之初就設立了各種機制來避免模型被濫用,例如從訓練資料中刪除暴力、仇恨或少兒不宜的圖像;使用技術手段防止生成人臉的超寫實照片,尤其是一些公眾人物。
在生成階段,DALL-E 2也設定了prompt過濾器,不允許使用者輸入的提示詞包含暴力、成人或政治內容。
但最近哥倫比亞大學的研究人員發現,可以在prompt上添加一些看似胡言亂語的單詞,使得過濾器無法識別出詞義,但AI系統最終還是能返回有意義的生成圖像。
論文連結:https://arxiv.org/pdf/2208.04135.pdf
作者提出兩種建構prompt的方法,第一種稱之為macaronic prompting,其中macaronic一詞的原意指多種語言的單字進行混合後產生新的詞彙,比如說在巴基斯坦,烏爾都語和英語的混合詞就很常見。
而DALL-E 2的訓練語料通常是從互聯網上收集的數據,文本和圖像之間建立概念聯繫的過程中多多少少都會涉及到多語言學習,使得訓練後的模型具有同時辨識多語言概念的能力。
所以可以利用多語言組合成新詞,繞過人類設計的prompt過濾器,達到對抗攻擊的目的。
例如鳥(birds)這個字在德語裡是Vögel,用義大利文是uccelli,用法文是oiseaux,西班牙文是pájaros,在CLIP模型使用byte pair encoding(BPE)演算法對輸入提示句進行分詞後,可以拆分成多個subword。
把subword重新排列組合成新詞後,例如輸入uccoisegeljaros,DALL-E 2仍然能夠產生鳥類的圖像,但人類卻完全無法讀懂這個詞的含義。
甚至不嚴格遵守subword的邊界,例如再換成voiscellpajaraux和oisvogajaro,模型仍能產生鳥類圖。
除了鳥類,研究人員發現組合多語言這個方法在不同的影像域都能取得不錯的效果,影像產生結果展現出相當高的一致性。
從動物界到風景、交通工具、場景、情緒的相關影像的生成都不在話下。
雖然不同的文字指導的圖像生成模型有不同的架構、訓練資料和分詞方法,但原則上,macaronic提示可以應用於任何在多語言資料上訓練的模型,例如在DALL-E mini模型中也能發現相同的效果。
值得注意的是,儘管名字相似,但DALL-E 2和DALL-E mini是相當不同的。它們有不同的架構(DALL-E mini沒有使用擴散模型),在不同的資料集上訓練,並使用不同的分詞程式(DALL-E mini使用BART分詞器,可能會以不同於CLIP分詞器的方式分割單字)。
儘管有這些差異,macaronic提示仍然能夠在兩種模型上都能發揮作用,背後的原理還需要再深入研究。
但並非所有的macaronic提示都能在不同的模型間適當地轉移,例如雖然farpapmaripterling按照預期產生了DALL-E 2的蝴蝶圖像,但在DALL-E mini中生成的卻是蘑菇圖像。
研究人員推測,可能在更大的資料集上訓練出來的更大的模型更容易受到macaronic提示的影響,因為它們在不同語言的子詞單元和視覺概念之間學習到了更強的關聯關係。
這可能可以解釋為什麼一些在DALL-E 2中產生預期結果的macaronic提示在DALL-E mini中不起作用,卻幾乎找不到相反的例子。
這種趨勢可能不是好消息,因為大規模模型可能更容易受到使用macaronic提示的對抗性攻擊。
除了將單一合成詞作為prompt以外,合成詞也可以嵌入英語句法中組成句子,生成圖像的效果和原始詞彙相似。
且合成詞還有一個優勢,就是組合起來可以產生更具體、更複雜的場景。雖然複雜的macaronic提示需要符合英語的句法結構,使生成結果比使用合成字串的提示更容易解釋,但傳達給模型的訊息仍然相對模糊。
對大多數人來說,如果沒有事先接觸過macaronic提示和用於雜交的語言知識,要猜出用提示語An eidelucertlagarzard eating a maripofarterling會產生什麼樣的場景可能是很困難的。
此外,這種成分複雜的提示不會觸發基於黑名單的內容過濾器,儘管它們使用的是普通英語單詞,只要使用macaronic方法對受審查的概念進行充分“加密”即可。
macaronic提示也不一定非在多語言中組合subword,在單一語言內進行合成也能產生有效的視覺概念,不過熟悉英語的人可能會猜測到該字符串的預期效果,比如happeerful這個字很容易猜到是happy和cheerful的合成字。
第二種方法稱為Evocative Prompting,和macaronic不同的是,evocative不需要從現有的字中組合觸發視覺聯想,而是由特定領域中某些字母組合的統計意義進行「喚起」,創造出一個新詞。
參考生物學分類裡的二名法(Binomial Nomenclature),可以根據「屬名」和「種加詞」來創造一個新的「偽拉丁詞」,DALL-E就能夠根據相應的主題生成對應的物種。
根據藥物的命名法則也可以產生新的藥物圖片。
evocative提示也可以應用於語言的特定特徵和與相應語言的地點和文化有關的視覺特徵之間的關聯。例如根據建築名稱,模型可以推斷是哪個國家的風格,如Woldenbüchel生成的場景看起來像德國或奧地利村莊;Valtorigiano看起來像意大利古鎮;Beaussoncour則像法國的歷史城鎮。
不過也不一定都是建築物,例如最後一個用DALL-E mini產生的圖像則是17世紀的法國肖像,而非法國的地點,但與法國文化的聯繫還是被保留了下來。
evocative提示也可以與詞彙雜交結合起來,以獲得對輸出的特定特徵的更多控制。
在偽拉丁命名法中引入英語詞塊會使DALL-E 2產生具有特定屬性的動物圖像,例如提示詞scariosus ferocianensis將可怕(scary)和兇猛(ferocious)與偽拉丁詞條結合起來,可以產生傳統上可怕的“爬行動物”的圖像,如蝎子。
cutiosus adorablensis將可愛(cute)和adorable與偽拉丁詞條結合起來,能夠產生傳統意義上可愛的哺乳動物的圖像;watosus swimensis將水(water)和游泳(swimming)與偽拉丁詞綴結合起來,能夠產生水生動物的圖像;flyosus wingensis將飛行(fly)和有翼(winged)與偽拉丁詞綴結合起來能夠產生飛行昆蟲的圖像。
從原理上來看,macaronic方法產生的詞彙可以提供一種簡單的、看似可靠的方法來繞過prompt過濾器,別有用心者可以用來產生有害的、攻擊性的、非法的或其他敏感的內容,包括暴力、仇恨、種族主義、性別歧視或色情圖片,以及可能侵犯智慧財產權或描述真實個人的圖片。
雖然提供圖像生成服務的公司已經根據其內容政策,在防止生成這類輸出方面做出了大量的努力,但macaronic提示仍然能夠對商業圖像生成系統的安全協議的造成巨大威脅。
而evocative提示帶來的威脅不那麼明顯,因為它沒有提供一種十分有效且可靠的方法來觸發特定視覺聯想的字符串,它大多局限於與單詞或語言的廣泛形態特徵有關的概念的模糊聯想。
總的來說,macaronic的提示比evocative提示的可操作性更強,基於關鍵字的黑名單在此類模型中的內容過濾不足以抵禦攻擊。
難道DALL-E 2要開始黑化了?
以上是prompt攻防戰!哥倫比亞大學提出BPE造詞法,可繞過審核機制,DALL-E 2已中招的詳細內容。更多資訊請關注PHP中文網其他相關文章!