最近,深度生成模型在根據文字 prompt 生成高品質影像方面取得了顯著成功,部分原因在於深度生成模型擴展到了大規模網路資料集(如 LAION)。但是,一些重大挑戰依然存在,因而大規模文字到圖像模型無法產生與文字 prompt 完全對齊的圖像。舉例而言,目前的文本到圖像模型往往無法產生可靠的視覺文本,並在組合式圖像生成方面存在困難。
回到語言建模領域,從人類回饋中學習已經成為一種用來「對齊模型行為與人類意圖」的強大解決方案。這類方法透過人類對模型輸出的回饋,首先學習一個旨在反映人類在任務中所關心內容的獎勵函數,然後透過一種強化學習演算法(如近端策略優化PPO)使用學得的獎勵函數來優化語言模型。這種具有人類回饋框架的強化學習(RLHF)已經成功地將大規模語言模型(例如 GPT-3)與複雜的人類品質評估結合在一起。
近日,受 RLHF 在語言領域的成功,Google研究院和加州柏克萊的研究者提出了使用人類回饋來對齊文字到圖像模型的微調方法。
論文網址:https://arxiv.org/pdf/2302.12192v1.pdf
本文方法如下圖1 所示,主要分為3 個步驟。
第一步:首先從「設計用來測試文字到圖像模型輸出對齊的」一組文字 prompt 中產生不同的圖像。具體地,檢查預訓練模型更容易出錯的 prompt—— 產生具有特定顏色、數量和背景的對象,然後收集用於評估模型輸出的二元人類回饋。
第二步:使用了人工標記的資料集,訓練一個獎勵函數來預測給定圖像和文字 prompt 的人類回饋。研究者提出了一項輔助任務,在一組擾動文本 prompt 中識別原始文本 prompt,以更有效地將人類反饋用於獎勵學習。這項技術改進了獎勵函數對未見過圖像和文字 prompt 的泛化表現。
第三步:透過獎勵加權似然最大化更新文字到圖像模型,以更好地使它與人類回饋保持一致。與先前使用強化學習進行最佳化的工作不同,研究者使用半監督學習來更新模型,以測量模型輸出品質即學得的獎勵函數。
研究者使用帶有人類回饋的27000 個圖像- 文字對來微調Stable Diffusion 模型,結果顯示微調後的模型在產生具有特定顏色、數量和背景的物件方面實現顯著提升。圖像 - 文字對齊方面實現了高達 47% 的改進,但圖像保真度略有下降。
此外,組合式生成結果也得到了改進,即在給定未見過顏色、數量和背景 prompt 組合時可以更好地生成未見過的物件。他們還觀察到,學習的獎勵函數比測試文本 prompt 上的 CLIP 分數更符合人類對對齊的評估。
不過,論文一作 Kimin Lee 也表示,本文的結果並沒有解決現有文本到圖像模型中所有的失效模型,仍有許多挑戰。他們希望這項工作能突顯從人類回饋中學習在對齊文生圖模型中的應用潛力。
為了將生成圖像與文字 prompt 對齊,該研究對預訓練模型進行了一系列微調,過程如上圖 1 所示。首先從一組文字prompt 中產生相應的圖像,這個過程旨在測試文生圖模型的各種性能;然後是人類評分員對這些生成的圖像提供二元回饋;接下來,該研究訓練了一個獎勵模型來預測以文字prompt 和圖像作為輸入的人類回饋;最後,該研究使用獎勵加權對數似然對文生圖模型進行微調,以改善文字- 影像對齊。
人類資料收集
為了測試文生圖模型的功能,研究考慮了三類文字prompt:指定數量(specified count)、顏色、背景。對於每個類別,研究對每個描述該物體的單字或短語兩兩進行組合來產生 prompt,例如將綠色(顏色)與一隻狗(數量)組合。此外,研究還考慮了三個類別的組合(例如,在一個城市中兩隻染著綠顏色的狗)。下表 1 更好的闡述了資料集分類。每一個 prompt 都會被用來產生 60 張影像,模型主要為 Stable Diffusion v1.5 。
人類回饋
##接下來對生成的圖像進行人類回饋。由同一個 prompt 產生的 3 張影像會呈現給打標籤人員,並要求他們評估產生的每張影像是否與 prompt 保持一致,評價標準為 good 或 bad。由於這項任務比較簡單,所以用二元回饋就可以了。
獎勵學習
#為了更好的評估圖像- 文字對齊,該研究使用獎勵函數來衡量,該函數可以將圖像x 的CLIP 嵌入和文字prompt z 對應到標量值。之後其用來預測人類回饋 k_y ∈ {0, 1} (1 = good, 0 = bad) 。
從形式上來講,就是給定人類回饋資料集D^human = {(x, z, y)},獎勵函數透過最小化均方誤差(MSE) 來訓練:
之前,已經有研究顯示資料增強方法可以顯著提高資料效率和模型學習效能,為了有效地利用回饋資料集,該研究設計了一個簡單的資料增強方案和獎勵學習的輔助損失(auxiliary loss)。該研究在輔助任務中使用增強 prompt,即對原始 prompt 進行分類獎勵學習。 Prompt 分類器使用獎勵函數,如下所示:
#輔助損失為:
#最後是更新文生圖模型。由於模型產生的資料集多樣性是有限的,可能導致過度擬合。為了緩解這一點,該研究也最小化了預訓練損失,如下所示:#
实验部分旨在测试人类反馈参与模型微调的有效性。实验用到的模型为 Stable Diffusion v1.5 ;数据集信息如表 1(参见上文)和表 2 所示,表 2 显示了由多个人类标签者提供的反馈分布。
人类对文本 - 图像对齐的评分(评估指标为颜色、物体数量)。如图 4 所示,本文方法显著提高了图像 - 文本对齐,具体来说,模型生成的图像中有 50% 的样本获得至少三分之二的赞成票(投票数量为 7 票或更多赞成票),然而,微调会稍微降低图像保真度(15% 比 10%)。
图 2 显示了来自原始模型和本文经过微调的对应模型的图像示例。可以看到原始模型生成了缺少细节(例如,颜色、背景或计数)的图像(图 2 (a)),本文模型生成的图像符合 prompt 指定的颜色、计数和背景。值得注意的是,本文模型还能生成没有见过的文本 prompt 图像,并且质量非常高(图 2 (b))。
奖励学习的结果。图 3 (a) 为模型在见过的文本 prompt 和未见文本 prompt 中的评分。有奖励(绿色)比 CLIP 分数(红色)更符合典型的人类意图。
以上是學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?的詳細內容。更多資訊請關注PHP中文網其他相關文章!