最近,深度生成模型在根據文字 prompt 生成高品質影像方面取得了顯著成功,部分原因在於深度生成模型擴展到了大規模網路資料集(如 LAION)。但是,一些重大挑戰依然存在,因而大規模文字到圖像模型無法產生與文字 prompt 完全對齊的圖像。舉例而言,目前的文本到圖像模型往往無法產生可靠的視覺文本,並在組合式圖像生成方面存在困難。
回到語言建模領域,從人類回饋中學習已經成為一種用來「對齊模型行為與人類意圖」的強大解決方案。這類方法透過人類對模型輸出的回饋,首先學習一個旨在反映人類在任務中所關心內容的獎勵函數,然後透過一種強化學習演算法(如近端策略優化PPO)使用學得的獎勵函數來優化語言模型。這種具有人類回饋框架的強化學習(RLHF)已經成功地將大規模語言模型(例如 GPT-3)與複雜的人類品質評估結合在一起。
近日,受 RLHF 在語言領域的成功,Google研究院和加州柏克萊的研究者提出了使用人類回饋來對齊文字到圖像模型的微調方法。
論文網址:https://arxiv.org/pdf/2302.12192v1.pdf
本文方法如下圖1 所示,主要分為3 個步驟。
第一步:首先從「設計用來測試文字到圖像模型輸出對齊的」一組文字 prompt 中產生不同的圖像。具體地,檢查預訓練模型更容易出錯的 prompt—— 產生具有特定顏色、數量和背景的對象,然後收集用於評估模型輸出的二元人類回饋。
第二步:使用了人工標記的資料集,訓練一個獎勵函數來預測給定圖像和文字 prompt 的人類回饋。研究者提出了一項輔助任務,在一組擾動文本 prompt 中識別原始文本 prompt,以更有效地將人類反饋用於獎勵學習。這項技術改進了獎勵函數對未見過圖像和文字 prompt 的泛化表現。
第三步:透過獎勵加權似然最大化更新文字到圖像模型,以更好地使它與人類回饋保持一致。與先前使用強化學習進行最佳化的工作不同,研究者使用半監督學習來更新模型,以測量模型輸出品質即學得的獎勵函數。
研究者使用帶有人類回饋的27000 個圖像- 文字對來微調Stable Diffusion 模型,結果顯示微調後的模型在產生具有特定顏色、數量和背景的物件方面實現顯著提升。圖像 - 文字對齊方面實現了高達 47% 的改進,但圖像保真度略有下降。
此外,組合式生成結果也得到了改進,即在給定未見過顏色、數量和背景 prompt 組合時可以更好地生成未見過的物件。他們還觀察到,學習的獎勵函數比測試文本 prompt 上的 CLIP 分數更符合人類對對齊的評估。
不過,論文一作 Kimin Lee 也表示,本文的結果並沒有解決現有文本到圖像模型中所有的失效模型,仍有許多挑戰。他們希望這項工作能突顯從人類回饋中學習在對齊文生圖模型中的應用潛力。
方法介紹
為了將生成圖像與文字 prompt 對齊,該研究對預訓練模型進行了一系列微調,過程如上圖 1 所示。首先從一組文字prompt 中產生相應的圖像,這個過程旨在測試文生圖模型的各種性能;然後是人類評分員對這些生成的圖像提供二元回饋;接下來,該研究訓練了一個獎勵模型來預測以文字prompt 和圖像作為輸入的人類回饋;最後,該研究使用獎勵加權對數似然對文生圖模型進行微調,以改善文字- 影像對齊。
人類資料收集
為了測試文生圖模型的功能,研究考慮了三類文字prompt:指定數量(specified count)、顏色、背景。對於每個類別,研究對每個描述該物體的單字或短語兩兩進行組合來產生 prompt,例如將綠色(顏色)與一隻狗(數量)組合。此外,研究還考慮了三個類別的組合(例如,在一個城市中兩隻染著綠顏色的狗)。下表 1 更好的闡述了資料集分類。每一個 prompt 都會被用來產生 60 張影像,模型主要為 Stable Diffusion v1.5 。
人類回饋
##接下來對生成的圖像進行人類回饋。由同一個 prompt 產生的 3 張影像會呈現給打標籤人員,並要求他們評估產生的每張影像是否與 prompt 保持一致,評價標準為 good 或 bad。由於這項任務比較簡單,所以用二元回饋就可以了。
獎勵學習
#為了更好的評估圖像- 文字對齊,該研究使用獎勵函數來衡量,該函數可以將圖像x 的CLIP 嵌入和文字prompt z 對應到標量值。之後其用來預測人類回饋 k_y ∈ {0, 1} (1 = good, 0 = bad) 。
從形式上來講,就是給定人類回饋資料集D^human = {(x, z, y)},獎勵函數透過最小化均方誤差(MSE) 來訓練:
之前,已經有研究顯示資料增強方法可以顯著提高資料效率和模型學習效能,為了有效地利用回饋資料集,該研究設計了一個簡單的資料增強方案和獎勵學習的輔助損失(auxiliary loss)。該研究在輔助任務中使用增強 prompt,即對原始 prompt 進行分類獎勵學習。 Prompt 分類器使用獎勵函數,如下所示:
#輔助損失為:
#最後是更新文生圖模型。由於模型產生的資料集多樣性是有限的,可能導致過度擬合。為了緩解這一點,該研究也最小化了預訓練損失,如下所示:#
实验结果
实验部分旨在测试人类反馈参与模型微调的有效性。实验用到的模型为 Stable Diffusion v1.5 ;数据集信息如表 1(参见上文)和表 2 所示,表 2 显示了由多个人类标签者提供的反馈分布。
人类对文本 - 图像对齐的评分(评估指标为颜色、物体数量)。如图 4 所示,本文方法显著提高了图像 - 文本对齐,具体来说,模型生成的图像中有 50% 的样本获得至少三分之二的赞成票(投票数量为 7 票或更多赞成票),然而,微调会稍微降低图像保真度(15% 比 10%)。
图 2 显示了来自原始模型和本文经过微调的对应模型的图像示例。可以看到原始模型生成了缺少细节(例如,颜色、背景或计数)的图像(图 2 (a)),本文模型生成的图像符合 prompt 指定的颜色、计数和背景。值得注意的是,本文模型还能生成没有见过的文本 prompt 图像,并且质量非常高(图 2 (b))。
奖励学习的结果。图 3 (a) 为模型在见过的文本 prompt 和未见文本 prompt 中的评分。有奖励(绿色)比 CLIP 分数(红色)更符合典型的人类意图。
以上是學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

記事本++7.3.1
好用且免費的程式碼編輯器

Dreamweaver Mac版
視覺化網頁開發工具

SublimeText3 Linux新版
SublimeText3 Linux最新版