首頁 >科技週邊 >人工智慧 >ChatGPT核心方法可用於AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI

ChatGPT核心方法可用於AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB轉載: 2023-05-10 14:22:071329瀏覽

ChatGPT中有這樣一個核心訓練方法，名叫「人類回饋強化學習（RLHF）」。

它可以讓模型更安全、輸出結果更遵循人類意圖。

現在，來自GoogleResearch和UC伯克利的研究人員發現，將該方法用在AI繪畫上，「治療」圖像跟輸入不完全匹配的情況，效果也奇好——

可以實現高達47%的改進。

ChatGPT核心方法可用於AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI

△ 左為Stable Diffusion，右為改進後效果

這一刻，AIGC領域中兩類大火的模型，似乎找到了某種“共鳴」。

如何將RLHF用於AI繪畫？

RLHF，全名為“Reinforcement Learning from Human Feedback”，是OpenAI和DeepMind於2017年合作開發的一種強化學習技術。

如同其名，RLHF就是用人類對模型輸出結果的評價（即回饋）來直接優化模型，在LLM中，它可以使得「模型價值」更符合人類價值。

而在AI圖像生成模型中，它可以讓生成圖像與文字提示得到充分對齊。

具體而言，首先，收集人類回饋資料。

在這裡，研究人員一共生成了27000餘個“文字圖像對”，然後讓一些人類來評分。

為了簡單起見，文字提示只包括以下四個類別，分別關乎數量、顏色、背景和混合選項；人類的回饋則只分「好」、「壞」與「不知道（skip）」。

ChatGPT核心方法可用於AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI

其次，學習獎勵函數。

這一步，就是利用剛剛獲得的人類評估所組成的資料集，訓練出獎勵函數，然後用該函數來預測人類對模型輸出的滿意度（公式紅色部分）。

這樣，模型就知道自己的結果究竟有幾分符合文字。

ChatGPT核心方法可用於AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI

除了獎勵函數，作者也提出了一個輔助任務（公式藍色部分）。

也就是當圖像生成完成後，模型再給一堆文本，但其中只有一個是原始文本，讓獎勵模型「自己檢查」圖像是否跟該文本相符。

這種逆向操作可以讓效果得到「雙重保險」（可以輔助下圖中的step2進行理解）。

ChatGPT核心方法可用於AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI

最後，就是微調了。

即透過獎勵加權最大似然估計（reward-weighted likelihood maximization）（下公式第一項），更新文字-圖像生成模型。

ChatGPT核心方法可用於AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI

為了避免過度擬合，作者對預訓練資料集上的NLL值（公式第二項）進行了最小化。這種做法類似於InstructionGPT (ChatGPT的「直系前輩」）。

效果提升47%，但清晰度下滑5%

如下一系列效果所示，相比原始的Stable Diffusion，用RLHF微調過後的模型可以：

（1）更正確地get文字裡的“兩隻”和“綠色”；

ChatGPT核心方法可用於AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI

#（2）不會忽略“海”作為背景的要求；

（3）想要紅老虎，能給出「更紅」的結果。

從具體數據來看，微調後的模型人類滿意度為50%，相比原來的模型（3%），得到了47%的提升。

不過，代價是失去了5%的影像清晰度。

ChatGPT核心方法可用於AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI

從下圖我們也能很清楚的看到，右邊的狼明顯比左邊的糊一些：

對此，作者表示，使用更大的人類評估資料集和更好的最佳化 (RL) 方法，可以改善這種情況。

關於作者

本文總共9位作者。

ChatGPT核心方法可用於AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI

一作為GoogleAI研究科學家Kimin Lee，韓國科學技術院博士，博士後研究在UC柏克萊大學展開。

ChatGPT核心方法可用於AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI

華人作者三位：

#Liu Hao，UC柏克萊正在讀博士生，主要研究興趣為回饋神經網路。

Du Yuqing，同UC柏克萊博士在讀，主要研究方向為無監督強化學習方法。

Shixiang Shane Gu (顧世翔)，通訊作者，本科師從三巨頭之一Hinton，博士畢業於劍橋大學。

ChatGPT核心方法可用於AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI

△ 顧世翔

值得一提的是，寫這篇文章時他還是谷歌人，如今已經跳槽至OpenAI，並在那裡直接向ChatGPT負責人報告。

論文網址：

https://arxiv.org/abs/2302.12192

參考連結：[1]https://www.php .cn/link/4d42d2f5010c1c13f23492a35645d6a7

[2]https://openai.com/blog/instruction-following/

###[2]https://openai.com/blog/instruction-following/###

以上是ChatGPT核心方法可用於AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：移動感測器引導的跨時節六自由度視覺定位，準確且高效下一篇：移動感測器引導的跨時節六自由度視覺定位，準確且高效

看更多