最近,深度生成模型在根據文字 prompt 生成高品質影像方面取得了顯著成功,部分原因在於深度生成模型擴展到了大規模網路資料集(如 LAION)。但是,一些重大挑戰依然存在,因而大規模文字到圖像模型無法產生與文字 prompt 完全對齊的圖像。舉例而言,目前的文本到圖像模型往往無法產生可靠的視覺文本,並在組合式圖像生成方面存在困難。
回到語言建模領域,從人類回饋中學習已經成為一種用來「對齊模型行為與人類意圖」的強大解決方案。這類方法透過人類對模型輸出的回饋,首先學習一個旨在反映人類在任務中所關心內容的獎勵函數,然後透過一種強化學習演算法(如近端策略優化PPO)使用學得的獎勵函數來優化語言模型。這種具有人類回饋框架的強化學習(RLHF)已經成功地將大規模語言模型(例如 GPT-3)與複雜的人類品質評估結合在一起。
近日,受 RLHF 在語言領域的成功,Google研究院和加州柏克萊的研究者提出了使用人類回饋來對齊文字到圖像模型的微調方法。
論文網址:https://arxiv.org/pdf/2302.12192v1.pdf
本文方法如下圖1 所示,主要分為3 個步驟。
第一步:首先從「設計用來測試文字到圖像模型輸出對齊的」一組文字 prompt 中產生不同的圖像。具體地,檢查預訓練模型更容易出錯的 prompt—— 產生具有特定顏色、數量和背景的對象,然後收集用於評估模型輸出的二元人類回饋。
第二步:使用了人工標記的資料集,訓練一個獎勵函數來預測給定圖像和文字 prompt 的人類回饋。研究者提出了一項輔助任務,在一組擾動文本 prompt 中識別原始文本 prompt,以更有效地將人類反饋用於獎勵學習。這項技術改進了獎勵函數對未見過圖像和文字 prompt 的泛化表現。
第三步:透過獎勵加權似然最大化更新文字到圖像模型,以更好地使它與人類回饋保持一致。與先前使用強化學習進行最佳化的工作不同,研究者使用半監督學習來更新模型,以測量模型輸出品質即學得的獎勵函數。
研究者使用帶有人類回饋的27000 個圖像- 文字對來微調Stable Diffusion 模型,結果顯示微調後的模型在產生具有特定顏色、數量和背景的物件方面實現顯著提升。圖像 - 文字對齊方面實現了高達 47% 的改進,但圖像保真度略有下降。
此外,組合式生成結果也得到了改進,即在給定未見過顏色、數量和背景 prompt 組合時可以更好地生成未見過的物件。他們還觀察到,學習的獎勵函數比測試文本 prompt 上的 CLIP 分數更符合人類對對齊的評估。
不過,論文一作 Kimin Lee 也表示,本文的結果並沒有解決現有文本到圖像模型中所有的失效模型,仍有許多挑戰。他們希望這項工作能突顯從人類回饋中學習在對齊文生圖模型中的應用潛力。
方法介紹
為了將生成圖像與文字 prompt 對齊,該研究對預訓練模型進行了一系列微調,過程如上圖 1 所示。首先從一組文字prompt 中產生相應的圖像,這個過程旨在測試文生圖模型的各種性能;然後是人類評分員對這些生成的圖像提供二元回饋;接下來,該研究訓練了一個獎勵模型來預測以文字prompt 和圖像作為輸入的人類回饋;最後,該研究使用獎勵加權對數似然對文生圖模型進行微調,以改善文字- 影像對齊。
人類資料收集
為了測試文生圖模型的功能,研究考慮了三類文字prompt:指定數量(specified count)、顏色、背景。對於每個類別,研究對每個描述該物體的單字或短語兩兩進行組合來產生 prompt,例如將綠色(顏色)與一隻狗(數量)組合。此外,研究還考慮了三個類別的組合(例如,在一個城市中兩隻染著綠顏色的狗)。下表 1 更好的闡述了資料集分類。每一個 prompt 都會被用來產生 60 張影像,模型主要為 Stable Diffusion v1.5 。
人類回饋
##接下來對生成的圖像進行人類回饋。由同一個 prompt 產生的 3 張影像會呈現給打標籤人員,並要求他們評估產生的每張影像是否與 prompt 保持一致,評價標準為 good 或 bad。由於這項任務比較簡單,所以用二元回饋就可以了。
獎勵學習
#為了更好的評估圖像- 文字對齊,該研究使用獎勵函數來衡量,該函數可以將圖像x 的CLIP 嵌入和文字prompt z 對應到標量值。之後其用來預測人類回饋 k_y ∈ {0, 1} (1 = good, 0 = bad) 。
從形式上來講,就是給定人類回饋資料集D^human = {(x, z, y)},獎勵函數透過最小化均方誤差(MSE) 來訓練:
之前,已經有研究顯示資料增強方法可以顯著提高資料效率和模型學習效能,為了有效地利用回饋資料集,該研究設計了一個簡單的資料增強方案和獎勵學習的輔助損失(auxiliary loss)。該研究在輔助任務中使用增強 prompt,即對原始 prompt 進行分類獎勵學習。 Prompt 分類器使用獎勵函數,如下所示:
#輔助損失為:
#最後是更新文生圖模型。由於模型產生的資料集多樣性是有限的,可能導致過度擬合。為了緩解這一點,該研究也最小化了預訓練損失,如下所示:#
实验结果
实验部分旨在测试人类反馈参与模型微调的有效性。实验用到的模型为 Stable Diffusion v1.5 ;数据集信息如表 1(参见上文)和表 2 所示,表 2 显示了由多个人类标签者提供的反馈分布。
人类对文本 - 图像对齐的评分(评估指标为颜色、物体数量)。如图 4 所示,本文方法显著提高了图像 - 文本对齐,具体来说,模型生成的图像中有 50% 的样本获得至少三分之二的赞成票(投票数量为 7 票或更多赞成票),然而,微调会稍微降低图像保真度(15% 比 10%)。
图 2 显示了来自原始模型和本文经过微调的对应模型的图像示例。可以看到原始模型生成了缺少细节(例如,颜色、背景或计数)的图像(图 2 (a)),本文模型生成的图像符合 prompt 指定的颜色、计数和背景。值得注意的是,本文模型还能生成没有见过的文本 prompt 图像,并且质量非常高(图 2 (b))。
奖励学习的结果。图 3 (a) 为模型在见过的文本 prompt 和未见文本 prompt 中的评分。有奖励(绿色)比 CLIP 分数(红色)更符合典型的人类意图。
以上是學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

近年来,多模态学习受到重视,特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些 AI 模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 先后推出的文本图像模型 DALL・E 和 DALL-E 2,以及英伟达的 GauGAN 和 GauGAN2。谷歌也不甘落后,在 5 月底发布了自己的文本到图像模型 Imagen,看起来进一步拓展了字幕条件(caption-conditional)图像生成的边界。仅仅给出一个场景的描述,Imagen 就能生成高质量、高分辨率

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

今天的主角,是一对AI界相爱相杀的老冤家:Yann LeCun和Gary Marcus在正式讲述这一次的「新仇」之前,我们先来回顾一下,两位大神的「旧恨」。LeCun与Marcus之争Facebook首席人工智能科学家和纽约大学教授,2018年图灵奖(Turing Award)得主杨立昆(Yann LeCun)在NOEMA杂志发表文章,回应此前Gary Marcus对AI与深度学习的评论。此前,Marcus在杂志Nautilus中发文,称深度学习已经「无法前进」Marcus此人,属于是看热闹的不

日前,美国西北大学工程师开发出有史以来最小的遥控步行机器人,它以一种小巧可爱的螃蟹形式出现。这种微小的“螃蟹”机器人宽度只有半毫米,可以弯曲、扭曲、爬行、行走、转弯甚至跳跃,无需液压或电力。IT之家了解到,相关研究成果发表在《科学・机器人》上。据介绍,这种机器人是用形状记忆合金材料所制造的,然后可以变成所需的形状,当你加热后又会变回原来的形状,而热量消失时可以再次弹回变形时的样子。据介绍,其热量是由激光所带来的。激光通过“螃蟹”加热合金,但因为它们非常小,所以热量传播非常快,这使得它们的响应速度

近几年,自我博弈中的强化学习已经在围棋、国际象棋等一系列游戏中取得了超人的表现。此外,自我博弈的理想化版本还收敛于纳什均衡。纳什均衡在博弈论中非常著名,该理论是由博弈论创始人,诺贝尔奖获得者约翰 · 纳什提出,即在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下,其选择的策略是最优的,那么这个组合就被定义为纳什均衡。之前就有研究表明,自我博弈中看似有效的连续控制策略也可以被对抗策略利用,这表明

分子是维持物质化学稳定性的最小单位。对分子的研究,是药学、材料学、生物学、化学等众多科学领域的基础性问题。分子的表征学习(MolecularRepresentationLearning)是近年来非常热门的方向,目前可分为诸多门派:计算药学家说:分子可以表示为一串指纹,或者描述符,如上海药物所提出的AttentiveFP,是这方面的杰出代表。NLPer说:分子可以表示为SMILES(序列),然后当作自然语言处理,如百度的X-Mol,是这方面的杰出代表。图神经网络研究者说:分子可以表示为一个图(G

由于可以做一些没训练过的事情,大型语言模型似乎具有某种魔力,也因此成为了媒体和研究员炒作和关注的焦点。当扩展大型语言模型时,偶尔会出现一些较小模型没有的新能力,这种类似于「创造力」的属性被称作「突现」能力,代表我们向通用人工智能迈进了一大步。如今,来自谷歌、斯坦福、Deepmind和北卡罗来纳大学的研究人员,正在探索大型语言模型中的「突现」能力。解码器提示的 DALL-E神奇的「突现」能力自然语言处理(NLP)已经被基于大量文本数据训练的语言模型彻底改变。扩大语言模型的规模通常会提高一系列下游N

量子纠缠(quantumentanglement)是指粒子之间发生的一种特殊耦合现象。在纠缠态下,我们无法单独描述各个粒子的性质,只能描述整体系统的性质的现象,这种影响不随距离的改变而消失,哪怕粒子之间相隔整个宇宙也不会变。一项新的研究表明,使用量子纠缠机制,传感器可以在检测运动时更加准确且更快。科学家们认为,这些发现可能有助于发展不依赖GPS的导航系统。在美国亚利桑那大学等机构在《NaturePhotonics》提交的一项新研究中,研究人员对光机械传感器(optomechanicalsenso


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Dreamweaver CS6
視覺化網頁開發工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),