下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
當(dāng)ChatGPT和Stablediffusion碰撞:谷歌用人類反饋提升文生圖效果ChatGPT的主要成功要?dú)w結(jié)于采用RLHF(ReinforcementLearningfromHumanFeedback)來精調(diào)語言大模型。近日谷歌AI團(tuán)隊將類似的思路用于文生圖大模型:基于人類反饋(HumanFeedback)來精調(diào)StableDiffusion模型來提升生成效果。目前的文生圖模型雖然已經(jīng)能夠取得比較好的圖像生成效果,但是很多時候往往難以生成與輸入文本精確匹配的圖像,特別是在組合圖像生成方面。為此,谷歌最新的論文AligningText-to-ImageModelsusingHumanFeedback提出了基于人類反饋的三步精調(diào)方法來改善這個問題。首先第一步是收集人類反饋數(shù)據(jù)。這里首先基于預(yù)訓(xùn)練好的文生圖模型(這里采用stablediffusionv1.5)在一系列預(yù)定義好的文本上生成圖像,然后讓人類去進(jìn)行打分,論文里主要是為了改善文本和圖像的對齊能力,所以只采用了簡單的二分制:如果生成的圖像與文本很好地對齊就是好(1),反之就是差(0)。論文中所設(shè)計的文本主要包含三個方面:計數(shù)(count)、顏色(color)以及背景(background),在這三個方面原始stablediffusion模型往往表現(xiàn)較差,設(shè)計的文本是包含單個方面以及它們的組合,共27528個圖像,具體如下所示:第二步是學(xué)習(xí)一個獎勵函數(shù)(rewardfunction)。這里基于第一步收集的人類反饋數(shù)據(jù)訓(xùn)練一個預(yù)測人類評分的獎勵函數(shù):給定生成的圖像和輸入的文本,預(yù)測生成圖像的評分。這里所設(shè)計的模型采用CLIP來提取圖像和文本的特征,然后兩個特征拼接在一起送入一個2層MLP模型進(jìn)行評分預(yù)測,采用MSE損失來進(jìn)行訓(xùn)練。除了MSE損失外,論文還設(shè)計一種輔助任務(wù)(promptclassification)來作為一種數(shù)據(jù)增強(qiáng)來提升獎勵函數(shù)的泛化能力。具體地是對每個已經(jīng)打分為好的圖像-文本對,額外產(chǎn)生N-1個擾動的文本(和原始文本語義不同),具體的產(chǎn)生方法如下所示:然后基于這些擾動的文本來基于獎勵函數(shù)對原始的文本進(jìn)行分類,采用交叉熵?fù)p失(這個與自監(jiān)督學(xué)習(xí)中的對比損失類似):所以最終獎勵函數(shù)的損失為MSE損失和輔助任務(wù)的CE損失,加上額外的損失對獎勵函數(shù)的泛化能力(能夠在未見過的數(shù)據(jù)表現(xiàn)較好,這里未見過的數(shù)據(jù)指的是人類反饋數(shù)據(jù)所不包含的數(shù)據(jù))比較關(guān)鍵。最后一步就是用學(xué)習(xí)好的獎勵函數(shù)來精調(diào)stablediffusion模型,這里精調(diào)的損失主要包括兩個方面:一個是在人類反饋數(shù)據(jù)集(,這里額外除了用人類標(biāo)注的數(shù)據(jù)集外,還額外增加了一些未標(biāo)注的數(shù)據(jù)集來增加訓(xùn)練的多樣性,其中共23K有標(biāo)注數(shù)據(jù),16K無標(biāo)注數(shù)據(jù))上基于獎勵函數(shù)加權(quán)的生成損失(對于stablediffusion是真實(shí)噪音和預(yù)測噪音的L2損失);另外一部分是基于預(yù)訓(xùn)練數(shù)據(jù)集(,這里采用LAION-5B數(shù)據(jù)集中藝術(shù)評分在6.5以上的子集,共627K)的原始生成損失,主要是作為一個正則化項(xiàng)來防止過擬合。值得注意的是,這里并不是基于RLHF方法,而實(shí)際上是一種基于半監(jiān)督學(xué)習(xí)的精調(diào)方法。論文在120個文本上基于人類打分來對原始模型和精調(diào)后的模型來進(jìn)行對比,結(jié)果如下所示,可以看到在圖像和文本對齊方面,模型效果有明顯的提升(50%vs3%),但是在圖像生成質(zhì)量上(fidelity)有稍微的下降(MS-COCO數(shù)據(jù)集上的FID也有下降),論文認(rèn)為主要的原因是設(shè)計的數(shù)據(jù)集主要目標(biāo)是為了對齊文本和圖像,數(shù)據(jù)集的多樣性較少,而且采用的預(yù)訓(xùn)練數(shù)據(jù)集只是一個很小的子集,如果采用更大的數(shù)據(jù)集,應(yīng)該可以進(jìn)一步改善這個問題。從消融實(shí)驗(yàn)來看,采用未標(biāo)注數(shù)據(jù)集和預(yù)訓(xùn)練數(shù)據(jù)集來進(jìn)行正則化,對于保證圖像生成質(zhì)量還是非常關(guān)鍵的。下面是一些圖像生成樣例,也可以看出精調(diào)后的模型在文本語義對齊上的提升:這個論文只是基于人類反饋在文生圖模型上一個嘗試,看起來還是有一定的效果,但是主要的問題是圖像生成質(zhì)量出現(xiàn)下降,比如出現(xiàn)過飽和以及失真的圖像。雖然加入未標(biāo)注的數(shù)據(jù)集和預(yù)訓(xùn)練數(shù)據(jù)集,能在一定程度上改善這個問題:論文的最后給出了未來的改進(jìn)方向,主要包括:Morenuancedhumanfeedback:增加人類評分的細(xì)粒度,不是簡單的0和1打分;Diverseandlargehumandataset:擴(kuò)大數(shù)據(jù)集,提升多樣性Differentobjectivesandalgorithms:采用RLHF方法相信,未來ChatGPT的思路能夠真正在文生圖模型上發(fā)揮更大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工作檢討書集合15篇
- 演講稿怎么寫格式?【5篇】
- 退社申請書(15篇)
- 小學(xué)學(xué)校校長述職報告范文10篇
- 大一學(xué)生自我鑒定15篇
- 高層框剪多功能寫字樓施工組織設(shè)計
- 人教版初中英語九年級下冊全冊教案
- 免責(zé)協(xié)議書的范本(2篇)
- 兒童教育輔導(dǎo)服務(wù)合同(2篇)
- 2025年高性能氣敏傳感器合作協(xié)議書
- 選詞填空(試題)外研版英語五年級上冊
- 雷火灸療法專業(yè)知識講座
- GB/T 15605-2008粉塵爆炸泄壓指南
- 鐵路工程-軌道工程施工工藝及方案
- 福建省福州市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名明細(xì)及行政區(qū)劃代碼
- 《高中語文文言斷句》一等獎優(yōu)秀課件
- 上海市中小學(xué)生學(xué)籍信息管理系統(tǒng)
- (完整版)自動感應(yīng)門施工方案
- 8站小車呼叫的plc控制
- _ 基本粒子與宏觀物體內(nèi)在聯(lián)系
- 象棋比賽積分編排表
評論
0/150
提交評論