版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1專題:多模態(tài)大語(yǔ)言模型的前沿應(yīng)用與創(chuàng)新2024.08.18中國(guó)上海主講人:快手可圖大模型負(fù)責(zé)人李巖3l視覺生成方向的未來(lái)展望4l視覺生成方向的未來(lái)展望5=+可靈AI平臺(tái)國(guó)內(nèi)版:;可靈AI平臺(tái)海外版:67n外部評(píng)測(cè)結(jié)果:/#/leaderboard/multimodal?kind=t2i89將全面開源??蓤D(Kolors)支持中英文雙語(yǔ),生成效果比肩Midjourney-v6水可圖(Kolors)已在HuggingFace平臺(tái)和GitHub上線,包括模型權(quán)重和完整微信用戶群創(chuàng)作者反饋Bilibili平臺(tái)部分可圖內(nèi)容封面“有些個(gè)外行甚至混淆了模型開源和代碼開源這兩個(gè)概念。模型開源你拿到的是一大堆的參數(shù),是要去做SFT,還是要去做安全對(duì)齊,你些參數(shù)是怎么來(lái)的,你是無(wú)法做到“眾人拾高”的,即使你拿到對(duì)應(yīng)的源代碼,你也不用了多少數(shù)據(jù),用了什么比例的數(shù)據(jù)去訓(xùn)練參數(shù),所以拿到這些東西并不能夠讓你站在肩膀上去迭代和開發(fā)?!币曨l生成大模型視頻生成大模型l視覺生成方向的未來(lái)展望l優(yōu)勢(shì):圖文對(duì)比學(xué)習(xí),預(yù)先進(jìn)行圖文空間的表征對(duì)齊,降低擴(kuò)散模型的訓(xùn)練難度,l劣勢(shì):圖文全局特征對(duì)齊,細(xì)粒度語(yǔ)義理解能力較弱,存在概念壓縮、屬性混淆、多主體空間關(guān)系理解不足等問(wèn)題,復(fù)雜文本結(jié)構(gòu)或語(yǔ)義l優(yōu)勢(shì):面向理解問(wèn)題訓(xùn)練,英文場(chǎng)景T5是非常好的選擇l劣勢(shì):T5模型于2019年發(fā)布,后來(lái)又發(fā)布了多語(yǔ)言版本的mT5和uMT5,其訓(xùn)練數(shù)據(jù)集C4里中文語(yǔ)料占比少于2%,且數(shù)據(jù)實(shí)效性較差,中文語(yǔ)義理解l優(yōu)勢(shì):百億千億參數(shù)規(guī)模,TB級(jí)Token語(yǔ)料訓(xùn)練,模型Capacity更大,在文本理解和生成任務(wù)上表現(xiàn)出色,擅長(zhǎng)處理長(zhǎng)文本、復(fù)雜文本結(jié)構(gòu)或l劣勢(shì):主流的Decoder-onlyLLM主要面向文本生成任務(wù),模型訓(xùn)練時(shí)采用Causal準(zhǔn),尤其是在需要對(duì)整個(gè)輸入序列進(jìn)行深度雙向理解l模型架構(gòu):模型架構(gòu)類似Encoder-Decoder,但與T5不同的l模型訓(xùn)練:雙向注意力Encoder,提取PartA的全局文本表征;單向注意力Decoder,對(duì)MaskednDu,Zhengxiao,etal.,Glm:Generallanguagemodelpretrainingwithautoregressiveblankinfilling,in一個(gè)綠色的蘋果和一個(gè)橘色的書包滿月下的街道,熙熙攘攘的行人正在享受繁華夜生活。街角攤位上,一位有著火紅頭發(fā)、穿著標(biāo)志性天鵝絨斗篷的年輕女子,正在和脾氣暴躁的老小販討價(jià)還價(jià)。這個(gè)脾氣暴躁的小販身材高大、老道,一個(gè)綠色的蘋果和一個(gè)橘色的書包克式的電話興致勃勃地交談怎樣選擇合適的文本表征l原則一:英文場(chǎng)景無(wú)腦選T5l原則二:多文本表征不差于單文本表征,且大小搭配,生態(tài)可玩l原則三:LLM可以作為文本表征,但需要PromptEngineering與l原則四:端到端訓(xùn)練效果好于FrozenTextEncoderl原則五:大模型時(shí)代多考慮MultilingualTextEncoder“AlthoughLLaMA3-8Bexhibitsmuchstrongerlanguageunderstandingability,itstillfailstocatchuptotheperformanceofthesmallermodelT5-XLontheimage-to-textalignmentbenchmark.Meanwhile,thelargervariantT5-XXLachievesasignificantadvantageoverT5-XL.ThepowerfulcapabilitiesofLLMsintextcomprehensionandlogicalreasoninghavenotbeendemonstratedinsuchascenario.”nMa,Bingqi,etal.,ExploringtheRoleofLargeLanguageModelsinPromptEncodingforDiffusionModels,inarXiv:2406.11831l視覺生成方向的未來(lái)展望QualityTuning(QT)vs.ReinforcementLearningfromHumanFeedback(RLHF)lQT:通過(guò)構(gòu)建高質(zhì)量、高美感的人工標(biāo)注只能看到正例數(shù)據(jù)的模式,模型無(wú)法發(fā)現(xiàn)和改進(jìn)自己的缺點(diǎn)。通過(guò)近似Log-Likelihood目標(biāo)進(jìn)行訓(xùn)練,僅能建模匹配訓(xùn)練數(shù)據(jù)集模型效果。利用強(qiáng)化學(xué)習(xí)算法來(lái)優(yōu)化擴(kuò)散模型的訓(xùn)練,讓模型不僅能夠建模匹配訓(xùn)練集的數(shù)據(jù)分布,也能夠最大化獎(jiǎng)勵(lì)模型的l總結(jié):相比QT,RLHF的效果天花板更高,泛化能力也更強(qiáng),但也存在反饋質(zhì)量敏感、數(shù)據(jù)收集成本高、訓(xùn)練難度大等問(wèn)題。我們認(rèn)為nXu,Jiazheng,etal.Imagereward:LearningandevaluatinghumanprnYang,Kai,etal.Usinghumanfeedbacktofine-tunediffusionmodelswithoutanyrewardmodel,inCVPR2024nChen,Chaofeng,etal.Enh機(jī)器評(píng)估vs.人工評(píng)估Ashumansevaluateimagesfromdifferentperspectives,theirpreferencefortheimagesalsovaries.Specifically,whenexaminingtheimagesinthetoprow,theimageontheleftstandsoutintermsofaestheticappeal,thoughitfallsshortinsemanticalignment(e.g.,twoboatsontheriver)comparedtoitscounterpartontheright.Inthecaseofthebottomrow,bothimagesareaestheticallypleasing,yettheimageontherightismarredbypoordetailquality(e.g.,assignifiedbytheredboundingboxesaroundthedistortedhandandfoot).Annotationinterface.Annotatorsarerequiredtoevaluatethepreferenceforthegivenimagepaironfourdimensions,includingaesthetics,detailquality(detail),semanticalignment(alignment)andoverallscore(overall)).Annotationscoresarediscretevaluesrangingfrom1to5,whicharesubsequentlynormalizedtoBooleanvaluesof0or1.Whenthescoresaretied,thenormalizedscoreissetto0.5.行業(yè)主流文生圖質(zhì)量數(shù)據(jù)集明細(xì)可圖獎(jiǎng)勵(lì)模型技術(shù)框架n項(xiàng)目主頁(yè):/Kwai-Kolors/MPS(代碼開源,權(quán)重開源,數(shù)據(jù)開源)l視覺生成方向的未來(lái)展望寫字能力是視覺生成大模型的“上乘武功”,特別是開放域的中文寫字能力,寫對(duì)和寫好是技術(shù)難點(diǎn),目前開源可圖的效果還只能用于娛樂場(chǎng)景(例如表情包),嚴(yán)肅場(chǎng)景的文字繪制需要階段性倚賴結(jié)構(gòu)性線索或約束。nJiJ,ZhangG,WangZ,etal.Improvingdiffusionmodelsforscenetexteditingwithdualencoders,inarXiv:2304.05568nTuoY,XiangW,HeJY,etal.Anytext:Multilingualvisualtextgenerationandediting,nYangY,GuiD,YuanY,etal.Glyphcontrol:Gly場(chǎng)景一:隨便寫寫(不可控)一類訓(xùn)練數(shù)據(jù):優(yōu)勢(shì)是數(shù)據(jù)規(guī)模大,文字覆蓋廣(含字),字體/字號(hào)/字色/位置/角度變化多樣;劣勢(shì)是合成數(shù)據(jù)貼合感強(qiáng),真實(shí)感弱。主要用于把字寫對(duì)。魑魅魍魎魑魅魍魎二類訓(xùn)練數(shù)據(jù):優(yōu)勢(shì)是數(shù)據(jù)真實(shí),美感高;劣字覆蓋少。主要用于把字寫好。n在我國(guó)漢字代碼標(biāo)準(zhǔn)GB2312-80中有6,763個(gè)常用漢字規(guī)定了二進(jìn)制編碼。n新版《信息技術(shù)中文編碼字符集》強(qiáng)制性國(guó)家標(biāo)準(zhǔn)將于2023年8月1日正式實(shí)施,共收錄漢字87,887個(gè),比上一版增加錄入了1.7萬(wàn)余個(gè)生僻漢字,不僅場(chǎng)景二:認(rèn)真寫寫(可控)技術(shù)要點(diǎn)l視覺生成方向的未來(lái)展望l虛擬試穿在工業(yè)界和學(xué)術(shù)界的火爆程度較高,特別是2024年以來(lái)l該行業(yè)的要求和難點(diǎn)包括:①保模特人臉I(yè)D,②保模特人體特征,③保服裝款式,④保服裝細(xì)節(jié),⑤保效果自然,⑥??缈钍皆嚧┓€(wěn)定nImprovingDiffusionModelsforAuthenticVirtualTry-onintheWild,YisolChoi,etc.,inarXiv:2403.05139nOutfitAnyone:Ultra-highQualityVirtualTry-OnforAnyClothingandAnyPerson,KeSun,etc.,inarXiv:2407.16224nAnyFit:ControllableVirtualTry-onforAnyCombinationofAttireAcrossAnyScenario,YuhanLi,etc.,inarXiv:2405.18172nViViD:VideoVirtualTry-onusingDiffusionModels,ZixunFanM&MVTO:Multi-GarmentVirtualTry-OnandEditing,LuyangZhu,etc.,inCVPR2024nOOTDiffusion:OutfittingFusionbasedLatentDiffusionforControllableVirtualTry-on,YuhaoXu,虛擬試穿的一種普適技術(shù)框架n可圖虛擬試穿DEMO:https://huggingfac輸入模特圖輸入服裝圖產(chǎn)品A效果產(chǎn)品B效果產(chǎn)品C效果可圖l視覺生成方向的未來(lái)展望視覺生成方向的未來(lái)展望①行業(yè)難點(diǎn):可控性!可控性!可控性?、谀P统叽纾阂曈X生成模型的ScalingLaw會(huì)得到驗(yàn)證,但行業(yè)也會(huì)像LLM一樣展露出小型化通用模型的趨勢(shì)③數(shù)據(jù)生態(tài):大量的數(shù)據(jù)供應(yīng)商會(huì)如雨后春筍一般出現(xiàn),數(shù)據(jù)供應(yīng)商的售前營(yíng)銷會(huì)與行業(yè)明星產(chǎn)品進(jìn)行綁定,版權(quán)侵?jǐn)_的司法訴訟也會(huì)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度新能源技術(shù)股份合作開發(fā)合同3篇
- 2025年度離婚協(xié)議中未成年人監(jiān)護(hù)權(quán)及撫養(yǎng)權(quán)爭(zhēng)議調(diào)解書6篇
- 二零二五年供用電合同擔(dān)保與電力設(shè)施建設(shè)合作協(xié)議3篇
- 淘寶小白運(yùn)營(yíng)課程設(shè)計(jì)
- 2025版綠色食品認(rèn)證家禽養(yǎng)殖訂購(gòu)協(xié)議
- 2025年度新型城鎮(zhèn)化項(xiàng)目驗(yàn)收委托合同3篇
- 二零二五年度多功能辦公用品定制加工合作協(xié)議3篇
- 二零二五年度影視劇臨時(shí)演員表演權(quán)益合同3篇
- 機(jī)械操作工安全技術(shù)操作規(guī)程(3篇)
- 2025年建筑施工企業(yè)安全生產(chǎn)許可證制度(2篇)
- 浙江省金華市婺城區(qū)2024-2025學(xué)年九年級(jí)上學(xué)期期末數(shù)學(xué)試卷(含答案)
- 2025屆高考語(yǔ)文復(fù)習(xí):信息類文本五大類型的主觀題 課件
- 中鐵開投、中鐵云投招聘筆試沖刺題2025
- 陜西省西安市高新一中2024-2025學(xué)年九年級(jí)上學(xué)期綜合素養(yǎng)評(píng)價(jià)(三)化學(xué)試卷(含答案)
- 2024版健康醫(yī)療服務(wù)機(jī)構(gòu)合作協(xié)議范本3篇
- 公務(wù)車輛定點(diǎn)加油服務(wù)投標(biāo)文件(技術(shù)方案)
- DB21∕T 3240-2020 芹菜農(nóng)藥安全使用生產(chǎn)技術(shù)規(guī)程
- 科研辦公樓施工組織設(shè)計(jì)
- 向電網(wǎng)申請(qǐng)光伏容量的申請(qǐng)書
- 1-27屆希望杯數(shù)學(xué)競(jìng)賽初一試題及答案
- 2024-2030年中國(guó)硫磺行業(yè)供需形勢(shì)及投資可行性分析報(bào)告版
評(píng)論
0/150
提交評(píng)論