




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大模型具身智能機(jī)器人AIGC與擴(kuò)散學(xué)習(xí)1主要內(nèi)容23TransformerVisionTransformer(ViT)StableDiffusion(SD)1TransformerTransformer基本原理:綜覽4Attentionisallyouneed
1.Input:接受輸入數(shù)據(jù),通過輸入tokenizer和Embedding預(yù)處理;
2.Encoder(編碼器):由多個(gè)相同的層(Nx)堆疊而成。每一層包括多頭自注意力機(jī)制(Multi-HeadAttention)和前饋神經(jīng)網(wǎng)絡(luò)(FeedForward),并且每個(gè)子層后都進(jìn)行加和歸一化(Add&Norm);
3.Decoder(解碼器):解碼器也由多個(gè)相同的層(Nx)堆疊而成,每層包括一個(gè)額外的掩碼多頭自注意力機(jī)制(MaskedMulti-HeadAttention),用于處理輸入數(shù)據(jù)的注意力計(jì)算。此外,解碼器還包括與編碼器類似的多頭自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò);
4.輸出(Output):解碼器的輸出通過線性層(Linear)和Softmax函數(shù),生成最終的輸出概率分布(OutputProbabilities)。Tranformer模型架構(gòu)4.輸出3.Decoder2.Encoder1.輸入Transformer基本原理:Encoder51.tokenizer(分詞器):文本輸入首先通過分詞器進(jìn)行處理,將句子分割成獨(dú)立的詞語或子詞單元。例如,句子"yejiangchen"被分割成三個(gè)獨(dú)立的詞:ye,jiang,和chen;2.Embedding(詞嵌入):分詞后的詞語被轉(zhuǎn)換為向量表示,通過詞嵌入層(EmbeddingLayer)生成對(duì)應(yīng)的詞向量。這些向量表示保留了詞語的語義信息,便于后續(xù)處理。
yejiangchen2.EncoderTransformer基本原理:Encoder61.positionalencoding(位置編碼):由于Transformer模型沒有內(nèi)置的順序信息,需要通過位置編碼來添加位置信息。位置編碼使用正弦和余弦函數(shù)來生成,位置編碼的關(guān)鍵點(diǎn)是將數(shù)值控制在-1到1之間;2.Attention(注意力):需要引入三個(gè)矩陣,分別是Q(Query),K(Key)和V(Value)。注意力機(jī)制需要引入三個(gè)矩陣,分別是Q(Query),K(Key),和V(Value)。注意力機(jī)制的計(jì)算過程如下:首先,將輸入向量(X)分別通過三個(gè)權(quán)重矩陣得到Q,K,V矩陣;然后,計(jì)算Q和K的點(diǎn)積,并進(jìn)行縮(Scale)操作,得到注意力得分;對(duì)得分進(jìn)行Softmax處理,得到注意力權(quán)重;最后,將注意力權(quán)重與V矩陣相乘,得到最終的注意力輸出。Attention機(jī)制拆解2.EncoderTransformer基本原理:Encoder7Multi-HeadAttention機(jī)制拆解3.Multi-HeadAttention(多頭注意力):多頭注意力機(jī)制通過并行計(jì)算多個(gè)注意力頭,使模型能夠捕捉到輸入序列中不同位置之間的關(guān)系。具體過程如下:ScaledDot-ProductAttention(縮放點(diǎn)積注意力):每個(gè)注意力頭都進(jìn)行縮放點(diǎn)積注意力計(jì)算,包括線性變換、縮放、Softmax和加權(quán)求和。并行計(jì)算多個(gè)注意力頭:輸入向量(X)通過多個(gè)注意力頭并行計(jì)算,得到多個(gè)注意力輸出(Z1,Z2,...,Zh)。連接注意力頭的輸出:將所有注意力頭的輸出連接(Concat)在一起,得到一個(gè)新的表示。線性變換:對(duì)連接后的表示進(jìn)行線性變換,生成最終的注意力輸出(Z)。2.EncoderTransformer基本原理:Encoder8Add&Norm機(jī)制拆解1.Add(加法):在Z的基礎(chǔ)上加一個(gè)殘差塊X,防止在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中發(fā)生退化問題。殘差連接(ResidualConnection)通過將輸入直接添加到輸出,使模型能夠更有效地訓(xùn)練深層網(wǎng)絡(luò)。
2.Normalize(歸一化):在神經(jīng)網(wǎng)絡(luò)訓(xùn)練前對(duì)輸入數(shù)據(jù)進(jìn)行歸一化,以保證每層的輸入具有相同的分布,進(jìn)而加速訓(xùn)練并提高模型的穩(wěn)定性。
3.Feed-ForwardNetworks(前饋神經(jīng)網(wǎng)絡(luò)):編碼器的每一層包含一個(gè)前饋神經(jīng)網(wǎng)絡(luò)。前饋神經(jīng)網(wǎng)絡(luò)由兩個(gè)線性變換層和一個(gè)激活函數(shù)ReLU組成。輸入數(shù)據(jù)通過第一個(gè)線性變換層(weightlayer),進(jìn)行ReLU激活,最后通過第二個(gè)線性變換層(weightlayer),生成最終的輸出。2.EncoderTransformer基本原理:Decoder91.Decoder(解碼器):與Encoder塊相比,Decoder塊多了一個(gè)MaskedMulti-HeadAttention。這個(gè)額外的MaskedMulti-HeadAttention是Decoder與Encoder的主要區(qū)別之一。Decoder的輸入分為兩類:一種是訓(xùn)練時(shí)的輸入,一種是預(yù)測(cè)時(shí)的輸入;2.paddingmask(填充掩碼):填充掩碼用于處理變長序列,將填充的部分標(biāo)記為無效,以避免這些填充部分對(duì)模型訓(xùn)練產(chǎn)生影響;3.sequencemask(序列掩碼):序列掩碼用于解碼器的MaskedMulti-HeadAttention中,確保解碼器只能看到當(dāng)前位置之前的序列,防止模型在生成序列時(shí)“偷看”未來的信息。3.Decoder2.Encoder2VisionTransformer(ViT)VisionTransformer(ViT)基本原理(pytorch)111.LinearProjectionofFlattenedPatches模塊(Embedding層):將輸入的圖像數(shù)據(jù)轉(zhuǎn)換為可以輸入到Transformer編碼器中的序列化表示,其中包括了patch+position+learnableembedding。
2.Transformerencoder(Transformer編碼層):向量表示被輸入到Transformer編碼器中。每個(gè)Transformer編碼器包含多頭自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),用于捕捉全局信息和學(xué)習(xí)特征表示。這一部分是VisionTransformer中最關(guān)鍵的組件。
3.MLPHead(用于分類的全連接層):在經(jīng)過一系列Transformer編碼器之后,模型的輸出會(huì)被送入一個(gè)包含多層感知機(jī)(MLP)的輸出層中,用于最終的分類或其他計(jì)算機(jī)視覺任務(wù)。VisionTransformer(ViT)架構(gòu)VisionTransformer(ViT)基本原理(pytorch)121.LinearProjectionofFlattenedPatches模塊:(1)將輸入的原始圖像切分成大小相同的圖像塊,以ViT-B/16為例,將輸入圖片(224x224)按照16x16大小的Patch進(jìn)行劃分,劃分后會(huì)得到16×16=196,每個(gè)Patch數(shù)據(jù)shape為[16,16,3];(2)對(duì)于每個(gè)圖像塊,通過一個(gè)線性變換(一個(gè)卷積層)將其映射成一個(gè)一維特征向量,也稱為PatchEmbedding。以ViT-B/16為例:每個(gè)Patch數(shù)據(jù)通過映射得到一個(gè)長度為768的向量,即[16,16,3]->[768];(3)串聯(lián)所有PatchEmbedding:將所有圖像塊經(jīng)過PatchEmbedding后得到的向量表示串聯(lián)在一起,形成一個(gè)序列化的特征矩陣。以ViT-B/16為例,將196個(gè)Patchs串聯(lián)起來,最終組成[197,768]的二維token向量,token的個(gè)數(shù)是197(196
patch+1
classtoken),維度是768。
VisionTransformer(ViT)架構(gòu)VisionTransformer(ViT)基本原理(pytorch)132.Transformerencoder(Transformer編碼層):Transformer編碼層是ViT的核心部分,通過將輸入的圖像劃分為固定大小的圖像塊,并通過線性投影、位置編碼和可學(xué)習(xí)類嵌入轉(zhuǎn)換為序列化表示,然后通過多頭自注意力機(jī)制捕捉不同位置之間的依賴關(guān)系。每個(gè)編碼層包含前饋神經(jīng)網(wǎng)絡(luò)和加法歸一化層,以提取和強(qiáng)化特征表示,多個(gè)編碼器層的堆疊使得輸入序列的特征表示逐步被提取和強(qiáng)化。
VisionTransformer(ViT)架構(gòu)VisionTransformer(ViT)基本原理(pytorch)143.MLPHead(用于分類的全連接層):在經(jīng)過Transformer編碼器處理后,得到的類嵌入向量包含了整個(gè)輸入圖像的信息,并被送入多層感知機(jī)(MLP)進(jìn)行分類處理。MLP由多個(gè)全連接層和激活函數(shù)組成,經(jīng)過一系列線性變換和非線性激活后,生成用于分類的輸出向量,最后通過Softmax函數(shù)轉(zhuǎn)換為類別概率分布,完成最終的分類任務(wù)。
VisionTransformer(ViT)架構(gòu)3StableDiffusionStableDiffusion基本原理16Diffusionmodel:擴(kuò)散模型是生成模型,用于生成與訓(xùn)練數(shù)據(jù)相似的數(shù)據(jù)。從根本上講,擴(kuò)散模型的工作原理是通過連續(xù)添加高斯噪聲破壞訓(xùn)練數(shù)據(jù),然后通過學(xué)習(xí)反轉(zhuǎn)這個(gè)噪聲過程來恢復(fù)數(shù)據(jù)。訓(xùn)練后,可以使用擴(kuò)散模型通過簡單地通過學(xué)習(xí)的去噪過程傳遞隨機(jī)采樣的噪聲來生成數(shù)據(jù)。前向過程(forwardprocess):又稱為擴(kuò)散過程(diffusionprocess),整體是一個(gè)參數(shù)化的馬爾可夫鏈。從初始數(shù)據(jù)分布出發(fā),每步在數(shù)據(jù)分布中添加高斯噪音,持續(xù)T次
反向過程(reverseprocess):和前向過程同理,反向過程也是一個(gè)馬爾可夫鏈。StableDiffusion訓(xùn)練過程17StableDiffusion的整個(gè)訓(xùn)練過程在最高維度上可以看成是如何加噪聲和如何去噪聲的過程,并在針對(duì)噪聲的“對(duì)抗與攻防”中學(xué)習(xí)到生成圖片的能力。StableDiffusion整體的訓(xùn)練邏輯也非常清晰:從數(shù)據(jù)集中隨機(jī)選擇一個(gè)訓(xùn)練樣本;從K個(gè)噪聲量級(jí)隨機(jī)抽樣一個(gè)timestep;將timestep對(duì)應(yīng)的高斯噪聲添加到圖片中;將加噪圖片輸入U(xiǎn)-Net中預(yù)測(cè)噪聲;計(jì)算真實(shí)噪聲和預(yù)測(cè)噪聲的L2損失;計(jì)算梯度并更新SD模型參數(shù)。StableDiffusion訓(xùn)練過程18SD模型是生成式模型:輸入可以是文本、文本和圖像、以及更多控制條件等,輸出是生成的圖像;SD模型屬于擴(kuò)散模型:擴(kuò)散模型的特點(diǎn)是生成過程分步化與可迭代,這讓整個(gè)生成過程更加靈活,同時(shí)為引入更多約束與優(yōu)化提供了可能;SD模型是基于Latent的擴(kuò)散模型:將輸入數(shù)據(jù)壓縮到Latent隱空間中,這比起常規(guī)擴(kuò)散模型,大幅提高計(jì)算效率的同時(shí),降低了顯存占用,成為了SD模型破圈的關(guān)鍵一招。StableDiffusionUNet模型結(jié)構(gòu)19U-Net是Stable
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年CPSM全能復(fù)習(xí)試題及答案
- 《讀懂孩子的心》閱讀心得
- 交通法規(guī)對(duì)物流的影響及試題及答案
- 2024年國際物流師備考的特色方法試題及答案
- 明確目標(biāo)的2024年CPMM試題及答案
- CPSM考試資料使用與試題及答案
- 電商網(wǎng)站內(nèi)容優(yōu)化策略試題及答案
- 《安全工程師》南溪縣2024年臨考沖刺試卷含解析
- 重慶市萬州龍駒中學(xué)2025屆高考化學(xué)押題試卷含解析
- 2025年球墨鑄鐵件項(xiàng)目投資風(fēng)險(xiǎn)評(píng)估報(bào)告
- 秦川年產(chǎn)20萬噸有機(jī)肥項(xiàng)目可研報(bào)告
- DL-T-302.2-2011火力發(fā)電廠設(shè)備維修分析技術(shù)導(dǎo)則第2部分:風(fēng)險(xiǎn)維修分析
- 療愈環(huán)境與療愈建筑研究的發(fā)展與應(yīng)用初探
- (高清版)JTG 6310-2022 收費(fèi)公路聯(lián)網(wǎng)收費(fèi)技術(shù)標(biāo)準(zhǔn)
- 人教版五年級(jí)下冊(cè)數(shù)學(xué)預(yù)習(xí)單、學(xué)習(xí)單、檢測(cè)單
- MH-T 6107-2014民用機(jī)場飛行區(qū)集水口頂蓋和地井頂蓋
- 企業(yè)微信指導(dǎo)手冊(cè)管理員版
- 公司法(上海財(cái)經(jīng)大學(xué))智慧樹知到期末考試答案2024年
- 北京市第一0一中學(xué)2023-2024學(xué)年九年級(jí)下學(xué)期三月月考物理試卷(含答案)
- 都江堰原理探析課件
- 中國石油加油站建設(shè)標(biāo)準(zhǔn)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論