大模型輕量化技術(shù)_第1頁(yè)
大模型輕量化技術(shù)_第2頁(yè)
大模型輕量化技術(shù)_第3頁(yè)
大模型輕量化技術(shù)_第4頁(yè)
大模型輕量化技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩224頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大模型輕量化技術(shù)大模型輕量化技術(shù)張鵬大語(yǔ)言模型輕量化的技術(shù)需求大語(yǔ)言模型輕量化的技術(shù)概覽大語(yǔ)言模型輕量化技術(shù)的詳細(xì)講解大語(yǔ)言模型輕量化技術(shù)的未來(lái)展望專欄2關(guān)鍵共性技術(shù)念表征和深度語(yǔ)義分析的核心技術(shù)語(yǔ)言模型背景專欄2關(guān)鍵共性技術(shù)念表征和深度語(yǔ)義分析的核心技術(shù)ll語(yǔ)言模型是自然語(yǔ)言處理任務(wù)中的核心技自然語(yǔ)言處理信息檢索數(shù)字媒宣多模態(tài)內(nèi)容理解算力資源消耗大可解釋性差語(yǔ)言模型的發(fā)展歷史和關(guān)鍵難題如何構(gòu)建語(yǔ)義概率空間聯(lián)合概率:p(w1,w2...wi)↓總體思路:用輕量化的方式解決大模型實(shí)際應(yīng)用部署過(guò)程中遇到的問(wèn)題大模型參數(shù)規(guī)模196196ms/tokenParam:~1800Param:~1800B73ms/token540B170B11BGPT540B170B11BGPT-3ChatGPT/GPT40.3BBERTPaLM2018.102019.102020.052022.102023.032018.10大語(yǔ)言模型涌現(xiàn)大模型輕量化目標(biāo)輕量化技術(shù)體積更小跑的更快大模型輕量化的細(xì)粒度解析⊕⊕Self-Attention(GroupedMulti-QueryAttention)⊕⊕Self-Attention(GroupedMulti-QueryAttention)withKVCacheRMSNormRMSNormFeedForwardRotaryPositionEmbeddingEmbedding參數(shù)量占比較大,對(duì)存儲(chǔ)及顯存計(jì)算造成壓力多頭注意力計(jì)算造成大量的計(jì)算成本,影響計(jì)算速度,參數(shù)量占比較大。此外,KVCache部分使QKV作為中間表示存于內(nèi)存中,也會(huì)對(duì)存儲(chǔ)造成壓力影響效果,占據(jù)一定的參數(shù)量大模型輕量化技術(shù)的意義大模型輕量化技術(shù)為模型在實(shí)際應(yīng)用和發(fā)展中帶來(lái)更多便利和機(jī)遇手機(jī)端側(cè)大模型應(yīng)用:將大模型應(yīng)用于移動(dòng)端,進(jìn)行家居控制硬件模型壓縮推理加速硬件模型壓縮推理加速智能駕駛艙應(yīng)用:將大模型應(yīng)用于智能車倉(cāng),提升個(gè)性化服務(wù)應(yīng)用:將大模型應(yīng)用于智能車倉(cāng),提升個(gè)性化服務(wù)醫(yī)療文書患者管理醫(yī)療文書大模型決策輔助醫(yī)師培訓(xùn)決策輔助工業(yè)大模型工業(yè)大模型應(yīng)用:解決生產(chǎn)效率問(wèn)題等大語(yǔ)言模型輕量化的技術(shù)需求大語(yǔ)言模型輕量化的技術(shù)概覽大語(yǔ)言模型輕量化技術(shù)的詳細(xì)講解大語(yǔ)言模型輕量化技術(shù)的未來(lái)展望輕量化技術(shù)總覽大模型輕量化技術(shù)化化激活量化參數(shù)量化結(jié)構(gòu)化稀疏參數(shù)共享矩陣參數(shù)共享矩陣分解分解硬件加速非結(jié)構(gòu)化稀疏標(biāo)標(biāo)本報(bào)告來(lái)源于三個(gè)皮匠報(bào)告站(www.sjb.com),由用戶Id107695下載,文檔Id180385,下載日期輕量化相關(guān)理論LLaMA3-8BLLaMA3-70B>16GB>145GBLLaMA3-8BLLaMA3-70B>16GB>145GB模型參數(shù)數(shù)量模型大小>降低浮點(diǎn)運(yùn)算數(shù)(FLOPs)輕量化相關(guān)理論>顯存(GPUMemory)減少顯存占用可降低對(duì)顯卡設(shè)備的要求,增加訓(xùn)練批次大小,減少訓(xùn)練時(shí)間。較小的內(nèi)存占用有助于在內(nèi)存受限的設(shè)備上高效運(yùn)行模型。u輕量化模型評(píng)估指標(biāo)參數(shù)壓縮比(CompressionRate):輕量化后模型的參數(shù)占原始參數(shù)的比例>>吞吐量(Throughput)單位時(shí)間內(nèi)模型輸出token的數(shù)量高吞吐量表示模型能夠更高效地處理大批量數(shù)samplethroughput=輕量化相關(guān)理論u輕量化模型評(píng)估指標(biāo)推理時(shí)間延遲>推理速度(Inference推理時(shí)間延遲>推理速度(InferenceSpeed)模型每次推理所需的時(shí)間,通常以毫秒(ms)為單位。高推理速度對(duì)于實(shí)時(shí)應(yīng)用和用戶體驗(yàn)非常>延遲(Latency)低延遲對(duì)于實(shí)時(shí)應(yīng)用(如語(yǔ)音識(shí)別、自動(dòng)駕駛)尤為重要。在LLM推理中,計(jì)算公式如下:T=Tio+Tattention+Tffn輕量化相關(guān)理論u輕量化模型評(píng)估指標(biāo)適?任務(wù)ACC適?任務(wù)ACC分類任務(wù)),PPL生成任務(wù)BLEU文本生成F1分類任務(wù)EM信息抽取…………壓縮后模型在各類任務(wù)上的表現(xiàn),如精等。維持壓縮后模型的推理效果是輕量化的重要的目標(biāo)之一。大語(yǔ)言模型輕量化的技術(shù)需求大語(yǔ)言模型輕量化的技術(shù)概覽大語(yǔ)言模型輕量化技術(shù)的詳細(xì)講解大語(yǔ)言模型輕量化技術(shù)的未來(lái)展望輕量化技術(shù)總覽大模型輕量化技術(shù)化化激活量化參數(shù)量化結(jié)構(gòu)化稀疏參數(shù)共享矩陣參數(shù)共享矩陣分解分解硬件加速非結(jié)構(gòu)化稀疏標(biāo)標(biāo)量化技術(shù)u量化基本理論存儲(chǔ)時(shí)量化Jr7存儲(chǔ)時(shí)量化Jr7原矩陣WFP16量化矩陣WINT8內(nèi)存需求小,占用位寬低以INT8對(duì)稱量化為例,在存儲(chǔ)權(quán)重參數(shù)時(shí),將16位浮點(diǎn)數(shù)組成的矩陣WFP16經(jīng)量化存儲(chǔ)為8位整數(shù)矩陣為WINT8:其中,round()為近似取整函數(shù),scale為縮放因子:WINT8內(nèi)所有值均為[?127,127]內(nèi)的整數(shù)。量化技術(shù)u量化基本理論解量化過(guò)程7在推理時(shí)7FP16=WINT8.scale解量化后的矩陣FP16相對(duì)于原矩陣WFP16有一定計(jì)算時(shí)QLinearLinear解量化QLinearLinear量化矩陣WINT8解量化矩陣W-FP16量化技術(shù)u低比特量化的難點(diǎn)異常值原矩陣XFP16量化+解量化當(dāng)大模型參數(shù)量大于6.7B時(shí),經(jīng)激活層生成的矩陣當(dāng)大模型參數(shù)量大于6.7B時(shí),經(jīng)激活層生成的矩陣X存在占總參數(shù)量0.1%量化技術(shù)浮點(diǎn)類型混合精度量化技術(shù)普通量化方法為直接對(duì)w和x分別做量化普通量化方法為直接對(duì)w和x分別做量化,由于異常Y=X·WSmoothQuant方法利用w矩陣的參數(shù)分布均勻,無(wú)異常值的特點(diǎn),從數(shù)學(xué)等價(jià)的角度出發(fā),令w矩陣“代償”一部分異常值的影響,實(shí)現(xiàn)了w和x的高精度INT8量化技術(shù)?業(yè)界常用的量化工具通用通用>量化感知訓(xùn)練●LLM-QAT●QLoRA●TensorRT-LLM…端側(cè)端側(cè)…FrantarE,AshkboosS,HoeflerT,eKimS,HooperC,GholamiA,etal.SqueezerLLM:D稀疏化技術(shù)Du參數(shù)稀疏化隨著模型參數(shù)量的增大,訓(xùn)練一個(gè)巨大的生成式模型,需要很大的GPU內(nèi)存,并且產(chǎn)生巨大的計(jì)算量。大模型稀疏化通過(guò)減少參數(shù)的密集度來(lái)加快計(jì)算速度和減少存儲(chǔ)成本。(1)非結(jié)構(gòu)化稀疏尋找一種方法來(lái)確定模型中哪些參數(shù)對(duì)模型的輸出貢獻(xiàn)較小或不重要,然后將這些參數(shù)設(shè)置為零或進(jìn)行其他形式的刪減。這樣可以在保持模型性能的前提下,大幅減少模型的參數(shù)數(shù)量。(2)結(jié)構(gòu)化稀疏基于結(jié)構(gòu)式的稀疏策略對(duì)參數(shù)進(jìn)行剪枝或置零,以充分利用參數(shù)的稀疏性來(lái)加速計(jì)算過(guò)程。例如,在矩陣乘法等運(yùn)算中,跳過(guò)零值參數(shù)的計(jì)算,從而提高計(jì)算效率。0000ll00直接移除權(quán)重矩陣中最不重要的權(quán)重值,使得它們變?yōu)榱憔矸e核或者神經(jīng)元等結(jié)構(gòu)單元稀疏化技術(shù)稀疏注意力機(jī)制通過(guò)限制注意力計(jì)算的范圍稀疏注意力機(jī)制通過(guò)限制注意力計(jì)算的范圍,減少了不必要的計(jì)算。例如,使用局部注意力或分塊稀疏注意力來(lái)降低計(jì)算量??梢栽诩せ詈瘮?shù)層面上引入稀疏性,例如使用ReLU激活函數(shù)自然產(chǎn)生的零值。稀疏化技術(shù)結(jié)構(gòu)化稀疏由于限制了剪枝元素的選擇自由,會(huì)導(dǎo)致模型準(zhǔn)確率的大結(jié)構(gòu)化稀疏由于限制了剪枝元素的選擇自由,會(huì)導(dǎo)致模型準(zhǔn)確率的大幅下降,而采用非結(jié)構(gòu)化稀疏則可非結(jié)構(gòu)化稀疏產(chǎn)生的問(wèn)題由于GPU中的張量核專門設(shè)計(jì)用于加速稠密矩陣乘法計(jì)算的專用單元,對(duì)非結(jié)構(gòu)化稀疏矩陣乘法計(jì)算的效率較低,因此會(huì)造成模型推理速度稀疏化技術(shù)u非結(jié)構(gòu)化稀疏將稀疏矩陣分成多個(gè)大小固定的Tiles用數(shù)組TileOffsets存儲(chǔ)每個(gè)Tile的非零元素的數(shù)量用數(shù)組NonZeros依次存儲(chǔ)每個(gè)Tile的非零元素NonZeros中的每個(gè)N都存儲(chǔ)著非零元素值與其位置稀疏化技術(shù)u非結(jié)構(gòu)化稀疏解決方案:Flash-LLM提出了一種雙緩沖計(jì)算重疊的計(jì)算流水線。優(yōu)勢(shì):采用這種新的流水線進(jìn)行有效提升了模型推理的效率。雙緩沖計(jì)算重疊的計(jì)算流水線計(jì)算重疊:可以看出每次迭代時(shí),都會(huì)在一個(gè)緩沖區(qū)加載數(shù)據(jù),另一個(gè)緩沖區(qū)計(jì)稀疏化技術(shù)Flash-LLM與多個(gè)baselines計(jì)算性能的對(duì)比結(jié)果的模型吞吐量對(duì)比2個(gè)GPU的模型吞吐量對(duì)比知識(shí)蒸餾u知識(shí)蒸餾基礎(chǔ)理論StudentStudent模型較小的、輕量化的模型Teacher模型性能較好、復(fù)雜度較高的模型知識(shí)蒸餾(KnowledgeDistillation)旨在將知識(shí)從大型復(fù)雜模型(教師模型)轉(zhuǎn)移到更小更簡(jiǎn)單的模型(學(xué)生模型使得學(xué)生模型能夠在性能上接近教師模型,同時(shí)具有較少的計(jì)算資源需求,從而實(shí)現(xiàn)模型壓縮。知識(shí)蒸餾的核心公式為蒸餾損失函數(shù):L=aLCP+(1-a)LXP其中i7E是學(xué)生模型的交叉熵?fù)p失,ikD是學(xué)生模型與教師模型軟標(biāo)簽之間的蒸餾損失。知識(shí)蒸餾u大語(yǔ)言模型的知識(shí)蒸餾黑盒知識(shí)蒸餾黑盒(Black-Box)知識(shí)蒸餾中,學(xué)生模型只黑盒知識(shí)蒸餾黑盒(Black-Box)知識(shí)蒸餾中,學(xué)生模型只能訪問(wèn)教師模型的輸出(閉源大模型而無(wú)法直接訪問(wèn)教師模型的內(nèi)部結(jié)構(gòu)、參數(shù)或中間層的激活值。其中黑盒知識(shí)蒸餾又分為“思維鏈蒸餾”、“上下文學(xué)習(xí)蒸餾”以及“指令遵循蒸餾”三種方法。白盒(White-Box)知識(shí)蒸餾中,學(xué)生模型不僅可以訪問(wèn)教師模型的輸出,還可以訪問(wèn)教師模型的內(nèi)部結(jié)構(gòu)、參數(shù)和中間層的激活值(開學(xué)生模型可以直接學(xué)習(xí)教師模型的中間層特征或特定參數(shù),從而獲得更豐富的知識(shí)。GuY,DongL,WeiF,etal.GuY,DongL,WeiF,etal.知識(shí)蒸餾u大語(yǔ)言模型的知識(shí)蒸餾GuY,DongL,WeiF,etal.GuY,DongL,WeiF,etal.知識(shí)蒸餾u大語(yǔ)言模型的知識(shí)蒸餾教師指導(dǎo)的采樣:在采樣y時(shí)混合教師和學(xué)生模型的分布。GuY,DongL,WeiF,etal.GuY,DongL,WeiF,etal.知識(shí)蒸餾MiniLLM方法在不同體量大模型上的實(shí)驗(yàn)結(jié)果與其他知識(shí)蒸餾方法相比,MiniLLM方法學(xué)到了MiniLLM方法在各種小規(guī)模的學(xué)生模型上達(dá)到超GuY,DongL,WeiF,etal.GuY,DongL,WeiF,etal.低秩分解u基本理論原始數(shù)據(jù)可能有極多的維度,難以儲(chǔ)存與使用我們希望實(shí)現(xiàn)數(shù)據(jù)壓縮,只保留原數(shù)據(jù)投影?向投影?向?qū)?shù)據(jù)向方差最大的方向投影從而得到最具代表性的特征通過(guò)這種方式可以實(shí)現(xiàn)數(shù)據(jù)的壓縮例如左圖中,將二維數(shù)據(jù)降為一維低秩分解u基本理論將原始矩陣分解為左右奇異矩陣與特征值矩陣左右將原始矩陣分解為左右奇異矩陣與特征值矩陣左右奇異矩陣的行列代表原矩陣中的成分對(duì)應(yīng)的特征值大小則代表相應(yīng)成分的信息量刪除奇異矩陣中不重要的成分實(shí)現(xiàn)數(shù)據(jù)的壓縮例如左圖中,僅維度為r的部分被保留其中r被稱為分解矩陣的秩,它代表了原矩陣中被保留的成分多少。通過(guò)將模型參數(shù)轉(zhuǎn)為低秩形式,我們可以保留50%的矩陣秩,即可壓縮超過(guò)20億的低秩分解u基本理論x——分解結(jié)構(gòu)更為復(fù)雜的大模型參數(shù)xTucker分解可以被視作一種高階PCA.將張量分解為核心張量在每個(gè)mode上與矩陣的乘積≈ACCsBTensorTrain分解將一個(gè)N階張量分解成了2個(gè)二階張量和N-2個(gè)三階張量的乘積,σ1σTensorTrain分解將一個(gè)N階張量分解成了2個(gè)二階張量和N-2個(gè)三階張量的乘積,// ///r1///r2…rN-1rN低秩分解計(jì)算誤差u基本理論計(jì)算誤差原參數(shù)矩陣W參數(shù)矩陣W’矩陣分解技術(shù)分解張量分解張量A裁剪分解張量B’分解張量B’維低秩分解張量網(wǎng)絡(luò)u基本理論張量網(wǎng)絡(luò)h1h1h2--裁剪r1r2 hN混合張量分解技術(shù)參數(shù)效果速度平衡低秩分解方法應(yīng)用參數(shù)效果速度平衡低秩分解方法應(yīng)用FFNTransformer編碼器混合張量分解技術(shù)缺點(diǎn):高秩情況下,參數(shù)壓縮效果有限。低秩場(chǎng)景中,效果無(wú)法保證。缺點(diǎn):在高秩情況下,復(fù)雜度較高,影響速度。在低秩場(chǎng)景中,速度快但難以適應(yīng),影響效果?;旌蠌埩糠纸饧夹g(shù)Hypoformer方法在Transformer模型上推理速度、預(yù)測(cè)效果以及參數(shù)規(guī)模的實(shí)驗(yàn)結(jié)果分析Ratio是參數(shù)壓縮比,S(pi)為樹莓派設(shè)備上速度提升倍數(shù),S(Intel)為CPU設(shè)備上速度提升倍數(shù)。在不同的壓縮倍數(shù)下,它在準(zhǔn)確率和推理速度上都具有明顯的優(yōu)勢(shì)。參數(shù)壓縮,速度提升,保持性能。語(yǔ)素增強(qiáng)的低秩近似技術(shù) 通過(guò)形態(tài)素分割和張量積實(shí)現(xiàn)的單詞嵌入壓縮單詞維度>>形態(tài)素維度單詞數(shù)量>>形態(tài)素?cái)?shù)量型參數(shù)總量的語(yǔ)素增強(qiáng)的低秩近似技術(shù)MorphTE方法在詞嵌入矩陣模塊上的計(jì)算與實(shí)驗(yàn)分析形態(tài)素矩陣形態(tài)素矩陣賓-濱賓Morpheme:構(gòu)成一個(gè)詞的基本單位詞表矩陣保持原模型的有效性參數(shù)壓縮比例超過(guò)20倍為形態(tài)素賦予意義,詞表矩陣保持原模型的有效性參數(shù)壓縮比例超過(guò)20倍低維向量:張量積單詞嵌入的基本單元通過(guò)少數(shù)量的、低維的語(yǔ)素向量通過(guò)少數(shù)量的、低維的語(yǔ)素向量替代原始的詞向量表示矩陣,保持了模型性能,從而減少模型參數(shù)語(yǔ)素增強(qiáng)的低秩近似技術(shù) LORA:LOW-RANKADAPTATION微調(diào)成本高A、B為可訓(xùn)練矩陣微調(diào)成本高A、B為可訓(xùn)練矩陣用于在微調(diào)中學(xué)習(xí)權(quán)重變化LoRA已經(jīng)成為大模型時(shí)代最常用的模型微調(diào)方例如,近期的研究將LoRA與MoE架構(gòu)結(jié)合,使一部分LoRA專注于利用世界知識(shí)來(lái)解決下游任務(wù),以減輕世界知識(shí)邊緣遺忘。參數(shù)共享Multi-headAttentionMHAGrouped-QueryAttentionGQAMulti-headAttentionMHAGrouped-QueryAttentionGQAMulti-QueryAttentionMQA就像讓幾個(gè)朋友共同用同一個(gè)資源,不用每個(gè)人都從頭開始找。這種共享資源的方式大大減少了需要處理的內(nèi)容,從而節(jié)省了資源。KV-cache核心思想:將之前計(jì)算的鍵和值存儲(chǔ)起來(lái),當(dāng)處理新的KV-cache核心思想:將之前計(jì)算的鍵和值存儲(chǔ)起來(lái),當(dāng)處理新的輸入時(shí),可以直接利用這些已緩存的鍵和值,而不是重新計(jì)算整個(gè)序列的鍵和值。效率提升:減少重復(fù)計(jì)算,特別是在處理長(zhǎng)序列時(shí),可以顯著提高處理速度;實(shí)時(shí)性增強(qiáng):適用于實(shí)時(shí)更新的場(chǎng)景,如在線學(xué)習(xí)或流式處理,可快速響應(yīng)新數(shù)據(jù)。多查詢注意力(Multi-QueryAtten分組查詢注意力(Grouped-QueryAttention,GQA)參數(shù)共享MQA和GQA在不同數(shù)據(jù)集上推理速度、預(yù)測(cè)效6.29倍,但在多個(gè)數(shù)據(jù)集上出現(xiàn)性能的小幅衰減。力后模型的平均推理時(shí)間縮短了5-6倍,同時(shí)模型的平均性能幾乎不變。的平均推理時(shí)間加速了約5.39倍,在多個(gè)數(shù)據(jù)集上出現(xiàn)性能的輕微衰減。與MQA相比,GQA保持了更高的性能表現(xiàn)。結(jié)合硬件特點(diǎn)的技術(shù)uFlashAttention結(jié)合硬件特點(diǎn)的技術(shù)并行解碼策略可減少7.2%的推理時(shí)間,提升吞吐量,不影響模型效果Computing(82%Time)Sampling(10%Time)Detokenize(8%Time)ReturnTokenizerComputingreturnComputingSamplingreturnSamplingSamplingreturnComputingComputingreturnComputingSamplingreturnSamplingSamplingreturnComputingComputing Return遞歸解碼階段,可以將Detokenize和下一個(gè)token的Computing計(jì)算在CPU和GPU上并行計(jì)算,掩蓋掉前面生成單詞的Detokenize的時(shí)間各類輕量化方法總結(jié)壓縮方案最高壓縮率是否需要額外訓(xùn)練可否自由控制壓縮比例可優(yōu)化結(jié)構(gòu)可否加速模型效果可否聯(lián)合使用量化32倍通常不需要否全部參數(shù)是位寬低時(shí)顯著變差是稀疏化是是全部參數(shù)是稀疏率變大時(shí)顯著變差是知識(shí)蒸餾是是全部參數(shù)是屬于輔助增強(qiáng)算法是參數(shù)共享有限通常不需要是層級(jí)結(jié)構(gòu)塊狀結(jié)構(gòu)否多層共享效果顯著變差是低秩近似是是全部參數(shù)一些低階的分解方案可加速效果保持能力較強(qiáng)是大語(yǔ)言模型輕量化的技術(shù)需求大語(yǔ)言模型輕量化的技術(shù)概覽大語(yǔ)言模型輕量化技術(shù)的詳細(xì)講解大語(yǔ)言模型輕量化技術(shù)的未來(lái)展望量子計(jì)算u大模型輕量化的新研究路徑經(jīng)典計(jì)算機(jī)架構(gòu)上的?模型輕量化技術(shù)量?計(jì)算架構(gòu)上的輕量化技術(shù)萬(wàn)能(通用)近似性定理神經(jīng)?神經(jīng)?絡(luò)能夠逼近任意復(fù)雜度的連續(xù)函數(shù)\激活隨神經(jīng)網(wǎng)絡(luò)參數(shù)線性增長(zhǎng)的傅里葉序列表表達(dá)能力大量的參數(shù)和有限的表示精度量子隱式神經(jīng)表征\激活隨神經(jīng)網(wǎng)絡(luò)參數(shù)線性增長(zhǎng)的傅里葉序列表表達(dá)能力大量的參數(shù)和有限的表示精度探索數(shù)據(jù)重上傳量子線路的指數(shù)級(jí)增長(zhǎng)的傅里葉序列擬合能力量子優(yōu)勢(shì)隨量子比特?cái)?shù)量指數(shù)增長(zhǎng)的傅里葉序列表達(dá)能力更少的參數(shù)和更精確的表示量子優(yōu)勢(shì)隨量子比特?cái)?shù)量指數(shù)增長(zhǎng)的傅里葉序列表達(dá)能力更少的參數(shù)和更精確的表示JiamingZhao,WenboQiao,JiamingZhao,WenboQiao,PengZhang*,etal.QuantumImplicitNeuralRepresentations.IC量子隱式神經(jīng)表征step1:step2:step3:推導(dǎo)分析數(shù)據(jù)重上傳電路的頻譜量子層擴(kuò)展頻譜分析數(shù)據(jù)重上傳電路的頻譜量子層擴(kuò)展頻譜 結(jié)論1)數(shù)據(jù)重上傳量子線路的本質(zhì)是傅里葉級(jí)數(shù):fx=∑k,Jak,JeiΛk一ΛJ.x線性層擴(kuò)展頻譜和調(diào)整頻率((3d?1)L+1)dx線性層擴(kuò)展頻譜和調(diào)整頻率JiamingZhao,WenboQiao,JiamingZhao,WenboQiao,PengZhang*,etal.QuantumImplicitNeuralRepresentations.IC量子隱式神經(jīng)表征變分量子線路作為激活函數(shù)插入每層網(wǎng)絡(luò)JiamingZhao,WenboQiao,JiamingZhao,WenboQiao,PengZhang*,etal.QuantumImplicitNeuralRepresentations.IC量子隱式神經(jīng)表征JiamingZhao,WenboQiao,JiamingZhao,WenboQiao,PengZhang*,etal.QuantumImplicitNeuralRepresentations.IC未來(lái)展望小型化體型龐大小型化微型個(gè)人電腦20微型個(gè)人電腦20世紀(jì)第一臺(tái)通用計(jì)算機(jī)??量子化0體型龐大量子AI模型大語(yǔ)言模型請(qǐng)批評(píng)指正請(qǐng)批評(píng)指正LLMLLM稀疏輕量化技術(shù)/壓縮三大 /壓縮三大 o在輕量化三大要素中,低秩近似方法尤其是高階的方法,可實(shí)現(xiàn)較高的壓縮率及較優(yōu)的模型效果,然而計(jì)算速度方面的優(yōu)勢(shì)并不凸顯。o稀疏化技術(shù)具備較強(qiáng)降低計(jì)算成本與速度的能力。探索低秩近似與稀疏化補(bǔ)充結(jié)合稀疏化的背景在Transformer上的稀疏化 03在大模型上的稀疏化 稀疏輕量化背景?Transformer時(shí)代前的稀疏化技術(shù)發(fā)展20世紀(jì)八九十年代在神經(jīng)網(wǎng)絡(luò)中,LeCun等人提出了OptimalBrainDamage方法,該方法通過(guò)剪枝不重要的權(quán)重來(lái)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)(LeCunetal.,1989)。Hassibi和Stork提出了OptimalBrainSurgeon方法,通過(guò)更精確的權(quán)重修剪索拉開了后續(xù)稀疏輕量化技術(shù)發(fā)展的大門。稀疏輕量化背景?Transformer時(shí)代前的稀疏化技術(shù)發(fā)展20世紀(jì)末Olshausen和Field的研究表明,稀疏編碼通過(guò)學(xué)習(xí)稀疏表示可以有效壓縮信息,使其在神經(jīng)科學(xué)和計(jì)算機(jī)視覺(jué)中得到了廣泛應(yīng)用(Olshausen&Field,1997)。這些技術(shù)推動(dòng)了稀疏輕量化技術(shù)的廣泛應(yīng)用。稀疏輕量化背景?Transformer時(shí)代前的稀疏化技術(shù)發(fā)展21世紀(jì)初2000年代,壓縮感知理論的提出推動(dòng)了稀疏輕量化的發(fā)展。研究表明,通過(guò)較少采樣重構(gòu)信號(hào),可以在不顯著損失信息的情況下大幅降低計(jì)算量模型剪枝技術(shù)被提出,通過(guò)移除冗余參數(shù),在保持模型性能的同時(shí)顯著降低以上發(fā)展為Transformer網(wǎng)絡(luò)的稀疏化奠定了基礎(chǔ)稀疏輕量化背景?稀疏化基本類型——參數(shù)稀疏大模型稀疏化通過(guò)減少參數(shù)的密集度來(lái)減少計(jì)算成本和存儲(chǔ)成本。主要分為結(jié)構(gòu)稀疏化和非稀疏化兩種。0000DDll00稀疏化三大要點(diǎn):稀疏輕量化背景?稀疏化基本類型——參數(shù)稀疏結(jié)構(gòu)化與非結(jié)構(gòu)化的對(duì)比非結(jié)構(gòu)化:非結(jié)構(gòu)化稀疏在保持模型精度方面往往優(yōu)于結(jié)構(gòu)化稀疏;剪枝后的稀疏性沒(méi)有規(guī)則性,使得硬件難以高效利用,可能導(dǎo)致不規(guī)則的內(nèi)存訪問(wèn),影響計(jì)算效率。稀疏輕量化背景?稀疏化基本類型——中間表示稀疏中間表示的稀疏化通過(guò)引入激活函數(shù)等方式。使模型的中間表示部分元素稀疏化為0,減少采用如聚類等方式,直接減少中間表稀疏輕量化背景?稀疏化基本類型——結(jié)合自適應(yīng)計(jì)算策略大模型的自適應(yīng)計(jì)算輕量化旨在通過(guò)動(dòng)態(tài)分配計(jì)算資源以優(yōu)化模型性能和效率。根據(jù)輸入數(shù)據(jù)的復(fù)雜度和模型的推理需求,自適應(yīng)地調(diào)整計(jì)算路徑,從而在保證精度的前提下減少計(jì)算開銷。自適應(yīng)激活策略:gi(x)為門控函數(shù),用于選擇性激活對(duì)應(yīng)的子網(wǎng)絡(luò)fi(x)。早停策略:根據(jù)輸入數(shù)據(jù)的復(fù)雜度動(dòng)態(tài)決定網(wǎng)絡(luò)層的深度,在滿足一定條件時(shí)提前終止計(jì)算。稀疏輕量化背景?大模型稀疏化的過(guò)去和現(xiàn)在——關(guān)注點(diǎn)主要關(guān)注預(yù)訓(xùn)練階段的稀疏化更關(guān)注參數(shù)與訓(xùn)練速度生成式大模型稀疏化的更關(guān)注什么?主要普遍行業(yè)更關(guān)注微調(diào)與推理的計(jì)算成本更關(guān)注吞吐量、帶寬及顯存等受限的成本非結(jié)構(gòu)稀疏結(jié)構(gòu)化稀疏稀疏輕量化背景非結(jié)構(gòu)稀疏結(jié)構(gòu)化稀疏MoE+LoRA微調(diào)稀疏混合型稀疏化非結(jié)構(gòu)稀疏端側(cè)稀疏化結(jié)構(gòu)化稀疏大模型稀疏化的過(guò)去基于大模型稀疏化的過(guò)去基于Transformer等基礎(chǔ)組件的工作大規(guī)模模型的稀疏化實(shí)踐稀疏化的背景在Transformer上的稀疏化 03在大模型上的稀疏化 Attention計(jì)算稀疏本章脈絡(luò)Attention計(jì)算稀疏結(jié)構(gòu)化剪枝結(jié)構(gòu)型稀疏大模型稀疏化非結(jié)構(gòu)稀疏非結(jié)構(gòu)化剪枝大模型稀疏化的過(guò)去——Transformer時(shí)代?結(jié)構(gòu)化剪枝——挑戰(zhàn)結(jié)構(gòu)性稀疏一般存在兩個(gè)問(wèn)題結(jié)構(gòu)化稀疏由于限制了剪枝元素的選擇自由,會(huì)導(dǎo)致模型效果的下降;進(jìn)行結(jié)構(gòu)化稀疏的最后一步需要進(jìn)行微調(diào),微調(diào)全模型會(huì)產(chǎn)生大量的計(jì)算成本。大模型稀疏化的過(guò)去——Transformer時(shí)代1.基于Fisher信息矩陣對(duì)角化的掩碼搜索,以確定各層修剪比例;2.基于層內(nèi)相互作用的掩碼重排列以確定各層的修剪位置,找到最優(yōu)二值掩碼;掩碼量<<模型參數(shù)量大模型稀疏化的過(guò)去——Transformer時(shí)代Hessian矩陣難以精確構(gòu)建,因此將其近似為Fisher信息矩陣對(duì)角化。幫助評(píng)估每個(gè)參數(shù)塊對(duì)損失函數(shù)的二階敏感性當(dāng)損失函數(shù)為負(fù)對(duì)數(shù)似然時(shí)每層的輸出大模型稀疏化的過(guò)去——Transformer時(shí)代每層的輸出最優(yōu)二值掩碼:Fisher塊對(duì)角近似與熱啟動(dòng)貪婪搜索相結(jié)合,以避免由于不同掩碼變量間存在的相互關(guān)系導(dǎo)致的性能下降。掩碼微調(diào):非零變量被調(diào)整為任意實(shí)數(shù)值,通過(guò)線性最小二乘法進(jìn)行逐層重構(gòu),以使剪枝后的模型恢復(fù)其準(zhǔn)確性。大模型稀疏化的過(guò)去——Transformer時(shí)代與其他蒸餾方法的時(shí)間比較應(yīng)用于具有不同F(xiàn)LOPs約束的BERTBASE和DistilBERT的準(zhǔn)確性。在僅降低1%效果的約束下,滿足約束條件的最大延遲加速大模型稀疏化的過(guò)去——Transformer時(shí)稀疏代稀疏自注意機(jī)制:需要計(jì)算輸入文本序列中任意兩個(gè)單詞之間的關(guān)聯(lián)。注意力機(jī)制加速二次復(fù)雜度大模型稀疏化的過(guò)去——Transformer時(shí)代?稀疏化Transformer——結(jié)構(gòu)化稀疏稀疏因式分解結(jié)合空洞自注意力0(N;)→0(NN)指標(biāo)都達(dá)到最低大模型稀疏化的過(guò)去——Transformer時(shí)代?局部稀疏化——結(jié)構(gòu)化稀疏局部窗口稀疏化+部分全局注意力O(N;)→O(n×(w+g))在text8和enwik8的實(shí)驗(yàn)顯示同等參數(shù)下獲得到更好的效果大模型稀疏化的過(guò)去——Transformer時(shí)代?動(dòng)態(tài)路由算法——結(jié)構(gòu)化稀疏動(dòng)態(tài)路由稀疏化以更少的計(jì)算成本獲得到更好的效果大模型稀疏化的過(guò)去——Transformer時(shí)代?神經(jīng)聚類方法——結(jié)構(gòu)化稀疏IjI=Argmax(u,:j)XS,I,=sort(X,I)輸入序列神經(jīng)聚類過(guò)程大模型稀疏化的過(guò)去——Transformer時(shí)代神經(jīng)聚類注意力:對(duì)每組查詢(Query)、鍵(Key)和值(Value)塊進(jìn)行并行的注意力機(jī)制計(jì)算。Complexity:N2→O(NN)ModelOZMi=Attention(QMi,KMi,VMi)ZM=Blockconcat(ZM1,…Complexity:N2→O(NN)ModelO大模型稀疏化的過(guò)去——Transformer時(shí)代(1)翻譯任務(wù)(2分類任務(wù)(3)時(shí)間測(cè)試(4)顯存測(cè)試Thelongerthesequence,themorenoticeabletheefficiencyimprovement大模型稀疏化的過(guò)去——Transformer時(shí)代?FFN與Attention稀疏策略——非結(jié)構(gòu)化稀疏Transformer模型的問(wèn)題:訓(xùn)練和微調(diào)計(jì)算成本高昂;在FFN層中,每個(gè)塊只允許一個(gè)浮點(diǎn)數(shù)非零,論文提出了一個(gè)基于低秩分解思想的控制器,最終輸出一個(gè)獨(dú)熱編碼:解碼時(shí)間加速20倍yS,m=∑ixiDi,SEi,m的方式計(jì)算輸出。同時(shí)可以結(jié)合二維卷積層來(lái)解碼時(shí)間加速20倍大模型稀疏化的過(guò)去——Transformer時(shí)代?Somethoughts可以看到在Transformer組件上的稀疏化工作大多是需要再次進(jìn)行訓(xùn)練,在超大模型規(guī)模下,這種稀疏成本是難以讓人接受的。如何將現(xiàn)有方法與大模型解耦,類似于控制器的學(xué)習(xí)改裝為L(zhǎng)oRA的形式,減少稀疏化技術(shù)實(shí)現(xiàn)本身的時(shí)間成本,也是大模型稀疏化主要關(guān)注的問(wèn)題。稀疏化的背景在Transformer上的稀疏化在大模型上的稀疏化 本章脈絡(luò)表示稀疏表示稀疏端側(cè)稀疏端側(cè)稀疏稀疏化+低秩近似LLM稀疏化技術(shù)化大語(yǔ)言模型的參數(shù)量更多,不同參數(shù)剪枝元素間存在大量的依賴性關(guān)系化大語(yǔ)言模型的參數(shù)量更多,不同參數(shù)剪枝元素間存在大量的依賴性關(guān)系,貿(mào)然剪枝會(huì)造成模型效果下降。挑戰(zhàn)挑戰(zhàn)參數(shù)塊間存在依賴性關(guān)系MLP型分組Attention型分組層型分組LoRA微調(diào)剪枝LLM稀疏化技術(shù)LoRA微調(diào)剪枝重要性估計(jì)>重要性估計(jì)方面:利用損失的偏差來(lái)度量來(lái)移除對(duì)模型預(yù)測(cè)影響最小的組,公式計(jì)算了行剪枝;利用LoRA的方式對(duì)剪枝后的模型進(jìn)行微調(diào):LLM稀疏化技術(shù)在參數(shù)量、MACs及延遲等多個(gè)輕量化性能指標(biāo)上都展現(xiàn)了有益的效果;>傳統(tǒng)的剪枝方法在較小稀疏率LLM-Pruner能進(jìn)行更高倍壓縮;符合LLMscalinglaw。?早停策略——結(jié)構(gòu)稀疏化LLM稀疏化技術(shù)?早停策略——結(jié)構(gòu)稀疏化判斷推理是否該提前終止?這是一種不需要犧牲帶寬的LLM加速方法;?在LLM推理過(guò)程中,可以對(duì)簡(jiǎn)單實(shí)例使用淺層,對(duì)困難實(shí)例使用深層;?對(duì)LLM的特征進(jìn)行統(tǒng)計(jì)分析并選擇logits構(gòu)建特征,采用高效的SVM和CRF等方法來(lái)促進(jìn)提前退出策略;FanFanS,JiangX,LiX,etal.Notalllayersofllmsarenecessaryduringinference[J].LLM稀疏化技術(shù)?Somethoughts早停思想本身是基于一種普適性的啟發(fā),具備不同復(fù)雜度的輸入所需要的層數(shù)是有差別的,現(xiàn)有的方法通過(guò)引入外部“控制器”的方式實(shí)現(xiàn)早停判斷是否可以通過(guò)擴(kuò)散模型一些自適應(yīng)控制計(jì)算的方式(ChengLu,2022LLM稀疏化技術(shù)?SparseGPT——非結(jié)構(gòu)性稀疏挑戰(zhàn):在巨型LLM上,一次性剪枝方法通常需要花費(fèi)大量的時(shí)間來(lái)計(jì)算完整的最優(yōu)解。基于OBS更新方法的理論,當(dāng)修剪某一參數(shù)時(shí),此時(shí)調(diào)整其他column對(duì)應(yīng)的權(quán)重,并且局部更新Hessian矩陣,將會(huì)彌補(bǔ)剪枝該參數(shù)造成的誤差。LLM稀疏化技術(shù)?SparseGPT——非結(jié)構(gòu)性稀疏相較于其他方法,在較高稀疏率下能保持模型的效果50%的稀疏率下仍能保持較優(yōu)的效果LLM稀疏化技術(shù)?表示稀疏化——非結(jié)構(gòu)性稀疏替代ReLU,用Top-K函數(shù)實(shí)現(xiàn)稀疏化比密集模型更出色的推理最優(yōu)縮放律在激活率50%左右時(shí),能達(dá)到與源模型相近的結(jié)果LLM稀疏化技術(shù)?KV表示稀疏化——非結(jié)構(gòu)性稀疏緩存區(qū)的激活狀態(tài)被清除有后續(xù)標(biāo)記以及隨后的生成過(guò)程保持丟棄狀態(tài)LLM稀疏化技術(shù)現(xiàn)ScalingLaw的趨勢(shì)隨著稀疏率的增加CacheMemory逐漸降低LLM稀疏化技術(shù)?Somethoughts以上方法傾向于選擇值較小的元素進(jìn)行稀疏化操作,進(jìn)一步能否通過(guò)觀察數(shù)據(jù)分布,通過(guò)數(shù)據(jù)分布的特點(diǎn)提出更合理的稀疏化策略也是一種有效的思路。LLM稀疏化技術(shù)?KV表示稀疏化——非結(jié)構(gòu)性稀疏觀察:在計(jì)算注意力得分時(shí),僅有一小部分標(biāo)記對(duì)結(jié)果的貢獻(xiàn)最大。(1)這些標(biāo)記往往與其他標(biāo)記有較強(qiáng)的關(guān)聯(lián)性,它們頻繁地與其他標(biāo)記一起出現(xiàn)2)移除它們會(huì)導(dǎo)致顯著的性能下降。LLM稀疏化技術(shù)?KV表示稀疏化——非結(jié)構(gòu)性稀疏提出了Heavy-HittersOracle(H2O是一種動(dòng)態(tài)子模優(yōu)化算法,能夠動(dòng)態(tài)平衡最近的標(biāo)記和Heavy-Hitters標(biāo)記。具體而言,其提出了一種KVcache驅(qū)逐策略,每一步都增加最新的token及驅(qū)逐一個(gè)token。該方法被定義為了一個(gè)動(dòng)態(tài)子模量的問(wèn)題,經(jīng)理論推導(dǎo)驗(yàn)證這種貪婪驅(qū)逐策略得到的集合理論上是接近最理想集合狀態(tài)的:LLM稀疏化技術(shù)在接近100%(95%)時(shí)的稀出現(xiàn)顯著下降。將三大主流推理系統(tǒng)DeepSpeedZero-Inference、HuggingFaceAccelerate和FlexGen的吞吐量提升了最多29倍、29倍和3倍。在相同的批量大小下,H2O可以將延遲減少最多1.9倍。LLM稀疏化技術(shù)?Somethoughts能否建模更高階的動(dòng)態(tài)子模優(yōu)化算法,設(shè)計(jì)KVcache驅(qū)逐策略來(lái)進(jìn)一步提升模型效果。LLM稀疏化技術(shù)?端側(cè)稀疏化技術(shù)——非結(jié)構(gòu)化稀疏參數(shù)存儲(chǔ)在閃存中產(chǎn)生的問(wèn)題參數(shù)存儲(chǔ)在閃存中產(chǎn)生的問(wèn)題由于大模型的參數(shù)量巨大,端側(cè)的DRAM容量模型參數(shù)存儲(chǔ)在閃存中。在模型推理時(shí),如若需要使用相關(guān)參數(shù),則從閃存中讀取參數(shù)并使LLM稀疏化技術(shù)?端側(cè)稀疏化技術(shù)——非結(jié)構(gòu)化稀疏窗口化實(shí)現(xiàn)原理:窗口化技術(shù)通過(guò)設(shè)定一個(gè)“窗口”,將推理過(guò)程中一部分神經(jīng)元的激活狀態(tài)保留在DRAM中,而不是每次都從閃存中重新加載這些神經(jīng)元的數(shù)據(jù)。顯著減少了與閃存之間的數(shù)據(jù)傳輸。處理的token列表處理的token列表LLM稀疏化技術(shù)?端側(cè)稀疏化技術(shù)——非結(jié)構(gòu)化稀疏在讀取數(shù)據(jù)量讀取連續(xù)存儲(chǔ)在一起的參數(shù)的速度會(huì)遠(yuǎn)遠(yuǎn)快于讀取分散存儲(chǔ)的參數(shù)。FFN神經(jīng)元激活特點(diǎn):在FFN中,第i個(gè)神經(jīng)元的激活與上投影層的第i列和下投影層的第i行是相關(guān)的。當(dāng)其激活時(shí),則需要連續(xù)列進(jìn)行讀取。同一內(nèi)存中,方便連續(xù)讀取。行列捆綁示意圖LLM稀疏化技術(shù)吞吐量提高一倍吞吐量提高一倍,將整體延遲降低一半顯著減少不同設(shè)置下的端到端延遲顯著減少不同設(shè)置下的端到端延遲LLM稀疏化技術(shù)?端側(cè)稀疏化技術(shù)——非結(jié)構(gòu)化稀疏智能手機(jī)中部署LLM的問(wèn)題智能手機(jī)的內(nèi)存容量有限,模型參數(shù)存儲(chǔ)在因?yàn)橹悄苁謾C(jī)功能較弱,異構(gòu)硬件和存儲(chǔ)設(shè)LLM推理的常見(jiàn)瓶頸。限制了LLM的推理速LLM稀疏化技術(shù)?端側(cè)稀疏化技術(shù)——非結(jié)構(gòu)化稀疏神經(jīng)元權(quán)重:PowerInfer-2拋棄了矩陣結(jié)構(gòu),進(jìn)而采用神經(jīng)元為單位存儲(chǔ)模型權(quán)重。神經(jīng)元粒度的推理:作,神經(jīng)元簇可以在計(jì)算過(guò)程中動(dòng)態(tài)地由多個(gè)激活的神經(jīng)元組成,神經(jīng)元的數(shù)量由計(jì)算單元的計(jì)算能力決定。以此可以減少神經(jīng)元權(quán)重的讀取次數(shù)。CPU動(dòng)態(tài)使用閃存和DARM的神經(jīng)元LL

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論