我總結(jié)了70篇論文的方法幫你透徹理解神經(jīng)網(wǎng)絡(luò)的剪枝算法_第1頁
我總結(jié)了70篇論文的方法幫你透徹理解神經(jīng)網(wǎng)絡(luò)的剪枝算法_第2頁
我總結(jié)了70篇論文的方法幫你透徹理解神經(jīng)網(wǎng)絡(luò)的剪枝算法_第3頁
我總結(jié)了70篇論文的方法幫你透徹理解神經(jīng)網(wǎng)絡(luò)的剪枝算法_第4頁
我總結(jié)了70篇論文的方法幫你透徹理解神經(jīng)網(wǎng)絡(luò)的剪枝算法_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

我總結(jié)了70篇論?的?法,幫你透徹理解神經(jīng)?絡(luò)的剪枝算法?論是在計(jì)算機(jī)視覺、?然語?處理還是圖像?成??,深度神經(jīng)?絡(luò)?前表現(xiàn)出來的性能都是最先進(jìn)的。然?,它們在計(jì)算能?、內(nèi)存或能源消耗??的成本可能令?望?卻步,這使得?部份公司的因?yàn)橛邢薜挠布Y源?完全負(fù)擔(dān)不起訓(xùn)練的費(fèi)?。但是許多領(lǐng)域都受益于神經(jīng)?絡(luò),因此需要找到?個(gè)在保持其性能的同時(shí)降低成本的辦法。這就是神經(jīng)?絡(luò)壓縮的重點(diǎn)。該領(lǐng)域包含多個(gè)?法系列,例如量化[11]、分解[13]、蒸餾[32]。?本?的重點(diǎn)是剪枝。神經(jīng)?絡(luò)剪枝是?種移除?絡(luò)中性能良好但需要?量資源的多余部分的?法。盡管?型神經(jīng)?絡(luò)已經(jīng)?數(shù)次證明了它們的學(xué)習(xí)能?,但事實(shí)證明,在訓(xùn)練過程結(jié)束后,并?它們的所有部分都仍然有?。這個(gè)想法是在不影響?絡(luò)性能的情況下消除這些多余部分。不幸的是,每年發(fā)表的數(shù)?篇(可能是數(shù)百篇的話)論?都揭?了這個(gè)被認(rèn)為直截了當(dāng)?shù)南敕ㄋ[藏的復(fù)雜性。事實(shí)上,只要快速瀏覽?下?獻(xiàn),就會(huì)發(fā)現(xiàn)有?數(shù)?法可以在訓(xùn)練前、訓(xùn)練中或訓(xùn)練后識(shí)別這些??的部分,或?qū)⑵湟瞥?最主要的是并不是所有類型的剪枝都能加速神經(jīng)?絡(luò),這才是關(guān)鍵所在。這篇?章的?標(biāo)是為解決圍繞神經(jīng)?絡(luò)剪枝各種問題。我們將依次回顧三個(gè)似乎是整個(gè)領(lǐng)域核?的問題:“我應(yīng)該修剪什么樣的部分?”,“如何判斷哪些部分可以修剪?”和“如何在不損害?絡(luò)的情況下進(jìn)?修剪?”。綜上所述,我們將詳細(xì)介紹剪枝結(jié)構(gòu)、剪枝標(biāo)準(zhǔn)和剪枝?法。1-剪枝介紹1.1-?結(jié)構(gòu)化剪枝在談到神經(jīng)?絡(luò)的成本時(shí),參數(shù)數(shù)量肯定是最?泛使?的指標(biāo)之?,還有FLOPS(每秒浮點(diǎn)運(yùn)算)。當(dāng)我們看到?絡(luò)顯?出天?數(shù)字的權(quán)重(GPT3的參數(shù)數(shù)量是1,750億)確實(shí)令??畏。實(shí)際上,修剪連接是?獻(xiàn)中最?泛的范式之?,?以被視為處理剪枝時(shí)的默認(rèn)框架。Han等?的開創(chuàng)性?作[26]提出了這種剪枝?法,并作為許多貢獻(xiàn)的基礎(chǔ)[18,21,25]。直接修剪參數(shù)有很多優(yōu)點(diǎn)。?先,它很簡單,因?yàn)樵趨?shù)張量中?零替換它們的權(quán)重值就?以修剪連接。被?泛使?的深度學(xué)習(xí)框架,例如Pytorch,允許輕松訪問?絡(luò)的所有參數(shù),使其實(shí)現(xiàn)起來?常簡單。盡管如此,修剪連接的最?優(yōu)勢是它們是?絡(luò)中最?、最基本的元素,因此,它們的數(shù)量?以在不影響性能的情況下?量修剪它們。如此精細(xì)的粒度允許修剪?常細(xì)微的模式,例如,最多可修剪卷積核內(nèi)的參數(shù)。由于修剪權(quán)重完全不受任何約束的限制,并且是修剪?絡(luò)的最佳?式,因此這種范式稱為?結(jié)構(gòu)化剪枝。然?,這種?法存在?個(gè)主要的、致命的缺點(diǎn):?多數(shù)框架和硬件?法加速稀疏矩陣計(jì)算,這意味著?論你?多少個(gè)零填充參數(shù)張量,它都不會(huì)影響?絡(luò)的實(shí)際成本。然?,影響它的是以?種直接改變?絡(luò)架構(gòu)的?式進(jìn)?修剪,任何框架都可以處理。?結(jié)構(gòu)化(左)和結(jié)構(gòu)化(右)剪枝的區(qū)別:結(jié)構(gòu)化剪枝去除卷積濾波器和內(nèi)核?,?不僅僅是剪枝連接。這導(dǎo)致中間表?中的特征圖更少。1.2-結(jié)構(gòu)化剪枝這就是為什么許多?作都專注于修剪更?的結(jié)構(gòu)的原因,例如整個(gè)神經(jīng)元[36],或者在更現(xiàn)代的深度卷積?絡(luò)中直接等效,卷積過濾器[40,41,66]。由于?型?絡(luò)往往包括許多卷積層,每個(gè)層數(shù)多達(dá)數(shù)百或數(shù)千個(gè)過濾器,因此過濾器修剪允許使?可利?但?夠精細(xì)的粒度。移除這樣的結(jié)構(gòu)不僅會(huì)導(dǎo)致稀疏層可以直接實(shí)例化為更薄的層,?且這樣做還會(huì)消除作為此類過濾器輸出的特征圖。因此,由于參數(shù)較少這種?絡(luò)不僅易于存儲(chǔ),?且它們需要更少的計(jì)算并?成更輕的中間表?,因此在運(yùn)?時(shí)需要更少的內(nèi)存。實(shí)際上,有時(shí)減少帶寬?減少參數(shù)計(jì)數(shù)更有益。事實(shí)上,對(duì)于涉及?圖像的任務(wù),例如語義分割或?qū)ο髾z測,中間表?可能會(huì)消耗?量內(nèi)存,遠(yuǎn)遠(yuǎn)超過?絡(luò)本?。由于這些原因,過濾器修剪現(xiàn)在被視為結(jié)構(gòu)化剪枝的默認(rèn)類型。然?,在應(yīng)?這種修剪時(shí),應(yīng)注意以下?個(gè)??。讓我們考慮如何構(gòu)建卷積層:對(duì)于輸?通道中的C和輸出通道中的C,卷積層由Cout過濾器組成,每個(gè)過濾器都計(jì)算Cin核;每個(gè)過濾器輸出?個(gè)特征圖,在每個(gè)過濾器中,?個(gè)內(nèi)核專?于每個(gè)輸?通道??紤]到這種架構(gòu),在修剪整個(gè)過濾器時(shí),?們可能會(huì)觀察到修剪當(dāng)前過濾器,然后它會(huì)影響當(dāng)前輸出的特征圖,實(shí)際上也會(huì)導(dǎo)致在隨后的層中修剪相應(yīng)的過濾器。這意味著,在修剪過濾器時(shí),實(shí)際上可能會(huì)修剪?開始被認(rèn)為要?jiǎng)h除的參數(shù)數(shù)量的兩倍。讓我們也考慮?下,當(dāng)整個(gè)層碰巧被修剪時(shí)(這往往是由于層崩潰[62],但并不總是破壞?絡(luò),具體取決于架構(gòu)),前?層的輸出現(xiàn)在完全沒有連接,因此也被刪減:刪減整個(gè)層實(shí)際上可能刪減其所有先前的層,這些層的輸出在其他地?沒有以某種?式連接(由于殘差連接[28]或整個(gè)并?路徑[61])。因此在修剪過濾器時(shí),應(yīng)考慮計(jì)算實(shí)際修剪參數(shù)的確切數(shù)量。事實(shí)上,根據(jù)過濾器在體系結(jié)構(gòu)中的分布情況,修剪相同數(shù)量的過濾器可能不會(huì)導(dǎo)致相同數(shù)量的實(shí)際修剪參數(shù),從?使任何結(jié)果都?法與之進(jìn)??較。在轉(zhuǎn)移話題之前,讓我們提?下,盡管數(shù)量很少,但有些?作專注于修剪卷積核(過濾器)、核內(nèi)結(jié)構(gòu)[2,24,46]甚?特定的參數(shù)結(jié)構(gòu)。但是,此類結(jié)構(gòu)需要特殊的實(shí)現(xiàn)才能實(shí)現(xiàn)任何類型的加速(如?結(jié)構(gòu)化剪枝)。然?,另?種可利?的結(jié)構(gòu)是通過修剪每個(gè)內(nèi)核中除?個(gè)參數(shù)之外的所有參數(shù)并將卷積轉(zhuǎn)換為“位移層”(shiftlayers),然后可以將其總結(jié)為位移操作和1×1卷積的組合[24]。結(jié)構(gòu)化剪枝的危險(xiǎn):改變層的輸?和輸出維度會(huì)導(dǎo)致?些差異。如果在左邊,兩個(gè)層輸出相同數(shù)量的特征圖,然后可以很好地相加,右邊的剪枝產(chǎn)?不同維度的中間表?,如果不處理它們就?法相加。2-剪枝標(biāo)準(zhǔn)?旦決定了要修剪哪種結(jié)構(gòu),下?個(gè)可能會(huì)問的問題是:“現(xiàn)在,我如何確定要保留哪些結(jié)構(gòu)以及要修剪哪些結(jié)構(gòu)?”。為了回答這個(gè)問題,需要?個(gè)適當(dāng)?shù)男藜魳?biāo)準(zhǔn),這將對(duì)參數(shù)、過濾器或其他的相對(duì)重要性進(jìn)?排名。2.1-權(quán)重??標(biāo)準(zhǔn)?個(gè)?常直觀且?常有效的標(biāo)準(zhǔn)是修剪絕對(duì)值(或“幅度”)最?的權(quán)重。實(shí)際上,在權(quán)重衰減的約束下,那些對(duì)函數(shù)沒有顯著貢獻(xiàn)的函數(shù)在訓(xùn)練期間會(huì)縮?幅度。因此,多余的權(quán)重被定義為是那些絕對(duì)值較?的權(quán)重[8]。盡管它很簡單,但幅度標(biāo)準(zhǔn)仍然?泛?于最新的?法[21,26,58],使其成為該領(lǐng)域的主要內(nèi)容。然?,雖然這個(gè)標(biāo)準(zhǔn)在?結(jié)構(gòu)化剪枝的情況下實(shí)現(xiàn)起來似乎微不?道,但?們可能想知道如何使其適應(yīng)結(jié)構(gòu)化剪枝。?種直接的?法是根據(jù)過濾器的范數(shù)(例如L1或L2)對(duì)過濾器進(jìn)?排序[40,70]。如果這種?法?常簡單,?們可能希望將多組參數(shù)封裝在?個(gè)度量中:例如,?個(gè)卷積過濾器、它的偏差和它的批量歸?化參數(shù),或者甚?是并?層中的相應(yīng)過濾器,其輸出隨后被融合。?種?法是在不需要計(jì)算這些參數(shù)的組合范數(shù)的情況下,在要修剪的每組圖層之后為每個(gè)特征圖插??個(gè)可學(xué)習(xí)的乘法參數(shù)。當(dāng)這個(gè)參數(shù)減少到零時(shí),有效地修剪了負(fù)責(zé)這個(gè)通道的整套參數(shù),這個(gè)參數(shù)的??說明了所有參數(shù)的重要性。因此,該?法包括修剪較?量級(jí)的參數(shù)[36,41]。2.2-梯度幅度剪枝權(quán)重的??并不是唯?存在的流?標(biāo)準(zhǔn)(或標(biāo)準(zhǔn)系列)。實(shí)際上,?直持續(xù)到現(xiàn)在的另?個(gè)主要標(biāo)準(zhǔn)是梯度的??。事實(shí)上,早在80年代,?些基礎(chǔ)?作[37,53]通過移除參數(shù)對(duì)損失的影響的泰勒分解進(jìn)?了理論化,?些從反向傳播梯度導(dǎo)出的度量可以提供?種很好的?法來確定可以在不損壞?絡(luò)的情況下修剪哪些參數(shù)。該?法[4,50]的最新的實(shí)現(xiàn)實(shí)際上是在?批量訓(xùn)練數(shù)據(jù)上累積梯度,并根據(jù)該梯度與每個(gè)參數(shù)的相應(yīng)權(quán)重之間的乘積進(jìn)?修剪。該標(biāo)準(zhǔn)也可以應(yīng)?于上述參數(shù)?法[49]。2.3—全局或局部剪枝要考慮的最后?個(gè)??是所選標(biāo)準(zhǔn)是否是全局應(yīng)?于?絡(luò)的所有參數(shù)或過濾器,或者是否為每?層獨(dú)?計(jì)算。雖然多次證明全局修剪可以產(chǎn)?更好的結(jié)果,但它可能導(dǎo)致層崩潰[62]。避免這個(gè)問題的?個(gè)簡單?法是采?逐層局部剪枝,即在使?的?法不能防?層崩潰時(shí),在每?層剪枝相同的速率。局部剪枝(左)和全局剪枝(右)的區(qū)別:局部剪枝對(duì)每?層應(yīng)?相同的速率,?全局剪枝?次在整個(gè)?絡(luò)上應(yīng)?。3-剪枝?法現(xiàn)在我們已經(jīng)獲得了修剪結(jié)構(gòu)和標(biāo)準(zhǔn),剩下的唯?需要確認(rèn)的是我們應(yīng)該使?哪種?法來修剪?絡(luò)。這實(shí)際上這是?獻(xiàn)中最令?困惑的話題,因?yàn)槊科?都會(huì)帶來??的怪癖和噱頭,以?于?們可能會(huì)在有條不紊的相關(guān)內(nèi)容和給定論?的特殊性之間迷失。這就是為什么我們將按主題概述?些最流?的修剪神經(jīng)?絡(luò)的?法系列,以突出訓(xùn)練期間使?稀疏性的演變。3.1-經(jīng)典框架:訓(xùn)練、修剪和微調(diào)要知道的第?個(gè)基本框架是訓(xùn)練、修剪和微調(diào)?法,它顯然涉及1)訓(xùn)練?絡(luò)2)通過將修剪結(jié)構(gòu)和標(biāo)準(zhǔn)所針對(duì)的所有參數(shù)設(shè)置為0來修剪它(這些參數(shù)之后?法恢復(fù))和3)?最低的學(xué)習(xí)率訓(xùn)練?絡(luò)?個(gè)額外的時(shí)期,讓它有機(jī)會(huì)從修剪引起的性能損失中恢復(fù)過來。通常,最后兩個(gè)步驟可以迭代,每次都會(huì)增加修剪率。Han等?提出的?法[26]應(yīng)?的就是這種?法,在修剪和微調(diào)之間進(jìn)?5次迭代,以進(jìn)?權(quán)重修剪。迭代已被證明可以提?性能,但代價(jià)是額外的計(jì)算和訓(xùn)練時(shí)間。這個(gè)簡單的框架是許多?法[26,40,41,50,66]的基礎(chǔ),可以看作是其他所有作品的默認(rèn)?法。3.2-擴(kuò)展經(jīng)典框架雖然沒有偏離太多,但某些?法對(duì)Han等?的上述經(jīng)典框架進(jìn)?了重?修改[26],Gale等?[21]通過在整個(gè)訓(xùn)練過程中逐漸移除越來越多的權(quán)重,進(jìn)?步推動(dòng)了迭代的原則,這使得可以從迭代的優(yōu)勢中受益并移除整個(gè)微調(diào)過程。He等?[29]在每個(gè)epoch將可修剪的過濾器逐步減少到0,同時(shí)不阻?它們學(xué)習(xí)和之后更新,以便讓它們的權(quán)重在修剪后重新增長,同時(shí)在訓(xùn)練期間加強(qiáng)稀疏性。最后,Renda等?的?法[58]涉及在修剪?絡(luò)后完全重新訓(xùn)練?絡(luò)。與以最低學(xué)習(xí)率執(zhí)?的微調(diào)不同,再訓(xùn)練遵循與訓(xùn)練相同的學(xué)習(xí)率計(jì)劃,因此被稱為:“Learning-RateRewinding”。與單純的微調(diào)相?,這種再訓(xùn)練已顯?出更好的性能,?且成本要?得多。3.3-初始化時(shí)的修剪為了加快訓(xùn)練速度,避免微調(diào)并防?在訓(xùn)練期間或之后對(duì)架構(gòu)進(jìn)?任何更改,多項(xiàng)?作都集中在訓(xùn)練前的剪枝上。在SNIP[39]之后,許多?法都研究了LeCun等?的?法[37]或Mozer和Smolensky[53]在初始化時(shí)修剪[12,64],包括深?的理論研究[27,38,62]。然?,OptimalBrainDamage[37]依賴于多個(gè)近似值,包括“極值”近似值,即“假設(shè)訓(xùn)練收斂后將執(zhí)?參數(shù)刪除”[37];這個(gè)事實(shí)很少被提及,即使在基于它的?法中也是如此。?些?作對(duì)此類?法?成掩碼的能?提出了保留意見,這些掩碼的相關(guān)性優(yōu)于每層相似分布的隨機(jī)掩碼[20]。另?個(gè)研究修剪和初始化之間關(guān)系的?法家族圍繞著“彩票假設(shè)”[18]。這個(gè)假設(shè)指出“隨機(jī)初始化的密集神經(jīng)?絡(luò)包含?個(gè)???作,它被初始化,這樣當(dāng)單獨(dú)訓(xùn)練時(shí)它可以在訓(xùn)練最多相同迭代次數(shù)后與原始?絡(luò)的測試精度相匹配”。在實(shí)踐中,該?獻(xiàn)研究了使?已經(jīng)收斂的?絡(luò)定義的剪枝掩碼在剛初始化時(shí)可以應(yīng)?于?絡(luò)的效果如何。多項(xiàng)?作擴(kuò)展、穩(wěn)定或研究了這?假設(shè)[14,19,45,51,69]。然?,多項(xiàng)?作再次傾向于質(zhì)疑假設(shè)的有效性以及?于研究它的?法[21,42],有些甚?傾向于表明它的好處來?于使?確定性掩碼?不是完全訓(xùn)練的原則,“WinningTicket”[58]。經(jīng)典的“訓(xùn)練、剪枝和微調(diào)”框架[26]、彩票實(shí)驗(yàn)[18]和Learning-RateRewinding[58]之間的?較。3.4-稀疏訓(xùn)練上?提到的?法都與?個(gè)看似共享的潛在主題相關(guān)聯(lián):在稀疏約束下訓(xùn)練。這個(gè)原則是?系列?法的核?,稱為稀疏訓(xùn)練,它包括在訓(xùn)練期間強(qiáng)制執(zhí)?恒定的稀疏率,同時(shí)其分布變化并逐漸調(diào)整。由Mocanu等?提出[47],它包括:1)?隨機(jī)掩碼初始化?絡(luò),修剪?定?例的?絡(luò)2)在?個(gè)輪次內(nèi)訓(xùn)練這個(gè)修剪過的?絡(luò)3)修剪?定數(shù)量的最低數(shù)量的權(quán)重4)重新增長相同的隨機(jī)權(quán)重的數(shù)量。這樣,修剪掩碼?先是隨機(jī)的,逐漸調(diào)整以針對(duì)最?的導(dǎo)?權(quán)重,同時(shí)在整個(gè)訓(xùn)練過程中強(qiáng)制執(zhí)?稀疏性。每?層[47]或全局[52]的稀疏級(jí)別可以相同。其他?法通過使?某個(gè)標(biāo)準(zhǔn)來重新增加權(quán)重?不是隨機(jī)選擇它們來擴(kuò)展稀疏訓(xùn)練[15,17]。稀疏訓(xùn)練在訓(xùn)練期間周期性地削減和增長不同的權(quán)重,這會(huì)導(dǎo)致調(diào)整后的掩碼應(yīng)僅針對(duì)相關(guān)參數(shù)。3.5-掩碼學(xué)習(xí)與依賴任意標(biāo)準(zhǔn)來修剪或重新增加權(quán)重不同,多種?法專注于在訓(xùn)練期間學(xué)習(xí)修剪掩碼。兩種?法似乎在這個(gè)領(lǐng)域盛?:1)通過單獨(dú)的?絡(luò)或?qū)舆M(jìn)?掩碼學(xué)習(xí);2)通過輔助參數(shù)進(jìn)?掩碼學(xué)習(xí)。多種策略可以適?于第?類?法:訓(xùn)練單獨(dú)的代理以盡可能多地修剪?層的過濾器,同時(shí)最?限度地提?準(zhǔn)確性[33]、插?基于注意?的層[68]或使?強(qiáng)化學(xué)習(xí)[30].第?種?法旨在將剪枝視為?個(gè)優(yōu)化問題,它傾向于最?化?絡(luò)的L0范數(shù)及其監(jiān)督損失。由于L0是不可微的,因此各種?法主要涉及通過使?懲罰輔助參數(shù)來規(guī)避這個(gè)問題,這些輔助參數(shù)在前向傳遞期間與其相應(yīng)的參數(shù)相乘[59,23]。許多?法[44,60,67]依賴于?種類似于“?元連接”[11]的?法,即:對(duì)參數(shù)應(yīng)?隨機(jī)門,這些參數(shù)的值每個(gè)都從它們??的參數(shù)p的伯努利分布中隨機(jī)抽取“StraightThroughEstimator”[3]或其他?式[44]。3.6-基于懲罰的?法許多?法不是?動(dòng)修剪連接或懲罰輔助參數(shù),?是對(duì)權(quán)重本?施加各種懲罰,使它們逐漸縮?到0。這個(gè)概念實(shí)際上很古?[57],因?yàn)闄?quán)重衰減已經(jīng)是?個(gè)必不可少的權(quán)重??標(biāo)準(zhǔn)。除了使?單純的權(quán)重衰減之外,甚?在那時(shí)也有多項(xiàng)?作專注于制定專門?于強(qiáng)制執(zhí)?稀疏性的懲罰[55,65]。今天,除了權(quán)重衰減之外,各種?法應(yīng)?不同的正則化來進(jìn)?步增加稀疏性(通常使?L1范數(shù)[41])。在最新的?法中,多種?法依賴于LASSO[22,31,66]來修剪權(quán)重或組。其他?法制定了針對(duì)弱連接的懲罰,以增加要保留的參數(shù)和要修剪的參數(shù)之間的差距,從?減少它們的刪除影響[7,16]。?些?法表明,針對(duì)在整個(gè)訓(xùn)練過程中不斷增長的懲罰的權(quán)重?集可以逐步修剪它們并可以進(jìn)??縫刪除[6,9,63]。?獻(xiàn)還計(jì)算了圍繞“VariationalDropout”原理構(gòu)建的?系列?法[34],這是?種基于變分推理[5]的?法,應(yīng)?于深度學(xué)習(xí)[35]。作為?種剪枝?法[48],它產(chǎn)?了多種將其原理應(yīng)?于結(jié)構(gòu)化剪枝[43,54]的?法。4-可?的框架如果這些?法中的?多數(shù)必須從頭開始實(shí)現(xiàn)(或者可以從每篇論?的提供源代碼中重?),以下這些框架都可以應(yīng)?基本?法或使上述實(shí)現(xiàn)更容易。4.1-PytorchPytorch[56]提供了?些基本的剪枝?法,例如全局剪枝或局部剪枝,?論是結(jié)構(gòu)化的還是?結(jié)構(gòu)化的。結(jié)構(gòu)化修剪可以應(yīng)?于權(quán)重張量的任何維度,它可以修剪過濾器、內(nèi)核?甚?內(nèi)核內(nèi)部的?些?和列。那些內(nèi)置的基本?法還允許隨機(jī)修剪或根據(jù)各種規(guī)范進(jìn)?修剪。4.2-TensorflowTensorflow[1]的Keras[10]庫提供了?些基本?具來修剪最低量級(jí)的權(quán)重。例如在Han等?[25]的?作中,修剪的效率是根據(jù)所有插?的零引?的冗余程度來衡量的,可以更好地壓縮模型(與量化結(jié)合得很好)。4.3-ShrinkBenchBlalock等?[4]在他們的?作中提供了?個(gè)?定義庫,以幫助社區(qū)規(guī)范剪枝算法的?較?式。ShrinkBench基于Pytorch,旨在使剪枝?法的實(shí)施更容易,同時(shí)規(guī)范訓(xùn)練和測試的條件。它提供了?種不同的基線,例如隨機(jī)剪枝、全局或分層以及權(quán)重??或梯度??剪枝。5-?法的簡要回顧在這篇?章中,引?了許多不同的論?。這是?個(gè)簡單的表格,粗略總結(jié)了它們的作?以及它們的區(qū)別(提供的?期是?次發(fā)布的?期):ArticleDateStructureCriterionMethodRemarkSourcesClassicmethodsHanetal.2015weightsweightsmagnitudetrain,pruneandfine-tuneprototypicalpruningmethodnoneGaleetal.2019weightsweightsmagnitudegradualremoval-noneRendaetal.2020weightsweightsmagnitudetrain,pruneandre-train(“LR-Rewinding”)-yesLietal.2016filtersL1normofweightstrain,pruneandfine-tune-noneMolchanovetal.2016filtersgradientmagnitudetrain,pruneandfine-tune-noneLiuetal.2017filtersmagnitudeofbatchnormparameterstrain,pruneandfine-tunegates-basedstructuredpruningnoneHeetal.2018filtersL2normofweightssoftpruningzeroesoutfilterswithoutremovaluntiltheendyesMolchanovetal.2019filtersgradientmagnitudetrain,pruneandfine-tuneinsertsgatestoprunefiltersnonePruningatinitializationLeeetal.2018weightsgradientmagnitudepruneandtrain“SNIP”yesLeeetal.2019weights“dynamicalisometry”pruneandtraindatalessmethodyesWangetal.2020weightssecond-orderderivativepruneandtrain“GraSP”:alikeSNIPbutwithacriterionclosertothatofLeCunetal.yesTanakaetal.2020weights“synapticflow”pruneandtrain“SynFlow”:datalessmethodyesFrankleetal.2018weightsweightsmagnitudetrain,rewind,pruneandretrain“l(fā)otteryticket”noneSparsetrainingMocanuetal.2018weightsweightsmagnitudesparsetrainingrandomregrowthofprunedweightsyesMostafaandWang2019weightsweightsmagnitudesparsetrainingalikeMocanuetal.butglobalinsteadoflayer-wisenoneDettmersandZettlemoyer2019weightsweightsmagnitudesparsetrainingregrowthandlayer-wisepruningratedependingonmomentumyesEvcietal.2019weightsweightsmagnitudesparsetrainingregrowthongradientmagnitudeyesMasklearningHuangetal.2018filtersN/Atrain,pruneandfine-tunetrainspruningagentsthattargetfilterstoprunenoneHeetal.2018filtersN/Atrain,pruneandfine-tuneusesreinforcementlearningtotargetfilterstopruneyesYamamotoandMaeno2018filtersN/Atrain,pruneandfine-tune“PCAS”:usesattentionmodulestotargetfilterstoprunenoneGuoetal.2016weightsweightmagnitudemasklearningupdatesamaskdependingontwodifferentthresholdsonthemagnitudeofweightsyesSrinivasetal.2016weightsN/AmasklearningalikeBinaryConnectappliedtoauxiliaryparametersnoneLouizosetal.2017weightsN/AmasklearningvariantofBinaryConnect,appliedtoauxiliaryparameters,thatavoidsresortingtotheStraightThroughEstimatoryesXiaoetal.2019weightsN/AmasklearningalikeBinaryConnectbutaltersthegradientpropagatedtotheauxiliaryparametersnoneSavareseetal.2019weightsN/AmasklearningapproximatesL0withaheavysidefunction,whichisitselfapproximatedbyasigmoidofincreasingtemperatureoverauxiliaryparametersyesPenalty-basedmethodsWenetal.2016filtersN/AGroup-LASSOregularization-yesHeetal.2017filtersN/AGroup-LASSOregularizationalsoreconstructstheoutputsofprunedlayersbyleastsquaresyesGaoetal.2019filtersN/AGroup-LASSOregularizationprunesmatchingfiltersaccrosslayersandpenalizesvarianceofweightsnoneChangandSha2018weightsweightmagnitudeglobalpenaltymodifiestheweightdecaytomakeitinducemoresparsitynoneMolchanovetal.2017weightsN/A“VariationalDropout”applicationofvariationalinferenceonpruningnoneNeklyudovetal.2017filtersN/A“VariationalDropout”structuredversionofvariationaldropoutyesArticleDateStructureCriterionMethodRemarkSourcesLouizosetal.2017filtersN/A“VariationalDropout”anotherstructuredversionofvariationaldropoutnoneDingetal.2018filtersweightmagnitudetargetedpenaltypenalizesorstimulatefiltersdependingonthedistanceoftheirL2normtoagiventhresholdnoneChoietal.2018weightsweightmagnitudetargetedpenaltyateachsteppenalizesweightsofleastmagnitudebyitsL2norm,withanimportancethatislearnedthroughouttrainingnoneCarreira-Perpi?ánandIdelbayev2018weightsweightmagnitudetargetedpenaltydefinesamaskdependingonweightsofleastmagnitudesandpenalizesthemtowardzerononeTessieretal.2020anyany(weightmagnitude)targetedpenaltyateachsteppenalizesprunableweightsorfiltersbyitsL2norm,withanimportancethatgrowsexponentiallythroughouttrainingyesArticleDateStructureCriterionMethodRemarkSources5-總結(jié)在我們對(duì)?獻(xiàn)的快速概覽中,我們看到1)剪枝結(jié)構(gòu)定義了從剪枝中期望獲得的收益2)剪枝標(biāo)準(zhǔn)基于各種理論或?qū)嵺`3)剪枝?法傾向于在訓(xùn)練期間引?稀疏性兼顧性能和成本。我們還看到,盡管它的最開始的?作可以追溯到80年代后期,但神經(jīng)?絡(luò)剪枝是?個(gè)?常動(dòng)態(tài)的領(lǐng)域,今天仍然經(jīng)歷著基本的發(fā)現(xiàn)和新的基本概念。盡管該領(lǐng)域每天都有貢獻(xiàn),但似乎仍有很?的探索和創(chuàng)新空間。如果?法的每個(gè)?族都可以看作是回答問題的?個(gè)嘗試(“如何重新?成剪枝后的權(quán)重?”、“如何通過優(yōu)化學(xué)習(xí)剪枝掩碼?”、“如何通過更柔和的平均值來進(jìn)?權(quán)重去除?”……),根據(jù)?獻(xiàn)的演變似乎指出了?個(gè)?向:整個(gè)訓(xùn)練的稀疏性。這個(gè)?向提出了許多問題,例如:“剪枝標(biāo)準(zhǔn)在尚未收斂的?絡(luò)上是否有效?”或者“如何從?開始就從任何類型的稀疏性訓(xùn)練中區(qū)分選擇要修剪的權(quán)重的好處?”引?[1]Mart?nAbadi,AshishAgarwal,PaulBarham,EugeneBrevdo,ZhifengChen,CraigCitro,GregS.Corrado,AndyDavis,JeffreyDean,MatthieuDevin,SanjayGhemawat,IanGoodfellow,AndrewHarp,GeoffreyIrving,MichaelIsard,YangqingJia,RafalJozefowicz,LukaszKaiser,ManjunathKudlur,JoshLevenberg,DandelionMané,RajatMonga,SherryMoore,DerekMurray,ChrisOlah,MikeSchuster,JonathonShlens,BenoitSteiner,IlyaSutskever,KunalTalwar,PaulTucker,VincentVanhoucke,VijayVasudevan,FernandaViégas,OriolVinyals,PeteWarden,MartinWattenberg,MartinWicke,YuanYu,andXiaoqiangZheng.TensorFlow:Large-scalemachinelearningonheterogeneoussystems,2015.S.[2]SajidAnwar,KyuyeonHwang,andWonyongSung.Structuredpruningofdeepconvolutionalneuralnetworks.ACMJournalonEmergingTechnologiesinComputingSystems(JETC),13(3):1–18,2017.[3]YoshuaBengio,NicholasLéonard,andAaronCourville.Estimatingorpropagatinggradientsthroughstochasticneuronsforconditionalcomputation.arXivpreprintarXiv:1308.3432,2013.[4]DavisBlalock,JoseJavierGonzalezOrtiz,JonathanFrankle,andJohnGuttag.Whatisthestateofneuralnetworkpruning?arXivpreprintarXiv:2003.03033,2020.[5]DavidMBlei,AlpKucukelbir,andJonDMcAuliffe.Variationalinference:Areviewforstatisticians.JournaloftheAmericanstatisticalAssociation,112(518):859–877,2017.[6]MiguelACarreira-PerpinánandYerlanIdelbayev.“l(fā)earning-compression”algorithmsforneuralnetpruning.InProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,pages8532–8541,2018.[7]JingChangandJinSha.PrunedeepneuralnetworkswiththemodifiedL1/2penalty.IEEEAccess,7:2273–2280,2018.[8]YvesChauvin.Aback-propagationalgorithmwithoptimaluseofhiddenunits.InNIPS,volume1,pages519–526,1988.[9]YoojinChoi,MostafaEl-Khamy,andJungwonLee.Compressionofdeepconvolutionalneuralnetworksunderjointsparsityconstraints.arXivpreprintarXiv:1805.08303,2018.[10]FrancoisCholletetal.Keras,2015.[11]MatthieuCourbariaux,YoshuaBengio,andJean-PierreDavid.Binaryconnect:Trainingdeepneuralnetworkswithbinaryweightsduringpropagations.InNIPS,2015.[12]PaudeJorge,AmartyaSanyal,HarkiratSBehl,PhilipHSTorr,GregoryRogez,andPuneetKDokania.Progressiveskeletonization:Trimmingmorefatfromanetworkatinitialization.arXivpreprintarXiv:2006.09081,2020.[13]EmilyDenton,WojciechZaremba,JoanBruna,YannLeCun,andRobFergus.Exploitinglinearstructurewithinconvolutionalnetworksforefficientevaluation.In28thAnnualConferenceonNeuralInformationProcessingSystems2014,NIPS2014,pages1269–1277.Neuralinformationprocessingsystemsfoundation,2014.[14]ShreyDesai,HongyuanZhan,andAhmedAly.Evaluatinglotteryticketsunderdistributionalshifts.InProceedingsofthe2ndWorkshoponDeepLearningApproachesforLow-ResourceNLP(DeepLo2019),pages153–162,2019.[15]TimDettmersandLukeZettlemoyer.Sparsenetworksfromscratch:Fastertrainingwithoutlosingperformance.arXivpreprintarXiv:1907.04840,2019.[16]XiaohanDing,GuiguangDing,XiangxinZhou,YuchenGuo,JungongHan,andJiLiu.Globalsparsemomentumsgdforpruningverydeepneuralnetworks.arXivpreprintarXiv:1909.12778,2019.[17]UtkuEvci,TrevorGale,JacobMenick,PabloSamuelCastro,andErichElsen.Riggingthelottery:Makingallticketswinners.InInternationalConferenceonMachineLearning,pages2943–2952.PMLR,2020.[18]JonathanFrankleandMichaelCarbin.Thelotterytickethypothesis:Findingsparse,trainableneuralnetworks.arXivpreprintarXiv:1803.03635,2018.[19]JonathanFrankle,GintareKarolinaDziugaite,DanielMRoy,andMichaelCarbin.Stabilizingthelotterytickethypothesis.arXivpreprintarXiv:1903.01611,2019.[20]JonathanFrankle,GintareKarolinaDziugaite,DanielMRoy,andMichaelCarbin.Pruningneuralnetworksatinitialization:Whyarewemissingthemark?arXivpreprintarXiv:2009.08576,2020.[21]TrevorGale,ErichElsen,andSaraHooker.Thestateofsparsityindeepneuralnetworks.arXivpreprintarXiv:1902.09574,2019.[22]SusanGao,XinLiu,Lung-ShengChien,WilliamZhang,andJoseMAlvarez.Vacl:Variance-awarecross-layerregularizationforpruningdeepresidualnetworks.InProceedingsoftheIEEE/CVFInternationalConferenceonComputerVisionWorkshops,pages0–0,2019.[23]YiwenGuo,AnbangYao,andYurongChen.Dynamicnetworksurgeryforefficientdnns.InNIPS,2016.[24]GhouthiBoukliHacene,CarlosLassance,VincentGripon,MatthieuCourbariaux,andYoshuaBengio.Attentionbasedpruningforshiftnetworks.In202025thInternationalConferenceonPatternRecognition(ICPR),pages4054–4061.IEEE,2021.[25]SongHan,HuiziMao,andWilliamJDally.Deepcompression:Compressingdeepneuralnetworkswithpruning,trainedquantizationandhuffmancoding.arXivpreprintarXiv:1510.00149,2015.[26]SongHan,JeffPool,JohnTran,andWilliamJDally.Learningbothweightsandconnectionsforefficientneuralnetwork.InNIPS,2015.[27]SoufianeHayou,Jean-FrancoisTon,ArnaudDoucet,andYeeWhyeTeh.Robustpruningatinitialization.[28]KaimingHe,XiangyuZhang,ShaoqingRen,andJianSun.Deepresiduallearningforimagerecognition.InProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition,pages770–778,2016.[29]YangHe,GuoliangKang,XuanyiDong,YanweiFu,andYiYang.Softfilterpruningforacceleratingdeepconvolutionalneuralnetworks.arXivpreprintarXiv:1808.06866,2018.[30]YihuiHe,JiLin,ZhijianLiu,HanruiWang,Li-JiaLi,andSongHan.Amc:Automlformodelcompressionandaccelerationonmobiledevices.InProceedingsoftheEuropeanConferenceonComputerVision(ECCV),pages784–800,2018.[31]YihuiHe,XiangyuZhang,andJianSun.Channelpruningforacceleratingverydeepneuralnetworks.InProceedingsoftheIEEEInternationalConferenceonComputerVision,pages1389–1397,2017.[32]GeoffreyHinton,OriolVinyals,andJeffDean.Distillingtheknowledgeinaneuralnetwork.stat,1050:9,2015.[33]QianguiHuang,KevinZhou,SuyaYou,andUlrichNeumann.Learningtoprunefiltersinconvolutionalneuralnetworks.In2018IEEEWinterConferenceonApplicationsofComputerVision(WACV),pages709–718.IEEE,2018.[34]DiederikPKingma,TimSalimans,andMaxWelling.Variationaldropoutandthelocalreparameterizationtrick.stat,1050:8,2015.[35]DiederikPKingmaandMaxWelling.Auto-encodingvariationalbayes.stat,1050:1,2014.[36]JohnKKruschkeandJavierRMovellan.Benefitsofgain:Speededlearningandminimalhiddenlayersinback-propagationnetworks.IEEETransactionsonsystems,Man,andCybernetics,21(1):273–280,1991.[37]YannLeCun,JohnSDenker,andSaraASolla.Optimalbraindamage.InAdvancesinneuralinformationprocessingsystems,pages598–605,1990.[38]NamhoonLee,ThalaiyasingamAjanthan,StephenGould,andPhilipHSTorr.Asignalpropagationperspectiveforpruningneuralnetworksatinitialization.InInternationalConferenceonLearningRepresentations,2019.[39]NamhoonLee,ThalaiyasingamAjanthan,andPhilipHSTorr.Snip:Single-shotnetworkpruningbasedonconnectionsensitivity.InternationalConferenceonLearningRepresentations,ICLR,2019.[40]HaoLi,AsimKadav,IgorDurdanovic,HananSamet,andHansPeterGraf.Pruningfiltersforefficientconvnets.arXivpreprintarXiv:1608.08710,2016.[41]ZhuangLiu,JianguoLi,ZhiqiangShen,GaoHuang,ShoumengYan,andChangshuiZhang.Learningefficientconvolutionalnetworksthroughnetworkslimming.InProceedingsoftheIEEEInternationalConferenceonComputerVision,pages2736–2744,2017.[42]ZhuangLiu,MingjieSun,TinghuiZhou,GaoHuang,andTrevorDarrell.Rethinkingthevalueofnetworkpruning.InInternationalConferenceonLearningRepresentations,2018.[43]CLouizos,KUllrich,andMWelling.Bayesiancompressionfordeeplearning.In31stConferenceonNeuralInformationProcessingSystems(NIPS2017),LongBeach,CA,USA.,2017.[44]ChristosLouizos,MaxWelling,andDiederikPKingma.Learningsparseneuralnetworksthroughl0regularization.arXivpreprintarXiv:1712.01312,2017.[45]EranMalach,GiladYehudai,ShaiShalev-Schwartz,andOhadShamir.Provingthelotterytickethypothesis:Pruningisallyouneed.InInternationalConferenceonMachineLearning,pages6682–6691.PMLR,2020.[46]HuiziMao,SongHan,JeffPool,WenshuoLi,XingyuLiu,YuWang,andWilliamJDally.Exploringtheregularityofsparsestructureinconvolutionalneuralnetworks.arXivpreprintarXiv:1705.08922,2017.[47]DecebalConstantinMocanu,ElenaMocanu,PeterStone,PhuongHNguyen,MadeleineGibescu,andAntonioLiotta.Scalabletrainingofartificialneuralnetworkswithadaptivesparseconnectivityinspiredbynetworkscience.Naturecommunications,9(1):1–12,2018.[48]DmitryMolchanov,ArseniiAshukha,andDmitryVetrov.Variationaldropoutsparsifiesdeepneuralnetworks.InInternationalConferenceonMachineLearning,pages2498–2507.PMLR,2017.[49]PavloMolchanov,ArunMallya,StephenTyree,IuriFrosio,andJanKautz.Importanceestimationforneuralnetworkpruning.InProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition,pages11264–11272,2019.[50]PavloMolchanov,StephenTyree,TeroKarras,TimoAila,andJanKautz.Pruningconvolutionalneuralnetworksforresourceefficientinference.arXivpreprintarXiv:1611.06440,2016.[51]AriSMorcos,HaonanYu,MichelaPaganini,andYuandongTian.Onetickettowinthemall:generalizinglotteryticketinitializationsacrossdatasetsandoptimizers.stat,1050:6,2019.[52]HeshamMostafaandXinWang.Parameterefficienttrainingofdeepconvolutionalneuralnetworksbydynamicsparsereparameterization.InInternationalConferenceonMachineLearning,pages4646–4655.PMLR,2019.[53]MichaelCMozerandPaulSmolensky.Skeletonization:Atechniquefortrimmingthefatfromanetworkviarelevanceassessment.InAdvancesinneuralinformationprocessingsystems,pages107–115,1989.[54]KirillNeklyudov,DmitryMolchanov,ArseniiAshukha,andDmitryVetrov.Structuredbayesianpruningvialog-normalmultiplicativenoise.InProceedingsofthe31stInternationalConferenceonNeuralInformationProcessingSystems,pages6778–6787,2017.[55]StevenJNowlanandGeoffreyEHinton.Simplifyingneuralnetworksbysoftweight-sharing.NeuralComputation,4(4):473–493,1992.[56]AdamPaszke,SamGross,SoumithChintala,GregoryChanan,EdwardYang,ZacharyDeVito,ZemingLin,AlbanDesmaison,LucaAntiga,andAdamLerer.Automaticdifferentiationinpytorch.2017.[57]RussellReed.Pruningalgorithms-asurvey.IEEEtransactionsonNeuralNetworks,4(5):740–747,1993.[58]AlexRenda,JonathanFrankle,andMichaelCarbin.Comparingrewindingandfine-tuninginneuralnetworkpruning.arXivpreprintarXiv:2003.02389,2020.[59]PedroSavarese,HugoSilva,andMichaelMaire.Winningthelotterywithcontinuoussparsification

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論