我總結(jié)了70篇論文的方法幫你透徹理解神經(jīng)網(wǎng)絡(luò)的剪枝算法

上傳人：1*** IP屬地：江蘇上傳時(shí)間：2023-02-04 格式：DOCX 頁數(shù)：20 大?。?65.06KB 積分：15 舉報(bào) 版權(quán)申訴

我總結(jié)了70篇論文的方法幫你透徹理解神經(jīng)網(wǎng)絡(luò)的剪枝算法_第2頁

我總結(jié)了70篇論文的方法幫你透徹理解神經(jīng)網(wǎng)絡(luò)的剪枝算法_第3頁

我總結(jié)了70篇論文的方法幫你透徹理解神經(jīng)網(wǎng)絡(luò)的剪枝算法_第4頁

我總結(jié)了70篇論文的方法幫你透徹理解神經(jīng)網(wǎng)絡(luò)的剪枝算法_第5頁

已閱讀5頁，還剩15頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

我總結(jié)了70篇論?的?法，幫你透徹理解神經(jīng)?絡(luò)的剪枝算法?論是在計(jì)算機(jī)視覺、?然語?處理還是圖像?成??，深度神經(jīng)?絡(luò)?前表現(xiàn)出來的性能都是最先進(jìn)的。然?，它們在計(jì)算能?、內(nèi)存或能源消耗??的成本可能令?望?卻步，這使得?部份公司的因?yàn)橛邢薜挠布Y源?完全負(fù)擔(dān)不起訓(xùn)練的費(fèi)?。但是許多領(lǐng)域都受益于神經(jīng)?絡(luò)，因此需要找到?個(gè)在保持其性能的同時(shí)降低成本的辦法。這就是神經(jīng)?絡(luò)壓縮的重點(diǎn)。該領(lǐng)域包含多個(gè)?法系列，例如量化[11]、分解[13]、蒸餾[32]。?本?的重點(diǎn)是剪枝。神經(jīng)?絡(luò)剪枝是?種移除?絡(luò)中性能良好但需要?量資源的多余部分的?法。盡管?型神經(jīng)?絡(luò)已經(jīng)?數(shù)次證明了它們的學(xué)習(xí)能?，但事實(shí)證明，在訓(xùn)練過程結(jié)束后，并?它們的所有部分都仍然有?。這個(gè)想法是在不影響?絡(luò)性能的情況下消除這些多余部分。不幸的是，每年發(fā)表的數(shù)?篇(可能是數(shù)百篇的話)論?都揭?了這個(gè)被認(rèn)為直截了當(dāng)?shù)南敕ㄋ[藏的復(fù)雜性。事實(shí)上，只要快速瀏覽?下?獻(xiàn)，就會(huì)發(fā)現(xiàn)有?數(shù)?法可以在訓(xùn)練前、訓(xùn)練中或訓(xùn)練后識(shí)別這些??的部分，或?qū)⑵湟瞥?最主要的是并不是所有類型的剪枝都能加速神經(jīng)?絡(luò)，這才是關(guān)鍵所在。這篇?章的?標(biāo)是為解決圍繞神經(jīng)?絡(luò)剪枝各種問題。我們將依次回顧三個(gè)似乎是整個(gè)領(lǐng)域核?的問題：“我應(yīng)該修剪什么樣的部分？”，“如何判斷哪些部分可以修剪？”和“如何在不損害?絡(luò)的情況下進(jìn)?修剪？”。綜上所述，我們將詳細(xì)介紹剪枝結(jié)構(gòu)、剪枝標(biāo)準(zhǔn)和剪枝?法。1-剪枝介紹1.1-?結(jié)構(gòu)化剪枝在談到神經(jīng)?絡(luò)的成本時(shí)，參數(shù)數(shù)量肯定是最?泛使?的指標(biāo)之?，還有FLOPS（每秒浮點(diǎn)運(yùn)算）。當(dāng)我們看到?絡(luò)顯?出天?數(shù)字的權(quán)重（GPT3的參數(shù)數(shù)量是1,750億）確實(shí)令??畏。實(shí)際上，修剪連接是?獻(xiàn)中最?泛的范式之?，?以被視為處理剪枝時(shí)的默認(rèn)框架。Han等?的開創(chuàng)性?作[26]提出了這種剪枝?法，并作為許多貢獻(xiàn)的基礎(chǔ)[18,21,25]。直接修剪參數(shù)有很多優(yōu)點(diǎn)。?先，它很簡單，因?yàn)樵趨?shù)張量中?零替換它們的權(quán)重值就?以修剪連接。被?泛使?的深度學(xué)習(xí)框架，例如Pytorch，允許輕松訪問?絡(luò)的所有參數(shù)，使其實(shí)現(xiàn)起來?常簡單。盡管如此，修剪連接的最?優(yōu)勢是它們是?絡(luò)中最?、最基本的元素，因此，它們的數(shù)量?以在不影響性能的情況下?量修剪它們。如此精細(xì)的粒度允許修剪?常細(xì)微的模式，例如，最多可修剪卷積核內(nèi)的參數(shù)。由于修剪權(quán)重完全不受任何約束的限制，并且是修剪?絡(luò)的最佳?式，因此這種范式稱為?結(jié)構(gòu)化剪枝。然?，這種?法存在?個(gè)主要的、致命的缺點(diǎn)：?多數(shù)框架和硬件?法加速稀疏矩陣計(jì)算，這意味著?論你?多少個(gè)零填充參數(shù)張量，它都不會(huì)影響?絡(luò)的實(shí)際成本。然?，影響它的是以?種直接改變?絡(luò)架構(gòu)的?式進(jìn)?修剪，任何框架都可以處理。?結(jié)構(gòu)化（左）和結(jié)構(gòu)化（右）剪枝的區(qū)別：結(jié)構(gòu)化剪枝去除卷積濾波器和內(nèi)核?，?不僅僅是剪枝連接。這導(dǎo)致中間表?中的特征圖更少。1.2-結(jié)構(gòu)化剪枝這就是為什么許多?作都專注于修剪更?的結(jié)構(gòu)的原因，例如整個(gè)神經(jīng)元[36]，或者在更現(xiàn)代的深度卷積?絡(luò)中直接等效，卷積過濾器[40,41,66]。由于?型?絡(luò)往往包括許多卷積層，每個(gè)層數(shù)多達(dá)數(shù)百或數(shù)千個(gè)過濾器，因此過濾器修剪允許使?可利?但?夠精細(xì)的粒度。移除這樣的結(jié)構(gòu)不僅會(huì)導(dǎo)致稀疏層可以直接實(shí)例化為更薄的層，?且這樣做還會(huì)消除作為此類過濾器輸出的特征圖。因此，由于參數(shù)較少這種?絡(luò)不僅易于存儲(chǔ)，?且它們需要更少的計(jì)算并?成更輕的中間表?，因此在運(yùn)?時(shí)需要更少的內(nèi)存。實(shí)際上，有時(shí)減少帶寬?減少參數(shù)計(jì)數(shù)更有益。事實(shí)上，對(duì)于涉及?圖像的任務(wù)，例如語義分割或?qū)ο髾z測，中間表?可能會(huì)消耗?量內(nèi)存，遠(yuǎn)遠(yuǎn)超過?絡(luò)本?。由于這些原因，過濾器修剪現(xiàn)在被視為結(jié)構(gòu)化剪枝的默認(rèn)類型。然?，在應(yīng)?這種修剪時(shí)，應(yīng)注意以下?個(gè)??。讓我們考慮如何構(gòu)建卷積層：對(duì)于輸?通道中的C和輸出通道中的C，卷積層由Cout過濾器組成，每個(gè)過濾器都計(jì)算Cin核；每個(gè)過濾器輸出?個(gè)特征圖，在每個(gè)過濾器中，?個(gè)內(nèi)核專?于每個(gè)輸?通道?？紤]到這種架構(gòu)，在修剪整個(gè)過濾器時(shí)，?們可能會(huì)觀察到修剪當(dāng)前過濾器，然后它會(huì)影響當(dāng)前輸出的特征圖，實(shí)際上也會(huì)導(dǎo)致在隨后的層中修剪相應(yīng)的過濾器。這意味著，在修剪過濾器時(shí)，實(shí)際上可能會(huì)修剪?開始被認(rèn)為要?jiǎng)h除的參數(shù)數(shù)量的兩倍。讓我們也考慮?下，當(dāng)整個(gè)層碰巧被修剪時(shí)（這往往是由于層崩潰[62]，但并不總是破壞?絡(luò)，具體取決于架構(gòu)），前?層的輸出現(xiàn)在完全沒有連接，因此也被刪減：刪減整個(gè)層實(shí)際上可能刪減其所有先前的層，這些層的輸出在其他地?沒有以某種?式連接（由于殘差連接[28]或整個(gè)并?路徑[61]）。因此在修剪過濾器時(shí)，應(yīng)考慮計(jì)算實(shí)際修剪參數(shù)的確切數(shù)量。事實(shí)上，根據(jù)過濾器在體系結(jié)構(gòu)中的分布情況，修剪相同數(shù)量的過濾器可能不會(huì)導(dǎo)致相同數(shù)量的實(shí)際修剪參數(shù)，從?使任何結(jié)果都?法與之進(jìn)??較。在轉(zhuǎn)移話題之前，讓我們提?下，盡管數(shù)量很少，但有些?作專注于修剪卷積核（過濾器）、核內(nèi)結(jié)構(gòu)[2,24,46]甚?特定的參數(shù)結(jié)構(gòu)。但是，此類結(jié)構(gòu)需要特殊的實(shí)現(xiàn)才能實(shí)現(xiàn)任何類型的加速（如?結(jié)構(gòu)化剪枝）。然?，另?種可利?的結(jié)構(gòu)是通過修剪每個(gè)內(nèi)核中除?個(gè)參數(shù)之外的所有參數(shù)并將卷積轉(zhuǎn)換為“位移層”（shiftlayers），然后可以將其總結(jié)為位移操作和1×1卷積的組合[24]。結(jié)構(gòu)化剪枝的危險(xiǎn)：改變層的輸?和輸出維度會(huì)導(dǎo)致?些差異。如果在左邊，兩個(gè)層輸出相同數(shù)量的特征圖，然后可以很好地相加，右邊的剪枝產(chǎn)?不同維度的中間表?，如果不處理它們就?法相加。2-剪枝標(biāo)準(zhǔn)?旦決定了要修剪哪種結(jié)構(gòu)，下?個(gè)可能會(huì)問的問題是：“現(xiàn)在，我如何確定要保留哪些結(jié)構(gòu)以及要修剪哪些結(jié)構(gòu)？”。為了回答這個(gè)問題，需要?個(gè)適當(dāng)?shù)男藜魳?biāo)準(zhǔn)，這將對(duì)參數(shù)、過濾器或其他的相對(duì)重要性進(jìn)?排名。2.1-權(quán)重??標(biāo)準(zhǔn)?個(gè)?常直觀且?常有效的標(biāo)準(zhǔn)是修剪絕對(duì)值（或“幅度”）最?的權(quán)重。實(shí)際上，在權(quán)重衰減的約束下，那些對(duì)函數(shù)沒有顯著貢獻(xiàn)的函數(shù)在訓(xùn)練期間會(huì)縮?幅度。因此，多余的權(quán)重被定義為是那些絕對(duì)值較?的權(quán)重[8]。盡管它很簡單，但幅度標(biāo)準(zhǔn)仍然?泛?于最新的?法[21,26,58]，使其成為該領(lǐng)域的主要內(nèi)容。然?，雖然這個(gè)標(biāo)準(zhǔn)在?結(jié)構(gòu)化剪枝的情況下實(shí)現(xiàn)起來似乎微不?道，但?們可能想知道如何使其適應(yīng)結(jié)構(gòu)化剪枝。?種直接的?法是根據(jù)過濾器的范數(shù)（例如L1或L2）對(duì)過濾器進(jìn)?排序[40,70]。如果這種?法?常簡單，?們可能希望將多組參數(shù)封裝在?個(gè)度量中：例如，?個(gè)卷積過濾器、它的偏差和它的批量歸?化參數(shù)，或者甚?是并?層中的相應(yīng)過濾器，其輸出隨后被融合。?種?法是在不需要計(jì)算這些參數(shù)的組合范數(shù)的情況下，在要修剪的每組圖層之后為每個(gè)特征圖插??個(gè)可學(xué)習(xí)的乘法參數(shù)。當(dāng)這個(gè)參數(shù)減少到零時(shí)，有效地修剪了負(fù)責(zé)這個(gè)通道的整套參數(shù)，這個(gè)參數(shù)的??說明了所有參數(shù)的重要性。因此，該?法包括修剪較?量級(jí)的參數(shù)[36,41]。2.2-梯度幅度剪枝權(quán)重的??并不是唯?存在的流?標(biāo)準(zhǔn)（或標(biāo)準(zhǔn)系列）。實(shí)際上，?直持續(xù)到現(xiàn)在的另?個(gè)主要標(biāo)準(zhǔn)是梯度的??。事實(shí)上，早在80年代，?些基礎(chǔ)?作[37,53]通過移除參數(shù)對(duì)損失的影響的泰勒分解進(jìn)?了理論化，?些從反向傳播梯度導(dǎo)出的度量可以提供?種很好的?法來確定可以在不損壞?絡(luò)的情況下修剪哪些參數(shù)。該?法[4,50]的最新的實(shí)現(xiàn)實(shí)際上是在?批量訓(xùn)練數(shù)據(jù)上累積梯度，并根據(jù)該梯度與每個(gè)參數(shù)的相應(yīng)權(quán)重之間的乘積進(jìn)?修剪。該標(biāo)準(zhǔn)也可以應(yīng)?于上述參數(shù)?法[49]。2.3—全局或局部剪枝要考慮的最后?個(gè)??是所選標(biāo)準(zhǔn)是否是全局應(yīng)?于?絡(luò)的所有參數(shù)或過濾器，或者是否為每?層獨(dú)?計(jì)算。雖然多次證明全局修剪可以產(chǎn)?更好的結(jié)果，但它可能導(dǎo)致層崩潰[62]。避免這個(gè)問題的?個(gè)簡單?法是采?逐層局部剪枝，即在使?的?法不能防?層崩潰時(shí)，在每?層剪枝相同的速率。局部剪枝（左）和全局剪枝（右）的區(qū)別：局部剪枝對(duì)每?層應(yīng)?相同的速率，?全局剪枝?次在整個(gè)?絡(luò)上應(yīng)?。3-剪枝?法現(xiàn)在我們已經(jīng)獲得了修剪結(jié)構(gòu)和標(biāo)準(zhǔn)，剩下的唯?需要確認(rèn)的是我們應(yīng)該使?哪種?法來修剪?絡(luò)。這實(shí)際上這是?獻(xiàn)中最令?困惑的話題，因?yàn)槊科?都會(huì)帶來??的怪癖和噱頭，以?于?們可能會(huì)在有條不紊的相關(guān)內(nèi)容和給定論?的特殊性之間迷失。這就是為什么我們將按主題概述?些最流?的修剪神經(jīng)?絡(luò)的?法系列，以突出訓(xùn)練期間使?稀疏性的演變。3.1-經(jīng)典框架：訓(xùn)練、修剪和微調(diào)要知道的第?個(gè)基本框架是訓(xùn)練、修剪和微調(diào)?法，它顯然涉及1)訓(xùn)練?絡(luò)2)通過將修剪結(jié)構(gòu)和標(biāo)準(zhǔn)所針對(duì)的所有參數(shù)設(shè)置為0來修剪它（這些參數(shù)之后?法恢復(fù)）和3）?最低的學(xué)習(xí)率訓(xùn)練?絡(luò)?個(gè)額外的時(shí)期，讓它有機(jī)會(huì)從修剪引起的性能損失中恢復(fù)過來。通常，最后兩個(gè)步驟可以迭代，每次都會(huì)增加修剪率。Han等?提出的?法[26]應(yīng)?的就是這種?法，在修剪和微調(diào)之間進(jìn)?5次迭代，以進(jìn)?權(quán)重修剪。迭代已被證明可以提?性能，但代價(jià)是額外的計(jì)算和訓(xùn)練時(shí)間。這個(gè)簡單的框架是許多?法[26,40,41,50,66]的基礎(chǔ)，可以看作是其他所有作品的默認(rèn)?法。3.2-擴(kuò)展經(jīng)典框架雖然沒有偏離太多，但某些?法對(duì)Han等?的上述經(jīng)典框架進(jìn)?了重?修改[26]，Gale等?[21]通過在整個(gè)訓(xùn)練過程中逐漸移除越來越多的權(quán)重，進(jìn)?步推動(dòng)了迭代的原則，這使得可以從迭代的優(yōu)勢中受益并移除整個(gè)微調(diào)過程。He等?[29]在每個(gè)epoch將可修剪的過濾器逐步減少到0，同時(shí)不阻?它們學(xué)習(xí)和之后更新，以便讓它們的權(quán)重在修剪后重新增長，同時(shí)在訓(xùn)練期間加強(qiáng)稀疏性。最后，Renda等?的?法[58]涉及在修剪?絡(luò)后完全重新訓(xùn)練?絡(luò)。與以最低學(xué)習(xí)率執(zhí)?的微調(diào)不同，再訓(xùn)練遵循與訓(xùn)練相同的學(xué)習(xí)率計(jì)劃，因此被稱為：“Learning-RateRewinding”。與單純的微調(diào)相?，這種再訓(xùn)練已顯?出更好的性能，?且成本要?得多。3.3-初始化時(shí)的修剪為了加快訓(xùn)練速度，避免微調(diào)并防?在訓(xùn)練期間或之后對(duì)架構(gòu)進(jìn)?任何更改，多項(xiàng)?作都集中在訓(xùn)練前的剪枝上。在SNIP[39]之后，許多?法都研究了LeCun等?的?法[37]或Mozer和Smolensky[53]在初始化時(shí)修剪[12,64]，包括深?的理論研究[27,38,62]。然?，OptimalBrainDamage[37]依賴于多個(gè)近似值，包括“極值”近似值，即“假設(shè)訓(xùn)練收斂后將執(zhí)?參數(shù)刪除”[37]；這個(gè)事實(shí)很少被提及，即使在基于它的?法中也是如此。?些?作對(duì)此類?法?成掩碼的能?提出了保留意見，這些掩碼的相關(guān)性優(yōu)于每層相似分布的隨機(jī)掩碼[20]。另?個(gè)研究修剪和初始化之間關(guān)系的?法家族圍繞著“彩票假設(shè)”[18]。這個(gè)假設(shè)指出“隨機(jī)初始化的密集神經(jīng)?絡(luò)包含?個(gè)???作，它被初始化，這樣當(dāng)單獨(dú)訓(xùn)練時(shí)它可以在訓(xùn)練最多相同迭代次數(shù)后與原始?絡(luò)的測試精度相匹配”。在實(shí)踐中，該?獻(xiàn)研究了使?已經(jīng)收斂的?絡(luò)定義的剪枝掩碼在剛初始化時(shí)可以應(yīng)?于?絡(luò)的效果如何。多項(xiàng)?作擴(kuò)展、穩(wěn)定或研究了這?假設(shè)[14,19,45,51,69]。然?，多項(xiàng)?作再次傾向于質(zhì)疑假設(shè)的有效性以及?于研究它的?法[21,42]，有些甚?傾向于表明它的好處來?于使?確定性掩碼?不是完全訓(xùn)練的原則，“WinningTicket”[58]。經(jīng)典的“訓(xùn)練、剪枝和微調(diào)”框架[26]、彩票實(shí)驗(yàn)[18]和Learning-RateRewinding[58]之間的?較。3.4-稀疏訓(xùn)練上?提到的?法都與?個(gè)看似共享的潛在主題相關(guān)聯(lián)：在稀疏約束下訓(xùn)練。這個(gè)原則是?系列?法的核?，稱為稀疏訓(xùn)練，它包括在訓(xùn)練期間強(qiáng)制執(zhí)?恒定的稀疏率，同時(shí)其分布變化并逐漸調(diào)整。由Mocanu等?提出[47]，它包括：1)?隨機(jī)掩碼初始化?絡(luò)，修剪?定?例的?絡(luò)2)在?個(gè)輪次內(nèi)訓(xùn)練這個(gè)修剪過的?絡(luò)3)修剪?定數(shù)量的最低數(shù)量的權(quán)重4)重新增長相同的隨機(jī)權(quán)重的數(shù)量。這樣，修剪掩碼?先是隨機(jī)的，逐漸調(diào)整以針對(duì)最?的導(dǎo)?權(quán)重，同時(shí)在整個(gè)訓(xùn)練過程中強(qiáng)制執(zhí)?稀疏性。每?層[47]或全局[52]的稀疏級(jí)別可以相同。其他?法通過使?某個(gè)標(biāo)準(zhǔn)來重新增加權(quán)重?不是隨機(jī)選擇它們來擴(kuò)展稀疏訓(xùn)練[15,17]。稀疏訓(xùn)練在訓(xùn)練期間周期性地削減和增長不同的權(quán)重，這會(huì)導(dǎo)致調(diào)整后的掩碼應(yīng)僅針對(duì)相關(guān)參數(shù)。3.5-掩碼學(xué)習(xí)與依賴任意標(biāo)準(zhǔn)來修剪或重新增加權(quán)重不同，多種?法專注于在訓(xùn)練期間學(xué)習(xí)修剪掩碼。兩種?法似乎在這個(gè)領(lǐng)域盛?：1）通過單獨(dú)的?絡(luò)或?qū)舆M(jìn)?掩碼學(xué)習(xí)；2）通過輔助參數(shù)進(jìn)?掩碼學(xué)習(xí)。多種策略可以適?于第?類?法：訓(xùn)練單獨(dú)的代理以盡可能多地修剪?層的過濾器，同時(shí)最?限度地提?準(zhǔn)確性[33]、插?基于注意?的層[68]或使?強(qiáng)化學(xué)習(xí)[30].第?種?法旨在將剪枝視為?個(gè)優(yōu)化問題，它傾向于最?化?絡(luò)的L0范數(shù)及其監(jiān)督損失。由于L0是不可微的，因此各種?法主要涉及通過使?懲罰輔助參數(shù)來規(guī)避這個(gè)問題，這些輔助參數(shù)在前向傳遞期間與其相應(yīng)的參數(shù)相乘[59,23]。許多?法[44,60,67]依賴于?種類似于“?元連接”[11]的?法，即：對(duì)參數(shù)應(yīng)?隨機(jī)門，這些參數(shù)的值每個(gè)都從它們??的參數(shù)p的伯努利分布中隨機(jī)抽取“StraightThroughEstimator”[3]或其他?式[44]。3.6-基于懲罰的?法許多?法不是?動(dòng)修剪連接或懲罰輔助參數(shù)，?是對(duì)權(quán)重本?施加各種懲罰，使它們逐漸縮?到0。這個(gè)概念實(shí)際上很古?[57]，因?yàn)闄?quán)重衰減已經(jīng)是?個(gè)必不可少的權(quán)重??標(biāo)準(zhǔn)。除了使?單純的權(quán)重衰減之外，甚?在那時(shí)也有多項(xiàng)?作專注于制定專門?于強(qiáng)制執(zhí)?稀疏性的懲罰[55,65]。今天，除了權(quán)重衰減之外，各種?法應(yīng)?不同的正則化來進(jìn)?步增加稀疏性（通常使?L1范數(shù)[41]）。在最新的?法中，多種?法依賴于LASSO[22,31,66]來修剪權(quán)重或組。其他?法制定了針對(duì)弱連接的懲罰，以增加要保留的參數(shù)和要修剪的參數(shù)之間的差距，從?減少它們的刪除影響[7,16]。?些?法表明，針對(duì)在整個(gè)訓(xùn)練過程中不斷增長的懲罰的權(quán)重?集可以逐步修剪它們并可以進(jìn)??縫刪除[6,9,63]。?獻(xiàn)還計(jì)算了圍繞“VariationalDropout”原理構(gòu)建的?系列?法[34]，這是?種基于變分推理[5]的?法，應(yīng)?于深度學(xué)習(xí)[35]。作為?種剪枝?法[48]，它產(chǎn)?了多種將其原理應(yīng)?于結(jié)構(gòu)化剪枝[43,54]的?法。4-可?的框架如果這些?法中的?多數(shù)必須從頭開始實(shí)現(xiàn)（或者可以從每篇論?的提供源代碼中重?），以下這些框架都可以應(yīng)?基本?法或使上述實(shí)現(xiàn)更容易。4.1-PytorchPytorch[56]提供了?些基本的剪枝?法，例如全局剪枝或局部剪枝，?論是結(jié)構(gòu)化的還是?結(jié)構(gòu)化的。結(jié)構(gòu)化修剪可以應(yīng)?于權(quán)重張量的任何維度，它可以修剪過濾器、內(nèi)核?甚?內(nèi)核內(nèi)部的?些?和列。那些內(nèi)置的基本?法還允許隨機(jī)修剪或根據(jù)各種規(guī)范進(jìn)?修剪。4.2-TensorflowTensorflow[1]的Keras[10]庫提供了?些基本?具來修剪最低量級(jí)的權(quán)重。例如在Han等?[25]的?作中，修剪的效率是根據(jù)所有插?的零引?的冗余程度來衡量的，可以更好地壓縮模型（與量化結(jié)合得很好）。4.3-ShrinkBenchBlalock等?[4]在他們的?作中提供了?個(gè)?定義庫，以幫助社區(qū)規(guī)范剪枝算法的?較?式。ShrinkBench基于Pytorch，旨在使剪枝?法的實(shí)施更容易，同時(shí)規(guī)范訓(xùn)練和測試的條件。它提供了?種不同的基線，例如隨機(jī)剪枝、全局或分層以及權(quán)重??或梯度??剪枝。5-?法的簡要回顧在這篇?章中，引?了許多不同的論?。這是?個(gè)簡單的表格，粗略總結(jié)了它們的作?以及它們的區(qū)別（提供的?期是?次發(fā)布的?期）：ArticleDateStructureCriterionMethodRemarkSourcesClassicmethodsHanetal.2015weightsweightsmagnitudetrain,pruneandfine-tuneprototypicalpruningmethodnoneGaleetal.2019weightsweightsmagnitudegradualremoval-noneRendaetal.2020weightsweightsmagnitudetrain,pruneandre-train(“LR-Rewinding”)-yesLietal.2016filtersL1normofweightstrain,pruneandfine-tune-noneMolchanovetal.2016filtersgradientmagnitudetrain,pruneandfine-tune-noneLiuetal.2017filtersmagnitudeofbatchnormparameterstrain,pruneandfine-tunegates-basedstructuredpruningnoneHeetal.2018filtersL2normofweightssoftpruningzeroesoutfilterswithoutremovaluntiltheendyesMolchanovetal.2019filtersgradientmagnitudetrain,pruneandfine-tuneinsertsgatestoprunefiltersnonePruningatinitializationLeeetal.2018weightsgradientmagnitudepruneandtrain“SNIP”yesLeeetal.2019weights“dynamicalisometry”pruneandtraindatalessmethodyesWangetal.2020weightssecond-orderderivativepruneandtrain“GraSP”:alikeSNIPbutwithacriterionclosertothatofLeCunetal.yesTanakaetal.2020weights“synapticflow”pruneandtrain“SynFlow”:datalessmethodyesFrankleetal.2018weightsweightsmagnitudetrain,rewind,pruneandretrain“l(fā)otteryticket”noneSparsetrainingMocanuetal.2018weightsweightsmagnitudesparsetrainingrandomregrowthofprunedweightsyesMostafaandWang2019weightsweightsmagnitudesparsetrainingalikeMocanuetal.butglobalinsteadoflayer-wisenoneDettmersandZettlemoyer2019weightsweightsmagnitudesparsetrainingregrowthandlayer-wisepruningratedependingonmomentumyesEvcietal.2019weightsweightsmagnitudesparsetrainingregrowthongradientmagnitudeyesMasklearningHuangetal.2018filtersN/Atrain,pruneandfine-tunetrainspruningagentsthattargetfilterstoprunenoneHeetal.2018filtersN/Atrain,pruneandfine-tuneusesreinforcementlearningtotargetfilterstopruneyesYamamotoandMaeno2018filtersN/Atrain,pruneandfine-tune“PCAS”:usesattentionmodulestotargetfilterstoprunenoneGuoetal.2016weightsweightmagnitudemasklearningupdatesamaskdependingontwodifferentthresholdsonthemagnitudeofweightsyesSrinivasetal.2016weightsN/AmasklearningalikeBinaryConnectappliedtoauxiliaryparametersnoneLouizosetal.2017weightsN/AmasklearningvariantofBinaryConnect,appliedtoauxiliaryparameters,thatavoidsresortingtotheStraightThroughEstimatoryesXiaoetal.2019weightsN/AmasklearningalikeBinaryConnectbutaltersthegradientpropagatedtotheauxiliaryparametersnoneSavareseetal.2019weightsN/AmasklearningapproximatesL0withaheavysidefunction,whichisitselfapproximatedbyasigmoidofincreasingtemperatureoverauxiliaryparametersyesPenalty-basedmethodsWenetal.2016filtersN/AGroup-LASSOregularization-yesHeetal.2017filtersN/AGroup-LASSOregularizationalsoreconstructstheoutputsofprunedlayersbyleastsquaresyesGaoetal.2019filtersN/AGroup-LASSOregularizationprunesmatchingfiltersaccrosslayersandpenalizesvarianceofweightsnoneChangandSha2018weightsweightmagnitudeglobalpenaltymodifiestheweightdecaytomakeitinducemoresparsitynoneMolchanovetal.2017weightsN/A“VariationalDropout”applicationofvariationalinferenceonpruningnoneNeklyudovetal.2017filtersN/A“VariationalDropout”structuredversionofvariationaldropoutyesArticleDateStructureCriterionMethodRemarkSourcesLouizosetal.2017filtersN/A“VariationalDropout”anotherstructuredversionofvariationaldropoutnoneDingetal.2018filtersweightmagnitudetargetedpenaltypenalizesorstimulatefiltersdependingonthedistanceoftheirL2normtoagiventhresholdnoneChoietal.2018weightsweightmagnitudetargetedpenaltyateachsteppenalizesweightsofleastmagnitudebyitsL2norm,withanimportancethatislearnedthroughouttrainingnoneCarreira-Perpi?ánandIdelbayev2018weightsweightmagnitudetargetedpenaltydefinesamaskdependingonweightsofleastmagnitudesandpenalizesthemtowardzerononeTessieretal.2020anyany(weightmagnitude)targetedpenaltyateachsteppenalizesprunableweightsorfiltersbyitsL2norm,withanimportancethatgrowsexponentiallythroughouttrainingyesArticleDateStructureCriterionMethodRemarkSources5-總結(jié)在我們對(duì)?獻(xiàn)的快速概覽中，我們看到1)剪枝結(jié)構(gòu)定義了從剪枝中期望獲得的收益2)剪枝標(biāo)準(zhǔn)基于各種理論或?qū)嵺`3)剪枝?法傾向于在訓(xùn)練期間引?稀疏性兼顧性能和成本。我們還看到，盡管它的最開始的?作可以追溯到80年代后期，但神經(jīng)?絡(luò)剪枝是?個(gè)?常動(dòng)態(tài)的領(lǐng)域，今天仍然經(jīng)歷著基本的發(fā)現(xiàn)和新的基本概念。盡管該領(lǐng)域每天都有貢獻(xiàn)，但似乎仍有很?的探索和創(chuàng)新空間。如果?法的每個(gè)?族都可以看作是回答問題的?個(gè)嘗試（“如何重新?成剪枝后的權(quán)重？”、“如何通過優(yōu)化學(xué)習(xí)剪枝掩碼？”、“如何通過更柔和的平均值來進(jìn)?權(quán)重去除？”……)，根據(jù)?獻(xiàn)的演變似乎指出了?個(gè)?向：整個(gè)訓(xùn)練的稀疏性。這個(gè)?向提出了許多問題，例如：“剪枝標(biāo)準(zhǔn)在尚未收斂的?絡(luò)上是否有效？”或者“如何從?開始就從任何類型的稀疏性訓(xùn)練中區(qū)分選擇要修剪的權(quán)重的好處？”引?[1]Mart?nAbadi,AshishAgarwal,PaulBarham,EugeneBrevdo,ZhifengChen,CraigCitro,GregS.Corrado,AndyDavis,JeffreyDean,MatthieuDevin,SanjayGhemawat,IanGoodfellow,AndrewHarp,GeoffreyIrving,MichaelIsard,YangqingJia,RafalJozefowicz,LukaszKaiser,ManjunathKudlur,JoshLevenberg,DandelionMané,RajatMonga,SherryMoore,DerekMurray,ChrisOlah,MikeSchuster,JonathonShlens,BenoitSteiner,IlyaSutskever,KunalTalwar,PaulTucker,VincentVanhoucke,VijayVasudevan,FernandaViégas,OriolVinyals,PeteWarden,MartinWattenberg,MartinWicke,YuanYu,andXiaoqiangZheng.TensorFlow:Large-scalemachinelearningonheterogeneoussystems,2015.S.[2]SajidAnwar,KyuyeonHwang,andWonyongSung.Structuredpruningofdeepconvolutionalneuralnetworks.ACMJournalonEmergingTechnologiesinComputingSystems(JETC),13(3):1–18,2017.[3]YoshuaBengio,NicholasLéonard,andAaronCourville.Estimatingorpropagatinggradientsthroughstochasticneuronsforconditionalcomputation.arXivpreprintarXiv:1308.3432,2013.[4]DavisBlalock,JoseJavierGonzalezOrtiz,JonathanFrankle,andJohnGuttag.Whatisthestateofneuralnetworkpruning?arXivpreprintarXiv:2003.03033,2020.[5]DavidMBlei,AlpKucukelbir,andJonDMcAuliffe.Variationalinference:Areviewforstatisticians.JournaloftheAmericanstatisticalAssociation,112(518):859–877,2017.[6]MiguelACarreira-PerpinánandYerlanIdelbayev.“l(fā)earning-compression”algorithmsforneuralnetpruning.InProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,pages8532–8541,2018.[7]JingChangandJinSha.PrunedeepneuralnetworkswiththemodifiedL1/2penalty.IEEEAccess,7:2273–2280,2018.[8]YvesChauvin.Aback-propagationalgorithmwithoptimaluseofhiddenunits.InNIPS,volume1,pages519–526,1988.[9]YoojinChoi,MostafaEl-Khamy,andJungwonLee.Compressionofdeepconvolutionalneuralnetworksunderjointsparsityconstraints.arXivpreprintarXiv:1805.08303,2018.[10]FrancoisCholletetal.Keras,2015.[11]MatthieuCourbariaux,YoshuaBengio,andJean-PierreDavid.Binaryconnect:Trainingdeepneuralnetworkswithbinaryweightsduringpropagations.InNIPS,2015.[12]PaudeJorge,AmartyaSanyal,HarkiratSBehl,PhilipHSTorr,GregoryRogez,andPuneetKDokania.Progressiveskeletonization:Trimmingmorefatfromanetworkatinitialization.arXivpreprintarXiv:2006.09081,2020.[13]EmilyDenton,WojciechZaremba,JoanBruna,YannLeCun,andRobFergus.Exploitinglinearstructurewithinconvolutionalnetworksforefficientevaluation.In28thAnnualConferenceonNeuralInformationProcessingSystems2014,NIPS2014,pages1269–1277.Neuralinformationprocessingsystemsfoundation,2014.[14]ShreyDesai,HongyuanZhan,andAhmedAly.Evaluatinglotteryticketsunderdistributionalshifts.InProceedingsofthe2ndWorkshoponDeepLearningApproachesforLow-ResourceNLP(DeepLo2019),pages153–162,2019.[15]TimDettmersandLukeZettlemoyer.Sparsenetworksfromscratch:Fastertrainingwithoutlosingperformance.arXivpreprintarXiv:1907.04840,2019.[16]XiaohanDing,GuiguangDing,XiangxinZhou,YuchenGuo,JungongHan,andJiLiu.Globalsparsemomentumsgdforpruningverydeepneuralnetworks.arXivpreprintarXiv:1909.12778,2019.[17]UtkuEvci,TrevorGale,JacobMenick,PabloSamuelCastro,andErichElsen.Riggingthelottery:Makingallticketswinners.InInternationalConferenceonMachineLearning,pages2943–2952.PMLR,2020.[18]JonathanFrankleandMichaelCarbin.Thelotterytickethypothesis:Findingsparse,trainableneuralnetworks.arXivpreprintarXiv:1803.03635,2018.[19]JonathanFrankle,GintareKarolinaDziugaite,DanielMRoy,andMichaelCarbin.Stabilizingthelotterytickethypothesis.arXivpreprintarXiv:1903.01611,2019.[20]JonathanFrankle,GintareKarolinaDziugaite,DanielMRoy,andMichaelCarbin.Pruningneuralnetworksatinitialization:Whyarewemissingthemark?arXivpreprintarXiv:2009.08576,2020.[21]TrevorGale,ErichElsen,andSaraHooker.Thestateofsparsityindeepneuralnetworks.arXivpreprintarXiv:1902.09574,2019.[22]SusanGao,XinLiu,Lung-ShengChien,WilliamZhang,andJoseMAlvarez.Vacl:Variance-awarecross-layerregularizationforpruningdeepresidualnetworks.InProceedingsoftheIEEE/CVFInternationalConferenceonComputerVisionWorkshops,pages0–0,2019.[23]YiwenGuo,AnbangYao,andYurongChen.Dynamicnetworksurgeryforefficientdnns.InNIPS,2016.[24]GhouthiBoukliHacene,CarlosLassance,VincentGripon,MatthieuCourbariaux,andYoshuaBengio.Attentionbasedpruningforshiftnetworks.In202025thInternationalConferenceonPatternRecognition(ICPR),pages4054–4061.IEEE,2021.[25]SongHan,HuiziMao,andWilliamJDally.Deepcompression:Compressingdeepneuralnetworkswithpruning,trainedquantizationandhuffmancoding.arXivpreprintarXiv:1510.00149,2015.[26]SongHan,JeffPool,JohnTran,andWilliamJDally.Learningbothweightsandconnectionsforefficientneuralnetwork.InNIPS,2015.[27]SoufianeHayou,Jean-FrancoisTon,ArnaudDoucet,andYeeWhyeTeh.Robustpruningatinitialization.[28]KaimingHe,XiangyuZhang,ShaoqingRen,andJianSun.Deepresiduallearningforimagerecognition.InProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition,pages770–778,2016.[29]YangHe,GuoliangKang,XuanyiDong,YanweiFu,andYiYang.Softfilterpruningforacceleratingdeepconvolutionalneuralnetworks.arXivpreprintarXiv:1808.06866,2018.[30]YihuiHe,JiLin,ZhijianLiu,HanruiWang,Li-JiaLi,andSongHan.Amc:Automlformodelcompressionandaccelerationonmobiledevices.InProceedingsoftheEuropeanConferenceonComputerVision(ECCV),pages784–800,2018.[31]YihuiHe,XiangyuZhang,andJianSun.Channelpruningforacceleratingverydeepneuralnetworks.InProceedingsoftheIEEEInternationalConferenceonComputerVision,pages1389–1397,2017.[32]GeoffreyHinton,OriolVinyals,andJeffDean.Distillingtheknowledgeinaneuralnetwork.stat,1050:9,2015.[33]QianguiHuang,KevinZhou,SuyaYou,andUlrichNeumann.Learningtoprunefiltersinconvolutionalneuralnetworks.In2018IEEEWinterConferenceonApplicationsofComputerVision(WACV),pages709–718.IEEE,2018.[34]DiederikPKingma,TimSalimans,andMaxWelling.Variationaldropoutandthelocalreparameterizationtrick.stat,1050:8,2015.[35]DiederikPKingmaandMaxWelling.Auto-encodingvariationalbayes.stat,1050:1,2014.[36]JohnKKruschkeandJavierRMovellan.Benefitsofgain:Speededlearningandminimalhiddenlayersinback-propagationnetworks.IEEETransactionsonsystems,Man,andCybernetics,21(1):273–280,1991.[37]YannLeCun,JohnSDenker,andSaraASolla.Optimalbraindamage.InAdvancesinneuralinformationprocessingsystems,pages598–605,1990.[38]NamhoonLee,ThalaiyasingamAjanthan,StephenGould,andPhilipHSTorr.Asignalpropagationperspectiveforpruningneuralnetworksatinitialization.InInternationalConferenceonLearningRepresentations,2019.[39]NamhoonLee,ThalaiyasingamAjanthan,andPhilipHSTorr.Snip:Single-shotnetworkpruningbasedonconnectionsensitivity.InternationalConferenceonLearningRepresentations,ICLR,2019.[40]HaoLi,AsimKadav,IgorDurdanovic,HananSamet,andHansPeterGraf.Pruningfiltersforefficientconvnets.arXivpreprintarXiv:1608.08710,2016.[41]ZhuangLiu,JianguoLi,ZhiqiangShen,GaoHuang,ShoumengYan,andChangshuiZhang.Learningefficientconvolutionalnetworksthroughnetworkslimming.InProceedingsoftheIEEEInternationalConferenceonComputerVision,pages2736–2744,2017.[42]ZhuangLiu,MingjieSun,TinghuiZhou,GaoHuang,andTrevorDarrell.Rethinkingthevalueofnetworkpruning.InInternationalConferenceonLearningRepresentations,2018.[43]CLouizos,KUllrich,andMWelling.Bayesiancompressionfordeeplearning.In31stConferenceonNeuralInformationProcessingSystems(NIPS2017),LongBeach,CA,USA.,2017.[44]ChristosLouizos,MaxWelling,andDiederikPKingma.Learningsparseneuralnetworksthroughl0regularization.arXivpreprintarXiv:1712.01312,2017.[45]EranMalach,GiladYehudai,ShaiShalev-Schwartz,andOhadShamir.Provingthelotterytickethypothesis:Pruningisallyouneed.InInternationalConferenceonMachineLearning,pages6682–6691.PMLR,2020.[46]HuiziMao,SongHan,JeffPool,WenshuoLi,XingyuLiu,YuWang,andWilliamJDally.Exploringtheregularityofsparsestructureinconvolutionalneuralnetworks.arXivpreprintarXiv:1705.08922,2017.[47]DecebalConstantinMocanu,ElenaMocanu,PeterStone,PhuongHNguyen,MadeleineGibescu,andAntonioLiotta.Scalabletrainingofartificialneuralnetworkswithadaptivesparseconnectivityinspiredbynetworkscience.Naturecommunications,9(1):1–12,2018.[48]DmitryMolchanov,ArseniiAshukha,andDmitryVetrov.Variationaldropoutsparsifiesdeepneuralnetworks.InInternationalConferenceonMachineLearning,pages2498–2507.PMLR,2017.[49]PavloMolchanov,ArunMallya,StephenTyree,IuriFrosio,andJanKautz.Importanceestimationforneuralnetworkpruning.InProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition,pages11264–11272,2019.[50]PavloMolchanov,StephenTyree,TeroKarras,TimoAila,andJanKautz.Pruningconvolutionalneuralnetworksforresourceefficientinference.arXivpreprintarXiv:1611.06440,2016.[51]AriSMorcos,HaonanYu,MichelaPaganini,andYuandongTian.Onetickettowinthemall:generalizinglotteryticketinitializationsacrossdatasetsandoptimizers.stat,1050:6,2019.[52]HeshamMostafaandXinWang.Parameterefficienttrainingofdeepconvolutionalneuralnetworksbydynamicsparsereparameterization.InInternationalConferenceonMachineLearning,pages4646–4655.PMLR,2019.[53]MichaelCMozerandPaulSmolensky.Skeletonization:Atechniquefortrimmingthefatfromanetworkviarelevanceassessment.InAdvancesinneuralinformationprocessingsystems,pages107–115,1989.[54]KirillNeklyudov,DmitryMolchanov,ArseniiAshukha,andDmitryVetrov.Structuredbayesianpruningvialog-normalmultiplicativenoise.InProceedingsofthe31stInternationalConferenceonNeuralInformationProcessingSystems,pages6778–6787,2017.[55]StevenJNowlanandGeoffreyEHinton.Simplifyingneuralnetworksbysoftweight-sharing.NeuralComputation,4(4):473–493,1992.[56]AdamPaszke,SamGross,SoumithChintala,GregoryChanan,EdwardYang,ZacharyDeVito,ZemingLin,AlbanDesmaison,LucaAntiga,andAdamLerer.Automaticdifferentiationinpytorch.2017.[57]RussellReed.Pruningalgorithms-asurvey.IEEEtransactionsonNeuralNetworks,4(5):740–747,1993.[58]AlexRenda,JonathanFrankle,andMichaelCarbin.Comparingrewindingandfine-tuninginneuralnetworkpruning.arXivpreprintarXiv:2003.02389,2020.[59]PedroSavarese,HugoSilva,andMichaelMaire.Winningthelotterywithcontinuoussparsification

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

我總結(jié)了70篇論文的方法幫你透徹理解神經(jīng)網(wǎng)絡(luò)的剪枝算法

文檔簡介

溫馨提示

最新文檔

評(píng)論

我總結(jié)了70篇論文的方法幫你透徹理解神經(jīng)網(wǎng)絡(luò)的剪枝算法

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔