版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、通過LASSO回歸壓縮和選擇Robert·Tibshirani加拿大多倫多大學(xué)【1994年1月收到,1995年1月修訂】【摘要】本文提出一個線性模型估計的新方法。LASSO最小化殘差平方和使得系數(shù)絕對值之和小于一個常數(shù)。由于此約束的性質(zhì)傾向于產(chǎn)生一些為0的系數(shù),從而給出了解釋模型。我們的仿真研究表明,LASSO具有一些子集選擇和嶺回歸的有利特性。它產(chǎn)生了例如子集選擇的解釋模型并展示了嶺回歸的穩(wěn)定性。在最近的工作中關(guān)于多諾霍和約翰斯通的自適應(yīng)函數(shù)估計也有一些有趣的關(guān)系。LASSO思想是相當廣泛的并可用于各種統(tǒng)計模型:本文簡要介紹了廣義的回歸模型和基于樹的模型的擴展。關(guān)鍵詞:二次規(guī)劃;回
2、歸;壓縮;子集選擇1.引言考慮通常的回歸情況:已知數(shù)據(jù)其中和分別是觀察數(shù)據(jù)的第個回歸因子和響應(yīng)量。通過最小化殘差平方的誤差得到普通最小二乘法(OLS)估計。數(shù)據(jù)分析師經(jīng)常不滿意OLS估計值有兩個原因。第一是預(yù)測精度:OLS估計經(jīng)常是低偏壓高方差;預(yù)測精度有時可以通過壓縮或設(shè)置一些系數(shù)為0進行改善。通過這樣,犧牲一些偏壓,減少預(yù)測值的方差,從而提高可以總體的預(yù)測精度。第二個原因是解釋。擁有大量的經(jīng)常想要決定更小子集的預(yù)測值,我們表現(xiàn)出強烈的影響。改進OLS估計的子集選擇和嶺回歸這兩種標準標準技術(shù)都有缺點。子集選擇提供可解釋模型,但是由于它是一個從模型中保留或刪除的離散過程變量,它可能極其易變。數(shù)
3、據(jù)的一點更改可能導(dǎo)致選中非常不同的模型,這樣可以減少其預(yù)測精度。嶺回歸是一個系數(shù)收縮的連續(xù)的過程,并且因此更加穩(wěn)定:然而,它的任何系數(shù)都不為0,因此沒有給出一個容易解釋的模型。我們提出一個新技術(shù),LASSO即最小絕對收縮和選擇算子。它將一些系數(shù)收縮,其他的系數(shù)設(shè)置為0,從而試圖保持子集選擇和嶺回歸的良好特征。第2節(jié)給出LASSO的定義,看一些特殊情況。第3節(jié)給出真實數(shù)據(jù)示例,而在第4節(jié)我們討論預(yù)測誤差與LASSO收縮參數(shù)估計的方法。第5節(jié)簡要介紹LASSO的貝葉斯模型。第6節(jié)描述LASSO算法。第7節(jié)描述仿真研究。第8、9節(jié)討論廣義回歸模型的擴展和其他問題。一些關(guān)于soft threshold
4、ing和與LASSO的關(guān)系的結(jié)果在第10節(jié)中進行了討論,第11節(jié)包括一些討論和總結(jié)。2.LASSO方法2.1定義假設(shè)已知數(shù)據(jù)其中是預(yù)測變量,是響應(yīng)變量。在一般的回歸設(shè)置中,我們假設(shè)觀測值獨立或者對給定的,是條件獨立的。假設(shè)是標準化的,那么,。令,LASSO估計的定義如下: (1)其中,調(diào)優(yōu)參數(shù) ?,F(xiàn)在對于所有,的解決方案是。我們可以假設(shè)不是一般性,因此省略。方程(1)的解決方案的計算是具有線性不等式約束的二次規(guī)劃問題。在第6節(jié),針對這個問題,我們描述了一些高效、穩(wěn)定的算法。參數(shù)控制了應(yīng)用于估計的收縮量。令為完全最小二乘估計,。將導(dǎo)致方案的收縮趨向于0,并且一些系數(shù)可能剛好等于0。例如,如果,效
5、果會大致類似于尋找大小為的最優(yōu)特征子集。還要注意,設(shè)置的矩陣不一定需要滿秩。在第4節(jié),我們給出基于數(shù)據(jù)的估計的方法。LASSO的動機來自于布賴曼(1993)的一個提議。布賴曼的非負最小化。 (2)始于普通最小二乘估計,通過總和被限制的非負因素進行收縮。在廣泛的仿真研究中,布賴曼顯示,除非真正的模型中有許多小的非零系數(shù),具有保持比子集選擇更低的預(yù)測誤差且與嶺回歸具有競爭力。的一個缺點是它的解決方案取決于標志和OLS估計量。在OLS表現(xiàn)不佳的過擬合或高度相關(guān)的設(shè)置中,可能會深受其害。相比之下,LASSO避免顯示使用OLS估計。弗蘭克和弗里德曼(1993)提出了使用綁定的參數(shù)范數(shù),是一個大于等于0的
6、數(shù);LASSO方法中。在第10節(jié)中簡要討論了這個問題。2.2正交設(shè)計深入了解收縮的性質(zhì)可以從正交設(shè)計案例中進行收集。令為既定矩陣,元素為,假定,為單位矩陣。方程(1)的解很容易證明是 (3)其中,由決定。有趣的是,這與多諾霍和約翰斯通(1994)和多諾霍等人(1995)提出的軟收縮建議具有相同的形式,應(yīng)用于小波系數(shù)的函數(shù)估計。軟收縮和最低范數(shù)懲罰的關(guān)系也由多諾霍等人(1992)在非負參數(shù)信號和圖像恢復(fù)中指出。我們將在第10節(jié)進行詳細的解釋說明。在正交設(shè)計的情況下,大小為的最佳子集的選擇減少到最大系數(shù)的絕對值,將其余的設(shè)置為0。對的一些選擇相當于如果,設(shè)置;否則設(shè)置為0。嶺回歸使得下面式子最小或
7、者等價地,使得如下最小 (4)嶺回歸的解是:其中取決于或。估計是圖1顯示了這些函數(shù)的曲線。嶺回歸用一個常數(shù)因子衡量系數(shù),然而LASSO通過常數(shù)因子轉(zhuǎn)換,截斷為0。函數(shù)與LASSO十分相近,都是系數(shù)愈大收縮愈小。我們的仿真程序顯示,當設(shè)計不是正交時,與LASSO差異可能會很大。2.3LASSO幾何從圖1中很明顯的看出為什么LASSO產(chǎn)生的系數(shù)經(jīng)常是0。為什么這種情況會出現(xiàn)在一般(非正交)的設(shè)置中?并且為什么這種現(xiàn)象在嶺回歸中沒有出現(xiàn),其中嶺回歸使用的約束條件是而不是?圖2提供了當時的試圖。標準與加上一個常數(shù)相等。由圖2(a),函數(shù)的橢圓輪廓由全曲線顯示出來;它們集中于OLS估計周圍;約束區(qū)域是個
8、旋轉(zhuǎn)的正方形。LASSO解決方案是首先輪廓觸摸了廣場,并且有時這也會發(fā)生在一個角落,該角落對應(yīng)于系數(shù)為0的地方。圖2(b)顯示了嶺回歸的圖像,沒有有角的輪廓,因此很少有零解。這個圖片中出現(xiàn)了一個有趣的問題:LASSO估計的符號可以與最小二乘估計不同嗎?由于變量是標準化的,當時,主要的輪廓線軸線與坐標軸成,并且我們可以表明,輪廓必需與包含的正方形在同一個象限中。然而,當時,在數(shù)據(jù)上至少是中度相關(guān),這不必是真的。圖3在三維空間中進行舉例。圖3(b)中的視圖證實:橢圓與約束區(qū)域在第八象限的接觸與它中心所在的象限不同。圖1. (a)子集選擇,(b)嶺回歸,(c)LASSO和(d)garotte:,正交
9、設(shè)計情況下,系數(shù)壓縮的形式;·········傾斜角為45°的線作為參考圖2. (a)是LASSO的預(yù)估圖像,(b)是嶺回歸的預(yù)估圖像 圖3. (a)不同于總體最小二乘估計LASSO估計落在第八區(qū)的例子;(b)俯視圖然而,保留了每個的符號,LASSO可以改變符號。甚至在LASSO估計與有相同符號的矢量的情況下,中OLS估計得存在也會使結(jié)果不同。帶有約束條件的模型可以表示成約束條件是,模型為。舉例,如果且,效果將會橫向拉伸圖2(a)的正方形。結(jié)果,青睞于較大的和較小的。2.4關(guān)于兩個預(yù)測的其他信息
10、假設(shè),并且不失一般性,最小二乘估計都是正的。那么我們可以展示LASSO估計是圖4. 對于兩個預(yù)測值的例子,實線表示LASSO,虛線表示嶺回歸:曲線說明,作為LASSO或者嶺回歸參數(shù)的數(shù)據(jù)對是變化的;從底部的虛線開始并向上移動,相關(guān)系數(shù)是0,0.23,0.45,0.68和0.90 (5)其中選定使得。這個公式適用于時,并且及時預(yù)測值是相關(guān)的這個公式也是有效的。解得出 (6)相反,嶺回歸收縮的形式取決于預(yù)測值的相關(guān)性。圖4給出了一個例子。在沒有干擾的情況下,我們從模型中產(chǎn)生100個數(shù)據(jù)點。這里和是標準正常變量,兩者的相關(guān)系數(shù)為。圖4的曲線表明嶺回歸和LASSO估計得邊界和是變化的。對的所有值,LA
11、SSO估計均遵循全曲線。嶺回歸估計(間斷的曲線)取決于。當時,嶺回歸成比例收縮。然而,對于更大的值嶺估計收縮變得不同并且邊界降低是甚至可以增加一點。杰羅姆·弗里德曼指出,這是由于嶺回歸試圖使系數(shù)等于他們最小平方范數(shù)的趨勢。2.5標準誤差由于LASSO估計是響應(yīng)值的一個非線性、非可微函數(shù),即使對應(yīng)固定的,所以很難得到標準誤差的一個準確估計。一種方法是通過自助法;要么可以固定,要么為每個樣本對進行優(yōu)化。固定類似于選擇一個最佳子集,然后對每個子集使用最小二乘標準誤差。一個近似封閉的形式估計可能通過把懲罰寫成得到。因此,對于LASSO估計,我們可以通過形式的嶺回歸近似解決,其中是一個對角矩陣
12、,對角元素為,是的廣義逆矩陣并且的選定使得成立。估計的協(xié)方差矩陣可以用以下近似 (7)其中是誤差方差的一個估計值。這個公式的一個困難在于對的預(yù)測值給出了0的一個估計方差。這種近似也表明了計算LASSO估計本身的一個迭代嶺回歸的算法,但這是很低效的。然而,它對LASSO參數(shù)(第4節(jié))的選擇很有用。3.例子前列腺癌數(shù)據(jù)前列腺數(shù)據(jù)來自于斯塔米等人(1989)的一項研究,檢查接受根治性前列腺切除術(shù)的人前列腺特異性抗原水平與臨床措施的相關(guān)性。因素有:日志(癌癥卷)(lcaval)、日志(前列腺重量)(lweight)、年齡、日志(良性前列腺增生)(lbph)、精囊入侵(svi)、日志(莢膜滲透)(lcp
13、)、格里森評分(gleason)和百分比格里森評分4或5(pgg45)。在第一個標準化預(yù)測因子后,我們找到適合日志(前列腺特異抗原)(lpsa)的線性模型。圖5. 前列腺癌例子中,系數(shù)的LASSO壓縮:每個曲線代表了一個系數(shù)(右邊有標注),該曲線作為LASSO參數(shù)(沒有將截距畫出來);虛線代表了的模型,該值是由廣義交叉驗證所得的最優(yōu)值圖5顯示了作為一個綁定的標準函數(shù)的LASSO估計。請注意,隨著趨于0,每個系數(shù)的絕對值也趨于0。在這個例子中,曲線單調(diào)且趨于0,但一般情況下不會總發(fā)生。單調(diào)性的缺乏是由嶺回歸與子集選擇所共同承擔(dān),例如,大小為5的最優(yōu)特征子集可能不包含大小為4的最優(yōu)特征子集。垂直的
14、虛線是當時的模型,該值是由廣義交叉驗證所得的最優(yōu)值。粗略地說,這與保持略低于預(yù)測值的一半相對應(yīng)。表1顯示了完全最小二乘法、最優(yōu)子集和LASSO程序的結(jié)果。第7.1節(jié)會給出所使用的最佳子集的詳細步驟。LASSO給出了癌癥卷、前列腺重量和精囊入侵的非零系數(shù);子集選擇選擇了同樣的三個預(yù)測因子。請注意,子集選擇所選擇的預(yù)測因子的系數(shù)和得分往往比完整模型值大;這在呈正相關(guān)的預(yù)測中是常見的。然而,LASSO顯示了相反的作用,因為它從完整的模型值中壓縮系數(shù)的得分。倒數(shù)第二列的標準誤差通過充分的最小二乘法殘差的自助重采樣進行估計。標準誤差的計算是通過對原始數(shù)據(jù)集中的取最優(yōu)值0.44計算得到。表2表1表2圖6.
15、 在前列腺癌例子中,盒狀圖中給出了8個預(yù)測值LASSO系數(shù)估計的200個引導(dǎo)值 比較了嶺估計近似公式(7)固定自助值和在自助法中對每個樣本重新估計。除了零系數(shù),嶺估計公式給了一個自助值的一個相當好的近似。允許變化包含額外的變異來源,因此給出了一個較大的標準誤差估計。圖6顯示固定估計值為0.44的LASSO估計的200自助復(fù)制的框塊。估計系數(shù)為0的預(yù)測因子展示傾斜自助分布。中央百分之九十的時間間隔(自助分布的第五百分位和第九十五百分位)都包含零,癌癥卷和精囊入侵這些例外。4.的誤差預(yù)測與估計在本節(jié)中我們描述了LASSO參數(shù)的三種估計方法:交叉驗證、廣義交叉驗證和分析風(fēng)險的無偏估計。嚴格地說,前兩
16、種方法適合于“X-random”情況,在這種情況下假設(shè)觀測值來自于未知分布,第三種方法適用于“X-fixed”情況。然而,在現(xiàn)實中存在的問題往往不能明確的區(qū)分這兩種情況,我們可能只需選擇最有效的方法。假設(shè)其中,。估計的均方誤差定義如下:固定,預(yù)期接管和的聯(lián)合分布。類似的措施是的預(yù)測誤差由下式給出 . (8)我們通過五倍交叉驗證正如埃夫隆和Tibshirani(1993)所描述(例子)的估計LASSO步驟的預(yù)測誤差。在歸一化參數(shù)的條件下索引LASSO,并且預(yù)測誤差是由從0到1的網(wǎng)格估計出來的。選擇了產(chǎn)生的最低的估計值。報道了而不是方面的仿真結(jié)果。本文考慮到的線性模型,均方誤差有很簡單的形式其中是
17、的總體協(xié)方差矩陣。估計的第二種方法來自于LASSO估計的線性近似。我們把約束寫成。這個約束就等價于在殘差和或殘差平方上增加一個拉格朗日懲罰,其中取決于。因此,我們可以把約束解決方案寫成嶺回歸估計 (9)其中,表示廣義逆矩陣。因此,在約束中適合的有效參數(shù)量可以用以下進行近似令為約束與約束的殘差平方和,我們構(gòu)建了廣義交叉驗證的方式統(tǒng)計 (10)最后,我們概述基于斯坦風(fēng)險無偏估計的第三種方法。假設(shè)是一個多元正態(tài)隨機向量,均值為,方差為單位矩陣。令為的一個估計值,并且,其中是一個從到(見斯坦(1981)的定義1)的一個基本可微函數(shù)。然后斯坦(1981)顯示 (11)我們可以將這個結(jié)果應(yīng)用于LASSO估
18、計(3)。用表示的估計標準誤差,其中那么是大約獨立的標準正態(tài)變量,并且從方程(11)中我們可以得到公式作為風(fēng)險的近似無偏估計或均方誤差,其中。多諾霍和約翰斯通(1994)在方程估計設(shè)置中給出了一個相似公式。因此,的一個估計可以由的最小化得到:從這我們可以得到LASSO參數(shù)的一個估計:盡管推導(dǎo)的前提是正交設(shè)計,在非正交設(shè)置的時候,我們也試圖使用它。自從預(yù)測值標準化,的最優(yōu)值大約是數(shù)據(jù)中整體信號信噪比的函數(shù),并且它應(yīng)該對的協(xié)方差相對不敏感。(相比之下,LASSO估計的形式對協(xié)方差敏感,我們需要適當?shù)乜紤]它。)7.2節(jié)的仿真示例表明該方法給予了一個有用的估計。但是我們僅僅只能提供一個啟發(fā)式的論點來支
19、持它。假設(shè),令因為的列已經(jīng)標準化,在形狀上與不同但是有大致大小相同的邊緣投影。因此的最優(yōu)值應(yīng)該在每個實例中相同。最后,注意到斯坦方法在的交叉驗證估計具有顯著的計算優(yōu)勢。在我們的實驗中,我們優(yōu)化LASSO參數(shù)的15個值的網(wǎng)格并且使用了五倍的交叉驗證。結(jié)果,交叉驗證方法要求第六節(jié)模型最優(yōu)化步驟的75個應(yīng)用而斯坦方法值要求一個。廣義交叉驗證方法的要求在這兩個中間,要求每個網(wǎng)格點有一個優(yōu)化過程的程序。5.LASSO貝葉斯估計LASSO約束相當于對殘差平方和(見穆雷等人(1981),第五章)添加懲罰條件?,F(xiàn)在,與雙指數(shù)分布的(負)對數(shù)密度是成正比的。結(jié)果,我們可以得出在的獨立雙指數(shù)先驗信息下LASSO估
20、計作為貝葉斯后驗?zāi)P停渲袌D7顯示了雙指數(shù)密度(全曲線)和正常密度(虛線曲線);后者是利用嶺回歸的隱式之前。注意,雙指數(shù)密度如何提出將更多的質(zhì)量接近0和尾巴。這反映了LASSO產(chǎn)生估計的更大趨勢是很大或者是0。6.尋找LASSO解的算法我們固定。問題(1)可以表示成一個帶有個不等式的最小二乘問題,對應(yīng)于的個可能的不同的符號。羅森和漢森(1974)提供了程序,該程序解決了線性最小二乘問題,圖7. 實線表示雙指數(shù)密度,虛線表示標準密度;前者是LASSO使用的隱式先驗信息;后者是表示嶺回歸使用的隱式先驗信息使得一般線性不等式約束成立。其中是一個矩陣,對應(yīng)于線性不等式約束的矢量。然而,對于我們的問題,
21、可能太龐大,這樣直接應(yīng)用此程序是不實際的。然而,通過順序地引入不等式約束是可以解決問題的,即尋求一個滿足所謂的庫恩-塔克條件(勞森和漢森,1974)的可行的解決方案。下面我們大概的描述了程序。令,并令為形式的重數(shù)。那么對任意的,條件就等價于。對給定的,令以及。集合是平等集,與完全滿足的約束相對應(yīng),而是松弛的集合,與相等不成立的約束相對應(yīng)。用表示行為,的矩陣。令1是元素均為1的向量,向量的長度等于矩陣的行數(shù)。 下面的算法由,開始,是總體最小二乘估計。它解決了最小二乘問題使得成立,然后檢查是否成立。如果成立,那么計算完成;如果不成立,將違反的約束添加到并繼續(xù)該過程直到成立。這里是該算法的大致過程。
22、(a)首先,是總體最小二乘估計。(b)尋找使得最小,約束條件是。(c)當,(d)將增加到集合,其中。尋找使得最小,約束條件是。在有限的步驟里這個程序必定總是收斂的,因為每一步都有一個元素添加到集合中,并且這里一共有個元素。最后的迭代是最初問題的解決方案,因為庫恩塔克條件在集合和上是滿足收斂性的。表3此程序的修改是在(d)步驟中把不滿足約束條件的元素從集合中刪除。這樣做雖然更加有效率,但尚不清楚如何建立其收斂性。事實上,如果很大,為了得到稍許安慰,當?shù)螖?shù)達到時,算法必須停止。在實踐中我們發(fā)現(xiàn)迭代平均次數(shù)要求在范圍內(nèi),因此在實際目的上是可以接受的。針對這一問題,大衛(wèi)蓋伊提出了完全不同的算法。我
23、們把每一個寫成,其中和都是非負的。然后我們解決帶有和約束條件的最小二乘問題。以這種方式我們把原問題(個變量,個約束條件)轉(zhuǎn)換為一個帶有更多個變量()和更少約束條件()的一個新問題??梢钥闯鲂聠栴}與原問題有相同的解決方案??梢詰?yīng)用標準的二次規(guī)劃方法,該算法保證在步收斂。我們還沒有廣泛地比較這兩種算法,但是在例子中發(fā)現(xiàn)第二種算法通常(不總是)比第一個算法略快些。7. 模擬7.1 大綱 在下面的例子中,我們將完全最小二乘估計與LASSO、非負、最佳子集選擇、嶺回歸方法進行比較。我們用五倍的交叉驗證來估計每個例子中的正則化參數(shù)。對于最佳子集選擇,我們使用語言中的飛躍程序,用五倍交叉驗證估計的最優(yōu)子集的
24、大小。本程序在布雷曼博士和斯佩克特(1992)中進行了描述和研究,他們推薦在實際使用中用5倍或10倍交叉驗證。出于完整性的考慮,以下是交叉驗證過程的細節(jié)。每個尺寸的最佳子集是第一個發(fā)現(xiàn)的原始數(shù)據(jù)集:把它們稱為(代表零模型;因為這個模型的擬合值為0。)由表示完整的訓(xùn)練集,由和,其中分別表示交叉驗證集和測試集。表4對每個交叉驗證倍數(shù),為數(shù)據(jù)的每個尺寸找到最佳子集:將它們稱為當用于測試數(shù)據(jù)時,令表示預(yù)測誤差,并形成估計 (12) 我們尋找使最小的以及我們選擇的模型為。這與估計固定模型的預(yù)測誤差不同,然后選擇帶有最小預(yù)測誤差的模型。后面的程序在張(1993)和邵(1992)進行了描述,并可能造成不一致
25、的模型選擇,除非交叉驗證測試集以一個適當?shù)臐u進速度增長。7.2. 示例1在這個例子中,我們模擬了50個數(shù)據(jù)集,由來自下面模型的20個觀測數(shù)據(jù)組成其中,是標準正態(tài)變量。和的協(xié)方差,其中。我們設(shè)置,這給出了大約5.7的信號噪聲比。表3給出了在這個模型中超過200個模擬的均方差誤差。LASSO表現(xiàn)的最好,其次是和嶺回歸。利用廣義交叉驗證估計LASSO參數(shù)似乎是最佳的,通過我們的例子發(fā)現(xiàn)它們趨于一致。表5圖8. 估計例1中的8個系數(shù),包括截距:········,真實系數(shù)表6 子集選擇挑選了大約正確的零系數(shù)(5)的數(shù)量,但如
26、圖8所示的盒狀圖中遭受了太多的變異性。表4顯示了LASSO(廣義交叉驗證)選擇最常用的五個模型:雖然這次在正確的模型(1,2,5)中只有2.5%被選中,但是被選中的模型中有95.5%包含(1,2,5)。子集回歸最常用的模型如表5所示。正確的模型被選中的概率更高(這次24%),但是子集選擇也擬合不充分:這次被選中的模型中只有53.5%包含(1,2,5)。7.3. 示例2第二個例子與第一個例子相同,但是對和,;信號噪聲比大約為1.8。表6的結(jié)果顯示嶺回歸通過一個很好的邊際達到最佳,LASSO是僅有的一個優(yōu)于完全最小二乘估計的方法。7.4. 示例3在示例3中我們選擇應(yīng)該很好的適用于子集選擇的設(shè)置。模
27、型與示例1中相同,但,所以信號噪聲比大約是7。表7的結(jié)果顯示和子集選擇表現(xiàn)最好,后面即是LASSO。嶺回歸效果很差,并且均方誤差比完全最小二乘估計更高。表7表87.5. 示例4在這個例子中,我們在一個更大的模型中檢測LASSO的效果。我們模擬了50個數(shù)據(jù)集,每個數(shù)據(jù)集有100個觀測值和40個變量(注意,當時最佳子集回歸通常是被認為不切實際的)。我們定義預(yù)測值,其中和是獨立的標準正態(tài)變量。這誘導(dǎo)了預(yù)測因子之間兩兩相關(guān),并且相關(guān)系數(shù)為0.5。系數(shù)向量是在每個序列塊中有10個重復(fù)。最后,我們定義,其中是標準正態(tài)。這產(chǎn)生了一個大約是9的信號噪聲比。表8的結(jié)果顯示嶺回歸的效果最好,LASSO(廣義交叉驗
28、證)第二。在每個由10個數(shù)字組成的四個序列塊中,LASSO系數(shù)的平均值是0.50(0.06),0.92(0.07),1.56(0.08)和2.33(0.09),盡管LASSO平均僅產(chǎn)生了14.4零系數(shù),的平均值與真實的部分接近。8. 廣義回歸模型的應(yīng)用LASSO可以應(yīng)用于許多其他的模型:例如描述了在比例風(fēng)險模型中的應(yīng)用。在這里我們簡要探討廣義回歸模型的應(yīng)用??紤]通過向量參數(shù)進行索引的任何模型,在這個模型中估計是通過函數(shù)的最大化實現(xiàn)的;這可能是一個對數(shù)似然函數(shù)或者配合一些其他的措施。為了應(yīng)用LASSO,我們在約束條件下求的最大值。有可能要通過一般(非二次)編程程序?qū)崿F(xiàn)最大化。相反,在這里我們考慮
29、的模型二次逼近,這導(dǎo)致了的計算要用到迭代加權(quán)最小二乘法。這樣一種程序相當于一個牛頓拉夫遜算法。通過這種方法,我們可以通過LASSO算法的迭代應(yīng)用加上一個循環(huán)解決帶有約束條件的問題。一般來說,這個程序的收斂性不能保證,但在我們有限的經(jīng)驗中,它的效果都是相當好的。8.1邏輯回歸為了說明我們將LASSO在二進制數(shù)據(jù)的邏輯回歸上使用。我們使用脊柱后凸畸形數(shù)據(jù),在黑斯蒂和(1990)第十章中有分析。響應(yīng)變量是脊柱后凸畸形(0代表沒有,1代表有);預(yù)測值是年齡,是椎骨的數(shù)量水平以及是剛開始時的椎體水平。這里有83個觀測數(shù)據(jù)。由于預(yù)測值的影響是非線性的,在集中每個變量后,我們將二次條件包括在內(nèi)。最后,將數(shù)據(jù)
30、矩陣的列進行標準化處理。線性邏輯擬合模型是基于信息準則,向后逐步刪除,舍棄部分,產(chǎn)生的模型是LASSO選擇,給出下面的模型定義在的收斂性5次迭代就能得到。9. 一些進一步的擴展我們目前正在探索的LASSO理念的兩個完全不同的應(yīng)用程序。一個應(yīng)用程序是基于樹的模型,如勒布朗和報道(1994)。不是在分類中修剪一棵大樹以及布雷曼博士等人(1984)的分類回歸樹方法,我們使用LASSO思想對它進行壓縮。與本文很像,這涉及到一個約束最小二乘操作,在每個節(jié)點上參數(shù)為平均對比。約束的進一步設(shè)置需要確保壓縮模型是一棵樹。勒布朗和(1994)報道中的結(jié)果顯示壓縮程序相對修剪能夠給出更加精確的樹,同時還可以得出可
31、解釋的子樹。不同的應(yīng)用程序是弗里德曼 (1991 年) 提出的多元自適應(yīng)回歸樣。方法是一種自適應(yīng)過程,通過個別變量的線性基函數(shù)的產(chǎn)品分段求和構(gòu)建回歸表面。算法建立了一個模型,包括基函數(shù)代表的主效應(yīng)和高階交互作用。給出了自適應(yīng)選擇的基地,擬合是這些基地上的一個簡單的線性回歸。那么應(yīng)用于消除的向后逐步過程久變得不那么重要。 在特雷弗·黑斯蒂的持續(xù)工作中,為了動態(tài)地生長和修剪模型,我們正在開發(fā)一種特殊的LASSO類型的算法。希望這能產(chǎn)生更加精確的模型,該模型也是可以解釋的。LASSO的思想還可以應(yīng)用到病態(tài)的問題中,即該問題中的預(yù)測矩陣是非滿秩的。為在通過小波函數(shù)估計中使
32、用LASSO類型的約束,陳和多諾霍(1994)報道了一些令人鼓舞的結(jié)果。10. 基于軟閾值的結(jié)論考慮正交設(shè)計的特殊情況。LASSO估計有如下形式 (13)這是稱為軟閾值的估計,該估計是由多諾霍和約翰斯通(1994)提出來的;他們把這個估計應(yīng)用到測量噪聲函數(shù)小波變換的系數(shù)。然后他們回溯轉(zhuǎn)換得到函數(shù)的光滑估計。多諾霍和約翰斯通證實了許多軟閾值估計的最優(yōu)結(jié)果,然后將這些結(jié)果轉(zhuǎn)換成函數(shù)估計的最佳結(jié)果。這里我們的興趣不在于函數(shù)估計,而在于系數(shù)本身。這里我們給出多諾霍和約翰斯通的一個結(jié)果。結(jié)果表明,軟閾值估計(LASSO)漸進地與子集選擇距離達到一個理想的子集選擇器(使用實際性能參數(shù)信息)的效果一樣的接近。假設(shè)其中并且既定矩陣為正交矩陣。然后有 (14)其中我們考慮在均方誤差損失的情況下的估計,風(fēng)險是考慮對角線性預(yù)測簇 (15)這個估計要么保持要么消除一個參數(shù),即它的確是一個子集選擇?,F(xiàn)在如果我們用,我們將會招致一個的風(fēng)險,以及如果我們用0的估計替換的話,會引發(fā)的風(fēng)險。因此的最佳選擇是即我們只保持真實系數(shù)大于噪聲水平的預(yù)測值。把這些預(yù)測值的風(fēng)險叫做:當然因為是未知的,估計值不能被構(gòu)造出來。因此是一個我們希望得到的關(guān)于風(fēng)險的較低的邊界。多諾霍和約翰
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025項目施工合同模板
- 2025房屋建筑合同模板 房屋建筑合同
- 2025專業(yè)版電子版權(quán)委托代理合同
- 二零二五年度XX房地產(chǎn)公司收取管理費合作協(xié)議3篇
- 二零二五年度股權(quán)代持與公司研發(fā)創(chuàng)新合作協(xié)議3篇
- 2025年度農(nóng)機設(shè)備委托管理與農(nóng)業(yè)人才培養(yǎng)協(xié)議3篇
- 二零二五年度特色農(nóng)產(chǎn)品電商平臺合作合同范本3篇
- 2025年度養(yǎng)老院老人外出看護責(zé)任約定協(xié)議3篇
- 2025年度全新二零二五年度離婚后子女心理輔導(dǎo)及關(guān)愛協(xié)議3篇
- 二零二五年度養(yǎng)殖場品牌授權(quán)與合作承包協(xié)議3篇
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應(yīng)用實踐指導(dǎo)材料之18:“7支持-7.1資源”(雷澤佳編制-2025B0)
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應(yīng)用實踐指導(dǎo)材料之17:“6策劃-6.6合作”(雷澤佳編制-2025B0)
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應(yīng)用實踐指導(dǎo)材料之16:“6策劃-6.5組織結(jié)構(gòu)”(雷澤佳編制-2025B0)
- GB/T 45016-2024發(fā)動機附件帶傳動系統(tǒng)機械式自動張緊輪試驗方法
- 南寧市三好學(xué)生主要事跡(8篇)
- 2024版玻璃幕墻工程材料采購合同2篇
- 全國英語教師賽課一等獎七年級上冊(人教2024年新編)《Unit 7 Happy Birthday》教學(xué)設(shè)計
- 2025年婦產(chǎn)科工作計劃
- 《寒假安全教育班會》課件模板四套
- (T8聯(lián)考)2025屆高三部分重點中學(xué)12月第一次聯(lián)考 生物試卷(含答案詳解)
- 報關(guān)稅費代繳服務(wù)合同
評論
0/150
提交評論