從理論到應(yīng)用——淺談lasso模型_第1頁
從理論到應(yīng)用——淺談lasso模型_第2頁
從理論到應(yīng)用——淺談lasso模型_第3頁
從理論到應(yīng)用——淺談lasso模型_第4頁
從理論到應(yīng)用——淺談lasso模型_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、本科生學(xué)年論文題目:從理論到應(yīng)用一一淺談lasso模型指導(dǎo)教師:學(xué)院:姓名:學(xué)號:班級:從理論到應(yīng)用淺談lasso模型【摘要】回歸模型是我們在處理數(shù)據(jù)中常用的方法。其中,Lasso模型是一種適用于多重共線性問題,能夠在參數(shù)估計的同時實現(xiàn)變量的選擇的回歸方法。本文從lasso模型的概念談起,對其起源、思想、與嶺回歸的比較、通過lar的算法實現(xiàn)等方面進行了探究。另外還使用R語言對簡單案例進行l(wèi)asso模型的應(yīng)用。最后簡述了lasso模型的研究現(xiàn)狀?!綼bstractRegressionmodelisourcommonlyusedmethodinprocessingdata.Lassomodelis

2、akindofregressionmethodformultiplelinearproblems,whichcanbeusedtoachieveparameterestimationandvariableselectionatthesametime.Thispaperstartsfromtheconceptofthelassomodel,includingitsorigin,ideas,andthecomparisonofridgeregression,throughlaralgorithmimplementation,etc.Inaddition,usingRlanguagetosolvea

3、simplecasethroughlasso.Atlast,theresearchstatusoflassomodelisintroduced.【關(guān)鍵詞】Lasso嶺回歸最小角回歸R語言【keywordsLassoridgeregressionlarRlanguage目錄一、定義及基本信息-3-二、起源與原理-3-三、模型的思想-3-4、 Lasso與嶺回歸-4-1、 嶺回歸的概念-4-2、Lasso與嶺回歸的比較-4-5、 Lasso的算法步驟-5-1、lasso算法實現(xiàn)的背景-5-2、最小角回歸-6-3、用lar實現(xiàn)lasso-6-六、案例分析-7-1、 問題描述-7-2、 簡單線性回歸求

4、解-8-3、利用lasso求解-10-七、應(yīng)用與研究現(xiàn)狀-11-八、參考資料-12-、定義及基本信息Lasso模型是由RobertTibshirani在1996年JRSSB上的一篇文章Regressionshrinkageandselectionviathelasso所提出的一種能夠?qū)崿F(xiàn)指標集合精簡的估計方法。在參數(shù)估計的同時實現(xiàn)變量的選擇(可以解決回歸分析中的多重共線性問題)。全稱:LeastAbsoluteShrinkageandSelectionOperator讀音:l?'su:而不是'l?soRobertTibshirani簡介:生于1956年7月10日,擔(dān)任斯坦福大學(xué)

5、theDepartmentsofStatisticsandHealthResearchandPolicy的教授。1985-1998年擔(dān)任多倫多大學(xué)的教授。他主要研究方向是致力于開發(fā)處理復(fù)雜數(shù)據(jù)的分析統(tǒng)計工具。Lasso模式是他最著名的貢獻。同時在著名的"GeneralizedAdditiveModels","AnIntroductiontotheBootstrap",and"TheElementsofStatisticalLearning"三本書中都有他的編著。1二、起源與原理在常規(guī)的回歸分析中,假設(shè)我們有一組(Xi,y。,i=1,2

6、,N,其中小僅小,Xip)T,yi是第i維觀測值的回歸量的數(shù)據(jù)。普通最小二乘(OLS)通過最小化殘差平方和來進行估計。它對數(shù)據(jù)的分析不那么令人滿意通常有兩個原因。一是預(yù)測精度:OLS往往偏差較低但方差大:預(yù)測精度有時可以用縮小或設(shè)置一些系數(shù)為0的方法來提高。通過這樣做,我們犧牲一點偏差減少預(yù)測的方差值,因此可以提高整體預(yù)測準確性。第二個原因是可解釋性的問題。在大量的預(yù)測值中,我們通常想確定一個展現(xiàn)出最強影響的更小的子集。兩個公認優(yōu)秀的改善OLS估計的方法是子集選擇(subsetselection)和嶺回歸(ridgeregression)它們都有缺點。子集選擇提供了可解釋的模型但是可變性非常強

7、,因為它是一個離散的過程一一回歸量要么保留要么從模型中去掉。小的數(shù)據(jù)變化就會使得模型的選擇改變,這會降低預(yù)測準確度。嶺回歸是連續(xù)縮小參數(shù)的過程,因此更穩(wěn)定:然而它不會使得任何參數(shù)為0,沒辦法得出簡單的可解釋的模型。lasso模型就此提出,Theleastabsoluteshrinkageandselectionoperator,同時縮小(shrinkage)和設(shè)置成參數(shù)為0(selection),保持了子集選擇和嶺回歸的良好特征。2三、模型的思想lasso是在回歸系數(shù)的絕對值之和小于一個常數(shù)的約束條件下,使殘差平方和最小化,從而能夠產(chǎn)生某些嚴格等于0的回歸系數(shù),得到解釋力較強的模型。給出一組測

8、量數(shù)據(jù)X1,X2.Xp以及測量結(jié)果y,lasso符合線性模型yhat=b0+b1雙1+b2雙2+.bp雙p它所使用的標準是:當(dāng)匯|bj|<=s時,使得匯(y-yhat)2最小最初的和是根據(jù)觀察數(shù)據(jù)集得來的。邊界“s"是一個調(diào)諧參數(shù)。當(dāng)s很大時,約束起不到作用,解決方案只是常見的多元線性最小二乘回歸的關(guān)于y,x1,x2,xp的函數(shù)。然而當(dāng)s變小時,解決方案就是縮小的版本最小二乘(leastsquares)估計。通常一些系數(shù)bj為零。選才ss就像選擇一個回歸模型的預(yù)報器的數(shù)值,交叉驗證(cross-validation)是估計s最佳值的一個好辦法。3四、Lasso與嶺回歸1、嶺回歸

9、的概念嶺回歸(ridgeregression)是一種專用于共線性數(shù)據(jù)分析的有偏估計回歸方法,實質(zhì)上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸系數(shù)更為符合實際、更可靠的回歸方法,對病態(tài)數(shù)據(jù)的擬合要強于最小二乘法。它的數(shù)學(xué)表達式如下:即在回歸系數(shù)的平方和小于一個常數(shù)的約束條件下,使殘差平方和最小化。NP28rtd呼=argniin£(仍-氏-,psubjecttoT氏乂(3.42)2、Lasso與嶺回歸的比較下面是lasso寫成相同形式的表達式。可以看出Lasso與嶺回歸的區(qū)別就是約束條件不一樣,一個是回歸系數(shù)絕對值之和小于一個常數(shù),一

10、個是平方和小于一個常數(shù)。Lasso的約束條件是線性的,而ridge是L2-norm。通過這幅圖可以很明顯的看出嶺回歸和lasso之間的差異。圖中是兩個變量回歸的情況,等高線圖表示的是殘差平方和的等高線。殘差在最小二乘估計處最小。陰影部分分別是嶺回歸和lasso的限制區(qū)域。顯然圓形為嶺回歸,菱形為lasso的。這兩種帶有懲罰項的方法都是要找到第一個落到限制區(qū)域上的等高線的那個位置的坐標(即嶺估計和lasso估計)。因為菱形帶尖角,所以更有可能使得某個變量的系數(shù)為0(即所找到的第一個點是菱形四個頂點之一)。當(dāng)回歸變量增多時,lasso的尖角也會變得更多,從而增大更多系數(shù)變0的可能性。而光滑的高維球

11、面的顯然不可能有這樣的概率。這也就是說lasso可以用于變量選擇。這是lasso相較于ridge有優(yōu)勢的一點。五、Lasso的算法步驟Lasso的算法實現(xiàn)與lar(leastangleregression)有密不可分的關(guān)系。1、lasso算法實現(xiàn)的背景Tibshirani在«TheScienceofBradleyEfron»這本書的序言里寫道,"Hesatdownandprettymuchsingle-handedlysolvedtheproblem.Alongtheway,hedevelopedanewalgorithm,leastangleregression

12、"whichisinterestinginitsownright,andshedsgreatstatisticalinsightontheLasso.”大意是說:Efron獨自擺平了具有Shrinkage的GradientBoosting應(yīng)用到線性回歸中時與Lasso得到的SolutionPath相似這個問題,與此同時發(fā)明了"Leastangleregression(LAR)"。Efron結(jié)論是Lasso和Boosting的確有很緊密的數(shù)學(xué)聯(lián)系,它們都可以通過修改LAR得到?,F(xiàn)在,Lasso已經(jīng)家喻戶曉了,但是Lasso出生后的頭兩年卻很少有人問津。后來Tibsh

13、irani自己回憶時說,可能是由下面幾個原因造成的:1.速度問題:當(dāng)時計算機求解Lasso的速度太慢;2.理解問題:大家對Lasso模型的性質(zhì)理解不夠(直到Efron的LAR出來后大家才搞明白);3.需求問題:當(dāng)時還沒有遇到太多高維數(shù)據(jù)分析的問題,對Sparsity的需求似乎不足。42、最小角回歸Efron5提出最小角回歸(LARS)方法,這種方法既可以進行變量選擇,可以用來解決Lasso問題,并且可以提高計算效率。LARS算法的基本思想是:首先選擇一個與因變量相關(guān)性最大的協(xié)變量,然后沿這個方向走一定長度,知道出現(xiàn)第二個協(xié)變量,這兩個協(xié)變量與殘差的相關(guān)性相同,就沿著與這兩個變量等角度的方向繼續(xù)

14、走,以此類推,選擇出需要的協(xié)變量。LARS算法既不像向前法那樣貪婪,選擇一個變量后,走盡量長的長度來計算殘差,也不像分段法(Stagewise),每步只走很短的距離。LARS方法具有很高的計算效率。63、用lar實現(xiàn)lassoX的每一行代表一個樣本,即:X=(%,X2,,Xp)首先對數(shù)據(jù)進行預(yù)處理,使其去均值標準化。nnnZyi=0,£Xij=0Zx2=1,forj=1,2,n.i=1i=1i衽定義?=(?,?m)T為當(dāng)前擬合向量?的系數(shù),則有則Xi跟殘差y?的相關(guān)系數(shù)G:6-xT(y-y)剛開始時,相關(guān)系數(shù)都為0,然后找出跟殘差(此時即為y)相關(guān)系數(shù)最大的變量,假設(shè)是Xj1,將其加

15、入到活動集,這時我們在為1的方向上找到一個最長的步長,使得出現(xiàn)下一個變量(假設(shè)是Xj2)跟殘差的相關(guān)系數(shù)跟Xj1到殘差的相關(guān)系數(shù)相等,此時也把Xj2活動集里,LARS繼續(xù)在跟前面2個變量等角度的方向上,找到第3個變量Xj3使得該變量跟前面2個跟殘差的相關(guān)系數(shù)相等,隨后LARS繼續(xù)找尋下一個變量。7具體算法步驟如下:當(dāng)前最小角度方向,即角平分線方向,一一當(dāng)前擬合的y值?殘差跟變量的相關(guān)系數(shù)?一一當(dāng)前的最長步長?=0.Fork=12.,p(找p個最優(yōu)回歸量)1)2)3)4)5)6) )7) )?=XT(y-?=(&&.,?m)TA=j:«=max(?)=CXa=.Xj.,

16、jA1(K)=XaWa(WaaGA11aaAXlGA%)”Ga=xAXa,1a=(1,.,1)T)aA=X'=(a),也,.,am)IC-c?iC(?iII"i?=minc,r=mincjAaA-ajaAajjAWjifr?:r?(k)=?(kT),rL(k)A=A-jelse?(k)=?y(k-1)?中(k)A=A?六、案例分析現(xiàn)在在R語言中包含了運用lasso的包。Y(卡/克)與水泥中的四我們考慮一個簡單問題:假設(shè)某種水泥在凝固時放出的熱量種活血成分X1,X2,X3,X4有關(guān),現(xiàn)測得13組數(shù)據(jù),如下表所示,希望從中選出主要的變量,建立Y與它們的線性回歸方程。8序號1234

17、56X1711111711X2262956315255X36158869X4605220473322Y78.574.3104.387.695.9109.2序號78910111213271315447406668X317221842398X46442226341212Y102.772.593.1115.983.8113.3109.42、簡單線性回歸求解用R對數(shù)據(jù)做簡單多元線性回歸:(輸入代碼以文字顯示,控制臺的響應(yīng)以圖片顯示)>cement<-data.frame(X1=c(7,1,11,11,7,11,3,1,2,21,1,11,10),X2=c(26,2

18、9,56,31,52,55,71,31,54,47,40,66,68),X3=c(6,15,8,8,6,9,17,22,18,4,23,9,8),X4=c(60,52,20,47,33,22,6,44,22,26,34,12,12),Y=c(78.5,74.3,104.3,87.6,95.9,109.2,102.7,72.5,93.1,115.9,83.8,113.3,109.4)>cementXIX2K3K4Y1726£6073.52129155274-331153201QT.34113184787.6S7S263395.g51155g22109.2737117102.7Ou

19、131224472,59254IS2293.110214742S115.911140233483.8121156g12113.3131068s12109.4>lm.sol<-lm(Y.,data=cement)>summary(lm.sol)Call:lir.(formula=¥data.=ceir.ent;Residuals:MinIQMedian3QMax-3.175。-146709Q.25O81.37333.9254Coefficientb:Estirt-ateStd,Er:ortvalueFrOKI)(Intercept)62.405470,07100.39

20、10.3991XI1.55110.744B2.0B30.0708X20.510204723B0.7050.5009X30.10190.7S470.1350.S9S9K4-a.nei0,7091-0,203Q.SmSignir.codes:。,*'0.001*"0.01'*f0.05、'0.1''1Residualstandarderror:2.44onSdegreesoffreedoitMultipleR-squared:0,9624,AdjustedR-squared:0.9736F-sratistic:111.5on4and3DFfp-va

21、lue14»756e07可以看到雖然R2接近于1,擬合優(yōu)度較理想,但是自變量的p值均大于0.05,回歸系數(shù)沒有通過顯著性檢驗。利用簡單線性回歸得到回歸方程中的X與Y的關(guān)系不明顯。F檢驗的值也非常大,說明自變量的顯著性較低,需要進行變量選擇。利用car包中的vif()函數(shù)查看各自變量間的共線情況>library(car)>vif(lm.sol)XIX2X3X438.4962125.-4231746,368392B2,512SC從結(jié)果看,各自變量的VIF值都超過10,存在多重共線性,其中,X2與X4的VIF值均超過200。>plot(X2X4,col="red

22、",data=cement)osso寸102030405060X4圖中可以明顯看出X2與X4存在線性關(guān)系。3、利用lasso求解此時我們嘗試用lars-lasso來求解這個方程。>library(lars)>x=as.matrix(cement,1:4)>y=as.matrix(cement,5)>(laa=lars(x,y,type="lar")Call:lars(x=x,y=yf=Klar*1)R-squared:0,982Se(iuenceofLARmoves:X4XIX2X3Var4123Step1234可以看到lasso的變量選擇

23、依次是X4,X1,X2,X3。>plot(laa)LAR|beta|/max|beta|可以看出各變量的系數(shù)的變化過程。>summary(laa)LARS/LARCall:larsx-xfy=type-HlarK)DfRs5Cp012715.76442.9167122219,3S31,94S5231917.55313.50203447.973.01B44S47.865,0000其中Cp(衡量多重共線性,其值越小越好)可以看到在第3步以后cp值明顯變小。說明lasso模型在實際應(yīng)用中能夠解決多重共線性的問題,有良好的應(yīng)用。七、應(yīng)用與研究現(xiàn)狀嘍索全宓-RK分鞋假:來源數(shù)據(jù)屋學(xué)科|發(fā)一年

24、息.究聯(lián)作青機構(gòu)富金j楚頻E原麒武:彳苴機軟件技計茸機底用S心血苣系鰻疾賽,題字電信技術(shù)門,自動化技術(shù)?生物學(xué)X宏酶濟管理與可特球壇展|1,臨庠醫(yī)學(xué)金融外科學(xué)外國語言文字犯段資.互聯(lián)網(wǎng)技術(shù)7椒k:二證券,訪】A*我們在知網(wǎng)中對lasso進行中文數(shù)據(jù)庫的搜索,結(jié)果見下圖:可以看到該模型在計算機、醫(yī)學(xué)、經(jīng)濟等各個領(lǐng)域均有應(yīng)用。見微知著的可以下結(jié)論其運用十分廣泛。在應(yīng)用和拓展方面的研究也十分豐富。下表中列出了部分內(nèi)容。Table1.AsamplingofgeneralizationsofthelassoDertiilGruupcdIn寫寫口ElaslicnetFusedki%看口AdaptivcGr

25、aphicallassoDuntzigselectorNear1)tonicregulaiizLihonMatrixcoiinpletioiiCompres?iiesensingMultivaiiatemethodsYuanand.in2007a)ZouandHastie(2005)I'ibshiaanelat.(2005)Zou(2006)YuanandLin(2007b1;FriedmanetaL(2007)CandesandTao(2007)TibdiiranieluL(2010)CanJesandTao(2009);Mazumderettil.(2010)ronnho12004

26、);CrudesJulliOei-!uL2003hWidenc-Jul.411羯打,詞成Elhglik+A|£-lliEin3E如lx110K二辦HU.|X-X|2+AIIXILmin(|"iJsubjecttoy=.Y.iSpao'scprincipalCDinpjniMllsanalysis,lineardifieriminantnnalysiandcanonicalctnctilhjnLLialysis這些研究在數(shù)學(xué)層面考察了lasso產(chǎn)生最小預(yù)測誤差模型的能力,并重新獲得了真正的底層(稀疏)模型。重要的貢獻者包括Bickel,Buhlmann,Candes,Donoho,Johnstone,Meinshausen,vandeGeer,WainwrightandYu.也證明了lasso可以揭示更多的傳統(tǒng)技術(shù),給向前逐步選擇方法帶來了新的理解。另一個例子是grap

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論