這一章的內(nèi)容是模型評估與選擇,斷斷續(xù)續(xù)看了兩周時間,_第1頁
這一章的內(nèi)容是模型評估與選擇,斷斷續(xù)續(xù)看了兩周時間,_第2頁
這一章的內(nèi)容是模型評估與選擇,斷斷續(xù)續(xù)看了兩周時間,_第3頁
這一章的內(nèi)容是模型評估與選擇,斷斷續(xù)續(xù)看了兩周時間,_第4頁
全文預(yù)覽已結(jié)束

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、這一章的內(nèi)容是模型評估與選擇,斷斷續(xù)續(xù)看了兩周時間,感覺比看模型還費勁。其實這一章的大部分內(nèi)容我是熟悉的,包括各種模型選擇的準則,交叉驗證以及bootstrap,這些在實際建模的時候也經(jīng)常用到,但是關(guān)于其原理確實不是很清晰。這一章給出了詳盡,但是又不那么理論的闡述。經(jīng)典確實是經(jīng)典。閑話不多說了,開始讀書筆記。對于同一個問題,比如分類問題或者預(yù)測問題,往往會有一系列的模型都可以做。那么這些模型表現(xiàn)的如何,如何從這些模型中選擇一個合適的,最好的模型,就成為了一個問題。而這個問題在實際中是非常重要的。我們都知道,模型是建立在訓(xùn)練樣本上的,而預(yù)測是需要在一個獨立的新的樣本上進行的。在訓(xùn)練樣本上所建立的

2、模型,其在一個新的獨立的樣本上的表現(xiàn)如何進行評估,是一個非常重要的問題。這一章首先介紹了偏差(bias),方差(variance)以及模型復(fù)雜度(model complexity)。我們有一個target variable Y,以及輸入向量X,以及通過訓(xùn)練樣本得到的對于響應(yīng)的估計(也就是我們的模型)f(X)。此外,我們還應(yīng)該有一個損失函數(shù)L(Y,f(X)。損失函數(shù)可以有多種選擇,比如平方損失,絕對值損失,這兩個主要是針對定量的響應(yīng)的,對于定性的響應(yīng),也有0-1損失,對數(shù)似然之類的。一般而言,損失函數(shù)中比較常用的就是這些。有了模型以及損失函數(shù)之后,首先定義test error(原諒我在這里中英混

3、雜,因為我發(fā)現(xiàn)用這種方法可以更好地區(qū)分幾個不同的概念)。test error是損失函數(shù)在一個新的,獨立的檢驗樣本上的期望。Err=EL(Y,f(X)。這個期望的計算需要涉及到新的檢測樣本的聯(lián)合分布。以上是test error的概念。于此對應(yīng)的是training error的定義,training error是指在訓(xùn)練樣本上的損失的平均值。err=1NNi=1L(yi,f(xi)上面的圖綜合的闡述了模型復(fù)雜度,偏差,方差之間的關(guān)系。從圖中,我們可以看出,training error顯然不是test error的一個好的估計。顯然,training error都低估了test error。這個原因

4、很容易解釋,training error所用的數(shù)據(jù)依然是建立模型用的數(shù)據(jù),當(dāng)然誤差要小。另外,從這張圖可以看出,隨著模型復(fù)雜度的增加,training error是再不斷減小的,而且如果模型足夠復(fù)雜,是不會有training error的。這種現(xiàn)象,往往被稱為過擬合。也就是說,擬合的太過頭了。這也不是一個好現(xiàn)象。我們想要評估一個模型的好壞,想要知道的,肯定是test error。通常而言,我們對于解決某個問題,會有一族模型,這族模型有一個tuning parameter 。我們記這族模型為f(x)。通常這個tuning parameter是用以辨識模型復(fù)雜程度的。這一章的主要任務(wù)是估計test

5、 error曲線。而通常的模型選擇和評估大致分為兩個步驟,先通過training error來選擇模型,然后再通過test error評估模型。對于test error的估計,通常有兩種策略。一種是解析的做法,比如AIC,BIC之類的。另外一種則是用交叉驗證(cross-validation)或者bootstrap來估計。這兩類方法也是本書這一章的主要的內(nèi)容構(gòu)成。在介紹這些方法之前,有必要先看一看bias-variance分解。Err(x0)=2e+Bias2(f(x0)+Variance通常而言,模型越復(fù)雜,bias越低,而方差variance則越高。關(guān)于這一部分,在之前的一篇筆記中已經(jīng)通過

6、一個圖提到了,這里也不再詳述。通常,training error都是小于test error的。Err在某種意義上是extra-sample error。若我們定義in-sample error,則training error對于test error的樂觀估計則更好理解。in-sample error的定義是Errin=1NL(Ynewi,f(xi)。則這個估計的樂觀的部分如下定義op=ErrinEy(err)而通過推到,我們可以得到(這個推到書上也沒有,應(yīng)該是某一系列論文中的成果,我們這里不具體推,只要知道這個結(jié)果就行)Errin=Ey(err)+2Ncov(yi,yi)這個結(jié)果揭示了一個很

7、重要的事兒,就是樂觀估計的程度與估計值和真實值之間的相關(guān)性是密切相關(guān)的。寫到這我也有點糊涂了,按理說,我們需要的是test error的估計,而現(xiàn)在,我們只需要來估計in-sample error了。作者在這里說了一句話,“In-sample error is not usually of direct interest since future values of the features are not likely to coincide with their training set value.But for comparison between models,in-sample e

8、rror is convenient and often leads to effective model selection”。那么我們就按照作者的經(jīng)驗,來開始對in-sample error進行估計吧。對于in-sample error的估計,有兩個不同的角度可以進行,一種是估計op,然后加到err上即可。這也就是AIC,BIC的思路。另外一種就是利用重抽樣,比如cross-validation或者bootstrap的策略,來估計in-sample error。下面的部分,就分別比較詳細的介紹一下這些方法。Cp統(tǒng)計量:Errin=err+op是通用的一個式子,不同的準則有對這個式子不同的估

9、計,我們先來看最常用的Cp準則。Cp=err+2dN2e這個公式適用于加法模型,而且如果估計值是線性的情況下。AIC準則:AIC=2Loglik+2dN.當(dāng)損失函數(shù)對數(shù)似然損失函數(shù)的時候,這個準則比Cp準則更加廣義。其所依賴的理論是一個大樣本性質(zhì),當(dāng)N趨于無窮大的時候,2ElogPr(Y)2NEloglik+2dN其中l(wèi)oglik=logPr(yi)用AIC準則進行模型選擇的時候,是選擇AIC越小愈好。這一部分書中有一個簡單的例子,但是很能說明問題,不在此多說了。BIC準則:BIC=2loglik+(logN)dBIC準則的得來的motivate是非常不同的,選擇BIC最小的模型,事實上是在選

10、擇后驗概率最大的模型。BIC準則的得來,是通過bayes理論推導(dǎo)得到的。這里在書中也有具體的公式推導(dǎo)。MDL:minimum description length。這個部分,我?guī)缀鯖]怎么看明白,其核心是編碼理論。以上是一些模型選擇的準則。模型選擇的準則都涉及到了模型有效參數(shù)的個數(shù),因此,這一章也對這個問題做了一些講解。包括7.6the effective number of parameters以及7.9的Vapnik-Chernovenkis dimension,都是主要講了模型復(fù)雜度的度量。這兩部分的內(nèi)容我看的并不是很清晰,也沒什么感覺。希望再讀此書能有所收獲。這次閱讀,這部分我都略過了。

11、以上的一些準則,都是對op的一個比較解析的估計。下面介紹兩種通過重抽樣的策略,來估計in-sample error的方法。 cross-validation:CV=1NsumNi=1L(yi,fk(i)(xi)交叉驗證,就是把訓(xùn)練樣本大致平均地分成K分,然后每次剔除一部分,用另外的部分進行模型構(gòu)建,然后用剔除的那一部分來估計誤差,這樣做K次,然后平均K次的誤差。通常而言,都是用5-cross validation或者10-cross validation。當(dāng)然還有每次剔除一個值,leave-one-out。如何選擇K是一個問題,當(dāng)K=N的時候,CV是預(yù)測誤差的漸進無偏估計。但是方差可能會很大。當(dāng)K比較小的時候,方差會比較小,但是偏差比較大,也是一個問題。作者說"over-all five or ten fold cross-validation are recommended as a good

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論