對線性回歸,logistic回歸和一般回歸的認識_第1頁
對線性回歸,logistic回歸和一般回歸的認識_第2頁
對線性回歸,logistic回歸和一般回歸的認識_第3頁
對線性回歸,logistic回歸和一般回歸的認識_第4頁
對線性回歸,logistic回歸和一般回歸的認識_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、假設有一個房屋銷售的數(shù)據(jù)如下:面積(m2)銷售價錢(萬元)12325015032087160102220     這個表類似于北京5環(huán)左右的房屋價錢,我們可以做出一個圖,x軸是房屋的面積。y軸是房屋的售價,如下:          如果來了一個新的面積,假設在銷售價錢的記錄中沒有的,我們怎么辦呢?     我們可以用一條曲線去盡量準的擬合這些數(shù)據(jù),然后如果有新的輸入過來,我們可以在將曲線上這個點對應的值返回。如果用一條直線去擬

2、合,可能是下面的樣子:          綠色的點就是我們想要預測的點。     首先給出一些概念和常用的符號。     房屋銷售記錄表:訓練集(training set)或者訓練數(shù)據(jù)(training data), 是我們流程中的輸入數(shù)據(jù),一般稱為x     房屋銷售價錢:輸出數(shù)據(jù),一般稱為y     擬合的函數(shù)(或

3、者稱為假設或者模型):一般寫做 y = h(x)     訓練數(shù)據(jù)的條目數(shù)(#training set),:一條訓練數(shù)據(jù)是由一對輸入數(shù)據(jù)和輸出數(shù)據(jù)組成的輸入數(shù)據(jù)的維度n (特征的個數(shù),#features)     這個例子的特征是兩維的,結果是一維的。然而回歸方法能夠解決特征多維,結果是一維多離散值或一維連續(xù)值的問題。3 學習過程     下面是一個典型的機器學習的過程,首先給出一個輸入數(shù)據(jù),我們的算法會通過一系列的過程得到一個估計的函數(shù),這個函數(shù)有能力對沒有見過的

4、新數(shù)據(jù)給出一個新的估計,也被稱為構建一個模型。就如同上面的線性回歸函數(shù)。     4 線性回歸     線性回歸假設特征和結果滿足線性關系。其實線性關系的表達能力非常強大,每個特征對結果的影響強弱可以由前面的參數(shù)體現(xiàn),而且每個特征變量可以首先映射到一個函數(shù),然后再參與線性計算。這樣就可以表達特征與結果之間的非線性關系。     我們用X1,X2.Xn 去描述feature里面的分量,比如x1=房間的面積,x2=房間的朝向,等等,我們可以做出一個估計函數(shù): 

5、         在這兒稱為參數(shù),在這的意思是調(diào)整feature中每個分量的影響力,就是到底是房屋的面積更重要還是房屋的地段更重要。為了如果我們令X0 = 1,就可以用向量的方式來表示了:          我們程序也需要一個機制去評估我們是否比較好,所以說需要對我們做出的h函數(shù)進行評估,一般這個函數(shù)稱為損失函數(shù)(loss function)或者錯誤函數(shù)(error function),描述h函數(shù)不好的程度,在下面,我們稱這個

6、函數(shù)為J函數(shù)     在這兒我們可以認為錯誤函數(shù)如下:          這個錯誤估計函數(shù)是去對x(i)的估計值與真實值y(i)差的平方和作為錯誤估計函數(shù),前面乘上的1/2是為了在求導的時候,這個系數(shù)就不見了。     至于為何選擇平方和作為錯誤估計函數(shù),講義后面從概率分布的角度講解了該公式的來源。     如何調(diào)整以使得J()取得最小值有很多方法,其中有最小二乘法(min square

7、),是一種完全是數(shù)學描述的方法,和梯度下降法。5 梯度下降法     在選定線性回歸模型后,只需要確定參數(shù),就可以將模型用來預測。然而需要在J()最小的情況下才能確定。因此問題歸結為求極小值問題,使用梯度下降法。梯度下降法最大的問題是求得有可能是全局極小值,這與初始點的選取有關。     梯度下降法是按下面的流程進行的:     1)首先對賦值,這個值可以是隨機的,也可以讓是一個全零的向量。     2)改變的值,使得J()按梯度下降的

8、方向進行減少。     梯度方向由J()對的偏導數(shù)確定,由于求的是極小值,因此梯度方向是偏導數(shù)的反方向。結果為               迭代更新的方式有兩種,一種是批梯度下降,也就是對全部的訓練數(shù)據(jù)求得誤差后再對進行更新,另外一種是增量梯度下降,每掃描一步都要對進行更新。前一種方法能夠不斷收斂,后一種方法結果可能不斷在收斂處徘徊。     一般來說,梯度下降法收斂速度還是比

9、較慢的。     另一種直接計算結果的方法是最小二乘法。6 最小二乘法     將訓練特征表示為X矩陣,結果表示成y向量,仍然是線性回歸模型,誤差函數(shù)不變。那么可以直接由下面公式得出     但此方法要求X是列滿秩的,而且求矩陣的逆比較慢。7 選用誤差函數(shù)為平方和的概率解釋     假設根據(jù)特征的預測結果與實際結果有誤差,那么預測結果和真實結果滿足下式:     一般來講,誤差滿足平均值為0的高斯

10、分布,也就是正態(tài)分布。那么x和y的條件概率也就是     這樣就估計了一條樣本的結果概率,然而我們期待的是模型能夠在全部樣本上預測最準,也就是概率積最大。注意這里的概率積是概率密度函數(shù)積,連續(xù)函數(shù)的概率密度函數(shù)與離散值的概率函數(shù)不同。這個概率積成為最大似然估計。我們希望在最大似然估計得到最大值時確定。那么需要對最大似然估計公式求導,求導結果既是               這就解釋了為何誤差函數(shù)要使用平方和。

11、0;    當然推導過程中也做了一些假定,但這個假定符合客觀規(guī)律。8 帶權重的線性回歸     上面提到的線性回歸的誤差函數(shù)里系統(tǒng)都是1,沒有權重。帶權重的線性回歸加入了權重信息。     基本假設是               其中假設符合公式        

12、0;           其中x是要預測的特征,這樣假設的道理是離x越近的樣本權重越大,越遠的影響越小。這個公式與高斯分布類似,但不一樣,因為不是隨機變量。     此方法成為非參數(shù)學習算法,因為誤差函數(shù)隨著預測值的不同而不同,這樣無法事先確定,預測一次需要臨時計算,感覺類似KNN。9 分類和logistic回歸     一般來說,回歸不用在分類問題上,因為回歸是連續(xù)型模型,而且受噪聲影響比較大。如果非要應用進入,可

13、以使用logistic回歸。     logistic回歸本質(zhì)上是線性回歸,只是在特征到結果的映射中加入了一層函數(shù)映射,即先把特征線性求和,然后使用函數(shù)g(z)將最為假設函數(shù)來預測。g(z)可以將連續(xù)值映射到0和1上。     logistic回歸的假設函數(shù)如下,線性回歸假設函數(shù)只是。     logistic回歸用來分類0/1問題,也就是預測結果屬于0或者1的二值分類問題。這里假設了二值滿足伯努利分布,也就是     當然假設它滿足泊

14、松分布、指數(shù)分布等等也可以,只是比較復雜,后面會提到線性回歸的一般形式。     與第7節(jié)一樣,仍然求的是最大似然估計,然后求導,得到迭代公式結果為          可以看到與線性回歸類似,只是換成了,而實際上就是經(jīng)過g(z)映射過來的。10 牛頓法來解最大似然估計     第7和第9節(jié)使用的解最大似然估計的方法都是求導迭代的方法,這里介紹了牛頓下降法,使結果能夠快速的收斂。    

15、當要求解時,如果f可導,那么可以通過迭代公式     來迭代求解最小值。     當應用于求解最大似然估計的最大值時,變成求解最大似然估計概率導數(shù)的問題。     那么迭代公式寫作          當是向量時,牛頓法可以使用下面式子表示           其中是n×n的Hes

16、sian矩陣。     牛頓法收斂速度雖然很快,但求Hessian矩陣的逆的時候比較耗費時間。     當初始點X0靠近極小值X時,牛頓法的收斂速度是最快的。但是當X0遠離極小值時,牛頓法可能不收斂,甚至連下降都保證不了。原因是迭代點Xk+1不一定是目標函數(shù)f在牛頓方向上的極小點。11 一般線性模型     之所以在logistic回歸時使用          的公式是由一套理論作支持的

17、。     這個理論便是一般線性模型。     首先,如果一個概率分布可以表示成          時,那么這個概率分布可以稱作是指數(shù)分布。     伯努利分布,高斯分布,泊松分布,貝塔分布,狄特里特分布都屬于指數(shù)分布。     在logistic回歸時采用的是伯努利分布,伯努利分布的概率可以表示成    &

18、#160;     其中          得到          這就解釋了logistic回歸時為了要用這個函數(shù)。     一般線性模型的要點是     1)  滿足一個以為參數(shù)的指數(shù)分布,那么可以求得的表達式。     2) 給定x,

19、我們的目標是要確定,大多數(shù)情況下,那么我們實際上要確定的是,而。(在logistic回歸中期望值是,因此h是;在線性回歸中期望值是,而高斯分布中,因此線性回歸中h=)。     3) 12 Softmax回歸     最后舉了一個利用一般線性模型的例子。     假設預測值y有k種可能,即y1,2,k     比如k=3時,可以看作是要將一封未知郵件分為垃圾郵件、個人郵件還是工作郵件這三類。   

20、  定義          那么          這樣          即式子左邊可以有其他的概率表示,因此可以當作是k-1維的問題。     為了表示多項式分布表述成指數(shù)分布,我們引入T(y),它是一組k-1維的向量,這里的T(y)不是y,T(y)i表示T(y)的第i個分量。          應用于一般線性模型,結果y必然是k中的一種。1y=k表示當y=k的時候,1y=k=1。那么p(y)可以表示為          其實很

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論