大數(shù)據(jù)分析方法與應用 課件 第3章 回歸分析_第1頁
大數(shù)據(jù)分析方法與應用 課件 第3章 回歸分析_第2頁
大數(shù)據(jù)分析方法與應用 課件 第3章 回歸分析_第3頁
大數(shù)據(jù)分析方法與應用 課件 第3章 回歸分析_第4頁
大數(shù)據(jù)分析方法與應用 課件 第3章 回歸分析_第5頁
已閱讀5頁,還剩56頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)分析方法與應用上海理工大學主講人:耿秀麗

教授第3章回歸分析3.1線性和非線性回歸目錄CONTENTS3.2多元回歸3.3嶺回歸3.4LASSO回歸第3章回歸分析3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實現(xiàn)“回歸”一詞的英文是Regression,統(tǒng)計學上的“相關”和“回歸”的概念是高爾頓第一次使用。一些變量之間存在相關關系。如果能建立這些相關關系的數(shù)量表達式,就可以根據(jù)一個變量的值來預測另一個變量的變化。如果隨機變量y與變量間具有統(tǒng)計關系,那么每當取定值之后,y便有相應的概率分布與之對應。其概率模型為:

其中y稱為因變量,x1,x2,x3,…,xn稱為自變量。y由兩部分組成,一部分是由x1,x2,x3,…,xn能夠決定的部分,記為f(x1,x2,x3,…,xn);另一部分由眾多未加考慮的因素(包括隨機因素)所產(chǎn)生的影響,它被看成隨機誤差,記為ε。f(x1,x2,x3,…,xn)稱為y對x1,x2,x3,…,xn的回歸函數(shù)。3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實現(xiàn)當模型中的回歸函數(shù)為線性函數(shù)時,即:

,為線性回歸模型。當模型中的回歸函數(shù)為非線性函數(shù)時,為非線性回歸模型。常見的非線性回歸模型包括:1)多項式回歸;2)指數(shù)回歸;3)對數(shù)回歸;4)冪函數(shù)回歸;5)Sigmoid函數(shù)回歸;6)非線性混合效應模型。3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實現(xiàn)當模型中只有一個自變量時,為簡單的一元線性回歸,

其中X是自變量,Y是因變量。β0表示截距,是自變量X等于0時,因變量Y的值。??1表示斜率,表示自變量X每增加1,因變量Y增加的數(shù)值。ε表示誤差?;貧w方程可以表示為:3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實現(xiàn)如表所示為某市用電量指標統(tǒng)計,在Excel中繪制散點圖,添加趨勢線,顯示回歸方程和相關系數(shù),具體操作步驟如下:

3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實現(xiàn)1)在數(shù)據(jù)中,選擇“GDP”和“年用電量”。

3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實現(xiàn)2)插入“散點圖”,操作如圖所示。

3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實現(xiàn)3)單擊菜單“設計”,選擇“圖表布局”,輸入圖表和坐標軸標題,如圖所示。

3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實現(xiàn)4)右鍵單擊散點圖,選擇“添加趨勢線”,如圖所示。

3.1線性和非線性回歸

3.1.1

線性回歸及其Excel中的實現(xiàn)5)在“趨勢線選項”中選擇“線性”,“顯示公式”和顯示R平方值,單擊“關閉”,操作如圖所示。

3.1線性和非線性回歸

3.1.1

線性回歸及其Excel中的實現(xiàn)6)完成散點圖添加趨勢線的簡單一元回歸,結果如圖所示。

3.1線性和非線性回歸

3.1.2

最小二乘回歸最小二乘法(又稱最小平方法)是一種數(shù)學優(yōu)化技術。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小。對于回歸直線,關鍵在于求解參數(shù),常用的就是最小二乘法,它是使因變量的觀察值與估計值之間的殘差平方和達到最小來求解,殘差平方和為:3.1線性和非線性回歸

3.1.2

最小二乘回歸上述方程中對系數(shù)β0,β1偏導,并使導數(shù)等于0,可得3.1線性和非線性回歸

3.1.2

最小二乘回歸因變量觀察值yi和觀察值的均值的差的平方和稱為總平方和SST。總平方和可以分解為回歸平方和、殘差平方和:SST=SSR+SSE。

判定系數(shù)R2=SSR/SST表示因變量總差異中可以由回歸解釋的比例,1-R2=SSE/SST表示殘差平方和占總平方和的比例。R2越接近1,回歸的相關性越好。3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實現(xiàn)在實際問題中,很多情況下因變量與自變量之間的關系不是線性的,而是呈現(xiàn)出曲線、指數(shù)、對數(shù)等非線性形式。非線性回歸是一種統(tǒng)計建模方法,用于建立自變量和因變量之間非線性關系的模型。在非線性回歸中,自變量和因變量之間的關系可以通過非線性函數(shù)來描述,而不是簡單的線性關系。非線性回歸可以更準確地擬合非線性關系的數(shù)據(jù),提高模型的預測能力。3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實現(xiàn)按照表中的數(shù)據(jù),在Excel繪制簡單一元非線性回歸步驟如下:3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實現(xiàn)1)創(chuàng)建“人口”和“用電量”兩個變量樣本的散點圖,單擊散點圖,選擇“添加趨勢線”,選擇“多項式”,“階數(shù)”為2,如圖所示。3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實現(xiàn)2)選擇“顯示公式”和“顯示R平方”,操作如圖所示。3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實現(xiàn)3)一元非線性回歸如圖所示。3.2多元回歸3.2.1多元回歸及其概念多元線性回歸包括一個因變量y和若干自變量x1,x2,…,xn,多元線性回歸模型一般形式為:其中β0,β1,β2,β3,…,βn稱為待估參數(shù),ε為誤差項。則回歸方程為:對于隨機抽取的n組觀測值,如果樣本函數(shù)的參數(shù)估計值已經(jīng)得到,則有:殘差平方和為:3.2多元回歸3.2.1多元回歸及其概念根據(jù)最小二乘原理,參數(shù)估計值應使殘差平方和達到最小,也就是尋找參數(shù)β0,β1,β2,β3,…,βn的估計值達到最?。杭碤e的最小值,根據(jù)微積分知識,需對Qe關于待估參數(shù)求偏導數(shù),并且令其為0。則3.2多元回歸3.2.1多元回歸及其概念得到回歸方程:在多元回歸中,復相關系數(shù)R2的大小和樣本數(shù)量n以及自變量的個數(shù)k有關。為了消除樣本數(shù)量和自變量個數(shù)對復相關系數(shù)的影響,計算以下修正的復相關系數(shù):由統(tǒng)計學理論可以知道,對于自變量個數(shù)為k,總平方和SST的自由度為n-1,殘差平方和SSE的自由度為n-k-1,回歸平方和SSR的自由度為k。將相應的平方和除以自由度,得到以下方差:MST=SST/(n-1)觀察值和平均值之間的方差MSR=SSR/k預測值和平均值之間的方差

MSE=SSE/(n-k-1)觀察值和預測值之間的方差3.2多元回歸3.2.1多元回歸及其概念F檢驗H0:β1=β2=…=βn=0H1:β1≠β2≠…≠βn≠0構造統(tǒng)計量:統(tǒng)計量F服從F分布,自由度為(k,n-k-1)。對于給定的置信水平,查F分布表得到臨界值Fα/2,k,n-k-1,如果F>Fα/2,k,n-k-1,拒絕原假設?;貧w的總體效果顯著的。F值越大,說明回歸方程能解釋因變量變異的程度越高。3.2多元回歸3.2.2多重共線性在多元回歸中,自變量除了和因變量有很強的相關關系外,還和其他若干個自變量之間也存在很強的相關關系,這種現(xiàn)象稱為“多重共線性”。容忍度

,Ri是解釋變量Xi與方程中其他解釋變量間的復相關系數(shù),容忍度在0到1之間,越接近0,表示多重共線性越強,越接近1,表示多重共線性越弱。方差膨脹因子是容忍度的倒數(shù):處理多重共線性最簡單的方法就是從模型中將被懷疑會引起多重共線性問題的解釋變量舍去,但是這一方法卻可能會引起其他方面的問題。因此,還要考慮其他可供選擇的方法,這些方法主要有:追加樣本信息,使用非樣本先驗信息,使用有偏估計量等。3.2多元回歸3.2.3多元回歸及其SPSS中的實現(xiàn)為了操作更具有簡便性、快捷性,我們使用SPSS在線分析軟件SPSSPRO來實現(xiàn)多元回歸。1)放入數(shù)據(jù)文檔,如圖所示。3.2多元回歸3.2.3多元回歸及其SPSS中的實現(xiàn)2)根據(jù)數(shù)據(jù)分析需求,選擇多元回歸,如圖所示。3.2多元回歸3.2.3多元回歸及其SPSS中的實現(xiàn)3)將左側變量放入對應的方框里,如圖所示。3.2多元回歸3.2.3多元回歸及其SPSS中的實現(xiàn)4)單擊“開始分析”,如圖所示。3.2多元回歸3.2.4居民存款影響因素回歸案例分析影響住戶存款的因素較多,如居民收入、物價、利率、人口數(shù)量、消費習慣、生活方式、社會保障體系等。而居民收入和人口數(shù)量是決定住戶存款的核心因素。由于目前我國城鄉(xiāng)差別仍然很大,城鎮(zhèn)居民的收入遠大于農(nóng)村居民的收入。這種差異可以用城鎮(zhèn)化率體現(xiàn)。本節(jié)選擇農(nóng)村居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率為影響因子,分析它們對住戶存款的影響。如表所示,為農(nóng)村居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率、住戶存款的相關數(shù)據(jù)。分析農(nóng)村居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率對住戶存款的多元線性回歸方程。3.2多元回歸3.2.4居民存款影響因素回歸案例分析3.2多元回歸3.2.4居民存款影響因素回歸案例分析以表中的數(shù)據(jù)為樣本,運用最小二乘法估計回歸系數(shù)β。借助SPSSPRO軟件工具,求得回歸系數(shù),結果表所示。3.2多元回歸3.2.4居民存款影響因素回歸案例分析由表中的數(shù)據(jù)可得回歸方程:Y=-12.037+0.001X1+0.002X2+0.704X3-0.089X4。VIF都大于10,明顯存在多重共線性。如何解決多重共線性的問題,將在下一章嶺回歸中著重介紹。3.3嶺回歸3.3.1嶺回歸的概念嶺回歸是最小二乘法的改良與深化,是專門用于解決數(shù)據(jù)共線性這種病態(tài)現(xiàn)象的有效方法,對共線性數(shù)據(jù)分析具有獨到的效果。它通過放棄OLS的無偏性優(yōu)勢,以損失部分信息、降低擬合精度為代價,換來回歸系數(shù)的穩(wěn)定性和可靠性?;貧w分析中常用的最小二乘法是一種無偏估計。對于一個適定問題,X通常是列滿秩的:Xβ=y采用最小二乘法,定義損失函數(shù)為殘差的平方,最小化損失函數(shù):‖Xβ-y‖2上述優(yōu)化問題可以采用公式進行直接求解:3.3嶺回歸3.3.1嶺回歸的概念當X不是列滿秩時,或者某些列之間的線性相關性比較大時,X的行列式接近于0,即接近于奇異,上述問題變?yōu)橐粋€不適定問題,此時計算(XTX)-1誤差會很大,傳統(tǒng)的最小二乘法缺乏穩(wěn)定性與可靠性。為了解決上述問題,我們需要將不適定問題轉化為適定問題:我們?yōu)樯鲜鰮p失函數(shù)加上一個正則化項,變?yōu)?/p>

,嶺回歸的目標函數(shù)為:3.3嶺回歸3.3.1嶺回歸的概念嶺回歸求解回歸系數(shù)β方法為:在公式中,k為嶺回歸參數(shù)。k越大,消除共線性影響效果越好,但擬合精度越低;k越小,擬合精度越高,但消除共線性影響作用越差。因此,必須在二者間找到最佳平衡點,使k既能消除共線對參數(shù)估計的影響,又盡可能小,以減小擬合方程,提高擬合精度。復相關系數(shù)Radj2是反映擬合精度的重要指標,它隨k的增大而減小。k選取原則是:在嶺軌跡變化趨于穩(wěn)定時選取其最小值。嶺回歸是對OLS的一種補充,基本思想就是給矩陣XTX加上一個對角陣,盡量將奇異矩陣轉化為非奇異矩陣,以使矩陣XTX盡可能可逆,以便能夠求出回歸系數(shù)和提高參數(shù)估計的穩(wěn)定性和可靠性,得到的參數(shù)更能真實反映客觀實際。但同時對回歸系數(shù)β的估計不再是無偏估計,從而降低擬合精度。3.3嶺回歸3.3.2嶺回歸及其在SPSS中的實現(xiàn)按照嶺回歸法估計回歸系數(shù),運用SPSS在線分析軟件SPSSPRO實現(xiàn)。1)放入數(shù)據(jù)文檔,如圖所示。3.3嶺回歸3.3.2嶺回歸及其在SPSS中的實現(xiàn)2)根據(jù)數(shù)據(jù)分析需求,選擇嶺回歸,如圖所示。3.3嶺回歸3.3.2嶺回歸及其在SPSS中的實現(xiàn)3)將左側變量放入對應的方框里,如圖所示。3.3嶺回歸3.3.2嶺回歸及其在SPSS中的實現(xiàn)4)嶺回歸分析前需要結合嶺跡圖確認K值,K值的選擇原則是各個自變量的標準化回歸系數(shù)趨于穩(wěn)定時的最小K值。5)確定好K值后,代入程序中,單擊“開始分析”,如圖所示。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析選擇農(nóng)村居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率為影響因子,分析它們對住戶存款的影響。由于住戶存款與影響因素一般同相變化,即存在共線性,如果采用最小二乘法(OLS)估計模型的參數(shù),得到的自變量系數(shù)往往喪失了對因變量的解釋作用,不能客觀反映客觀實際。嶺回歸可以較好解決這一問題,回歸的參數(shù)可以客觀反映解釋變量與被解釋變量的關系。因此,采用嶺回歸分析它們對我國住戶存款的影響,這樣才能客觀掌握其對住戶存款的影響。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析X1、X2、X3、X4分別為居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率,Y表示住戶存款運用最小二乘法估計回歸系數(shù)β。借助SPSSPRO軟件工具,求得回歸系數(shù),如下表所示。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析4個自變量的膨脹系數(shù)VIF均大于10,說明存在多重共線性。再觀察共線性診斷結果,如下表所示。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析特征值:4維特征值為0,3、5維特征值接近于0,證實存在共線性;條件指數(shù):3、4、5維度的條件指數(shù)分別為44.762、173.466、644.245,大于30,也證明存在共線性;方差比例:X1在4維度的方差比例為0.66大于0.5,X2在4維度方差比例為0.81,大于0.5,X3在5維度的方差比例為0.99,大于0.5,X4在4維度的方差比例為0.93,大于0.5,證明存在共線性。綜上所述,自變量滿足共線性診斷的所有條件,說明4個自變量數(shù)據(jù)之間存在嚴重的共線性。此時回歸的參數(shù)不能客觀反映自變量與因變量的關系,解決的最好辦法就是采用嶺回歸法估計回歸系數(shù)。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析嶺回歸分析前需要結合嶺跡圖確認K值,K值的選擇原則是各個自變量的標準化回歸系數(shù)趨于穩(wěn)定時的最小K值。K值越小則偏差越小,K值為0時則為普通線性OLS回歸(可主觀判斷,或系統(tǒng)自動生成)。設定迭代步長取0.01,以確定最佳嶺回歸參數(shù)K。當K逐漸增大時,各自變量系數(shù)逐步趨于穩(wěn)定,由下圖可知當K=0.70以后,自變量系數(shù)基本不變,故最佳嶺回歸參數(shù)取K=0.60。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析確定好K值后,將K=0.60加入程序再運行,得到回歸參數(shù),如表3-6所示。4個自變量的標準化回歸系數(shù)分別為:β1=0.2319882,β2=0.2248438,β3=0.2080938,β4=0.2063121。4個自變量的標準化系數(shù)在數(shù)量級上較為合理,且皆為正數(shù),能客觀反映其對因變量的影響。根據(jù)回歸的非標準化系和常數(shù),我們可以得到最終嶺回歸方程,即:Y=-148.002167+0.0012134X1+0.0004499X2+10.0416323X3+0.5962266X43.4LASSO回歸3.4.1LASSO回歸的概念LASSO回歸方法與嶺回歸類似,通過構造一個懲罰函數(shù)得到一個較為精煉的模型,達到壓縮回歸系數(shù)的目的,是一種處理具有復共線性數(shù)據(jù)的有偏估計。嶺回歸無法降低模型復雜度,而LASSO回歸是在嶺回歸基礎上的優(yōu)化,可以直接將系數(shù)懲罰壓縮至零,達到降低模型復雜度的目的。為保證回歸系數(shù)可求,在多元線性回歸目標函數(shù)加上L1范數(shù)懲罰項,則LASSO回歸目標函數(shù):Y為觀測集;X為由X1,X2,…,Xn構成的集合;β為由β1,β2,…,βn成的回歸系數(shù)集;λ為正則化系數(shù),且值非負。由LASSO回歸目標函數(shù)可知,其引入L1范數(shù)懲罰項,正則化系數(shù)λ的選取十分重要。調整參數(shù)λ的值,模型系數(shù)的絕對值逐漸減小,使絕對值較小的系數(shù)自動壓縮為0,實現(xiàn)對高維數(shù)據(jù)進行降維。3.4LASSO回歸3.4.2LASSO回歸及其SPSS中的實現(xiàn)按照LASSO回歸法的原理,在SPSSPRO中實現(xiàn)。1)放入數(shù)據(jù)文檔,如圖所示。3.4LASSO回歸3.4.2LASSO回歸及其SPSS中的實現(xiàn)2)根據(jù)數(shù)據(jù)分析需求,選擇LASSO回歸,如圖所示。3.4LASSO回歸3.4.2LASSO回歸及其SPSS中的實現(xiàn)3)將左側變量放入對應的方框里,如圖所示。3.4LASSO回歸3.4.2LASSO回歸及其SPSS中的實現(xiàn)4)LASSO回歸中,正則化系數(shù)λ的選取十分重要。調整參數(shù)λ的值,模型系數(shù)的絕對值逐漸減小,使絕對值較小的系數(shù)自動壓縮為0,實現(xiàn)對高維數(shù)據(jù)進行降維。5)確定好λ值后,代入程序中,單擊“開始分析”,如圖所示。3.4LASSO回歸3.4.3居民存款影響因素回歸案例分析現(xiàn)在用LASSO回歸對居民存款影響因素進行分析。X1、X2、X3、X4分別居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率,Y表示住戶存款。借助SPSSPRO軟件工具,運用LASSO回歸進行分析。通過交叉驗證方法,確定λ值。λ值的選擇原則是使得LASSO模型的均方誤差最小。如圖所示為交叉驗證圖,以可視化形式展示了使用交叉驗證選擇λ值的情況。3.4LASSO回歸3.4.3居民存款影響因素回歸案例分析為使得均方誤差最小確定λ=0.0。代入程序運算得出LASSO回歸系數(shù),則LASSO回歸函數(shù)為:Y=-12.592+0.001X1+0.0002X2+0.7X3-0.07X4課后習題1.設SSR=36,SSE=4,n=18。(1)計算判定系數(shù)R2并解釋其意義。(2)計算估計標準誤差Se并解釋其意義。(6)如果某地區(qū)的人均GDP為5000元,預測其人均消費水平。(7)求人均GDP為5000元時,人均消費水平95%的置信區(qū)間和預測區(qū)間。課后習題2.下面是7個地區(qū)2000年的人均國內生產(chǎn)總值(GDP)和人均消費水平的統(tǒng)計數(shù)據(jù):求:(1)人均GDP作自變量,人均消費水平作因變量,繪制散點圖,并說明二者之間的關系。(2)計算兩個變量之間的線性相關系數(shù),說明兩個變量之間的關系強度。(3)求出估計的回歸方程,并解釋回歸系數(shù)的實際意義。(4)計算判定系數(shù),并解釋其意義。(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論