統(tǒng)計分析模型診斷_第1頁
統(tǒng)計分析模型診斷_第2頁
統(tǒng)計分析模型診斷_第3頁
統(tǒng)計分析模型診斷_第4頁
統(tǒng)計分析模型診斷_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、統(tǒng)計與數(shù)量分析第1講1.3 模型診斷 I普通最小二乘2022年3月19日/下午7時41分 普通最小二乘普通最小二乘相關(guān)系數(shù) 相關(guān)系數(shù)(Correlation Coefficient)是度量兩個變量之間線性相關(guān)的方向和強度的測度。 散點圖只是粗略地刻畫兩個變量之間線性相關(guān)關(guān)系的方向、強度和形式,不能確切地度量變量之間的相關(guān)關(guān)系的密切程度。相關(guān)系數(shù)可以具體度量變量之間的相關(guān)關(guān)系的密切程度,并且用一個相對數(shù)數(shù)值表述出來,使之具有直接的可比性。 一般使用樣本統(tǒng)計量來估計總體相關(guān)系數(shù)的數(shù)值水平,有 相關(guān)系數(shù)所反映的是線性相關(guān)關(guān)系。 該相關(guān)系數(shù)是數(shù)值型變量的統(tǒng)計量。yyxxxyLLLr 2022年3月19

2、日/下午7時41分 普通最小二乘普通最小二乘 相關(guān)系數(shù)是總體相關(guān)系數(shù)真值的樣本統(tǒng)計量。因此,相關(guān)系數(shù)只是總體相關(guān)系數(shù)的在一定樣本分布下的估計值,尤其是當計算相關(guān)系數(shù)的樣本容量較小時,相關(guān)系數(shù)的數(shù)值的變異增大。所以,必須對不同樣本容量情況下計算出來的相關(guān)系數(shù)的統(tǒng)計顯著性進行假設(shè)檢驗。 有假設(shè) 相關(guān)系數(shù)的抽樣分布,服從于自由度為n-2的t分布。一般采用T檢驗統(tǒng)計量對相關(guān)系數(shù)進行顯著性檢驗, 2122ntrnrT00:H2022年3月19日/下午7時41分 普通最小二乘普通最小二乘一元線性回歸模型 1理論模型 從回歸模型的一般形式可以表述為 回歸模型(Regression Model)是指因變量依賴

3、自變量和隨機誤差項取值的方程。 因變量的取值由兩個部分構(gòu)成。一部分反映了自變量的變動引起的線性變化;另一部分為剩余變動,反映了不能為自變量和因變量之間的線性關(guān)系所解釋的其它剩余的變異。 在理論上,回歸分析總是假定一元線性回歸模型,即具有統(tǒng)計顯著性,有效地解釋了因變量的變動,剩余變動為不可觀測的隨機誤差。因此,上式為一元線性回歸理論模型。 xy102022年3月19日/下午7時41分 普通最小二乘普通最小二乘 關(guān)于隨機誤差,線性回歸理論模型具有以下三項假定。(1) 0均值。剩余變動為不可觀測的隨機誤差,其數(shù)學期望為0。(2)方差齊性。對于所有的自變量x,隨機誤差的方差相同。(3)獨立性。各項隨機

4、誤差之間,以及各項隨機誤差與對應的自變量之間均不相關(guān),即有0jiEnji, 2 , 1,ji 0iixE2022年3月19日/下午7時41分 普通最小二乘普通最小二乘2回歸方程 根據(jù)回歸理論模型中對隨機誤差的三項假定,有 因此有變量的數(shù)學期望為自變量的線性函數(shù)。 回歸方程(Regression Equation)是指因變量y的數(shù)學期望依賴自變量x取值的方程。 有一元線性回歸方程為 一元線性回歸方程在直角坐標系中為一條直線,所以也稱為直線回歸方程。 20,N xyE102022年3月19日/下午7時41分 普通最小二乘普通最小二乘3估計的回歸方程 由回歸方程中可知,當回歸系數(shù)確定之后,可以計算出

5、因變量在給定自變量數(shù)值時的數(shù)學期望。在回歸方程中的回歸系數(shù)和隨機誤差的方差均為未知,需要利用樣本數(shù)據(jù)進行統(tǒng)計估計。當根據(jù)樣本推斷出回歸方程中的回歸系數(shù)的估計量時,就得到了由樣本推斷出來的估計的回歸方程。 估計的回歸方程(Estimated Regression Equation)是指根據(jù)樣本數(shù)據(jù)的估計量構(gòu)成的回歸方程。 估計的一元線性回歸方程為 當估計的一元線性回歸方程式中的自變量給定某一具體數(shù)值時,因變量的對應的取值,也就隨之確定下來了。xy102022年3月19日/下午7時41分 普通最小二乘普通最小二乘一元線性回歸方程的最小二乘估計 最小二乘估計(Least Square Estimat

6、ion)是指估計量使因變量的觀察值與其估計值的離差平方和最小的方法。這里介紹的是普通最小二乘估計(Ordinary Least Square Estimation, OLSE)。 根據(jù)回歸方程和最小二乘估計定義,一元線性回歸方程關(guān)于回歸系數(shù)估計量的解為非負二次函數(shù),必然存在最小值。 因而,可以得出求解一元線性回歸方程回歸系數(shù)估計量的正規(guī)方程組,并利用離差平方和的形式,可寫為 計算得到的就是一元線性回歸方程回歸系數(shù)的普通最小二乘估計(OLS)估計量。xyLLxxxy1012022年3月19日/下午7時41分 普通最小二乘普通最小二乘一元線性回歸方程的擬合優(yōu)度 將回歸直線與觀察值的距離作為評價回歸

7、方程擬合精度的測度,稱為擬合優(yōu)度(Goodness of Fit)。 1判定系數(shù) 在回歸分析中,將因變量的觀察值之間的變異稱為的總離差,反映了因變量的觀察值與其均值的離差的距離;并將總離差分解為自變量能夠解釋的部分,和自變量不能解釋的兩個部分。 為了避免離差的正負相抵,采用離差平方和的形式,來度量因變量的總離差,并對其進行分解。將因變量的個觀察值與其均值的離差平方和稱為因變量的總離差平方和(Total Deviation Sum of Squares),記為SST,實際上這一總離差平方和就是變量的離差平方和Lyy。有yyniiTLyySS122022年3月19日/下午7時41分 普通最小二乘普

8、通最小二乘 可將SST分解為 式中等號右邊估計值與觀察值的均值的離差平方和,稱為回歸離差平方和(Regression Sum of Squares),記為SSR。反映了在觀察值的總變異中,估計的回歸方程所解釋的這一部分變異的總和。有 niiniiiiiiniiTyyyyyyyyyySS1212212niiRyySS122022年3月19日/下午7時41分 普通最小二乘普通最小二乘 式中等號右邊觀察值與其估計值的離差平方和,稱為剩余離差平方和,或殘差離差平方和(Residual Sum of Squares),記為SSE。反映了在觀察值的總變異中,估計的回歸方程所未能解釋的那一部分變異的總和。有

9、 從而,可將式(9.15)記為 回歸直線擬合程度決定于SSR與SSE的比較,當SSR的數(shù)值越是顯著大于SSE時,說明各觀察值與回歸直線的離差之和越小,回歸直線對于因變量的解釋能力越強。而SSR與SSE又是對總離差平方和的一個完備的分割,兩者存在互為消長的數(shù)量關(guān)系。因此以與之比作為度量回歸方程的擬合優(yōu)度的測度,稱之為判定系數(shù)。niiiEyySS12ERTSSSSSS2022年3月19日/下午7時41分 普通最小二乘普通最小二乘 判定系數(shù)(Coefficient of Determination)是指回歸離差平方和占總離差平方和的比重,有 由于 ,所以 可知,判定系數(shù)就是相關(guān)系數(shù)的平方。判定系數(shù)的

10、取值在0到1 之間,當判定系數(shù)的取值趨近于1時,表示回歸直線的擬合程度很好;當判定系數(shù)的取值趨近于0時,則表示回歸直線的擬合程度很差。TRSSSSr 2xyxyxxniiRLLLyy SS22112yyxxxTRLLLSSSSr2y22022年3月19日/下午7時41分 普通最小二乘普通最小二乘 判定系數(shù)是度量回歸直線擬合優(yōu)度的重要測度。有 ( 判定系數(shù)是一個重要的數(shù)量界限,它將因變量的離差平方和分為了能夠為自變量所解釋的部分,和不能為自變量所解釋的部分。判定系數(shù)就是在因變量的總離差平方和中自變量所解釋的部分所占的份額。yyTRLrSSrSS22yyTELrSSrSS22112022年3月19

11、日/下午7時41分 普通最小二乘普通最小二乘一元線性回歸方程的顯著性檢驗 估計的回歸方程是依據(jù)樣本數(shù)據(jù)擬合的,樣本容量大小,因變量和自變量的抽樣分布,都會對回歸方程中估計量的與總體參數(shù)真值之間的誤差生產(chǎn)影響,僅憑回歸方程擬合優(yōu)度的有關(guān)測度,不能認定因變量與自變量之間是否真的存在這種線性關(guān)系,還需要對估計的回歸方程進行假設(shè)檢驗。 一元回歸方程的顯著性檢驗的原假設(shè)為參數(shù)的真值為0,即 當原假設(shè)成立,可將因變量的變異歸結(jié)于剩余因素,表明自變量對因變量不具有顯著的線性關(guān)系,一元線性方程對于因變量沒有顯著的解釋能力。這時,估計的回歸方程不具備任何實際意義,不能用于預測和控制。若原假設(shè)不成立,說明因變量的

12、變異顯著地來源于自變量,這時估計的回歸方程才具有實際意義。010:H2022年3月19日/下午7時41分 普通最小二乘普通最小二乘 在一元線性回歸分析中,有回歸均方與剩余均方分別服從自由度為1和自由度為n-2的卡方分布,則由回歸均方與剩余均方的比值構(gòu)造的F檢驗統(tǒng)計量服從第一自由度為1和第二自由度為n-2的F分布。即 利用判定系數(shù),可寫為便于計算的形式,即 2121nFMSMSnSSSSFERER,2112212222nrrrLnrLnSSSSFyyyyER2022年3月19日/下午7時41分 普通最小二乘普通最小二乘 同樣,可以采用方差分析表來反映在一元線性回歸分析的顯著性檢驗中,對變量的離差

13、平方和分解的分析過程和有關(guān)數(shù)據(jù)。一元線性回歸的方差分析表構(gòu)成差異源平方和自由度均方F檢驗統(tǒng)計量回歸1剩余總和RSSRMSERERMSMSnSSSSF21ESSEMSTSS1nTMS2n多重共線性與主成分分析指標綜合的方法很多,最簡單的方法是將這些指標用線型組合的方法將它們組合起來。因此,可設(shè)定其綜合指標的形式為這些指標的線型組合,即 y1 =11 x1 + 12 x2 + + 1p xp顯然,各指標組合的系數(shù)不同,就得到不同的綜合指標。 假如希望構(gòu)造少數(shù)幾個這樣的綜合指標,并且這幾個綜合指標之間是不相關(guān)的。并且,這少數(shù)幾個綜合指標應該在一定程度上反映原始觀測指標的變動。其中反映原始觀測指標的變

14、動程度最大的綜合指標最重要,我們稱其為原始觀測指標的第一主成分;而反映原始觀測指標的變動程度次大的綜合指標,稱為原始觀測指標的第二主成分;反映原始觀測指標變動程度第三大的綜合指標,稱為第三主成分;,即以反映原始觀測指標變動的大小順序排列,第k 個綜合指標稱為原始觀測指標的第 k個主成分。主成分的概念主成分的概念設(shè) 個p指標(隨機變量) 是 p維隨機變量,其協(xié)方差矩陣為 式中,協(xié)方差 。現(xiàn)求X的線性函數(shù) 使得 的方差盡可能的大。TKXXXX),(21PPPPPPppXCOV212222111211)()()(jjiiijXEXXEXEXT)1 (XT)1 (根據(jù)線性代數(shù)的理論, 就是1相應的特征

15、向量,成為隨機向量的第一主成分。第一主成分可能只說明了p個指標的一大部分變動,如果只用第一主成分可能喪失的信息太多,則往往還要計算 的第二主成分 。 顯然,第二主成分不應該在重復反映第一主成分已經(jīng)反映的內(nèi)容,所以求第二主成分時,還必須加上第二主成分與第一主成分不相關(guān)這一條件,即 即第二主成分的特征向量必須與第一主成分的特征向量正交。類似地,我們可以求出第三主成分,和第p主成分。)1(0),()1 ()2()1 ()2(XXCOVTT由于協(xié)方差矩陣 為非負定矩陣,故有p個非負特征根, 從而可求出p個特征向量 。將每一個特征向量作為一個主成分的系數(shù)向量,就可得出 p個主成分。若記p 個主成分組成的

16、主成分向量為 ,特征向量 組成的矩陣為A,即則可寫成主成向量的表達形式為021pTPFFFF),(21)()2()1(,p),()()2()1(pAXAFT有 即 不相關(guān),各自的方差為 ,總的方差是我們從 中,選出對方差貢獻最大的部分指標,達到主成分分析的目的。PTOOAXCOVAFCOV1)()(PFF,1p,1tr1PFF,1樣本主成分計算樣本主成分計算在解決實際問題時,總體的協(xié)方差和相關(guān)陣往往都是未知的,需要通過樣本來進行估計。樣本協(xié)方差矩陣為 用標準化變換后的數(shù)據(jù)矩陣 可計算出樣本相關(guān)矩陣為 然后計算求出樣本主成分。)()(111ijTiniisxxxxnS)(jjijsxxXXXnr

17、RTij11)(主成分的提取主成分的提取由主成分分析的基本思想和計算過程可以看出,主成分分析是把 p個隨機變量的總方差分解為p個不相關(guān)的隨機變量的方差之和 。各個主成分的方差即相應的特征根表明了該主成分的方差,方差 的值越大,表明該主成分對綜合原始變量 X的能力越強。在實際應用中,通常第一主成分并不足以代表原始變量,所以要選取幾個方差最大的主成分。按照方差從大到小的順序排列,前幾個主成分的方差之和與總方差的比值稱為主成分 的累計貢獻率。在研究實際問題時,一般要求累計貢獻率不小于85。由于主成分的方差 一般下降較快,所以只要取為數(shù)不多的主成分就足以反映 個原始變量的變化情況。當用它進行預測時,就可使預測因子減少,達到降維的作用。piimiim11并沒有表達某個變量被提取了多少信息,因此僅僅使用累計貢獻率這一準則,并不能保證每個變量都被提取了足夠的信息。此時,往往需要另外一個輔助的準則。為原

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論