




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、相關(guān)分析與回歸分析,返回總目錄,相關(guān)分析,1. 相關(guān)關(guān)系的概念及分類,(1)相關(guān)關(guān)系的概念,變量之間的依存關(guān)系可以分為函數(shù)關(guān)系和相關(guān)關(guān)系兩種。函數(shù)關(guān)系是指變量之間保持著嚴(yán)格的依存關(guān)系,呈現(xiàn)一一對應(yīng)的特征。而相關(guān)關(guān)系是指變量之間保持著不確定的依存關(guān)系。線性相關(guān)用于雙變量正態(tài)分布的資料。 體現(xiàn)相關(guān)程度的指標(biāo):相關(guān)系數(shù) r (取值范圍:-1 r 1),返回本章,2. 相關(guān)關(guān)系的識別,(1)散點圖,識別變量間相關(guān)關(guān)系最簡單的方法就是圖形法。圖形法就是將所研究變量的觀測值以散點的形式繪制在相應(yīng)的坐標(biāo)系中,通過它們呈現(xiàn)出的特征,來判斷變量之間是否存在相關(guān)關(guān)系,以及相關(guān)的形式、相關(guān)的方向和相關(guān)的程度等。也可
2、以用于發(fā)現(xiàn)異常值。,典型的散點圖,同向變化 正相關(guān),反向變化 負(fù)相關(guān),曲線相關(guān) /無線性相關(guān),無伴隨變化趨勢,無伴隨變化趨勢,無伴隨變化趨勢,(2)相關(guān)系數(shù),樣本相關(guān)系數(shù)的計算公式:,分母:XY的協(xié)方差 ;分子:X的方差開根號 Y的方差開根號 樣本相關(guān)系數(shù)是根據(jù)樣本觀測值計算的,隨著取樣的不同,相關(guān)系數(shù)的值也會有所變化??梢宰C明,樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的一致估計量。,相關(guān)系數(shù):衡量兩個變量之間線性相關(guān)關(guān)系的重要指標(biāo),相關(guān)系數(shù)的特點:,相關(guān)系數(shù)的符號代表著變量間的相關(guān)方向,r0說明兩個變量之間正相關(guān),r0則表明兩個變量之間負(fù)相關(guān)。 相關(guān)關(guān)系的取值介于1和1之間,它的絕對值越接近于1,意味著變
3、量之間的線性相關(guān)程度越強。r1或r1時,說明兩個變量之間完全線性相關(guān),r0,說明兩個變量之間不存在線性相關(guān),r的絕對值介于0和1之間時,則說明兩個變量之間存在一定程度的線性相關(guān)。,相關(guān)系數(shù)強度,兩變量相關(guān)強度的強弱分以下幾個等級: 當(dāng) | r | 0.8 , 視為高度相關(guān) 當(dāng) 0.5 | r | 0.8 ,視為中度相關(guān)。 當(dāng) 0.3 | r | 0.5 ,視為低度相關(guān)。 當(dāng) | r | 0.3 ,表明2個變量之間的相關(guān)程度極弱,在實際應(yīng)用中可視為不相關(guān)。,相關(guān)系數(shù)的檢驗,提出假設(shè):,計算 t 檢驗統(tǒng)計量:,返回本章,返回總目錄,舉例,舉例:分析紅細(xì)胞內(nèi)鐵含量與血紅蛋白的關(guān)系。,SPSS實現(xiàn)-散
4、點圖,SPSS實現(xiàn)-散點圖,SPSS實現(xiàn)-相關(guān)系數(shù),正態(tài)性檢驗,正態(tài)資料的用”pearson”;非正態(tài)選“spearman”,得出: 相關(guān)系數(shù) r=0.744 雙側(cè)Pearson檢驗 P0.001,有統(tǒng)計學(xué)意義,可見,鐵含量與血紅蛋白相關(guān)。,相關(guān)分析注意事項,直線相關(guān)條件:變量是正態(tài)分布的隨機(jī)變量。 應(yīng)用直線相關(guān)注意事項: 必需有實際意義 Pearson 相關(guān)系數(shù) 相關(guān)分析中變量X 、Y 服從雙變量正態(tài)分布 散點圖的作用 分層資料 對相關(guān)的解釋:,線性回歸分析,1. 回歸分析概述,(1)回歸分析的概念,在相關(guān)分析確定了變量之間相關(guān)關(guān)系的基礎(chǔ)上,采用一定的計算方法,建立起變量間數(shù)量變動關(guān)系的公式
5、,并根據(jù)一個變量的變化來估計或預(yù)測另一個變量發(fā)展變化的研究方法,就是回歸分析。 基本思想:使樣本點到回歸直線的縱向距離的平方和最小。(點都在線上,距離的平方和=0最好-完全相關(guān)),返回本章,回歸分析和相關(guān)分析都是對變量之間不嚴(yán)格依存關(guān)系的分析,在理論基礎(chǔ)和方法上具有一致性。只有存在相關(guān)關(guān)系的變量才能進(jìn)行回歸分析,相關(guān)程度越高,回歸分析結(jié)果越可靠。 方向一致:一組數(shù)據(jù)得出的b和r ,符號一致。 假設(shè)檢驗等價:對于同一個樣本,假設(shè)檢驗得到的tb和 tr值相等 回歸可以解釋相關(guān):決定系數(shù)r2 =SS回/SS總 ,則r2就越接近1, 說明相關(guān)性好。,返回本章,回歸分析和相關(guān)關(guān)系之間的聯(lián)系,回歸分析和相
6、關(guān)關(guān)系之間的區(qū)別,資料要求不同: 線性相關(guān)要求兩個變量X和Y服從雙變量正態(tài)分布的隨機(jī)變量 線性回歸要求Y是服從正態(tài)分布的隨機(jī)變量,而X不一定。 應(yīng)用目的、意義不同:相關(guān)關(guān)系;數(shù)量關(guān)系。 回歸系數(shù)b表示X每增減一個單位時,Y平均改變b個單位;相關(guān)系數(shù)r說明具有線性關(guān)聯(lián)的的兩個變量間關(guān)系的密切程度與相關(guān)方向。 計算方法不同:b = lxy/lxx , r =lxy/lxylxx 取值范圍不同: 單位:b有量綱,受X、Y計量單位的影響;r無量綱,不受X、Y 計量單位的影響。,線性回歸模型的前提條件,線性(linear) X與Y值之間線性趨勢 獨立(independent) 個體觀察值間獨立 正態(tài)(n
7、ormal) 給定X, 對應(yīng)的Y服從正態(tài)分布 等方差(equal variance) 不同X所對應(yīng)Y的方差相等,繪制散點圖; 計算相關(guān)系數(shù),研究設(shè)計; 專業(yè)知識判斷,正態(tài)性檢驗; 正態(tài)概率P-P圖 殘差圖,X和Y的散點圖 殘差圖 正態(tài)性檢驗,線性回歸的步驟,1.根據(jù)樣本數(shù)據(jù)求得模型參數(shù)( 0 1 2. m )的估計值( b0 b1 b2. bm ),得到總體回歸方程Y= 0+ 1 X1 + 2 X2 +.+ m Xm 的估計值 (參數(shù)估計:最常用最小二乘法) 2.對回歸方程及各自變量做假設(shè)檢驗;對方程的擬合效果及各自變量的作用大小做出評價 (假設(shè)檢驗: 回歸方程,各個自變量),2. 回歸模型的
8、建立,當(dāng)變量之間存在顯著的線性相關(guān)關(guān)系時,可以建立如下的線性回歸模型來表述這種關(guān)系??傮w線性回歸模型為:,式中:,代表因變量的第i個觀測值,代表自變量的第i個觀測值,是模型的參數(shù)(又稱偏回歸系數(shù)),偏回歸系數(shù)1 2. m的意義: 在其他變量取值不變的條件下,X每增加或減少一個單位時, Y的平均變化量。,線性回歸模型參數(shù)的估計方法通常有兩種:普通最小二乘法和最大似然估計法。最常用的是普通最小二乘法。 最小二乘法的意義在于使 達(dá)到最小。出使估計值Y 和實際觀察值Y得殘差平方和達(dá)到最小值,得到的 的兩個公式 為:,3. 模型的檢驗,在回歸模型估計出來以后,首先要對其進(jìn)行一系列的檢驗,只有通過了檢驗的
9、模型才能用于對總體變量的估計或預(yù)測。,(1)擬合優(yōu)度的檢驗,決定系數(shù):,因變量的樣本觀測值與其均值的離差稱為總離差,記為 。按其來源,總離差可以分解為兩個部分:一是因變量的回歸值與其樣本均值之間的離差,記為 ,它代表能夠由回歸方程所解釋的部分,稱為回歸離差;二是樣本觀測值與回歸值之間的離差,記為 ,它表示的是不能由回歸方程解釋的部分,稱為剩余離差(殘差)。,返回本章,決定系數(shù)是衡量自變量對因變量變動的解釋程度的指標(biāo),它取決于回歸方程所解釋的 y 的總離差的百分比。決定系數(shù)的公式定義為: 決定系數(shù) = SS回歸/SS總 校正決定系數(shù) (n為樣本容量,k為自變量的個數(shù)) 意義:用于衡量方程好壞的指
10、標(biāo)之一,只有有統(tǒng)計學(xué)意義的變量進(jìn)入方程,Radj 才會增加,估計標(biāo)準(zhǔn)誤差(SE),估計標(biāo)準(zhǔn)誤差是回歸模型(即估計值)與因變量觀測值之間得平均平方誤差。這個誤差的值越小,說明估計值越接近真實值,回歸模型的擬合度越好。估計標(biāo)準(zhǔn)誤差的計算公式為:,作為回歸模型擬合優(yōu)度的評價指標(biāo),估計標(biāo)準(zhǔn)誤差顯然不如決定系數(shù)。因為決定系數(shù)是無量綱的系數(shù),并且有確定的取值范圍(01),便于對不同資料回歸模型擬合優(yōu)度的比較。,返回本章,返回總目錄,(2)顯著性檢驗,通?;貧w模型的顯著性檢驗包括系數(shù)的檢驗和方程整體的檢驗兩個部分。,回歸系數(shù)的顯著性檢驗是指根據(jù)樣本計算結(jié)果對總體回歸系數(shù)有關(guān)假設(shè)所進(jìn)行的檢驗,它的主要目的是了
11、解總體自變量與因變量之間是否真正存在樣本回歸模型所表述的相關(guān)關(guān)系。,回歸系數(shù)的檢驗( t 檢驗),返回本章,返回總目錄,方程整體性檢驗( F 檢驗),假設(shè)檢驗對整個模型的檢驗,對模型的假設(shè)檢驗:方差分析法( F 檢驗) 對模型進(jìn)行整體檢驗: H0: 1 2 . m 0 H1: 1,2 ,.,m 不全為0 統(tǒng)計量:F 不拒絕H0: 回歸模型無統(tǒng)計學(xué)意義 拒絕H0 :回歸模型有統(tǒng)計學(xué)意義,假設(shè)檢驗對各偏回歸系數(shù)的假設(shè)檢驗,t 檢驗:H0 : j = 0 , H1 : j 0 單個回歸系數(shù)的t檢驗:表示其它m1個自變量均在當(dāng)前回歸模型中存在時,Xj的回歸系數(shù)j 是否為0的假設(shè)檢驗,假設(shè)檢驗 各回歸系
12、數(shù)偏回歸平方和的F檢驗,P: 第L步時,方程中自變量的個數(shù) SS回l(Xj):第L步時, Xj的偏回歸平方和 SS殘l(Xj):第L步時的殘差平方和 回歸系數(shù)偏回歸平方和的F檢驗:表示其它m1個自變量均在當(dāng)前回歸模型中存在時,Xj的回歸系數(shù)j 是否為0的假設(shè)檢驗,與單個回歸系數(shù)的t檢驗等價。,最佳預(yù)測模型選擇準(zhǔn)則1,最小殘差平方和/最大決定系數(shù)準(zhǔn)則: 條件:自變量個數(shù)相同時使用,,最佳預(yù)測模型選擇準(zhǔn)則2,最小殘差均方/最大調(diào)整決定系數(shù)準(zhǔn)則:較最小殘差平方和準(zhǔn)則合理(考慮變量數(shù)量),自變量篩選,全局擇優(yōu)法: 對自變量各種不同的組合建立的回歸方程進(jìn)行比較,從全部組合中確定最優(yōu)回歸方程: 殘差均方最
13、小或調(diào)整R2最大的回歸方程,適用于自變量較少的情況。 缺點:自變量較多時,計算量大。如 自變量數(shù) 6時,需考慮 261 63個方程; 自變量數(shù)10時,需考慮21011024個方程.,自變量篩選,逐步選擇法 是實際應(yīng)用中普遍使用的方法 根據(jù)選入變量的順序不同分為: 前進(jìn)法 (forward selection) 后退法 (backward selection) 逐步回歸法(stepwise regression) 共性:每一步只引入或剔除一個自變量Xj 假設(shè)檢驗方法:對偏回歸平方和的F檢驗,前進(jìn)法,自變量從無到有,從少到多,逐個引入回歸方程 1.第一個入選自變量的確定:用因變量Y對每一自變量分別
14、做直線回歸,對回歸平方和最大的自變量做F檢驗,有統(tǒng)計學(xué)意義則引入模型 2.對其它變量,在已選入第一個自變量的基礎(chǔ)上,計算其它自變量的偏回歸平方和,最大的偏回歸平方和F檢驗有統(tǒng)計學(xué)意義,則引入 3.重復(fù)步驟2,直至沒有自變量可以引入為止。 優(yōu)點:可自動去掉高度相關(guān)的自變量(一個進(jìn)入方程后,其它的進(jìn)不來了) 局限性:后續(xù)變量的引入,可能會使在其之前進(jìn)入方程的自變量 變得無統(tǒng)計學(xué)意義,后退法,1.因變量Y對所有自變量同時做線性回歸 2.對方程中偏(凈)回歸平方和最小的變量做F檢驗,無統(tǒng)計學(xué)意義,則剔除 3.因變量Y對剩余的所有自變量同時做線性回歸 4.重復(fù)第2步,直至方程中的自變量均不能剔除為止 優(yōu)
15、點:考慮了自變量的組合作用 局限性:當(dāng)自變量數(shù)目較多,或某些自變量間高度相關(guān)時,可能得不出正確結(jié)果(有共線性時,模型參數(shù)估計不穩(wěn)定),逐步回歸法(常用),在前進(jìn)和后退法的基礎(chǔ)上,雙向篩選變量的方法,本質(zhì)是前進(jìn)法。 1.引入第一個自變量進(jìn)入方程:用因變量Y對每一自變量分別做直線回歸,對回歸平方和最大的自變量做F檢驗,有統(tǒng)計學(xué)意義則引入模型 2.對方程中的每一個自變量,做偏回歸平方和的F檢驗,剔除“退化”為無統(tǒng)計學(xué)意義的自變量,確保每次引進(jìn)新變量前,方程中的自變量均有統(tǒng)計學(xué)意義(按剔出標(biāo)準(zhǔn)) 3.重復(fù)1和2,直至既無自變量可以引入,也無自變量可以剔除為止,自變量篩選的檢驗水準(zhǔn),值?。哼x取自變量的標(biāo)
16、準(zhǔn)嚴(yán),選入的自變量少 值大:選取自變量的標(biāo)準(zhǔn)寬,選入的自變量多 在逐步選擇中,入 出。 小樣本時,一般定為0.10 或0.15 大樣本時,一般定為0.05,多重回歸的應(yīng)用,影響因素分析(不追求最大R2值,根據(jù)專業(yè)知識和回歸系數(shù)改變量確定變量) 可以用于疾病的影響因素分析(如遺傳特征、感染途徑、程度、自身免疫等) 估計與預(yù)測:(應(yīng)選擇有較高R2值的模型) 舉例: 兒童的性別、年齡別、身高、體重評價生長發(fā)育 胎兒的孕周、頭頸、胸徑和腹徑預(yù)測出生體重 統(tǒng)計控制(回歸模型的R2值大,回歸系數(shù)標(biāo)準(zhǔn)誤?。?利用回歸方程逆估計,通過控制自變量的值控制Y值 舉例:射頻治療儀治療腦腫瘤, 腦皮質(zhì)毀損半徑均數(shù) 0
17、+ 1射頻溫度+ 2照射時間 按腦皮質(zhì)毀損半徑預(yù)定值,確定最佳射頻溫度和照射時間,共線性診斷,定義:一個或幾個回歸變量可以由其它的回歸變量線性表示時,稱回歸變量間有共線性。 后果:自變量間共線性很高時,最小二乘估計參數(shù)不確定,無法取得參數(shù)的正確估計值。導(dǎo)致回歸系數(shù)與專業(yè)知識相反,或重要變量不能納入模型,多重共線性檢驗,多重共線性是多元回歸分析中特有的問題,簡單回歸不存在此問題。 用于檢驗各個自變量之間是否是無關(guān)的。,共線性診斷,特征根:多個維度特征根約為0證明存在多重共線性。 條件指數(shù)(condition index)k(大于10提示存在) 030 嚴(yán)重共線性 VIF:大于5,存在嚴(yán)重共線性
18、方差比例:同一特征值序號上兩或幾個系數(shù)方差比例較大時存在共線性。方差比例越大,共線性越大,多重共線性的對策,增大樣本量,可部分的解決共線性問題 采用多種自變量篩選方法相結(jié)合的方式,建立一個最優(yōu)的逐步回歸方程。 從專業(yè)的角度加以判斷,人為的去除在專業(yè)上比較次要的,或者缺失值比較多,測量誤差比較大的共線性因子。 進(jìn)行主成分分析,用提取的因子代替原變量進(jìn)行回歸分析。 進(jìn)行嶺回歸分析,它可以有效的解決多重共線性問題。 進(jìn)行通徑分析(Path Analysis),SPSS實現(xiàn)方法以及結(jié)果解釋,根據(jù)27名糖尿病人的血清總膽固醇、甘油三酯、空腹胰島素、糖化血紅蛋白、空腹血糖測量值,建立血糖與其它幾項指標(biāo)的多重線性回歸方程。 SPSS操作 模型建立 假設(shè)檢驗 模型參數(shù)的意義,SPSS操作步驟,打開數(shù)據(jù)文件 點擊Analyze Regression Linear,Independent: 總膽固醇(X1) 甘油三酯( X2) 胰島素(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 離婚財產(chǎn)合同范本模板
- 合股餐廳合同范本
- 輪胎店轉(zhuǎn)讓合同范本
- 醫(yī)美會員合同范本模板
- 紡織原料采購合同范本
- 企業(yè)向個人租房合同范本
- 危險廢物管理處理合同范本
- 單位采購空調(diào)合同范本
- 個人債權(quán)轉(zhuǎn)讓合同范本
- 裝飾設(shè)計合同范本
- 高中英語-Unit 2 Reading and Thinking A day in the clouds教學(xué)課件設(shè)計
- 新聞采訪與寫作課件第十九章融合報道
- 《消防專篇》編制規(guī)定
- 常用小學(xué)生詞語成語積累歸類大全
- 提高出院患者隨訪率持續(xù)改進(jìn)項目
- 工人合同協(xié)議書模板
- 點心主管工作職責(zé)
- 《電競俱樂部管理》教案
- 《建筑工程建筑面積計算規(guī)范》與房產(chǎn)測繪面積計算規(guī)范細(xì)則的區(qū)別
- 電力需求側(cè)自測題4科
- 2023年教師資格證考試歷年小學(xué)綜合素質(zhì)寫作題及范文
評論
0/150
提交評論