




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、醫(yī)學(xué)統(tǒng)計(jì)學(xué),線性相關(guān)與回歸 Correlation and Regression,王友潔 email ,大量的醫(yī)學(xué)科研與實(shí)踐中,經(jīng)常會(huì)遇到對(duì)兩個(gè)變量之間關(guān)系的研究。 糖尿病病人的血糖與胰島素水平的關(guān)系; 某人群年齡與收縮壓的關(guān)系; 兒童身高與體重的關(guān)系; 動(dòng)物實(shí)驗(yàn)中動(dòng)物進(jìn)食量與增加體重的關(guān)系等。 常用相關(guān)與回歸分析,屬雙變量分析范疇(bivariate analysis)。,線性相關(guān) (linear correlation),當(dāng)兩事物或現(xiàn)象在數(shù)量上的協(xié)同變化呈直線趨勢(shì)時(shí)則稱為直線相關(guān),又稱簡(jiǎn)單相關(guān)。 用于分析雙變量正態(tài)分布資料。表示兩變量相關(guān)關(guān)系的重要指標(biāo)就是相關(guān)系數(shù)。,直線相關(guān)的概念,對(duì)兩變
2、量關(guān)系的研究,而關(guān)心的是兩個(gè)變量間是否確有直線相關(guān)關(guān)系,如兩個(gè)變量間有相關(guān)關(guān)系,那么相關(guān)的方向和相關(guān)的程度如何?可采用相關(guān)分析。 相關(guān)分析的任務(wù): 兩變量間有無相關(guān)關(guān)系? 兩變量間如有相關(guān)關(guān)系,相關(guān)的方向?相關(guān)的程度?,直線相關(guān)的概念,當(dāng)兩個(gè)數(shù)值變量之間出現(xiàn)如下情況:當(dāng)一個(gè)變量增大,另一個(gè)也隨之增大(或減少),我們稱這種現(xiàn)象為共變,也就是有相關(guān)關(guān)系。 若兩個(gè)變量同時(shí)增加或減少,變化趨勢(shì)是同向的,則兩變量之間的關(guān)系為正相關(guān)(positive correlation);若一個(gè)變量增加時(shí),另一個(gè)變量減少,變化趨勢(shì)是反向的,則稱為負(fù)相關(guān)(negative correlation)。 相關(guān)的方向,直線相
3、關(guān)的資料要求,直線相關(guān)(linear correlation),又稱簡(jiǎn)單相關(guān),用于雙變量正態(tài)分布資料。 例如,同性別成人的身高與體重的關(guān)系: 對(duì)某一身高(如女性160cm),體重為正態(tài)分布; 對(duì)某一體重(如女性50kg),身高為正態(tài)分布。,相關(guān)系數(shù)(correlation coefficient)又稱為積差相關(guān)系數(shù)。它描述兩變量間相關(guān)關(guān)系的密切程度和相關(guān)方向。 符號(hào):樣本相關(guān)系數(shù) r ,總體相關(guān)系數(shù) 其數(shù)值1r1,當(dāng)r為正值時(shí),表示一變量隨另一變量的增加而增加稱為正相關(guān);當(dāng)r為負(fù)值時(shí),表示一變量隨另一變量的增加而減少,稱為負(fù)相關(guān)。當(dāng)r愈接近1,表示兩變量的相關(guān)愈密切;當(dāng)r愈接近0時(shí),表示兩變量
4、相關(guān)程度愈低;當(dāng)r0時(shí),稱為零相關(guān),表示兩變量無直線相關(guān)關(guān)系,見示意圖。,相關(guān)系數(shù)的意義,相關(guān)系數(shù)示意,一般認(rèn)為,當(dāng)樣本含量較大的情況下(n100),大致可按下列標(biāo)準(zhǔn)估計(jì)兩變量相關(guān)的程度 r0.7 高度相關(guān) 0.7r0.4 中度相關(guān) 0.4r0.2 低度相關(guān),相關(guān)系數(shù)r的計(jì)算公式:,相關(guān)系數(shù)的計(jì)算,式中l(wèi)XX與lYY分別為變量X與Y的離均差平方和,lXY為兩變量X 、Y的離均差積和。,計(jì)算公式為:,直線相關(guān)分析的一般步驟,1. 繪制散點(diǎn)圖,觀察兩變量的變化趨勢(shì); 2. 若散點(diǎn)圖呈直線趨勢(shì),計(jì)算相關(guān)系數(shù); 3. 對(duì)相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn); 4. 必要時(shí)對(duì)總體相關(guān)系數(shù)進(jìn)行區(qū)間估計(jì)。,【例】某研究者測(cè)
5、量10名20歲男青年身高與前臂長(zhǎng)。見表。問身高與前臂長(zhǎng)有無直線相關(guān)關(guān)系?,身高與前臂長(zhǎng),計(jì)算步驟 (1)由原始數(shù)據(jù)繪制散點(diǎn)圖,本資料呈直線相關(guān)趨勢(shì)。,(2)根據(jù)原始數(shù)據(jù)計(jì)算出X,Y,X 2,Y 2,XY 。 本例X1725,Y454, X 2298525,Y 220690,XY78541。 (3)計(jì)算X、Y的離均差平方和與離均差積和,(4)求相關(guān)系數(shù)r,H0:總體相關(guān)系數(shù) =0 H1: 0 = 0.05 1. 直接查表法:按 = n-2查r界值表。 2. t 檢驗(yàn)法,相關(guān)系數(shù)的檢驗(yàn)假設(shè),t 檢驗(yàn)法 t檢驗(yàn)的計(jì)算公式,V= n-2,對(duì)所得r值,檢驗(yàn)20歲男青年身高與前臂長(zhǎng)是否有直線相關(guān)關(guān)系。 (
6、1)建立檢驗(yàn)假設(shè) Ho:0 ,兩變量間無直線相關(guān)關(guān)系 H1:0 ,兩變量間有直線相關(guān)關(guān)系 0.05 (2)計(jì)算t值 本例n=10, r=0.8227 ,按公式計(jì)算t值,(3)確定P 值,作出推斷結(jié)論 按=n-2=8查t界值表,得 P0.005,按0.05水準(zhǔn),拒絕Ho,接受H1,故可認(rèn)為20歲男青年身高與前臂長(zhǎng)呈正直線相關(guān)關(guān)系。,直線回歸,直線回歸的概念 回歸:反映兩變量數(shù)量依存的關(guān)系,即指由一個(gè)變量推算另一個(gè)變量的數(shù)量關(guān)系。直線回歸是回歸分析中最基本最簡(jiǎn)單的一種,故又稱簡(jiǎn)單回歸(simple regression)。,直線回歸方程,Y 應(yīng)變量,響應(yīng)變量 (dependent variable
7、, response variable) X 自變量,解釋變量 (independent variable, explanatory variable) b 回歸系數(shù) (regression coefficient, slope) a 截距 (intercept,constant),“Y hat”,是給定X時(shí)的Y估計(jì)值,截距a,幾何意義 a 0: 回歸線與縱軸交點(diǎn)在原點(diǎn)上方。 a 0: 回歸線與縱軸交點(diǎn)在原點(diǎn)下方。 a =0: 回歸線通過原點(diǎn)。 統(tǒng)計(jì)學(xué)意義 a 表示自變量X取值為0時(shí)相應(yīng)Y條件均數(shù)的估計(jì)值。 a的單位與Y值相同 當(dāng)X可能取0時(shí),a才有實(shí)際意義。,回歸系數(shù)b的幾何意義,回歸系數(shù)b
8、的統(tǒng)計(jì)學(xué)意義,b表示自變量X變化一個(gè)單位時(shí)應(yīng)變量Y的平均改變量。 17歲兒童以年齡(歲)估計(jì)體重(kg)的回歸方程: 糖尿病患者以胰島素水平(mU/L)估計(jì)血糖水平(mmol/L)的回歸方程:,直線回歸的應(yīng)用條件 (LINE),(1) 線性(linear):因變量Y的總體均數(shù)與自變量X呈線性關(guān)系; (2) 獨(dú)立 (independent) 任意兩個(gè)觀察單位之間相互獨(dú)立; (3) 正態(tài)性(normal) 對(duì)任意給定的X值,Y 均服從正態(tài)分布; (4) 等方差(equal variance):在自變量X的取值范圍 內(nèi),不論X 取什么值, Y 都有相同的方差。,直線回歸應(yīng)用條件LINE示意圖,給定X
9、時(shí),Y是正態(tài)分布、不等方差示意圖,求直線回歸方程,關(guān)鍵在于計(jì)算a、b兩個(gè)系數(shù),根據(jù)數(shù)學(xué)上的最小二乘法原理即保證各實(shí)測(cè)點(diǎn)至回歸直線的縱向距離的平方和最小。,直線回歸方程的求法,使回歸誤差平方和最小的策略稱為最小二乘原則,直線回歸分析的一般步驟,1. 繪制散點(diǎn)圖,若呈直線趨勢(shì),則可擬合直線回歸方程; 2. 求回歸方程的待定系數(shù):a 和b 3. 寫出回歸方程 4. 對(duì)回歸方程進(jìn)行假設(shè)檢驗(yàn); 5. 繪制回歸直線; 6. 總體回歸系數(shù)的區(qū)間估計(jì)。,【例】利用已知20歲男青年身高與前臂長(zhǎng)之間存在直線相關(guān)關(guān)系,現(xiàn)求身高與前臂長(zhǎng)的直線回歸方程。 計(jì)算步驟 (1)列回歸系數(shù)計(jì)算表,求出X ,Y ,XY , X2
10、 , Y2 。 本例X=1725 ,Y=454 ,XY=78541 ,X 2=298525 ,Y 2=20690 。lxx=962.5 ,lxy=226,(3)求回歸系數(shù)b和截距a,(4)列出回歸方程 將求出的 a 和 b 代入公式,在自變量X的實(shí)測(cè)值范圍,任意指定相距較遠(yuǎn)且易讀的兩個(gè)數(shù)值,代入直線回歸方程,求出相應(yīng)的Y的估計(jì)值,確定兩點(diǎn),用直線連接。如本例取X1=155,X2=185,則在圖上確定(155,41.291)和(185,48.335)兩個(gè)點(diǎn),直線連接,即得出直線回歸方程的圖形,,回歸直線的繪制,20歲男青年身高與前臂長(zhǎng)散點(diǎn)圖,回歸系數(shù)b為樣本回歸系數(shù),假設(shè)在總體回歸系數(shù)=0的總體
11、中抽樣,得出樣本的b不一定為0,因此需作總體回歸系數(shù)是否為0的假設(shè)檢驗(yàn). 常用F檢驗(yàn)和t檢驗(yàn)。,回歸系數(shù)的假設(shè)檢驗(yàn),方差分析:應(yīng)變量總變異的分解,X,P (X,Y),Y,Y的總變異分解,Y的總變異分解,未引進(jìn)回歸時(shí)的總變異: (sum of squares of total) 引進(jìn)回歸以后的變異(剩余): (sum of squares for residuals) 無法用X解釋的變異 回歸的貢獻(xiàn),回歸平方和: (sum of squares for regression) 越大,回歸的效果好,方差分析用于回歸系數(shù)檢驗(yàn)的基本思想:如果X與Y之間無線性關(guān)系,則SS回歸于SS剩余都是其他隨機(jī)因素對(duì)
12、Y的影響,因此描寫變異的MS回歸與MS剩余應(yīng)近似相等,總體回歸系數(shù)為0, 反之則不應(yīng)為0。,Y的總變異分解,總n1 回1 剩余n2,回歸方程的方差分析,回歸系數(shù) t檢驗(yàn),Sb為回歸系數(shù)的標(biāo)準(zhǔn)誤,Syx為各觀察值 Y 距回歸直線的標(biāo)準(zhǔn)差,即剩余標(biāo)準(zhǔn)差;為剩余平方和,它反映X對(duì)Y的線性影響之外的因素對(duì)Y的變異作用。在散點(diǎn)圖中,各實(shí)測(cè)點(diǎn)離回歸直線越近,越小,說明直線回歸的估計(jì)誤差越小。,【例】根據(jù)例所得b值,檢驗(yàn)身高與前臂長(zhǎng) 是否有直線回歸關(guān)系。 (1)建立檢驗(yàn)假設(shè) H0:=0, 即身高與前臂長(zhǎng)無直線回歸關(guān)系 H1:0, 即身高與前臂長(zhǎng)有直線回歸關(guān)系 =0.05 (2)計(jì)算t值 前面已經(jīng)求得lXX=
13、962.5,lXY=226,lYY=78.4,代入公式有,(3)確定P值,作出推斷結(jié)論 本例 =10-2=8,查附表2,t界值表得t0.005(8)=3.833,現(xiàn)tt0.005(8),故P0.005。 按=0.05的水準(zhǔn),拒絕Ho,接受H1,可認(rèn)為20歲男青年身高與前臂長(zhǎng)有直線回歸關(guān)系。,1、描述兩變量間的依存關(guān)系 可用直線回歸來描述 。 2、利用回歸方程進(jìn)行預(yù)測(cè) 將X 代入直線回歸方程,可得到應(yīng)變量 Y 的估計(jì)值。 3、利用回歸方程進(jìn)行統(tǒng)計(jì)控制 通過X取值來控制Y的變化。,直線回歸方程的應(yīng)用,1.作相關(guān)回歸分析要有實(shí)際意義。 不要把毫無聯(lián)系的兩種現(xiàn)象作相關(guān)回歸分析。 2.相關(guān)關(guān)系不一定是因
14、果關(guān)系,也可能是伴隨關(guān)系。 3.在進(jìn)行直線相關(guān)與回歸分析之前,應(yīng)先繪制散點(diǎn)圖,當(dāng)觀察到點(diǎn)的分布呈直線趨勢(shì)時(shí),方可進(jìn)行分析,如散點(diǎn)圖呈曲線趨勢(shì),應(yīng)進(jìn)行曲線回歸分析。,相關(guān)與回歸分析時(shí)應(yīng)注意的問題,4.直線相關(guān)與回歸的區(qū)別 在資料需求上,相關(guān)分析要求兩變量X與Y均為服從正態(tài)分布的隨機(jī)變量,即兩者都不能預(yù)先指定;回歸分析要求Y是正態(tài)隨機(jī)變量,而X可以不是正態(tài)隨機(jī)變量而是一確定值 在意義上,相關(guān)反映兩變量的相關(guān)關(guān)系;回歸反映兩變量間的依存關(guān)系。 在應(yīng)用上,說明兩變量間的相關(guān)程度及相關(guān)方向用相關(guān);說明兩變量間的依存變化的數(shù)量關(guān)系用回歸。,5. 相關(guān)與回歸的聯(lián)系 在同一組數(shù)據(jù),相關(guān)系數(shù)r與回歸系數(shù)b的符號(hào)
15、一致。 同一組數(shù)據(jù),r與b的假設(shè)檢驗(yàn)是等價(jià)的,即tr=tb。因r的假設(shè)檢驗(yàn)可直接查表,較為簡(jiǎn)便,故可代替b的假設(shè)檢驗(yàn)。 6. 回歸方程一般只適用于自變量X的原始數(shù)據(jù)范圍內(nèi),不能任意外延。因?yàn)槌鲞@個(gè)范圍,X與Y就不一定仍然呈線性關(guān)系。,多元線性回歸分析,(Multiple Linear Regression),目的:作出以多個(gè)自變量估計(jì)應(yīng)變量的多元線性回歸方程。 資料:應(yīng)變量為定量指標(biāo);自變量全部或大部分為定量指標(biāo),若有少量定性或等級(jí)指標(biāo)需作轉(zhuǎn)換。 用途:解釋和預(yù)報(bào)。 意義:由于事物間的聯(lián)系常常是多方面的,一個(gè)應(yīng)變量的變化可能受到其它多個(gè)自變量的影響,如糖尿病人的血糖變化可能受胰島素、糖化血紅
16、蛋白、血清總膽固醇、甘油三脂等多種生化指標(biāo)的影響。,變量:應(yīng)變量 1 個(gè),自變量m 個(gè),共 m+1 個(gè)。 樣本含量:n 回歸模型一般形式:,多元線性回歸模型,上式表示數(shù)據(jù)中應(yīng)變量Y可以近似地表示為自變量 的線性函數(shù)。 0為常數(shù)項(xiàng), 1-m為偏回歸系數(shù),表示在其它自變量保持不變時(shí), 增加或減少一個(gè)單位時(shí)Y的平均變化量,e是去除m個(gè)自變量對(duì)Y影響后的隨機(jī)誤差(殘差),表 多元回歸分析數(shù)據(jù)格式,條件,一般步驟,建立回歸方程,檢驗(yàn)并評(píng)價(jià)回歸方程 及各自變量的作用大小,多元線性回歸方程的建立,例 27名糖尿病人的血清總膽固醇、甘油三脂、空腹胰島素、糖化血紅蛋白、空腹血糖的測(cè)量值列于表中,試建立血糖與其它幾項(xiàng)指標(biāo)關(guān)系的多元線性回歸方程。,表 27名糖尿病人的血糖及有關(guān)變量的測(cè)量結(jié)果,求偏導(dǎo)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高三班會(huì)演講稿
- 4 公民的基本權(quán)利和義務(wù)(教學(xué)設(shè)計(jì))2023-2024學(xué)年統(tǒng)編版道德與法治六年級(jí)上冊(cè)
- logo購(gòu)買合同范本
- 100以內(nèi)的加法和減法(二)-不退位減(教學(xué)設(shè)計(jì))-2024-2025學(xué)年二年級(jí)上冊(cè)數(shù)學(xué)人教版
- 食品運(yùn)送合同范本
- 12急行跳遠(yuǎn)教學(xué)設(shè)計(jì)8-八年級(jí)體育與健康
- Module 3 Unit1 Point to the door(教學(xué)設(shè)計(jì))2024-2025學(xué)年外研版(三起)英語三年級(jí)上冊(cè)
- 研學(xué)活動(dòng)合同范本
- 2024-2025學(xué)年九年級(jí)上學(xué)期牛津譯林版英語Unit 5 Reading 教學(xué)設(shè)計(jì)
- 2023初一暑假前教育家長(zhǎng)會(huì)演講稿
- 集成電路研究報(bào)告-集成電路項(xiàng)目可行性研究報(bào)告2024年
- 2024年湖南生物機(jī)電職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測(cè)驗(yàn)歷年參考題庫(kù)(頻考版)含答案解析
- 樁基承載力自平衡法檢測(cè)方案資料
- 2025云南昆明空港投資開發(fā)集團(tuán)招聘7人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 簡(jiǎn)單的路線圖(說課稿)2024-2025學(xué)年三年級(jí)上冊(cè)數(shù)學(xué)西師大版
- 成都市2024-2025學(xué)年度上期期末高一期末語文試卷(含答案)
- 2025年教育局財(cái)務(wù)工作計(jì)劃
- 中小學(xué)智慧校園建設(shè)方案
- 危險(xiǎn)性較大的分部分項(xiàng)工程清單安全管理措施
- 高壓輸電線路質(zhì)量、檢查、驗(yàn)收培訓(xùn)課件
- 混合型頸椎病課件
評(píng)論
0/150
提交評(píng)論