




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、前面幾章已經(jīng)介紹了定量變量的常見(jiàn)分布、統(tǒng)計(jì)描述和相應(yīng)的統(tǒng)計(jì)檢驗(yàn)方法。所涉及的數(shù)據(jù)除分組標(biāo)志外,僅涉及到單個(gè)變量。在醫(yī)學(xué)研究中,為了認(rèn)識(shí)醫(yī)學(xué)現(xiàn)象的本質(zhì)要從不同的側(cè)面進(jìn)行觀測(cè),獲得多個(gè)變量的觀測(cè)結(jié)果,這些變量之間相互聯(lián)系。本章介紹用于研究?jī)蓚€(gè)定量變量間線性關(guān)聯(lián)程度和線性數(shù)值關(guān)聯(lián)關(guān)系的直線相關(guān)分析和直線回歸分析方法。第一節(jié) 直線相關(guān)直線相關(guān)(linear correlation)又稱簡(jiǎn)單相關(guān)(simple correlation)用于描述兩個(gè)變量之間線性關(guān)聯(lián)程度。如生長(zhǎng)發(fā)育研究中身高與體重的關(guān)系,糖尿病研究中的胰島素水平與血糖的關(guān)系等。一、直線相關(guān)的意義為了使讀者能較好地了解直線相關(guān)在實(shí)際應(yīng)用中的意
2、義和相關(guān)概念,我們將借用身高X與體重Y之間線性相關(guān)的一個(gè)實(shí)例資料(見(jiàn)例9.1)引入有關(guān)直線相關(guān)的一些概念。為了考察身高X和體重Y之間的直線相關(guān)情況,我們把例9.1中的15例樣本觀測(cè)值(X,Y)描點(diǎn)到平面直角坐標(biāo)系上,形成15點(diǎn)(圖9.1),這種圖形稱為散點(diǎn)圖(scatter plot)。身高體重圖9.1顯示,雖然不是每個(gè)身材較高的對(duì)象必有較重的體重,但大多數(shù)對(duì)象的體重Y與其身高X的變化呈一種伴隨增大或減小的直線變化趨勢(shì)。即大多數(shù)X與Y同時(shí)增大或同時(shí)減小,并且X和Y呈直線變化趨勢(shì)。我們把這種伴隨同時(shí)增大或同時(shí)減小的直線變化趨勢(shì)稱為線性正相關(guān)(linear positive correlation
3、),簡(jiǎn)稱正相關(guān)。當(dāng)然有些研究指標(biāo)之間的變化關(guān)系是相反的,如對(duì)50歲至70歲的成人進(jìn)行記憶力測(cè)試,大多數(shù)的觀察對(duì)象隨著年齡X增大而記憶力Y下降并且呈直線變化趨勢(shì),這種X與Y的反方向伴隨直線變化趨勢(shì)稱為線性負(fù)相關(guān)(linear negative correlation),簡(jiǎn)稱負(fù)相關(guān)。我們把線性正相關(guān)和線性負(fù)相關(guān)總稱為線性相關(guān)(linear correlation)。如果X和Y無(wú)任何直線伴隨變化趨勢(shì),則稱為零相關(guān)(零線性相關(guān))。二、直線相關(guān)系數(shù)的意義和計(jì)算直線相關(guān)系數(shù)(linear correlation coeffiecient)又稱積差相關(guān)系數(shù)(coefficient of product mo
4、ment correlation),簡(jiǎn)稱相關(guān)系數(shù)(correlation coeffiecient),是描述兩個(gè)變量之間線性相關(guān)的程度和相關(guān)方向的統(tǒng)計(jì)指標(biāo)。描述全體研究對(duì)象的兩個(gè)變量之間線性相關(guān)性(即相關(guān)程度和相關(guān)方向)的相關(guān)系數(shù)稱為總體相關(guān)系數(shù),用符號(hào)r(讀作ru)表示;描述樣本資料的兩個(gè)變量之間的線性相關(guān)性的相關(guān)系數(shù)為樣本相關(guān)系數(shù),用符號(hào)r表示。在實(shí)際研究中,總體相關(guān)系數(shù)r是未知的,通常用樣本相關(guān)系數(shù)r進(jìn)行估計(jì)。相關(guān)系數(shù)r按下式計(jì)算: (9.1)上式稱為Pearson相關(guān)系數(shù),其中 (9.2)是離均差積和,簡(jiǎn)稱離差積和。分別是變量X、Y的離均差平方和。r的符號(hào)由確定,相關(guān)系數(shù)r是一個(gè)沒(méi)有單
5、位的統(tǒng)計(jì)指標(biāo),其取值范圍為1£ r £ 1,同樣,總體相關(guān)系數(shù)r也是沒(méi)有單位的,并且取值范圍也為1£r£ 1。相關(guān)系數(shù)大于0表示正相關(guān);小于0表示負(fù)相關(guān);等于0表示零相關(guān)。相關(guān)系數(shù)的絕對(duì)值越接近1,兩個(gè)變量的線性相關(guān)程度越密切;相關(guān)系數(shù)越接近0,兩個(gè)變量的線性相關(guān)越不密切。如圖9.2中,圖a和圖e中的X和Y同時(shí)增大或同時(shí)減小,變化方向相同,并呈線性變化趨勢(shì)故為正相關(guān),相應(yīng)的相關(guān)系數(shù)r>0;反之,在圖b和圖f中的X與Y之間呈反方向伴隨線性變化趨勢(shì),故為負(fù)相關(guān),相應(yīng)的相關(guān)系數(shù)r<0。在圖c、圖g和圖h中,X和Y沒(méi)有任何伴隨變化趨勢(shì),故為零相關(guān)或不
6、相關(guān),相應(yīng)的相關(guān)系數(shù)r»0;圖d的散點(diǎn)呈函數(shù)曲線狀的伴隨變化,但不是呈直線伴隨變化,故也為零相關(guān)(即零線性相關(guān)),相應(yīng)的相關(guān)系數(shù)r»0。比較圖a,圖b,圖c和圖d,我們可以發(fā)現(xiàn)圖e和圖f中的X與Y線性相關(guān)密切程度遠(yuǎn)高于圖a和圖b,故圖e和圖f的相關(guān)系數(shù)分別接近1和-1。圖9.2 相關(guān)系數(shù)示意圖a: 0<r<1b: -1<r<0c: r»0d: r»0h: r»0g: r»0f: r» -1e: r» 1零相關(guān)正相關(guān)負(fù)相關(guān)X(cm)、體重Y(kg)如表9.1,試計(jì)算X和Y之間的直線相關(guān)系數(shù)。先
7、將數(shù)據(jù)繪制成散點(diǎn)圖(見(jiàn)圖),再計(jì)算、和,附于表9.1下端。代入公式(9.1)計(jì)算得表9.1 某地正常成年男子的身高X(cm)、體重Y(kg)編號(hào)XYXY123456789101112131415合計(jì)三、直線相關(guān)系數(shù)假設(shè)檢驗(yàn)由樣本計(jì)算出的相關(guān)系數(shù)r是總體相關(guān)系數(shù)的估計(jì)。由于存在抽樣誤差,即使=0,r一般也不等于0。因此有必要根據(jù)r檢驗(yàn)總體相關(guān)系數(shù)是否等于0,從而推斷兩變量間是否存在相關(guān)關(guān)系。檢驗(yàn)方法如下:檢驗(yàn)假設(shè) H0:總體相關(guān)系數(shù)=0; H1:總體相關(guān)系數(shù);檢驗(yàn)統(tǒng)計(jì)量 (9.3)服從自由度為n-2的t分布。如果在水平上拒絕H0(接受H1)則認(rèn)為兩變量間有線性相關(guān)關(guān)系存在,否則不能認(rèn)為兩變量間存
8、在線性相關(guān)關(guān)系。將例9.1數(shù)據(jù)代入公式(9.3)得tr=2.70,自由度,查雙測(cè)t檢驗(yàn)界值表(附表2)得t/2,13=2.16,P<0.05。因此在的水平上認(rèn)為某地正常成年男子身高和體重之間存在線性相關(guān)關(guān)系。四、總體相關(guān)系數(shù)的可信區(qū)間如果經(jīng)檢驗(yàn)認(rèn)為兩變量間存在相關(guān)關(guān)系,即,可用r估計(jì)之。通常還需要構(gòu)造的可信區(qū)間,由于r¹0的樣本相關(guān)系數(shù)r呈偏態(tài)分布,故需作z變換,計(jì)算過(guò)程如下。1 對(duì)r做z變換: (9.4)z近似服從,其中。根據(jù)正態(tài)分布原理,mzr的1-可信區(qū)間為(,);2 對(duì)mzr的1-可信區(qū)間的兩端點(diǎn)zL、zU做如下變換(逆z變換), (9.5)得到的1-可信區(qū)間(,)。例
9、9.1中的95%可信區(qū)間為(0.1257,0.8505)。五、用Stata軟件計(jì)算相關(guān)系數(shù)(以例9.1為例,數(shù)據(jù)文件為ex9-1.dta)graph x y 繪散點(diǎn)圖計(jì)算Pearson相關(guān)系數(shù),假設(shè)檢驗(yàn)P值,并用*表示P<0.05。Stata命令pwcorr x y,sig star(.05) 即: pwcorr 變量1 變量2,sig star(0.05)輸出結(jié)果 | x y-+-x | 1.0000 | y | 0.5994* 1.0000 輸出結(jié)果表明X和Y的相關(guān)系數(shù)為0.5994,P=0.0182,小于0.05。第二節(jié) 直線回歸一、直線回歸的基本概念上節(jié)討論了兩變量之間的線性相關(guān)
10、關(guān)系,但在許多情況下,我們希望確定其中一個(gè)變量Y隨另一變量X的線性變化規(guī)律。這種線性變化規(guī)律稱之為直線回歸。Y稱為因變量(dependent variable),或稱應(yīng)變量(response variable);X稱為自變量(independent variable),或稱解釋變量(explanatory variable)。因?yàn)橐坏┻@種線性變化規(guī)律可以被定量地描述,我們就可以由X定量地預(yù)測(cè)Y的大小,如用兒童的年齡預(yù)測(cè)其身高等。為了較直觀地說(shuō)明直線回歸中的有關(guān)概念,我們以某地18名3歲至8歲男孩的年齡(X)與身高(Y)的數(shù)據(jù)(見(jiàn)例9.2) 繪制成散點(diǎn)圖(見(jiàn)圖9.3)。圖9.3 某地男童身高與年
11、齡的散點(diǎn)圖從圖9.3上,我們可以發(fā)現(xiàn)樣本點(diǎn)(X,Y)隨機(jī)地出現(xiàn)在一條直線附近,并且從資料背景上考察,同一年齡的兒童身高應(yīng)近似服從一個(gè)正態(tài)分布,而兒童身高的總體均數(shù)應(yīng)隨著年齡增長(zhǎng)而增大,因此推測(cè)兒童身高的總體均數(shù)與年齡可能呈直線關(guān)系。故假定Y在X點(diǎn)上的總體均數(shù)與X呈直線關(guān)系(見(jiàn)圖9.4)。 (9.6)XYmY|X=a+bX圖9.4 直線回歸基本原理示意mY|XmY|X公式(9.6)稱為直線回歸方程。其中b為回歸系數(shù)(regression coefficient),或稱為斜率(slope);a稱為常數(shù)項(xiàng)(constant),或稱為截距(intercept)。回歸系數(shù)b表示X變化一個(gè)單位Y平均變化b
12、個(gè)單位。因此b>0時(shí),大多數(shù)的Y隨著X增大而增大;b<0時(shí),大多數(shù)的Y隨著X增大而減小;對(duì)于Y是隨機(jī)變量,其均數(shù)mY|X滿足公式(9.6)的回歸方程并且b¹0,則稱Y與X有直線回歸關(guān)系。若b0,則稱X與Y沒(méi)有直線回歸關(guān)系。由于在大多數(shù)情況下,a和b是未知的,所以需要用樣本進(jìn)行估計(jì)的,用樣本估計(jì)的回歸方程記為 (9.7)二、直線回歸方程的建立實(shí)際應(yīng)用中要根據(jù)樣本數(shù)據(jù)建立直線回歸方程,即給出a、b的估計(jì)。常用的估計(jì)方法是最小二乘法,其基本原理是:對(duì)于任一X,根據(jù)直線回歸方程得到相應(yīng)的估計(jì)值(預(yù)測(cè)值)記為,使得與觀測(cè)值Y差值的平方和 (9.8)達(dá)到最小的a、b稱為a、b的最小二
13、乘估計(jì)(least square estimate)。運(yùn)用導(dǎo)數(shù)法對(duì)公式(9.8)求極值,不難解得: (9.9)由公式(9.9)確定的直線回歸方程有兩個(gè)特點(diǎn):1 回歸方程通過(guò)點(diǎn)();2 平方和達(dá)到最小。例9.2 為了研究3歲至8歲男孩身高與年齡的規(guī)律,在某地區(qū)在3歲至8歲男孩中隨機(jī)抽樣,共分6個(gè)年齡層抽樣:3歲,4歲,8歲,每個(gè)層抽3名男孩,共抽18名男孩。資料列于表9.2。表9.2 某地男童身高與年齡的觀測(cè)結(jié)果年齡X身高YXYX2預(yù)測(cè)值殘差33344455566677788899=將數(shù)據(jù)繪制成散點(diǎn)圖(見(jiàn)圖9.3),根據(jù)散點(diǎn)圖和前面所述,可以假定兒童身高的總體均數(shù)與年齡呈直線關(guān)系。根據(jù)表9.2下
14、端給出的中間計(jì)算結(jié)果,代入公式(9.9)得:, 。直線回歸方程為:。并計(jì)算各例的及列于表9.2。根據(jù)回歸方程繪制直線得到圖9.5,圖形顯示回歸方程基本上反應(yīng)了身高隨體重的變化規(guī)律。圖9.5 某地男童身高與年齡的直線回歸三、直線回歸方程的假設(shè)檢驗(yàn)獲得了直線回歸方程系數(shù)的最小二乘估計(jì)后,回歸方程是否有意義呢?也就是說(shuō)X對(duì)Y有無(wú)解釋作用?如果公式(9.6)中總體回歸系數(shù) b=0,X的任何變化都不會(huì)對(duì)Y產(chǎn)生影響,也就失去建立回歸方程的意義了。由于b的最小二乘估計(jì)b是用隨機(jī)抽樣樣本進(jìn)行估計(jì)的,(即b是一個(gè)樣本統(tǒng)計(jì)量)。既使總體回歸系數(shù)b=0,由于抽樣誤差的原因也可能使樣本回歸系數(shù)b¹0。如果b
15、接近于0但不等于0,就應(yīng)考慮可能是b0而由于抽樣誤差引起b¹0,也可能b確實(shí)不為0的問(wèn)題?這個(gè)問(wèn)題可以從兩個(gè)方面回答。1 回歸系數(shù)b的t檢驗(yàn)。如果b¹0,那么Y扣除X影響后就是記做并稱為殘差(residual,又稱為誤差,error),不難驗(yàn)證:,即:殘差的均數(shù),因此殘差的方差為其中v是自由度。由于計(jì)算要用到和,故v=n2,所以有 (9.10)我們稱為Y的樣本殘差方差,也可以記為??梢宰C明b的標(biāo)準(zhǔn)誤為 (9.11)據(jù)此,構(gòu)造檢驗(yàn)統(tǒng)計(jì)量tb檢驗(yàn): H0:回歸系數(shù)b=0;H1:回歸系數(shù)b¹0。 (9.12)若H0為真,則tb服從自由度的t分布。對(duì)例9.2中的回歸系數(shù)檢
16、驗(yàn)如下:表9.2 下端列出了和LXX的計(jì)算結(jié)果,于是=8.1650,=0.3944,。自由度,查雙測(cè)t檢驗(yàn)界值表(附表2)得t0.05/2,16=2.12,P<0.05。因此在的水平上認(rèn)為b¹0,說(shuō)明男童的平均身高與年齡之間有直線回歸關(guān)系??梢宰C明相關(guān)系數(shù)的檢驗(yàn)統(tǒng)計(jì)量tr與回歸系數(shù)的檢驗(yàn)統(tǒng)計(jì)量tb完全等價(jià)(留做習(xí)題),道理也很簡(jiǎn)單,X、Y間存在線性相關(guān)等價(jià)于X與Y之間有直線回歸關(guān)系。相關(guān)系數(shù)的檢驗(yàn)統(tǒng)計(jì)量的計(jì)算相對(duì)而言簡(jiǎn)單一些,實(shí)際應(yīng)用中常用tr檢驗(yàn)結(jié)果推得回歸系數(shù)b是否為0。2 方差分析法。我們也可以從變異分解的角度,用方差分析的方法對(duì)回歸系數(shù)進(jìn)行檢驗(yàn)。建立回歸方程后,就得到Y(jié)
17、的預(yù)測(cè)值和殘差(error,又稱為剩余差,residual),Y的離差平方和LYY被分解成兩個(gè)部分: (9.13)第一部分稱為回歸平方和記為SSR,自由度為1;第二部分前面已出現(xiàn)過(guò),稱為殘差平方和記為SSE,自由度為n-2。SSR描述了由X的變化所引起的Y變異部分,而SSE描述了扣除了X對(duì)Y變異作用后的Y自身變異部分。除以各自的自由度,得到相應(yīng)的回歸均方MSR和殘差均方MSE(即),F(xiàn)統(tǒng)計(jì)量的計(jì)算公式為。 (9.14)顯然X對(duì)Y的作用越大,MSR就越大并且MSE就越小,對(duì)應(yīng)的F就越大,反之F就越小??梢宰C明:當(dāng)H0:回歸系數(shù)b=0成立時(shí),F(xiàn)服從自由度為,的F分布。因此可用F作為檢驗(yàn)統(tǒng)計(jì)量來(lái)檢驗(yàn)
18、H0。為方便計(jì)算,將代入SSR得: (9.15)SSR=(6.2571)2×52.5=2055.44 SSE=。列方差分析表,如表9.3。 表9.3 方差分析表變異來(lái)源SSvMSF回歸1殘差16總變異17 查F值表(附表4)得F0.05,1,13=4.67,P<0.05。因此在ab¹0。結(jié)論與前面t檢驗(yàn)的結(jié)論相同。另外,根據(jù)公式(9.15)有稱為決定系數(shù),表示Y被X所解釋的部分所占的百分比,并用R2記之,R2越接近于1說(shuō)明X對(duì)Y的解釋越充分。四、X固定時(shí)Y的均數(shù)的可信區(qū)間與Y的分布范圍的估計(jì)1 的可信區(qū)間回歸的主要作用之一就是通過(guò)X預(yù)測(cè)Y,在醫(yī)學(xué)科研中有著廣泛的應(yīng)用。
19、就是對(duì)應(yīng)于某一X的預(yù)測(cè)值,它是均數(shù)的估計(jì),的方差是 (9.16)標(biāo)準(zhǔn)誤是,如果在X上,因變量Y服從正態(tài)分布,那么的可信區(qū)間是 (9.17)這個(gè)區(qū)間有的概率包含預(yù)測(cè)值均數(shù)。由公式(9.16)、(9.17)可見(jiàn)的可信區(qū)間在最窄,隨著X遠(yuǎn)離,的可信區(qū)間逐漸變寬,說(shuō)明預(yù)測(cè)的精度下降。因此通過(guò)遠(yuǎn)離的X來(lái)預(yù)測(cè)Y要十分謹(jǐn)慎。公式(9.16)、(9.17)中的前面已計(jì)算過(guò),不再示例演算。Y的95參考值范圍圖9.6 的95%可信帶與Y的95%分布范圍各X點(diǎn)的可信區(qū)間的兩端點(diǎn)形成兩條光滑的曲線,圍繞在直線回歸方程的上下側(cè),構(gòu)成一形似領(lǐng)結(jié)的帶狀區(qū)域,稱為的置信帶,即圖9.6中的陰影部分。2 Y的分布范圍的估計(jì)在X上
20、,Y是圍繞均數(shù)分布的,其樣本方差是因此Y的分布范圍的估計(jì)是同樣Y的參考值范圍端點(diǎn)形成兩條光滑的曲線,位于的置信帶的外側(cè)(見(jiàn)圖)。利用此方法,可構(gòu)建某指標(biāo)Y在不同X情況下的參考值范圍,如例9.2中不同身高的人其體重的參考值范圍;不同海拔高度的人群的血紅蛋白量參考值范圍等等。五、直線回歸的Stata軟件計(jì)算(以例9.2為例,數(shù)據(jù)文件為ex9-2.dta)plot y x 繪散點(diǎn)圖 即: plot 縱軸變量 橫軸變量reg y x 直線回歸 即:reg 應(yīng)變量 自變量predict yhat yhat存放計(jì)算預(yù)測(cè)值 即:predict 預(yù)測(cè)值變量predict yx,residual yx存放殘差
21、即:predict 殘差變量,residual輸出結(jié)果 Source | SS df MS Number of obs = 18-y | Coef. Std. Err. t P>|t| 95% Conf. Interval-+- x-第三節(jié) Spearman秩相關(guān)第一節(jié)中介紹了直線相關(guān)系數(shù)r,當(dāng)X、Y服從雙變量正態(tài)分布(見(jiàn)本章第五節(jié))的時(shí)候,r可以較好地估計(jì)和檢驗(yàn)總體相關(guān)系數(shù)。但實(shí)際應(yīng)用中有些情況下X、Y并不服從雙變量正態(tài)分布,這個(gè)時(shí)候r就不能正確地反應(yīng)X、Y間的相關(guān)性了。為此Spearman提出對(duì)數(shù)據(jù)做秩變換后再計(jì)算直線相關(guān)系數(shù),為了有別于r,用rS記之。rS可間接反應(yīng)X、Y間的相關(guān)性
22、而且不依賴于X、Y的分布。rS稱為Spearman秩相關(guān)系數(shù)。所謂秩變換是指將變量值按大小關(guān)系排列后的順序編號(hào),某一變量值對(duì)應(yīng)的編號(hào)稱為其秩次或秩(rank)。如果有幾個(gè)變量值相等,取其對(duì)應(yīng)的秩次的平均為其最終秩次,這種現(xiàn)象稱為同秩(ties)。假定一個(gè)有n例的樣本,將觀察值X、Y分別作秩變換后用V、W表示,根據(jù)公式(9.1)有 (9.20),如果n個(gè)X值互不相等(不同秩),n個(gè)Y值也互不相等,可以證明公式(9.20)可簡(jiǎn)化為公式(9.21) (9.21)其中d為各對(duì)X和Y的秩次的差V-W。因此公式(9.21)是公式(9.20)的特例。如果X或Y的變量值存在同秩,公式(9.21)是公式(9.2
23、0)的近似,需要做校正。校正公式比較復(fù)雜,相比較而言,直接用公式(9.20)計(jì)算要簡(jiǎn)單一些。計(jì)算出后,需檢驗(yàn)總體相關(guān)系數(shù)是否為零。對(duì)于n£50,檢驗(yàn)總體相關(guān)系數(shù)是否為零可以查附表15(rs界值表);對(duì)于n>50時(shí)(附表15查不到),用第一節(jié)的公式(9.3)進(jìn)行雙側(cè)t檢驗(yàn)。例9.3 調(diào)查了某地區(qū)10個(gè)鄉(xiāng)的釘螺密度與血吸蟲(chóng)感染率(%)數(shù)據(jù)如表9.4。試分析該地區(qū)釘螺密度與感染率之間有無(wú)相關(guān)關(guān)系?表9.4 10個(gè)鄉(xiāng)的釘螺密度與血吸蟲(chóng)感染率鄉(xiāng)編號(hào)螺密度X感染率YX的秩VY的秩Wd133172252243221314422710535195649237731188391894524104
24、3206由于本例數(shù)據(jù)涉及感染率,而率一般不服從正態(tài)分布,故計(jì)算Spearman秩相關(guān)。將表9.3中數(shù)據(jù)代入公式(9.20)得。代入公式(9.21)得。由于數(shù)據(jù)存在同秩,采用公式(9.20)得計(jì)算結(jié)果。公式(9.21)的計(jì)算結(jié)果稍大,在此僅做演示。檢驗(yàn)假設(shè) H0:總體相關(guān)系數(shù)=0; H1:總體相關(guān)系數(shù);將代入公式(9.3)得 查雙測(cè)t檢驗(yàn)界值表(附表2)得t0.01,8=3.355,P<0.01。因此在的水平上認(rèn)為該地區(qū)螺密度與感染率之間有相關(guān)關(guān)系。Spearman相關(guān)系數(shù)的Stata計(jì)算結(jié)果(以例9.3為例,數(shù)據(jù)文件為ex9-3.dta) spearman x y 計(jì)算 即:spearm
25、an 變量1 變量2輸出結(jié)果Number of obs = 10Test of Ho: x and y are independent輸出結(jié)果與筆算相同,結(jié)果解釋同上。第四節(jié) 曲線回歸簡(jiǎn)介第二節(jié)我們介紹了直線回歸,但醫(yī)學(xué)科研中X、Y簡(jiǎn)除直線關(guān)系外更多的是曲線關(guān)系。曲線方程的形式不勝枚舉,常用的有20多種。具體到各個(gè)科研領(lǐng)域又有許多特殊的曲線,如酶動(dòng)力學(xué)研究、藥動(dòng)、藥代研究中的一些著名曲線。下面具體列出4種曲線的函數(shù)形式:a1a2b1b2c1c2d1d2d4d3a1、a2 logistic曲線b1、b2 指數(shù)曲線c1、c2 拋物線d1、d2、d3、d4 冪曲線圖9.7 常用的幾種曲線形式1Log
26、istic曲線 ;2指數(shù)曲線 ;3拋物線 ;4冪曲線 。圖9.7中繪制了以上4種常見(jiàn)的曲線的圖像。根據(jù)獲得的數(shù)據(jù)建立相應(yīng)曲線關(guān)系的過(guò)程稱為曲線回歸(non-linear regression)或曲線擬合(curve fitting)。曲線回歸的步驟大體為:1 繪制X、Y的散點(diǎn)圖;2 根據(jù)散點(diǎn)圖上顯示的X、Y間的關(guān)系,選擇曲線形式,或根據(jù)實(shí)際工作經(jīng)驗(yàn)確定曲線形式,如根據(jù)背景知識(shí)導(dǎo)出的方程等。3 用最小二乘法估計(jì)曲線的參數(shù),即使達(dá)到最小。與直線回歸不同的是,直線回歸能直接按公式(9.9)解出a、b,而曲線回歸只能用迭代算法給出曲線參數(shù)的數(shù)值解。隨著計(jì)算技術(shù)發(fā)展,尋求這種數(shù)值解是比較簡(jiǎn)單的了。許多統(tǒng)
27、計(jì)軟件如SAS、SPSS、STATA、NoSA都能做到。4 回歸結(jié)果的評(píng)價(jià)。(1)回歸結(jié)果優(yōu)劣的有效的評(píng)價(jià)方法是圖示法。將擬合的曲線重疊繪制到散點(diǎn)圖上,目測(cè)曲線是否充分反映散點(diǎn)的走勢(shì)。繪制殘差圖觀察散點(diǎn)是否仍然存在明顯趨勢(shì)。(2)擬合優(yōu)度(goodness of fitting)評(píng)價(jià)。擬合優(yōu)度一般從兩個(gè)方面評(píng)價(jià):(a)相關(guān)指數(shù)和確定系數(shù)。相關(guān)指數(shù)即Y和的簡(jiǎn)單相關(guān)系數(shù)記為。相關(guān)指數(shù)越接近1擬合效果越好。由于曲線擬合的數(shù)據(jù)較少,一般要求相關(guān)指數(shù)達(dá)0.9以上。(b)確定系數(shù),同樣越接近1擬合效果越好。第五節(jié) 相關(guān)和回歸應(yīng)用注意事項(xiàng)相關(guān)和回歸是最常用的統(tǒng)計(jì)方法,但也存在誤用的情況?,F(xiàn)列出以下幾點(diǎn),應(yīng)用
28、時(shí)須加以關(guān)注。1 相關(guān)或回歸有意義并不表示X、Y間存在因果關(guān)系,因果關(guān)系應(yīng)從機(jī)理上驗(yàn)證,而不能僅憑統(tǒng)計(jì)分析。2 線性相關(guān)分析一般要求X、Y服從二元正態(tài)分布(binormal distribution),又稱為雙變量正態(tài)分布。雙變量正態(tài)分布共有5個(gè)參數(shù),分別是兩個(gè)變量各自的均數(shù)、標(biāo)準(zhǔn)差和相關(guān)系數(shù)r=0,r0.6,rr-0.8的4種雙變量正態(tài)分布圖形并對(duì)應(yīng)其樣本散點(diǎn)圖。讀者可以發(fā)現(xiàn)樣本散點(diǎn)圖的變化趨勢(shì)與雙變量正態(tài)分布的曲面特征是一致的。3 如果X、Y不能滿足雙變量正態(tài)分布,最好計(jì)算Spearman秩相關(guān)。4 利用資料擬合直線回歸方程后,若對(duì)回歸系數(shù)進(jìn)行檢驗(yàn),則要求殘差服從正態(tài)分布。5 回歸分析的資
29、料分為兩種類型:型回歸資料X、Y皆為隨機(jī)變量取值,如例9.1中的身高和體重;型回歸資料Y為隨機(jī)變量取值,X為非隨機(jī)變量取值。如在某種溶液設(shè)定濃度(X)下測(cè)其光密度值(Y),此時(shí)X是事先確定的,是非隨機(jī)的。型回歸資料既可建立由X預(yù)測(cè)Y的回歸方程,又可以建立由Y預(yù)測(cè)X的方程,視具體需要而定。此時(shí)兩個(gè)方程不是反函數(shù)關(guān)系,繪制圖像可見(jiàn)是兩條直線方向一致,在交叉。型回歸資料只能建立由X預(yù)測(cè)Y的回歸方程,應(yīng)用中若要(往往如此)由Y預(yù)測(cè)X,直接利用反函數(shù)預(yù)測(cè)即可。6 用回歸方程做預(yù)測(cè)時(shí),不能過(guò)分外延。理由是過(guò)分外延,(1)使得預(yù)測(cè)值的穩(wěn)定性降低;(2)有可能X、Y的關(guān)系已發(fā)生本質(zhì)變化,不是業(yè)已建立的關(guān)系。7 繪制散點(diǎn)圖和殘差圖是相關(guān)與回歸正確應(yīng)用的保證,不能僅做計(jì)算。散點(diǎn)圖還可以用來(lái)衡量是否需要做合理的分組與并組。如建立體重關(guān)于身高的直線方程要不要考慮性別。有時(shí)還可以排除分析結(jié)果的謬誤,如分組后回歸無(wú)意義而并組后回歸有意義,或者反之,都必須引起注意。8 所建立的回歸方程是否有意義,僅憑借假設(shè)檢驗(yàn)的結(jié)論或R2的大小還不能充分說(shuō)明
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 8第九套廣播體操6-7節(jié)5 教學(xué)設(shè)計(jì)-八年級(jí)體育與健康
- 2024年春七年級(jí)地理下冊(cè) 第七章 第一節(jié) 日本教學(xué)實(shí)錄 (新版)新人教版
- 10 青山處處埋忠骨(教學(xué)設(shè)計(jì))-2023-2024學(xué)年統(tǒng)編版語(yǔ)文五年級(jí)下冊(cè)
- 2024年五年級(jí)數(shù)學(xué)下冊(cè) 四 長(zhǎng)方體(二)第1課時(shí) 體積與容積教學(xué)實(shí)錄 北師大版
- 4 藏戲 教學(xué)設(shè)計(jì)-2023-2024學(xué)年統(tǒng)編版語(yǔ)文六年級(jí)下冊(cè)
- 誤差對(duì)產(chǎn)品質(zhì)量影響評(píng)估方案
- 企業(yè)資源規(guī)劃系統(tǒng)全面整合方案
- 2024-2025學(xué)年高中化學(xué) 第1章 物質(zhì)結(jié)構(gòu) 元素周期律 第1節(jié) 元素周期表教學(xué)實(shí)錄 新人教版必修2
- 2024年五年級(jí)英語(yǔ)上冊(cè) Unit 2 My Country and English-speaking Countries Lesson 11 Australia教學(xué)實(shí)錄 冀教版(三起)
- 5《琥珀》(教學(xué)設(shè)計(jì))2023-2024學(xué)年統(tǒng)編版語(yǔ)文四年級(jí)下冊(cè)
- 2025教科版六年級(jí)科學(xué)下冊(cè)全冊(cè)教案【含反思】
- 2025年常州機(jī)電職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)含答案
- 南充經(jīng)濟(jì)開(kāi)發(fā)區(qū)投資集團(tuán)有限公司2024年招聘筆試參考題庫(kù)附帶答案詳解
- 甘肅四年級(jí)信息技術(shù)下冊(cè)教學(xué)設(shè)計(jì)(簡(jiǎn)版)(含核心素養(yǎng))
- 作文復(fù)習(xí):破繭成蝶逆天改命-《哪吒2》現(xiàn)象級(jí)成功的高考寫(xiě)作啟示 課件
- 2025年湖南機(jī)電職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)1套
- 2025中建三局(中原)社會(huì)招聘高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 【生 物】光合作用課件-2024-2025學(xué)年人教版生物七年級(jí)下冊(cè)
- 人教版 七年級(jí)英語(yǔ)下冊(cè) UNIT 2 單元綜合測(cè)試卷(2025年春)
- 2024年湖北省武漢市中考數(shù)學(xué)試題(解析版)
- 2024年“新能源汽車裝調(diào)工”技能及理論知識(shí)考試題與答案
評(píng)論
0/150
提交評(píng)論