




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、三種簡單相關(guān)分析與SAS實現(xiàn),醫(yī)學(xué)統(tǒng)計學(xué)教研室 柳偉偉,相關(guān),在生物醫(yī)學(xué)科研與實踐中,經(jīng)常涉及兩個變量之間的關(guān)系研究,以說明事物發(fā)生、發(fā)展及變化的原因或變量間依存變化的數(shù)量關(guān)系。 例如: 醫(yī)學(xué)上人的身高與體重的關(guān)系、年齡與血壓的關(guān)系等; 藥物劑量與反應(yīng)的關(guān)系等; 病程與療效的關(guān)系。 相關(guān)與回歸分析是研究這種關(guān)系的統(tǒng)計方法,屬雙變量分析(bivariate analysis)范疇。,相關(guān)分析的任務(wù) 說明客觀事物或現(xiàn)象相互間數(shù)量關(guān)系的密切程度和方向,并用適當(dāng)?shù)慕y(tǒng)計指標(biāo)表示出來。 而把客觀事物或現(xiàn)象間的數(shù)量依存關(guān)系表示出來,則是回歸分析所要解決的問題。,三種簡單相關(guān),1. Pearson直線相關(guān),2
2、. Spearman秩相關(guān),3. Kendall等級相關(guān),Pearson直線相關(guān),了解兩個隨機變量X與Y之間相關(guān)關(guān)系及其密切程度,可用直線相關(guān)分析方法。 直線相關(guān)(linear regression)又稱簡單相關(guān),此方法適用于X和Y都服從正態(tài)分布的資料。,Pearson直線相關(guān),直線相關(guān)的概念 直線相關(guān)的定量描述 相關(guān)系數(shù)的假設(shè)檢驗 相關(guān)系數(shù)的區(qū)間估計 直線相關(guān)分析的一般步驟 直線相關(guān)分析的注意事項,Pearson直線相關(guān),1. 定義 如果兩個隨機變量中,當(dāng)其中一個變量由小到大變化時,另一個變量也相應(yīng)地由小到大(或由大到?。┳兓?,并且其相應(yīng)變化的散點圖在直角坐標(biāo)系中呈現(xiàn)直線趨勢,則稱這兩個隨機
3、變量存在直線相關(guān)。 推斷兩個隨機變量是否存在直線相關(guān)關(guān)系以及描述這種相關(guān)關(guān)系大小的分析方法就是直線相關(guān)分析(linear correlation analysis),也稱簡單相關(guān)分析(simple correlation analysis)。,Pearson直線相關(guān),直線相關(guān)圖示,Pearson直線相關(guān),直線相關(guān)分析的適用條件 (1) 兩個變量均為服從正態(tài)分布的隨機變量,即要求他們服從雙變量正態(tài)分布; (2) 每對數(shù)據(jù)對應(yīng)的點在直角坐標(biāo)系中呈現(xiàn)直線趨勢。,Pearson直線相關(guān),2.直線相關(guān)的定量描述 相關(guān)系數(shù)的意義 在分析兩個事物間的關(guān)系時,常常要了解兩者間的數(shù)量關(guān)系是否密切。說明兩個變量
4、間關(guān)系密切程度和方向的統(tǒng)計指標(biāo)稱相關(guān)系數(shù),又稱pearson相關(guān)系數(shù),或積差相關(guān)系數(shù)。 樣本相關(guān)系數(shù)用r表示,總體相關(guān)系數(shù)用表示。,Pearson直線相關(guān),計算相關(guān)系數(shù)的基本公式是: 式中,lXX 、 lYY 分別表示X、Y 的離均差平方和, lXY 表示X與Y的離均差乘積和。,Pearson直線相關(guān),相關(guān)系數(shù)的意義 相關(guān)系數(shù)的符號反映兩變量間的相關(guān)方向: r0為正相關(guān),r0為負(fù)相關(guān) 相關(guān)系數(shù)的絕對值反映兩變量相關(guān)的密切程度: |r|越大,相關(guān)越密切。 r = 1 完全正相關(guān) r = -1 完全負(fù)相關(guān) r = 0 零相關(guān),應(yīng)該注意的是,r所表示的只是X與Y間的直線關(guān)系,若兩變量間為曲線關(guān)系時,
5、即使所有的點都在曲線上,其r值也并不等于1。例如下圖所示Y=x2的曲線,將各X值代入,得: X 0 1 2 3 4 Y 1 2 4 5 16,兩變量的相關(guān)系數(shù)為0.933,Pearson直線相關(guān),例 隨機測量了13名8歲健康男童的體重與心臟橫徑,結(jié)果見下表。試進(jìn)行直線相關(guān)分析。,Pearson直線相關(guān),相關(guān)系數(shù)的計算 X=301.5 X 2 =7072.75 Y=116.3 Y 2 =1044.63 XY = 2713.65 lXX = X 2 (X)2/n =7.72.75-301.52/13 = 80.2692 lYY = Y 2 (Y)2/n =1044.63-116.32/13 = 4
6、.1923 lXY = XY (X)(Y)/n =2713.65-301.5116.3/13=16.3846,Pearson直線相關(guān),相關(guān)系數(shù)的統(tǒng)計學(xué)意義檢驗 檢驗假設(shè)如下:,1. 直接查表法:求得 r 后,按 = n-2查r界值表。 本例,r=0.8932, P0.01,說明總體相關(guān)系數(shù)與0之間的差別有統(tǒng)計學(xué)意義,Pearson直線相關(guān),2. t 檢驗 若H0成立,從 =0的總體中抽樣,所得到的樣本相關(guān)系數(shù) r 呈對稱分布(近似正態(tài)分布),此時可用 t 檢驗。,本例, = n-2 =11 按 = 11查t界值表,得P0.01 ,說明總體相關(guān)系數(shù)與0之間的差別有統(tǒng)計學(xué)意義,1,Pearson直
7、線相關(guān),Pearson直線相關(guān),相關(guān)系數(shù)的區(qū)間估計 從相關(guān)系數(shù) 不等于0的總體中抽樣,樣本相關(guān)系數(shù)的分布是偏態(tài)的。,Pearson直線相關(guān),z 近似服從均數(shù)為 , 標(biāo)準(zhǔn)誤為 的正態(tài)分布。,Z 變換,Pearson直線相關(guān),將 r 變換為 z ; 根據(jù) z 服從正態(tài)分布,估計 z 的可信區(qū)間; 再將 z 變換回 r 。,Pearson直線相關(guān),直線相關(guān)分析的一般步驟 1. 繪制散點圖,觀察兩變量的變化趨勢; 2. 若散點圖呈直線趨勢,計算相關(guān)系數(shù); 3. 對相關(guān)系數(shù)進(jìn)行假設(shè)檢驗; 4. 必要時對總體相關(guān)系數(shù)進(jìn)行區(qū)間估計。,Pearson直線相關(guān),直線相關(guān)分析的注意事項 1. 直線相關(guān)分析要求兩個
8、變量均為服從正態(tài)分布的隨機變量,實際數(shù)據(jù)要滿足這一前提。 2. 分析前必須先作散點圖,變化不呈直線趨勢時不宜作直線相關(guān)。 3. 要注意相關(guān)的有效范圍。相關(guān)系數(shù)的意義僅限于原資料中兩個變量值的實測范圍,超出這一范圍就不一定保持現(xiàn)有的直線關(guān)系了。,Pearson直線相關(guān),4. 作相關(guān)分析時,必須考慮異常點的影響。 5. 相關(guān)分析要有實際意義,兩變量相關(guān)并不代表兩變量間一定存在內(nèi)在聯(lián)系,相關(guān)關(guān)系不一定是因果關(guān)系。有時兩個變量雖然存在直線關(guān)系,但可能是同時受另外一個因素的影響,二者均隨另一個因素的變化而變化,它們本身卻不一定存在因果關(guān)系。 年齡 工齡越長 血壓越高,Pearson直線相關(guān),6. 分層資
9、料不宜盲目合并進(jìn)行相關(guān)分析。只有確定各層研究對象具有同質(zhì)基礎(chǔ)才能合并。 7. 不要把假設(shè)檢驗中相關(guān)顯著性大小理解為相關(guān)程度的大小。若經(jīng)假設(shè)檢驗推斷 0,說明兩變量間存在一定的直線關(guān)系。相關(guān)的密切程度可參照下面標(biāo)準(zhǔn)判斷:|r|0.7為高度相關(guān)。,等級相關(guān),1. 定義: 用雙變量等級數(shù)據(jù)作直線相關(guān)分析 2. 適用范圍: (1)不服從雙變量正態(tài)分布 (2)總體分布類型未知 (3)原始數(shù)據(jù)用等級表示,等級相關(guān),Spearman秩相關(guān) Kendall等級相關(guān),Spearman秩相關(guān),Spearman秩相關(guān) 對于不符合正態(tài)分布的資料,不用原始數(shù)據(jù)計算相關(guān)系數(shù),而是將原始觀察值由小到大編秩,然后根據(jù)秩次來計
10、算秩相關(guān)系數(shù)。 通過秩相關(guān)系數(shù)rs來說明兩個變量間相關(guān)關(guān)系的密切程度,Spearman秩相關(guān),設(shè)有n例觀察對象同時取得兩個測定值(Xi,Yi),分別按Xi、 Yi(i=1,2,3,n)的值由小到大編秩為1,2,3 ,n。用RXi表示Xi的秩次, RYi表示Yi的秩次。因為n是固定的,所以總秩相等即,平均秩,但Xi的秩順序不一定與Yi的秩順序相同,故所對應(yīng)的RXi與RYi不一定相等。,Spearman秩相關(guān),只要求出 就可按以下公式計算秩相關(guān)系數(shù)rs,令同一觀察對象的兩個秩次差為:,得到秩相關(guān)系數(shù)的簡化公式為:,式中n為 觀察例數(shù)。rs的取值為| rs |1。,Spearman秩相關(guān),相同秩次較
11、多時,TX(或TY)(t3t)/12,t為X(或Y)中相同秩次的個數(shù)。,例 某地方病防治所隨機抽樣調(diào)查了某縣10個村飲水中氟含量與氟骨癥患病率間的關(guān)系,飲用水中氟含量(X )與氟骨癥患病率(Y ),Spearman秩相關(guān),Spearman秩相關(guān)分析步驟: 1.編秩 將各Xi由小到大編秩得RXi,列于表中第(3)列。采用相同的排秩規(guī)則將Yi的記分列于表中第(5)列RYi。當(dāng)遇到相等的測定值時則用平均秩。如Y2=Y4=22.64,按編秩為3和4,這兩個測定值的平均秩為(3+4)/2=3.5,故有RY2= RY4=3.5。 2.秩次差 求每例觀察對象的秩次差 列于表中第(6)列,應(yīng)有 。本例的合計為
12、 表示排秩無誤,可作核對之用。,Spearman秩相關(guān),3.計算秩次之差的平方并求和 計算出的 列于表中第(7)列。本例有,4.計算秩相關(guān)系數(shù)rs 本例 代入簡化公式中得到:,簡化公式適用于資料中取相同秩次的例數(shù)不多的情況,但如果取相同秩次的例數(shù)較多時,就使得計算的結(jié)果偏差較大,這時應(yīng)用原始公式計算秩相關(guān)系數(shù)。,Spearman秩相關(guān),Spearman秩相關(guān)系數(shù)的假設(shè)檢驗 對總體相關(guān)系數(shù)的假設(shè)檢驗的方法有兩種: 1.查表法 當(dāng)n50時,查“rs界值表”進(jìn)行假設(shè)檢驗。 2.計算法 當(dāng)n50時,按下式計算檢驗統(tǒng)計量u:,查標(biāo)準(zhǔn)正態(tài)分布表,確定P 值。,Spearman秩相關(guān),對前面例子得到的秩相關(guān)
13、系數(shù)進(jìn)行假設(shè)檢驗 檢驗步驟: 1.建立無效假設(shè)和確定檢驗水準(zhǔn) H0:s=0,即飲用水中氟含量與氟骨癥患病率間無相關(guān)關(guān)系 H1:s0,即飲用水中氟含量與氟骨癥患病率間有相關(guān)關(guān)系=0.05 2.計算秩相關(guān)系數(shù)rs=0.918,Spearman秩相關(guān),3.確定P 值并下結(jié)論: 查表得到rs,0.05/2(10)=0.648,小于樣本統(tǒng)計量rs=0.918,故按=0.05水準(zhǔn)拒絕H0,判斷rs系來自s0的總體,從專業(yè)上分析,可以認(rèn)為飲水中氟含量與氟骨癥患病率之間存在著正相關(guān)關(guān)系。,Kendall等級相關(guān),Kendall等級相關(guān) 當(dāng)兩個變量都用等級來表示時,用一個統(tǒng)計量來衡量它們的等級不一致的情況。 K
14、endall等級相關(guān)系數(shù)也在1之間變動。完全不相關(guān)時,=0。它不僅可對兩個變量作等級相關(guān)分析,而且可對多個變量作等級相關(guān)分析,Kendall等級相關(guān),Kendall等級相關(guān)的分析步驟: 1.先將第一個變量(x)和第二個變量(y)由小到大列出等級,數(shù)值相同時取平均等級。 2.把兩變量的等級列出,以x的等級為順序排列。 3.計算Kendall等級相關(guān)系數(shù),例 下表是一些環(huán)狀化合物的相對分子質(zhì)量與用藥后大鼠24h膽汁排泄量資料,要研究相對分子質(zhì)量與膽汁排泄量有無關(guān)系。,環(huán)狀化合物的相對分子質(zhì)量與大鼠24h膽汁排泄量關(guān)系,Kendall等級相關(guān),1.將第一個變量即相對分子質(zhì)量(x)和第二個變量即膽汁排
15、泄量(y)由大到小列出等級,數(shù)值相同時取平均等級見上表等級列。 2.把兩變量的等級列成下表形式,即以x的等級為順序排列。,Kendall等級相關(guān)計算表,Kendall等級相關(guān),表中第1,2行是從第一張表中轉(zhuǎn)抄過來的,但順序是按x的等級從小到大排列的。第3行是對應(yīng)于每一個排泄量(y)等級的右邊的更?。òㄏ嗟龋┑牡燃墏€數(shù)。 例如,對于y的等級2,在它右邊只有一個等級(即1)比它小,所以在等級2的下面寫1,也就是第3行第一個數(shù)字是1.而對應(yīng)于第2行的等級1,在它右邊沒有更小的等級,所以在它下面即第3行第2個數(shù)字為0,其余以此類推。,Kendall等級相關(guān),第4行則是應(yīng)對于該列的y的等級Ry右邊更大
16、的等級個數(shù)。第3行的合計為11,記為負(fù)的;第4行的合計為34,記為正的。兩者的代數(shù)和稱為S,即S=34-11=23.,Kendall等級相關(guān),3.計算Kendall等級相關(guān)系數(shù),實際上分母就是等級對子數(shù),例中共有10個數(shù),則對子數(shù)為:,Kendall等級相關(guān),從S的計算過程可知,S值最小是 ,最大是 ,因此值一定在-1和+1之間。 完全負(fù)相關(guān)是-1, 完全正相關(guān)是+1, 不相關(guān)則為0。,Kendall等級相關(guān),當(dāng)兩變量等級呈完全正相關(guān)時,計算S值過程如下表所示,假設(shè)的完全正相關(guān)資料計算S值,從表中可以看出S=450=45,Kendall等級相關(guān),當(dāng)兩變量等級呈完全負(fù)相關(guān)時,計算S值過程如下表所
17、示,假設(shè)的完全正相關(guān)資料計算S值,從表中可以得出S=045=-45,Kendall等級相關(guān),4. 的假設(shè)檢驗。 Kendall等級相關(guān)的無效假設(shè)是兩變量的等級不相關(guān),即在無效假設(shè)成立時S期望值為0或者說的期望值為0,如果沒有相同等級,S的方差為:,Kendall等級相關(guān),如果有相同等級,那么S的方差為:,式中:t為x的相同等級個體數(shù);u為y的相同等級個體數(shù)。,Kendall等級相關(guān),假設(shè)檢驗可用含有連續(xù)性校正的正態(tài)近似檢驗:,例中含有相同等級,故其方差為:,Kendall等級相關(guān),故,得,因u 1.96,P 0.05,結(jié)論:分子量等級和排泄量等級是相關(guān)的。,Kendall等級相關(guān),若把此例當(dāng)作無重復(fù)等級,用公式 計算方差,則為,則得,u 1.96,P 0.05,結(jié)論相同。,例 題,例1 隨機測量了13名8歲健康男童的體重與心臟橫徑,結(jié)果見下表。試進(jìn)行直線相關(guān)分析。,例 題,data a1; inp
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廢舊電池材料回收-洞察及研究
- 河北省高考成績數(shù)學(xué)試卷
- 市場經(jīng)濟(jì)中的可持續(xù)發(fā)展路徑-洞察及研究
- 聯(lián)通筆試題及答案
- 合肥三模蜀山區(qū)數(shù)學(xué)試卷
- 口腔科試題及答案
- access2025期末考試試題及答案
- 工業(yè)微服務(wù)鏈化改造-洞察及研究
- 國際初中初三數(shù)學(xué)試卷
- 2025年新醫(yī)保知識考試題及答案
- SL-T+291-2020水利水電工程鉆探規(guī)程
- 大族激光切割機說明書
- 民宿托管運營合同模板
- 2024鄭州鐵路職業(yè)技術(shù)學(xué)院教師招聘考試筆試試題
- DL5009.2-2013 電力建設(shè)安全工作規(guī)程 第2部分:電力線路-www.biao-zhun.cn
- CHT 9008.3-2010 基礎(chǔ)地理信息數(shù)字成果1:500 1:1 000 1:2 000數(shù)字正射影像圖(正式版)
- 四川省成都市2024年七年級下學(xué)期期末數(shù)學(xué)試題附答案
- 體育館安全協(xié)議書
- 科目余額表模板
- 人口社會學(xué)(楊菊華 第二版) 課件 第8-14章 婚姻家庭-人口特征與民生發(fā)展
- 《字體設(shè)計》課程標(biāo)準(zhǔn)
評論
0/150
提交評論