版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第13章行列表分析 第第13章章 行行列表分析列表分析 第13章行列表分析 學習目標 v掌握四格表普通卡方檢驗和配對卡方檢驗方法以及相應的 SAS程序; v了解FREQ過程語句格式; v熟悉RC表資料的分類類型以及相應的統(tǒng)計檢驗方法; v掌握行均分檢驗以及SAS程序; v掌握行列均為順序變量的相關檢驗以及SAS程序; v掌握分層行列表的分析以及SAS程序; v掌握趨勢卡方檢驗方法以及SAS程序; v了解卡方分割與卡方合并; v熟悉Fishers確切概率計算方法。 第13章行列表分析 概述 v前面已介紹了兩個率比較的檢驗,在觀察例數(shù)不夠 大或擬對多個率進行比較時,檢驗就不適宜了,因 為直接對多個
2、樣本率作兩兩間的檢驗有可能增加第 一類誤差。2檢驗可解決此類問題。 v卡方檢驗是用途很廣的一種假設檢驗方法,這里我 們主要學習它在分類資料統(tǒng)計推斷中的應用,包括: 兩個率或兩個構成比比較的卡方檢驗;多個率或多 個構成比比較的卡方檢驗以及分類資料的相關分析 等。 第13章行列表分析 四格表資料四格表資料 v定性指標分為有序的(如:療效分為“治愈、顯效、好轉、 無效、死亡”)和名義的(如:血型分為“O、A、B、AB” 型)類,對于每個受試者來說,有序指標的觀測結果只 能是該有序指標若干等級中的級(如某人的療效為“顯 效”);名義指標的觀測結果只能是該名義指標若干標志中 的個(如某人的血型為型),顯
3、然,無法像處理定量指 標那樣去直接分析定性指標,故這類資料常被整理成列聯(lián)表 的形式后再進行分析。 v當表中只有個定性指標時,稱為維列聯(lián)表;有個或 個以上定性指標時,稱為多維列聯(lián)表。常用R、C表示維 列聯(lián)表的行數(shù)和列數(shù),并稱為RC表;當R=C=時,稱為 表(或四格表)。表看起來很簡單,但根據(jù)資 料所具備的條件有許多不同的處理方法。 第13章行列表分析 四格表卡方檢驗 v為了解不同致癌劑的致癌作用,分別在兩組大白鼠皮膚涂以不同致癌 劑,觀察不同致癌劑作用下的發(fā)癌率,結果如下表13-1,問兩組發(fā)癌 率有無差別? v表13-1 不同致癌劑作用下大白鼠的發(fā)癌率 v 處理發(fā)癌數(shù)未發(fā)癌數(shù)合計發(fā)癌率% 甲組5
4、2 (57.18)19 (13.82)71 73.24 乙組39 (33.82)3 (8.18)42 92.86 合計9122113 80.33 第13章行列表分析 四格表卡方檢驗 v這四個格子是表中最基本的數(shù)據(jù),其余數(shù)據(jù) 都是由這四個數(shù)據(jù)推算出來的,因此上表資 料又被稱之為四格表資料。 v2檢驗的基本思想及計算步驟如下: 假設兩總體率相等 H0: ,即兩總體發(fā)癌率相等; H1: ,即兩總體發(fā)癌率不等; 。 21 21 05. 0 第13章行列表分析 四格表卡方檢驗 v不妨將H0看作 兩樣本合并的發(fā)癌率(Pc 80.33),按合計率推算,本例第一行第 一列理論上的致癌數(shù)為: v此結果稱為理論頻
5、數(shù),簡稱理論數(shù),記為T。 由上述過程可推導出理論數(shù)的計算公式為: 21 18.57%33.8071 113 91 71 n nn T cr rc 第13章行列表分析 四格表卡方檢驗 v式中Trc即第r行第c列的理論數(shù),nr為Trc所在 行合計,nc為Trc所在列合計。相應地,表中 的4個基本數(shù)據(jù)為實際頻數(shù),簡稱為實際數(shù), 記為A。4個基本格子的實際數(shù)都不等于理論 數(shù)。 v經(jīng)上述推導,兩樣本率的差別就演繹為實際 數(shù)與理論數(shù)之間的差別。即:兩樣本率相差 越大,則實際數(shù)與理論數(shù)的差別就愈大。 第13章行列表分析 四格表卡方檢驗 v卡方檢驗的統(tǒng)計量是2值,它是每個格子實際頻數(shù) A與理論頻數(shù)T差值平方與
6、理論頻數(shù)之比的累計和。 每個格子中的理論頻數(shù)T是在假定兩組的發(fā)癌率相 等(均等于兩組合計的發(fā)癌率)的情況下計算出來 的,故2值越大,說明實際頻數(shù)與理論頻數(shù)的差別 越明顯,兩組發(fā)癌率不同的可能性越大。 v T TA 2 2 )( 第13章行列表分析 四格表卡方檢驗 v實際數(shù)與理論數(shù)的差值服從2分布:在H0條 件下,上述 差值屬于隨機誤差,可獲得 統(tǒng)計量: 6.4777 18. 8 )18. 83 ( 82.33 )82.3339( 82.13 )82.1319( 18.57 )18.5752( 2222 2 TA 第13章行列表分析 四格表卡方檢驗 v差2分布表,確定P值并作出推論,以1 查2界
7、值表得: v本例26.4777,故0.05P0.01,按水平 拒絕H0,接受H1,因而可以認為兩種致癌 劑作用于大白鼠的發(fā)癌率有差別(統(tǒng)計學推 論)。結果說明乙組致癌劑的發(fā)癌率高于甲 組(結合樣本率作實際推論)。 63.6,84.3 2 01.0 2 05.0 第13章行列表分析 連續(xù)性校正公式 v2分布是正態(tài)變量的一種分布。設 是k 個獨立的標準正態(tài)變量,則 。 2界值表就是根據(jù)這種連續(xù)性分布計算出來的。2 統(tǒng)計量計算公式實質上是正態(tài)近似法。分類資料是 間斷性的,由此計算的2值不連續(xù),尤其自由度為1 的四格表,求出的概率可能偏小,此時需要對2值 進行連續(xù)性校正,公式為 v k XXX, 21
8、 kXXX k , 22 2 2 1 2 T TA 2 2 )5 . 0( 第13章行列表分析 2檢驗的應用條件 v連續(xù)性校正主要針對四格表資料,尤其理論 數(shù)較小時,連續(xù)性校正不可忽略。 v四格表2檢驗的應用條件為: v當n40且所有T5時,用普通的2檢驗,若 所得,改用確切概率法; v當n40但有1T5時,用校正的2檢驗; v當n40或有T1時,不能用2檢驗,改用確 切概率法。 第13章行列表分析 四格表卡方檢驗的SAS程序 v在SAS/STAT模塊中FREQ、TABULATE和SUMMARY等過 程可用于分類資料的統(tǒng)計描述,其中FREQ過程兼具統(tǒng)計描 述和統(tǒng)計推斷的功能,對分類變量計算頻數(shù)
9、分布,產(chǎn)生從一 維到n維的頻數(shù)表和列聯(lián)表;對于二維表,可進行2檢驗, 對于三維表,可作Mentel-Hanszel分層分析。FREQ過程是 SAS用于分析分類資料的一個常用過程。本節(jié)將先向大家介 紹FREQ過程的語句及其格式。 vFREQ過程的語句基本格式如下: Proc freq data= order= ; Table 分類變量*分類變量/ ; Weight 變量; Run; 第13章行列表分析 四格表卡方檢驗的SAS程序 vDATA數(shù)據(jù)集:規(guī)定PROC FREQ語句使用的數(shù)據(jù)集; vORDERFREQ,按頻數(shù)遞減順序排列;ORDERDATA, 按數(shù)據(jù)集中出現(xiàn)的順序排列;ORDERINTE
10、RNAL,按內 部值排列(缺省);ORDERFORMATTED,按外部格式值 排列; vTable語句指定構成表格的變量和表格結構。表格的結構由 變量個數(shù)和變量排列順序決定,一個table語句允許列出多個 表格結構。PROC FREQ過程中可有多條TABLES語句, TABLES語句后可接多個表格請求式,每個請求式可包含任 何數(shù)量的變量,從而得到所需的表格。 第13章行列表分析 四格表卡方檢驗的SAS程序 v如果TABLES語句缺省,則FREQ過程對數(shù)據(jù)集中的所有變 量都給出相應的一維頻數(shù)表。不規(guī)定任何選項時,若需某變 量的一維頻數(shù),F(xiàn)REQ給出該變量每一水平的頻數(shù)、累積頻 數(shù)、頻數(shù)的百分比和
11、累積百分比;若需二維頻數(shù)表,F(xiàn)REQ 產(chǎn)生交叉分組列表,即包括各格的頻數(shù)、總頻數(shù)的格百分數(shù)、 行頻數(shù)的格百分數(shù)和列頻數(shù)的格百分數(shù)。 v請求式由一個或多個用“*”連接起來的變量名組成。幾個變 量可放在括號中,如: vTABLES A*(B C);等價于TABLES A*B A*C; vTABLES (A-C)*D;等價于TABLES A*D B*D C*D; 第13章行列表分析 四格表卡方檢驗的SAS程序 v下列選項可用于TABLES語句中“/”的后面: vOUT數(shù)據(jù)集:建立一個包含變量值和頻數(shù)計數(shù)的輸出數(shù)據(jù) 集。如果TABLES語句中不止一個請求式,數(shù)據(jù)集的內容相 應于TABLES語句中最后一
12、個請求。 vCHISQ對每層作c2檢驗,包括Pearson c2、似然比c2和 Mantel-Haenszel c2。此外還給出與c2檢驗有關的關聯(lián)指標 包括Phi系數(shù)、列聯(lián)系數(shù)和Cramers V。對于22表,給出 Fisher精確概率。 vAGREE 進行配對c 2檢驗。 vEXACT 對大于22的列聯(lián)表計算Fisher精確概率。同時也 給出CHISQ選項的全部統(tǒng)計量。 第13章行列表分析 四格表卡方檢驗的SAS程序 vMEASURES對每層的二維表計算一系列關聯(lián)指標及相應的 標準誤,包括Pearson和Spearman相關系數(shù),以及Gamma 和Kendall系數(shù)等。對于22表,還給出常
13、用的危險度指標 及其標準誤。 vCMH 給出Cochran-Mantel-Haenszel統(tǒng)計量,可檢驗在調整 了TABLES語句中其它變量后,行變量與列變量之間的關聯(lián) 程度。對于22表,F(xiàn)REQ過程給出相對危險度估計及其可 信區(qū)間,還給出各層關聯(lián)度指標是否齊性的Breslow檢驗。 vALL 給出CHISQ、MEASURES、CMH所請求的全部統(tǒng)計量。 vALPHAp給出檢驗水準。缺省為0.05。 第13章行列表分析 四格表卡方檢驗的SAS程序 vEXPECTED給出期望頻數(shù)。 vDEVIATION給出每格的實際頻數(shù)與期望頻數(shù) 的差值。 vCELLCHISQ給出每格對總c2的貢獻,即計 算每
14、格的(實際頻數(shù)-期望頻數(shù))2/期望頻數(shù)。 vCUMCOL給出累積列百分數(shù)。 vNOFREQ不給出列聯(lián)表中的格頻數(shù)。 vNOPERCENT不給出列聯(lián)表中的格百分數(shù)。 第13章行列表分析 四格表卡方檢驗的SAS程序 vNOROW不給出列聯(lián)表中各格的行百分數(shù)。 vNOCOL不給出列聯(lián)表中各格的列百分數(shù)。 vNOCUM不給出頻數(shù)表的累積頻數(shù)和累積百分數(shù)。 vNOPRINT不給出表格,但給出CHISQ、MEASURES或 CMH等語句所指定的統(tǒng)計量。 vTrend指令系統(tǒng)對2C頻數(shù)表的C個百分率進行Cochran- Armitage趨勢檢驗; vWEIGHT語句:通常每個觀察值提供數(shù)值1給頻數(shù)計數(shù),當
15、WEIGHT語句出現(xiàn)時,每個觀察值提供的是該觀察值的加權 變量值。該值必須非負,但可不必為整數(shù)。只能使用一個 WEIGHT語句,且該語句作用于所有的表。 第13章行列表分析 配對計數(shù)資料的卡方檢驗 v把每一份樣本平均分成兩份,分別用兩種方 法進行化驗,比較此兩種化驗方法的結果 (兩類計數(shù)資料)是否有本質的不同;或者 分別采用甲、乙兩種方法對同一批病人進行 檢查,比較此兩種檢查方法的結果(兩類計 數(shù)資料)是否有本質的不同,此時要用配對 卡方檢驗。 第13章行列表分析 配對計數(shù)資料的卡方檢驗 v現(xiàn)有198份痰標本,每份標本分別用A、B兩種培養(yǎng)基 培養(yǎng)結核菌,結果如下表。A培養(yǎng)基的培養(yǎng)率為 36.3
16、6%,B培養(yǎng)基的陽性培養(yǎng)率為34.34%,試問A、 B兩種培養(yǎng)基的陽性培養(yǎng)率是否相等? v A B 合計 +- +48 (a)24 (b)72 -20 (c)106 (d)126 合計68130198 第13章行列表分析 配對計數(shù)資料的卡方檢驗 v本例為配對設計的計數(shù)資料。計數(shù)資料的配對設計 常用于兩種檢驗方法、培養(yǎng)方法、診斷方法的比較。 其特點是對樣本中各觀察單位分別用兩種方法處理, 然后觀察兩種處理方法的某兩分類變量的計數(shù)結果。 觀察結果有四種情況,可整理成表13-4的形式: 兩種培養(yǎng)基的培養(yǎng)結果皆為陽性(a);兩種培 養(yǎng)基的培養(yǎng)結果皆為陰性數(shù)(d);A培養(yǎng)基的培 養(yǎng)結果為陽性,B培養(yǎng)基的
17、培養(yǎng)結果為陰性(b); A培養(yǎng)基的培養(yǎng)結果為陰性,B培養(yǎng)基的培養(yǎng)結果 為陽性(d)。 第13章行列表分析 配對計數(shù)資料的卡方檢驗 v比較兩法結果有無差別,要著眼于兩法結果不一致 的部分。表中觀察變量是對子中兩法的差值或差別, 由b和c兩格數(shù)據(jù)來反映,總體中與b和c對應的數(shù)據(jù) 可用B和C表示(a格和d格表示兩法差值為0,不予 考慮)。 v當40時, v當40時,需作連續(xù)性校正: v 1, )( 2 2 cb cb 1, ) 1( 2 2 cb cb 第13章行列表分析 行列表資料的2檢驗 v前面介紹了兩個樣本率比較的2檢驗方法, 其基本數(shù)據(jù)有2行2列,稱為22表或四格表 資料。本節(jié)介紹的行列表資
18、料的2檢驗, 用于多個樣本率的比較、兩個或多個構成比 的比較以及雙向有序或無序分類資料的檢驗 等。 vRC表可以分為雙向無序、單向有序、雙向 有序屬性相同和雙向有序屬性不同4類。 第13章行列表分析 雙向無序RC表 vRC表中兩個分類變量皆為無序分類變量, 對于該類資料:若研究目的為多個樣本率 (或構成比)的比較,可用行列表資料的 2檢驗;若研究目的為分析兩個分類變量 之間有無關聯(lián)性以及關系的密切程度時,可 以用行列表資料的2檢驗以及Pearson列聯(lián) 系數(shù)進行分析。 第13章行列表分析 單向有序RC表 v有兩種形式。一種是RC表中的分組變量是 有序的,而指標變量是無序的。此種單向有 序RC表
19、資料可用行列表資料的2檢驗進 行分析。另一種情況是RC表中的分組變量 是無序的,而指標變量是有序的,此種單向 有序RC表資料宜用秩和檢驗進行分析。 第13章行列表分析 雙向有序RC表 v雙向有序屬性相同的RC表 RC表中的兩 分類變量皆為有序且屬性相同。實際上是 22配對設計的擴展,此時宜用一致性檢驗 (或稱Kappa檢驗)。 v雙向有序屬性不同的RC表 RC表中的兩 分類變量皆為有序且屬性不相同。對于該類 資料,需要分析兩有序分類變量間是否存在 線性變化趨勢,宜用有序分組資料的線性趨 勢檢驗。 第13章行列表分析 行列均為順序變量的相關檢驗 v變量雖然是有序的,但畢竟還不是定量的, 需要給有
20、序變量的各等級賦值方可進行相關 分析。最簡單的賦值法是按順序賦給秩次(即 得分),即給行變量的等級賦值1,2,R 和給列變量的等級賦值1,2,C。這樣 (X,Y)的不同取值就有RC對,表中的RC 個頻數(shù)就是這RC對取值所對應的頻數(shù),然 后計算Spearman秩相關系數(shù),并作顯著性檢 驗,這是比較粗糙的分析方法。 第13章行列表分析 行列均為順序變量的相關檢驗 vSpearman秩相關分析比較粗糙,這是因為它給有序變量的 等級賦值過于簡單,不能最大限度地獲得有序變量之間的相 關信息。而典型相關分析是在使有序變量的相關達到極大的 前提下給有序變量的各等級賦值,就是對于表的邊緣(指 “行合計”與“列
21、合計”)設法產(chǎn)生一雙變量正態(tài),從而進 行相關分析。因產(chǎn)生各等級的得分值的計算過程中涉及矩陣 運算,故手工計算較麻煩,將用SAS程序實現(xiàn)統(tǒng)計計算。一 旦有了各等級的得分值后,就可運用求維頻數(shù)資料相關系 數(shù)的公式計算了。典型相關分析可以得出幾個典型相關系數(shù) R, 與每一個典型相關系數(shù)對應的檢驗為卡方檢驗,其數(shù)值 為nR2,其中n為RC表中的總頻數(shù),與第k個卡方值對應 的自由度dfk=R+C-2k-1。 第13章行列表分析 行列均為順序變量的相關檢驗 v與定量資料的相關與回歸分析類似,也可對 RC表資料中有序變量之間是否存在線性趨 勢作顯著性檢驗,通常這兩種檢驗的結果是 基本一致的,即相關分析結果顯
22、著,線性趨 勢檢驗結果也顯著??梢酝ㄟ^檢驗實現(xiàn)線性 趨勢檢驗,即利用回歸分析思想產(chǎn)生的與線 性回歸有關的卡分量和偏離線性回歸的卡分 量。 第13章行列表分析 行列均為順序變量的相關檢驗 v首先計算RC表的值,然后將總的值分解成 線性回歸分量與偏離線性回歸分量。若兩分 量均具有統(tǒng)計學意義,說明兩分類變量存在 相關關系,但關系不是簡單的直線關系;若 線性回歸分量有統(tǒng)計學意義,偏離線性回歸 分量無統(tǒng)計學意義時,說明兩分類變量不僅 存在相關關系,而且是線性關系。 第13章行列表分析 行列均為順序變量的相關檢驗 v計算 總的值 v計算線性回歸分量 回歸 v b為回歸系數(shù) v計算偏線性回歸分量 v將總的 值分解成線性回歸分量和偏離線性回歸分量。若兩 分量均有統(tǒng)計學意義,說明兩分類變量存在相關關系,但關 系不是簡單的直線關系;若線性回歸分量有統(tǒng)計學意義,偏 離線性回歸分量無統(tǒng)計學意義時,說明兩變量不僅存在相關 關系,而且是線性關系。 2 2 1,n n 2 2 2 2 回歸 總 回 回歸 R SS SS S b b XX YY XX XY S l*n l , l l b 2 b 2 第13章行列表分析 本章小節(jié) v2檢驗是用途很廣的一種假設檢驗方法,這里我們主要學習 它在分類資料統(tǒng)計推斷中的應用,包括:兩個率或兩個構成 比比較的卡方檢驗;多個率或多個構成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度儲能電站專用蓄電池銷售及技術支持協(xié)議2篇
- 二零二五年度個人二手房交易全程代辦服務合同
- 二零二五年度專業(yè)汽車租賃服務合同范本(十高端版)2篇
- 二零二五版信報箱工程材料環(huán)保認證協(xié)議3篇
- 2025版物流園區(qū)運營管理長期合同范本2篇
- 二零二五年度個人股權質押借款合同范本正規(guī)范本4篇
- 二零二五年度房地產(chǎn)抵押擔保合同標準范本3篇
- 二零二五年度個人與環(huán)保項目借款合同模板3篇
- 二零二五年度個人房屋抵押短期借款協(xié)議書(限城市住宅)
- 二零二五年度城市土地登記代理服務合同書2篇
- 學校對口幫扶計劃
- 腫瘤全程管理
- 《3-6歲兒童學習與發(fā)展指南》專題培訓
- 導尿及留置導尿技術
- 寒假作業(yè)一年級上冊《數(shù)學每日一練》30次打卡
- 2024-2025學年九年級化學上冊 第二單元 單元測試卷(人教版)
- 2024年公共衛(wèi)生基本知識考試題庫(附含答案)
- GB/T 4706.10-2024家用和類似用途電器的安全第10部分:按摩器具的特殊要求
- NB/T 11446-2023煤礦連采連充技術要求
- 2024年江蘇省蘇州市中考英語試題卷(含標準答案及解析)
- 2024多級AO工藝污水處理技術規(guī)程
評論
0/150
提交評論