




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、SAS基礎(chǔ)知識,SAS應(yīng)用,三大統(tǒng)計軟件,2,SAS,SPSS,R,商業(yè)軟件 高可靠性 功能全,商業(yè)軟件 高易用性 簡明性,自由軟件 免費(fèi) 更新快,簡介,SAS (Software of Analysis System) 是一個大型的系統(tǒng)分析軟件包 它不僅含有功能很強(qiáng)的統(tǒng)計分析軟件,而且,還含有經(jīng)濟(jì),工農(nóng)業(yè),科學(xué)等領(lǐng)域里的一些常用的分析工具。 SAS 的最大特點(diǎn)是功能齊全,技巧靈活,使用方便,應(yīng)用廣泛,特別是數(shù)據(jù)處理方面的強(qiáng)大功能,是其它統(tǒng)計軟件所不能比的。 目前,它越來越廣泛地被應(yīng)用到各個學(xué)科領(lǐng)域,被譽(yù)為國際上的一個標(biāo)準(zhǔn)高級軟件。,3,方 法,掌握一個數(shù)據(jù)分析軟件包的基本使用方法,主要要解決
2、四個方面的問題: 一是了解軟件包的系統(tǒng)結(jié)構(gòu),包括其使用環(huán)境,主要功能,主要特點(diǎn)等; 二是了解軟件包所使用的系統(tǒng)語言和程序結(jié)構(gòu),包括學(xué)會建立軟件包所認(rèn)可的數(shù)據(jù)庫的方法和編輯各種運(yùn)算程序的方法; 三是了解與軟件包有關(guān)的基本操作方法和使用技能,包括啟動系統(tǒng),退出系統(tǒng),存入文件,調(diào)出文件,運(yùn)轉(zhuǎn)程序,查看結(jié)果等; 多練習(xí),多使用,熟能生巧。,4,主要內(nèi)容,了解SAS軟件的主要功能、特點(diǎn)及組成; 掌握SAS顯示管理系統(tǒng)及各主要窗口的功能; 掌握SAS的基本語言特點(diǎn)、程序類型和程序結(jié)構(gòu);,5,SAS軟件的歷史、地位和作用,SAS (Software of Analysis System) 是20世紀(jì)60年代
3、末期,美國北卡羅納州州立大學(xué)的A.J.Barr 和J.H.Goodnight兩位教授為NASA創(chuàng)立的。 現(xiàn)廣泛應(yīng)用于社會科學(xué)、經(jīng)濟(jì)學(xué)、生物學(xué)、金融學(xué)與醫(yī)療衛(wèi)生保健等學(xué)科領(lǐng)域。,6,SAS教學(xué)基本內(nèi)容,軟件包的系統(tǒng)結(jié)構(gòu) 軟件所使用的專用語言和程序結(jié)構(gòu) 了解與軟件包有關(guān)的計算機(jī)的基本操作方法和使用技能,7,SAS 系統(tǒng)的組成,8,系統(tǒng)管理 程序,功能程序 庫,SAS/BASE -,SAS/STAT,SAS/GRAPH,SAS/QC,SAS/OR,SAS/ETS,SAS/IML,SAS/ASSIST,SAS 系統(tǒng),SAS 系統(tǒng)的主要功能,數(shù)據(jù)管理功能 統(tǒng)計分析功能 制表和繪圖功能 文件管理功能,9,
4、數(shù)據(jù)管理功能,SAS 系統(tǒng)可以將任何類型的數(shù)據(jù)以靈活多樣的形式建立起包含大量信息的“SAS 數(shù)據(jù)集”,并可以暫時或永久地儲存起來; 調(diào)用SAS 數(shù)據(jù)集方便迅速,減少很多重復(fù)工作; 編輯,合并,剪裁數(shù)據(jù)十分簡單。 SAS 系統(tǒng)還可以與其它系統(tǒng),如,dBASE,Excel 等數(shù)據(jù)集相互轉(zhuǎn)換,共享功能,從而大大加強(qiáng)了SAS的使用功能。,10,統(tǒng)計分析功能,SAS系統(tǒng)包括了幾乎所有的統(tǒng)計分析方法。 與其它統(tǒng)計軟件包不同的是,這些統(tǒng)計分析方法既是相互獨(dú)立的,又是相互聯(lián)系的 前一過程的輸出結(jié)果可以作為后一過程的輸入信息,中間不需要中斷系統(tǒng)的運(yùn)行,從而減少了很多工作,縮短了計算時間。,11,文件管理功能,S
5、AS 系統(tǒng)提供了很多通用的文件編輯功能 插入 刪除 復(fù)制 移動 連接 合并 ,12,SAS 系統(tǒng)的主要特點(diǎn),具有自己的語言環(huán)境,稱為SAS 語言; 具有多窗口顯示功能,使得分析程序,分析過程和分析結(jié)果等分別在不同的窗口里清晰地展現(xiàn)出來,直觀方便,易于掌握; 具有多用途的功能模塊,使得應(yīng)用非常廣泛; 信息存儲方式簡便靈活,且與其它數(shù)據(jù)庫系統(tǒng)共享數(shù)據(jù)的功能很強(qiáng);,13,SAS的功能模塊,BASE SAS模塊-SAS系統(tǒng)的核心 SAS/STAT統(tǒng)計分析模塊 SAS/INSIGHT交互數(shù)據(jù)分析模塊 SAS/ASSIST 菜單驅(qū)動模塊 SAS/GRAPH繪圖模塊 SAS/ACCESS數(shù)據(jù)接口模塊 SAS
6、/ETS經(jīng)濟(jì)計量學(xué)和時間序列分析模塊 SAS/OR運(yùn)籌學(xué)模塊 SAS/IML交互式矩陣程序設(shè)計語言模塊 SAS/FSP快速數(shù)據(jù)處理的交互式菜單系統(tǒng)模塊 SAS/AF交互式全屏幕軟件應(yīng)用系統(tǒng)模塊,SAS的啟動,使用快捷圖標(biāo) 使用“程序”菜單 使用運(yùn)行對話框,15,SAS顯示管理系統(tǒng),三個主窗口(Editor, Log, Explorer) 標(biāo)題區(qū)(title bar) 視窗大小控制區(qū) 主菜單區(qū)(功能選項欄) 命令行(COMMAND BAR) 工具行(功能圖標(biāo)),16,三個主窗口,17,工具行(功能圖標(biāo),標(biāo)題區(qū)(title bar),視窗大小控制區(qū),主菜單區(qū)(功能選項欄),命令行(COMMAND
7、BAR),SAS顯示系統(tǒng)的主要子窗口,PGM (PROGRAM EDITOR) - 程序編輯窗口 LOG - 運(yùn)行日志窗口 OUTPUT - 結(jié)果輸出窗口 EXPLORER-資源管理器窗口 RESULTS-結(jié)果窗口 ENHANCED EDITOR-增強(qiáng)的編輯窗口 KEYS-鍵窗口 SAS/ASSIST-SAS輔助窗口 SAS System Help 窗口- SAS系統(tǒng)幫助窗口,18,程序編輯窗口PGM (PROGRAM EDITOR),它是SAS顯示管理系統(tǒng)中的三個基本窗口之一。 在此窗口上,用戶可以編輯新程序,修改舊程序或調(diào)出查看各類存檔文件。 在此窗口中保存下來的文件的擴(kuò)展名為*.sas。
8、,19,高級編輯窗口ENHANCED EDITOR,與PGM窗口類似,主要用于編寫SAS程序; 不同的是: 對寫入的程序可以用不同的顏色來顯示不同的部分 對SAS語言的語法進(jìn)行檢查 根據(jù)程序語句的作用進(jìn)行分段,以區(qū)別哪些是固定的關(guān)鍵詞,哪些是用戶任意寫的內(nèi)容,哪些是數(shù)據(jù)步,哪些是過程步,便于發(fā)現(xiàn)和修改程序中的錯誤 還可同時打開多個EDITOR窗口。,20,運(yùn)行記錄窗口LOG,此窗口顯示程序執(zhí)行過程中的情況,包括執(zhí)行了什么語句;建立了什么數(shù)據(jù)集;所建立的數(shù)據(jù)集包含多少變量和觀察值;程序的每一步運(yùn)行的時間;以及程序中存在的錯誤等。 其作用是,當(dāng)PGM窗口里的程序被執(zhí)行后,用戶可以看到所有運(yùn)行過程的
9、有關(guān)信息;檢查該程序的錯誤所在,包括程序中錯誤發(fā)生的位置、類型等,從而幫助用戶及時準(zhǔn)確地發(fā)現(xiàn)和修改程序中的錯誤。 保存記錄文件的擴(kuò)展名為*.log。,21,結(jié)果輸出窗口OUTPUT,此窗口顯示程序運(yùn)行后的所有結(jié)果。 當(dāng)PGM窗口里輸入的程序完全正確時,或LOG窗口里沒有錯誤記載時,此窗口中顯示的全部結(jié)果才有效。 否則,此窗口中不顯示任何結(jié)果或只顯示程序中正確部分的運(yùn)行結(jié)果。 保存的結(jié)果的文本文件擴(kuò)展名為*.lst。,22,資源管理器窗口EXPLORER,它豎立在主窗口的左邊,主要是用戶能夠?yàn)g覽SAS文件,創(chuàng)建非SAS文件的路徑。 用戶可通過此窗口去方便查找各SAS庫及其庫內(nèi)的內(nèi)容。 若內(nèi)容是S
10、AS數(shù)據(jù)集,雙擊所需的SAS數(shù)據(jù)集,就可將它顯示在VIEWTABLE數(shù)據(jù)窗內(nèi),還可對SAS文件實(shí)施拷貝、移動、刪除等文件管理事務(wù)。,23,24,常用命令,在工具欄中,有一個SAS指令命令框,25,常用功能鍵,SAS 程序,SAS程序是SAS語句集,即由若干條SAS語句組成,每條語句以命令開始,以分號結(jié)束。也就是SAS用戶運(yùn)用SAS語言編寫的一段程序。,26,SAS 程序,數(shù)據(jù)步,過程步,以DATA語句開始 的一組語句,以PROC語句 開頭的一系列 SAS語句的集合,SAS程序結(jié)構(gòu)有以下三種情況: 1一個SAS程序僅含有一個數(shù)據(jù)步或者僅有一個過程步。 2含有一個數(shù)據(jù)步和一個過程步。 3含有多個數(shù)
11、據(jù)步和多個過程步。,27,SAS文件的保存和調(diào)出,SAS目錄文件 原始數(shù)據(jù)文本文件 PGM 窗口里輸入的原始數(shù)據(jù), . dat SAS 程序文件 PGM 窗口里的編輯的各種程序; . sas SAS 記錄文件 , LOG 窗口里的過程步運(yùn)行記錄,.log,28,SAS 輸出文件 OUTPUT 窗口里過程步運(yùn)行結(jié)果, . lst SAS 數(shù)據(jù)集文件 PGM 窗口的數(shù)據(jù)步運(yùn)行結(jié)果, .sd2 。,29,前四種文件的保存:點(diǎn)擊 SAS主窗口上File 選項中的“Save as” 打開:點(diǎn)擊File 選項中的“Open”,SAS文件與SAS數(shù)據(jù)庫,SAS文件有三類: SAS數(shù)據(jù)集 SAS目錄文件 格式
12、文件。 SAS目錄文件主要包括顯示管理過程中定義和保存的一些文件。如功能鍵的定義、屏幕編輯過程中的設(shè)置等,SAS文件可在DIR窗口察看。,30,簡單程序示例,Data prg1_1 Input X ; Cards; 60 142 195 80 ; Run; Proc means data=prg1_1; Var X Quit;(或者 RUN;),SAS 語言,SAS語言-專指SAS系統(tǒng)中以英語為母語的計算機(jī)語言。 SAS語句-一句話或一個指令,是由關(guān)鍵字開頭,SAS名,特殊字符或運(yùn)算符組成,并以分號結(jié)尾,每個元素之間至少空一格的字符串。 data ht; input x y; proc pri
13、nt data=ht;,32,程序語法結(jié)構(gòu),每個語句以關(guān)鍵字開始,以;結(jié)束 同一行中可以有多個語句,一個語句也可分為多行 CARDS(或者DATALINES)后的數(shù)據(jù)必須另起一行輸入,數(shù)據(jù)結(jié)束時,必須另起一行,輸入;,如何建立和運(yùn)行SAS程序,在PROGRAM EDITOR窗口鍵入程序 運(yùn)行SAS程序 查看LOG窗口程序運(yùn)行的有關(guān)信息 ,在OUTPUT窗口查看運(yùn)行結(jié)果 ; 存儲程序,34,SAS程序修改,例: 將PROC MEANS改為PROC MEAN SAS程序就會出錯 出錯信息在LOG窗口中 根據(jù)出錯信息在PROGRAM窗口進(jìn)行修改,35,SAS程序的調(diào)用,通過菜單FILE選擇相應(yīng)的*.
14、SAS文件 也可通過指令工具條輸入“include”,36,SAS數(shù)據(jù)庫,SAS系統(tǒng)把存放 SAS文件的每一個磁盤目錄看作一個SAS數(shù)據(jù)庫,需要指出的是,SAS數(shù)據(jù)庫不是一個物理實(shí)體,而僅僅是一個邏輯概念。 系統(tǒng)利用數(shù)據(jù)庫對 SAS文件進(jìn)行管理,每一個SAS文件定義一個數(shù)據(jù)邏輯名來代替該文件的目錄路徑,使數(shù)據(jù)庫邏輯名和目錄路徑聯(lián)系起來,因此,完整的SAS文件名應(yīng)由兩部分組成:,37,數(shù)據(jù)庫邏輯名.SAS文件名 第一級名字.第二級名字 在LIBNAME窗口中可觀察到各數(shù)據(jù)庫邏輯名及其相應(yīng)的目錄路徑。,38,SAS 數(shù)據(jù)集的建立與保存,把原始數(shù)據(jù)轉(zhuǎn)化為SAS 數(shù)據(jù) 從數(shù)據(jù)區(qū)讀入原始數(shù)據(jù) data
15、SAS數(shù)據(jù)集名; input n SAS變量名 輸入格式 行保持符號; cards; 數(shù)據(jù)區(qū) ; run;,39,data 語句-標(biāo)志數(shù)據(jù)步的開始及 命名將要創(chuàng)建的SAS數(shù)據(jù)集 INPUT語句-向系統(tǒng)表明如何讀入每一條記錄 cards語句-用于直接輸入數(shù)據(jù),標(biāo)志著數(shù)據(jù)塊的開始 run 語句-程序結(jié)束語句,表明該數(shù)據(jù)步程序結(jié)束 行保持符號是“”或“”或缺省,40,從外部文本文件讀入原始數(shù)據(jù) data SAS數(shù)據(jù)集名; infile 計算機(jī)目錄原始數(shù)據(jù)文本文件名; input SAS變量名 輸入格式 行保持符號; run; infile 語句,說明原始數(shù)據(jù)是從一個文本文件里讀取。infile d:
16、 qxx qxx1.dat;,41,三種原始數(shù)據(jù)的排列方式,有空格式 每一行排列一個樣本的全部變量的觀察值,數(shù)值之間有空格,缺省數(shù)據(jù)(missing value)用小數(shù)點(diǎn)代表。每個變量的全部樣本觀察值所占的列數(shù)可以相等,也可以不相等 12 f 1.25 19801202 13 m 1.35 19791012 11 m 1.11 19811111 16 f 1.42 19760430 f . 19790101 對應(yīng)的input 語句: input age sex $ height birthday yymmdd8. ;,42,無空格式 每一行排列一個樣本的全部變量的觀察值,數(shù)值之間無空格,缺省數(shù)
17、據(jù)空格,每個變量的全部樣本觀察值(包括缺?。┧嫉牧袛?shù)必須相等。 12 f 1.2519801202 13m1.3519791012 11m1.1119811111 16 f 1.4219760430 13 f 19790101 對應(yīng)的input 語句: input 3 age 2. sex $1. height 4.2 birthday yymmdd8. ; 或input age 3-4 sex $5. height 6-9 birthday yymmdd8.;,43,自由格式 每一行可以排列任意多個觀察值,每個數(shù)值之間有空格,缺省數(shù)據(jù)用小數(shù)點(diǎn)代表。 12 f 1.25 19801202 1
18、3 m 1.35 19791012 11 m 1.11 19811111 16 f 1.42 19760430 13 f . 19790101 對應(yīng)的input 語句: input age sex $ height birthday yymmdd 8. ;,44,雙符和單符號的區(qū)別 雙符號表示讀取完一個input語句中所有變量對應(yīng)的一組觀察值后不換行,連續(xù)讀取所有變量對應(yīng)的另一組觀察值,直到全部數(shù)據(jù)讀完為止。 單符號表示讀取完第一個input語句中所有變量對應(yīng)的觀察值后不換行,接著讀取下一個input語句中所有變量對應(yīng)的觀察值,直到完成一個數(shù)據(jù)步中的所有input語句后再換行讀取下一列的數(shù)據(jù)。
19、 行保持符號缺省表示讀取完一個input語句中所有變量對應(yīng)的觀察值后就換行讀取下一行數(shù)據(jù)。 當(dāng)一個數(shù)據(jù)步僅含有一個input語句時,行保持符號缺省和單符號起的作用相同,45,文本文件test1.dat,,test2.dat 和test3.dat 保存在d: test子目錄中 data d1; infile d:testtest1.dat; input age sex $ height birthday yymmdd8. ;run ; data d2; infile d:testtest2.dat missover; input age 2. sex $1. height 4.2 birthda
20、y yymmdd8. ;run; data d3; infile d:testtest3.dat; input age sex $ height birthday yymmdd8. ; run;,46,三種不同原始數(shù)據(jù)排列方式的特性,有空格式(非格式化輸入法) 查看原始數(shù)據(jù)方便,清晰;讀取數(shù)值方便,不必查看變量所占的列域,只需了解變量的排列順序和類型。 自由式(非格式化輸入法): 當(dāng)變量少,樣本多時,用此法可縮短數(shù)據(jù)區(qū)域;讀取數(shù)值方便,不必查看變量所占的列域,只需了解變量的排列順序和類型。,47,無空格式(格式化輸入法): 讀取數(shù)據(jù)可以按任意順序進(jìn)行;數(shù)值或其中的一部分可以被重復(fù)讀?。蛔址蛿?shù)
21、據(jù)中間可含空格;字符型數(shù)據(jù)寬度可擴(kuò)大到200個字符;空格被解釋為缺省值;可以讀取一個樣本的全部觀察值要占用兩行或兩行以上的數(shù)據(jù)。 01135177100 0136.8090155 0224516074 0237.5110160 第一行的變量是 id,sex,age,height,weight,字符長度分別是2,1,2,3,3;第二行的變量是 id,temp,blood1,blood2,字符長度分別是1,4,3,3 。,48,input #1 id 1-2 sex 3 age 4-5 height 6-8 weight 9-11 #2 id 1-2 temp 3-6 blood1 7-9 blo
22、od2 10-12; input #1 1 (id sex age height weight ) ( 2. 1. 2. 3. 3. ) #2 1 (id temp blood1 blood2 ) ( 2. 4.1 3. 3. );,49,SAS數(shù)據(jù)的保存,臨時數(shù)據(jù)集 數(shù)據(jù)集名(data set name),如,abc1 永久數(shù)據(jù)集 文件名由兩部分組成:數(shù)據(jù)庫邏輯名(libname)+ 數(shù)據(jù)集名(data set name),如,test.abc1。,50,數(shù)據(jù)庫邏輯名的創(chuàng)建,用SAS 語句創(chuàng)建數(shù)據(jù)庫邏輯名 libname 數(shù)據(jù)庫邏輯名 主目錄:子目錄; libname test d:test
23、 ; data test.abc1; input age sex $ height birthday yymmdd8. ; cards; 數(shù)據(jù)區(qū) ; run;,51,在SAS 的Libraries 窗口上創(chuàng)建數(shù)據(jù)庫邏輯名 view explorer libraries new,52,把其它格式數(shù)據(jù)轉(zhuǎn)變成SAS數(shù)據(jù),Excel 數(shù)據(jù),dBASE 數(shù)據(jù),Lotus 數(shù)據(jù)等 啟動SAS系統(tǒng),進(jìn)入SAS 主窗口; File 中選擇Import,進(jìn)入Import Wizard - Select import type 窗口; 在 Import Wizard - Select import type 窗口
24、的文件格式選擇框中選擇“Execl5 or 7 Spreatsheet (*.xls)”,然后點(diǎn)擊“Next”,進(jìn)入 Import Wizard - Select file 窗口; 在Import Wizard - Select file 窗口上點(diǎn)擊“Browse”,進(jìn)入“打開”窗口; 在“打開”窗口的“搜尋”框中選擇文件abc.xls 所在的目錄 D: 和D: 中的文件包test,然后在test 文件包中選擇文件abc.xls,當(dāng)abc.xls 出現(xiàn)在“文件名”框中時,點(diǎn)擊“打開”,返回到Import Wizard - Select file 窗口; 在Import Wizard - Sel
25、ect file 窗口上點(diǎn)擊“Next”,進(jìn)入Import Wizard - Select library and member 窗口; 在library選擇框中選擇SAS數(shù)據(jù)的libname:test,然后在member 選擇框中輸入SAS數(shù)據(jù)的第一級名字:abc, 然后點(diǎn)擊“Finish”。,53,把其它格式數(shù)據(jù)轉(zhuǎn)變成SAS數(shù)據(jù),SAS程序方式 文本文件轉(zhuǎn)換成SAS數(shù)據(jù)集 Data prg2_8; infile c:SASsyz.txt; input no sex$ age ; run; 將*.XLS轉(zhuǎn)換成SAS數(shù)據(jù)集 PROC IMPORT DATAFILE = “C:SASSYZ.XL
26、S” OUT = WORK.PRG2_10 DBMS = EXCEL REPLACE; SHEET = “SHEET1$”; RUN;,54,SAS數(shù)據(jù)集的整理,使用SAS中TOOL菜單下的TABLE EDITOR,55,把SAS數(shù)據(jù)轉(zhuǎn)變成其它格式數(shù)據(jù),Excel 數(shù)據(jù),dBASE 數(shù)據(jù),Lotus 數(shù)據(jù)等 啟動SAS系統(tǒng),進(jìn)入SAS 主窗口; File 中選擇Export,進(jìn)入Export Wizard - Select library and member窗口; Select export type窗口 Select file窗口,56,卡方檢驗(yàn),SAS應(yīng)用,學(xué)習(xí)目標(biāo),掌握四格表普通卡方檢
27、驗(yàn)和配對卡方檢驗(yàn)方法以及相應(yīng)的SAS程序; 了解FREQ過程語句格式; 熟悉RC表資料的分類類型以及相應(yīng)的統(tǒng)計檢驗(yàn)方法; 掌握雙向無序RC表資料檢驗(yàn)以及SAS程序; 掌握單向有序RC表資料檢驗(yàn)以及SAS程序; 掌握趨勢卡方檢驗(yàn)方法以及SAS程序; 掌握分層RC表的分析以及SAS程序;,概述,前面已介紹了兩個率比較的檢驗(yàn),在觀察例數(shù)不夠大或擬對多個率進(jìn)行比較時,檢驗(yàn)就不適宜了,因?yàn)橹苯訉Χ鄠€樣本率作兩兩間的檢驗(yàn)有可能增加第一類誤差。2檢驗(yàn)可解決此類問題。 卡方檢驗(yàn)是用途很廣的一種假設(shè)檢驗(yàn)方法,這里我們主要學(xué)習(xí)它在分類資料統(tǒng)計推斷中的應(yīng)用,包括:兩個率或兩個構(gòu)成比比較的卡方檢驗(yàn);多個率或多個構(gòu)成比
28、比較的卡方檢驗(yàn)以及分類資料的相關(guān)分析等。,四格表資料,定性指標(biāo)分為有序的(如:療效分為“治愈、顯效、好轉(zhuǎn)、無效、死亡”)和名義的(如:血型分為“O、A、B、AB”型)類,對于每個受試者來說,有序指標(biāo)的觀測結(jié)果只能是該有序指標(biāo)若干等級中的級(如某人的療效為“顯效”);名義指標(biāo)的觀測結(jié)果只能是該名義指標(biāo)若干標(biāo)志中的個(如某人的血型為型),顯然,無法像處理定量指標(biāo)那樣去直接分析定性指標(biāo),故這類資料常被整理成列聯(lián)表的形式后再進(jìn)行分析。 當(dāng)表中只有個定性指標(biāo)時,稱為維列聯(lián)表;有個或個以上定性指標(biāo)時,稱為多維列聯(lián)表。常用R、C表示維列聯(lián)表的行數(shù)和列數(shù),并稱為RC表;當(dāng)R=C=時,稱為表(或四格表)。表看起
29、來很簡單,但根據(jù)資料所具備的條件有許多不同的處理方法。,四格表卡方檢驗(yàn)的SAS程序,在SAS/STAT模塊中FREQ、TABULATE和SUMMARY等過程可用于分類資料的統(tǒng)計描述,其中FREQ過程兼具統(tǒng)計描述和統(tǒng)計推斷的功能,對分類變量計算頻數(shù)分布,產(chǎn)生從一維到n維的頻數(shù)表和列聯(lián)表;對于二維表,可進(jìn)行2檢驗(yàn),對于三維表,可作Mentel-Hanszel分層分析。FREQ過程是SAS用于分析分類資料的一個常用過程。本節(jié)將先向大家介紹FREQ過程的語句及其格式。 FREQ過程的語句基本格式如下: Proc freq data= order= ; Table 分類變量*分類變量/ ; Weight
30、 變量; Run;,四格表卡方檢驗(yàn)的SAS程序,DATA數(shù)據(jù)集:規(guī)定PROC FREQ語句使用的數(shù)據(jù)集; ORDERFREQ,按頻數(shù)遞減順序排列;ORDERDATA,按數(shù)據(jù)集中出現(xiàn)的順序排列;ORDERINTERNAL,按內(nèi)部值排列(缺省);ORDERFORMATTED,按外部格式值排列; Table語句指定構(gòu)成表格的變量和表格結(jié)構(gòu)。表格的結(jié)構(gòu)由變量個數(shù)和變量排列順序決定,一個table語句允許列出多個表格結(jié)構(gòu)。PROC FREQ過程中可有多條TABLES語句,TABLES語句后可接多個表格請求式,每個請求式可包含任何數(shù)量的變量,從而得到所需的表格。,四格表卡方檢驗(yàn)的SAS程序,如果TABLE
31、S語句缺省,則FREQ過程對數(shù)據(jù)集中的所有變量都給出相應(yīng)的一維頻數(shù)表。不規(guī)定任何選項時,若需某變量的一維頻數(shù),F(xiàn)REQ給出該變量每一水平的頻數(shù)、累積頻數(shù)、頻數(shù)的百分比和累積百分比;若需二維頻數(shù)表,F(xiàn)REQ產(chǎn)生交叉分組列表,即包括各格的頻數(shù)、總頻數(shù)的格百分?jǐn)?shù)、行頻數(shù)的格百分?jǐn)?shù)和列頻數(shù)的格百分?jǐn)?shù)。 請求式由一個或多個用“*”連接起來的變量名組成。幾個變量可放在括號中,如: TABLES A*(B C);等價于TABLES A*B A*C; TABLES (A-C)*D;等價于TABLES A*D B*D C*D;,四格表卡方檢驗(yàn)的SAS程序,下列選項可用于TABLES語句中“/”的后面: OUT數(shù)
32、據(jù)集:建立一個包含變量值和頻數(shù)計數(shù)的輸出數(shù)據(jù)集。如果TABLES語句中不止一個請求式,數(shù)據(jù)集的內(nèi)容相應(yīng)于TABLES語句中最后一個請求。 CHISQ對每層作c2檢驗(yàn),包括Pearson c2、似然比c2和Mantel-Haenszel c2。此外還給出與c2檢驗(yàn)有關(guān)的關(guān)聯(lián)指標(biāo)包括Phi系數(shù)、列聯(lián)系數(shù)和Cramers V。對于22表,給出Fisher精確概率。 AGREE 進(jìn)行配對c 2檢驗(yàn)。 EXACT 對大于22的列聯(lián)表計算Fisher精確概率。同時也給出CHISQ選項的全部統(tǒng)計量。,四格表卡方檢驗(yàn)的SAS程序,MEASURES對每層的二維表計算一系列關(guān)聯(lián)指標(biāo)及相應(yīng)的標(biāo)準(zhǔn)誤,包括Pearso
33、n和Spearman相關(guān)系數(shù),以及Gamma和Kendall系數(shù)等。對于22表,還給出常用的危險度指標(biāo)及其標(biāo)準(zhǔn)誤。 CMH 給出Cochran-Mantel-Haenszel統(tǒng)計量,可檢驗(yàn)在調(diào)整了TABLES語句中其它變量后,行變量與列變量之間的關(guān)聯(lián)程度。對于22表,F(xiàn)REQ過程給出相對危險度估計及其可信區(qū)間,還給出各層關(guān)聯(lián)度指標(biāo)是否齊性的Breslow檢驗(yàn)。 ALL 給出CHISQ、MEASURES、CMH所請求的全部統(tǒng)計量。 ALPHAp給出檢驗(yàn)水準(zhǔn)。缺省為0.05。,四格表卡方檢驗(yàn)的SAS程序,EXPECTED給出期望頻數(shù)。 DEVIATION給出每格的實(shí)際頻數(shù)與期望頻數(shù)的差值。 CEL
34、LCHISQ給出每格對總c2的貢獻(xiàn),即計算每格的(實(shí)際頻數(shù)-期望頻數(shù))2/期望頻數(shù)。 CUMCOL給出累積列百分?jǐn)?shù)。 NOFREQ不給出列聯(lián)表中的格頻數(shù)。 NOPERCENT不給出列聯(lián)表中的格百分?jǐn)?shù)。,四格表卡方檢驗(yàn)的SAS程序,NOROW不給出列聯(lián)表中各格的行百分?jǐn)?shù)。 NOCOL不給出列聯(lián)表中各格的列百分?jǐn)?shù)。 NOCUM不給出頻數(shù)表的累積頻數(shù)和累積百分?jǐn)?shù)。 NOPRINT不給出表格,但給出CHISQ、MEASURES或CMH等語句所指定的統(tǒng)計量。 Trend指令系統(tǒng)對2C頻數(shù)表的C個百分率進(jìn)行Cochran-Armitage趨勢檢驗(yàn); WEIGHT語句:通常每個觀察值提供數(shù)值1給頻數(shù)計數(shù),當(dāng)
35、WEIGHT語句出現(xiàn)時,每個觀察值提供的是該觀察值的加權(quán)變量值。該值必須非負(fù),但可不必為整數(shù)。只能使用一個WEIGHT語句,且該語句作用于所有的表。,四格表卡方檢驗(yàn),理論頻數(shù),記為T。理論數(shù)的計算公式為:,四格表卡方檢驗(yàn),卡方檢驗(yàn)的統(tǒng)計量是2值,它是每個格子實(shí)際頻數(shù)A與理論頻數(shù)T差值平方與理論頻數(shù)之比的累計和。每個格子中的理論頻數(shù)T是在假定兩組的發(fā)病率相等的情況下計算出來的,故2值越大,說明實(shí)際頻數(shù)與理論頻數(shù)的差別越明顯,兩組發(fā)病率不同的可能性越大。,例題,某醫(yī)院欲比較異梨醇口服液(試驗(yàn)組)和氫氯噻嗪+地塞米松(對照組)降低顱內(nèi)壓的療效。將200例顱內(nèi)壓增高癥患者隨機(jī)分為兩組。問兩組降低顱內(nèi)壓
36、的總體有效率有無差別?,連續(xù)性校正公式,2分布是正態(tài)變量的一種分布。設(shè) 是k個獨(dú)立的標(biāo)準(zhǔn)正態(tài)變量,則 。2界值表就是根據(jù)這種連續(xù)性分布計算出來的。2統(tǒng)計量計算公式實(shí)質(zhì)上是正態(tài)近似法。分類資料是間斷性的,由此計算的2值不連續(xù),尤其自由度為1的四格表,求出的概率可能偏小,此時需要對2值進(jìn)行連續(xù)性校正,公式為,2檢驗(yàn)的應(yīng)用條件,連續(xù)性校正主要針對四格表資料,尤其理論數(shù)較小時,連續(xù)性校正不可忽略。 四格表2檢驗(yàn)的應(yīng)用條件為: 當(dāng)n40且所有T5時,用普通的2檢驗(yàn),若所得,改用確切概率法; 當(dāng)n40但有1T5時,用校正的2檢驗(yàn); 當(dāng)n40或有T1時,不能用2檢驗(yàn),改用確切概率法。,例題,某醫(yī)師欲比較胞磷
37、膽堿與神經(jīng)節(jié)苷酯治療腦血管疾病的療效,將78例腦血管疾病患者隨機(jī)分為兩組。問兩種藥物治療腦血管疾病的有效率是否有差別?,配對計數(shù)資料的卡方檢驗(yàn),把每一份樣本平均分成兩份,分別用兩種方法進(jìn)行化驗(yàn),比較此兩種化驗(yàn)方法的結(jié)果(兩類計數(shù)資料)是否有本質(zhì)的不同;或者分別采用甲、乙兩種方法對同一批病人進(jìn)行檢查,比較此兩種檢查方法的結(jié)果(兩類計數(shù)資料)是否有本質(zhì)的不同,此時要用配對卡方檢驗(yàn)。,配對計數(shù)資料的卡方檢驗(yàn),比較兩法結(jié)果有無差別,要著眼于兩法結(jié)果不一致的部分。表中觀察變量是對子中兩法的差值或差別,由b和c兩格數(shù)據(jù)來反映,總體中與b和c對應(yīng)的數(shù)據(jù)可用B和C表示(a格和d格表示兩法差值為0,不予考慮)。
38、 當(dāng)40時, 當(dāng)40時,需作連續(xù)性校正:,例題,某實(shí)驗(yàn)室分別用乳膠凝集法和免疫熒光法對58名可疑系統(tǒng)紅斑狼瘡患者血清中抗核抗體進(jìn)行測定。問兩種方法的檢測結(jié)果有無差別?,行列表資料的2檢驗(yàn),前面介紹了兩個樣本率比較的2檢驗(yàn)方法,其基本數(shù)據(jù)有2行2列,稱為22表或四格表資料。本節(jié)介紹的行列表資料的2檢驗(yàn),用于多個樣本率的比較、兩個或多個構(gòu)成比的比較以及雙向有序或無序分類資料的檢驗(yàn)等。 RC表可以分為雙向無序、單向有序、雙向有序?qū)傩韵嗤碗p向有序?qū)傩圆煌?類。,雙向無序RC表,RC表中兩個分類變量皆為無序分類變量,對于該類資料:若研究目的為多個樣本率(或構(gòu)成比)的比較,可用行列表資料的2檢驗(yàn);若研究
39、目的為分析兩個分類變量之間有無關(guān)聯(lián)性以及關(guān)系的密切程度時,可以用行列表資料的2檢驗(yàn)以及Pearson列聯(lián)系數(shù)進(jìn)行分析。,例題1,某醫(yī)師研究物理療法、藥物治療和外用膏藥三種療法治療周圍性面神經(jīng)麻痹的療效。問三種療法的有效率有無差別?,例題2,測得某地5801人的ABO血型和MN血型結(jié)果,問兩種血型系統(tǒng)之間是否有關(guān)聯(lián)?,單向有序RC表,有兩種形式。一種是RC表中的分組變量是有序的,而指標(biāo)變量是無序的。此種單向有序RC表資料可用行列表資料的2檢驗(yàn)進(jìn)行分析。另一種情況是RC表中的分組變量是無序的,而指標(biāo)變量是有序的,此種單向有序RC表資料宜用秩和檢驗(yàn)進(jìn)行分析。,例題,某地城市與農(nóng)村高血壓患者嚴(yán)重程度情
40、況,試比較該地城市和農(nóng)村高血壓患者高血壓嚴(yán)重程度是否有差別?,雙向有序RC表,雙向有序?qū)傩韵嗤腞C表 RC表中的兩分類變量皆為有序且屬性相同。實(shí)際上是22配對設(shè)計的擴(kuò)展,此時宜用一致性檢驗(yàn)(或稱Kappa檢驗(yàn))。 雙向有序?qū)傩圆煌腞C表 RC表中的兩分類變量皆為有序且屬性不相同。對于該類資料,需要分析兩有序分類變量間是否存在線性變化趨勢,宜用有序分組資料的線性趨勢檢驗(yàn)。,行列均為順序變量的相關(guān)檢驗(yàn),變量雖然是有序的,但畢竟還不是定量的,需要給有序變量的各等級賦值方可進(jìn)行相關(guān)分析。最簡單的賦值法是按順序賦給秩次(即得分),即給行變量的等級賦值1,2,R和給列變量的等級賦值1,2,C。這樣(X
41、,Y)的不同取值就有RC對,表中的RC個頻數(shù)就是這RC對取值所對應(yīng)的頻數(shù),然后計算Spearman秩相關(guān)系數(shù),并作顯著性檢驗(yàn),這是比較粗糙的分析方法。,行列均為順序變量的相關(guān)檢驗(yàn),Spearman秩相關(guān)分析比較粗糙,這是因?yàn)樗o有序變量的等級賦值過于簡單,不能最大限度地獲得有序變量之間的相關(guān)信息。而典型相關(guān)分析是在使有序變量的相關(guān)達(dá)到極大的前提下給有序變量的各等級賦值,就是對于表的邊緣(指“行合計”與“列合計”)設(shè)法產(chǎn)生一雙變量正態(tài),從而進(jìn)行相關(guān)分析。因產(chǎn)生各等級的得分值的計算過程中涉及矩陣運(yùn)算,故手工計算較麻煩,將用SAS程序?qū)崿F(xiàn)統(tǒng)計計算。一旦有了各等級的得分值后,就可運(yùn)用求維頻數(shù)資料相關(guān)系
42、數(shù)的公式計算了。典型相關(guān)分析可以得出幾個典型相關(guān)系數(shù)R, 與每一個典型相關(guān)系數(shù)對應(yīng)的檢驗(yàn)為卡方檢驗(yàn),其數(shù)值為nR2,其中n為RC表中的總頻數(shù),與第k個卡方值對應(yīng)的自由度dfk=R+C-2k-1。,行列均為順序變量的相關(guān)檢驗(yàn),與定量資料的相關(guān)與回歸分析類似,也可對RC表資料中有序變量之間是否存在線性趨勢作顯著性檢驗(yàn),通常這兩種檢驗(yàn)的結(jié)果是基本一致的,即相關(guān)分析結(jié)果顯著,線性趨勢檢驗(yàn)結(jié)果也顯著??梢酝ㄟ^檢驗(yàn)實(shí)現(xiàn)線性趨勢檢驗(yàn),即利用回歸分析思想產(chǎn)生的與線性回歸有關(guān)的卡分量和偏離線性回歸的卡分量。,行列均為順序變量的相關(guān)檢驗(yàn),首先計算RC表的值,然后將總的值分解成線性回歸分量與偏離線性回歸分量。若兩分
43、量均具有統(tǒng)計學(xué)意義,說明兩分類變量存在相關(guān)關(guān)系,但關(guān)系不是簡單的直線關(guān)系;若線性回歸分量有統(tǒng)計學(xué)意義,偏離線性回歸分量無統(tǒng)計學(xué)意義時,說明兩分類變量不僅存在相關(guān)關(guān)系,而且是線性關(guān)系。,行列均為順序變量的相關(guān)檢驗(yàn),計算 總的值 計算線性回歸分量 回歸 b為回歸系數(shù) 計算偏線性回歸分量 將總的 值分解成線性回歸分量和偏離線性回歸分量。若兩分量均有統(tǒng)計學(xué)意義,說明兩分類變量存在相關(guān)關(guān)系,但關(guān)系不是簡單的直線關(guān)系;若線性回歸分量有統(tǒng)計學(xué)意義,偏離線性回歸分量無統(tǒng)計學(xué)意義時,說明兩變量不僅存在相關(guān)關(guān)系,而且是線性關(guān)系。,例題,某研究者欲研究年齡與冠狀動脈粥樣硬化等級之間的關(guān)系,將278例尸解資料整理成行
44、乘列表,問年齡與冠狀動脈粥樣硬化等級之間是否存在線性變化趨勢?,分層資料的分析,按一個或多個因素分層后,研究行變量與列變量間的聯(lián)系。 通過控制分層變量的影響,檢驗(yàn)研究行變量與列變量的關(guān)系。,例題,某研究者欲研究男女性使用別嘌 呤是否引發(fā)皮疹。,本章小節(jié),2檢驗(yàn)是用途很廣的一種假設(shè)檢驗(yàn)方法,這里我們主要學(xué)習(xí)它在分類資料統(tǒng)計推斷中的應(yīng)用,包括:兩個率或兩個構(gòu)成比比較的卡方檢驗(yàn);多個率或多個構(gòu)成比比較的卡方檢驗(yàn)以及分類資料的相關(guān)分析等。 本章第一節(jié)介紹了四格表的普通2檢驗(yàn)方法,理論頻數(shù)與實(shí)際頻數(shù)的定義,2檢驗(yàn)統(tǒng)計量的計算方法,2分布以及2界值表確定P值的方法。說明了四格表2檢驗(yàn)的應(yīng)用條件,以及連續(xù)性
45、校正公式和四格表專用公式。通過SAS分析實(shí)例演示了四格表2檢驗(yàn)過程以及結(jié)果解釋。我們需要重點(diǎn)理解2檢驗(yàn)的含義以及應(yīng)用。掌握2檢驗(yàn)的應(yīng)用條件以及連續(xù)性校正公式等。,本章小節(jié),RC表可以分為雙向無序、單向有序、雙向有序?qū)傩韵嗤碗p向有序?qū)傩圆煌?類。雙向無序RC表,RC表中兩個分類變量皆為無序分類變量。若研究目的為多個樣本率(或構(gòu)成比)的比較,可用行列表資料的2檢驗(yàn);若研究目的為分析兩個分類變量之間有無關(guān)聯(lián)性以及關(guān)系的密切程度時,可以用行列表資料的2檢驗(yàn)以及Pearson列聯(lián)系數(shù)進(jìn)行分析。單向有序RC表有兩種形式:一種是RC表中的分組變量是有序的,而指標(biāo)變量是無序的,此種單向有序RC表資料可用行列
46、表資料的2檢驗(yàn)進(jìn)行分析;另一種情況是RC表中的分組變量是無序的,而指標(biāo)變量是有序的,此種單向有序RC表資料宜用秩和檢驗(yàn)進(jìn)行分析。,本章小節(jié),雙向有序?qū)傩韵嗤腞C表,RC表中的兩分類變量皆為有序且屬性相同,實(shí)際上是22配對設(shè)計的擴(kuò)展,此時宜用一致性檢驗(yàn)(或稱Kappa檢驗(yàn));雙向有序?qū)傩圆煌腞C表,RC表中的兩分類變量皆為有序且屬性不相同,對于該類資料,需要分析兩有序分類變量間是否存在線性變化趨勢,宜用有序分組資料的線性趨勢檢驗(yàn)。 本章針對不同類型的RC表資料分別予以介紹,并通過實(shí)例進(jìn)行數(shù)據(jù)分析,并通過SAS程序完成統(tǒng)計分析過程,大家在練習(xí)不同類型數(shù)據(jù)的分析方法時,掌握常用數(shù)據(jù)分析的SAS程序,并能夠靈活運(yùn)用。,生存分析,SAS應(yīng)用,蔣紅衛(wèi) Em
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 期中考試后家長會方案
- 畢業(yè)典禮綜合實(shí)踐活動方案
- 醫(yī)院控?zé)煿ぷ鲗?shí)施方案模板
- 質(zhì)量年度工作方案目標(biāo)模板
- 戰(zhàn)略性新興產(chǎn)業(yè)集群集聚發(fā)展工程方案
- 中班說課課件
- 學(xué)校消防日活動方案
- 學(xué)校語文高班級工作方案
- 中班教案健康菜譜課件
- 2025年中西醫(yī)結(jié)合助理醫(yī)師十二經(jīng)脈的名稱針灸學(xué)試題(附答案)
- 小米智能家居解決方案
- 心腦血管預(yù)防科普課件
- 2024年中國自動焊線機(jī)市場分析報告
- 人工智能講座
- 建設(shè)工程造價咨詢成果文件質(zhì)量標(biāo)準(zhǔn)(word)
- 中建八局分包入場安全指導(dǎo)手冊v2.0
- 施工方案總體思路
- RH精煉工藝培訓(xùn)教材
- 甲醛的生產(chǎn)-生產(chǎn)工藝流程的組織
- 安全生產(chǎn)內(nèi)業(yè)管理
- GB/T 42567.3-2023工業(yè)過程測量變送器試驗(yàn)的參比條件和程序第3部分:溫度變送器的特定程序
評論
0/150
提交評論