FREQ過程生成一維至n維的頻數(shù)表和交叉表_第1頁
FREQ過程生成一維至n維的頻數(shù)表和交叉表_第2頁
FREQ過程生成一維至n維的頻數(shù)表和交叉表_第3頁
FREQ過程生成一維至n維的頻數(shù)表和交叉表_第4頁
FREQ過程生成一維至n維的頻數(shù)表和交叉表_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

18.2FREQ過程8.2.1概述

FREQ過程生成一維至n維的頻數(shù)表和交叉表,并能將結(jié)果輸出至數(shù)據(jù)集中。例:SCORE為含學生成績的數(shù)據(jù)集,用VFMT.格式把學生的平均成績分成A、B、C三等,由FREQ過程產(chǎn)生每一分數(shù)段的學生人數(shù)和占總數(shù)的百分數(shù)等信息。2PROCFORMAT;VALUEVFMTLOW-<80='C'80-<90='B'90-HIGH='A‘;DATAB;SETSASUSER.SCORE;V=MEAN(OFT1-T3);PROCFREQDATA=B;FORMATVVFMT.;TABLESV;3CumulativeCumulativeVFrequencyPercentFrequencyPercentC533.3533.3B746.71280.0A320.015100.048.2.2語句說明

PROCFREQ過程使用如下語句:

PROCFREQ[選擇項列表];

TABLES請求式…[/選擇項];

WEIGHT變量;

BY變量;

OUTPUT[選擇項];5PROCFREQ[選擇項列表];DATA=SAS數(shù)據(jù)集;ORDER=FREQ|DATA|INTERNAL|FORMATTEDFORMCHAR(1,2,7)=字符串規(guī)定用來構(gòu)造列聯(lián)表單元的輪廓線和分割線的字符。(1)垂直線(2)水平線(3)水平線與垂直交叉線。缺省,F(xiàn)ORMCHAR(1,2,7)=‘|-+’PAGE每頁輸出一張表6TABELS請求式</選擇項>

(1)請求式(request-list):

請求式由一個或多個由“*”號聯(lián)連起來的變量組成。一維表由一個變量名產(chǎn)生;二維表由“*”隔開兩個變量組成;任何數(shù)量的變量能被“*”連起來得到多維的表格。一個FREQ過程可有多個TABLES語句,每個TABLES語句也可以有多個請求式。7一維頻數(shù)表:只需在TABLES語句中簡單地命名這一變量。例:TABELSX;二維頻數(shù)表:在TABELS語句中用星號“*”連接兩個變量。第一個變量的值形成表的行,而第二個變量的值形成表的列。

例:TABLESA*B;n維列聯(lián)表:在TABELS語句中用“*”聯(lián)接給定的三個或n個變量名。最后一個變量的值形成表的列,倒數(shù)第二個變量的值形成表的行,其它變量的每一級水平(或水平組合)形成了一層,且每層都形成了分立的列聯(lián)表。8(2)選擇項在TABLES語句的斜杠(/)后面可使用的選擇項有許多種,現(xiàn)將常用的幾種選擇項介紹如下:

1)一般選擇項:

MISSING:象分析非缺項值那樣分析缺項值,且在百分數(shù)計算和其他統(tǒng)計計算時包括缺項值。②LIST:不是用列聯(lián)表而是用列表格式打印二維或多維表格。但當需要統(tǒng)計檢驗和聯(lián)合測量時,不能使用LIST選擇項。92)請求統(tǒng)計分析的選擇項

①CHISQ:請求卡方(χ2)檢驗和基于卡方的有關測量。檢驗包括Pearson卡方、似然比卡方和曼特爾-享塞爾(Mantel-Haenszel)卡方。測量值包括斐(phi)系數(shù),列聯(lián)系數(shù)和克萊姆系數(shù)V(Cramer‘v)。對于2*2表也包括費雪爾(Fisher)精確檢驗。②EXACT:要求對大于2*2的表進行Fisher精確檢驗。10

3)請求增加表格信息及選擇項①

EXPECTED:請求打印在獨立(或齊性)假設下的期望格頻數(shù)。②

DEVIATION:請求打印出各格的格頻數(shù)和期望值的偏差。③

CELLCHI2:請求打印出每一格對總χ2(卡方)統(tǒng)計的貢獻。

……11

4)禁止打印選擇項①

NOFREQ:禁止打印列聯(lián)表中的格頻數(shù)。②

NOPERCENT:禁止打印列聯(lián)表中的百分數(shù)。

……128.2.4舉例DATAA;INPUTAB@@;CARDS;1221.2..1121PROCFREQ;TABLES

A*B;TITLE'2-WAYCONTINGENCYTABLE';PROCFREQORDER=DATA;TABLESA*B/LIST;TITLE'2-WAYFREQUENCYTABLE,ORDER=DATA';1314158.2.5卡方檢驗

卡方檢驗為一種用途較廣的顯著性檢驗方法,常用于檢驗兩個或兩個以上樣本率或構(gòu)成比之間差別的顯著性。對于不同屬性的變量,從列聯(lián)表中可以得到它們聯(lián)合分布的信息,也可以獲得一個變量取不同數(shù)值時,另一個變量的分布是否有顯著的不同。16為了檢驗:

H0:行列變量無關聯(lián);H1:行列變量有關聯(lián)統(tǒng)計上使用χ2

統(tǒng)計量。

χ2=((A-T)2/T),其中A為實際觀測到的頻數(shù),T為理論頻數(shù)或期望頻數(shù)。在H0成為時A與T值應該比較接近,大的χ2值是極端情況。17FREQ過程進行卡方檢驗的步驟:

1)假設樣本率或構(gòu)成比之間無差別。即:H0:行列變量間無關聯(lián)

H1:行列變量間有關聯(lián)

2)在TABLES語句中指定CHISQ選擇項。

3)根據(jù)給出的結(jié)果,進行分析得出結(jié)論。18舉例:

在二乙基亞硝氨誘發(fā)大白鼠鼻咽癌的實驗中,一組單純用亞硝氨向鼻腔內(nèi)滴注。另一組在鼻注的基礎上加肌注維生素B12,問兩組發(fā)癌率的差別有無顯著性。實驗結(jié)果如下表。發(fā)癌數(shù)未發(fā)癌數(shù)鼻注組鼻注加肌注組523919319DATAABC;DOA=1TO2;DOB=1TO2;INPUTF@@;OUTPUT;END;END;CARDS;5219393PROCFREQ;WEIGHTF;TABLESA*B/CHISQEXPECTEDNOPERCENTNOCOL;RUN;20TABLEOFABYBABFrequency|Expected|RowPct|1|2|Total

1|52|19|71|57.177|13.823||73.24|26.76|

2|39|3|42|33.823|8.177||92.86|7.14|

Total912211321STATISTICSFORTABLEOFABYBStatisticFValueProb

Chi-Square16.4780.011

LikelihoodRatio17.3100.007Chi-SquareContinuityAdj.15.2870.021Chi-SquareMantel-Haenszel16.4200.011Chi-SquareFisher'sExactTest(Left)8.26E-03(Right)0.999(2-Tail)0.01322PhiCoefficient-0.239ContingencyCoefficient0.233Cramer'sV-0.239SampleSize=11323

上半部分是對資料的簡單描述(略),下半部是統(tǒng)計檢驗的結(jié)果:

1)

未校正的卡方=6.478,DF=1,P≤0.011

2)

似然比卡方=7.310,DF=1,P≤0.007

3)

連續(xù)性校正卡方=5.287,DF=1,P≤0.0214)Mantel-Haenszel卡方=6.420,DF=1,P≤0.0115)Fisher精確檢驗的結(jié)果:左側(cè)概率P=8.26E-03,右側(cè)概率P=0.999,雙側(cè)概率P=1.32E-02。Mantel-Haenszel卡方:對于有序變量,檢驗是否隨一外變量取值的增加,另一變量的取值是否有變大或變小的趨勢。24Fisher精確檢驗:當樣本容量不太大時用公式:χ2=((A-T)2/T)檢驗并不太合適;當df=1,T<5時,用公式χ2=((|A-T|-0.5)2/T)校正;當T<5,特別是當總觀察數(shù)<40時,可使用Fisher提出的χ2統(tǒng)計量的精確分布來計算p值。這一做法是基于概率中的多項分布來計算觀測到情況發(fā)生的可能性。為了得到p值,還必須計算其它各種可能情況發(fā)生的概率。所以當容量稍大時,或列聯(lián)表的行數(shù)或列數(shù)稍大時,計算量會變得無法承受。FREQ過程,對于大于2×2的表,若請求Fisher精確檢驗需在指定CHISQ選擇項后,再指定EXACT選擇項。25關聯(lián)性的度量:χ2

統(tǒng)計量只提供了有無關聯(lián)性的證據(jù),它的大小并不直接就是關聯(lián)性的度量。SAS軟件中提供了由χ2

統(tǒng)計量出發(fā)的多個衡量R×C列聯(lián)表中行列變量關聯(lián)性的度量。即:PhiCoefficient、ContingencyCoefficient、Cramer‘sV。除2×2列聯(lián)表的PhiCoefficient的值位于-1~1之間外,其它關聯(lián)性度量值都在0~1之間,關聯(lián)性度量值的絕對值越大,關聯(lián)性越強。絕對值接近于0的關聯(lián)性較弱。26結(jié)論:

本例兩組發(fā)癌率有顯著性差異(因為:雙側(cè)概率P≤0.0132,不支持原假設)。一個表格用這五種方法算出的結(jié)果不完全一致,一般地講,最好以Fisher檢驗的結(jié)果為準。27

注:程序中A、B分別表示行、列變量,如原始數(shù)據(jù)不是4格表資料,而是R×C表資料,則兩個DO語句要改寫成:

DOA=1TOR;DOB=1TOC;F表示各格子內(nèi)的具體數(shù)值。288.4PLOT過程

PLOT過程可用于描繪散點分布圖,以直觀地顯示數(shù)據(jù)的變化趨勢及數(shù)據(jù)間的相關關系等。29DATAD3;DOX=0TO360BY20;Y=SIN(X*3.14159/180);OUTPUT;END;PROCPLOT;PLOTY*X;RUN;30

PlotofY*X.Legend:A=1obs,B=2obs,etc.1+AA|AA|AAY||AA|0+AAA||AA||AA|AA-1+AA+++++--0100200300400X31

通過PLOT過程提供的其它語句和選擇項可對散點圖作出如下更加具體的要求:

l

可以根據(jù)用戶的要求選擇散布圖的作圖符號;

l

可以用變量值加標簽。

l

可以選擇坐標的刻度、間隔及標記;

l可以選擇圖的大小;可在一頁紙上畫兩個以上圖。

l

兩個散布圖可以重疊在一張圖上。

l可繪制等值線圖(或稱輪廓圖,層次圖等)。

l可對圖沿水平方向或垂直方向進行擴展.328.4.2語句說明

在PLOT過程中可使用下列語句:

PROCPLOT[選擇項];BY變量表;PLOT繪圖表達式/選擇項;BY語句是可選語句.33應用舉例例8.4.3

某一地區(qū)有12個采樣點,測得某類廢水中COD和BOD的濃度如程序中數(shù)據(jù)所示。編程繪制其關系圖。程序如下:DATADD;INPUTCODBOD@@;CARDS;1112.3154.51560.2210.3899.5133.6800.4110.21443.2180.81555.5201.4700.4103.5456.390.71433.2177.71421.5171.01600.3221.5560.880.9PROCPLOT;PLOTCOD*BOD;RUN;342000+|||A1500+AAA|AACOD||A1000+|A|AA|500+AA+++++++++--80100120140160180200220240358.5CHART過程CHART過程利用圖表的方式形象地描述變量的取值及兩個以上變量之間的關系。CHART過程把給定數(shù)據(jù)集中的變量,用條形圖(又稱直方圖,包括垂直、水平直方圖及立體直方圖)、餅形圖和星形圖等方式形象地描繪出來,使用戶能夠直觀地了解這些變量的特性。368.5.2語句說明PROCCHART[選擇項];BY變量表;VBAR變量表[/選擇項];HBAR變量表[/選擇項];BLOCK變量表[/選擇項];PIE變量表[/選擇項];STAR變量表[/選擇項];37第九章

t檢驗和方差分析

在科研工作中,我們往往根據(jù)樣本之間的差異,去推斷其總體之間是否有差異。樣本的差異可能是由抽樣誤差所致,也可能是由本質(zhì)的不同所致。應用統(tǒng)計學方法來處理這類問題,稱為“差異的顯著性檢驗”。若已知總體為正態(tài)分布,進行差異的顯著性檢驗,稱為“參數(shù)性檢驗”,SAS中可用MEANS、TTEST、ANOVA、GLM等過程完成此類檢驗。38在一個具體的統(tǒng)計問題中,原假設(H0)是一種經(jīng)常發(fā)生的情況。顯著性水平(常取0.05),作為判斷觀測到的結(jié)果“稀有性”的一個尺度。即當p<時,已觀測到的結(jié)果就是稀有的極端情況,將會拒絕原假設。通過計算統(tǒng)計量,如“t”值,可以確定它經(jīng)常取值的范圍和取極端值的可能性。根據(jù)樣本觀測到的結(jié)果,就可以確定統(tǒng)計量取比觀測到的結(jié)果更為極端的數(shù)值的可能性,即p值,進而與比較作出判斷。399.1t檢驗t檢驗是用于兩組數(shù)據(jù)均數(shù)間差異的顯著性檢驗。它常用于以下場合:

1.樣本均數(shù)與總體均數(shù)差異的顯著性檢驗。用MEANS過程完成。

2.同一批對象實驗前后差異的顯著性檢驗(自身對照比較)或配對資料差異的顯著性檢驗(配對比較)。用MEANS過程完成。

403.兩樣本均數(shù)差異的顯著性檢驗兩樣本均數(shù)差異的比較是兩組原始資料各自獨立,沒有成對關系,每組觀測值都是來自正態(tài)總體的樣本,兩組中樣本個數(shù)可以相等,也可以不等。在進行兩樣本均數(shù)差異的顯著性檢驗時,根據(jù)方差的不同,采用不同的數(shù)學模型分別進行。兩樣本均數(shù)差異的顯著性檢驗用TTEST過程完成。419.1.2用MEANS過程作t檢驗1.過程格式用于t檢驗的MEANS過程,使用如下語句:

PROCMENASMEANSTDSTDERR

TPRT[DATA=數(shù)據(jù)集];

VAR變量;422.說明

(1)PROCMEANS語句中,選擇了5個統(tǒng)計量:MEAN、STD、STDERR、T、

PRT(均數(shù)、標準差、標準誤、t值、P值)。(2)VAR語句中的變量是分析變量。這是一個代表差值的變量。該差值可以是每一個觀測值與總體均數(shù)之差;配對資料中每一對觀測值之差;自身比較時的前后觀測值之差。433.舉例

例1.樣本均數(shù)與總體均數(shù)差別的顯著性檢驗。已知某水樣中含CaCO3的真值為20.7mg/L,現(xiàn)用某法重復測定該水樣11次,CaCO3的含量為:20.99,20.41,20.10,20.00,20.91,22.60,20.99,20.41,20.00,23.00,22.00。問用該法測CaCO3的含量所得的均值與真值有無顯著差別?44

程序如下:

DATAt2;

INPUTx@@;y=x-20.7;

CARDS;20.9920.4120.1020.0020.9122.6020.9920.4120.0023.0022.00PROCMEANSMEANSTDSTDERRTPRT;

VARy;RUN;45

AnalysisVariable:YMeanStdDevStdErrorTProb>|T|

-0.3371.0520.3171.0640.3125

結(jié)論:因t=1.064,

p=0.3125>0.05,不能拒絕H0,故不能認為所得的均值與真值有顯著差別。即此法可用來測定水中CaCO3的含量。46例2.配對比較的t檢驗

為研究食物中維生素E與肝臟中維生素A含量的關系,將大白鼠按性別、體重配對,每對隨機分配,一個用正常飼料,一個用缺乏維生素E的飼料。經(jīng)過一個時期飼養(yǎng),殺死動物測定肝中維生素A的含量,結(jié)果如表9-1。47表9-1配對號12345678正常飼料35502000300039503800375034503050缺乏E飼料2450240018003200325027002500175048程序如下:DATAa;INPUTxy@@;d=x-y;CARDS;3550245020002400300018003950320038003250375027003450250030501750PROCMEANSMEANSTD

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論