




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第7章均值比較與方差檢驗本章主要內容:1、單個總體均值的t檢驗(One-SampleTTest);2、兩個獨立總體樣本均值的t檢驗(Independent-SampleTTest);3、兩個有聯(lián)系總體均值均值的t檢驗(Paired-SampleTTest);4、單因素方差分析(One-WayANOVA);5、雙因素方差分析(GeneralLinearModel
Univariate)。假設條件:研究的數(shù)據(jù)服從正態(tài)分布或近似地服從正態(tài)分布。在Analyze菜單中,均值比較檢驗可以從菜單CompareMeans,和GeneralLinearModel得出。7.1假設檢驗的基本問題一、假設檢驗的基本思想假設檢驗是除參數(shù)估計之外的另一類重要的統(tǒng)計推斷問題。它的基本思想可以用小概率原理來解釋。所謂小概率原理,就是認為小概率事件在一次試驗中幾乎不可能發(fā)生。也就是說,如果對總體的某個假設是真實的,那么不利于或不能支持這一假設的小概率事件A在一次試驗中是幾乎不可能發(fā)生的;要是在一次試驗中事件A竟然發(fā)生了,我們就有理由懷疑這一假設的真實性,拒絕這一假設。假設檢驗的基本思想
前提:承認原假設小概率事件發(fā)生大概率事件發(fā)生拒絕原假設接受原假設進行一次實驗根據(jù)樣本觀測值來判斷一個有關總體的假設是否成立的問題,就是假設檢驗問題(hypothesistesting)。
某廠生產(chǎn)一種供出口的罐頭,經(jīng)驗表明罐頭的凈重服從正態(tài)分布。標準規(guī)格是每罐凈重250克,標準差是3克。現(xiàn)從生產(chǎn)線上隨機抽取100罐進行檢查,稱得其平均凈重251克。問這批罐頭是否合乎規(guī)格凈重?則樣本均值服從均值為250,標準差0.3的正態(tài)分布250250假設總體服從均值為250,標準差3的正態(tài)分布250250.6249.4樣本均值服從均值為250,標準差0.3的正態(tài)分布2510.95450樣本均值服從均值為250,標準差0.3的正態(tài)分布2.00-2.003.330接受域拒絕域拒絕域臨界值臨界值Z統(tǒng)計量顯著性水平假設檢驗是對我們所關心的卻又是未知的總體參數(shù)先作出假設,然后抽取樣本,利用樣本提供的信息,根據(jù)小概率原理對假設的正確性進行判斷的一種統(tǒng)計推斷方法。二、假設的表達式例:由統(tǒng)計資料得知,1989年某地新生兒的平均體重3190千克,現(xiàn)從1990年的新生兒中隨機抽取100個,測得其平均體重為3210千克,問1990年的新生兒與1989年相比,體重有無顯著差異。原假設(nullhypothesis)采用等式的方式,即如果原假設不成立,就要拒絕原假設。在需要的另一個假設中做出選擇,這個假設稱為備擇假設(alternativehypothesis)。備擇假設表達式為:假設基本形式
H0:原假設,H1:備擇假設假設檢驗:運用統(tǒng)計理論對上述假設進行檢驗,在原假設與備擇假設中選擇其一。提出原假設和備擇假設某廠生產(chǎn)一種供出口的罐頭,經(jīng)驗表明罐頭的凈重服從正態(tài)分布。標準規(guī)格是每罐凈重250克,標準差是3克?,F(xiàn)從生產(chǎn)線上隨機抽取100罐進行檢查,稱得其平均凈重251克。問這批罐頭是否合乎規(guī)格凈重?確定檢驗統(tǒng)計量規(guī)定顯著性水平α顯著性水平α對應犯拒真錯誤的概率,通常取α=0.05或α=0.01或α=0.0455計算檢驗統(tǒng)計量的值作出統(tǒng)計決策拒絕原假設,即這批罐頭不符合規(guī)格凈重。假設檢驗的另一種方法:p-值的應用
p-值是一個概率值,它是用于確定是否拒絕H0的另一種方法。如果假定原假設為真,則p-值是所獲得的樣本結果至少與實測結果不同的概率值。例題:某商品標簽上標明其重量至少為3公斤以上,現(xiàn)抽取36瓶該產(chǎn)品組成的一個簡單隨機樣本,得其樣本均值2.92公斤,已知總體標準差為0.18時,在顯著性水平α=0.01的情況下檢驗其商品標簽所標內容是否真實?求解過程:(1)原假設H0:μ≥3,備擇假設H1:μ<3(2)檢驗統(tǒng)計量為:代入數(shù)據(jù)得:(4)0.0038<0.010,所以拒絕H0。(3)z=-2.67所對應的p值為0.0038三、假設檢驗的兩類錯誤
接受或拒絕H0,都可能犯錯誤
I類錯誤——棄真錯誤,發(fā)生的概率為α(αerror)
II類錯誤——取偽錯誤,發(fā)生的概率為β(βerror)7.2正態(tài)總體參數(shù)的假設檢驗正態(tài)總體參數(shù)假設檢驗的步驟第一步:建立原假設H0和備擇假設H1。原假設應該是希望犯第Ι類錯誤概率小的假設。
常用的假設形式:第二步:選擇檢驗用的統(tǒng)計量。z檢驗t檢驗F檢驗常用統(tǒng)計量第三步:確定顯著水平α的值,查相應的分布表得其臨界值以及拒絕域。第四步:進行顯著性判別。7.2.1一個正態(tài)總體的參數(shù)檢驗在一個正態(tài)總體的參數(shù)檢驗中,用到的檢驗統(tǒng)計量主要有三個:Z統(tǒng)計量,t統(tǒng)計量,統(tǒng)計量。Z統(tǒng)計量和t統(tǒng)計量常用于均值和比例的檢驗,統(tǒng)計量則用于方差檢驗。選擇什么統(tǒng)計量進行檢驗需要考慮一些因素,這些因素主要有:總體的標準差是否已知,樣本量的大小。(一)總體標準差是否已知總體方差檢驗統(tǒng)計量μ=μ0時檢驗統(tǒng)計量的分布假設
拒絕域σ2已知σ2未知(二)樣本量總體標準差已知未知Z統(tǒng)計量樣本容量Z統(tǒng)計量t統(tǒng)計量大小二、總體均值的檢驗例題:某廠加工一種零件,根據(jù)經(jīng)驗知道,該廠加工的零件的橢圓度漸近服從正態(tài)分布,其總體均值為0.081mm,總體標準差為0.025mm。今另換一種新機床進行加工,取200個零件進行檢驗,得到橢圓度均值為0.076mm。問新機床加工零件的橢圓度總體均值與以前有無顯著差別。(α=0.05)接受域拒絕域拒絕域例題:某批發(fā)商欲從廠家購進一批燈泡,根據(jù)合同規(guī)定,燈泡的使用壽命平均不能低于1000小時。已知燈泡使用壽命服從正態(tài)分布,標準差為20小時。在總體中隨機抽取了100個燈泡,得其均值為960小時,批發(fā)商是否應該購進這批燈泡。解一:接受域拒絕域解二:接受域拒絕域
例題:電視機顯像管批量生產(chǎn)的質量標準為平均使用壽命1200小時,標準差為300小時。某電視機廠宣稱其生產(chǎn)的顯像管質量大大超過規(guī)定標準。為了進行驗證,隨機抽取100件為樣本,測得平均使用壽命為1245小時。能否說該廠的顯像管質量顯著地高于規(guī)定標準。解一:接受域拒絕域解二:接受域拒絕域
某機器制造出的肥皂的標準厚度為5cm,今欲了解機器性能是否良好,隨機抽取10塊肥皂為樣本,測得平均厚度為5.3cm,標準差為0.3cm,試以0.01的顯著性水平檢驗機器性能良好的假設。接受域拒絕域拒絕域
一個汽車輪胎制造商聲稱,某一等級輪胎的平均壽命在一定的汽車重量和正常行駛條件下大于40000km,對一個由120個輪胎組成的隨機樣本作了試驗,測得平均值和標準差分別為41000km和5000km。已知輪胎壽命的公里數(shù)近似服從正態(tài)分布。能否根據(jù)這些數(shù)據(jù)作出該制造商的產(chǎn)品同他所說的標準相符的結論。接受域拒絕域例題:某高爾夫球場在過去幾個月里高爾夫運動者有20%是女性,為增加女性運動者比率,球場以特價方式吸引女性運動者,一周以后,一個400名運動者所組成的樣本中,300名為男性,100名為女性。能否得出結論認為球場的女性運動者比率上升了(α=0.05)。三、總體比例的檢驗接受域拒絕域7.2.2兩個總體參數(shù)的檢驗一、兩個總體參數(shù)之差的抽樣分布大樣本(n1≥30且n2≥30)情形下,近似服從正態(tài)分布,即:式中:σ1──總體1的標準差
σ2──總體2的標準差
n1──來自總體1簡單隨機樣本的的樣本容量
n2──來自總體2簡單隨機樣本的的樣本容量σ1和σ2已知式中:s1──來自總體1的樣本標準差
s2──來自總體2的樣本標準差
n1──來自總體1簡單隨機樣本的的樣本容量
n2──來自總體2簡單隨機樣本的的樣本容量σ1和σ2未知大樣本(n1≥30且n2≥30)情形下,近似服從正態(tài)分布,即:小樣本情形下,存在自由度為n1+n2-2的t分布,即:式中:s1──來自總體1的樣本標準差
s2──來自總體2的樣本標準差
n1──來自總體1簡單隨機樣本的的樣本容量
n2──來自總體2簡單隨機樣本的的樣本容量σ1和σ2未知,但已知σ1=σ2
有兩種方法可用于制造某種以抗拉強度為重要特征的產(chǎn)品。根據(jù)以往的資料得知,第一種方法生產(chǎn)出的產(chǎn)品其抗拉強度的標準差為8kg,第二種方法的標準差為10kg。從兩種方法生產(chǎn)的產(chǎn)品中各抽一個隨機樣本,樣本的容量分別為n1=32,n2=40,測得=50kg,=44kg。問兩種方法生產(chǎn)出來的產(chǎn)品平均抗拉強度是否有顯著差別(α=0.05)。
一個車間研究用兩種不同的工藝組裝某種產(chǎn)品所用的時間是否相同。讓一個組的10工人用第一種工藝組裝該種產(chǎn)品,平均所需時間為26.1分鐘,樣本標準差為12分鐘。另一組8名工人用第二種工藝組裝,平均所需時間為17.6分鐘,標準差為10.5分鐘。已知用兩種工藝組裝產(chǎn)品所用時間服從正態(tài)分布,且σ1=σ2,試問能否認為用第二種方法組裝比第一種方法要好。
某制造公司有兩種方法可供員工執(zhí)行某生產(chǎn)任務。為使產(chǎn)出最大化,公司試圖確認哪種方法有最短完成時間。抽取樣本有兩個可供選擇的方案1、獨立樣本方案:抽取工人的一個簡單隨機樣本,其中每個工人使用方法1;抽取工人的另一個簡單隨機樣本,其中每個工人使用方法2。均值差的檢驗可采用前述獨立樣本條件下的檢驗方法。2、匹配樣本方案:抽取工人的一個簡單隨機樣本,每個工人選用一種方法,后用另一種方法,兩種方法的次序是隨機排列的;每個工人提供一對數(shù)據(jù),一個是方法1的,另一個是方法2的。工人方法1的完成時間(分鐘)方法2的完成時間(分鐘)完成時間的差值(di)1234566.05.07.06.26.06.45.45.26.55.96.05.80.6-0.20.50.30.00.6匹配樣本數(shù)據(jù)
匹配樣本方案中,兩種生產(chǎn)方法是在相似的條件下被檢驗的(即由同一個工人執(zhí)行),所以該方案往往比獨立樣本方案有更小的抽樣誤差。這主要是由于匹配樣本方案中作為抽樣誤差來源之一的工人個體間的差異被去掉了。差值(di)的樣本均值與樣本標準差假設差值(di)服從正態(tài)分布,則檢驗統(tǒng)計量樣本數(shù)據(jù)沒有提供足夠的證據(jù)拒絕H0。對α=0.05,自由度為n-1=5的t分布(t0.025=2.571),雙側檢驗的拒絕法則為:如果t<-2.571或t>2.571,則拒絕H0。檢驗的統(tǒng)計量的值為:二、兩個總體比率之差的檢驗大樣本情形下,p1-p2近似服從正態(tài)分布,即:p1-p2抽樣分布
對兩個大型企業(yè)青年工人參加技術培訓的情況進行調查,調查結果如下:甲廠:調查60人,18人參加技術培訓。乙廠:調查查40人,14人參加技術培訓。能否根據(jù)以上調查結果認為乙廠工人參加技術培訓的人數(shù)比例高于甲廠(α=0.05)。7.3.1單個總體的t檢驗
(One-SampleTTest)分析
單個總體的t檢驗分析也稱為單一樣本的t檢驗分析,也就是檢驗單個變量的均值是否與假定的均數(shù)之間存在差異。如將單個變量的樣本均值與假定的常數(shù)相比較,通過檢驗得出預先的假設是否正確的結論。例1:根據(jù)2002年我國不同行業(yè)的工資水平,檢驗國有企業(yè)的職工平均年工資收入是否等于10000元,假設數(shù)據(jù)近似地服從正態(tài)分布。首先建立假設:H0:國有企業(yè)工資為10000元;H1:國有企業(yè)職工工資不等于10000元檢驗過程的操作按照下列步驟:1、單擊Analyze
CompareMeans
One-SampleTTest,打開One-SampleTTest主對話框,如圖所示。
2、從左邊框中選中需要檢驗的變量(國有單位)進入檢驗框中。3、在TestValue框中鍵入原假設的均值數(shù)10000。4、單擊Options按鈕,得到Options對話框,選項分別是置信度(默認項是95%)和缺失值的處理方式。選擇后默認值后返回主對話框。5、單擊OK,得輸出結果。如表所示。從上面檢驗結果表(1)可以得出國有單位職工工資的平均值、標準差和均值的標準誤等反映數(shù)據(jù)特征的數(shù)據(jù)。從表(2)中可知檢驗的結果。即相應的檢驗統(tǒng)計量t值為4.121,自由度為30,假設檢驗的P值(sig)小于0.05,故原假設不成立,檢驗結論是拒絕原假設H0,接受假設H1。即認為國有企業(yè)職工的平均工資與10000元的假設差異顯著。例題:為確認某市12—15歲青少年是否達到160.0厘米的標準身高,對該市同年齡段的青少年作了一次抽樣調查,獲樣本數(shù)據(jù)如下。試以0.05的顯著性水平作出統(tǒng)計推斷。序號性別年齡身高體重序號性別年齡身高體重1
2
3
4
5
6
7
8
9
101112131415男男男男男女女女女女男男男男男131313131313131313131314141414156.0155.0144.6161.5161.3158.0161.0162.0164.3144.0157.9176.1168.0164.5153.047.537.838.641.643.347.347.147.033.833.849.254.550.044.058.0161718192021222324252627282930女女女女女男男男男男女女女女女141414141415151515151515151515164.7160.5147.0153.2157.9166.0169.0170.0165.1172.0159.4161.3158.0158.6169.044.153.036.430.140.457.058.551.058.055.044.745.444.342.851.1三十名學生的身高與體重數(shù)據(jù)7.3.2兩個總體的t檢驗7.2.1兩個獨立樣本的t檢驗(Independent-samplesTTest)Independent-sampleTTest是檢驗兩個沒有聯(lián)系的總體樣本均值間是否存在顯著的差異,兩個沒有聯(lián)系的總體樣本也稱獨立樣本。例2.某醫(yī)藥研究所考察一種藥品對男性和女性的治療效果是否有顯著差異,調查了10名男性服用者及7名女性服用者,對他們服藥后的各項指標進行綜合評分,服用的效果越好,分值就越高,每人所得的總分見下表,試根據(jù)表中的數(shù)據(jù)檢驗這種藥品對男性和女性的治療效果是否存在顯著差異。解:由于藥品對男性或女性的影響是無聯(lián)系的,因此這兩個樣本是相互獨立的??梢詰脙瑟毩颖镜募僭O檢驗。首先,建立假設H0:該藥品對男性和女性的治療效果沒有顯著差異;H1:該藥品對男性和女性的治療效果有顯著差異。具體操作步驟:1、單擊Analyze
CompareMeans
Independent-sampleTTest,打開Independent-sampleTTest主對話框如圖。2、選擇要檢驗的變量“綜合得分”進入檢驗框中。3、選擇分組變量“性別”進入分組框中,然后單擊DefineGroup按紐,打開分組對話框如圖所示,確定分組值后返回主對話框,如果沒有分組,可以選擇Cutpoint單選項,并在激活的框內輸入一個值作為分組界限值。4、由Option選擇按紐確定置信度值和缺失值的處理方式。5、點擊OK可得輸出結果。第三列和第四列是檢驗兩樣本數(shù)據(jù)的方差是否相等,從檢驗結果得知兩樣本的方差沒有顯著差異。從第五列開始是對兩個樣本的均值的是否相等進行檢驗。從假設檢驗的P值看出,它大于顯著性水平0.05,所以說男女之間的機械能力之間并無顯著差異,因此接受原假設H0。而第八列之后分別是均值差、均值差標準誤、均值差的置信區(qū)間。序號性別年齡身高體重序號性別年齡身高體重1
2
3
4
5
6
7
8
9
101112131415男男男男男女女女女女男男男男男131313131313131313131314141414156.0155.0144.6161.5161.3158.0161.0162.0164.3144.0157.9176.1168.0164.5153.047.537.838.641.643.347.347.147.033.833.849.254.550.044.058.0161718192021222324252627282930女女女女女男男男男男女女女女女141414141415151515151515151515164.7160.5147.0153.2157.9166.0169.0170.0165.1172.0159.4161.3158.0158.6169.044.153.036.430.140.457.058.551.058.055.044.745.444.342.851.1三十名學生的身高與體重數(shù)據(jù)試以0.10的顯著性水平,對該市男女青少年的身高進行比較。7.3.3兩個有聯(lián)系總體間的均值比較
(Paired-SampleTTest)
Paired-SampleTTest是檢驗兩個有聯(lián)系正態(tài)總體的均值是否存在顯著的差異。又稱配對樣本的t檢驗。
例3:某企業(yè)對生產(chǎn)線上的工人進行某種專業(yè)技術培訓,要對培訓效果進行檢驗,從參加培訓的工人中抽取30人,將他們培訓前后的數(shù)據(jù)每加工500個零件的不合格品數(shù)進行對比,得到數(shù)據(jù)表見表。試根據(jù)表中數(shù)據(jù)檢驗培訓前后工人的平均操作技術水平是否有顯著提高,也就是檢驗培訓效果是否顯著。解:這顯然是配對樣本均值的假設檢驗的問題。所以要建立假設:H0:培訓前后工人的技術水平?jīng)]有顯著差異;H1:培訓前后工人的技術水平有顯著差異;根據(jù)中心極限定理,在大樣本的情況下,樣本均值近似地服從正態(tài)分布。所以可以利用正態(tài)參數(shù)的檢驗方法進行均值的檢驗。其檢驗過程的具體操作步驟為:1、單擊Analyze
CompareMeans
Paired-SampleTTest,打開Paired-SampleTTest主對話框如圖
2、選擇要檢驗的兩變量進入檢驗框中,注意,一定要選擇兩個變量進入檢驗框內,否則將無法得到檢驗結果。3、由Option選擇按紐確定置信度值95%和缺失值的處理方式。4、點擊OK得輸出結果。5、根據(jù)輸出結果作出結論如表所示。上表的檢驗結果知,假設檢驗的P值小于0.05,因此可以得出培訓前后的差異是顯著的,故拒絕假設H0,接受假設H1,認為培訓的效果是顯著的。
為分析不同促銷形式對商品銷售額是否產(chǎn)生顯著影響,分別搜集了7種商品在不同促銷形式下的銷售額數(shù)據(jù)。試對兩種促銷效果作出統(tǒng)計推斷。商品促銷形式1促銷形式2123456765737330735673343637264337607.4方差分析7.4.1方差分析的基本問題一、方差分析的內容1、定義:方差分析就是對多個總體均值是否相等這一假設進行檢驗。
某飲料企業(yè)生產(chǎn)一種新型飲料。飲料的顏色分為黃色、無色、粉色和綠色四種。為確定飲料的顏色是否對飲料的銷售量有顯著影響,從5個超市中搜集了該種飲料的樣本數(shù)據(jù)如下表所示。管理者想用這些樣本數(shù)據(jù)來檢驗假設:顏色對銷售量沒有顯著影響。超市黃色無色粉色綠色1234527.925.128.524.226.526.528.725.129.127.231.228.330.827.929.630.829.632.431.732.8樣本均值
樣本方差=26.44=3.298=27.32=2.672=29.56=2.143=31.46=1.658總均值=28.695
方差分析是對多個總體均值是否相等這一假設進行檢驗。四種顏色飲料銷售量樣本數(shù)據(jù)總體1總體2總體3總體4因變量或稱響應變量自變量或稱因素水平1水平2水平3水平4處理1處理2處理3處理4樣本1樣本2樣本3樣本4方差分析的基本原理方差分析的假定條件1.對每個總體,響應變量服從正態(tài)分布:2.對每個總體,響應變量的方差相同:3.觀察值是獨立的總體1總體3總體4總體2不盡相等方差分析的基本原理于是:各個水平下的觀測值可視為相應總體的隨機樣本。方差分析的問題就變?yōu)椋簷z驗所有數(shù)據(jù)是否可以看作來自同一總體的樣本。
原假設為假時,樣本均值來自不同的抽樣分布。
原假設為真時,樣本均值來自同一個抽樣分布。不盡相等不盡相等1m方差分析的基本原理二、方差分析的原理(一)數(shù)據(jù)差異的來源1、因素的水平不同(系統(tǒng)性差異);2、隨機因素(隨機性差異)。(二)、數(shù)據(jù)差異的度量1、水平之間的方差(組間方差)——系統(tǒng)性因素和隨機因素的共同作用。2、水平內部的方差(組內方差)——隨機性因素的作用。(三)、方差分析的基本思想:如果因素對結果沒有影響,那么水平間的方差就只含隨機性差異而沒有系統(tǒng)性差異,其值與水平內部方差就應該很接近,兩個方差的比值就會接近于1;反之,水平間方差就同時包含系統(tǒng)性差異和隨機性差異,兩個方差的比值就會明顯大于1,當這個比值大到某個程度(比如說大于某個臨界值)就可以作結論:不同水平間存在顯著差異。三、檢驗統(tǒng)計量1、方差分析的統(tǒng)計假設:;2、檢驗的統(tǒng)計量:組間均方差與組內均方差之比
是一個統(tǒng)計量,服從分布(Distribution)。至少兩個總體的均值不等7.4.2單因素方差分析觀測值因素(i)(j)A1A2…Ak1x11x21…xk12x12x22…xk2……………nx1nx2n…xkn一、單因素方差分析的步驟(一)計算水平均值和總體均值二、關系強度的測量7.4.1單因素方差分析-spss單因變量的單因素方差分析主要解決多于兩個總體樣本或變量間均值的比較問題。是一種對多個(大于兩個)總體樣本的均值是否存在顯著差異的檢驗方法。其目的也是對不同的總體的數(shù)據(jù)的均值之間的差異是否顯著進行檢驗。單因素方差分析的應用條件:在不同的水平(因素變量取不同值)下,各總體應當服從方差相等的正態(tài)分布。例4,某企業(yè)需要一種零件,現(xiàn)有三個不同的地區(qū)的企業(yè)生產(chǎn)的同種零件可供選擇,為了比較這三個零件的強度是否相同,每個地區(qū)的企業(yè)抽出6件產(chǎn)品進行強度測試,其值如表所示。假設每個企業(yè)零件的強度值服從正態(tài)分布,試檢驗這三個地區(qū)企業(yè)的零件強度是否存在顯著差異。解:首先建立假設H0:三個地區(qū)的零件強度無顯著差異;H1:三個地區(qū)的零件強度有顯著差異。具體操作過程如下:1、單擊Analyze
CompareMeans
One-WayANOVA,打開One-WayANOVA對話框。2、從左框中選擇因變量”零件強度”進入Dependentlist框內,選擇因素變量”地區(qū)”進入Factor框內。點擊OK就可以得到方差分析下表。由于F統(tǒng)計量值的P值明顯小于顯著性水平0.05,故拒絕假設H0,認為這三個地區(qū)的零件強度有顯著差異。如果需要對各地區(qū)間的零件強度進行進一步的比較和分析,可以通過按鈕Option選項,contrast對照比較,PostHoc多重比較去實現(xiàn)。3、單擊Option按紐,打開Option對話框如圖所示:在Option選項中選擇輸出項。主要有不同水平下樣本方差的齊性檢驗,缺失值的處理方式及均值的圖形。本例中選擇Homogeneityofvariancetest進行不同水平間方差齊性的檢驗以及Descriptive基本統(tǒng)計描述。在MissingValue欄中選擇系統(tǒng)默認項。完成所有選擇后返回主對話框,然后單擊OK,就可以得到三個地區(qū)零件強度分析表。4、Contrasts按鈕可以用來進一步分析隨著控制變量水平的變化,觀測值變化的總體趨勢以及進一步比較任意指定水平間的均值差異是否顯著。單擊Contrasts按鈕,打開One-WayANOVA:Contrasts對話框,見圖。如果要對組間平方和進行趨勢成分檢驗,選中Polynomial多項式復選項,選中后激活Degree參數(shù)框,在Degree框中選擇趨勢檢驗多項式的階數(shù),有最高次數(shù)可達5次。系統(tǒng)將給出指定階數(shù)和低于指定階次各階次的自由度、F值和F檢驗的概率值。在Contrast欄,指定需要對照比較兩個水平的均值。在Coefficients框中輸入一個系數(shù),單擊Add按紐,系數(shù)就進入到Coefficients框中。重復上述,依次輸入各組均值的系數(shù)。注意系數(shù)的和應當?shù)扔?。如;圖就是指第一個水平與第三個水平的均值差比較。5、如果需要將水平間兩兩比較,可以單擊PostHoc按紐,打開多重比較對話框。在該對話框中列出了二十種多重比較檢驗,涉及到許多的數(shù)理統(tǒng)計方法,在實際中只選用其中常用的方法即可。對話框下部的Significancelevel表示顯著性水平,默認值是0.05,也可以根據(jù)需要重新輸入其它值。如果滿足在水平間方差相等的條件,常用LSD(least-significantdifference最小顯著性差異法),表示用t檢驗完成各組均值間的配對比較。當方差不等的情況下,可以選擇Tamhane
sT2,用t檢驗進行各組均值間的配對比較。從表可以看出,地區(qū)2與地區(qū)3之間的差異是非常顯著的,它們均值差的檢驗的尾概率為0.005,明顯小于顯著性水平0.05。
四種顏色飲料銷售量樣本數(shù)據(jù)超市黃色無色粉色綠色1234527.925.128.524.226.526.528.725.129.127.231.228.330.827.929.630.829.632.431.732.8[數(shù)據(jù)集12]=2=3=4color=1sale定義變量單因素方差分析調用此過程可完成單因素方差分析單因素方差分析
單因素方差分析的基本過程可采納系統(tǒng)的默認方式。各種
選項多重比較F統(tǒng)計量=10.544的P值=0.000<0.05。故拒絕原假設,接受備擇假設,即不同顏色的飲料的銷售量有顯著差異。單因素方差分析
對四種顏色下各總體的均值進行多重比較。最小顯著性差異法
由于方差分析的前提是各水平下的總體服從方差相等的正態(tài)分布,因此須對方差分析的前提進行檢驗。輸出不同水平下的描述性統(tǒng)計量輸出方差相等性的檢驗結果輸出各水平下均值的折線圖。計算中涉及的變量含有缺失值時暫時剔除觀測剔除所有含有缺失值的觀測
檢驗統(tǒng)計量=0.255相伴P值=0.856>0.05故可以認為4種水平下各總體的方差無顯著差異,滿足單因素方差分析中的方差相等性要求。單因素方差分析樣本數(shù)據(jù)所顯示的四種顏色飲料銷售量的差異。單因素方差分析第8章非參數(shù)檢驗
前面進行的假設檢驗和方差分析,大都是在數(shù)據(jù)服從正態(tài)分布或近似地服從正態(tài)分布的條件下進行的。但是如果總體的分布未知,如何進行總體參數(shù)的檢驗,或者如何檢驗總體服從一個指定的分布,都可以歸結為非參數(shù)檢驗方法。非參數(shù)檢驗包括下列內容: 本章主要內容:1、總體分布的假設檢驗;2、兩種以上的現(xiàn)象之間的關聯(lián)性檢驗(見列聯(lián)分析);3、總體分布未知時,關于單個總體均值的檢驗;兩個總體均值或分布的差異是否顯著的檢驗,以及多個未知總體的單因素方差分析。4、某種現(xiàn)象的出現(xiàn)的隨機性檢驗;在SPSS分析軟件中,非參數(shù)檢驗在菜單Analyze?NonparametricTest中顯示,共有8種檢驗方法。這8種檢驗方法依次是:Chi-square卡方檢驗Binomial二項分布檢驗Runs游程檢驗1-SampleK-S單個樣本柯爾莫哥洛夫-斯米諾夫檢驗2Independentsample兩個獨立樣本檢驗KIndependentsampleK個獨立樣本檢驗2RelatedIndependentsample兩個相關樣本檢驗KRelatedIndependentsampleK個相關樣本檢驗8.1Chi-SquareTest卡方檢驗卡方檢驗是一種常用的檢驗總體分布是否服從指定的分布的一種非參數(shù)檢驗方法。其檢驗思想是:將總體的取值范圍分成有限個互不相容的子集,從總體中抽取一個樣本,考察樣本觀察值落到每個子集中的實際頻數(shù),并按假設的總體分布計算每個子集的理論頻數(shù),最后根據(jù)實際頻數(shù)和理論頻數(shù)的差構造卡方統(tǒng)計量,當原假設成立時,統(tǒng)計量服從卡方分布。以此來檢驗假設總體的分布是否成立。下面通過例題來說明具體的檢驗方法。例10.1擲一個骰子300次,每個面出現(xiàn)的次數(shù)(取變量名為Shi)見表,用數(shù)字1,2,3,4,5,6分別表示六個面的點數(shù),試在顯著性水平0.05下檢驗顆骰子是否是均勻的?解:如果這個骰子是均勻的,則每次試驗出現(xiàn)六個點數(shù)的可能性是相等的。建立原假設H0:每個點出現(xiàn)的概率等于1/6;備擇假設H1:每個點出現(xiàn)的概率不等于1/6。具體操作步驟:1、首先建立數(shù)據(jù)文件,注意變量Shi的變量值是300次試驗的所有結果。然后單擊Analyze
NonparametricTest
Chi-SquareTest,Chi-SquareTest打開對話框如圖所示。2、指定檢驗統(tǒng)計量,本例中選擇變量Shi進入檢驗框中。3、在ExpectValues欄內指定期望分布的頻數(shù)值,有兩個選擇項。4、在ExpectRange
欄中指定檢驗值的范圍。系統(tǒng)默認從數(shù)據(jù)中得到的最小值和最大值作為取值范圍,也可選擇自定義取值范圍。本例中選擇系統(tǒng)默認項。5、單擊Option按鈕,打開對話框如下圖所示,對話框中有兩個選擇欄:Statistics欄,選擇輸出的統(tǒng)計量:有統(tǒng)計描述和四分位數(shù)兩個選項,基本統(tǒng)計描述輸出變量的均值、標準差、最大值和最小值,缺失值數(shù)量等。MissingValue欄,選擇處理缺失值的方式。本例中選擇系統(tǒng)默認項,將剔除參與對比的缺失值
7、單擊OK,系統(tǒng)運行,輸出結果如表所示。8.2一個樣本的K-S檢驗Chi-SquareTest卡方檢驗在進行均勻分布時的檢驗比較方便,但在進行其它總體分布的檢驗時需要預先計算出理論分布期望值并輸入到計算機中。這樣操作起來比較麻煩,下面介紹一種K-S檢驗方法,可以非常方便快捷地檢驗常用的四種總體分布形式,使檢驗過程更加簡單。一個樣本的K-S檢驗又稱單個樣本柯爾莫哥洛夫-斯米諾夫檢驗,這種檢驗可以檢驗樣本數(shù)據(jù)是否服從Normal正態(tài)分布、Poisson泊松分布、Uniform均勻分布及Exponential指數(shù)分布等四種分布形式。但一般要求在大樣本條件下進行檢驗。下面通過例題介紹這種檢驗方法。例5.2:某棉織廠質量檢驗部門抽檢驗了50匹布,每匹布上的疵點數(shù)如下:21011205113011201100134001141252624151120110320233試檢驗布匹上的疵點是否服從的泊松分布。(α=0.05解:如果只檢驗疵點數(shù)的分布,可以用一個樣本的K-S檢驗。即檢驗假設:H0:布匹上的疵點服從泊松分布,H1:布匹上的疵點不服從泊松分布。具體檢驗的操作過程如下:1、根據(jù)原始數(shù)據(jù)建立數(shù)據(jù)文件,在其數(shù)據(jù)編輯窗口單擊Analyze
NonparametricTest
1-sampleK-S,打開對話框。2、選擇檢驗變量“疵點”進入檢驗框;3、在TestDistribution欄中選擇檢驗數(shù)據(jù)的分布假設,系統(tǒng)默認正態(tài)分布,根據(jù)本例中的要求,選擇泊松分布。4、在Options對話框中選擇輸出結果形式及缺失值處理方式。5、單擊OK。從上面的檢驗結果可以看出,樣本平均值為1.68,由樣本計算的統(tǒng)計量為0.569,假設檢驗的P值為0.902,遠遠大于0.05,所以可以認定疵點數(shù)服從泊松分布,故接受假設H0。如果將要檢驗布匹上的疵點是否服從λ=1.5.的泊松分布。則要通過Chi-square檢驗。即檢驗假設H0:布匹上的疵點服從λ=1.5.泊松分布,H1:布匹上的疵點不服從λ=1.5.泊松分布。設λ=1.5,通過泊松分布的分布計算出X取每一值概率并得出理論頻數(shù)如表。具體檢驗步驟如下:1、打開數(shù)據(jù)文件,在數(shù)據(jù)編輯窗口單擊Analyze
NonparametricTest
Chi-SquareTest,打開Chi-SquareTest對話框。2、指定檢驗統(tǒng)計量本例中選擇變量疵點進入檢驗框中。3、在ExpectValues欄內指定理論值,選擇Values,依次輸入各組由給定分布所計算的理論值,每輸入一個值,點擊Add,直到輸入全部理論值為止。4、單擊OK,系統(tǒng)運行。
從上面的結果可以看出,由樣本計算的統(tǒng)計量值為12.671,P值小于0.05,故接受H1,認為每匹布的疵點數(shù)不是服從λ=1.5的泊松分布。但是,注意,在這次檢驗中頻數(shù)小于5的值太多,按照卡方檢驗法的條件,應當適當合并小于5的組,將疵點數(shù)大于等于4的觀察值合并成一組,再進行檢驗,在合并時注意定義一個新的變量,給變量值重新編碼,主要將變量值大于等于4(有4,5,6三個值)的值賦予同一個碼值,即相當于一個組,與之相應的觀測頻數(shù)和理論頻數(shù)合并相加后,再進行卡方檢驗,就可以得到最終結果。8.3兩個獨立樣本的檢驗(TestforTwoIndependentSample)
如果兩個無聯(lián)系總體的分布是未知的,則檢驗兩個總體的均值或分布是否有顯著差異的方法是一種非參數(shù)檢驗方法,或者稱為兩個獨立樣本的檢驗。檢驗是通過兩個總體中分別抽取的隨機樣本數(shù)據(jù)進行的。下面通過例題解釋具體操作過程。例3:為了調查甲、乙兩地的土壤對種植的同一種西瓜有無影響,從這兩個產(chǎn)地分別隨機抽取同種的8只和7只西瓜,重量(市斤)如下:試根據(jù)樣本數(shù)據(jù)檢驗兩地的土壤對種植西瓜在重量上是否有顯著差異。解:建立假設H0:甲乙兩地的西瓜重量沒有顯著差異;H1:甲乙兩地的西瓜重量有沒有顯著差異。然后根據(jù)上面給出的數(shù)據(jù)建立數(shù)據(jù)文件,注意數(shù)據(jù)文件中有一個表示重量數(shù)據(jù)的變量和一個表示地區(qū)分組的變量。最后在數(shù)據(jù)編輯窗口進行檢驗。檢驗的具體操作過程如下:1、單擊Analyze
NonparametricTest
2IndependentSample,打開Two-Independent-Sample對話框如圖所示。2、選擇檢驗的變量進入檢驗框中,選擇分組變量進入GroupingVariable框中,單擊DefineGroup鍵,打開DefineGroup對話框。3、在TestType欄中,確定檢驗方法。SPSS中提供了四種檢驗方式:這四種方式分別是:Mann-WhitneyU曼—惠特尼檢驗,同時適用于小樣本和大樣本的情況。Kolmogorov-SmirnovZK-S檢驗,適用于大樣本的情況。MasesExtremeReactions極端反應檢驗,適用于小樣本的情況。
Wald-Wolfowitzruns游程檢驗,適用于大樣本的情況。這四種檢驗方法的側重點有所不同,但都是先將兩樣本數(shù)據(jù)混合排序,再從不同的角度分析并檢驗兩個獨立總體的分布是否有顯著的差異。有時這幾種檢驗結果可能不一樣,所以要結合數(shù)據(jù)的探索分析考察數(shù)據(jù)的分布狀況作出結論。常用的檢驗方法是Mann-WhitneyU方法,該方法同時適用于大樣本和小樣本的情況。本例中就選擇Mann-Whitney和Kolmogorov-Smirnov方法。4、選擇輸出的結果形式及缺失值處理方式;5、單擊OK,得輸出結果。
上表中顯示的是Mann-WhitneyU曼—惠特尼檢驗的秩和表,右表中有適用于大小兩種樣本的統(tǒng)計量,由于例題是小樣本的情況,所以選擇小樣本U統(tǒng)計量和精確概率的計算結果,從檢驗結果知兩個地區(qū)的西瓜重量上無顯著差異。上表顯示的是頻數(shù)表,下表中顯示檢驗結果,從表中看到檢驗統(tǒng)計量值Z為0.414,P值接近1,故兩地種植的西瓜的重量沒有顯著差異。因此,上面的兩種檢驗的結論是一致的。即兩地種植的同一種西瓜地的重量沒有顯著差異。
8.4兩個有聯(lián)系樣本檢驗
(TestforTworelatedsamples)兩個有聯(lián)系的樣本檢驗一般用于比較一個現(xiàn)象在采取了某項措施前后的變化是否顯著,或者說采取的措施是否有效。也可以檢驗同一個測試對象上的兩種測試方法是否一致。取n個測試對象作為樣本,則樣本數(shù)據(jù)是成對出現(xiàn)的。也可以檢驗這樣兩個樣本是否服從相同的分布等。這種檢驗在實際中應用范圍很廣,如對于一種藥品效果比較檢驗,農(nóng)業(yè)上對于一種新的糧食品種與原有品種的比較檢驗,工業(yè)中新工藝方法、新材料與原方法和材料的比較檢驗等等。下面通過一個例題說明兩個有聯(lián)系樣本的檢驗方法。例5.4:一車間為了提高工作效率,對某種零件的加工過程進行改進,為了比較加工時間是否明顯減少,抽取15名工人對比他們改革前后零件的加工時間,得到相應的數(shù)據(jù)如下:試根據(jù)數(shù)據(jù)檢驗改進后零件的加工時間是否明顯減少(α=0.05)?改進前(m):70,76,56,63,63,56,58,60,65,65,75,66,56,59,70改進后(m):48,54,60,64,48,55,54,45,51,48,56,48,64,50,54解:根據(jù)上面的數(shù)據(jù)建立數(shù)據(jù)文件SY-15,這顯然是兩個有聯(lián)系的樣本,故采用兩個有聯(lián)系的樣本檢驗方法。具體操作如下:建立假設H0:改進前后的零件加工時間沒有顯著差異;H1:改進前后的零件加工時間明顯減少。1、單擊Analyze
NonparametricTest
2RelatedSample,打開TwoRelatedSample對話框如圖所示。3、在TestType欄中選擇檢驗方式。SPSS中給出了三種檢驗方法,分別是:Wilcoxon:威爾克科森秩和檢驗,只給出大樣本近似檢驗概率。Sign:符號檢驗,給出精確檢驗概率。McNemar:適用于二值變量的檢驗本例中選擇Wilcoxon和Sign檢驗。2、選擇檢驗的兩個變量進入檢驗框中。
4、在Options框內選擇輸出結果形式和缺失值處理方式。5、單擊OK,輸出結果如表。SignTest符號檢驗
WilcoxonSignedRanksTest威爾克科森秩和檢驗
威爾克科森秩和檢驗,檢驗統(tǒng)計量Z的值為-2.870,假設檢驗的P值為0.004,小于0.05;而符號檢驗的頻數(shù)表和檢驗表,同樣,假設檢驗的P值為0.035,也小于0.05,故拒絕原假設,認為改進前后的差異是顯著的。8.5多個樣本的非參數(shù)檢驗
(KSamplesTest)
一、多個獨立樣本的單因素方差分析(TestforSaveralIndependentSamples)在總體分布未知的情況下,多個獨立樣本的檢驗是檢驗多個獨立總體的平均值是否存在顯著的差異。由于總體分布未知,所以檢驗過程是建立秩的基礎上。下面通過例題來說明具體的檢驗方法。例5.6仍以2002年全國職工平均工資表為例,如果定義一個分組變量,將我國東部、中部和西部各省標上1,2,3作為分組值,下面來考察東部、中部和西部的職工平均工資是否存在顯著差異(α=0.05)?解:建立假設H0:各地區(qū)的職工平均工資沒有顯著差異;H1:各地區(qū)的職工平均工資有顯著差異;可以從分組中得到三個獨立的樣本數(shù)據(jù),顯然可以用多個獨立樣本的檢驗。具體操作步驟如下:1.打開數(shù)據(jù),在數(shù)據(jù)窗口單擊Analyze
NonparametricTest
KIndependentSample,打開K-Independent-Sample對話框如圖所示。2.選擇檢驗的變量進入檢驗框中。本例中選擇國有單位,城鎮(zhèn)集體和港澳臺商進入TestVariableList框內。3.在TestType欄中選擇檢驗方式。SPSS軟件給出兩種檢驗方式,Kruskal-WallisH檢驗,利用秩平均建立檢驗統(tǒng)計量,檢驗多個獨立總體的分布是否存在顯著差異。Median中位數(shù)檢驗,利用卡方統(tǒng)計量檢驗多組樣本的中位數(shù)差異是否顯著。本例中選擇Kruskal-Wallis統(tǒng)計量。4.在Options對話框內選擇輸出結果形式和缺失值處理方式。5.單擊OK,輸出結果如表。Ranks秩和表中給出每個變量各組的秩平均。TestStatistics(a,b)檢驗統(tǒng)計表中給出檢驗結果,其結果顯示:卡方統(tǒng)計量結果顯示:國有企業(yè)、城鎮(zhèn)集體及港澳臺商企業(yè)這三個變量的職工平均工資在中國的東部、中部和西部地區(qū)的的差異都是顯著的。
Ranks秩和表
TestStatistics(a,b)檢驗統(tǒng)計表
二、多個有聯(lián)系樣本的方差分析
(KRelatedSamplesTest)多個有聯(lián)系樣本的方差分析,又稱多個配對樣本的檢驗,是在總體分布未知的情況下,用于比較多個有聯(lián)系的總體分布的差異性??梢詺w納為:多個有聯(lián)系的總體是否存在顯著差異;多個評判結果是否存在顯著差異(一致性檢驗);由于總體分布未知,所以檢驗都是建立秩和的基礎上。下面通過例題來說明具體的檢驗方法。例7對于五個企業(yè)生產(chǎn)的同一類型產(chǎn)品,由四個使用單位分別對這些企業(yè)生產(chǎn)的產(chǎn)品進行評價,以打分的形式表示評價結果,滿分是10分,得出評價結果如表所示。試檢驗使用單位的判斷標準是否一致(α=0.05)。解:建立假設H0:使用單位的判斷標準沒有顯著差異;H1:使用單位的判斷標準有顯著差異。根據(jù)評分表建立數(shù)據(jù)文件,多個有聯(lián)系樣本檢驗的具體操作步驟如下
1.打開數(shù)據(jù),在數(shù)據(jù)窗口單擊Analyze
NonparametricTest
KRelatedSamples,打開K-Related-Samples對話框如圖所示。2.選擇檢驗的變量進入檢驗框中。本例中選擇企業(yè)的產(chǎn)品A、B、C、D、E進入TestVariableList框內。3.在TestType欄中選擇檢驗方式。SPSS軟件給出三種檢驗方式:Friendman檢驗,適用于等間距變量數(shù)據(jù),利用秩平均建立Friendman檢驗統(tǒng)計量,檢驗多個有聯(lián)系的總體的分布是否存在顯著差異。原假設是無顯著差異。Kendall′sW一致性檢驗,適用于分析評判者的判別標準是否一致。通過Kendall一致性系數(shù)W值越接近1,說明評判者的評價標準一致性越好。Cochran′sQ檢驗,適用于二值變量數(shù)據(jù),原假設是無顯著差異。4.在Statistics對話框內選擇輸出結果形式和缺失值處理方式。5.單擊OK,輸出
Kendall'sWTest檢驗表如表。Ranks秩TestStatistics檢驗統(tǒng)計表
Ranks秩表示每個企業(yè)產(chǎn)品的秩平均值,TestStatistics檢驗統(tǒng)計表輸出統(tǒng)計檢驗的結果可以看出,Kendall一致性系數(shù)W比較小,即四個使用單位的評價結果明顯是不一致的。解:根據(jù)題意建立數(shù)據(jù)文件.檢驗假設:
H0:四種品牌之間的差異不顯著
H1:四種品牌之間的差異顯著檢驗步驟如下:例8某企業(yè)為了比較該企業(yè)的產(chǎn)品在顧客中的滿意程度,同時調查了包括自己企業(yè)在內的四種暢銷品牌的顧客滿意程度,得到數(shù)據(jù)如表所示:試根據(jù)上面調查結果分析,四種品牌之間的差異是否顯著(α=0.05)?1.打開數(shù)據(jù),在數(shù)據(jù)窗口單擊Analyze
NonparametricTest
KRelatedSamples,打開K-Related-Samples對話框如圖所示。2.選擇檢驗的變量進入檢驗框中。本例中選擇所有變量進入TestVariableList框內。3.在TestType欄中選擇檢驗方式。本例中的數(shù)據(jù)是二值變量,故選擇Cochran′sQ檢驗。4.在Statistics對話框內選擇輸出結果形式和缺失值處理方式。本例中取默認項。5.單擊OK,輸出
Cochran′sQ檢驗表如表。Frequencies頻數(shù)表TestStatistics檢驗表
從檢驗表中看出,Cochran′sQ統(tǒng)計量值為29.809,假設檢驗的P值遠遠地小于0.05,故拒絕H0,認為該企業(yè)的產(chǎn)品與其它品牌的差異是顯著的。如果需要,企業(yè)還可以與其它品牌進行兩兩比較分析,讀者可以自行做出兩個有聯(lián)系的樣本檢驗。8.6游程檢驗(RunsTest)游程檢驗可以檢驗下面兩種情況:單樣本變量的取值是否是隨機的。兩獨立總體的分布是否存在顯著差異。例5:為了鑒別兩種操作方法對勞動效率的影響,隨機抽取12人用第一種操作方法。10人用第二種操作方法,每人的日產(chǎn)量見表,試問這兩種操作方法有無顯著差異?解:如果兩種操作方法差異不顯著,則有這兩組工人的日產(chǎn)量排列是隨機的,故根據(jù)表中數(shù)據(jù)建立數(shù)據(jù)文件,將兩組工人的日產(chǎn)量數(shù)據(jù)進行統(tǒng)一排序,觀察排序后工人所在組的標志值的排列是否是隨機的。建立原假設H0:兩種操作方法沒有顯著差異;備擇假設H1:兩種操作方法的差異是顯著的。1、單擊Analyze
NonparametricTest
Runs,打開RunsTest對話框如圖所示。2、選擇檢驗的變量:將變量“組別”進入檢驗框中。3、在Cutpoint欄中選擇劃分二類的檢驗分類點,系統(tǒng)默認中位數(shù)。本例中選擇1.5作為檢驗分類點。4、在在Options框內選擇輸出結果形式和缺失值處理方式。5、單擊OK,輸出結果見表。由表給出的檢驗結果知,按照產(chǎn)量排序后,組別標志值的游程為2,由樣本計算的檢驗統(tǒng)計量Z為-4.417,P值為0.017,小于0.05,拒絕原假設H0,即認為兩種操作方法的差異顯著。第十六章卡方檢驗
--兩個定性變量之間的關系@文彤老師統(tǒng)計學回顧χ2檢驗是用途很廣的一種假設檢驗方法,主要用于分類資料統(tǒng)計推斷,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等它最基本的無效假設是:H0:觀察頻數(shù)與期望頻數(shù)沒有差別其原理為考察基于H0的理論頻數(shù)分布和實際頻數(shù)分布間的差異大小,據(jù)此求出相應的P值。2025年3月19日@文彤老師126Crosstabs過程分析實例在CCSS的分析報告中,所有受訪家庭會按照家庭年收入被分為低收入家庭和中高收入家庭兩類,現(xiàn)希望考察不同收入級別的家庭其轎車擁有率是否相同。2025年3月19日@文彤老師127方法原理理論頻數(shù)基于H0成立,兩樣本所在總體無差別的前提下計算出各單元格的理論頻數(shù)來2025年3月19日@文彤老師128方法原理殘差設A代表某個類別的觀察頻數(shù),E代表基于H0計算出的期望頻數(shù),A與E之差被稱為殘差殘差可以表示某一個類別觀察值和理論值的偏離程度,但殘差有正有負,相加后會彼此抵消,總和仍然為0。為此可以將殘差平方后求和,以表示樣本總的偏離無效假設的程度2025年3月19日@文彤老師129方法原理另一方面,殘差大小是一個相對的概念,相對于期望頻數(shù)為10時,20的殘差非常大;可相對于期望頻數(shù)為1000時20就很小了。因此又將殘差平方除以期望頻數(shù)再求和,以標準化觀察頻數(shù)與期望頻數(shù)的差別。這就是我們所說的卡方統(tǒng)計量,在1900年由英國統(tǒng)計學家Pearson首次提出,其公式為:2025年3月19日@文彤老師130方法原理從卡方的計算公式可見,當觀察頻數(shù)與期望頻數(shù)完全一致時,卡方值為0;觀察頻數(shù)與期望頻數(shù)越接近,兩者之間的差異越小,卡方值越?。环粗?,觀察頻數(shù)與期望頻數(shù)差別越大,兩者之間的差異越大,卡方值越大。當然,卡方值的大小也和自由度有關2025年3月19日@文彤老師131方法原理卡方分布顯然,卡方值的大小不僅與A、E之差有關,還與單元格數(shù)(自由度)有關2025年3月19日@文彤老師132結果解釋列出的檢驗結果2025年3月19日@文彤老師133四格表
2值的校正英國統(tǒng)計學家Yates認為,
2分布是一種連續(xù)型分布,而四格表資料是分類資料,屬離散型分布,由此計算的
2值的抽樣分布也應當是不連續(xù)的,當樣本量較小時,兩者間的差異不可忽略,應進行連續(xù)性校正(在每個單元格的殘差中都減去0.5)若n>40,此時有1<T
5時,需計算Yates連續(xù)性校正
2值T<1,或n<40時,應改用Fisher確切概率法直接計算概率2025年3月19日@文彤老師134Crosstabs過程如何閱讀卡方檢驗結果教科書的看法當n≥40且所有T≥5時,用普通的卡方檢驗,若所得P約等于Alpha,改用確切概率法;當n≥40但有1≤T<5時,用校正的卡方檢驗;當n<40或有T<1時,不能用卡方檢驗,改用確切概率法。實際的做法一律向下看齊2025年3月19日@文彤老師135配對卡方檢驗分析實例某公司期望擴展業(yè)務,增開幾家分店,但對開店地址不太確定。于是選了20個地址,請兩位資深顧問分別對20個地址作了一個評價,把它們評為好、中、差三個等級,以便確定應對哪些地址進行更進一步調查,那么這兩位資深顧問的評價結果是否一致?2025年3月19日@文彤老師136配對卡方檢驗方法原理顯然,本例對同一個個體有兩次不同的測量,從設計的角度上講可以被理解為自身配對設計按照配對設計的思路進行分析,則首先應當求出各對的差值,然后考察樣本中差值的分布是否按照H0假設的情況對稱分布按此分析思路,最終可整理出如前所列的配對交叉表2025年3月19日@文彤老師137方法原理注意主對角線上兩種檢驗方法的結論相同,對問題的解答不會有任何貢獻非主對角線上的單元格才代表了檢驗方法間的差異假設檢驗步驟如下(以四格表為例):H0:B=CH1:B
C2025年3月19日@文彤老師138方法原理2025年3月19日@文彤老師139分層卡方檢驗進一步控制城市的影響,在控制城市影響的前提下得到更準確的家庭收入分級和轎車擁有情況的關聯(lián)程度測量指標。層間差異的檢驗條件獨立性的檢驗2025年3月19日@文彤老師140第17章相關分析與回歸模型的建立與分析
相關分析和回歸分析是統(tǒng)計分析方法中最重要內容之一,是多元統(tǒng)計分析方法的基礎。相關分析和回歸分析主要用于研究和分析變量之間的相關關系,在變量之間尋求合適的函數(shù)關系式,特別是線性表達式。本章主要內容:對變量之間的相關關系進行分析(Correlate)。其中包括簡單相關分析(Bivariate)和偏相關分析(Partial)。建立因變量和自變量之間回歸模型(Regression),其中包括線性回歸分析(Linear)和曲線估計(CurveEstimation)。數(shù)據(jù)條件:參與分析的變量數(shù)據(jù)是數(shù)值型變量或有序變量。9.1相關分析在SPSS中,可以通過Analyze菜單進行相關分析(Correlate),Correlate菜單如圖所示。8.1.1簡單相關分析兩個變量之間的相關關系稱簡單相關關系。有兩種方法可以反映簡單相關關系。一是通過散點圖直觀地顯示變量之間關系,二是通過相關系數(shù)準確地反映兩變量的關系程度。8.1.1.1散點圖SPSS軟件的繪圖命令集中在Graphs菜單。下面通過例題來介紹具體操作方法。例1:數(shù)據(jù)庫中的變量X表示山東省人均國內生產(chǎn)總值,Y表示山東省城鎮(zhèn)居民的消費額(資料來源:山東省2003年統(tǒng)計年鑒),現(xiàn)畫出散點圖來觀察兩個變量的關聯(lián)程度。單擊Graphs
Scatter,打開Scatterplot散點圖對話框,如圖3.2所示。然后選擇需要的散點圖,圖中的四個選項依次是:Simple簡單散點圖
Matrix矩陣散點圖Overlay重疊散點圖
3-D三維散點圖
如果只考慮兩個變量,可選擇簡單的散點圖Simple,然后點擊Define,打開SimpleScatterplot對話框,如圖所示。9.1.1.2簡單相關分析操作簡單相關分析是指兩個變量之間的相關分析,主要是指對兩變量之間的線性相關程度作出定量分析。仍然上題為例,說明居民收入與某商品的銷售量兩變量的相關分析過程,具體操作如下:1、打開數(shù)據(jù)庫后,單擊Analyze
Correlate
Bivariate打開Bivariate對話框,見圖所示。
2、從左邊的變量框中選擇需要考察的兩個變量進入Variables框內,從CorrelationCoefficients欄內選擇相關系數(shù)的種類,有Pearson相關系數(shù),Kendall′s一致性系數(shù)和Spearman等級相關系數(shù)。從檢驗欄內選擇檢驗方式,有雙尾檢驗和單尾檢驗兩種。3、單擊Options按紐,選擇輸出項和缺失值的處理方式。本例中選擇輸出基本統(tǒng)計描述。4、單擊OK,可以得到相關分析的結果。9.1.2偏相關分析簡單相關關系只反映兩個變量之間的關系,但如果因變量受到多個因素的影響時,因變量與某一自變量之間的簡單相關關系顯然受到其它相關因素的影響,不能真實地反映二者之間的關系,所以需要考察在其它因素的影響剔除后二者之間的相關程度,即偏相關分析。例2:為了考察火柴銷售量的影響因素,選擇煤氣戶數(shù)、卷煙銷量、蚊香銷量、打火石銷量作為影響因素,得數(shù)據(jù)表。試求火柴銷售量與煤氣戶數(shù)的偏相關系數(shù).解:根據(jù)數(shù)據(jù)表建立數(shù)據(jù)文件,求解火柴銷售量與煤氣戶數(shù)的偏相關系數(shù)具體操作如下:1、首先打開數(shù)據(jù)文件,單擊Analyze
Correlate
Partial,打開PartialCorrelations對話框,見圖所示。2、從左邊框內選擇要考察的兩個變量進入Variables框內,其它客觀存在的變量作為控制變量進入Controllingfor框內,如本例中考察煤氣戶數(shù)與火柴銷量的偏相關系數(shù)進入Variables框內,其它相關變量(除年份外)進入Controllingfor框內。3、單擊Options按紐,打開Options對話框如圖所示。從Statistics欄中選擇輸出項,有平均值及標準差,Zero-ordercorrelations表示在輸出偏相關系數(shù)的同時輸出變量間的簡單相關系數(shù)。另外還有缺失值的處理方式。本例中選擇簡單相關系數(shù)。4、選擇結束后,單擊OK得輸出結果
表中的上半部分是簡單相關系數(shù),下半部分是偏相關系數(shù)。從表中可以看出,火柴銷量與煤氣戶數(shù)的簡單相關系數(shù)為0.8260,自由度為13,檢驗的P值為0.000;而偏相關系數(shù)為0.6046,自由度為10,檢驗的P值為0.037,表示煤氣戶數(shù)對火柴銷量的真實影響是顯著的。9.2線性回歸分析線性回歸是統(tǒng)計分析方法中最常用的方法之一。如果所研究的現(xiàn)象有若干個影響因素,且這些因素對現(xiàn)象的綜合影響是線性的,則可以使用線性回歸的方法建立現(xiàn)象(因變量)與影響因素(自變量)之間的線性函數(shù)關系式。由于多元線性回歸的計算量比較大,所以有必要應用統(tǒng)計分析軟件實現(xiàn)。這一節(jié)將專門介紹SPSS軟件的線性回歸分析的操作方法,包括求回歸系數(shù),給出回歸模型的各項檢驗統(tǒng)計量值及相應的概率,對輸出結果的分析等相關內容。9.2.1線性回歸模型假設條件與模型的各種檢驗1、線性回歸的假設理論(1)正態(tài)性假設:即所研究的變量均服從正態(tài)分布;(2)等方差假設:即各變量總體的方差是相等的;(3)獨立性假設,即各變量之間是相互獨立的;(4)殘差項無自相關性,即誤差項之間互不相關,Cov(
i,
j)=02、線性回歸模型的檢驗項目(1)回歸系數(shù)的檢驗(t檢驗)。(2)回歸方程的檢驗(F檢驗)。(3)擬合程度判定(可決系數(shù)R2)。(4)D.W檢驗(殘差項是否自相關)。(5)共線性檢驗(多元線性回歸)。(6)殘差圖示分析(判斷異方差性和殘差序列自相關)。9.2.2線性回歸分析的具體步驟
SPSS軟件中進行線性回歸分析的選擇項為Analyze→Regression→Linear。例3.仍然用例2的數(shù)據(jù),考察火柴銷售量與各影響因素之間的相關關系,建立火柴銷售量對于相關因素煤氣戶數(shù)、卷煙銷量、蚊香銷量、打火石銷量的線性回歸模型,通過對模型的分析,找出合適的線性回歸方程。解:建立線性回歸模型的具體操作步驟如下:1、打開數(shù)據(jù)文件,單擊Analyze
Regression
Linear打開Linear對話框如圖所示。2、從左邊框中選擇因變量Y進入Dependent框內,選擇一個或多個自變量進入Independent框內。從Method框內下拉式菜單中選擇回歸分析方法,有強行進入法(Enter),消去法(Remove),向前選擇法(Forward),向后剔除法(Backward)及逐步回歸法(Stepwise)五種。本例中選擇逐步回歸法(Stepwise)。3、單擊Statistics,打開LinearRegression:Statistics對話框,可以選擇輸出的統(tǒng)計量如圖所示。RegressionCoefficients欄,回歸系數(shù)選項欄。Estimates(系統(tǒng)默認):
輸出回歸系數(shù)的相關統(tǒng)計量:包括回歸系數(shù),回歸系數(shù)標準誤、標準化回歸系數(shù)、回歸系數(shù)檢驗統(tǒng)計量(t值)及相應的檢驗統(tǒng)計量概率的P值(sig)。本例中只選擇此項。Confidenceintervals:輸出每一個非標準化回歸系數(shù)95%的置信區(qū)間。Covariancematrix:
輸出協(xié)方差矩陣。與模型擬合及擬合效果有關的選擇項。Modelfit是默認項。能夠輸出復相關系數(shù)R、R2及R2修正值,估
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋抵欠款合同范本
- 護理床出租合同范本
- 家庭貼瓷磚合同范本
- 大包鏟車租賃合同范本
- 要拆遷租房合同范本
- 農(nóng)村房屋建設合同范本
- 空氣細菌培養(yǎng)操作
- 企業(yè)家創(chuàng)業(yè)成功的秘訣
- 2009-2022年體育單招語文字音、字形成語真題
- 2020年單獨招生職業(yè)適應性測試卷(樣題)
- 2024年遼寧省葫蘆島市高三下學期一模生物試題及答案
- 護理查房-急性淋巴細胞白血病課件
- 小學語文群文閱讀知識講座
- H型鋼規(guī)格表格
- 顱骨修補術后護理健康指導
- 2024年江西省成考(專升本)計算機應用基礎考試真題含解析
- 現(xiàn)代制造技術課件
- 贛政通管理員操作手冊
- 燴面館企業(yè)計劃書
- 2-水泥熟料組成
- 2024年白銀有色集團股份有限公司招聘筆試參考題庫含答案解析
評論
0/150
提交評論