Feng筆記-SPSS操作中的各種檢驗統(tǒng)計量和判別準則(完整手冊10天完成)_第1頁
Feng筆記-SPSS操作中的各種檢驗統(tǒng)計量和判別準則(完整手冊10天完成)_第2頁
Feng筆記-SPSS操作中的各種檢驗統(tǒng)計量和判別準則(完整手冊10天完成)_第3頁
Feng筆記-SPSS操作中的各種檢驗統(tǒng)計量和判別準則(完整手冊10天完成)_第4頁
Feng筆記-SPSS操作中的各種檢驗統(tǒng)計量和判別準則(完整手冊10天完成)_第5頁
已閱讀5頁,還剩59頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Feng筆記-SPSS操作中的各種檢驗統(tǒng)計量和判別準則(完整手冊10天完成)SPSS?作中的各種檢驗統(tǒng)計量和判別準則(馮登超整理20113.16—3.25)專題一回歸分析1一元線性回歸分析(Analyze->Regression,Linear)(1)擬合優(yōu)度檢驗:檢驗樣本數(shù)據(jù)聚集在樣本回歸直線周圍的密集程度,從而判斷回歸方程對樣本數(shù)據(jù)的代表程度。擬合優(yōu)度用判定系數(shù)R2實現(xiàn)。0R21。R2越接近1,說明回歸直線的擬合程度越好。R2越接近0,說明回歸直線的擬合程度越差。(2)回歸方程的顯著性檢驗(F檢驗)回歸方程的顯著性檢驗是對因變量和所有自變量之間的線性關(guān)系是否顯著的一種假設(shè)檢驗。如果零假設(shè)Ho成立,Ho:010,說明回歸總體是無顯著線性的,即所有自變量對y沒有顯著的線性作用;反之說明回歸總體存在線性關(guān)系。若F值大于臨界值Fa(1,n2),pa(顯著性水平))則拒絕原假設(shè)(回歸總體無顯著線性關(guān)系),接受被選假設(shè)。若F值小于臨界值Fa(1,n2),pa(顯著性水平),接受原假設(shè),回歸總體有顯著線性關(guān)系。即在ANOVA表中,若Sig<0.05,有顯著差異,(Ho假設(shè)為x,y之間無顯著線性關(guān)系),說明自變量x和因變量y之間確實有線性回歸關(guān)系。回歸方程的顯著性檢驗只能檢驗所有回歸系數(shù)是否與零有顯著性差異,若無顯著性差異,則接受零假設(shè),回歸總體不存在線性關(guān)系。(3)回歸系數(shù)的顯著性檢驗(t檢驗)回歸系數(shù)顯著性檢驗一般采用t檢驗方法。如果雙側(cè)t檢驗中,t的絕對值大于臨界值(或者(p<a),則拒絕原假設(shè),接受被選假設(shè),說明x對y有顯著影響;若t的絕對值小于臨界值的絕對值(p>a),則接受原假設(shè),說明x對y沒有顯著影響。在一元線性回歸分析中,回歸方程的顯著性檢驗可以代替回歸系數(shù)的顯著性檢驗,并且F=t2。但是,在一般的多元回歸條件下兩種檢驗要說明的問題不同,作用不同,不能相互替代。在Coefficients表中,t為回歸系數(shù)檢驗統(tǒng)計量,Sig為相伴概率值p。若p<0.05,說明回歸系數(shù)和0有顯著差別,說明該回歸方程有意義。在UseprobalitityofF:當一個自變量的F統(tǒng)計量的相伴概率值Sig<=0.05時,拒絕H0,認為該變量對因變量影響是顯著的,應該引入回歸方程;若一個自變量的F統(tǒng)計量的Sig>=0.10時,不能拒絕Ho,認為該變量對因變量的影響是不顯著的,應從回歸方程中剔除。在UseFvalue中,表示以回歸系數(shù)顯著性檢驗中的各自變量的F統(tǒng)計量作為自變量進入模型或從模型剔除的準則。在變量的選擇/剔除中,Entry(默認值3.84),表示當一個變量的F值》=3.84時,該變量被選入模型;Removal(默認值2.71),表示當一個變量的F值<=2.71時,該變量從模型中被剔除。2.多元線性回歸分析研究兩個或兩個以上自變量對一個因變量的數(shù)量變化關(guān)系。(1)擬合優(yōu)度檢驗0R21,R2越接近1,說明回歸平面的擬合程度越好。R2越接近0,說明回歸平面的擬合一一、—一……2程度越差。修正的R考慮的是平均的殘差平方一.一-A_A2和)在線性回歸分析中)R越大越好。(2)回歸方程的顯著性檢驗(F檢驗)若F值較大,說明自變量造成的因變量的變動遠遠大于隨機因素對因變量造成的影響外,F(xiàn)統(tǒng)計量也能反映回歸方程的擬合優(yōu)度。若回歸方程的擬合優(yōu)度高,F(xiàn)統(tǒng)計量越顯著;F統(tǒng)計量越顯著;回歸方程的擬合優(yōu)度越高。F檢驗中,H0假設(shè)是,設(shè)各個系數(shù)i=0,即各個自變量與因變量無線性關(guān)系。若FFa(k,nk1)或pa(顯著性水平))則拒絕原假設(shè)H0,認為所有回歸系數(shù)同時與零有顯著差異,自變量與因變量之間存在顯著的線性關(guān)系,自變量的變化確實能反映因變量的線性變化,回歸方程顯著。若FFa(k,nk1)或pa(顯著性水平))接受原假設(shè)H0,認為所有回歸系數(shù)同時與零無顯著差異,自變量和因變量之間不存在顯著的線性關(guān)系,自變量的變化無法反映因變量的線性變化,回歸方程不顯著。(3)回歸系數(shù)的顯著性檢驗(t檢驗)回歸系數(shù)的顯著性檢驗是檢驗各個自變量Xk對因變量y的影響是否顯著,從而找出哪些自變量對y的影響是重要的,哪些是不重要的。H0假設(shè)為:i0,i1,2…k。若零假設(shè)成立,說明Xk對y沒有顯著影響,即自變量與因變量的線性關(guān)系不明顯,反之,說明Xk對因變量y具有顯著的影響。采用t檢驗。若|t|ta(nk1)或者p<a,拒絕原假設(shè)H0,認為該回歸系數(shù)與零有顯著差異,該自變量與因變量之間存在顯著的線性關(guān)系,它的變化確實能較好地反映因變量的線性變化,應該保留在回歸方程中。若|t|ta(nk1)-2或者p>a,接受原假設(shè)H0,認為該回歸系數(shù)與零無顯著差異,該自變量與因變量之間不存在顯著的線性關(guān)系,它的變化無法反映因變量的線性變化,應該剔除出回歸方程中。Analyze->Regression->LinearRegression,在Correlations表中,可以分析各個變量之間的相關(guān)系數(shù)。相關(guān)系數(shù)越大,說明各變量越相關(guān)。ModelSummary表中,分析R,Rsquare,利用該值看樣本回歸效果。該值越大,說明樣本數(shù)據(jù)和回歸方程的擬合度越高。即分析樣本的回歸效果。Anova表,(方差分析表),利用統(tǒng)計量F和相伴概率Sig,同時分析多個自變量和因變量之間是否存在線性回歸關(guān)系。Coefficients回歸系數(shù)表,利用t分布的Sig值分析全部自變量和因變量之間是否存在顯著線性關(guān)系。ResidualsStatistics表,分析各個殘差結(jié)果。.非線性回歸分析研究在非線性相關(guān)條件下,自變量對因變量的數(shù)量變化關(guān)系。其中,多項式模型在非線性回歸分析中占據(jù)重要地位。當因變量和自變量之間的關(guān)系未知時,可以用適當每次的多項式近似反映。(1)在Graphs菜單中的Correlate中選擇Scatter命令,—>SimpleScatterplot,觀察散點圖,初步?jīng)Q定是哪些曲線比較合適。(2)進一步判斷篩選后的這些曲線中,哪種與樣本觀察值的擬合優(yōu)度更高。利用R2分析各個曲線的擬合優(yōu)度,該值越大,說明該值對應的曲線擬合優(yōu)度更高。最后,再觀察幾種曲線預測值的曲線圖,觀察各類型曲線的擬合效果。最終,確定一種曲線方程。.曲線估計當不知道該選擇哪種函數(shù)模型更接近樣本數(shù)據(jù)時,采用曲線擬合。方法:先根據(jù)實際問題,同時選擇多種模型。(2)計算R2、F檢驗值、相伴概率Sig。(3)選擇具有R2統(tǒng)計量值最大的模型作為此問題的回歸模型,并作些預測。Analyze->Regression->CurveEstimation,觀察CurveFit表中的r2值,分析比較后,選擇該值最大的曲線模型最合適。再觀察其觀察值和各種函數(shù)模型條件下預測值的對比圖,分析各種曲線,看看哪種曲線對觀測值的擬合優(yōu)度更好。然后,在輸出的FIT_1(選取曲線1時的預測結(jié)果值)、Err_1(曲線1下的殘差卜LCL_1UCL_1為預測值95%的可信區(qū)間的下限和上限。另I的曲線類似。在DisplayANOVA表中,做回歸方程的顯著性檢驗,觀察t分布下對用的Sig值。若Sig<0.05,說明顯著相關(guān)。5時間序列的曲線估計時間序列曲線估計是分析社會和經(jīng)濟現(xiàn)象中常用的一種曲線估計。通常把時間設(shè)為自變量,代表具體的經(jīng)濟或社會現(xiàn)象的變量設(shè)為因變量。Analyze->Regression->CurveEstimation,將應變量Y選入Dependent中,其他選入Independent中,同時選中Time項。再選中多種曲線模型,分析CurveFit表中的R2,取得R2值最大的曲線(說明該曲線的擬合優(yōu)度最好)。同時,得到FIT_1,FIT_2等值(不同曲線函數(shù)對應的回歸分析結(jié)果的預測值)。再輸出曲線預測值的對比圖。.含虛擬自變量的回歸分析對于非數(shù)量型變量,如性別、季節(jié)等,回歸模型的參數(shù)不再是固定不變的。計算時,先對定性變量做數(shù)量化處理,如1—男,0—女。舉例1,對于自變量只有一個定性變量,且定性變量只有兩種特征時,回歸模型y0Mi2D;自變量中含有多個定性變量時,同時考慮定性變量及其之間的交互影響。y01D12D23DQ24x15X2Analyze->Regression->Linear,y選入Dependent中,其它選入Independent中,在ModelSummary中,觀察R2值,該值越大,說明樣本回歸方程代表性越強。在ANOVA表中,觀察F值和Sig值。若Sig<0.05,說明自變量和因變量有線性回歸關(guān)系。最后,觀察Coefficients表,觀察t分布的相伴系數(shù)Sig。.若Sig值<0.05,說明回歸系數(shù)和0有明顯差別,回歸方程有意義。.邏輯回歸分析實際情況中,因變量是定性變量時。如:某人是否購買汽車。處理定性因變量的方法有判別分析、Probit分析,Logistics分析、對數(shù)分析。其中,Logistics分析是最多應用的。模型參數(shù)估計后,進行檢驗的統(tǒng)計量⑴-2對數(shù)似然值(—2loglikelihood,-2LL),用于檢驗Logistics回歸中的顯著性,反映了在模型中包括了所有自變量后的誤差,用于處理因變量無法解釋的變動部分的顯著性水平。當一2LL的實際顯著性水平大于給定顯著性水平a時,因變量的變動中無法解釋的部分是不顯著的,意味著回歸方程的擬合程度是最好的。(2)擬合優(yōu)度(GoodnessofFit)統(tǒng)計量,反映擬合效果。Cox&SnellR-Square。它是在似然值基礎(chǔ)上模擬線性回歸模型的R2解釋LOGISTIC回歸模型,一般小于1.該值越趨于1,回歸效果越好。NagelkerkeR-Square,它與R2接近,但小于1.HosmerandLemeshow'sGoodnessofFitTestStatistic擬合優(yōu)度檢驗統(tǒng)計量。根據(jù)卡方分布,計算Sig值,若p<a(顯著性水平),拒絕因變量的觀測值和模型觀測值不存在差異的零假設(shè),表明模型的預測值和觀測值存在顯著差異。若p>a,接受零假設(shè),說明在可接受的水平上的估計擬合了數(shù)據(jù)。Wald統(tǒng)計量:用于判別一個變量是否應該包含著模型中。Wald統(tǒng)計量大者(或Sig值?。╋@著性高,也就更重要。因此,Wald可以考察每個自變量在回歸方程中的重要性。Analyze-regression->BinaryLogistics,在IterationHistory表中,得到一2LL的數(shù)值。在ClassificationTable中,可以得出定性因變量的分類的準確性百分比;在ModelSummary中,列出了-2LL,COX&SnellRsquare和NagelkerkeRSquare統(tǒng)計結(jié)果。HosmerandLemeshowTest表中,若Sig>0.05,說明在可接受的水平上的估計擬合了數(shù)據(jù)。IterationHistory表格中,列出各個步驟的回歸結(jié)果系數(shù);在ClassitionTable中)可以分析定性應變量的準確性。在VariablesintheEquation中,可以看出Wald數(shù)據(jù)和Sig.Wald數(shù)據(jù)值越大,說明該自變量在回歸方程中越重要。CorrelationMatrix表格中)列出各個系數(shù)和常數(shù)的相關(guān)性。數(shù)值越大,也就越相關(guān)。在CasewiseList中)列出殘差較大的個案)標記*說明該個案的回歸結(jié)果錯誤。專題二相關(guān)分析衡量事物之間、變量之間線性相關(guān)程度的強弱并用適當?shù)慕y(tǒng)計指標表示,即為相關(guān)分析。常用方法為繪制散點圖(該方法不精確)準確描述變量之間的線性相關(guān)程度一相關(guān)系數(shù)。樣本相關(guān)系數(shù)r取值范圍在[1,1]其中,(1)若0r1,表明變量之間存在正相關(guān)關(guān)系,即兩個變量的相隨變動方向相同。(2)若1r0,表明變量之間存在負相關(guān)關(guān)系,即兩個變量的相隨變動方向相反。(3)若irl1,完全相關(guān);irl0,完全不相關(guān),說明變量間無線性關(guān)系。(4)irl0.8,高度相關(guān);0.5|r|0.8,中度相關(guān);0.3irl0.5,低度相關(guān);|r|0.3,說明變量之間的相關(guān)程度極弱,可視為不相關(guān)。為了判斷樣本相關(guān)系數(shù)是否能代表總體相關(guān)程度,需要對相關(guān)系數(shù)做假設(shè)檢驗。(1)假設(shè)總體相關(guān)性為0,即H0為兩總體無顯著線性相關(guān)關(guān)系;(2)其次,計算相應的統(tǒng)計量,得到對應的相伴概率值Sig。若Sig小于等于指定的顯著性水平,則拒絕H0,認為兩總體存在顯著線性相關(guān)關(guān)系;若Sig值大于指定的顯著性水平,則不能拒絕H0,認為兩總體不存在顯著的線性相關(guān)關(guān)系。二元定距變量的相關(guān)分析Pearson簡單相關(guān)系數(shù)恒定定距變量的線性關(guān)系,其統(tǒng)計量是t統(tǒng)計量,服從n-2個自由度的t分布。Analyze->Correlate->Bivariate,選中雙側(cè)檢驗(Two-tailed),可以檢驗兩個變量之間的相關(guān)取向(正相關(guān)/負相關(guān))。在Correlations中,檢查r值以及對應的Sig值。如果Sig0.01,說明兩變量間顯著相關(guān)。若對變量間的相關(guān)程度不需要掌握的太精確,可以通過繪制變量的相關(guān)散點圖直接判斷。Graphs->Scatter->Simple,觀察散點圖,看看是否存在線性相關(guān)。二元定序變量的相關(guān)分析定序變量又稱順序變量,它的取值大小能夠表示觀測對象的某種順序。Spearman和Kendallstua-b等級相關(guān)系數(shù)用以衡量定序變量之間的線性相關(guān)關(guān)系。在Spearman等級相關(guān)系數(shù)的統(tǒng)計檢驗中,若個案數(shù)n30直接利用Spearman計算(查Spearman等級相關(guān)統(tǒng)計量表,SPSS自動根據(jù)該表給出Sig),若個案數(shù)>30,將計算Z統(tǒng)計量(Z近似服從正態(tài)分布),SPSS將給出正態(tài)分布表對應的相伴概率。在Kendall'stua-b等級相關(guān)系數(shù)的統(tǒng)計檢驗,若個案數(shù)n30直接利用Spearman計算(查Kendall'stua-b等級相關(guān)統(tǒng)計量表,SPSS自動根據(jù)該表給出Sig),若個案數(shù)>30,將計算Z統(tǒng)計量(Z近似服從正態(tài)分布),SPSS將給出正態(tài)分布表對應的相伴概率。Analyze->Correlate->Bivariate,對于得至的NonparametricCorrelations表,觀察相關(guān)系數(shù)和Sig.若如果Sig0.01,說明兩變量間顯著相關(guān)。偏相關(guān)分析單純計算簡單相關(guān)系數(shù),無法準確反映事物之間的相關(guān)關(guān)系,而應該在剔除其他相關(guān)因素影響下計算相關(guān)系數(shù)。偏相關(guān)分析即解決該問題。偏相關(guān)分析一當兩個變量同時和第三個變量相關(guān)時,將第三個變量的影響剔除,只分析另外兩個變量之間的相關(guān)程度的過程。即計算偏相關(guān)系數(shù)。Analyze->Correlate->Partial—>PartialCorrelations,將需要剔除的變量選入ControllingFor對話框中。選擇Two-tailed檢驗。在輸出的PartialCorr表中,將顯示變量兩兩之間的Pearson簡單相關(guān)系數(shù),然后顯示便相關(guān)分析結(jié)果,包括去除剔除了變量后的二變量的偏相關(guān)系數(shù),Sig。對于有多個相關(guān)變量時,簡單相關(guān)系數(shù)有夸大的成分,而偏相關(guān)系數(shù)更符合實際。如果Sig0.01,說明兩變量間顯著相關(guān)。距離相關(guān)分析距離相關(guān)分析是對觀測量之間或變量之間相似或不相似程度的一種預測。根據(jù)統(tǒng)計量不同分為不相似性測量(通過計算樣本間的距離或變量間的距離)、相似性測度(通過Pearson相關(guān)系數(shù)或Cosine相關(guān)表示)。根據(jù)分析對象不同,分為樣本間分析(樣本與樣本之間的距離相反分析)、變量間分析(變量和變量之間的距離相反分析)。(1)變量之間的相似性測量分析Analyze->Correlate->Distances,可以選擇變量之間的距離相關(guān)分析(Betweenvariable),Measure欄中選擇Similarities相似性測距)點擊Measure…按鈕)在彈出的Distance:SimliarityMeasure,再確定Interval(定距變量))選擇Pearsoncorrelation項。在Proximities表中)即ProximityMatrix表中,可以看到各個變量之間的相關(guān)系數(shù)(Perason相關(guān)系數(shù))(2)變量之間的不相似性測量分析Analyze->correlate->distance,Measure中選擇Dissimilarities)單擊Measure按鈕)選Interval,并選擇Euclideandistance項)不對變量做標準化處理。在ProximityMatrix表中)看到EuclideanDistance距離值越大,說明變量間的相似性越小。(3)個案之間的相似性測量分析Analyze->correlate->distance,選擇betweencases(做個案之間的距離相關(guān)分析),選擇Simliarities)做相似性測量。Measure中選擇Interval中的Pearsoncorrelation。在ProximityMatrix表中)看到Perason系數(shù)值,值越大,說明變量間的相似性越大。(4)個案之間的不相似性測量分析Analyze->correlate->distance,選擇betweencases^(做個案之間的距離相關(guān)分聽))選擇Dissimilarities‘做相似性測量。Measure中選擇Interval中的Pearsoncorrelation.在ProximityMatrix表中)看到EuclideanDistance距離,距離越小,說明變量間的相似性越大。專題3方差分析方差分析是用于兩個以及兩個以上樣本均數(shù)差別的顯著性檢驗。方差分析的基本思想是:通過分析研究中不同變量的變異對總變異的貢獻大小,確定控制變量對研究結(jié)果影響力的大小。通過方差分析,分析不同水平得控制變量是否對結(jié)果產(chǎn)生了顯著影響。如果控制變量的不同水平對結(jié)果產(chǎn)生了顯著影響,那么它和隨機變量共同作用,必然使得結(jié)果有顯著變化;如果控制變量的不同水平對結(jié)果沒有顯著的影響,那么結(jié)果的變化主要是由隨機變量起作用,和控制變量的關(guān)系不大。根據(jù)控制變量的個數(shù),可以將方差分析分為單因素方差分析(只有一個控制變量)和多因素方差分析(多個控制變量)。單因素方差分析單因素方差分析測試某個控制變量的不同水平是否給觀察變量造成了顯著差異。對于兩組以上的均數(shù)比較,必須使用方差分析(當然方差分析也可以用于兩組均數(shù)比較。方差分析一個嚴格的前提條件:在不同水平下,各總體均值服從方差相同的正態(tài)分布。計算采用F統(tǒng)計量,進行F檢驗。若控制變量的不同水平對觀察變量有顯著影響,那么觀察變量的組間離差平法和必然大,F(xiàn)值也就比較大;若控制變量的不同水平?jīng)]有對觀察變量造成顯著影響,則組內(nèi)離差平方和影響會比較大,F(xiàn)值比較小。SPSS依據(jù)F分布表給出相應的相伴概率值Sig。若Sig<a(顯著性水平),就拒絕零假設(shè),認為控制變量再不同水平下各總體均值有顯著差異;反之認為無顯著差異?!杜袆e準則》Analyze->CompareMeans->One-wayAnova,在option中利用Homogeneityofvariancetest做方差相等檢驗。若Sig小于或等于顯著性水平a,拒絕零假設(shè),認為各水平下總體方差不等。若Sig大于顯著性水平a,接受零假設(shè),認為各水平下總體方差相等。該步驟僅能判別出控制變量的不同水平是否對觀察變量差生了顯著影響。若想進一步了解究竟是那一組和其他組有顯著的均值差別,需要在多個樣本均數(shù)間兩兩比較。(方差分析的前提是各個水平下的總體服從方差相等的正態(tài)分布,其中正態(tài)分布的要求不是很嚴格,但是對于方差相等的要求比較嚴格)PostHoc—>One-wayANOVA:PostMultipleComparisons,可以選擇多種比較方法。選擇LSD和S-N-K顯著性檢驗法。接著可以進行單因素方差分析的多項式檢驗(即將組間平方和分解為線性、高次多項式,在方差分析結(jié)果中,可以輸出組間平方和,還可以顯示組間平方和的各個分解結(jié)果以及F統(tǒng)計量和相伴概率。在Polynomial選項中,在Degree下拉框中指定Linear,做線性分解。(組間平方和作線性分解,實質(zhì)上是對結(jié)果和控制變量進行一次線性回歸分析,計算回歸平方和,并對回歸方程進行檢驗,給出F統(tǒng)計量和相伴概率Sig。若Sig>a(顯著性水平),說明控制變量的各個觀察水平無法反映結(jié)果的線性變化,即認為控制變量的不同水平對結(jié)果的線性影響不顯著;反之,認為結(jié)果隨著控制變量的不同水平的變化產(chǎn)生了線性變化。輸出結(jié)果表格:TestofHomogeneityofVariances,檢查Sig值,若果Sig>a(a-0.05,顯著性水平),認為各個組總體方差相等,滿足方差檢驗的前提條件。ANOVA表,Between中方差檢驗的F值及相伴概率Sig。若Sig<a(a=0.05,顯著性水平),拒絕零假設(shè),說明各水平中至少有一個水平和別的水平有明顯區(qū)別,或者各個水平間都存在顯著區(qū)別。表中還可看到總的離差平方和TotalSumofSquare;控制變量不同水平造成的組間平方和(Between(Combined)SumofSquares),其中能被線性解釋的平方和(LinearTerm,Constrast,sumofsquares),不能被線性解釋的平方和Divation;隨機變量造成的組內(nèi)平方和(WithinGroupsSumofSquares)。在MultipleComparisons表中,LSD(最小顯著差法)多重比較結(jié)果,可以分析各組的Sig值,若Sig<a,則各組之間存在顯著差別。在S-N-K法多重比較(通常在方差分析拒絕H0時用SNK—q),觀察Sig.多因素方差分析多因素方差分析中的控制變量是在兩個或兩個以上,研究目的是分析多個控制變量的作用、多個控制變量的交互作用以及其它隨機變量是否對結(jié)果產(chǎn)生了顯著的影響。它將觀察變量總的離差平方和分解為:多個控制變量單獨作用引起的平方和、多個控制變量交互作用引起的離差平方和;其它隨機因素引起的離差平方和。采用F檢驗,其零假設(shè)H0為多個控制變量的不同水平下,各總體均值沒有顯著差異。若F控制變量1的相伴概率Sig<=a,則第一個控制變量的不同水平對觀察變量產(chǎn)生了顯著影響;F控制變量2的相伴概率Sig<=a,則第2個控制變量的不同水平對觀察變量產(chǎn)生了顯著影響;F控制變量1,2的相伴概率Sig<=a,則第一個控制變量和第二個控制變量各水平交互作用對觀察變量產(chǎn)生了顯著影響;反之認為不同水平對結(jié)果無顯著影響。Analyze->GeneralLinearModel中,選擇Univariate命令,將觀察變量y選入DependentVariable(應變量),將其它控制變量x選入FixedFactor。首先利用Homogeneitytests對個水平下總體進行方差相等的檢驗。上述步驟只能判別兩個控制變量的不同水平是否對觀察變量產(chǎn)生了顯著影響。若想進一步了解究竟是哪個組和其他組有顯著的均值差別,需要進行多樣本均數(shù)間的兩兩比較。按如下步驟,即:在PostHoc->Univariate:PostHocMultipleComparisonsforObservedMeans對話框,選擇需要進行比較分析的控制變量,如“GROUP變量”,將其添加到PostHocTestsfor對話框中,然后選擇比較方法。如LSD和SNK顯著性檢驗法。在MODEL中,可以選擇FULLfactorial模型,即將觀察變量的總的變異平方和分解為多個控制變量對觀察變量的獨立作用部分、多個控制變量交互作用部分,以及隨機變量影響部分。選擇Plots按鈕,打開Univariate:Profileplots對話框,在factor中,選擇Profileplots對話框中的內(nèi)容。若各個控制變量間沒有交互作用,各水平對應的圖形近似平行,否則相交。然后,選擇Contrasts,再選擇Contrasts對話框中的內(nèi)容,可以對控制變量在各個水平上的觀察變量的差異進行對比檢驗。結(jié)果表格分析⑴Leven'sTestofEqualityofErrorVariances表格,它是采用Homogeneityofvariancetest計算結(jié)果,觀察Sig,若Sig<0.05,認為各個組的總體方差相同。(2)TestsofBetween-SubjectsEffects表。該表是多因素方差分析的主要部分。采用建立飽和模型,可以得到各組別及其交互作用的SumofSquare,觀察對應的F值及Sig值。若Sig<0.5,說明控制量對觀察結(jié)果無顯著影響。對于隨機變量影響Error,分析sig.(3)對于ContrastResults(KMatrix),觀察各組別間的相伴概率SIG,若低于顯著性水平,則各組間的差異顯著。(4)PostHocTests。在MultipleComparisons中,可以看各水平的Sig,分析是否顯著。(5)最后觀察ProfilePlots圖。若各直線之間近似平行,說明沒有顯著交互作用。3.3協(xié)方差分析協(xié)方差分析是將那些很難控制的因素作為協(xié)變量,在排除協(xié)變量影響條件下,分析控制變量對觀察變量的影響,從而更準確的對控制因素進行評價。協(xié)方差將那些很難控制的隨機變量作為協(xié)變量,在分析中將其排除,在分析控制變量對觀察變量的影響,實現(xiàn)對控制變量效果的準確評價。協(xié)方差分析要求協(xié)變量是連續(xù)數(shù)值型,多個協(xié)變量間相互獨立,且與控制變量之間無交互影響。協(xié)方差分析中既包含定性變量(控制變量),又包含定量變量(協(xié)變量)。采用F分布,給出相應的相伴概率值Sig。若F控制變量的相伴概率Sig<=a(顯著性性水平),則控制變量的不同水平對觀察變量產(chǎn)生顯著影響。若F協(xié)變量的相伴概率Sig<=a(顯著性性水平),則協(xié)變量的不同水平對觀察變量產(chǎn)生顯著影響。Analyze->GeneralLinearModel->Univariate,將觀察變量放入D叩endentVariable中,將控制變量放入FixedFactor中,將協(xié)變量放入Covariate中。TestsofBetween-SubjectsEffects表,是協(xié)方差分析計算的結(jié)果??偟碾x差和TotalSumofSquare,各個控制變量和協(xié)變量的SumofSquares計算值,F(xiàn)值及Sig。若控制變量Sig值<a,說明控制變量對觀察變量造成顯著影響;若協(xié)變量的Sig值<a,說明協(xié)變量對觀察變量造成顯著影響專題4均值比較和T檢驗T檢驗法主要應用在兩個樣本間的比較。Means過程Means過程是按照用戶指定條件,對樣本進行分組計算均數(shù)和標準差。Analyze->CompareMeans,選擇Mean.將觀測變量y放入DependentLIST中,將分組變量放入Independentlist中,在STATISTICSFORFirstLayer中,若選中Anova他病了安定eta,則將為第一層次的分組計算防擦和分析。單一樣本T檢驗單樣本T檢驗是檢驗某個變量的總體均值和某指定值之間是否存在顯著差異。統(tǒng)計的前提是樣本總體服從正態(tài)分布。單樣本T檢驗的零假設(shè)是H0總體均值和指定檢驗值之間不存在顯著差異。若SIG<=a(顯著性水平),拒絕H0,認為總體均值和檢驗值之間存在顯著差異。Analyze->CompareMeans->One-SampleTtest,將固定值填入Testvalue,將觀察變量加入到Testvariable中。One-SampleTeast表中,95%confidenceintervalofthedifference包括95%的置信區(qū)間。Sig>a,說明不能拒絕H0,認為樣本均值和總體均值無顯著變化。兩獨立樣本T檢驗獨立樣本是指兩個樣本之間彼此獨立,沒有任何關(guān)聯(lián)。兩個獨立樣本各自接受相同的測量,研究的目的是了解兩個樣本之間是否存在顯著差異。前提:兩個樣本相互獨立;樣本來自的兩個總體服從正態(tài)分布。兩獨立樣本T檢驗的零假設(shè)H0:兩總體均值之間不存在顯著差異。計算過程(1)利用F檢驗判斷兩總體方差是否相同;即采用LeveneF方法檢驗兩總體方差是否相同。利用F統(tǒng)計量,根據(jù)Sig和顯著性水平a比較。若Sig<a,說明存在顯著差異,即方差不相同。(2)根據(jù)第一步結(jié)果,進行T檢驗。若待檢驗的兩樣本均值差異小,t值較小,則說明兩個樣本的均值不存在顯著差異;反之,t值越大,說明兩樣本均值存在顯著差異。此外,若Sig<a,拒絕H0,認為兩總體均值間存在顯著差異;反之,認為兩均值之間無顯著差異。Analyze->CompareMeans->Independent-samples)將觀察變量力口入TestVariables,在DefineGroups按鈕中)一>usespecifiedvalues.Independentsamplestest表中)觀察F檢驗的Sig值,T檢驗的Sig值。兩配對樣本T檢驗根據(jù)樣本數(shù)據(jù)對樣本來自的兩配對總體的均值是否有顯著性差異進行推斷。一般用于同一研究對象分別給予兩種不同的處理的效果比較,及同一研究對象處理前后的效果比較。前者推斷兩種效果有無差別,后者推斷某種處理是否有效果。T檢驗的零假設(shè)H0是兩總體均值之間不存在顯著差異。若T檢驗的t值對應的Sig<=a,拒絕H0,認為兩總體均值之間存在顯著差異Analyze->CompareMeans->Pared-SamplesTtest,將配對變量加入PairedVariables中。PairedSamplesTest表中,將分別分析t值和Sig值,確定配對樣本是否有顯著差異。若有,說明經(jīng)過技術(shù)革新后,結(jié)果有效果。專題5統(tǒng)計描述.均值Mean:表示某變量所有取值的集中趨勢或平均水平。均值標準誤差(S.E.mean),描述樣本均值和總體均值之間平均差異程度的統(tǒng)計量。Analyze->DescriptiveStatistics)選擇Frequence->Statistics。.中位數(shù)(Median):把一組數(shù)據(jù)按遞增/減的順序排列,處于中間位置的變量值就是中位數(shù)。它代表一種位置,不會受到極端數(shù)值的影響,具有較高的穩(wěn)健性。若N為偶數(shù),中位數(shù)是N/2和N/2+1位置上的兩個數(shù)值的平均數(shù)。Analyze->DescriptiveStatistics)—>Frequencies。選擇Mediano.眾數(shù)(Mode):一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值。眾數(shù)描述數(shù)據(jù)的集中趨勢。Analyze->DescriptiveStatistics)一'Frequencies。.全距(Range):數(shù)據(jù)的最大值和最小值之間的絕對差。在相同樣本容量下的兩組數(shù)據(jù),全距大的一組數(shù)據(jù)會比全局小的一組數(shù)據(jù)更分散。Analyze->DescriptiveStatistics)—'Frequencies5.方差(Variance)和標準差(StandardDeviation):方差和標準差越大,說明變量之間的差異越大,距離平均數(shù)這個中心的離散趨勢越大oAnalyze->DescriptiveStatistics->Descriptives.四分位數(shù)(Quartiles)、十分位數(shù)(Deciles)、百分位數(shù)(Percentiles)。Q3到Q1的距離的一般稱為四分位差。四分位差越小,說明數(shù)據(jù)越集中。若n+1恰好不是4的倍數(shù),則四分位數(shù)是與該數(shù)的小數(shù)相鄰的兩個整數(shù)位上的標志值的平均數(shù),權(quán)數(shù)取決于整數(shù)位的距離,越近,權(quán)數(shù)越大。如2.75項,貝UQ1=0.25*^2<+0.75X^3項。Analyze->DescriptiveStatistics->Frequencies.頻數(shù)Frequency:一個變量在各個變量值上的個案數(shù)。它可以得到變量取值的分布情況。Analyze->DescriptiveStatistics->Frequencies8峰度(Kurtosis):峰度是描述某變量所有取值分布形態(tài)陡緩程度的統(tǒng)計量。峰度為0說明數(shù)據(jù)分布和正態(tài)分布的陡緩程度相同;峰度大于0表明比正態(tài)分布的高峰更陡峭,為尖峰。峰度小于0,說明比正態(tài)分布的高峰平坦,為平頂峰。8偏度(Skewness):描述變量取值分布的對稱性。該統(tǒng)計量是與正態(tài)分布比較的量。偏度=0,說明數(shù)據(jù)分布形態(tài)與正態(tài)分布的偏度相同;偏度>0,為正偏或右偏,即有一條長尾巴拖在右邊;偏度小于0,表示負偏或左偏,有一條長尾巴拖在左邊。而偏度的絕對值數(shù)值越大表示分布形態(tài)的斜偏程度越大。10標準化Z分數(shù):計算公式ZJ。將原始數(shù)據(jù)直接轉(zhuǎn)換為Z分數(shù),常常出現(xiàn)負數(shù)和帶小數(shù)點的值。對Z分數(shù)進一步轉(zhuǎn)換,使之稱為正數(shù)。T分數(shù)。T10Z50.Analyze->DescriptiveStatistics->Descriptives11探索分析:探索內(nèi)容:首先檢查數(shù)據(jù)是否有錯誤,然后獲得數(shù)據(jù)分布特征;最后對數(shù)據(jù)規(guī)律進行初步觀察。探索分析方法:獲得統(tǒng)計量和圖形。正態(tài)分布檢驗:Q-Q圖。斜線為正態(tài)分布的標準線。方差的齊次性檢驗:Levene檢驗,若Sig〈0.05,則拒絕方差相同假設(shè)。Analyze->DescriptiveStatistics->Explore12.交叉聯(lián)列表分析:檢驗的零假設(shè):H0:行列間彼此獨立,不存在顯著的相關(guān)關(guān)系。若Sig<a(a=0.05,顯著性水平),則拒絕零假設(shè),認為行列變量之間彼此相關(guān)。(1)卡方檢驗2。零假設(shè)H0:行列變量之間獨立。Contingencycoefficient:歹!J聯(lián)系數(shù)PhiandCramer'sV:系數(shù),(0?1)。Data->WeightCases,選擇權(quán)重變量,在Analyze->DescriptiveStatistics—>Crosstabs,選擇Statistics。13多選項分析Analyze->MultipleResponse,—>DefineSets,選中多選項變量)VariablesareCodedAs選中編碼方式。專題6聚類分析與判別分析人們認識某類事物時,往往先對這類事物的各個對象進行分類,以便尋找其中同于不同的特征。統(tǒng)計學研究該類問題的分類方法有聚類方法和判別分析。聚類分析的實質(zhì)是建立一種分類方法,它能將一批樣本數(shù)據(jù)按照它們在性質(zhì)上的親密程度,在沒有先驗知識情況下自動分類。聚類分析是一種探索性的分析,在分類過程中,不必事先給出一個分類的標準,聚類分析方法不同,聚類數(shù)目也不同。變量的聚類分析,采用層次式的判別方法,根據(jù)個別變量的親疏程度逐次聚類。若觀察值的個數(shù)多或文件龐大,采用快速聚類分析法。判別分析是對個案進行分類分析的方法,在分析時,組別的特征已知。6.1層次聚類分析中的Q型聚類層次聚類分析是根據(jù)觀察值或變量之間的親疏程度,將最相似的對象結(jié)合在一起,以逐次聚類的方式,將觀察值分類,直到最后所有樣本都聚成一類。層次聚類分析中,對樣本(個案)進行分類,稱為Q型聚類,它使具有共同特點的樣本聚齊在一起,以便對不同類的樣本進行分析;另一種是對研究對象的觀察變量進行分類,稱為R型聚類,它使具有共同特征的變量聚集在一起,以便從不同類中分別選出具有代表性的變量作分析,從而減少分析變量的個數(shù)。層次聚類中,測量樣本的親疏程度是關(guān)鍵:一種是樣本數(shù)據(jù)之間的親疏程度,一種是樣本數(shù)據(jù)與小類、小類與小類之間的親疏程度。樣本數(shù)據(jù)之間的親疏程度主要通過樣本間的距離、樣本間的相關(guān)系數(shù)來度量。(1)連續(xù)變量的樣本距離測量方法:歐式距離EuclideanDistance,歐式距離平方SquaredEuclideanDistance,Chebychev距離(各個樣本所有變量值之差的絕對值的最大值)。Block距離(各個樣本所有變量值之差絕對值的總和);Minkowski距離(各樣本所有變量值之差絕對值的p次方的總和,再求p次方根);Customized距離(各樣本所有變量值之差絕對值的p次方的總和,再求q次方根);(2)連續(xù)變量的樣本親疏程度的其他測量方法:Pearson相關(guān)系數(shù),Sosine相似度(將樣本各變量看作k維空間向量,然后計算各向量間夾角的余弦值。(3)順序變量或名義變量的樣本親疏程度測量方法:Chi-squareMeasure(2統(tǒng)計量);Phi-squaremeasure(2統(tǒng)計量)(4)樣本數(shù)據(jù)與小類、小類與小類之間的親疏程度測量方法:NearestNeighbor最短據(jù)立法(以當前某一個樣本與已經(jīng)形成小類中的各樣本距離的最小值作為當前樣本與該小類之間的距離);最長距離法FurthestNeighbor(以當前某一個樣本與已經(jīng)形成小類中的各樣本距離的最大值作為當前樣本與該小類之間的距離);類間平均鏈鎖法Between-groupslinkage(兩個小類之間的距離為兩個小類的所有樣本間的平均距離);類內(nèi)平均鏈鎖法(Within-groupsLinkage);重心法CentroidClustering(將兩小類間的距離定義成兩小類重心間的距離。每小類的重心是該類中所有樣本在各個變量上的均值代表點);離差平方和法Ward'sMethod(聚類中,使小類內(nèi)各個樣本的歐式距離總平方和增加最小的小類合并為一類。Analyze->Classify->HierarchicalCluster,然后將聚類依據(jù)(即各個變量)拖入Variable中,把"編號"添加到Labelcasesby,輸出圖表如下:(1)ProximityMatrix表:顯示各樣本的距離矩陣。⑵AverageLinkage(BetweenGroups)層次聚類的凝聚狀態(tài)表。其中,第一列stage表示聚類步驟;第2列第三列Clustercombined表示某步聚類分析中,哪兩個樣本或者類聚成了一類。第四列Coefficients表示兩個樣本或類間的距離。第5,6列表示某步聚類分析中,參與聚類的是樣本還是類,0-樣本,n表示第n步聚類產(chǎn)生的類參與了本步驟類。第7列Nextstage,表示本步聚類運算結(jié)果在下面聚類的第幾步中用到了。(3)ClusterMembership表格,是樣本層次聚類聚為n類是,樣本的歸屬情況。(4)在VerticalIcicle表格,是層次聚類分析的冰柱圖。冰柱圖從表格的最后一行開始觀察。(5)Dendrogram表中,是層次聚類分析的樹形圖。6.2層次聚類分析中的R型聚類R型聚類是對研究對象的觀察變量進行分類,它使具有共同特征的變量聚在一起。以便可以從不同類中分別選出具有代表性的變量做分析,從而減少分析變量的個數(shù)。R型聚類是對變量間進行距離計算。Analyze->Classify->Hierarchicalcluster,在變量列表中選中觀察變量,添加到Variable中。(1)CaseProcessingSummaryR型聚類分析結(jié)果,ProximityMatrix表一層次聚類分析各變量的距離矩陣。若設(shè)置樣本間距離公式采用Pearson相關(guān)分析,則距離有正負之分。⑵AverageLinkage(BetweenGroups)表中,Agglomerationachedule,分析每次聚類步驟ClusterMembership中,看到將變量層次聚類為n次時的各個變量歸屬情況VerticalIcicle:層次聚類的冰狀圖。快速聚類分析大樣本情況下,采用快速聚類分析方法。它采用由用戶指定類別數(shù)的大樣本資料逐步聚類分析。先對數(shù)據(jù)進行初始分類,然后逐步調(diào)整,得到最終分類,即K-Mean聚類??焖倬垲惙治鲆彩且跃嚯x為樣本間親疏程度的標志。層次聚類可以對不同的聚類類數(shù)產(chǎn)生一系列的聚類解,而快速聚類只能產(chǎn)生固定類數(shù)的聚類解,類數(shù)需要用戶事先指定??焖倬垲愔?,用戶可以自己指定初始的類中心點。若用戶經(jīng)驗豐富,可以指定比較合理的初始類中心點,否則需要增加迭代的次數(shù),保證最終聚類結(jié)果的準確性。重點是計算EuclideanDistance。Analyze->Classify->K-meansCluster,輸出結(jié)果中,InitialClusterCenters表:指定需要快速聚類成n類的n個初始聚類中心。IterationHistory表:快速聚類分析的迭代歷史過程表。ClusterMembership表:快速聚類分析后的各個類包含樣本的情況。FinalClusterCenter表:快速聚類分析最終的類中心點位置。Distancesbetweenfinalclustercenters表:最終的類中心之間的歐式距離。ANOVA表:快速聚類分析后形成的各類樣本間的單因素方差分析結(jié)果。F統(tǒng)計量和SIG值。若SIG值<0.01,說明對于該變量,n個類的樣本之間存在顯著差異注:若從單因素方差分析結(jié)果看,各個類之間的差異不明顯,則需要嘗試其它的分析方法,如分成3類或5類等等。最終確定一個比較合理的聚類數(shù)目。判別分析對于不同的聚類方法,不論哪種,聚類分析都是直接比較各事物間的性質(zhì),將性質(zhì)相近的歸為一類,性質(zhì)差別較大的歸為另一類。判別分析先根據(jù)已知類別的事物的性質(zhì),利用某種技術(shù)建立函數(shù)式,然后對未知類別的新事物進行判別,歸入已知類別中。因此,可以利用判別分析對聚類分析結(jié)果進行準確性檢驗。判別分析的假設(shè):預測變量服從正態(tài)分布;預測變量之間沒有顯著的相關(guān);預測變量的平均值和方差不相關(guān);預測變量是連續(xù)變量,因變量是間斷變量。前提:事前組別的分類應該盡可能準確可靠,否則影響判別函數(shù)的準確性;所分析的自變量應該是因變量的重要影響因素,應挑選既有重要特征又有區(qū)別能力的變量;初始分析的數(shù)目不能太少。Analyze->Classify->Discriminant,將預測變量填入Independent中,選中分類變量,填入到groupingvariable中,再指定其因變量的范圍。Analysiscaseprocessingsummary系統(tǒng)個案分析結(jié)果統(tǒng)計表。在Groupstatistics中,給出組別的統(tǒng)計信息。在Testofequailityofgroupmeans中,將組另!group變量為自變量,以原預測變量維爾因變量,分析預測變量在3個不同group中的平均數(shù)差異型。利用SIG和F值,分析各變量在不同組中的平均數(shù)差異是否達到顯著水平。Pooledwithin-groupsmatrices表:觀察各變量的相關(guān)性和方差。CovarianceMatrices表:組間的協(xié)方差矩陣Box'sTestofEqualityofcovariancematrices,Testresults組共變異數(shù)相等的假設(shè)檢驗。分析SIG.若SIG<0.01,達到顯著性水平,說明n組樣本共變異數(shù)不相等,不符合判別分析的假設(shè)。Eigenvalues中,列出兩個判別函數(shù),判別函數(shù)特征值日genvalue越大,說明該函數(shù)越具有區(qū)別力。Wilks'lambda:兩個判別函數(shù)的顯著性檢驗,觀察SIG,若SIG<0.01,說明兩個函數(shù)均達到顯著性水平。StandardizedCanonicalDiscriminantfunctioncoefficients:兩個判別函數(shù)的標準化系數(shù)StructureMatrix表,即結(jié)構(gòu)矩陣,是變量和判別函數(shù)的組內(nèi)相關(guān)矩陣。相關(guān)系數(shù)越大,說明該變量對判別函數(shù)影響越大。Functionsatgroupcentroids表:歹!J出未標準化的兩個判別函數(shù)系數(shù),得到兩個未標準化的判別函數(shù)。PriorProbabilitiesforGroups:列出每一組事前的概率值。Classificationfunctioncoefficients:采用Fisher準則,得到Fisher判別函數(shù)。在觀察值分組時,將每一個觀察值帶入n個組的Fisher判別函數(shù),以函數(shù)的大小作比較,函數(shù)值最大的,表明該觀察值屬于該組。CasewiseStatistics表:表的2列為實際分組號,第3列為預測分組號。最后兩列列出了兩個判別函數(shù)在個案上的取值。CanonicalDiscriminantFunctions,即兩個判別函數(shù)在各個個案上的得分坐標。Classificationresults,分類結(jié)果矩陣。對角線為預測準確的數(shù)。專題7因子分析許多變量之間存在一定的相關(guān)關(guān)系,因此可以用較少的綜合指標分析存在于各變量中的各類信息,而各綜合指標之間是不相關(guān)的,代表各類信息的綜合指標稱為因子。因子分析就是用少數(shù)幾個因子描述許多指標或因素之間的聯(lián)系,以較少幾個因子反映原資料的大部分信息的統(tǒng)計學方法。因子分析特點:因子變量數(shù)量遠少于原有指標變量的數(shù)量,對因子分析能夠減少分析中的計算工作量;因子變量不是對原有變量的取舍,而是根據(jù)原始變量的信息進行重新組夠,它能反映原有變量的大部分信息。因子變量之間不存在線性相關(guān)關(guān)系;因子變量具有命名解釋性,即該變量是對某些原始變量信息的綜合和反映。因子載荷ao(第i個原有變量和第j個因子變量的相關(guān)關(guān)系,即為在第j個公共因子變量上的重要性)的絕對值越大,公共因子Fj和原變量為關(guān)系越強。變量共有度(公共方差):反映全部公共因子變量對原有變量A的總方差解釋說明比例。為的共同度為因子載荷矩陣A中第i行元素的平方和。若大部分變量的共同度都高于0.8,說明提取出的公共因子幾本反映了各原始變量80%以上的信息。各個變量的共同度是衡量因子分析效果的一個指標。公共因子Fj的方差貢獻反映了該因子對所有原始變量總方差的解釋能力,其值越高,說明因子重要程度越高。因子分析的基本步驟:(1)確定待分析的原有若干變量是否適合于因子分析;(2)構(gòu)造因子變量;(3)利用旋轉(zhuǎn)使得因子變量更具有解釋性;(4)計算因子變量的得分。7.1確定待分析的原有若干變量是否適合于因子分析。因子分析是從眾多的原始變量中構(gòu)造出少數(shù)幾個具有代表意義的因子變量。潛在要求:原變量之間要有較強的相關(guān)性。因此需要對原變量做相關(guān)分析。若相關(guān)系數(shù)矩陣進行統(tǒng)計檢驗中,大部分相關(guān)系數(shù)都小于0.3,并且未通過統(tǒng)計檢驗,那么這些變量不適合進行因子分析。主要的統(tǒng)計檢驗方法⑴BartlettTestofSphericity巴特利特球形檢驗。它以變量的相關(guān)系數(shù)矩陣為出發(fā)點,H0假設(shè):相關(guān)系數(shù)矩陣是一個單位陣(對角線上元素值為1,其它為0)。它的統(tǒng)計量是根據(jù)相關(guān)系數(shù)矩陣的行列式得到的。若該值較大,且Sig<a,拒絕零假設(shè),認為原始變量間存在相關(guān)性,適合做因子分析;若該統(tǒng)計量較小,Sig>a,接受零假設(shè),認為相關(guān)系數(shù)矩陣可能是單位矩陣,不宜做因子分析。Anti-imagecorrelationmatrix反映像相關(guān)矩陣檢驗。將偏相關(guān)系數(shù)矩陣的每個元素取反。篇相關(guān)系數(shù)是在控制了其他變量對兩變量影響的條件下計算出來的相關(guān)系數(shù)。若各個變量間存在較多的重疊影響,則偏相關(guān)系數(shù)較小。因此,若反映像相關(guān)矩陣中有些元素的絕對值比較大,則說明這些變量不適合做因子分析。KMO(Kaiser-meyer-olkin)檢驗。用于比較變量間簡單相關(guān)和篇相關(guān)系數(shù)。若KMO值越接近1,所有變量之間的簡單相關(guān)系數(shù)平方和遠大于篇相關(guān)系數(shù)平方和,因此越適合因子分析。若KMO越小,越不適合做因子分析。0.9<KMO:非常適合;0.8<KMO<0.9:適合;0.7<KMO<0.8,一般;0.6<KMO<0.7:不太適合;KMO<0.5:不適合。構(gòu)造因子變量因子分析中有多種確定因子變量的方法。其中,基于主成份模型的主成份分析法是使用最多的因子分析法。在主成份分析中,選取前面幾個方差最大的主成份,以較少的變量反映原有變量的絕大部分信息。主成份分析中,確定m個變量的因子載荷矩陣有兩種方法:(1)根據(jù)特征值的大小確定,一般取大于1的特征值。(2)根據(jù)因子的累計防擦痕貢獻率確定。主成份分析產(chǎn)生的m維主超平面,能使數(shù)據(jù)信息損失盡可能小。數(shù)據(jù)信息主要反映在數(shù)據(jù)方差上,方差越大,數(shù)據(jù)中包含的信息越多,若一個事物一成不變,無需對其進行研究。一般方差的累計貢獻率應在80%以上。因子變量的命名解釋經(jīng)過主成份分析得到的y,,y2,....ym是對原變量的綜合,原變量都是有物理意義的變量。對因子變量的解釋,可以進一步說明影響原變量系統(tǒng)構(gòu)成的主要因素和系統(tǒng)特征。實際分析中,主要通過對載荷矩陣A的值進行分析,得到因子變量和原變量的關(guān)系,從而對新的因子變量命名。載荷矩陣A中,某一行可能有多個aj值比較大。說明某個原有變量Xi可能同時與幾個因子有比較大的相關(guān)關(guān)系。載荷矩陣A的某一列可能有多個aj比較大,說明某個因子變量可能解釋多個原變量的信息。若想對因子變量含義有深刻認識,需要通過因子矩陣的旋轉(zhuǎn)來進行。計算因子得分因子變量確定后,對每一樣本數(shù)據(jù),希望得到它們在不同因子上的具體數(shù)值,這些數(shù)值就是因子得分,它和原變量的得分相對應。計算因子得分首先將因子變量表示為原有變量的線性組合,估計因子得分方法有回歸法。Analyze->Datareduction->Factor,在FactorAnalysis對話框中,選擇各個變量,加入variable中。CorrelationMatrix表:各原始變量的相關(guān)矩陣。InverseofcorrelationMaxtrix,相關(guān)系數(shù)矩陣的逆矩陣。在KMOandBartlettsTest表中,觀察KMO值,若小雨0.6,則不太適合因子分析。Bartlett球度檢測,若Sig<0.05,拒絕H0假設(shè),認為適合因子分析。在Anti-imageMatrice表中,反映像相關(guān)矩陣檢驗結(jié)果,若某些值比較大,說明這些變量可能不太適合因子分析。在Communalities中,為因子分析初步結(jié)果。第二列是初始解出的變量共同度Initial。在第三列Extration是根據(jù)因子分析最終計算出的變量共同度。因為因子變量個數(shù)小于原始變量的個數(shù),因此每個變量的共同度必然小于1.數(shù)值用于說明能被m個因子變量解釋的方差。Totalvarianceexplained表是因子分析后因子提取和因子旋轉(zhuǎn)的結(jié)果。其中,Component列和InitialEigenvalues列描述了因子分析初始解對原有變量總體描述情況。第2列(%ofVariance)是因子變量的方差貢獻(特征值)。它是衡量因子重要程度的指標。第3列是各因子變量的方差貢獻率(%ofvariance),表示該因子描述的方差占原有變量總方差的比例。第四列是因子變量的累計方差貢獻率(Cumulative%),表示前m個因子描述的總方差占原有變量總方差的比例。第5—7列是按一定標準提取了3個公共因子后對原變量總體的描述情況。它們反映了原變量的大部分信息。第8—10列是旋轉(zhuǎn)以后得到的因子對原變量總體的刻畫情況。在Screeplot公共碎石圖中,橫坐標為公共因子數(shù),縱坐標為公共因子的特征值。可以從圖中觀察到特征值的明顯變化區(qū)域。ComponentMatrix表格,最終的因子載荷矩陣A??梢愿鶕?jù)該矩陣,書寫因子分析模型:x1=a1XF1+a2*F2+。。。。RotatedComponentMatrix根據(jù)設(shè)定的方法對因子載荷進行旋轉(zhuǎn)。未經(jīng)過旋轉(zhuǎn)的載荷矩陣中,因子變量在許多變量上都有較高的載荷。經(jīng)過旋轉(zhuǎn)后,第一個因子變量基本清楚(按照載荷特征值大小進行分析。在ComponentTransformationMatrix中,輸出因子旋轉(zhuǎn)矩陣,說明因子提取方法是主成份分析,旋轉(zhuǎn)方法是方差極大法。在ComponentPlotinRotatedSpace載荷散點圖。Componentscorecoefficientmatrix因子得分矩陣中,得到因子得分函數(shù)的系數(shù)。根據(jù)該表,可以得到因子得分函數(shù)。F1=u1*x1+u2*x2+???..Componentscorecovariancematrix中,輸出因子變量的協(xié)方差矩陣。因為得到的因子變量應該是正交的,不相關(guān)。所以從協(xié)方差矩陣看,不同因子之間的數(shù)據(jù)為0時,說明各因子不相關(guān)。專題8非參數(shù)檢驗許多統(tǒng)計分析方法對總體有特殊要求。T檢驗要求總體服從正態(tài)分布,F(xiàn)檢驗要求誤差呈現(xiàn)正態(tài)分布且各組方差整齊等。這些方法常用來估計或檢驗總體參數(shù),稱為參數(shù)檢驗。許多調(diào)查或?qū)嶒炈玫目蒲袛?shù)據(jù),總體分布未知或無法確定。因此,希望檢驗對一個總體分布形狀不做限制。對于不是針對總體參數(shù),而是針對總體的某些一般性假設(shè)(如總體分布)的統(tǒng)計分析方法稱非參數(shù)檢驗。非參數(shù)檢驗根據(jù)樣本數(shù)目,以及樣本之間的關(guān)系可以分為:單樣本非參數(shù)檢驗,兩獨立樣本非參數(shù)檢驗,多獨立樣本。。。,兩配對樣本。。。。,多配對樣本非參數(shù)檢驗。總體分布的卡方(Chi-square)檢驗在得到一批樣本數(shù)據(jù)后,希望從中得到樣本來自的總體的分布形態(tài)是否和某種特定分布相擬合??傮w分布的卡方檢驗適用于配合度檢驗,是根據(jù)樣本數(shù)據(jù)的實際頻數(shù)推斷總體分布與期望分布或理論分布是否有顯著差異。H0假設(shè):樣本來自的總體分布形態(tài)和期望分布或某一理論分布沒有顯著差異。根據(jù)2分布,若Sig<=a(顯著性水平),則拒絕H0假設(shè),認為樣本來自的總體分布形態(tài)和期望分布存在顯著差異;若相伴概率值SIG大于顯著性水平a,則不能拒絕H0,認為樣本總體分布形態(tài)和期望分布或理論分布不存在顯著差異。總體分布的卡方檢驗是一種吻合性檢驗,比較適用于一個因素的多項分類數(shù)據(jù)分析。Data->Weightcases,weightcasesby,選擇待分析變量,添加到Frequencyvariable,定義該變量為權(quán)數(shù)。Analyze->NonparametricTests,中選擇Chip-Siquare,在TestStatistics表格中,SIG>a,說明不能拒絕H0假設(shè),即樣本總體和期望分布無顯著差異。二項分布檢驗許多數(shù)據(jù)只有兩類,如性別等。對該類總體,其頻數(shù)分布稱為二項分布。采用SPSS中的Binomial進行二項分布檢驗。H0假設(shè):樣本來自的總體與所指定的某個二項分布不存在顯著的差異。SPSS將自動計算Z統(tǒng)計量,給出相應相伴概率SIG。若Sig<=a(顯著性水平),拒絕零假設(shè),認為樣本來自的總體分布與指定的二項分布存在顯著差異。Analyze->NonparametricTests—>BinomialTest,在BinomialTest表中,觀察SIG值<a,拒絕H0假設(shè),認為該變量的二值比例不符合要求。單樣本變量值隨機性檢驗單樣本變量值的隨機性檢驗是對某變量的取值出現(xiàn)是否隨機進行的檢驗,也稱游程檢驗(Run過程)。H0假設(shè):總、體某變量的變量值出現(xiàn)是隨機的。SPSS利用游程構(gòu)建Z統(tǒng)計量,并給出SIG相伴概率。若SIG>a,不能拒絕H0,認為變量值的出現(xiàn)是隨機的。Analyze->NonparametricTests->RunTest。在RunsTest表中,分析SIG值,SIG>a,接收H0假設(shè),認為變量呈現(xiàn)隨機分布。單樣本K-S檢驗單樣本K-S檢驗時一種擬合優(yōu)度的非參數(shù)檢驗方法,適用于探索連續(xù)型隨機變量的分布形態(tài)。H0假設(shè)是:樣本來自的總體與指定的理論分布無顯著差異。根據(jù)K-S分布表(小樣本)或正態(tài)分布表(大樣本),給出SIG。若SIG<a(顯著性水平),說明樣本來自的總體和指定理論分布有顯著差異。Analyze->NonparametricTests->1-sampleK-S卡方檢驗:要求待檢驗樣本有較大的樣本容量,適合一個因素的多項分類的數(shù)據(jù)分析。二項分布只能做二項分布檢驗。單樣本K-S檢驗適合于連續(xù)數(shù)據(jù)的分析,檢驗功效較強。兩獨立樣本非參數(shù)檢驗兩獨立樣本的非參數(shù)檢驗是在對總體分布不很了解的情況下,通過分析樣本數(shù)據(jù),推斷樣本來自的兩個獨立總體分布是否存在顯著差異。通常用兩獨立樣本的均數(shù)、中位數(shù)、離散趨勢、偏度進行差異比較。.Mann-WhitneyU檢驗H0:樣本來自的兩獨立總體均值沒有顯著差異。若SIG<a,說明兩獨立總體均值有顯著差異。.兩獨立樣本的K-S檢驗檢驗兩個樣本是否來自具有相同分布的總體。H0:樣本來自的兩獨立總體分布沒有顯著差異。若SIG<a,說明兩獨立總體分布有顯著差4.Wald-WolfwitzRuns兩獨立樣本的游程檢驗用來檢驗樣本來自的兩獨立總體的分布是否存在顯著差異。H0:樣本來自的兩獨立總體分布沒有顯著差異。若SIG<a,說明兩獨立總體分布有顯著差異。3.MoseExtremeReactions極端反應檢驗檢驗兩個獨立樣本的觀察值的散布范圍是否有差異存在,以檢驗兩個樣本是否來自具有同一分布的總體。檢驗樣本來自的兩獨立總體的分布是否有顯著差異。H0假設(shè):樣本來自的兩獨立總體分布沒有顯著差異。若SIG<a,說明兩獨立總體分布有顯著差異。Analyze->NonparametricTests->IndependentSamples,8.6多獨立樣本非參數(shù)檢驗多獨立樣本非參數(shù)檢驗分析樣本數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論