第五章SPSS基本統(tǒng)計分析1_第1頁
第五章SPSS基本統(tǒng)計分析1_第2頁
第五章SPSS基本統(tǒng)計分析1_第3頁
第五章SPSS基本統(tǒng)計分析1_第4頁
第五章SPSS基本統(tǒng)計分析1_第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第五章SPSS基本統(tǒng)計分析——描述性統(tǒng)計分析SPSS的主要分析工具——Analyze菜單報告--Rports描述性統(tǒng)計分析--DescriptiveStatistics菜單表格--Tables均數(shù)間的比較--CompareMeans菜單一般線性模型――GeneralLinearModel菜單相關分析――Correlate菜單多元線性回歸與曲線擬合――Regression菜單對數(shù)線性模型——Loglinear菜單聚類分析與判別分析——Classify菜單因子分析與對應分析——DimensionReduction菜單信度分析與多維尺度分析——Scale菜單非參數(shù)檢驗――NonparametricTests菜單時間序列分析--Timeseries

描述性統(tǒng)計分析是統(tǒng)計分析的第一步,做好這第一步是下面進行正確統(tǒng)計推斷的先決條件。SPSS的許多模塊均可完成描述性分析,但專門為該目的而設計的幾個模塊則集中在DescriptiveStatistics菜單中,包括:Frequencies:頻數(shù)分析過程,特色是產(chǎn)生頻數(shù)表(主要針對分類變量)Descriptives:數(shù)據(jù)描述過程,進行一般性的統(tǒng)計描述(主要針對數(shù)值型變量)Explore:數(shù)據(jù)探察過程,用于對數(shù)據(jù)概況不清時的探索性分析Crosstabs:多維頻數(shù)分布交叉表分析(列聯(lián)表分析)Ratio:比率分析P-P、Q-Q

Plots5.1頻數(shù)分析5.1.1頻數(shù)分析的目的和基本任務

1、目的:基本統(tǒng)計分析往往從頻數(shù)分析開始。通過頻數(shù)分析能夠了解變量取值的狀況,對把握數(shù)據(jù)的分布特征是非常有用的。

2、基本任務(1)頻數(shù)分析的第一個基本任務是編制頻數(shù)分布表。頻數(shù)(Frequency):即變量值落在某個區(qū)間(或某個類別)中的次數(shù)百分比(Percent):即各頻數(shù)占總樣本數(shù)的百分比有效百分比(ValidPercent):即各頻數(shù)占有效樣本數(shù)的百分比,這里有效樣本數(shù)=總樣本-缺失樣本數(shù)累計百分比(CumulativePercent):即各百分比逐級累加起來的結(jié)果。最終取值為100。

(2)頻數(shù)分析的第二個任務是繪制統(tǒng)計圖條形圖(BarChart):用寬度相同的條形的高度或長短來表示頻數(shù)分布變化的圖形,適用于定序和定類變量的分析。餅圖(PieChart):用圓形及圓內(nèi)扇形的面積來表示頻數(shù)百分比變化的圖形,以利于研究事物內(nèi)在結(jié)構(gòu)組成等問題。直方圖(Histograms):用矩形的面積來表示頻數(shù)分布變化的圖形,適用于定距型變量的分析。5.1.2頻數(shù)分析的基本操作(1)選擇菜單Analyze—DescriptiveStatistics—Frequencies。(2)將若干頻數(shù)分析變量選擇到Variable(s)框中。(3)單擊Chart按鈕選擇繪制統(tǒng)計圖形,在ChartValues框中選擇條形圖中縱坐標(或餅圖中扇形面積)的含義,其中Frequencies表示頻數(shù);Percentages表示百分比。5.1.3SPSS頻數(shù)分析的擴展功能1、計算分位數(shù)(PercentileValues)分位數(shù)是變量在不同分位點上的取值。分位點在0-100之間。一般使用較多的是四分位點(Quartiles),即將所有數(shù)據(jù)按升序排序后平均等分成四份,各分位點依次是25%,50%,75%。于是四分位數(shù)便分別是25%,50%,75%點所對應的變量值。此外,還有八分位數(shù)、十六分位數(shù)等。SPSS提供了計算任意分位數(shù)的功能,用戶可以指定將數(shù)據(jù)等分為n份(Cutpointsfornequalgroups)。還可以直接指定分位點(Percentile)。2、計算其他基本描述統(tǒng)計量SPSS頻數(shù)分析還能夠計算其他基本統(tǒng)計量,其中包括描述集中趨勢(CentralTendency)的基本統(tǒng)計量、描述離散程度(Dispersion)的基本統(tǒng)計量、描述分布形態(tài)(Distribution)的基本統(tǒng)計量等。

輸出百分位數(shù):輸出四分位數(shù),顯示25%、50%、75%的百分位數(shù);將數(shù)據(jù)平均分為所設定的相等等份,可輸入2—100的整數(shù),如鍵入4則輸出第25、50、75百分位數(shù)自定義百分位數(shù),可輸入0—100的整數(shù)。離散趨勢分布形態(tài)欄集中趨勢欄輸出統(tǒng)計量對話框Format對話框控制頻數(shù)表輸出的分類數(shù)量。默認為10多變量框中可設定多變量表格輸出的格式設置頻數(shù)表輸出的格式選擇頻數(shù)表中排列順序按變量升序排列,此為默認按變量降序排列按變量各種取值發(fā)生的頻數(shù)的升序排列按變量各種取值發(fā)生的頻數(shù)的降序排列3、頻數(shù)分布表格式(Format)的定義(1)調(diào)整頻數(shù)分布表中數(shù)據(jù)的輸出順序(Orderby):頻數(shù)分布表中內(nèi)容的輸出順序可以按變量值的升序輸出(Ascendingvalues)、按變量值的降序輸出(Descendingvalues)、按頻數(shù)的升序輸出(

Ascendingcounts)、按頻數(shù)的降序輸出(

Descendingcounts)。(2)multiplevariables單選框組:如果選擇了兩個以上變量作頻數(shù)表,則comparevariables可以將所有變量的結(jié)果在同一個頻數(shù)表過程輸出結(jié)果中顯示,便于互相比較;organizeoutputbyvariables則將結(jié)果在不同的頻數(shù)表過程輸出結(jié)果中顯示,每一個變量一張表。(3)壓縮頻數(shù)分布表(Suppresstableswithmorethanncategories)如果變量取值的個數(shù)或取值區(qū)間的個數(shù)太多,頻數(shù)分布表將很龐大,此時可以壓縮它。SPSS默認,如果變量取值的個數(shù)或取值區(qū)間的個數(shù)大于10,則不輸出相應的頻數(shù)分布表。應用中可以修改該值。5.1.4頻數(shù)分析的應用舉例利用居民儲蓄調(diào)查數(shù)據(jù)進行頻數(shù)分析,有以下兩個分析目標:目標一:分析儲戶的戶口和職業(yè)的基本情況;目標二:分析儲戶一次存款金額的分布,并對城鎮(zhèn)儲戶和農(nóng)村儲戶進行比較。分析:目標一:分析儲戶的戶口和職業(yè)的基本情況(1)戶口和職業(yè)兩個變量都是定類變量,可通過基本頻數(shù)分析實現(xiàn)。(2)職業(yè)變量的取值(分類)數(shù)目較多,為使頻數(shù)分布表更一目了然,應對內(nèi)容的輸出順序進行調(diào)整,單擊Format按鈕,選擇Descendingcounts按頻數(shù)的降序輸出。(3)單擊Chart按鈕指定輸出戶口變量的餅圖和職業(yè)變量的條形圖。目標二:分析儲戶一次存款金額的分布,并對城鎮(zhèn)儲戶和農(nóng)村儲戶進行比較。1、分析思路:(1)由于存(取)款金額數(shù)據(jù)為定距型變量,直接采用頻數(shù)分析不利于對其分布形態(tài)的把握,因此考慮依據(jù)第三章中的數(shù)據(jù)分組功能對數(shù)據(jù)分組后再編制頻數(shù)分布表。(2)進行數(shù)據(jù)拆分,并分別計算城鎮(zhèn)儲戶和農(nóng)村儲戶的一次存(?。┛罱痤~的四分位數(shù)、均值和方差,并通過四分位數(shù)比較兩者分布上的差異。2、分析過程:(1)數(shù)據(jù)分組,將存(?。┛罱痤~重新分成五組,五組區(qū)間分布為,少于500元,500-2000元,2000-3500元,3500-5000元,5000元以上。分組后進行頻數(shù)分析并繪制帶正態(tài)曲線的直方圖。(2)利用SPSS的頻數(shù)分析計算所有樣本的存(?。┛罱痤~的四分位數(shù)、均值和方差;然后,按照戶口類型對數(shù)據(jù)進行拆分(Splitfile)并重新計算分位數(shù),分別得到城鎮(zhèn)戶口和農(nóng)村戶口的存(取)款金額的四分位數(shù)、均值和方差。5.2計算基本描述統(tǒng)計量5.2.1基本描述統(tǒng)計量常見的基本描述統(tǒng)計量有三大類:刻畫集中趨勢的統(tǒng)計量刻畫離中趨勢的統(tǒng)計量刻畫分布形態(tài)的統(tǒng)計量1、刻畫集中趨勢的描述統(tǒng)計量集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的傾向。(1)均值(Mean):即算術平均數(shù),是反映某變量所有取值的集中趨勢或平均水平的指標。如某企業(yè)職工的平均月收入。其計算公式為:(2)分位數(shù)(Median):即一組數(shù)據(jù)按升序排序后,處于中間位置上的數(shù)據(jù)值。如評價社會的老齡化程度時,可用中位數(shù)。(3)眾數(shù)(Mode):即一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)值。如生產(chǎn)鞋的廠商在制定各種型號鞋的生產(chǎn)計劃時應該運用眾數(shù)。50%50%MeQLQMQU25%25%25%25%(4)均值標準誤差(StandardErrorofMean):描述樣本均值與總體均值之間的平均差異程度的統(tǒng)計量。其計算公式為:

其中:為總體標準差,n為樣本單位數(shù)對稱分布

均值=中位數(shù)=眾數(shù)左偏分布均值

中位數(shù)

眾數(shù)右偏分布眾數(shù)

中位數(shù)

均值

平均指標之間的關系平均數(shù)易受極端值影響數(shù)學性質(zhì)優(yōu)良,實際中最常用數(shù)據(jù)對稱分布或接近對稱分布時代表性較好中位數(shù)不易受極端值影響數(shù)據(jù)分布偏斜程度較大時代表性較好眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大且有明顯峰值時代表性較好2、刻畫離散程度的描述統(tǒng)計量離散程度是指一組數(shù)據(jù)遠離其“中心值”的程度。如果數(shù)據(jù)都緊密地集中在“中心值”的周圍,數(shù)據(jù)的離散程度較小,說明這個“中心值”對數(shù)據(jù)的代表性好;相反,如果數(shù)據(jù)僅是比較松散地分布在“中心值”的周圍,數(shù)據(jù)的離散程度較大,則此“中心值”是不具有代表性的。常見的刻畫離散程度的描述統(tǒng)計量如下:(1)全距(Range):也稱極差,是數(shù)據(jù)的最大值(Maximum)與最小值(Minimum)之間的絕對離差。(2)方差(Variance):也是表示變量取值離散程度的統(tǒng)計量,是各變量值與算數(shù)平均數(shù)離差平方的算術平均數(shù)。其計算公式為:(3)標準差(StandardDeviation:StdDev):表示變量取值距離均值的平均離散程度的統(tǒng)計量。其計算公式為:標準差值越大,說明變量值之間的差異越大,距均值這個“中心值”的離散趨勢越大。(4)變異系數(shù)(比較多組數(shù)據(jù)的離散程度)一群牛的平均體重是180公斤,標準差是18公斤;一群羊的平均體重是15公斤,標準差是3公斤,能不能說羊的平均體重的代表性高些?為什么?變異系數(shù)可以消除數(shù)據(jù)水平高低和計量單位的影響,測度了數(shù)據(jù)的相對離散程度,用于對不同數(shù)據(jù)離散程度的比較。

計算公式為:3、刻畫分布形態(tài)的描述統(tǒng)計量數(shù)據(jù)的分布形態(tài)主要指數(shù)據(jù)分布是否對稱,偏斜程度如何,分布陡峭程度等。刻畫分布形態(tài)的統(tǒng)計量主要有兩種:(1)偏度(Skewness):描述變量取值分布形態(tài)對稱性的統(tǒng)計量。其計算公式為:

當分布為對稱分布時,正負總偏差相等,偏度值等于0;當分布為不對稱分布時,正負總偏差不相等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,稱為正偏或右偏;偏度值小于0表示負偏差值大,稱為負偏或左偏。偏度絕對值越大,表示數(shù)據(jù)分布形態(tài)的偏斜程度越大。(2)峰度(Kurtosis):描述變量取值分布形態(tài)陡峭程度的統(tǒng)計量。其計算公式為:

當數(shù)據(jù)分布與標準正態(tài)分布的陡峭程度相同時,峰度值等于0;峰度大于0表示數(shù)據(jù)的分布比標準正態(tài)分布更陡峭,為尖峰分布;峰度小于0表示數(shù)據(jù)的分布比標準正態(tài)分布平緩,為平峰分布。5.2.2計算基本描述統(tǒng)計量的操作(1)選擇菜單Analyze-DescriptiveStatistics-Descriptives,出現(xiàn)如下窗口:(2)將需計算的數(shù)值型變量選擇到Variable(s)框中。(3)單擊Option按鈕指定計算哪些基本描述統(tǒng)計量,出現(xiàn)如下窗口:Options對話框

基本統(tǒng)計量當Variables框中有多個變量時,此框確定其輸出順序:按Variables框中的排列順序輸出按各變量的字母順序輸出按均值的升序排列按均值的降序排列分布在上面窗口中,用戶可以指定分析多變量時結(jié)果輸出的次序(DisplayOrder)。其中,Variablelist表示按變量在數(shù)據(jù)窗口中從左到右的次序輸出;Alphabetic表示按字母順序輸出;AscendingMeans表示按均值升序輸出;DescendingMeans表示按均值降序輸出。至此,SPSS便自動計算所選變量的基本描述統(tǒng)計量并顯示到輸出窗口中。5.2.3計算基本描述統(tǒng)計量的應用舉例1.利用居民儲蓄調(diào)查數(shù)據(jù),對一次存款金額變量計算基本描述統(tǒng)計量。有以下分析目標:計算存款金額的基本描述統(tǒng)計量,并分別對城鎮(zhèn)儲戶和農(nóng)村儲戶進行比較。分析:首先按照戶口對數(shù)據(jù)進行拆分(Splitfile),然后計算存(?。┛罱痤~的基本描述統(tǒng)計量。2.分析儲戶一次存款的數(shù)量是否存在不均衡現(xiàn)象分析:假設儲戶一次存款金額服從正態(tài)分布,跟據(jù)3原則,異常值通常為3個標準差范圍之外的值,可通過對數(shù)據(jù)的標準化處理來判斷。標準化的數(shù)學定義為:通過標準化可以得到一系列新變量值,通常稱為標準化值或z分數(shù)。計算標準化值可以通過對話框中的復選框savestandardizedvaluesasvariables來實現(xiàn),并將結(jié)果保存在一個新變量中。該變量的命名規(guī)則為字母z+原變量名的前七個字符。接下來可對新變量進行排序并瀏覽其標準化值的取值情況,可以發(fā)現(xiàn)z分數(shù)值得絕對數(shù)大于3的儲戶是存在的。對其分組為三組:za5<-3,-3<za5<3,za5>3并進行頻數(shù)分析可以發(fā)現(xiàn)存款金額存在一定的不均衡現(xiàn)象。5.3交叉分組下的頻數(shù)分析5.3.1目的和基本任務1、目的:交叉分組下的頻數(shù)分析又稱列聯(lián)表分析。通過前面的頻數(shù)分析能夠掌握單個變量的數(shù)據(jù)分布情況,在實際分析中,不僅要了解單個變量的分布特征,還要分析多個變量不同取值下的分布,進而分析變量之間的相互影響和關系。對于這種涉及兩個或兩個以上變量分布情況的研究通常要利用交叉分組下的頻數(shù)分析來完成。2、基本任務:(1)根據(jù)收集到的樣本數(shù)據(jù),產(chǎn)生二維或多維交叉列聯(lián)表;(2)在交叉列聯(lián)表的基礎上,對兩兩變量間是否存在一定的相關性進行分析。5.3.2交叉列聯(lián)表的主要內(nèi)容編制交叉列聯(lián)表是交叉分組下頻數(shù)分析的第一個任務。交叉列聯(lián)表是兩個或兩個以上的變量交叉分組后形成的頻數(shù)分布表。例:職工基本情況數(shù)據(jù)按職稱和文化程度編制的二維交叉列聯(lián)表(見下頁表):上表中的職稱變量稱為行變量(Row),文化程度稱為列變量(Column)。行標題和列標題分別是兩個變量的變量值(或分組值)。表格中間是觀測頻數(shù)(ObservedCounts)和各種百分比。16名職工中,本科、???、高中、初中的人數(shù)分別為4,4,5,3,構(gòu)成的分布稱為交叉列聯(lián)表的列邊緣分布;高級工程師、工程師、助理工程師、無技術職稱的人數(shù)分別為3,4,6,3,構(gòu)成的分布稱為交叉列聯(lián)表的行邊緣分布;4個本科學歷職工中各職稱的人數(shù)分別是1,1,2等,這些頻數(shù)構(gòu)成的分布稱為條件分布,即在行變量(列變量)取值條件下的列變量(行變量)的分布。

在交叉列聯(lián)表中,除了頻數(shù)外還引進了各種百分比。例如表中第一行中的33.3%,33.3%,33.3%分別是高級工程師3人中各學歷人數(shù)所占的比例,稱為行百分比(Rowpercentage),一行的百分比總和為100%;表中第一列的25.0%,25.0%,50.0%分別是本科學歷4人中各職稱人數(shù)所占的比例,稱為列百分比(Columnpercentage),一列的列百分比總和為100%,表中的6.3%,6.3%,12.5%等分別是總?cè)藬?shù)16人中各交叉組中人數(shù)所占的百分比,稱為總百分比(Totalpercentage),所有格子中的總百分比之和也為100%。5.3.3交叉分組下的頻數(shù)分析的基本操作(1)菜單選項Analyze-DescriptiveStatistics-Crosstabs,出現(xiàn)窗口如下:該框中的變量作為分布表中的行變量和列變量。該框中的變量作為控制變量,決定頻數(shù)分布表中的層,可有多個控制變量。顯示每一組中各變量的分類條形圖。只輸出統(tǒng)計量,不輸出多維列聯(lián)表。Crosstabs對話框(2)如果進行二維列聯(lián)表分析,則將行變量選擇到Row(s)框中,將列變量選擇到Column(s)框中。如果Row(s)和Column(s)框中有多個變量名,SPSS會將行列變量一一配對后產(chǎn)生多張二維列聯(lián)表。如果進行三維或多維列聯(lián)表分析,則將其他變量作為控制變量選到Layer框中。多控制變量間可以是同層次的,也可以是逐層疊加的,可通過Previous或Next按鈕確定控制變量間的層次關系。(3)選擇Displayclusteredbarcharts選項,指定繪制各變量交叉分組下頻數(shù)分布條形圖。Suppresstables表示不輸出列聯(lián)表,在僅分析行列變量間關系時可選擇該選項。(4)單擊Cells按鈕指定列聯(lián)表單元格中的輸出內(nèi)容,窗口如下:Crosstabs的CellDisplay對話框選擇在列聯(lián)表中輸出的統(tǒng)計量,包括觀測量數(shù)、百分比、殘差輸出觀測量的實際數(shù)量如果行和列變量在統(tǒng)計上是獨立的或不相關的,那么會在單元格中輸出期望的觀測值的數(shù)量。輸出單元格中觀測量的數(shù)目占整行全部觀測量數(shù)目的百分比輸出單元格中觀測值的數(shù)目占整列全部觀測量數(shù)目的百分比輸出單元格中觀測量的數(shù)目占全部觀測量數(shù)目的百分比計算非標準化殘差計算標準化殘差計算調(diào)整后殘差SPSS默認列聯(lián)表單元格中只輸出觀測頻數(shù)(Observed)。為便于分析,通常還應指定輸出Percentage框中的行百分比(Row)、列百分比(Column)、總百分比(Total)。Counts框中的Expected表示輸出期望頻數(shù);Residuals框中的各個選項表示在各個單元格中輸出剩余。其中,Unstandardized為非標準化剩余,定義為觀測頻數(shù)-期望頻數(shù);Standardized為標準化剩余,又稱Pearson剩余,定義為:(5)單擊Format按鈕指定列聯(lián)表各單元格的輸出排列順序。Ascending表示以行變量取值的升序排列,是SPSS默認項;Descending表示以行變量取值的降序排列。(6)單擊Statistics按鈕指定用哪種方法分析行變量和列變量間的關系,窗口如下,其中,Chi-Square為卡方檢驗。5.3.4交叉列聯(lián)表行列變量間關系的分析對交叉列聯(lián)表中的行變量和列變量之間關系進行分析是交叉分組下頻數(shù)分析的第二個任務。為了理解行、列變量之間的關系,可以從分析兩個極端的例子出發(fā):(1)年齡與工資收入的交叉列聯(lián)表(一)工資收入年齡段低中高青40000中04000老00400(2)年齡與工資收入交叉列聯(lián)表(二)

表一中表示年齡與工資收入呈正相關關系,表二表示年齡與工資收入呈負相關關系。但大多數(shù)情況下,觀測頻數(shù)分散在列聯(lián)表的各個單元格中,不容易直接發(fā)現(xiàn)行列變量之間的關系強弱程度,此時就要借助非參數(shù)檢驗方法。通常用的方法是卡方檢驗。工資收入年齡段低中高青00400中04000老40000交叉列聯(lián)表的卡方檢驗卡方檢驗屬假設檢驗的范疇,步驟如下:(1)建立原假設在列聯(lián)表分析中卡方檢驗的原假設為行變量與列變量獨立(2)選擇和計算檢驗統(tǒng)計量列聯(lián)表分析卡方檢驗統(tǒng)計量是Pearson卡方統(tǒng)計量,其數(shù)學定義為:其中,r為列聯(lián)表的行數(shù),c為列聯(lián)表的列數(shù);為觀察頻數(shù),為期望頻數(shù)(ExpectedCount)。期望頻數(shù)的計算方法是:其中,RT是指定單元格所在行的觀測頻數(shù)合計,CT是指定單元格所在列的觀測頻數(shù)合計,n是觀測頻數(shù)的合計。期望頻數(shù)的分布反映的是行列變量互不相干下的分布。例如,具有本科學歷的高級工程師的期望頻數(shù)是0.75的計算公式是3*4/16=0.75。這里,期望頻數(shù)可以理解為,總共16個職工的學歷分布是25%:25%:31.3%:18.8%,如果遵從這種學歷的總體比例關系,高級職稱三人的學歷分布也應為25%:25%:31.3%:18.8%,于是期望頻數(shù)為3*25%、3*25%、3*31.3%、3*18.8%。同理可以理解,總共16個職工的職稱分布為18.8%:25%:37.5%:18.8%,本科學歷4人的期望頻數(shù)分別為4*18.8%、4*25%、4*37.5%、4*18.8%??ǚ浇y(tǒng)計量觀測值的大小取決于兩個因素:第一:列聯(lián)表的單元格子數(shù);第二:觀測頻數(shù)與期望頻數(shù)的總差值。在列聯(lián)表確定的情況下,卡方統(tǒng)計量觀測值的大小取決于觀測頻數(shù)與期望頻數(shù)的總差值。當總差值越大時,卡方值也就越大,實際分布與期望分布的差距越大,表明行列變量之間越相關;反之表明行列變量之間越獨立。那么,在統(tǒng)計上卡方統(tǒng)計量的觀測值究竟達到什么程度才能斷定行列變量不獨立呢?由于該檢驗中的pearson卡方統(tǒng)計量近似服從卡方分布,因此可依據(jù)卡方理論找到某自由度和顯著性水平下的卡方值,即卡方臨界值。

(3)確定顯著性水平(SignificantLevel)和臨界值顯著性水平是指原假設為真卻將其拒絕的風險,即棄真的概率。通常設為0.05或0.01。在卡方檢驗中,由于卡方統(tǒng)計量服從自由度為(行數(shù)-1)×(列數(shù)-1)的卡方分布,因此,在行列數(shù)目和顯著性水平確定時,卡方臨界值是可唯一確定的。(4)結(jié)論和決策對統(tǒng)計推斷做決策通常有兩種方式:根據(jù)統(tǒng)計量觀測值和臨界值比較的結(jié)果進行決策。如果卡方觀測值大于臨界值,則認為實際分布與期望分布之間的差距顯著,可以拒絕原假設,斷定列聯(lián)表的行列變量間不獨立,存在相關關系;反之,接受原假設。根據(jù)統(tǒng)計量觀測值的概率p值和顯著性水平比較的結(jié)果進行決策。如果p值小于等于,則認為卡方觀測值出現(xiàn)的概率是很小的,拒絕原假設,斷定列聯(lián)表的行列變量間不獨立,存在依存關系;反之,接受原假設。什么是P值?P值是一個概率值,如果原假設為真,P-值是抽樣分布中大于或小于樣本統(tǒng)計量的概率,一般被稱為觀察到的(或?qū)崪y的)顯著性水平。雙側(cè)檢驗的P值/

2

/

2Z拒絕拒絕H0值臨界值計算出的樣本統(tǒng)計量計算出的樣本統(tǒng)計量臨界值1/2P值1/2P值左側(cè)檢驗的P值H0值臨界值a樣本統(tǒng)計量拒絕域抽樣分布1-置信水平計算出的樣本統(tǒng)計量P值右側(cè)檢驗的P值H0值臨界值a拒絕域抽樣分布1-置信水平計算出的樣本統(tǒng)計量P值利用P值進行檢驗

(決策準則)若p-值>

,不拒絕H0若p-值<,拒絕H05.3.5交叉分組下的頻數(shù)分析應用舉例利用居民儲蓄調(diào)查數(shù)據(jù)進行分析,實現(xiàn)以下目標:1、分析城鎮(zhèn)和農(nóng)村儲戶對“未來收入狀況的變化趨勢”是否持相同的態(tài)度。2、分析城鎮(zhèn)和農(nóng)村儲戶對什么合算的認同是否一致。分析:1、該問題列聯(lián)表的行變量為戶口,列變量為未來收入狀況,在列聯(lián)表中輸出各種百分比、期望頻數(shù)、剩余、標準化剩余,顯示各交叉分組下頻數(shù)分布柱形圖,并利用卡方檢驗方法,對城鎮(zhèn)和農(nóng)村儲戶對該問題的態(tài)度是否一致進行分析。2、該問題列聯(lián)表的行變量為戶口,列變量為為什么合算,在列聯(lián)表的基礎上進行卡方檢驗。5.3.6SPSS中列聯(lián)表分析的其他方法對列聯(lián)表中行列變量的分析,除上述卡方檢驗方法之外,SPSS還提供了其他測度變量間相關關系的檢驗方法,包括:適用于兩定類變量的方法:Nominal框中列出的方法屬該類方法。適用于兩定序變量的方法:Ordinal框中列出的方法屬該類方法。適用于一定類變量、一定距變量的方法Nominalbyinterval框中的Eta方法屬該類方法其他方法。5.4多選項分析(頻數(shù)分析和交叉分析)多選項問題的概念:多選項問題是根據(jù)實際調(diào)查的需要,要求被調(diào)查者從問卷給出的若干個可選答案中選擇一個以上的答案。目前,市場研究或許多領域?qū)δ呈挛镌u價的研究中常常遇到這樣的問題??梢赃x多個,分為限選和不限選:限選:如在11種工作種類中,選你喜歡的,最多可選4種(Var1-Var4);求所有人喜歡各種工作的頻數(shù)或頻率。不限選:如在所列的20種電器中,你家所擁有的電器,不限選(Var1-Var20),求所有被調(diào)查家庭擁有各種電器的頻數(shù)或頻率。5.4.1多選項問題的分解多選項二分法及其編碼(multipledichotomiesmethod):多選項二分法是將多選項問題中的每一個答案設為一個SPSS變量,每個變量值有0或1兩個取值,分別表示選擇了該答案和不選擇該答案。如對下面問題有9個可能的答案,每個可選擇的答案由一個變量表示,每個變量的值只能有表明“是”和“否”的兩個代碼0或者1。編號調(diào)查內(nèi)容選項

1您喜歡紅色嗎□是□否

2您喜歡橙色嗎□是□否

3您喜歡黃色嗎□是□否

4您喜歡綠色嗎□是□否

5您喜歡青色嗎□是□否

6您喜歡藍色嗎□是□否

7您喜歡紫色嗎□是□否

8您喜歡黑色嗎□是□否

9您喜歡白色嗎□是□否左邊的表格為向顧客發(fā)放的顏色調(diào)查,在選擇服裝時,您喜歡什么顏色作為主體顏色,在答案的“□”中打“”(可多選)這是一組問題,每個問題均有兩個答案,回答者只能選擇其中一種。在建立數(shù)據(jù)文件時,變量名使用相同的變量主名,后面加以不同序號組成,本組問題的9個變量名可以是color1-color9。而答案的編碼規(guī)則為:回答“是”變量值為1,回答“否”變量值為0,其他值為缺失值。多選項分類法及其編碼(multiplecategorymethod):多選項分類法中,首先應估計多選項問題最多可能出現(xiàn)的答案個數(shù);然后為每個答案設置一個SPSS變量,變量取值為多選項問題中的所有可選答案。如上面有關選擇服裝的主體顏色,您可以選擇喜歡的三種,在提供的10種答案前上選擇。

1、紅2、橙3、黃 4、綠 5、青

6、藍7、紫8、黑9、白 10說不清這是一個問題,可以有三個答案。在建立數(shù)據(jù)文件時,要建立三個變量color1-color3表示回答者選擇的三個顏色。如選擇結(jié)果為1、紅、6、藍、8、黑,則變量color1的值為1,變量color2的值為6,變量color3的值為8。如果采用多選二分法則有6個選項,故應設6個變量,運用0-1編碼方法編碼,即:1,0,1,0,1,1。如果采用多選分類法,則編碼為1,3,5,6,0,0。1356問題2:擇業(yè)中考慮的主要因素(多選)1經(jīng)濟收入2專業(yè)對口3發(fā)展前途4地理區(qū)位5個人愛好6風險大小7勞動強度8社會福利9其他編碼應為:1,0,1,1,1,0,1,1,0?;?,3,4,5,7,8,0,0,0。136問題3:您擇業(yè)中考慮的主要因素有(限選三項)1經(jīng)濟收入2專業(yè)對口3發(fā)展前途4地理區(qū)位5個人愛好6風險大小7勞動強度8社會福利9社會地位10其他

因為限選三項,故應設三個變量,編碼依次為1,3,6。5.4.2多選項分析的基本操作首先將每個題的若干答案組成一個綜合變量即變量集(Set),然后對綜合變量的各種取值進行分析。只有通過定義多選項變量集,spss才能確定應對哪些變量取相同值的個案數(shù)進行累加。多選項分析在SPSS中是通過Analyze-MultipleResponse中的各項功能實現(xiàn)的。1.DefineSets:(1)從左邊的變量中將多選變量集的變量選擇到variablesinsets框中,建立多選二分變量集或多選分類變量集。(2)在variablesarecodedas框中指定多選變量集中的變量是按照那種方法編碼的。Dichotomies表示以多選二分法編碼,并在countedvalue中輸入用哪個數(shù)值來表示選中該選項。categories表示以多選分類法編碼,并在range框中輸入變量取值的最小值和最大值。(3)為多選項變量集命名,系統(tǒng)會自動在該名字前加字符$。(4)單擊add按鈕將定義好的多選項變量集加到multresponsesets框中。Spss可以定義多個多選項變量集。2.Frequencies:對多選變量集進行頻數(shù)分析。從multresponsesets中把待分析的多選項變量集選擇到tablesfor框中;3.Crosstabs:對多選變量集與其他變量集或與原基本變量進行交叉表分析。(1)選擇列聯(lián)表的行變量并定義取值范圍;(2)選擇列聯(lián)表的列變量并定義取值范圍;(3)選擇列聯(lián)表的控制變量并定義取值范圍;(4)單擊option按鈕選擇列聯(lián)表的輸出內(nèi)容和計算方法。Matchvariableacrossresponsesets選項表示,如果列聯(lián)表的行列變量均為多選項變量集時,第一個變量集的第一個變量與第二個變量集的第一個變量作交叉分組,依次類推。結(jié)果中:注意PctofResponses(占總回答數(shù)的%)和PctofCase(占總個案數(shù)%)的區(qū)別。5.4.3多選項分析的應用舉例利用居民儲蓄調(diào)查數(shù)據(jù)進行分析,實現(xiàn)以下兩個分析目標:1.分析儲戶的儲蓄目的;2.分析不同年齡段儲戶的儲蓄目的。

分析1.為進行多選項分析,首先定義名為cxmd的多選項變量集,其中包括a7_1、a7_2、a7_3三個變量,然后對多選項變量集進行頻數(shù)分析;2.對不同年齡段儲戶儲蓄目的進行分析,采用多選項交叉分組下的頻數(shù)分析。5.5探索分析Explore1.分析目的和方法奇異性:數(shù)據(jù)過大或過?。ㄕ页?、分析原因、是否剔除)分布特征:數(shù)據(jù)是否來自正態(tài)總體考察方法:統(tǒng)計量和統(tǒng)計圖形(箱式圖、莖葉圖、QQ圖)2.一般是考察定距變量3.Analyze+DescriptiveStatistics+Explore分析變量(DependentList):數(shù)值型變量分組變量(FactorList):分類變量標識變量(LabelCasesby):用某變量的值作為觀察值得標識如id選擇一個或多個變量進入Dependent框作為分析變量,單擊OK可獲得分析變量的一系列基本統(tǒng)計量和圖形。此作為分組變量,可以是字符變量,對分析變量的分析將按該變量的觀測值進行分組分析??捎卸鄠€分組變量,這時會按多個變量的交叉組合進行分組。該框中的變量作為標識符,在輸出諸如異常值時,用該變量進行標識,只允許有一個標識符??赏瑫r輸出基本統(tǒng)計量和圖形只輸出基本統(tǒng)計量只輸出圖形Explore主對話框輸出基本統(tǒng)計量均值的置信區(qū)間,可鍵入1—99%的任意值,根據(jù)該值算出置信區(qū)間的上下限。給出中心趨勢的最大似然比的穩(wěn)健估計量,當數(shù)據(jù)分布均勻,且兩尾較長,或當數(shù)據(jù)中存在極端值時,可給出比均值或中位數(shù)更合理的估計。輸出最大和最小的5個數(shù),且在輸出窗口中加以標明。輸出5%、10%、25%、50%、75%、90%和95%的百分位數(shù)。Statistics對話框Statistics子對話框:用于選擇需要的描述統(tǒng)計量;

descriptives:輸出均值、中位數(shù)、眾數(shù)、5%修正均值、估計標準誤、方差、標準差、最小值、最大值、全距、四分位差、峰度系數(shù)及其標準誤、偏度系數(shù)及其標準誤及指定的均值置信區(qū)間;

m-estmators:做集中趨勢的最大穩(wěn)健估計,該統(tǒng)計量是利用迭代方法計算出來的,受異常值的影響要小得多。如果該估計量離均值較遠,則說明數(shù)據(jù)可能存在異常值,此時宜用該估計量替代均值以反映集中趨勢。一共會輸出四種m估計量,其中huber適用于數(shù)據(jù)接近正態(tài)分布時,另三種則適用于數(shù)據(jù)中有許多異常值的情況;

outliers:輸出五個最大值和五個最小值。

percentiles:輸出第5%、10%、25%、50%、75%、90%、95%分位數(shù)。plots子對話框:用于選擇需要的統(tǒng)計圖;boxplots復選框:確定箱式圖的繪制方式,可以分組繪制(factorlevelstogether),也可以不分組繪制(dependentstogether),或者不繪制(none);descriptive復選框:可以選擇繪制莖葉圖(stem-and-leaf)和直方圖(histogram);normalityplotwithtest:繪制正態(tài)分布圖(QQ圖),并進行變量是否符合正態(tài)分布的檢驗;

莖葉圖(stem-and-leaf)1.用于顯示未分組的原始數(shù)據(jù)的分布2.由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的3.以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉4.樹葉上只保留一位數(shù)字5.莖葉圖類似于橫置的直方圖,但又有區(qū)別:直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原始數(shù)值,保留了原始數(shù)據(jù)的信息6.圖的下方會標示出莖寬和實際值的倍數(shù),每行的莖和葉組成的數(shù)字再乘以莖寬,即得到實際數(shù)據(jù)的近似值如莖寬為10,則圖中的2.3代表23,同樣在圖的下方也會標示出每片葉子代表的記錄數(shù)。未分組數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論