




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第五章SPSS基本統(tǒng)計分析——描述性統(tǒng)計分析SPSS的主要分析工具——Analyze菜單報告--Rports描述性統(tǒng)計分析--DescriptiveStatistics菜單表格--Tables均數(shù)間的比較--CompareMeans菜單一般線性模型――GeneralLinearModel菜單相關(guān)分析――Correlate菜單多元線性回歸與曲線擬合――Regression菜單對數(shù)線性模型——Loglinear菜單聚類分析與判別分析——Classify菜單因子分析與對應(yīng)分析——DataReduction菜單信度分析與多維尺度分析——Scale菜單非參數(shù)檢驗――NonparametricTests菜單時間序列分析--Timeseries
描述性統(tǒng)計分析是統(tǒng)計分析的第一步,做好這第一步是下面進行正確統(tǒng)計推斷的先決條件。SPSS的許多模塊均可完成描述性分析,但專門為該目的而設(shè)計的幾個模塊則集中在DescriptiveStatistics菜單中,包括:Frequencies:頻數(shù)分析過程,特色是產(chǎn)生頻數(shù)表(主要針對分類變量)Descriptives:數(shù)據(jù)描述過程,進行一般性的統(tǒng)計描述(主要針對數(shù)值型變量)Explore:數(shù)據(jù)探察過程,用于對數(shù)據(jù)概況不清時的探索性分析Crosstabs:多維頻數(shù)分布交叉表分析(列聯(lián)表分析)Ratiostatistics:比率分析5.1頻數(shù)分析5.1.1頻數(shù)分析的目的和基本任務(wù)
1、目的:基本統(tǒng)計分析往往從頻數(shù)分析開始。通過頻數(shù)分析能夠了解變量取值的狀況,對把握數(shù)據(jù)的分布特征是非常有用的。
2、基本任務(wù)(1)頻數(shù)分析的第一個基本任務(wù)是編制頻數(shù)分布表。頻數(shù)(Frequency):即變量值落在某個區(qū)間(或某個類別)中的次數(shù)百分比(Percent):即各頻數(shù)占總樣本數(shù)的百分比有效百分比(ValidPercent):即各頻數(shù)占有效樣本數(shù)的百分比,這里有效樣本數(shù)=總樣本-缺失樣本數(shù)累計百分比(CumulativePercent):即各百分比逐級累加起來的結(jié)果。最終取值為100。
(2)頻數(shù)分析的第二個任務(wù)是繪制統(tǒng)計圖條形圖(BarChart):用寬度相同的條形的高度或長短來表示頻數(shù)分布變化的圖形,適用于定序和定類變量的分析。餅圖(PieChart):用圓形及圓內(nèi)扇形的面積來表示頻數(shù)百分比變化的圖形,以利于研究事物內(nèi)在結(jié)構(gòu)組成等問題。直方圖(Histograms):用矩形的面積來表示頻數(shù)分布變化的圖形,適用于定距型變量的分析。注:變量的計量尺度:
a定類(CategoryScale):只能計次
b定序(OrdinalScale):計次、排序
c定距(IntervalScale):計次、排序、加減
d定比(RatioScale):計次、排序、加減、乘除5.1.2頻數(shù)分析的基本操作(1)選擇菜單Analyze—DescriptiveStatistics—Frequencies。(2)將若干頻數(shù)分析變量選擇到Variable(s)框中。(3)單擊Chart按鈕選擇繪制統(tǒng)計圖形,在ChartValues框中選擇條形圖中縱坐標(biāo)(或餅圖中扇形面積)的含義,其中Frequencies表示頻數(shù);Percentages表示百分比。
輸出百分位數(shù):輸出四分位數(shù),顯示25%、50%、75%的百分位數(shù);將數(shù)據(jù)平均分為所設(shè)定的相等等份,可輸入2—100的整數(shù),如鍵入4則輸出第25、50、75百分位數(shù)自定義百分位數(shù),可輸入0—100的整數(shù)。離散趨勢分布形態(tài)欄集中趨勢欄輸出統(tǒng)計量對話框5.1.3SPSS頻數(shù)分析的擴展功能
1、計算分位數(shù)(PercentileValues)分位數(shù)是變量在不同分位點上的取值。分位點在0-100之間。一般使用較多的是四分位點(Quartiles),即將所有數(shù)據(jù)按升序排序后平均等分成四份,各分位點依次是25%,50%,75%。于是四分位數(shù)便分別是25%,50%,75%點所對應(yīng)的變量值。此外,還有八分位數(shù)、十六分位數(shù)等。
SPSS提供了計算任意分位數(shù)的功能,用戶可以指定將數(shù)據(jù)等分為n份(Cutpointsfornequalgroups)。還可以直接指定分位點(Percentile)。
2、計算其他基本描述統(tǒng)計量
SPSS頻數(shù)分析還能夠計算其他基本統(tǒng)計量,其中包括描述集中趨勢(CentralTendency)的基本統(tǒng)計量、描述離散程度(Dispersion)的基本統(tǒng)計量、描述分布形態(tài)(Distribution)的基本統(tǒng)計量等。Format對話框控制頻數(shù)表輸出的分類數(shù)量。默認為10多變量框中可設(shè)定多變量表格輸出的格式設(shè)置頻數(shù)表輸出的格式選擇頻數(shù)表中排列順序按變量升序排列,此為默認按變量降序排列按變量各種取值發(fā)生的頻數(shù)的升序排列按變量各種取值發(fā)生的頻數(shù)的降序排列3、頻數(shù)分布表格式(Format)的定義(1)調(diào)整頻數(shù)分布表中數(shù)據(jù)的輸出順序(Orderby):頻數(shù)分布表中的內(nèi)容的輸出順序可以按變量值的升序輸出(Ascendingvalues),按變量值的降序輸出(Descendingvalues),按頻數(shù)的升序輸出(
Ascendingcounts),按頻數(shù)的降序輸出(
Descendingcounts)。
(2)multiplevariables單選框組:如果選擇了兩個以上變量作頻數(shù)表,則comparevariables可以將所有變量的結(jié)果在同一個頻數(shù)表過程輸出結(jié)果中顯示,便于互相比較;organizeoutputbyvariables則將結(jié)果在不同的頻數(shù)表過程輸出結(jié)果中顯示,每一個變量一張表。
(3)壓縮頻數(shù)分布表(Suppresstableswithmorethanncategories)如果變量取值的個數(shù)或取值區(qū)間的個數(shù)太多,頻數(shù)分布表將很龐大,此時可以壓縮它。SPSS默認,如果變量取值的個數(shù)或取值區(qū)間的個數(shù)大于10,則不輸出相應(yīng)的頻數(shù)分布表。應(yīng)用中可以修改該值。5.1.4頻數(shù)分析的應(yīng)用舉例案例5-1利用住房狀況調(diào)查數(shù)據(jù),分析被調(diào)查家庭中戶主的從業(yè)狀況和目前所住房屋的產(chǎn)權(quán)情況。選擇菜單Analyze—DescriptiveStatistics--Frequencies
案例5-2利用住房狀況問卷調(diào)數(shù)據(jù),分析人均住房面積的分布情況,并對本市戶口和外地戶口家庭進行比較。首先計算所有樣本的人均住房面積的四分位數(shù),再按照戶口狀況對數(shù)據(jù)進行拆分(splitfile)并重新計算分位數(shù),分布得到本市戶口和外地戶口的人均住房面積四分位數(shù)。5.2計算基本描述統(tǒng)計量5.2.1基本描述統(tǒng)計量常見的基本描述統(tǒng)計量有三大類:刻畫集中趨勢的統(tǒng)計量刻畫離散程度的統(tǒng)計量刻畫分布形態(tài)的統(tǒng)計量1、刻畫集中趨勢的描述統(tǒng)計量集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的傾向。(1)均值(Mean):即算術(shù)平均數(shù),是反映某變量所有取值的集中趨勢或平均水平的指標(biāo)。如某企業(yè)職工的平均月收入。其計算公式為:(2)中位數(shù)(Median):即一組數(shù)據(jù)按升序排序后,處于中間位置上的數(shù)據(jù)值。如評價社會的老齡化程度時,可用中位數(shù)。(3)眾數(shù)(Mode):即一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)值。如生產(chǎn)鞋的廠商在制定各種型號鞋的生產(chǎn)計劃時應(yīng)該運用眾數(shù)。(4)均值標(biāo)準(zhǔn)誤差(StandardErrorofMean):描述樣本均值與總體均值之間的平均差異程度的統(tǒng)計量。其計算公式為:
其中:為總體標(biāo)準(zhǔn)差,n為樣本單位數(shù)2、刻畫離散程度的描述統(tǒng)計量離散程度是指一組數(shù)據(jù)遠離其“中心值”的程度。如果數(shù)據(jù)都緊密地集中在“中心值”的周圍,數(shù)據(jù)的離散程度較小,說明這個“中心值”對數(shù)據(jù)的代表性好;相反,如果數(shù)據(jù)僅是比較松散地分布在“中心值”的周圍,數(shù)據(jù)的離散程度較大,則此“中心值”說明數(shù)據(jù)特征是不具有代表性的。常見的刻畫離散程度的描述統(tǒng)計量如下:(1)全距(Range):也稱極差,是數(shù)據(jù)的最大值(Maximum)與最小值(Minimum)之間的絕對離差。(2)方差(Variance):也是表示變量取值離散程度的統(tǒng)計量,是各變量值與算數(shù)平均數(shù)離差平方的算術(shù)平均數(shù)。其計算公式為:(3)標(biāo)準(zhǔn)差(StandardDeviation:StdDev):表示變量取值距離均值的平均離散程度的統(tǒng)計量。其計算公式為:
標(biāo)準(zhǔn)差值越大,說明變量值之間的差異越大,距均值這個“中心值”的離散趨勢越大。3、刻畫分布形態(tài)的描述統(tǒng)計量數(shù)據(jù)的分布形態(tài)主要指數(shù)據(jù)分布是否對稱,偏斜程度如何,分布陡峭程度等??坍嫹植夹螒B(tài)的統(tǒng)計量主要有兩種:(1)偏度(Skewness):描述變量取值分布形態(tài)對稱性的統(tǒng)計量。其計算公式為:
當(dāng)分布為對稱分布時,正負總偏差相等,偏度值等于0;當(dāng)分布為不對稱分布時,正負總偏差不相等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,稱為正偏或右偏;偏度值小于0表示負偏差值大,稱為負偏或左偏。偏度絕對值越大,表示數(shù)據(jù)分布形態(tài)的偏斜程度越大。(2)峰度(Kurtosis):描述變量取值分布形態(tài)陡峭程度的統(tǒng)計量。其計算公式為:
當(dāng)數(shù)據(jù)分布與標(biāo)準(zhǔn)正態(tài)分布的陡峭程度相同時,峰度值等于0;峰度大于0表示數(shù)據(jù)的分布比標(biāo)準(zhǔn)正態(tài)分布更陡峭,為尖峰分布;峰度小于0表示數(shù)據(jù)的分布比標(biāo)準(zhǔn)正態(tài)分布平緩,為平峰分布。5.2.2計算基本描述統(tǒng)計量的操作(1)選擇菜單Analyze-DescriptiveStatistics-Descriptives,出現(xiàn)如下窗口:(2)將需計算的數(shù)值型變量選擇到Variable(s)框中。(3)單擊Option按鈕指定計算哪些基本描述統(tǒng)計量,出現(xiàn)如下窗口:Options對話框
基本統(tǒng)計量當(dāng)Variables框中有多個變量時,此框確定其輸出順序:按Variables框中的排列順序輸出按各變量的字母順序輸出按均值的升序排列按均值的降序排列分布
在上面窗口中,用戶可以指定分析多變量時結(jié)果輸出的次序(DisplayOrder)。其中,Variablelist表示按變量在數(shù)據(jù)窗口中從左到右的次序輸出;Alphabetic表示按字母順序輸出;AscendingMeans表示按均值升序輸出;DescendingMeans表示按均值降序輸出。
至此,SPSS便自動計算所選變量的基本描述統(tǒng)計量并顯示到輸出窗口中。5.2.3計算基本描述統(tǒng)計量的應(yīng)用舉例案例5-3利用住房狀況問卷調(diào)查數(shù)據(jù),對人均住房面積計算基本描述統(tǒng)計量,并分別對本市戶口和外地戶口家庭進行比較。分析:首先按照戶口狀況對數(shù)據(jù)進行拆分(Splitfile),然后計算人均住房面積的基本描述統(tǒng)計量。案例5-4:上述案例中,分析人均住房面積是否存在不均衡現(xiàn)象。分析:假設(shè)人均住房面積服從正態(tài)分布,根據(jù)3原則,異常值通常為3個標(biāo)準(zhǔn)差范圍之外的值,可通過對數(shù)據(jù)的標(biāo)準(zhǔn)化處理來判斷。標(biāo)準(zhǔn)化的數(shù)學(xué)定義為:通過標(biāo)準(zhǔn)化可以得到一系列新變量值,通常稱為標(biāo)準(zhǔn)化值或z分數(shù)。計算標(biāo)準(zhǔn)化值可以通過對話框中的復(fù)選框savestandardizedvaluesasvariables來實現(xiàn),并將結(jié)果保存在一個新變量中。該變量的命名規(guī)則為字母z+原變量名的前七個字符。接下來可對新變量進行排序并瀏覽其標(biāo)準(zhǔn)化值的取值情況,可以發(fā)現(xiàn)z分數(shù)值得絕對數(shù)大于3的儲戶是存在的。對其分組為三組:za5<-3,-3<za5<3,za5>3并進行頻數(shù)分析可以發(fā)現(xiàn)存款金額存在一定的不均衡現(xiàn)象。5.3交叉分組下的頻數(shù)分析5.3.1目的和基本任務(wù)
1、目的:交叉分組下的頻數(shù)分析又稱列聯(lián)表分析。通過前面的頻數(shù)分析能夠掌握單個變量的數(shù)據(jù)分布情況,在實際分析中,不僅要了解單個變量的分布特征,還要分析多個變量不同取值下的分布,進而分析變量之間的相互影響和關(guān)系。對于這種涉及兩個或兩個以上變量分布情況的研究通常要利用交叉分組下的頻數(shù)分析來完成。2、基本任務(wù):(1)根據(jù)收集到的樣本數(shù)據(jù),產(chǎn)生二維或多維交叉列聯(lián)表;(2)在交叉列聯(lián)表的基礎(chǔ)上,對兩兩變量間是否存在一定的相關(guān)性進行分析。5.3.2交叉列聯(lián)表的主要內(nèi)容編制交叉列聯(lián)表是交叉分組下頻數(shù)分析的第一個任務(wù)。交叉列聯(lián)表是兩個或兩個以上的變量交叉分組后形成的頻數(shù)分布表。例:職工基本情況數(shù)據(jù)按職稱和文化程度編制的二維交叉列聯(lián)表(見下頁表):上表中的職稱變量稱為行變量(Row),文化程度稱為列變量(Column)。行標(biāo)題和列標(biāo)題分別是兩個變量的變量值(或分組值)。表格中間是觀測頻數(shù)(ObservedCounts)和各種百分比。16名職工中,本科、???、高中、初中的人數(shù)分別為4,4,5,3,構(gòu)成的分布稱為交叉列聯(lián)表的列邊緣分布;高級工程師、工程師、助理工程師、無技術(shù)職稱的人數(shù)分別為3,4,6,3,構(gòu)成的分布稱為交叉列聯(lián)表的行邊緣分布;4個本科學(xué)歷職工中各職稱的人數(shù)分別是1,1,2等,這些頻數(shù)構(gòu)成的分布稱為條件分布,即在行變量(列變量)取值條件下的列變量(行變量)的分布。
在交叉列聯(lián)表中,除了頻數(shù)外還引進了各種百分比。例如表中第一行中的33.3%,33.3%,33.3%分別是高級工程師3人中各學(xué)歷人數(shù)所占的比例,稱為行百分比(Rowpercentage),一行的百分比總和為100%;表中第一列的25.0%,25.0%,50.0%分別是本科學(xué)歷4人中各職稱人數(shù)所占的比例,稱為列百分比(Columnpercentage),一列的列百分比總和為100%,表中的6.3%,6.3%,12.5%等分別是總?cè)藬?shù)16人中各交叉組中人數(shù)所占的百分比,稱為總百分比(Totalpercentage),所有格子中的總百分比之和也為100%。5.3.3交叉分組下的頻數(shù)分析的基本操作(1)菜單選項Analyze-DescriptiveStatistics-Crosstabs,出現(xiàn)窗口如下:該框中的變量作為分布表中的行變量和列變量。該框中的變量作為控制變量,決定頻數(shù)分布表中的層,可有多個控制變量。顯示每一組中各變量的分類條形圖。只輸出統(tǒng)計量,不輸出多維列聯(lián)表。Crosstabs對話框(2)如果進行二維列聯(lián)表分析,則將行變量選擇到Row(s)框中,將列變量選擇到Column(s)框中。如果Row(s)和Column(s)框中有多個變量名,SPSS會將行列變量一一配對后產(chǎn)生多張二維列聯(lián)表。如果進行三維或多維列聯(lián)表分析,則將其他變量作為控制變量選到Layer框中。多控制變量間可以是同層次的,也可以是逐層疊加的,可通過Previous或Next按鈕確定控制變量間的層次關(guān)系。(3)選擇Displayclusteredbarcharts選項,指定繪制各變量交叉分組下頻數(shù)分布條形圖。Suppresstables表示不輸出列聯(lián)表,在僅分析行列變量間關(guān)系時可選擇該選項。(4)單擊Cells按鈕指定列聯(lián)表單元格中的輸出內(nèi)容,窗口如下:Crosstabs的CellDisplay對話框選擇在列聯(lián)表中輸出的統(tǒng)計量,包括觀測量數(shù)、百分比、殘差輸出觀測量的實際數(shù)量如果行和列變量在統(tǒng)計上是獨立的或不相關(guān)的,那么會在單元格中輸出期望的觀測值的數(shù)量。輸出單元格中觀測量的數(shù)目占整行全部觀測量數(shù)目的百分比輸出單元格中觀測值的數(shù)目占整列全部觀測量數(shù)目的百分比輸出單元格中觀測量的數(shù)目占全部觀測量數(shù)目的百分比計算非標(biāo)準(zhǔn)化殘差計算標(biāo)準(zhǔn)化殘差計算調(diào)整后殘差
SPSS默認列聯(lián)表單元格中只輸出觀測頻數(shù)(Observed)。為便于分析,通常還應(yīng)指定輸出Percentage框中的行百分比(Row)、列百分比(Column)、總百分比(Total)。Counts框中的Expected表示輸出期望頻數(shù);Residuals框中的各個選項表示在各個單元格中輸出剩余。其中,Unstandardized為非標(biāo)準(zhǔn)化剩余,定義為觀測頻數(shù)-期望頻數(shù);Standardized為標(biāo)準(zhǔn)化剩余,又稱Pearson剩余,定義為:(5)單擊Format按鈕指定列聯(lián)表各單元格的輸出排列順序。Ascending表示以行變量取值的升序排列,是SPSS默認項;Descending表示以行變量取值的降序排列。(6)單擊Statistics按鈕指定用哪種方法分析行變量和列變量間的關(guān)系,窗口如下,其中,Chi-Square為卡方檢驗。5.3.4交叉列聯(lián)表行列變量間關(guān)系的分析
對交叉列聯(lián)表中的行變量和列變量之間關(guān)系進行分析是交叉分組下頻數(shù)分析的第二個任務(wù)。為了理解行、列變量之間的關(guān)系,可以從分析兩個極端的例子出發(fā):(1)年齡與工資收入的交叉列聯(lián)表(一)工資收入年齡段低中高青40000中04000老00400(2)年齡與工資收入交叉列聯(lián)表(二)
表一中表示年齡與工資收入呈正相關(guān)關(guān)系,表二表示年齡與工資收入呈負相關(guān)關(guān)系。但大多數(shù)情況下,觀測頻數(shù)分散在列聯(lián)表的各個單元格中,不容易直接發(fā)現(xiàn)行列變量之間的關(guān)系強弱程度,此時就要借助非參數(shù)檢驗方法。通常用的方法是卡方檢驗。工資收入年齡段低中高青00400中04000老40000交叉列聯(lián)表的卡方檢驗卡方檢驗屬假設(shè)檢驗的范疇,步驟如下:(1)建立原假設(shè)在列聯(lián)表分析中卡方檢驗的原假設(shè)為行變量與列變量獨立(2)選擇和計算檢驗統(tǒng)計量列聯(lián)表分析卡方檢驗統(tǒng)計量是Pearson卡方統(tǒng)計量,其數(shù)學(xué)定義為:
其中,r為列聯(lián)表的行數(shù),c為列聯(lián)表的列數(shù);為觀察頻數(shù),為期望頻數(shù)(ExpectedCount)。期望頻數(shù)的計算方法是:
其中,RT是指定單元格所在行的觀測頻數(shù)合計,CT是指定單元格所在列的觀測頻數(shù)合計,n是觀測頻數(shù)的合計。
期望頻數(shù)的分布反映的是行列變量互不相干下的分布。例如,具有本科學(xué)歷的高級工程師的期望頻數(shù)是0.75的計算公式是3*4/16=0.75。這里,期望頻數(shù)可以理解為,總共16個職工的學(xué)歷分布是25%:25%:31.3%:18.8%,如果遵從這種學(xué)歷的總體比例關(guān)系,高級職稱三人的學(xué)歷分布也應(yīng)為25%:25%:31.3%:18.8%,于是期望頻數(shù)為3*25%、3*25%、3*31.3%、3*18.8%。同理可以理解,總共16個職工的職稱分布為18.8%:25%:37.5%:18.8%,本科學(xué)歷4人的期望頻數(shù)分別為4*18.8%、4*25%、4*37.5%、4*18.8%。卡方統(tǒng)計量觀測值的大小取決于兩個因素:第一:列聯(lián)表的單元格子數(shù);第二:觀測頻數(shù)與期望頻數(shù)的總差值。在列聯(lián)表確定的情況下,卡方統(tǒng)計量觀測值的大小取決于觀測頻數(shù)與期望頻數(shù)的總差值。當(dāng)總差值越大時,卡方值也就越大,實際分布與期望分布的差距越大,表明行列變量之間越相關(guān);反之表明行列變量之間越獨立。那么,在統(tǒng)計上卡方統(tǒng)計量的觀測值究竟達到什么程度才能斷定行列變量不獨立呢?由于該檢驗中的pearson卡方統(tǒng)計量近似服從卡方分布,因此可依據(jù)卡方理論找到某自由度和顯著性水平下的卡方值,即卡方臨界值。(3)確定顯著性水平(SignificantLevel)和臨界值顯著性水平是指原假設(shè)為真卻將其拒絕的風(fēng)險,即棄真的概率。通常設(shè)為0.05或0.01。在卡方檢驗中,由于卡方統(tǒng)計量服從自由度為(行數(shù)-1)×(列數(shù)-1)的卡方分布,因此,在行列數(shù)目和顯著性水平確定時,卡方臨界值是可唯一確定的。(4)結(jié)論和決策對統(tǒng)計推斷做決策通常有兩種方式:根據(jù)統(tǒng)計量觀測值和臨界值比較的結(jié)果進行決策。如果卡方觀測值大于臨界值,則認為實際分布與期望分布之間的差距顯著,可以拒絕原假設(shè),斷定列聯(lián)表的行列變量間不獨立,存在相關(guān)關(guān)系;反之,接受原假設(shè)。根據(jù)統(tǒng)計量觀測值的概率p值和顯著性水平比較的結(jié)果進行決策。如果p值小于等于,則認為卡方觀測值出現(xiàn)的概率是很小的,拒絕原假設(shè),斷定列聯(lián)表的行列變量間不獨立,存在依存關(guān)系;反之,接受原假設(shè)。什么是P值?是一個概率值;如果原假設(shè)為真,P-值是抽樣分布中大于或小于樣本統(tǒng)計量的概率;被稱為觀察到的(或?qū)崪y的)顯著性水平。雙側(cè)檢驗的P值/
2
/
2Z拒絕拒絕H0值臨界值計算出的樣本統(tǒng)計量計算出的樣本統(tǒng)計量臨界值1/2P值1/2P值左側(cè)檢驗的P值H0值臨界值a樣本統(tǒng)計量拒絕域抽樣分布1-置信水平計算出的樣本統(tǒng)計量P值右側(cè)檢驗的P值H0值臨界值a拒絕域抽樣分布1-置信水平計算出的樣本統(tǒng)計量P值利用P值進行檢驗
(決策準(zhǔn)則)若p-值>
,不拒絕H0若p-值<,拒絕H05.3.5交叉分組下的頻數(shù)分析應(yīng)用舉例案例5-5:利用住房狀況問卷調(diào)查數(shù)據(jù),分析本市戶口和外地戶口家庭“未來三年”是否打算買房”是否持相同的態(tài)度。
Analyze—DescriptiveStatistics--Crosstabs分析:該問題列聯(lián)表的行變量為戶口,列變量為未來收入狀況,在列聯(lián)表中輸出各種百分比、期望頻數(shù)、剩余、標(biāo)準(zhǔn)化剩余,顯示各交叉分組下頻數(shù)分布柱形圖,并利用卡方檢驗方法,對城鎮(zhèn)和農(nóng)村儲戶對該問題的態(tài)度是否一致進行分析。
5.3.6SPSS中列聯(lián)表分析的其他方法對列聯(lián)表中行列變量的分析,除上述卡方檢驗方法之外,SPSS還提供了其他測度變量間相關(guān)關(guān)系的檢驗方法,包括:適用于兩定類變量的方法:Nominal框中列出的方法屬該類方法。適用于兩定序變量的方法:Ordinal框中列出的方法屬該類方法。適用于一定類變量、一定距變量的方法:Nominalbyinterval框中的Eta方法屬該類方法。其他方法。5.4多選項分析(頻數(shù)分析和交叉分析)多選項問題的概念:多選項問題是根據(jù)實際調(diào)查的需要,要求被調(diào)查者從問卷給出的若干個可選答案中選擇一個以上的答案。目前,市場研究或許多領(lǐng)域?qū)δ呈挛镌u價的研究中常常遇到這樣的問題。可以選多個,分為限選和不限選:限選:如在11種工作種類中,選你喜歡的,最多可選4種(Var1-Var4);求所有人喜歡各種工作的頻數(shù)或頻率。不限選:如在所列的20種電器中,你家所擁有的電器,不限選(Var1-Var20),求所有被調(diào)查家庭擁有各種電器的頻數(shù)或頻率。5.4.1多選項問題的分解多選項二分法及其編碼(multipledichotomiesmethod):多選項二分法是將多選項問題中的每一個答案設(shè)為一個SPSS變量,每個變量值有0或1兩個取值,分別表示選擇了該答案和不選擇該答案。如對下面問題有9個可能的答案,每個可選擇的答案由一個變量表示,每個變量的值只能有表明“是”和“否”的兩個代碼0或者1。編號調(diào)查內(nèi)容選項
1您喜歡紅色嗎□是□否
2您喜歡橙色嗎□是□否
3您喜歡黃色嗎□是□否
4您喜歡綠色嗎□是□否
5您喜歡青色嗎□是□否
6您喜歡藍色嗎□是□否
7您喜歡紫色嗎□是□否
8您喜歡黑色嗎□是□否
9您喜歡白色嗎□是□否
左邊的表格為向顧客發(fā)放的顏色調(diào)查,在選擇服裝時,您喜歡什么顏色作為主體顏色,在答案的“□”中打“”(可多選)這是一組問題,每個問題均有兩個答案,回答者只能選擇其中一種。在建立數(shù)據(jù)文件時,變量名使用相同的變量主名,后面加以不同序號組成,本組問題的9個變量名可以是color1-color9。而答案的編碼規(guī)則為:回答“是”變量值為1,回答“否”變量值為0,其他值為缺失值。多選項分類法及其編碼(multiplecategorymethod):多選項分類法中,首先應(yīng)估計多選項問題最多可能出現(xiàn)的答案個數(shù);然后為每個答案設(shè)置一個SPSS變量,變量取值為多選項問題中的所有可選答案。如上面有關(guān)選擇服裝的主體顏色,您可以選擇喜歡的三種,在提供的10種答案前上選擇。
1、紅2、橙3、黃 4、綠 5、青
6、藍7、紫8、黑9、白 10說不清這是一個問題,可以有三個答案。在建立數(shù)據(jù)文件時,要建立三個變量color1-color3表示回答者選擇的三個顏色。如選擇結(jié)果為1、紅、6、藍、8、黑,則變量color1的值為1,變量color2的值為6,變量color3的值為8。
如果采用多選二分法則有6個選項,故應(yīng)設(shè)6個變量,運用0-1編碼方法編碼,即:1,0,1,0,1,1。如果采用多選分類法,則編碼為1,3,5,6,0,0。1356問題2:擇業(yè)中考慮的主要因素(多選)1經(jīng)濟收入2專業(yè)對口3發(fā)展前途4地理區(qū)位5個人愛好6風(fēng)險大小7勞動強度8社會福利9其他編碼應(yīng)為:1,0,1,1,1,0,1,1,0?;?,3,4,5,7,8,0,0,0。136問題3:您擇業(yè)中考慮的主要因素有(限選三項)1經(jīng)濟收入2專業(yè)對口3發(fā)展前途4地理區(qū)位5個人愛好6風(fēng)險大小7勞動強度8社會福利9社會地位10其他
因為限選三項,故應(yīng)設(shè)三個變量,編碼依次為1,3,6。5.4.2多選項分析的基本操作
首先將每個題的若干答案組成一個綜合變量即變量集(Set),然后對綜合變量的各種取值進行分析。只有通過定義多選項變量集,spss才能確定應(yīng)對哪些變量取相同值的個案數(shù)進行累加。多選項分析在SPSS中是通過Analyze-MultipleResponse中的各項功能實現(xiàn)的。1.DefineSets:(1)從左邊的變量中將多選變量集的變量選擇到variablesinsets框中,建立多選二分變量集或多選分類變量集。(2)在variablesarecodedas框中指定多選變量集中的變量是按照那種方法編碼的。Dichotomies表示以多選二分法編碼,并在countedvalue中輸入用哪個數(shù)值來表示選中該選項。categories表示以多選分類法編碼,并在range框中輸入變量取值的最小值和最大值。(3)為多選項變量集命名,系統(tǒng)會自動在該名字前加字符$。(4)單擊add按鈕將定義好的多選項變量集加到multresponsesets框中。Spss可以定義多個多選項變量集。2.Frequencies:對多選變量集進行頻數(shù)分析。從multresponsesets中把待分析的多選項變量集選擇到tablesfor框中;3.Crosstabs:對多選變量集與其他變量集或與原基本變量進行交叉表分析。(1)選擇列聯(lián)表的行變量并定義取值范圍;(2)選擇列聯(lián)表的列變量并定義取值范圍;(3)選擇列聯(lián)表的控制變量并定義取值范圍;(4)單擊option按鈕選擇列聯(lián)表的輸出內(nèi)容和計算方法。Matchvariableacrossresponsesets選項表示,如果列聯(lián)表的行列變量均為多選項變量集時,第一個變量集的第一個變量與第二個變量集的第一個變量作交叉分組,依次類推。結(jié)果中:注意PctofResponses(占總回答數(shù)的%)和PctofCase(占總個案數(shù)%)的區(qū)別。5.4.3多選項分析的應(yīng)用舉例案例5-6:使用保險市場調(diào)查數(shù)據(jù),分析老年人購買商業(yè)保險的原因。Analyze—MultipleResponse—DefineVariableSetsAnalyze—MultipleResponse—Frequencies案例5-7:使用保險市場調(diào)查數(shù)據(jù),分析不同工作單位性質(zhì)人員購買商業(yè)養(yǎng)老保險的原因。Analyze—MultipleResponse—Crosstabs5.5探索分析Explore1.分析目的和方法奇異性:數(shù)據(jù)過大或過?。ㄕ页?、分析原因、是否剔除)分布特征:數(shù)據(jù)是否來自正態(tài)總體考察方法:統(tǒng)計量和統(tǒng)計圖形(箱式圖、莖葉圖、QQ圖)2.一般是考察定距變量3.Analyze+DescriptiveStatistics+Explore分析變量(DependentList):數(shù)值型變量分組變量(FactorList):分類變量標(biāo)識變量(LabelCasesby):用某變量的值作為觀察值得標(biāo)識如id選擇一個或多個變量進入Dependent框作為分析變量,單擊OK可獲得分析變量的一系列基本統(tǒng)計量和圖形。此作為分組變量,可以是字符變量,對分析變量的分析將按該變量的觀測值進行分組分析??捎卸鄠€分組變量,這時會按多個變量的交叉組合進行分組。該框中的變量作為標(biāo)識符,在輸出諸如異常值時,用該變量進行標(biāo)識,只允許有一個標(biāo)識符??赏瑫r輸出基本統(tǒng)計量和圖形只輸出基本統(tǒng)計量只輸出圖形Explore主對話框輸出基本統(tǒng)計量均值的置信區(qū)間,可鍵入1—99%的任意值,根據(jù)該值算出置信區(qū)間的上下限。給出中心趨勢的最大似然比的穩(wěn)健估計量,當(dāng)數(shù)據(jù)分布均勻,且兩尾較長,或當(dāng)數(shù)據(jù)中存在極端值時,可給出比均值或中位數(shù)更合理的估計。輸出最大和最小的5個數(shù),且在輸出窗口中加以標(biāo)明。輸出5%、10%、25%、50%、75%、90%和95%的百分位數(shù)。Statistics對話框Statistics子對話框:用于選擇需要的描述統(tǒng)計量;
descriptives:輸出均值、中位數(shù)、眾數(shù)、5%修正均值、估計標(biāo)準(zhǔn)誤、方差、標(biāo)準(zhǔn)差、最小值、最大值、全距、四分位差、峰度系數(shù)及其標(biāo)準(zhǔn)誤、偏度系數(shù)及其標(biāo)準(zhǔn)誤及指定的均值置信區(qū)間;
m-estmators:做集中趨勢的最大穩(wěn)健估計,該統(tǒng)計量是利用迭代方法計算出來的,受異常值的影響要小得多。如果該估計量離均值較遠,則說明數(shù)據(jù)可能存在異常值,此時宜用該估計量替代均值以反映集中趨勢。一共會輸出四種m估計量,其中huber適用于數(shù)據(jù)接近正態(tài)分布時,另三種則適用于數(shù)據(jù)中有許多異常值的情況;
outliers:輸出五個最大值和五個最小值。
percentiles:輸出第5%、10%、25%、50%、75%、90%、95%分位數(shù)。plots子對話框:用于選擇需要的統(tǒng)計圖;
boxplots復(fù)選框:確定箱式圖的繪制方式,可以分組繪制(factorlevelstogether),也可以不分組繪制(dependentstogether),或者不繪制(none);
descriptive復(fù)選框:可以選擇繪制莖葉圖(stem-and-leaf)和直方圖(histogram);
normalityplotwithtest:繪制正態(tài)分布圖(QQ圖),并進行變量是否符合正態(tài)分布的檢驗;
莖葉圖(stem-and-leaf)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 測試環(huán)境的搭建策略及技巧分享試題及答案
- 寄宿小學(xué)安全管理制度
- 商鋪關(guān)于餐飲管理制度
- 工程對上結(jié)算管理制度
- 計算機網(wǎng)絡(luò)知識點概述試題及答案
- 實驗生物安全管理制度
- 學(xué)校資產(chǎn)報告管理制度
- 學(xué)生自我隔離管理制度
- 深入淺出網(wǎng)絡(luò)監(jiān)控工具介紹試題及答案
- 難點02:總集篇·十六種陰影部分面積法專項練習(xí)-2024年小升初數(shù)學(xué)典型例題系列(解析版)2
- 全球經(jīng)濟2025年全球經(jīng)濟與貿(mào)易師考試試題及答案
- 2024 - 2025學(xué)年一年級下冊道德與法治期末考試卷附答案
- 2024年國家大劇院招聘真題
- 2025年四川省綿陽市富樂學(xué)校中考模擬英語試題(含答案)
- 文化產(chǎn)業(yè)發(fā)展的試題及答案
- 學(xué)校大型活動組織流程
- 2025年教育信息化2.0背景下教師跨學(xué)科教學(xué)能力培養(yǎng)模式創(chuàng)新與優(yōu)化
- 浙江建筑b證試題及答案
- 2025-2030全球及中國協(xié)作機器人系統(tǒng)行業(yè)市場現(xiàn)狀供需分析及市場深度研究發(fā)展前景及規(guī)劃可行性分析研究報告
- 2025年高考政治搶押秘籍(江蘇專用)時政熱點05延遲法定退休年齡改革(學(xué)生版+解析)
評論
0/150
提交評論