




第四章 SPSS基本統(tǒng)計分析_免費下載.ppt.ppt 免費下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第四章,SPSS基本統(tǒng)計分析 描述性統(tǒng)計分析,SPSS的主要分析工具Analyze菜單,報告Rports 描述性統(tǒng)計分析Descriptive Statistics菜單 表格Tables 均數(shù)間的比較Compare Means菜單 一般線性模型General Linear Model菜單 相關(guān)分析Correlate菜單 多元線性回歸與曲線擬合 Regression菜單 對數(shù)線性模型Loglinear菜單 聚類分析與判別分析Classify菜單 因子分析與對應分析Data Reduction菜單 信度分析與多維尺度分析Scale菜單 非參數(shù)檢驗Nonparametric Tests菜單 時間序列
2、分析Time series,描述性統(tǒng)計分析是統(tǒng)計分析的第一步,做好這第一步是下面進行正確統(tǒng)計推斷的先決條件。SPSS的許多模塊均可完成描述性分析,但專門為該目的而設(shè)計的幾個模塊則集中在Descriptive Statistics菜單中,包括: Frequencies:頻數(shù)分析過程,特色是產(chǎn)生頻數(shù)表(主要針對分類變量) Descriptives:數(shù)據(jù)描述過程,進行一般性的統(tǒng)計描述(主要針對數(shù)值型變量) Explore:數(shù)據(jù)探察過程,用于對數(shù)據(jù)概況不清時的探索性分析 Crosstabs:多維頻數(shù)分布交叉表分析(列聯(lián)表分析) Ratio statistics:比率分析,4.1 頻數(shù)分析,4.1.1
3、頻數(shù)分析的目的和基本任務 1、目的:基本統(tǒng)計分析從數(shù)數(shù)分析開始。頻數(shù)分析能夠了解變量取值的狀況,對把握數(shù)據(jù)的分布特征是非常有用的。 2、基本任務 (1)頻數(shù)分析的第一個基本任務是編制頻數(shù)分布表。 頻數(shù)(Frequency):即變量值落在某個區(qū)間(或某個類別)中的次數(shù) 百分比(Percent):即各頻數(shù)占總樣本數(shù)的百分比 有效百分比(Valid Percent):即各頻數(shù)占有效樣本數(shù)的百分比,這里有效樣本數(shù)總樣本缺失樣本數(shù) 累計百分比(Cumulative Percent):即各百分比逐級累加起來的結(jié)果。最終取值為100。,(2)頻數(shù)分析的第二個任務是繪制統(tǒng)計圖 條形圖(Bar Chart):用
4、寬度相同的條形的高度或長短來表示頻數(shù)分布變化的圖形,適用于定序和定類變量的分析。 餅圖(Pie Chart):用圓形及圓內(nèi)扇形的面積來表示頻數(shù)百分比變化的圖形,以利于研究事物內(nèi)在結(jié)構(gòu)組成等問題。 直方圖(Histograms):用矩形的面積來表示頻數(shù)分布變化的圖形,適用于定距型變量的分析。,注:變量的計量尺度: a 定類 (Category Scale):只能計次 b 定序 (Ordinal Scale):計次、排序 c 定距(Interval Scale):計次、排序、加減 d 定比 (Ratio Scale):計次、排序、加減、乘除,4.1.2 頻數(shù)分析的基本操作 (1)選擇菜單Analy
5、zeDescriptive StatisticsFrequencies。 (2)將若干頻數(shù)分析變量選擇到Variable(s)框中。 (3)單擊Chart按鈕選擇繪制統(tǒng)計圖形,在Chart Values框中選擇條形圖中縱坐標(或餅圖中扇形面積)的含義,其中Frequencies表示頻數(shù);Percentages表示百分比。,輸出百分位數(shù): 輸出四分位數(shù),顯示25%、50%、75%的百分位數(shù); 將數(shù)據(jù)平均分為所設(shè)定的相等等份,可輸入2100 的整數(shù),如鍵入4則輸出第25、50、75百分位數(shù) 自定義百分位數(shù),可輸入0100 的整數(shù)。,離散趨勢,分布形態(tài)欄,集中趨勢欄,輸出統(tǒng)計量對話框,4.1.3 S
6、PSS頻數(shù)分析的擴展功能 1、計算分位數(shù)(Percentile Values) 分位數(shù)是變量在不同分位點上的取值。分位點在0100之間。一般使用較多的是四分位點(Quartiles),即將所有數(shù)據(jù)按升序排序后平均等分成四份,各分位點依次是25,50,75。于是四分位數(shù)便分別是25,50,75點所對應的變量值。此外,還有八分位數(shù)、十六分位數(shù)等。 SPSS提供了計算任意分位數(shù)的功能,用戶可以指定將數(shù)據(jù)等分為n份(Cut points for n equal groups)。還可以直接指定分位點(Percentile)。,2、計算其他基本描述統(tǒng)計量 SPSS頻數(shù)分析還能夠計算其他基本統(tǒng)計量,其中包括
7、描述集中趨勢(Central Tendency)的基本統(tǒng)計量、描述離散程度(Dispersion)的基本統(tǒng)計量、描述分布形態(tài)(Distribution)的基本統(tǒng)計量等。,Format 對話框,控制頻數(shù)表輸出的分類數(shù)量。默認為10,多變量框中可設(shè)定多變量表格輸出的格式,設(shè)置頻數(shù)表輸出的格式,選擇頻數(shù)表中排列順序 按變量升序排列,此為默認 按變量降序排列 按變量各種取值發(fā)生的頻數(shù)的升序排列 按變量各種取值發(fā)生的頻數(shù)的降序排列,3、頻數(shù)分布表格式(Format)的定義 (1)調(diào)整頻數(shù)分布表中數(shù)據(jù)的輸出順序(Order by):頻數(shù)分布表中的內(nèi)容的輸出順序可以按變量值的升序輸出(Ascending v
8、alues),按變量值的降序輸出(Descending values),按頻數(shù)的升序輸出( Ascending counts),按頻數(shù)的降序輸出( Descending counts)。,(2)multiple variables單選框組: 如果選擇了兩個以上變量作頻數(shù)表,則compare variables可以將所有變量的結(jié)果在同一個頻數(shù)表過程輸出結(jié)果中顯示,便于互相比較;organize output by variables則將結(jié)果在不同的頻數(shù)表過程輸出結(jié)果中顯示,每一個變量一張表。,(3)壓縮頻數(shù)分布表(Suppress tables with more than n categori
9、es) 如果變量取值的個數(shù)或取值區(qū)間的個數(shù)太多,頻數(shù)分布表將很龐大,此時可以壓縮它。SPSS默認,如果變量取值的個數(shù)或取值區(qū)間的個數(shù)大于10,則不輸出相應的頻數(shù)分布表。應用中可以修改該值。,4.1.4 頻數(shù)分析的應用舉例 利用居民儲蓄調(diào)查數(shù)據(jù)進行頻數(shù)分析,有以下兩個分析目標: 目標一:分析儲戶的戶口和職業(yè)的基本情況。 目標二:分析儲戶一次存款金額的分布,并對城鎮(zhèn)儲戶和農(nóng)村儲戶進行比較。,分析: 目標一:分析儲戶的戶口和職業(yè)的基本情況 (1)戶口和職業(yè)兩個變量都是定類型變量,可通過基本頻數(shù)分析實現(xiàn)。 (2)職業(yè)變量的取值(分類)數(shù)目較多,為使頻數(shù)分布表更一目了然,應對內(nèi)容的輸出順序進行調(diào)整,單擊
10、Format按鈕,選擇Descending counts按頻數(shù)的降序輸出。 (3)單擊Chart按鈕指定輸出戶口變量的餅圖和職業(yè)變量的條形圖。,目標二:分析儲戶一次存款金額的分布,并對城鎮(zhèn)儲戶和農(nóng)村儲戶進行比較。 1、分析思路: (1)由于存(?。┛罱痤~數(shù)據(jù)為定距型變量,直接采用頻數(shù)分析不利于對其分布形態(tài)的把握,因此考慮依據(jù)第三章中的數(shù)據(jù)分組功能對數(shù)據(jù)分組后再編制頻數(shù)分布表。 (2)進行數(shù)據(jù)拆分,并分別計算城鎮(zhèn)儲戶和農(nóng)村儲戶的一次存(?。┛罱痤~的四分位數(shù),并通過四分位數(shù)比較兩者分布上的差異。,2、分析過程: (1)數(shù)據(jù)分組,將存(?。┛罱痤~重新分成五組,五組區(qū)間分布為,少于500元,50020
11、00元,20003500元,35005000元,5000元以上。分組后進行頻數(shù)分析并繪制帶正態(tài)曲線的直方圖。 (2)利用SPSS的頻數(shù)分析計算所有樣本的存(?。┛罱痤~的四分位數(shù);然后,按照戶口類型對數(shù)據(jù)進行拆分(Split file)并重新計算分位數(shù),分別得到城鎮(zhèn)戶口和農(nóng)村戶口的存(取)款金額的四分位數(shù)。,4.2 計算基本描述統(tǒng)計量,4.2.1 基本描述統(tǒng)計量 常見的基本描述統(tǒng)計量有三大類: 刻畫集中趨勢的統(tǒng)計量 刻畫離中趨勢的統(tǒng)計量 刻畫分布形態(tài)的統(tǒng)計量,1、刻畫集中趨勢的描述統(tǒng)計量 集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的傾向。 (1)均值(Mean):即算術(shù)平均數(shù),是反映某變量所有取值的集
12、中趨勢或平均水平的指標。如某企業(yè)職工的平均月收入。其計算公式為:,(2)中位數(shù)(Median):即一組數(shù)據(jù)按升序排序后,處于中間位置上的數(shù)據(jù)值。如評價社會的老齡化程度時,可用中位數(shù)。 (3)眾數(shù)(Mode):即一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)值。如生產(chǎn)鞋的廠商在制定各種型號鞋的生產(chǎn)計劃時應該運用眾數(shù)。,(4)均值標準誤差(Standard Error of Mean):描述樣本均值與總體均值之間的平均差異程度的統(tǒng)計量。其計算公式為: 其中: 為總體標準差,n為樣本單位數(shù),2、刻畫離散程度的描述統(tǒng)計量 離散程度是指一組數(shù)據(jù)遠離其“中心值”的程度。 如果數(shù)據(jù)都緊密地集中在“中心值”的周圍,數(shù)據(jù)的離散程
13、度較小,說明這個“中心值”對數(shù)據(jù)的代表性好;相反,如果數(shù)據(jù)僅是比較松散地分布在“中心值”的周圍,數(shù)據(jù)的離散程度較大,則此“中心值”說明數(shù)據(jù)特征是不具有代表性的。,常見的刻畫離散程度的描述統(tǒng)計量如下: (1)全距(Range):也稱極差,是數(shù)據(jù)的最大值(Maximum)與最小值(Minimum)之間的絕對離差。 (2)方差(Variance):也是表示變量取值離散程度的統(tǒng)計量,是各變量值與算數(shù)平均數(shù)離差平方的算術(shù)平均數(shù)。其計算公式為:,(3)標準差(Standard Deviation:Std Dev):表示變量取值距離均值的平均離散程度的統(tǒng)計量。其計算公式為: 標準差值越大,說明變量值之間的差
14、異越大,距均值這個“中心值”的離散趨勢越大。,3、刻畫分布形態(tài)的描述統(tǒng)計量 數(shù)據(jù)的分布形態(tài)主要指數(shù)據(jù)分布是否對稱,偏斜程度如何,分布陡峭程度等。 刻畫分布形態(tài)的統(tǒng)計量主要有兩種: (1)偏度(Skewness):描述變量取值分布形態(tài)對稱性的統(tǒng)計量。其計算公式為:,當分布為對稱分布時,正負總偏差相等,偏度值等于0;當分布為不對稱分布時,正負總偏差不相等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,稱為正偏或右偏;偏度值小于0表示負偏差值大,稱為負偏或左偏。偏度絕對值越大,表示數(shù)據(jù)分布形態(tài)的偏斜程度越大。,(2)峰度(Kurtosis):描述變量取值分布形態(tài)陡峭程度的統(tǒng)計量。其計算公式為:
15、當數(shù)據(jù)分布與標準正態(tài)分布的陡峭程度相同時,峰度值等于0;峰度大于0表示數(shù)據(jù)的分布比標準正態(tài)分布更陡峭,為尖峰分布;峰度小于0表示數(shù)據(jù)的分布比標準正態(tài)分布平緩,為平峰分布。,4.2.2 計算基本描述統(tǒng)計量的操作 (1)選擇菜單AnalyzeDescriptive StatisticsDescriptives,出現(xiàn)如下窗口:,(2)將需計算的數(shù)值型變量選擇到Variable(s)框中。 (3)單擊Option按鈕指定計算哪些基本描述統(tǒng)計量,出現(xiàn)如下窗口:,Options 對話框,基本統(tǒng)計量,當Variables框中有多個變量時,此框確定其輸出順序: 按Variables框中的排列順序輸出 按各變量
16、的字母順序輸出 按均值的升序排列 按均值的降序排列,分布,在上面窗口中,用戶可以指定分析多變量時結(jié)果輸出的次序(Display Order)。其中,Variable list表示按變量在數(shù)據(jù)窗口中從左到右的次序輸出;Alphabetic表示按字母順序輸出;Ascending Means表示按均值升序輸出;Descending Means表示按均值降序輸出。 至此,SPSS便自動計算所選變量的基本描述統(tǒng)計量并顯示到輸出窗口中。,4.2.3 計算基本描述統(tǒng)計量的應用舉例 1. 利用居民儲蓄調(diào)查數(shù)據(jù),對一次存款金額變量計算基本描述統(tǒng)計量。有以下分析目標:計算存款金額的基本描述統(tǒng)計量,并分別對城鎮(zhèn)儲戶
17、和農(nóng)村儲戶進行比較 分析:首先按照戶口對數(shù)據(jù)進行拆分(Split file),然后計算存(?。┛罱痤~的基本描述統(tǒng)計量。,2. 分析儲戶一次存款的數(shù)量是否存在不均衡現(xiàn)象。 分析:假設(shè)儲戶一次存款金額服從正態(tài)分布,跟據(jù)3 原則,異常值通常為3個標準差范圍之外的值,可通過對數(shù)據(jù)的標準化處理來判斷。標準化的數(shù)學定義為:,通過標準化可以得到一系列新變量值,通常稱為標準化值或z分數(shù)。計算標準化值可以通過對話框中的復選框save standardized values as variables來實現(xiàn),并將結(jié)果保存在一個新變量中。該變量的命名規(guī)則為字母z+原變量名的前七個字符。 接下來可對新變量進行排序并瀏覽
18、其標準化值的取值情況,可以發(fā)現(xiàn)z分數(shù)值得絕對數(shù)大于3的儲戶是存在的。對其分組為三組:za53并進行頻數(shù)分析可以發(fā)現(xiàn)存款金額存在一定的不均衡現(xiàn)象。,5.3 交叉分組下的頻數(shù)分析,5.3.1 目的和基本任務 1、目的:交叉分組下的頻數(shù)分析又稱列聯(lián)表分析。通過前面的頻數(shù)分析能夠掌握單個變量的數(shù)據(jù)分布情況,在實際分析中,不僅要了解單個變量的分布特征,還要分析多個變量不同取值下的分布,進而分析變量之間的相互影響和關(guān)系。對于這種涉及兩個或兩個以上分組變量聯(lián)合頻數(shù)分析的研究通常要利用交叉分組下的頻數(shù)分析來完成。列聯(lián)表還可以檢驗兩個分組變量的獨立性。,2、基本任務: (1)根據(jù)收集到的樣本數(shù)據(jù),產(chǎn)生二維或多維
19、交叉列聯(lián)表; (2)在交叉列聯(lián)表的基礎(chǔ)上,對兩兩變量間是否存在一定的相關(guān)性進行分析。 5.3.2 交叉列聯(lián)表的主要內(nèi)容 編制交叉列聯(lián)表是交叉分組下頻數(shù)分析的第一個任務。交叉列聯(lián)表是兩個或兩個以上的變量交叉分組后形成的頻數(shù)分布表。 例:職工基本情況數(shù)據(jù)按職稱和文化程度編制的二維交叉列聯(lián)表(見下頁表):,上表中的職稱變量稱為行變量(Row),文化程度稱為列變量(Column)。行標題和列標題分別是兩個變量的變量值(或分組值)。表格中間是觀測頻數(shù)(Observed Counts)和各種百分比。16名職工中,本科、專科、高中、初中的人數(shù)分別為4,4,5,3,構(gòu)成的分布稱為交叉列聯(lián)表的列邊緣分布;高級工
20、程師、工程師、助理工程師、無技術(shù)職稱的人數(shù)分別為3,4,6,3,構(gòu)成的分布稱為交叉列聯(lián)表的行邊緣分布;4個本科學歷職工中各職稱的人數(shù)分別是1,1,2等,這些頻數(shù)構(gòu)成的分布稱為條件分布,即在行變量(列變量)取值條件下的列變量(行變量)的分布。,在交叉列聯(lián)表中,除了頻數(shù)外還引進了各種百分比。例如表中第一行中的33.3, 33.3, 33.3分別是高級工程師3人中各學歷人數(shù)所占的比例,稱為行百分比(Row percentage),一行的百分比總和為100;表中第一列的25.0,25.0,50.0分別是本科學歷4人中各職稱人數(shù)所占的比例,稱為列百分比(Column percentage),一列的列百分
21、比總和為100,表中的6.3,6.3,12.5等分別是總?cè)藬?shù)16人中各交叉組中人數(shù)所占的百分比,稱為總百分比(Total percentage),所有格子中的總百分比之和也為100。,5.3.3 交叉分組下的頻數(shù)分析的基本操作 (1)菜單選項AnalyzeDescriptive StatisticsCrosstabs,出現(xiàn)窗口如下:,該框中的變量作為分布表中的行變量和列變量。,該框中的變量作為控制變量,決定頻數(shù)分布表中的層,可有多個控制變量。,顯示每一組中各變量的分類條形圖。,只輸出統(tǒng)計量,不輸出多維列聯(lián)表。,Crosstabs 對話框,(2)如果進行二維列聯(lián)表分析,則將行變量選擇到Row(s
22、)框中,將列變量選擇到Column(s)框中。如果Row(s) 和Column(s)框中有多個變量名,SPSS會將行列變量一一配對后產(chǎn)生多張二維列聯(lián)表。如果進行三維或多維列聯(lián)表分析,則將其他變量作為控制變量選到Layer框中。多控制變量間可以是同層次的,也可以是逐層疊加的,可通過Previous或Next按鈕確定控制變量間的層次關(guān)系。,(3)選擇Display clustered bar charts選項,指定繪制各變量交叉分組下頻數(shù)分布條形圖。Suppress tables表示不輸出列聯(lián)表,在僅分析行列變量間關(guān)系時可選擇該選項。 (4)單擊Cells按鈕指定列聯(lián)表單元格中的輸出內(nèi)容,窗口如下
23、:,Crosstabs的Cell Display 對話框,選擇在列聯(lián)表中輸出的統(tǒng)計量,包括觀測量數(shù)、百分比、殘差,輸出觀測量的實際數(shù)量 如果行和列變量在統(tǒng)計上是獨立的或不相關(guān)的,那么會在單元格中輸出期望的觀測值的數(shù)量。,輸出單元格中觀測量的數(shù)目占整行全部觀測量數(shù)目的百分比 輸出單元格中觀測值的數(shù)目占整列全部觀測量數(shù)目的百分比 輸出單元格中觀測量的數(shù)目占全部觀測量數(shù)目的百分比,計算非標準化殘差 計算標準化殘差 計算調(diào)整后殘差,SPSS默認列聯(lián)表單元格中只輸出觀測頻數(shù)(Observed)。為便于分析,通常還應指定輸出Percentage框中的行百分比(Row)、列百分比(Column)、總百分比(
24、Total)。Counts框中的Expected表示輸出期望頻數(shù);Residuals框中的各個選項表示在各個單元格中輸出剩余。其中,Unstandardized為非標準化剩余,定義為觀測頻數(shù)期望頻數(shù);Standardized為標準化剩余,又稱Pearson剩余,定義為:,(5)單擊Format按鈕指定列聯(lián)表各單元格的輸出排列順序。Ascending表示以行變量取值的升序排列,是SPSS默認項;Descending表示以行變量取值的降序排列。 (6)單擊Statistics按鈕指定用哪種方法分析行變量和列變量間的關(guān)系,窗口如下,其中,Chi-Square為卡方檢驗。,4.3.4 交叉列聯(lián)表行列變
25、量間關(guān)系的分析 對交叉列聯(lián)表中的行變量和列變量之間關(guān)系進行分析是交叉分組下頻數(shù)分析的第二個任務。 為了理解行、列變量之間的關(guān)系,可以從分析兩個極端的例子出發(fā): (1)年齡與工資收入的交叉列聯(lián)表(一),(2)年齡與工資收入交叉列聯(lián)表(二) 表一中表示年齡與工資收入呈正相關(guān)關(guān)系,表二表示年齡與工資收入呈負相關(guān)關(guān)系。但大多數(shù)情況下,觀測頻數(shù)分散在列聯(lián)表的各個單元格中,不容易直接發(fā)現(xiàn)行列變量之間的關(guān)系強弱程度,此時就要借助非參數(shù)檢驗方法。通常用的方法是卡方檢驗。,交叉列聯(lián)表的卡方檢驗,卡方檢驗屬假設(shè)檢驗的范疇,步驟如下: (1)建立原假設(shè) 在列聯(lián)表分析中卡方檢驗的原假設(shè)為行變量與列變量獨立 (2)選擇
26、和計算檢驗統(tǒng)計量 列聯(lián)表分析卡方檢驗統(tǒng)計量是Pearson卡方統(tǒng)計量,其數(shù)學定義為:,其中,r為列聯(lián)表的行數(shù),c為列聯(lián)表的列數(shù); 為觀察頻數(shù), 為期望頻數(shù)(Expected Count)。期望頻數(shù)的計算方法是: 其中,RT是指定單元格所在行的觀測頻數(shù)合計,CT是指定單元格所在列的觀測頻數(shù)合計,n是觀測頻數(shù)的合計。 期望頻數(shù)的分布反映的是行列變量互不相干下的分布。,例如,具有本科學歷的高級工程師的期望頻數(shù)是0.75的計算公式是3*4/16=0.75。這里,期望頻數(shù)可以理解為,總共16個職工的學歷分布是25%:25%:31.3%:18.8%,如果遵從這種學歷的總體比例關(guān)系,高級職稱三人的學歷分布也
27、應為25%:25%:31.3%:18.8%,于是期望頻數(shù)為3*25%、3*25%、3*31.3%、3*18.8%。同理可以理解,總共16個職工的職稱分布為18.8%:25%:37.5%:18.8%,本科學歷4人的期望頻數(shù)分別為4*18.8%、4*25%、4*37.5%、4*18.8%。,卡方統(tǒng)計量觀測值的大小取決于兩個因素:第一:列聯(lián)表的單元格子數(shù);第二:觀測頻數(shù)與期望頻數(shù)的總差值。在列聯(lián)表確定的情況下,卡方統(tǒng)計量觀測值的大小取決于觀測頻數(shù)與期望頻數(shù)的總差值。當總差值越大時,卡方值也就越大,實際分布與期望分布的差距越大,表明行列變量之間越相關(guān);反之表明行列變量之間越獨立。那么,在統(tǒng)計上卡方統(tǒng)計
28、量的觀測值究竟達到什么程度才能斷定行列變量不獨立呢?由于該檢驗中的pearson卡方統(tǒng)計量近似服從卡方分布,因此可依據(jù)卡方理論找到某自由度和顯著性水平下的卡方值,即卡方臨界值。,(3)確定顯著性水平(Significant Level)和臨界值 顯著性水平 是指原假設(shè)為真卻將其拒絕的風險,即棄真的概率。通常設(shè)為0.05或0.01。在卡方檢驗中,由于卡方統(tǒng)計量服從自由度為(行數(shù)1)(列數(shù)1)的卡方分布,因此,在行列數(shù)目和顯著性水平確定時,卡方臨界值是可唯一確定的。,(4)結(jié)論和決策 對統(tǒng)計推斷做決策通常有兩種方式: 根據(jù)統(tǒng)計量觀測值和臨界值比較的結(jié)果進行決策。如果卡方觀測值大于臨界值,則認為實際
29、分布與期望分布之間的差距顯著,可以拒絕原假設(shè),斷定列聯(lián)表的行列變量間不獨立,存在相關(guān)關(guān)系;反之,接受原假設(shè)。 根據(jù)統(tǒng)計量觀測值的概率p值和顯著性水平 比較的結(jié)果進行決策。如果p值小于等于 ,則認為卡方觀測值出現(xiàn)的概率是很小的,拒絕原假設(shè),斷定列聯(lián)表的行列變量間不獨立,存在依存關(guān)系;反之,接受原假設(shè)。,什么是P 值?,是一個概率值; 如果原假設(shè)為真,P-值是抽樣分布中大于或小于樣本統(tǒng)計量的概率;(也可以理解為比現(xiàn)在情況更極端、更壞的可能性) 被稱為觀察到的(或?qū)崪y的)顯著性水平。,雙側(cè)檢驗的P 值,左側(cè)檢驗的P 值,右側(cè)檢驗的P 值,利用 P 值進行檢驗 (決策準則),若p-值 ,不拒絕 H0
30、若p-值 , 拒絕 H0,4.3.5 交叉分組下的頻數(shù)分析應用舉例 利用居民儲蓄調(diào)查數(shù)據(jù)進行分析,實現(xiàn)以下目標: 1、分析城鎮(zhèn)和農(nóng)村儲戶對“未來收入狀況的變化趨勢”是否持相同的態(tài)度。 2、分析城鎮(zhèn)和農(nóng)村儲戶對什么合算的認同是否一致。,分析:1、該問題列聯(lián)表的行變量為戶口,列變量為未來收入狀況,在列聯(lián)表中輸出各種百分比、期望頻數(shù)、剩余、標準化剩余,顯示各交叉分組下頻數(shù)分布柱形圖,并利用卡方檢驗方法,對城鎮(zhèn)和農(nóng)村儲戶對該問題的態(tài)度是否一致進行分析。 2、該問題列聯(lián)表的行變量為戶口,列變量為什么合算,在列聯(lián)表的基礎(chǔ)上進行卡方檢驗。,5.3.6 SPSS中列聯(lián)表分析的其他方法 對列聯(lián)表中行列變量的分析
31、,除上述卡方檢驗方法之外,SPSS還提供了其他測度變量間相關(guān)關(guān)系的檢驗方法,包括: 適用于兩定類變量的方法:Nominal框中列出的方法屬該類方法。 適用于兩定序變量的方法:Ordinal框中列出的方法屬該類方法。 適用于一定類變量、一定距變量的方法:Nominal by interval框中的Eta方法屬該類方法。 其他方法。,4.4 多選項分析(頻數(shù)分析和交叉分析),多選項問題的概念:多選項問題是根據(jù)實際調(diào)查的需要,要求被調(diào)查者從問卷給出的若干個可選答案中選擇一個以上的答案。目前,市場研究或許多領(lǐng)域?qū)δ呈挛镌u價的研究中常常遇到這樣的問題。 可以選多個,分為限選和不限選: 限選:如在11種工
32、作種類中,選你喜歡的,最多可選4種(Var1-Var4);求所有人喜歡各種工作的頻數(shù)或頻率。 不限選:如在所列的20種電器中,你家所擁有的電器,不限選(Var1-Var20),求所有被調(diào)查家庭擁有各種電器的頻數(shù)或頻率。,4.4.1 多選項問題的分解,多選項二分法及其編碼(multiple dichotomies method): 多選項二分法是將多選項問題中的每一個答案設(shè)為一個SPSS變量,每個變量值有0或1兩個取值,分別表示選擇了該答案和不選擇該答案。如對下面問題有9個可能的答案,每個可選擇的答案由一個變量表示,每個變量的值只能有表明“是”和“否”的兩個代碼0或者1。,左邊的表格為向顧客發(fā)放
33、的顏色調(diào)查,在選擇服裝時,您喜歡什么顏色作為主體顏色,在答案的“”中打“” (可多選) 這是一組問題,每個問題均有兩個答案,回答者只能選擇其中一種。在建立數(shù)據(jù)文件時,變量名使用相同的變量主名,后面加以不同序號組成,本組問題的9個變量名可以是color1-color9。而答案的編碼規(guī)則為:回答“是”變量值為1,回答“否”變量值為0,其他值為缺失值。,多選項分類法及其編碼(multiple category method ):多選項分類法中,首先應估計多選項問題最多可能出現(xiàn)的答案個數(shù);然后為每個答案設(shè)置一個SPSS變量,變量取值為多選項問題中的所有可選答案。如上面有關(guān)選擇服裝的主體顏色,您可以選擇
34、喜歡的三種,在提供的10種答案前上選擇。 1、紅 2、橙 3、黃 4、綠 5、青 6、藍 7、紫 8、黑 9、白10說不清 這是一個問題,可以有三個答案。在建立數(shù)據(jù)文件時,要建立三個變量color1-color3表示回答者選擇的三個顏色。如選擇結(jié)果為1、紅、6、藍、8、黑,則變量color1的值為1,變量color2的值為6,變量color3的值為8。,如果采用多選二分法則有6個選項,故應設(shè)6個變量,運用0-1編碼方法編碼,即:1,0,1,0,1,1。 如果采用多選分類法,則編碼為1,3,5,6,0,0。,1 3 5 6,問題2:擇業(yè)中考慮的主要因素(多選),1經(jīng)濟收入 2專業(yè)對口 3發(fā)展前途
35、 4地理區(qū)位 5個人愛好 6風險大小 7勞動強度 8社會福利 9其他,編碼應為:1,0,1,1,1,0,1,1,0。 或1,3,4,5,7,8,0,0,0。,1 3 6,問題3:您擇業(yè)中考慮的主要因素有(限選三項),1經(jīng)濟收入 2 專業(yè)對口 3發(fā)展前途 4地理區(qū)位 5個人愛好 6風險大小 7勞動強度 8社會福利 9社會地位 10其他,因為限選三項,故應設(shè)三個變量,編碼依次為1, 3,6。,4.4.2 多選項分析的基本操作,首先將每個題的若干答案組成一個綜合變量即變量集(Set),然后對綜合變量的各種取值進行分析。只有通過定義多選項變量集,spss才能確定應對哪些變量取相同值的個案數(shù)進行累加。
36、多選項分析在SPSS中是通過Analyze - Multiple Response中的各項功能實現(xiàn)的。 1.Define Sets: (1)從左邊的變量中將多選變量集的變量選擇到variables in sets框中,建立多選二分變量集或多選分類變量集。 (2)在variables are coded as框中指定多選變量集中的變量是按照那種方法編碼的。Dichotomies表示以多選二分法編碼,并在counted value中輸入用哪個數(shù)值來表示選中該選項。categories表示以多選分類法編碼,并在range框中輸入變量取值的最小值和最大值。,(3)為多選項變量集命名,系統(tǒng)會自動在該名字
37、前加字符$。 (4)單擊add按鈕將定義好的多選項變量集加到mult response sets框中。Spss可以定義多個多選項變量集。 2.Frequencies:對多選變量集進行頻數(shù)分析。從mult response sets中把待分析的多選項變量集選擇到tables for框中; 3.Crosstabs:對多選變量集與其他變量集或與原基本變量進行交叉表分析。,(1)選擇列聯(lián)表的行變量并定義取值范圍;(2)選擇列聯(lián)表的列變量并定義取值范圍;(3)選擇列聯(lián)表的控制變量并定義取值范圍;(4)單擊option按鈕選擇列聯(lián)表的輸出內(nèi)容和計算方法。Match variable across resp
38、onse sets選項表示,如果列聯(lián)表的行列變量均為多選項變量集時,第一個變量集的第一個變量與第二個變量集的第一個變量作交叉分組,依次類推。結(jié)果中:注意Pct of Responses(占總回答數(shù)的)和Pct of Case(占總個案數(shù) )的區(qū)別。,4.4.3多選項分析的應用舉例,利用居民儲蓄調(diào)查數(shù)據(jù)進行分析,實現(xiàn)以下兩個分析目標: 1.分析儲戶的儲蓄目的; 2.分析不同年齡段儲戶的儲蓄目的。,分析,1.為進行多選項分析,首先定義名為cxmd的多選項變量集,其中包括a7_1、a7_2、a7_3三個變量,然后對多選項變量集進行頻數(shù)分析; 2.對不同年齡段儲戶儲蓄目的進行分析,采用多選項交叉分組下
39、的頻數(shù)分析。,4.5 探索分析 Explore,1. 分析目的和方法 奇異性:數(shù)據(jù)過大或過?。ㄕ页觥⒎治鲈?、是否剔除) 分布特征:數(shù)據(jù)是否來自正態(tài)總體 考察方法:統(tǒng)計量和統(tǒng)計圖形(箱式圖、莖葉圖、QQ圖) 2. 一般是考察定距變量 3. Analyze + Descriptive Statistics + Explore 分析變量(Dependent List):數(shù)值型變量 分組變量(Factor List):分類變量 標識變量(Label Cases by):用某變量的值作為觀察值得標識如id,選擇一個或多個變量進入Dependent框作為分析變量,單擊OK可獲得分析變量的一系列基本統(tǒng)計量
40、和圖形。,此作為分組變量,可以是字符變量,對分析變量的分析將按該變量的觀測值進行分組分析。可有多個分組變量,這時會按多個變量的交叉組合進行分組。,該框中的變量作為標識符,在輸出諸如異常值時,用該變量進行標識,只允許有一個標識符。,可同時輸出基本統(tǒng)計量和圖形 只輸出基本統(tǒng)計量 只輸出圖形,Explore 主對話框,輸出基本統(tǒng)計量 均值的置信區(qū)間,可鍵入199%的任意值,根據(jù)該值算出置信區(qū)間的上下限。,給出中心趨勢的最大似然比的穩(wěn)健估計量,當數(shù)據(jù)分布均勻,且兩尾較長,或當數(shù)據(jù)中存在極端值時,可給出比均值或中位數(shù)更合理的估計。,輸出最大和最小的5個數(shù),且在輸出窗口中加以標明。,輸出5%、10%、25
41、%、50%、75%、90%和95%的百分位數(shù)。,Statistics對話框,Statistics子對話框:用于選擇需要的描述統(tǒng)計量; descriptives:輸出均值、中位數(shù)、眾數(shù)、5%修正均值、估計標準誤、方差、標準差、最小值、最大值、全距、四分位差、峰度系數(shù)及其標準誤、偏度系數(shù)及其標準誤及指定的均值置信區(qū)間; m-estmators:做集中趨勢的最大穩(wěn)健估計,該統(tǒng)計量是利用迭代方法計算出來的,受異常值的影響要小得多。如果該估計量離均值較遠,則說明數(shù)據(jù)可能存在異常值,此時宜用該估計量替代均值以反映集中趨勢。一共會輸出四種m估計量,其中huber適用于數(shù)據(jù)接近正態(tài)分布時,另三種則適用于數(shù)據(jù)中
42、有許多異常值的情況; outliers:輸出五個最大值和五個最小值。 percentiles:輸出第5%、10%、25%、50%、75%、90%、95%分位數(shù)。,plots子對話框:用于選擇需要的統(tǒng)計圖; boxplots復選框:確定箱式圖的繪制方式,可以分組繪制(factor levels together),也可以不分組繪制(dependents together),或者不繪制(none) ; descriptive復選框:可以選擇繪制莖葉圖(stem-and-leaf)和直方圖(histogram); normality plot with test:繪制正態(tài)分布圖(QQ圖),并進行變量
43、是否符合正態(tài)分布的檢驗;,莖葉圖 (stem-and-leaf),1.用于顯示未分組的原始數(shù)據(jù)的分布 2.由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的 3.以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉 4.樹葉上只保留一位數(shù)字 5.莖葉圖類似于橫置的直方圖,但又有區(qū)別: 直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值 莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原始數(shù)值,保留了原始數(shù)據(jù)的信息 6.圖的下方會標示出莖寬和實際值的倍數(shù),每行的莖和葉組成的數(shù)字再乘以莖寬,即得到實際數(shù)據(jù)的近似值如莖寬為10,則圖中的2.3代表23,同樣在圖的下方也會標示出每片葉子代表的記錄數(shù)。,未分組數(shù)據(jù)莖葉
44、圖,練習,利用居民儲蓄調(diào)查數(shù)據(jù),對一次存款金額變量進行探索性分析。,4.6 比率分析,4.6.1 比率分析的目的和主要指標 比率分析用于對兩變量間變量值比率變化的描述分析,適用于數(shù)值型變量。 例如根據(jù)1999年各地區(qū)保險業(yè)務情況的數(shù)據(jù),分析各地區(qū)財產(chǎn)保險業(yè)務的保費收入占全部業(yè)務保費收入的比例情況。,通常的分析可以生成各個地區(qū)財產(chǎn)保險業(yè)務的保費收入占全部業(yè)務保費收入的比率變量,然后對該比率變量計算基本描述統(tǒng)計量(如均值、中位數(shù)、標準差、全距等),進而刻畫比率變量的集中趨勢和離散程度。 SPSS的比率分析除能夠完成上述分析外,還提供了其他相對比描述指標,大致也屬于集中趨勢描述指標和離散程度描述指標
45、的范疇,具體包括:,(1)加權(quán)比率均值(Weighted mean):兩變量均值的比,屬集中趨勢描述指標。 (2)AAD(Average Absolute Deviation)平均絕對離差:是對比率變量離散程度的描述,計算公式為: 其中, 是比率數(shù),M是比率變量的中位數(shù),N為樣本數(shù),相對數(shù)或平均數(shù)計算平均數(shù)的計算 相對數(shù)(或平均數(shù))用 Y 表示,有 Y=a/b, a、b為總量指標。 求各期 Y的平均一般不能采用簡單算術(shù)平均法,即 因為各期數(shù)據(jù)Yi 的對比基礎(chǔ) bi 不同,它們對全期總平均水平的影響作用應輕重有別.,計算公式:1. 分別計算其分子、分母的平均數(shù) 2. 對比得 : 上式實質(zhì)上等于對
46、各期Y加權(quán)算術(shù)平均。,(3)COD(Coefficient of Dispersion)離散系數(shù):也是對比率變量離散程度的描述,計算公式為: (4)PRD(Price-related Differential)相關(guān)價格微分:是比率均值與加權(quán)比率均值的比,也是比率變量離散程度的描述。,(5)COV變異系數(shù):用于對比率變量離散程度的描述,分為基于均值的變異系數(shù)(Mean centered COV)和中位數(shù)的變異系數(shù)(Median centered COV )。前者是通常意義下的變異系數(shù),是標準差除以均值;后者定義為:,4.6.2 比率分析的基本步驟 (1)選擇菜單AnalyzeDescriptiv
47、e StatisticsRadio,出現(xiàn)窗口,(2)將比率變量的分子選擇到Numerator框中,將比率變量的分母選到Denominator框中。 (3)如果做不同組間的比率比較,則將分組變量選擇到Group Variable框中。 (4)單擊Statistics按鈕指定輸出哪些關(guān)于比率的描述統(tǒng)計量,出現(xiàn)如下窗口:,至此,SPSS將自動計算比率變量,并將相關(guān)指標輸出到輸出窗口中。,報表中的描述性統(tǒng)計分析(case summaries)過程,case summaries過程用于按指定的分組變量的不同水平進行交叉描述性統(tǒng)計分析。 Analyze-report-case summary進入。 var
48、iables框:選擇需要進行分析的變量,可多選; grouping variables框:選擇用于分組的變量。如果選擇了多個分組變量,則系統(tǒng)會按各個變量的不同取值的交叉組合對匯總變量進行分析。,Display case :用于確定是否輸出詳細的記錄列表,下面的三個復選框用于選擇具體的輸出方式。 Statistics子對話框用于選擇一些常用的統(tǒng)計量。 title子對話框: title框:用于定義輸出表格的標題,默認標題為case summaries。 caption框:用于給輸出表格加上注解文字。,subheadings for totals:用于選擇是否給每個分組均顯示所計算統(tǒng)計量的名稱; e
49、xclude case with missing values listwise:用于選擇是否在分析中刪除帶有缺失值的變量。 missing statistics appear as:用于輸出一個字符串,用于在輸出結(jié)果中表示缺失值。,報表中的描述性統(tǒng)計分析舉例,1. 對居民儲蓄調(diào)查數(shù)據(jù)中的居民存款金額按照戶口和職業(yè)進行分類匯總得到均值、中位數(shù)及標準差。 分析:可以使用split file過程,然后使用descriptive過程來完成。但是我們用這里的case summary過程一步就能完成。,表格中的描述性統(tǒng)計分析( Basic tables過程),Basic tables 過程可對定類資料或
50、定量資料進行各種復雜格式的描述。 菜單操作:Analyze- tables - Basic tables summaries框:選擇需要進行匯總的變量,可以是定類變量也可以是定距變量,可以選入多個,但所有變量只能使用同樣的匯總指標。 subgroups框:用于定義分組匯總時的分組情況。,表格中的描述性統(tǒng)計分析( Basic tables過程),down框:選入分行匯總變量;表格中的匯總指標按照該變量的不同取值分行輸出,可以選入多個。 across框:選入分列匯總變量; separate table框:選入分層匯總變量; all combination :默認選項,所有分組變量按照選入順序依次嵌
51、套; each separately :所有分組變量分別輸出分組統(tǒng)計結(jié)果,只是放在同一個表格中。,表格中的描述性統(tǒng)計分析( Basic tables過程),statistics子對話框: percentile cutpoint框:選中percentile統(tǒng)計量時可用,用于選擇分界百分位點。 format框:用于設(shè)置各種統(tǒng)計量的顯示格式。 label框:用于設(shè)定各種統(tǒng)計量的顯示標簽,默認為統(tǒng)計量名稱,可以更改為中文。 sorting by cell count框 :選擇是否按照表中的頻數(shù)順序輸出。,表格中的描述性統(tǒng)計分析( Basic tables過程),layout子對話框:用于設(shè)定各種標題/
52、標簽的顯示方式。 summary variable lables框:用于選擇匯總變量標簽的顯示方式,可以在左側(cè)、頂部和分不同表格輸出中選擇。 statistics lables框:用于選擇統(tǒng)計量標簽的顯示方式。 group in summary variable dimension 框:如果在前面將匯總變量和分組變量選在了同一方向顯示,則可在此處選擇是將匯總變量是與各亞組之下還是將分則變量值與匯總變量之下。 lable groups with value lables only框 :如果選中該框,則各分組的變量名標簽將被省略,他們將用數(shù)值標簽或數(shù)值本身來表示。,表格中的描述性統(tǒng)計分析( Bas
53、ic tables過程),totals子對話框:選擇是否進行匯總以及設(shè)定匯總標簽。 totals over each group variable框:要求給出每一分組的匯總結(jié)果,缺失值將不納入?yún)R總分析。可在下方的lable框中更改分組匯總標簽。 table-margin totals 框:為表格的每一個維度生成匯總結(jié)果,缺失值將不納入?yún)R總分析。 format子對話框:,表格中的描述性統(tǒng)計分析( Basic tables過程),format子對話框: empty cell appearance框:選擇無頻數(shù)單元格的表示方式,默認為空,可改為用零表示。 missing statistics app
54、ear as 框:選擇對缺失值的表示方式,默認為小數(shù)點,可更改為十個字符長度內(nèi)的任意字符串。,表格中的描述性統(tǒng)計分析( Basic tables過程),例如:將收入情況和未來收入情況按照戶口和職業(yè)進行頻數(shù)統(tǒng)計。,表格中的描述性統(tǒng)計分析(general tables過程),Basic tables 過程已經(jīng)為我們提供了非常強大的制表能力但它只能分別對定量資料或分類資料進行匯總而且對于多選題數(shù)據(jù)無能為力, general tables則可以解決以上問題。 菜單操作:Analyze- tables - general tables statistics lables appear:選擇統(tǒng)計量標簽的顯
55、示方式。,表格中的描述性統(tǒng)計分析( general tables 過程),across the top:每個統(tǒng)計量單獨占一列,標簽在列頂部顯示; down the side:每個統(tǒng)計量單獨占一行,標簽在行首顯示; in the layer:每個統(tǒng)計量單獨占一頁,標簽在頁首顯示; rows框 :選入行變量,這些變量實際上就是需要進行匯總分析的變量,可選入多個,使用右邊的選擇框?qū)R總指標加以定義; columns框 :選入列變量,類似于分組變量,可選多個。 layers框:選入分層匯總變量。,表格中的描述性統(tǒng)計分析( general tables 過程),selected variable框組:用于對行/列變量的匯總指標、顯示標簽、組合方式加以定義。 defines cell:定類變量 is summarized:定距變量 omit lable :在結(jié)果中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 綿陽綠卡服務管理辦法
- 宜昌物業(yè)收費管理辦法
- 托管機構(gòu)配送管理辦法
- 育兒健康教育課件
- 肥鄉(xiāng)實驗中學消防課件
- 套管培訓大綱課件
- 腸癌化療護理
- 網(wǎng)球培訓教程課件圖片
- 對口高考最難數(shù)學試卷
- 高中1到9章的數(shù)學試卷
- 大廈工程施工設(shè)計方案
- 2025-2030中國電力設(shè)備檢測行業(yè)市場深度調(diào)研及發(fā)展前景與投融資戰(zhàn)略規(guī)劃研究報告
- 2025至2030年中國不銹鋼蝕刻板數(shù)據(jù)監(jiān)測研究報告
- DB42T743-2016 高性能蒸壓砂加氣混凝土砌塊墻體自保溫系統(tǒng)應用技術(shù)規(guī)程
- 軟件研發(fā)行業(yè)安全生產(chǎn)培訓
- 《供應鏈管理法律風險》課件
- 兒童專注力訓練300題可打印
- 2025年度工業(yè)園區(qū)物業(yè)管理及服務收費標準及細則
- 三升四數(shù)學暑假思維訓練題答案
- 2024-2030年中國橋梁管理與養(yǎng)護市場調(diào)查研究及發(fā)展趨勢分析報告
- 山東省菏澤市2023-2024學年高一下學期7月期末考試 政治 含解析
評論
0/150
提交評論