第五基本統(tǒng)計分析課件1_第1頁
第五基本統(tǒng)計分析課件1_第2頁
第五基本統(tǒng)計分析課件1_第3頁
第五基本統(tǒng)計分析課件1_第4頁
第五基本統(tǒng)計分析課件1_第5頁
已閱讀5頁,還剩239頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第五基本統(tǒng)計分析第五基本統(tǒng)計分析1內(nèi)容提要1、頻數(shù)分析(重點:統(tǒng)計量含義、相互聯(lián)系)2、描述統(tǒng)計3、列聯(lián)表分析(掌握分析適用條件、作用、結(jié)果判定)4、多選項問題多選問題賦值方法(重點掌握)定義多選變量集合(重點掌握)多選變量的頻次分析(重點掌握)多選變量的列聯(lián)表分析(重點掌握)5、探索分析(了解分析工作的作用、掌握假設檢驗的判斷/認識莖葉圖)6、比率分析(了解)內(nèi)容提要2SPSS的主要分析工具——Analyze菜單報告--Rports描述性統(tǒng)計分析--DescriptiveStatistics菜單表格--Tables均數(shù)間的比較--CompareMeans菜單一般線性模型――GeneralLinearModel菜單相關分析――Correlate菜單多元線性回歸與曲線擬合――Regression菜單對數(shù)線性模型——Loglinear菜單聚類分析與判別分析——Classify菜單因子分析與對應分析——DataReduction菜單信度分析與多維尺度分析——Scale菜單非參數(shù)檢驗――NonparametricTests菜單時間序列分析--Timeseries

SPSS的主要分析工具——Analyze菜單報告--Rpor3

SPSS基本統(tǒng)計分析(描述性統(tǒng)計分析)的作用:分析數(shù)據(jù)的基本統(tǒng)計特征(如集中度、離散度等);分析數(shù)據(jù)的總體分布情況;是下一步的建模和進行正確統(tǒng)計推斷的先決條件。SPSS基本統(tǒng)計分析(描述性統(tǒng)計分析)的作用:4SPSS的許多模塊均可完成描述性分析,但專門為該目的而設計的幾個模塊則集中在DescriptiveStatistics菜單中,包括:Frequencies:頻數(shù)分析過程,特色是產(chǎn)生頻數(shù)表(主要針對分類變量)Descriptives:數(shù)據(jù)描述過程,進行一般性的統(tǒng)計描述(主要針對定距型變量)Explore:數(shù)據(jù)探察過程,用于對數(shù)據(jù)概況不清時的探索性分析Crosstabs:多維頻數(shù)分布交叉表分析(列聯(lián)表分析)Ratiostatistics:比率分析,用于兩個定距型變量間變量值比率變化分析。SPSS的許多模塊均可完成描述性分析,但專門為該目的而設計的55.1頻數(shù)分析5.1.1頻數(shù)分析的目的和基本任務

1、目的:基本統(tǒng)計分析往往從頻數(shù)分析開始。通過頻數(shù)分析能夠了解變量取值的狀況,對把握數(shù)據(jù)的分布特征是非常有用的。(如:樣本是否有代表性、抽樣是否存在系統(tǒng)性偏差等)

適用對象:主要是定序或分類變量5.1頻數(shù)分析5.1.1頻數(shù)分析的目的和基本任務6

2、基本任務(1)頻數(shù)分析的第一個基本任務是編制頻數(shù)分布表(可選項)。頻數(shù)(Frequency):即變量值落在某個區(qū)間(或某個類別)中的次數(shù)百分比(Percent):即各頻數(shù)占總樣本數(shù)的百分比有效百分比(ValidPercent):即各頻數(shù)占有效樣本數(shù)的百分比,這里有效樣本數(shù)=總樣本-缺失樣本數(shù)累計百分比(CumulativePercent):即各百分比逐級累加起來的結(jié)果。最終取值為100。2、基本任務7(2)頻數(shù)分析的第二個任務是繪制統(tǒng)計圖條形圖(BarChart):用寬度相同的條形的高度或長短來表示頻數(shù)分布(或百分比)變化的圖形,適用于定序和定類變量的分析。餅圖(PieChart):用圓形及圓內(nèi)扇形的面積來表示頻數(shù)(或百分比)變化的圖形,以利于研究事物內(nèi)在結(jié)構(gòu)組成等問題。直方圖(Histograms):用矩形的面積來表示頻數(shù)分布變化的圖形,適用于定距型變量的分析。(2)頻數(shù)分析的第二個任務是繪制統(tǒng)計圖85.1.2頻數(shù)分析的基本操作(1)選擇菜單Analyze—DescriptiveStatistics—Frequencies。(2)將若干頻數(shù)分析變量選擇到Variable(s)框中。(3)單擊Chart按鈕選擇繪制統(tǒng)計圖形,在ChartValues框中選擇條形圖中縱坐標(或餅圖中扇形面積)的含義,其中Frequencies表示頻數(shù);Percentages表示百分比。

5.1.2頻數(shù)分析的基本操作95.1.3SPSS頻數(shù)分析的擴展功能

1、計算分位數(shù)(PercentileValues)分位數(shù)是變量在不同分位點上的取值。分位點在0-100之間。一般使用較多的是四分位點(Quartiles),即將所有數(shù)據(jù)按升序排序后平均等分成四份,各分位點依次是25%,50%,75%。于是四分位數(shù)便分別是25%,50%,75%點所對應的變量值。此外,還有八分位數(shù)、十六分位數(shù)等。

SPSS提供了計算任意分位數(shù)的功能,用戶可以指定將數(shù)據(jù)等分為n份(Cutpointsfornequalgroups)。還可以直接指定分位點(Percentile)。5.1.3SPSS頻數(shù)分析的擴展功能10問題2:擇業(yè)中考慮的主要因素(多選)例如表中第一行中的33.輸出單元格中觀測值的數(shù)目占整列全部觀測量數(shù)目的百分比通過頻數(shù)分析能夠了解變量取值的狀況,對把握數(shù)據(jù)的分布特征是非常有用的。即分析兩個或兩個以上分類變量的分布情況。對不同工作單位性質(zhì)人員購買商業(yè)養(yǎng)老保險的原因進行分析,采用多選項交叉分組下的頻數(shù)分析。Standardized為標準化剩余,又稱Pearson剩余,定義為:7勞動強度8社會福利(2)利用SPSS的頻數(shù)分析計算所有樣本的存(?。┛罱痤~的四分位數(shù);V1購物影響因素11,2,3,4,51-交通條件;分別計算其分子、分母的平均數(shù)分析變量(DependentList):數(shù)值型變量然后為每個答案設置一個SPSS變量,變量取值為多選項問題中的所有可選答案。峰度大于0表示數(shù)據(jù)的分布比標準正態(tài)分布更陡峭,為尖峰分布;有效百分比(ValidPercent):即各頻數(shù)占有效樣本數(shù)的百分比,這里有效樣本數(shù)=總樣本-缺失樣本數(shù)例如表中第一行中的33.

輸出百分位數(shù):輸出四分位數(shù),顯示25%、50%、75%的百分位數(shù);將數(shù)據(jù)平均分為所設定的相等等份,可輸入2—100的整數(shù),如鍵入4則輸出第25、50、75百分位數(shù)自定義百分位數(shù),可輸入0—100的整數(shù)。離散趨勢分布形態(tài)欄集中趨勢欄輸出統(tǒng)計量對話框問題2:擇業(yè)中考慮的主要因素(多選)輸出百分位數(shù):離散趨勢11

2、計算其他基本描述統(tǒng)計量

SPSS頻數(shù)分析還能夠計算其他基本統(tǒng)計量,其中包括描述集中趨勢(CentralTendency)的基本統(tǒng)計量、描述離散程度(Dispersion)的基本統(tǒng)計量、描述分布形態(tài)(Distribution)的基本統(tǒng)計量等。2、計算其他基本描述統(tǒng)計量12Format對話框控制頻數(shù)表輸出的分類數(shù)量。默認為10多變量框中可設定多變量表格輸出的格式設置頻數(shù)表輸出的格式選擇頻數(shù)表中排列順序按變量升序排列,此為默認按變量降序排列按變量各種取值發(fā)生的頻數(shù)的升序排列按變量各種取值發(fā)生的頻數(shù)的降序排列Format對話框控制頻數(shù)表輸出的分類數(shù)量。默認為10多變13(2)multiplevariables單選框組:如果選擇了兩個以上變量作頻數(shù)表,則comparevariables可以將所有變量的結(jié)果在同一個頻數(shù)表過程輸出結(jié)果中顯示,便于互相比較;organizeoutputbyvariables則將結(jié)果在不同的頻數(shù)表過程輸出結(jié)果中顯示,每一個變量一張表。(2)multiplevariables單選框組:143、頻數(shù)分布表格式(Format)的定義(1)調(diào)整頻數(shù)分布表中數(shù)據(jù)的輸出順序(Orderby):頻數(shù)分布表中的內(nèi)容的輸出順序可以按變量值的升序輸出(Ascendingvalues)按變量值的降序輸出(Descendingvalues)(以上兩類適合分類數(shù)量較少的情形)按頻數(shù)的升序輸出(Ascendingcounts)按頻數(shù)的降序輸出(Descendingcounts)(以上兩類適合分類數(shù)量較多的情形)3、頻數(shù)分布表格式(Format)的定義15(3)壓縮頻數(shù)分布表(Suppresstableswithmorethanncategories)如果變量取值的個數(shù)或取值區(qū)間的個數(shù)太多,頻數(shù)分布表將很龐大,此時可以壓縮它。SPSS默認,如果變量取值的個數(shù)或取值區(qū)間的個數(shù)大于10,則不輸出相應的頻數(shù)分布表。應用中可以修改該值。(3)壓縮頻數(shù)分布表(Suppresstablesw161、刻畫集中趨勢的描述統(tǒng)計量(recode,frequency)然后,按照戶口類型對數(shù)據(jù)進行拆分(Splitfile)并重新計算分位數(shù),分別得到城鎮(zhèn)戶口和農(nóng)村戶口的存(?。┛罱痤~的四分位數(shù)。V3購物影響因素3同上同上為便于分析,通常還應指定輸出Percentage框中的行百分比(Row)、列百分比(Column)、總百分比(Total)。(5)單擊Format按鈕指定列聯(lián)表各單元格的輸出排列順序。對不同年齡段儲戶儲蓄目的進行分析,采用多選項交叉分組下的頻數(shù)分析。編制交叉列聯(lián)表是交叉分組下頻數(shù)分析的第一個任務。(3)為多選項變量集命名,系統(tǒng)會自動在該名字前加字符$。(3)如果做不同組間的比率比較,則將分組變量選擇到GroupVariable框中。偏度絕對值越大,表示數(shù)據(jù)分布形態(tài)的偏斜程度越大。多選項二分法及其編碼(multipledichotomiesmethod):3、適用對象:一般是考察定距變量;(1)菜單選項Analyze-DescriptiveStatistics-Crosstabs,出現(xiàn)窗口如下:限選:如在11種工作種類中,選你喜歡的,最多可選4種(Var1-Var4);Percentages表示百分比。適用于兩定類變量的方法:Nominal框中列出的方法屬該類方法。時間序列分析--Timeseries為進行多選項分析,首先定義名為set1的多選項變量集,其中包括q13a、q13b、q13c三個變量,然后對多選項變量集進行頻數(shù)分析;5.1.4頻數(shù)分析的應用舉例利用居民儲蓄調(diào)查數(shù)據(jù)進行頻數(shù)分析,有以下兩個分析目標:目標一:分析儲戶的戶口和職業(yè)的基本情況。目標二:分析儲戶存取款金額的分布,并對城鎮(zhèn)儲戶和農(nóng)村儲戶進行比較。1、刻畫集中趨勢的描述統(tǒng)計量5.1.4頻數(shù)分析的應用舉例17第五基本統(tǒng)計分析課件118目標二:分析儲戶存款金額的分布,并對城鎮(zhèn)儲戶和農(nóng)村儲戶進行比較。1、分析思路:(1)由于存(取)款金額數(shù)據(jù)為定距型變量,直接采用頻數(shù)分析不利于對其分布形態(tài)的把握,因此考慮依據(jù)第三章中的數(shù)據(jù)分組功能對數(shù)據(jù)分組后再編制頻數(shù)分布表。(recode,frequency)(2)進行數(shù)據(jù)拆分,并分別計算城鎮(zhèn)儲戶和農(nóng)村儲戶的一次存(?。┛罱痤~的四分位數(shù),并通過四分位數(shù)比較兩者分布上的差異。目標二:分析儲戶存款金額的分布,并對城鎮(zhèn)儲戶和農(nóng)村儲戶進行比192、分析過程:(1)數(shù)據(jù)分組,將存(?。┛罱痤~重新分成五組,五組區(qū)間分布為,少于500元,500-2000元,2000-3500元,3500-5000元,5000元以上。分組后進行頻數(shù)分析并繪制帶正態(tài)曲線的直方圖。(2)利用SPSS的頻數(shù)分析計算所有樣本的存(取)款金額的四分位數(shù);然后,按照戶口類型對數(shù)據(jù)進行拆分(Splitfile)并重新計算分位數(shù),分別得到城鎮(zhèn)戶口和農(nóng)村戶口的存(?。┛罱痤~的四分位數(shù)。2、分析過程:205.2計算基本描述統(tǒng)計量5.2.1基本描述統(tǒng)計量適用對象:定距數(shù)據(jù)常見的基本描述統(tǒng)計量有三大類:刻畫集中趨勢的統(tǒng)計量刻畫離中趨勢的統(tǒng)計量刻畫分布形態(tài)的統(tǒng)計量5.2計算基本描述統(tǒng)計量5.2.1基本描述統(tǒng)計量211、刻畫集中趨勢的描述統(tǒng)計量集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的傾向。(1)均值(Mean):即算術平均數(shù),是反映某變量所有取值的集中趨勢或平均水平的指標。如某企業(yè)職工的平均月收入。其計算公式為:1、刻畫集中趨勢的描述統(tǒng)計量22均值適用條件:定距變量;單峰或基本對稱分布情況下適用(為什么?)均值適用條件:23(2)中位數(shù)(Median):即一組數(shù)據(jù)按升序排序后,處于中間位置上的數(shù)據(jù)值。如評價社會的老齡化程度時,可用中位數(shù)。中位數(shù)特點:位置平均數(shù),不受極端值影響,適用于任意分布類型數(shù)據(jù);定序和定價數(shù)據(jù)都適用;樣本量很小時,中位數(shù)不穩(wěn)定;(2)中位數(shù)(Median):即一組數(shù)據(jù)按升序排序后,處于中24問題2:擇業(yè)中考慮的主要因素(多選)Dichotomies表示以多選二分法編碼,并在countedvalue中輸入用哪個數(shù)值來表示選中該選項。3發(fā)展前途4地理區(qū)位由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的2交叉列聯(lián)表的主要內(nèi)容(1)均值(Mean):即算術平均數(shù),是反映某變量所有取值的集中趨勢或平均水平的指標。2、然后對綜合變量的各種取值進行分析。75的計算公式是3*4/16=0.(1)頻數(shù)分析的第一個基本任務是編制頻數(shù)分布表(可選項)。但大多數(shù)情況下,觀測頻數(shù)分散在列聯(lián)表的各個單元格中,不容易直接發(fā)現(xiàn)行列變量之間的關系強弱程度,此時就要借助非參數(shù)檢驗方法。(2)選擇和計算檢驗統(tǒng)計量多變量框中可設定多變量表格輸出的格式(6)單擊Statistics按鈕指定用哪種方法分析行變量和列變量間的關系,窗口如下,其中,Chi-Square為卡方檢驗。例如:購買商業(yè)保險的原因(P126)當總差值越大時,卡方值也就越大,實際分布與期望分布的差距越大,表明行列變量之間越相關;例如:購買商業(yè)保險的原因(P126)補充:多選項問題的分析指標被稱為觀察到的(或?qū)崪y的)顯著性水平。(2)將若干頻數(shù)分析變量選擇到Variable(s)框中。多選問題賦值方法(重點掌握)(3)眾數(shù)(Mode):即一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)值。如生產(chǎn)鞋的廠商在制定各種型號鞋的生產(chǎn)計劃時應該運用眾數(shù)。眾數(shù)特點:出現(xiàn)頻數(shù)最高的數(shù),不受極端值影響,但是不容易確定;適用于任意類型數(shù)據(jù),特別是單峰對稱分布;僅使用頻數(shù)最高這一信息,信息損失較大;問題2:擇業(yè)中考慮的主要因素(多選)(3)眾數(shù)(Mode):252、刻畫離散程度的描述統(tǒng)計量離散程度是指一組數(shù)據(jù)遠離其“中心值”的程度。如果數(shù)據(jù)都緊密地集中在“中心值”的周圍,數(shù)據(jù)的離散程度較小,說明這個“中心值”對數(shù)據(jù)的代表性好;相反,如果數(shù)據(jù)僅是比較松散地分布在“中心值”的周圍,數(shù)據(jù)的離散程度較大,則此“中心值”說明數(shù)據(jù)特征是不具有代表性的。2、刻畫離散程度的描述統(tǒng)計量26常見的刻畫離散程度的描述統(tǒng)計量如下:(1)全距(Range):也稱極差,是數(shù)據(jù)的最大值(Maximum)與最小值(Minimum)之間的絕對離差。

特點:易受極端值影響;不能反映中間數(shù)據(jù)分布;一般是作預備性檢查。常見的刻畫離散程度的描述統(tǒng)計量如下:27(2)方差(Variance):也是表示變量取值離散程度的統(tǒng)計量,是各變量值與算數(shù)平均數(shù)離差平方的算術平均數(shù)。其計算公式為:特點:容易受極端值影響;計算中使用了均值,因此,均值必須能夠代表集中度時才能適用。是離散指標中最可靠的。(2)方差(Variance):也是表示變量取值離散程度的統(tǒng)28(3)標準差(StandardDeviation:StdDev):表示變量取值距離均值的平均離散程度的統(tǒng)計量。其計算公式為:標準差值越大,說明變量值之間的差異越大,距均值這個“中心值”的離散趨勢越大。(3)標準差(StandardDeviation:Std29(4)均值標準誤差(StandardErrorofMean):描述樣本均值與總體均值之間的平均差異程度的統(tǒng)計量。其計算公式為:

其中:為總體標準差,n為樣本單位數(shù)(4)均值標準誤差(StandardErrorofMe303、刻畫分布形態(tài)的描述統(tǒng)計量數(shù)據(jù)的分布形態(tài)主要指數(shù)據(jù)分布是否對稱,偏斜程度如何,分布陡峭程度等??坍嫹植夹螒B(tài)的統(tǒng)計量主要有兩種:(1)偏度(Skewness):描述變量取值分布形態(tài)對稱性的統(tǒng)計量。其計算公式為:3、刻畫分布形態(tài)的描述統(tǒng)計量31當分布為對稱分布時,正負總偏差相等,偏度值等于0;當分布為不對稱分布時,正負總偏差不相等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,稱為正偏或右偏(眾數(shù)<中位數(shù)<平均數(shù));偏度值小于0表示負偏差值大,稱為負偏或左偏(眾數(shù)>中位數(shù)>平均數(shù))。偏度絕對值越大,表示數(shù)據(jù)分布形態(tài)的偏斜程度越大。當分布為對稱分布時,正負總偏差相等,偏度值等于0;32(2)峰度(Kurtosis):描述變量取值分布形態(tài)陡峭程度的統(tǒng)計量。其計算公式為:

當數(shù)據(jù)分布與標準正態(tài)分布的陡峭程度相同時,峰度值等于0;峰度大于0表示數(shù)據(jù)的分布比標準正態(tài)分布更陡峭,為尖峰分布;峰度小于0表示數(shù)據(jù)的分布比標準正態(tài)分布平緩,為平峰分布。(2)峰度(Kurtosis):描述變量取值分布形態(tài)陡峭程度335.2.2計算基本描述統(tǒng)計量的操作(1)選擇菜單Analyze-DescriptiveStatistics-Descriptives,出現(xiàn)如下窗口:5.2.2計算基本描述統(tǒng)計量的操作34(2)將需計算的數(shù)值型變量選擇到Variable(s)框中。(3)單擊Option按鈕指定計算哪些基本描述統(tǒng)計量,出現(xiàn)如下窗口:(2)將需計算的數(shù)值型變量選擇到Variable(s)框中。35Options對話框

基本統(tǒng)計量當Variables框中有多個變量時,此框確定其輸出順序:按Variables框中的排列順序輸出按各變量的字母順序輸出按均值的升序排列按均值的降序排列分布Options對話框基本統(tǒng)計量當Variables框中有36

在上面窗口中,用戶可以指定分析多變量時結(jié)果輸出的次序(DisplayOrder)。其中,Variablelist表示按變量在數(shù)據(jù)窗口中從左到右的次序輸出;Alphabetic表示按字母順序輸出;AscendingMeans表示按均值升序輸出;DescendingMeans表示按均值降序輸出。至此,SPSS便自動計算所選變量的基本描述統(tǒng)計量并顯示到輸出窗口中。在上面窗口中,用戶可以指定分析多變量時結(jié)375.2.3計算基本描述統(tǒng)計量的應用舉例

1.利用居民儲蓄調(diào)查數(shù)據(jù),對存款金額變量計算基本描述統(tǒng)計量。有以下分析目標:計算存款金額的基本描述統(tǒng)計量,并分別對城鎮(zhèn)儲戶和農(nóng)村儲戶進行比較。

5.2.3計算基本描述統(tǒng)計量的應用舉例38分析思路:首先,由于存(取)款金額數(shù)據(jù)為定距型變量,可直接采用基本描述統(tǒng)計分析。然后,按照戶口對數(shù)據(jù)進行拆分(Splitfile),然后計算存(?。┛罱痤~的基本描述統(tǒng)計量。分析思路:392.分析儲戶一次存款的數(shù)量是否存在不均衡現(xiàn)象。分析:

(1)假設儲戶一次存款金額服從正態(tài)分布,跟據(jù)3原則,異常值通常為3個標準差范圍之外的值,可通過對數(shù)據(jù)的標準化處理來判斷。標準化的數(shù)學定義為:2.分析儲戶一次存款的數(shù)量是否存在不均衡現(xiàn)象。40(2)計算儲戶一次存款金額的標準化值。(通過標準化可以得到一系列新變量值,通常稱為標準化值或z分數(shù)。計算標準化值可以通過對話框中的復選框savestandardizedvaluesasvariables來實現(xiàn),并將結(jié)果保存在一個新變量中。該變量的命名規(guī)則為字母z+原變量名的前七個字符。)(3)接下來可對新變量進行排序并瀏覽其標準化值的取值情況,可以發(fā)現(xiàn)z分數(shù)值得絕對數(shù)大于3的儲戶是存在的。(4)對其分組為三組:za5<-3,-3<za5<3,za5>3.(5)進行頻數(shù)分析可以發(fā)現(xiàn)存款金額存在不均衡現(xiàn)象。(2)計算儲戶一次存款金額的標準化值。(通過標準化可以得到一41思考:頻數(shù)和基本描述統(tǒng)計量可以描述單個變量的分布情況。能否用于分析多個變量的聯(lián)合分布情況?思考:頻數(shù)和基本描述統(tǒng)計量可以描述單個變量的分布情況。能否用425.3交叉分組下的頻數(shù)分析5.3.1目的和基本任務交叉分組下的頻數(shù)分析又稱列聯(lián)表分析。1、目的:分析多個分類變量不同取值下的分布,進而分析變量之間的相互影響和關系。即分析兩個或兩個以上分類變量的分布情況。適用范圍:兩個或兩個以上定類或定序變量.5.3交叉分組下的頻數(shù)分析5.3.1目的和基本任務432、基本任務:(1)根據(jù)收集到的樣本數(shù)據(jù),產(chǎn)生二維或多維交叉列聯(lián)表;(2)在交叉列聯(lián)表的基礎上,對兩兩變量間是否存在一定的相關性進行分析。2、基本任務:44若p-值<,拒絕H0問題2:擇業(yè)中考慮的主要因素(多選)例如:購買商業(yè)保險的原因(P126)有效百分比(ValidPercent):即各頻數(shù)占有效樣本數(shù)的百分比,這里有效樣本數(shù)=總樣本-缺失樣本數(shù)Explore主對話框因為限選三項,故應設三個變量,編碼依次為1,3,6。如果該估計量離均值較遠,則說明數(shù)據(jù)可能存在異常值,此時宜用該估計量替代均值以反映集中趨勢。為進行多選項分析,首先定義名為set1的多選項變量集,其中包括q13a、q13b、q13c三個變量,然后對多選項變量集進行頻數(shù)分析;還可以直接指定分位點(Percentile)。累計百分比(CumulativePercent):即各百分比逐級累加起來的結(jié)果。如果行和列變量在統(tǒng)計上是獨立的或不相關的,那么會在單元格中輸出期望的觀測值的數(shù)量。2多選項分析的基本操作僅使用頻數(shù)最高這一信息,信息損失較大;002.一共會輸出四種m估計量,其中huber適用于數(shù)據(jù)接近正態(tài)分布時,另三種則適用于數(shù)據(jù)中有許多異常值的情況;為觀察頻數(shù),為期望頻數(shù)(ExpectedCount)。然后,按照戶口對數(shù)據(jù)進行拆分(Splitfile),然后計算存(?。┛罱痤~的基本描述統(tǒng)計量。3發(fā)展前途4地理區(qū)位至此,SPSS便自動計算所選變量的基本描述統(tǒng)計量并顯示到輸出窗口中。然后,按照戶口類型對數(shù)據(jù)進行拆分(Splitfile)并重新計算分位數(shù),分別得到城鎮(zhèn)戶口和農(nóng)村戶口的存(?。┛罱痤~的四分位數(shù)。5.3.2交叉列聯(lián)表的主要內(nèi)容編制交叉列聯(lián)表是交叉分組下頻數(shù)分析的第一個任務。交叉列聯(lián)表是兩個或兩個以上的變量交叉分組后形成的頻數(shù)分布表。例:職工基本情況數(shù)據(jù)按職稱和文化程度編制的二維交叉列聯(lián)表(見下頁表):若p-值<,拒絕H05.3.2交叉列聯(lián)表的主要內(nèi)45第五基本統(tǒng)計分析課件146上表中的職稱變量稱為行變量(Row),文化程度稱為列變量(Column)。行標題和列標題分別是兩個變量的變量值(或分組值)。表格中間是觀測頻數(shù)(ObservedCounts)和各種百分比。16名職工中,本科、專科、高中、初中的人數(shù)分別為4,4,5,3,構(gòu)成的分布稱為交叉列聯(lián)表的列邊緣分布;高級工程師、工程師、助理工程師、無技術職稱的人數(shù)分別為3,4,6,3,構(gòu)成的分布稱為交叉列聯(lián)表的行邊緣分布;4個本科學歷職工中各職稱的人數(shù)分別是1,1,2等,這些頻數(shù)構(gòu)成的分布稱為條件分布,即在行變量(列變量)取值條件下的列變量(行變量)的分布。上表中的職稱變量稱為行變量(Row),文化47在交叉列聯(lián)表中,除了頻數(shù)外還引進了各種百分比。例如表中第一行中的33.3%,33.3%,33.3%分別是高級工程師3人中各學歷人數(shù)所占的比例,稱為行百分比(Rowpercentage),一行的百分比總和為100%;表中第一列的25.0%,25.0%,50.0%分別是本科學歷4人中各職稱人數(shù)所占的比例,稱為列百分比(Columnpercentage),一列的列百分比總和為100%,表中的6.3%,6.3%,12.5%等分別是總?cè)藬?shù)16人中各交叉組中人數(shù)所占的百分比,稱為總百分比(Totalpercentage),所有格子中的總百分比之和也為100%。在交叉列聯(lián)表中,除了頻數(shù)外還引進了各種百分485.3.3交叉分組下的頻數(shù)分析的基本操作(1)菜單選項Analyze-DescriptiveStatistics-Crosstabs,出現(xiàn)窗口如下:5.3.3交叉分組下的頻數(shù)分析的基本操作49該框中的變量作為分布表中的行變量和列變量。該框中的變量作為控制變量,決定頻數(shù)分布表中的層,可有多個控制變量。顯示每一組中各變量的分類條形圖。只輸出統(tǒng)計量,不輸出多維列聯(lián)表。Crosstabs對話框該框中的變量作為分布表中的行變量和列變量。該框中的變量作為控50(2)如果進行二維列聯(lián)表分析,則將行變量選擇到Row(s)框中,將列變量選擇到Column(s)框中。如果Row(s)和Column(s)框中有多個變量名,SPSS會將行列變量一一配對后產(chǎn)生多張二維列聯(lián)表。如果進行三維或多維列聯(lián)表分析,則將其他變量作為控制變量選到Layer框中。多控制變量間可以是同層次的,也可以是逐層疊加的,可通過Previous或Next按鈕確定控制變量間的層次關系。(2)如果進行二維列聯(lián)表分析,則將行變量選擇到Row(s)框51(3)選擇Displayclusteredbarcharts選項,指定繪制各變量交叉分組下頻數(shù)分布條形圖。Suppresstables表示不輸出列聯(lián)表,在僅分析行列變量間關系時可選擇該選項。(4)單擊Cells按鈕指定列聯(lián)表單元格中的輸出內(nèi)容,窗口如下:(3)選擇Displayclusteredbarcha52Crosstabs的CellDisplay對話框選擇在列聯(lián)表中輸出的統(tǒng)計量,包括觀測量數(shù)、百分比、殘差輸出觀測量的實際數(shù)量如果行和列變量在統(tǒng)計上是獨立的或不相關的,那么會在單元格中輸出期望的觀測值的數(shù)量。輸出單元格中觀測量的數(shù)目占整行全部觀測量數(shù)目的百分比輸出單元格中觀測值的數(shù)目占整列全部觀測量數(shù)目的百分比輸出單元格中觀測量的數(shù)目占全部觀測量數(shù)目的百分比計算非標準化殘差計算標準化殘差計算調(diào)整后殘差Crosstabs的CellDisplay對話框選擇在列53

SPSS默認列聯(lián)表單元格中只輸出觀測頻數(shù)(Observed)。為便于分析,通常還應指定輸出Percentage框中的行百分比(Row)、列百分比(Column)、總百分比(Total)。Counts框中的Expected表示輸出期望頻數(shù);Residuals框中的各個選項表示在各個單元格中輸出剩余。其中,Unstandardized為非標準化剩余,定義為觀測頻數(shù)-期望頻數(shù);Standardized為標準化剩余,又稱Pearson剩余,定義為:SPSS默認列聯(lián)表單元格中只輸出觀測頻數(shù)(Obse54(5)單擊Format按鈕指定列聯(lián)表各單元格的輸出排列順序。Ascending表示以行變量取值的升序排列,是SPSS默認項;Descending表示以行變量取值的降序排列。(6)單擊Statistics按鈕指定用哪種方法分析行變量和列變量間的關系,窗口如下,其中,Chi-Square為卡方檢驗。(5)單擊Format按鈕指定列聯(lián)表各單元格的輸出排列順序。555.3.4交叉列聯(lián)表行列變量間關系的分析

對交叉列聯(lián)表中的行變量和列變量之間關系進行分析是交叉分組下頻數(shù)分析的第二個任務。為了理解行、列變量之間的關系,可以從分析兩個極端的例子出發(fā):(1)年齡與工資收入的交叉列聯(lián)表(一)工資收入年齡段低中高青40000中04000老004005.3.4交叉列聯(lián)表行列變量間關系的分析工資收入年低56(2)年齡與工資收入交叉列聯(lián)表(二)

表一中表示年齡與工資收入呈正相關關系,表二表示年齡與工資收入呈負相關關系。但大多數(shù)情況下,觀測頻數(shù)分散在列聯(lián)表的各個單元格中,不容易直接發(fā)現(xiàn)行列變量之間的關系強弱程度,此時就要借助非參數(shù)檢驗方法。通常用的方法是卡方檢驗。工資收入年齡段低中高青00400中04000老40000(2)年齡與工資收入交叉列聯(lián)表(二)工資收入年低中高青57能否用于分析多個變量的聯(lián)合分布情況?條形圖(BarChart):用寬度相同的條形的高度或長短來表示頻數(shù)分布(或百分比)變化的圖形,適用于定序和定類變量的分析。Explore主對話框注意:這是一組問題,每個問題均有兩個答案,回答者只能選擇其中一種。顯示每一組中各變量的分類條形圖。然后為每個答案設置一個SPSS變量,變量取值為多選項問題中的所有可選答案。AscendingMeans表示按均值升序輸出;75的計算公式是3*4/16=0.于是四分位數(shù)便分別是25%,50%,75%點所對應的變量值。分位點在0-100之間。根據(jù)統(tǒng)計量觀測值的概率p值和顯著性水平比較的結(jié)果進行決策。(1)年齡與工資收入的交叉列聯(lián)表(一)分析老年人購買商業(yè)養(yǎng)老保險的原因;DefineSets:多選變量的頻次分析(重點掌握)V1交通條件影響購物嗎?1或01--是;多選項二分法是將多選項問題中的每一個答案設為一個SPSS變量,每個變量值有0或1兩個取值,分別表示選擇了該答案和不選擇該答案。(2)AAD(AverageAbsoluteDeviation)平均絕對離差:是對比率變量離散程度的描述,計算公式為:1、先將每個多選題的若干答案組成一個綜合變量即變量集(Set);002.通常用的方法是卡方檢驗。交叉列聯(lián)表的卡方檢驗卡方檢驗屬假設檢驗的范疇,步驟如下:(1)建立原假設在列聯(lián)表分析中卡方檢驗的原假設為行變量與列變量獨立(2)選擇和計算檢驗統(tǒng)計量列聯(lián)表分析卡方檢驗統(tǒng)計量是Pearson卡方統(tǒng)計量,其數(shù)學定義為:能否用于分析多個變量的聯(lián)合分布情況?交叉列聯(lián)表的卡方檢驗卡方58

其中,r為列聯(lián)表的行數(shù),c為列聯(lián)表的列數(shù);為觀察頻數(shù),為期望頻數(shù)(ExpectedCount)。期望頻數(shù)的計算方法是:

其中,RT是指定單元格所在行的觀測頻數(shù)合計,CT是指定單元格所在列的觀測頻數(shù)合計,n是觀測頻數(shù)的合計。

期望頻數(shù)的分布反映的是行列變量互不相干下的分布。第五基本統(tǒng)計分析課件159第五基本統(tǒng)計分析課件160例如,具有本科學歷的高級工程師的期望頻數(shù)是0.75的計算公式是3*4/16=0.75。這里,期望頻數(shù)可以理解為,總共16個職工的學歷分布是25%:25%:31.3%:18.8%,如果遵從這種學歷的總體比例關系,高級職稱三人的學歷分布也應為25%:25%:31.3%:18.8%,于是期望頻數(shù)為3*25%、3*25%、3*31.3%、3*18.8%。同理可以理解,總共16個職工的職稱分布為18.8%:25%:37.5%:18.8%,本科學歷4人的期望頻數(shù)分別為4*18.8%、4*25%、4*37.5%、4*18.8%。例如,具有本科學歷的高級工程師的期望頻數(shù)是0.75的計算公式61卡方統(tǒng)計量觀測值的大小取決于兩個因素:第一:列聯(lián)表的單元格子數(shù);第二:觀測頻數(shù)與期望頻數(shù)的總差值。在列聯(lián)表確定的情況下,卡方統(tǒng)計量觀測值的大小取決于觀測頻數(shù)與期望頻數(shù)的總差值。當總差值越大時,卡方值也就越大,實際分布與期望分布的差距越大,表明行列變量之間越相關;反之表明行列變量之間越獨立??ǚ浇y(tǒng)計量觀測值的大小取決于兩個因素:62問題:在統(tǒng)計上卡方統(tǒng)計量的觀測值究竟達到什么程度才能斷定行列變量不獨立呢?由于該檢驗中的pearson卡方統(tǒng)計量近似服從卡方分布,因此可依據(jù)卡方理論找到某自由度和顯著性水平下的卡方值,即卡方臨界值。問題:在統(tǒng)計上卡方統(tǒng)計量的觀測值究竟達到什么程度才能斷定行列63(3)確定顯著性水平(SignificantLevel)和臨界值顯著性水平是指原假設為真卻將其拒絕的風險,即棄真的概率。通常設為0.05或0.01。在卡方檢驗中,由于卡方統(tǒng)計量服從自由度為(行數(shù)-1)×(列數(shù)-1)的卡方分布,因此,在行列數(shù)目和顯著性水平確定時,卡方臨界值是可唯一確定的。(3)確定顯著性水平(SignificantLevel)和64(4)結(jié)論和決策(對統(tǒng)計推斷做決策通常有兩種方式)根據(jù)統(tǒng)計量觀測值和臨界值比較的結(jié)果進行決策。如果卡方觀測值大于臨界值,則認為實際分布與期望分布之間的差距顯著,可以拒絕原假設,斷定列聯(lián)表的行列變量間不獨立,存在相關關系;如果卡方觀測值小于臨界值,接受原假設。(4)結(jié)論和決策(對統(tǒng)計推斷做決策通常有兩種方式)65根據(jù)統(tǒng)計量觀測值的概率p值和顯著性水平比較的結(jié)果進行決策。如果p值小于等于,則認為卡方觀測值出現(xiàn)的概率是很小的,拒絕原假設,斷定列聯(lián)表的行列變量間不獨立,存在依存關系;反之,接受原假設。根據(jù)統(tǒng)計量觀測值的概率p值和顯著性水平比較的結(jié)果進行66什么是P值?是一個概率值;如果原假設為真,P-值是抽樣分布中大于或等于樣本統(tǒng)計量的概率;被稱為觀察到的(或?qū)崪y的)顯著性水平。什么是P值?是一個概率值;67雙側(cè)檢驗的P值/

2/

2Z拒絕拒絕H0值臨界值計算出的樣本統(tǒng)計量計算出的樣本統(tǒng)計量臨界值1/2P值1/2P值雙側(cè)檢驗的P值/2/2Z拒絕拒絕H0值臨界值計68如生產(chǎn)鞋的廠商在制定各種型號鞋的生產(chǎn)計劃時應該運用眾數(shù)。DefineSets:多選問題賦值方法(重點掌握)用于顯示未分組的原始數(shù)據(jù)的分布2、然后對綜合變量的各種取值進行分析。(4)對其分組為三組:za5<-3,-3<za5<3,za5>3.顯示每一組中各變量的分類條形圖。3發(fā)展前途4地理區(qū)位多選問題賦值方法(重點掌握)4個本科學歷職工中各職稱的人數(shù)分別是1,1,2等,這些頻數(shù)構(gòu)成的分布稱為條件分布,即在行變量(列變量)取值條件下的列變量(行變量)的分布。(如:樣本是否有代表性、抽樣是否存在系統(tǒng)性偏差等)此外,還有八分位數(shù)、十六分位數(shù)等。目標二:分析儲戶存取款金額的分布,并對城鎮(zhèn)儲戶和農(nóng)村儲戶進行比較。通常的分析可以生成各個地區(qū)財產(chǎn)保險業(yè)務的保費收入占全部業(yè)務保費收入的比率變量,然后對該比率變量計算基本描述統(tǒng)計量(如均值、中位數(shù)、標準差、全距等),進而刻畫比率變量的集中趨勢和離散程度。高級工程師、工程師、助理工程師、無技術職稱的人數(shù)分別為3,4,6,3,構(gòu)成的分布稱為交叉列聯(lián)表的行邊緣分布;2、分析城鎮(zhèn)和農(nóng)村儲戶對”什么合算”的認同是否一致(戶口對”什么合算”的認同是否有影響)。1、頻數(shù)分析(重點:統(tǒng)計量含義、相互聯(lián)系)當期望頻數(shù)T>=5,樣本數(shù)n>=40時,直接用Pearson卡方檢驗;003.左側(cè)檢驗的P值H0值臨界值a樣本統(tǒng)計量拒絕域抽樣分布1-置信水平計算出的樣本統(tǒng)計量P值如生產(chǎn)鞋的廠商在制定各種型號鞋的生產(chǎn)計劃時應該運用眾數(shù)。左側(cè)69右側(cè)檢驗的P值H0值臨界值a拒絕域抽樣分布1-置信水平計算出的樣本統(tǒng)計量P值右側(cè)檢驗的P值H0值臨界值a拒絕域抽樣分布1-置信水70利用P值進行檢驗

(決策準則)若p-值>

,不拒絕H0若p-值<,拒絕H0利用P值進行檢驗

(決策準則)71使用卡方檢驗應該注意的問題:列聯(lián)表中有20%以上單元格的期望頻數(shù)小于5時,要采用似然率(likelihoodratio)卡方檢驗進行修正;當期望頻數(shù)T>=5,樣本數(shù)n>=40時,直接用Pearson卡方檢驗;當1=<T<5,n>=40時,用連續(xù)性校正公式(continuitycorrection);當T<1,或者n<40時,或做卡方檢驗后所得的P值接近檢驗水準a時,用確切概率(Fisherexacttest)。使用卡方檢驗應該注意的問題:725.3.5交叉分組下的頻數(shù)分析應用舉例對居民儲蓄調(diào)查數(shù)據(jù)進行分析,實現(xiàn)以下目標:

1、分析城鎮(zhèn)和農(nóng)村儲戶對“未來收入狀況的變化趨勢”是否持相同的態(tài)度。

2、分析城鎮(zhèn)和農(nóng)村儲戶對”什么合算”的認同是否一致(戶口對”什么合算”的認同是否有影響)。5.3.5交叉分組下的頻數(shù)分析應用舉例73分析:1、該問題列聯(lián)表的行變量為戶口,列變量為未來收入狀況,在列聯(lián)表中輸出各種百分比、期望頻數(shù)、剩余、標準化剩余,顯示各交叉分組下頻數(shù)分布柱形圖,并利用卡方檢驗方法,對城鎮(zhèn)和農(nóng)村儲戶對該問題的態(tài)度是否一致進行分析。2、該問題列聯(lián)表的行變量為戶口,列變量為什么合算,在列聯(lián)表的基礎上進行卡方檢驗。分析:74第五基本統(tǒng)計分析課件175第五基本統(tǒng)計分析課件176第五基本統(tǒng)計分析課件1775.3.6SPSS中列聯(lián)表分析的其他方法對列聯(lián)表中行列變量的分析,除上述卡方檢驗方法之外,SPSS還提供了其他測度變量間相關關系的檢驗方法,包括:適用于兩定類變量的方法:Nominal框中列出的方法屬該類方法。適用于兩定序變量的方法:Ordinal框中列出的方法屬該類方法。適用于一定類變量、一定距變量的方法:Nominalbyinterval框中的Eta方法屬該類方法。其他方法。5.3.6SPSS中列聯(lián)表分析的其他方法785.4探索分析Explore1.分析目的:對數(shù)據(jù)進行初步考察核實,考察內(nèi)容為檢查數(shù)據(jù)是否有錯誤:數(shù)據(jù)過大或過小都可能是奇異值、影響點或錯誤數(shù)據(jù)(找出、分析原因、是否剔除)分布特征:如數(shù)據(jù)是否來自正態(tài)總體,分組數(shù)據(jù)方差是否相等。2.考察方法:統(tǒng)計量和統(tǒng)計圖形(箱式圖、莖葉圖、QQ圖)3、適用對象:一般是考察定距變量;5.4探索分析Explore1.分析目的:對數(shù)據(jù)進行初794.操作:

Analyze+DescriptiveStatistics+Explore分析變量(DependentList):數(shù)值型變量分組變量(FactorList):分類變量標識變量(LabelCasesby):用某變量的值作為觀察值的標識如id4.操作:80選擇一個或多個變量進入Dependent框作為分析變量,單擊OK可獲得分析變量的一系列基本統(tǒng)計量和圖形。此作為分組變量,可以是字符變量,對分析變量的分析將按該變量的觀測值進行分組分析??捎卸鄠€分組變量,這時會按多個變量的交叉組合進行分組。該框中的變量作為標識符,在輸出諸如異常值時,用該變量進行標識,只允許有一個標識符??赏瑫r輸出基本統(tǒng)計量和圖形只輸出基本統(tǒng)計量只輸出圖形Explore主對話框選擇一個或多個變量進入Dependent框作為分析變量,單擊81輸出基本統(tǒng)計量均值的置信區(qū)間,可鍵入1—99%的任意值,根據(jù)該值算出置信區(qū)間的上下限。給出中心趨勢的最大似然比的穩(wěn)健估計量,當數(shù)據(jù)分布均勻,且兩尾較長,或當數(shù)據(jù)中存在極端值時,可給出比均值或中位數(shù)更合理的估計。輸出最大和最小的5個數(shù),且在輸出窗口中加以標明。輸出5%、10%、25%、50%、75%、90%和95%的百分位數(shù)。Statistics對話框輸出基本統(tǒng)計量給出中心趨勢的最大似然比的穩(wěn)健估計量,當數(shù)據(jù)分82Statistics子對話框:用于選擇需要的描述統(tǒng)計量;

descriptives:輸出均值、中位數(shù)、眾數(shù)、5%修正均值、估計標準誤、方差、標準差、最小值、最大值、全距、四分位差、峰度系數(shù)及其標準誤、偏度系數(shù)及其標準誤及指定的均值置信區(qū)間;

m-estmators:做集中趨勢的最大穩(wěn)健估計,該統(tǒng)計量是利用迭代方法計算出來的,受異常值的影響要小得多。如果該估計量離均值較遠,則說明數(shù)據(jù)可能存在異常值,此時宜用該估計量替代均值以反映集中趨勢。一共會輸出四種m估計量,其中huber適用于數(shù)據(jù)接近正態(tài)分布時,另三種則適用于數(shù)據(jù)中有許多異常值的情況;

outliers:輸出五個最大值和五個最小值。

percentiles:輸出第5%、10%、25%、50%、75%、90%、95%分位數(shù)。Statistics子對話框:用于選擇需要的描述統(tǒng)計量;83plots子對話框:用于選擇需要的統(tǒng)計圖;

boxplots復選框:確定箱式圖的繪制方式,可以分組繪制(factorlevelstogether),也可以不分組繪制(dependentstogether),或者不繪制(none);

descriptive復選框:可以選擇繪制莖葉圖(stem-and-leaf)和直方圖(histogram);

normalityplotwithtest:繪制正態(tài)分布圖(QQ圖),并進行變量是否符合正態(tài)分布的檢驗;

plots子對話框:用于選擇需要的統(tǒng)計圖;84莖葉圖(stem-and-leaf)1.用于顯示未分組的原始數(shù)據(jù)的分布2.由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的3.以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉4.樹葉上只保留一位數(shù)字5.莖葉圖類似于橫置的直方圖,但又有區(qū)別:直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原始數(shù)值,保留了原始數(shù)據(jù)的信息6.圖的下方會標示出莖寬和實際值的倍數(shù),每行的莖和葉組成的數(shù)字再乘以莖寬,即得到實際數(shù)據(jù)的近似值,同樣在圖的下方也會標示出每片葉子代表的記錄數(shù)。莖葉圖(stem-and-leaf)1.用于顯85利用各地區(qū)保險業(yè)務保費收入數(shù)據(jù),對財產(chǎn)保險保費收入進行探索性分析------莖葉圖財產(chǎn)保險保費收入Stem-and-LeafPlotFrequencyStem&Leaf4.000.11247.000.677788910.001.00001113335.001.567783.002.0121.002.83.003.1141.003.62.00Extremes(>=5619)Stemwidth:1000.00Eachleaf:1case(s)利用各地區(qū)保險業(yè)務保費收入數(shù)據(jù),對財產(chǎn)保險保費收入進行探索性86利用各地區(qū)保險業(yè)務保費收入數(shù)據(jù),對財產(chǎn)保險保費收入進行探索性分析------箱圖利用各地區(qū)保險業(yè)務保費收入數(shù)據(jù),對財產(chǎn)保險保費收入進行探索性87利用各地區(qū)保險業(yè)務保費收入數(shù)據(jù),對財產(chǎn)保險保費收入進行探索性分析------正態(tài)Q-Q圖縱軸:分位數(shù)橫軸:觀測值判別標準:如果數(shù)據(jù)服從正態(tài)分布,則圖中點應該靠近直線。利用各地區(qū)保險業(yè)務保費收入數(shù)據(jù),對財產(chǎn)保險保費收入進行探索性88利用各地區(qū)保險業(yè)務保費收入數(shù)據(jù),對財產(chǎn)保險保費收入進行探索性分析----離散正態(tài)概率Q-Q圖(去勢QQ圖)利用各地區(qū)保險業(yè)務保費收入數(shù)據(jù),對財產(chǎn)保險保費收入進行探索性89練習利用居民儲蓄調(diào)查數(shù)據(jù),對一次存款金額變量進行探索性分析,分析目的:1、數(shù)據(jù)是否存在極端值;2、對城鄉(xiāng)居民的儲蓄數(shù)據(jù)進行正態(tài)分布檢驗和方差齊次性檢驗。練習利用居民儲蓄調(diào)查數(shù)據(jù),對一次存款金額變量進行探索性分析,905.5多選項分析(頻數(shù)分析和交叉分析)適用對象:問卷調(diào)查中的多選項問題;多選項問題:是根據(jù)實際調(diào)查的需要,要求被調(diào)查者從問卷給出的若干個可選答案中選擇一個以上的答案。目前,市場研究或許多領域?qū)δ呈挛镌u價的研究中常常遇到這樣的問題。多選項問題可以分為限選和不限選:限選:如在11種工作種類中,選你喜歡的,最多可選4種(Var1-Var4);求所有人喜歡各種工作的頻數(shù)或頻率。不限選:如在所列的20種電器中,你家所擁有的電器,不限選(Var1-Var20),求所有被調(diào)查家庭擁有各種電器的頻數(shù)或頻率。5.5多選項分析(頻數(shù)分析和交叉分析)適用對象:問卷調(diào)查中91第五基本統(tǒng)計分析課件192思考:如果要將上述問題在SPSS中表述出來,然后進行分析,該建立何種數(shù)據(jù)結(jié)構(gòu)呢?一個變量能否存儲多選題的全部信息?思考:935.5.1多選項問題的分解多選項二分法及其編碼(multipledichotomiesmethod):多選項二分法是將多選項問題中的每一個答案設為一個SPSS變量,每個變量值有0或1兩個取值,分別表示選擇了該答案和不選擇該答案。5.5.1多選項問題的分解多選項二分法及其編碼(multi94上述問題的二分法編碼如下:變量名變量名標簽變量值變量值標簽V1交通條件影響購物嗎?1或01--是;0--否V2促銷活動影響購物嗎?1或01--是;0--否V3購物環(huán)境影響購物嗎?1或01--是;0--否V4服務質(zhì)量影響購物嗎?1或01--是;0--否V5其他因素影響購物嗎?1或01--是;0--否上述問題的二分法編碼如下:變量名變量名95注意:這是一組問題,每個問題均有兩個答案,回答者只能選擇其中一種。在建立數(shù)據(jù)文件時,變量名使用相同的變量主名,后面加以不同序號組成,本組問題的5個變量名可以是“購物影響因素1-購物影響因素5”,然后添加變量名標簽。而答案的編碼規(guī)則為:回答“是”變量值為1,回答“否”變量值為0,其他值為缺失值。第五基本統(tǒng)計分析課件196多選項分類法及其編碼(multiplecategorymethod)多選項分類法:首先應估計多選項問題最多可能出現(xiàn)的答案個數(shù);然后為每個答案設置一個SPSS變量,變量取值為多選項問題中的所有可選答案。多選項分類法及其編碼(multiplecategorym97(限選三項)(限選三項)98上述問題的多選項分類編碼如下:變量名變量名標簽變量值變量值標簽V1購物影響因素11,2,3,4,51-交通條件;2-促銷活動;3-購物環(huán)境;4-服務質(zhì)量;5-其他;V2購物影響因素2同上同上V3購物影響因素3同上同上上述問題的多選項分類編碼如下:變量名變量名標簽99

如果采用多選二分法則有6個選項,故應設6個變量,運用0-1編碼方法編碼,即:1,0,1,0,1,1。如果采用多選分類法,則編碼為1,3,5,6,0,0。1356如果采用多選二分法則有6個選項,故應設6個變量,100問題2:擇業(yè)中考慮的主要因素(多選)1經(jīng)濟收入2專業(yè)對口3發(fā)展前途4地理區(qū)位5個人愛好6風險大小7勞動強度8社會福利9其他編碼應為:1,0,1,1,1,0,1,1,0?;?,3,4,5,7,8,0,0,0。問題2:擇業(yè)中考慮的主要因素(多選)1經(jīng)濟收入101136問題3:您擇業(yè)中考慮的主要因素有(限選三項)1經(jīng)濟收入2專業(yè)對口3發(fā)展前途4地理區(qū)位5個人愛好6風險大小7勞動強度8社會福利9社會地位10其他

因為限選三項,故應設三個變量,編碼依次為1,3,6。136問題3:您擇業(yè)中考慮的主要因素有(限選三項)1經(jīng)濟102補充:多選項問題的分析指標應答次數(shù)(count):選擇了某選項的人數(shù);應答百分比(percentofcase):應答次數(shù)占總?cè)藬?shù)的百分比,可以反映某個選項的受歡迎程度。(percentofresponse):應答次數(shù)占總應答次數(shù)的百分比,可以比較不同選項的受歡迎程度。例如:購買商業(yè)保險的原因(P126)總?cè)藬?shù)243,總應答數(shù)435(3個累加)補充:多選項問題的分析指標應答次數(shù)(count):選擇了某1035.5.2多選項分析的基本操作操作基本思路:

1、先將每個多選題的若干答案組成一個綜合變量即變量集(Set);只有通過定義多選項變量集,spss才能確定應對哪些變量取相同值的個案數(shù)進行累加。2、然后對綜合變量的各種取值進行分析。多選項分析操作

Analyze-MultipleResponse中的各項功能實現(xiàn)的。5.5.2多選項分析的基本操作操作基本思路:1041.DefineSets:(1)從左邊的變量中將多選變量集的變量選擇到variablesinsets框中,建立多選二分變量集或多選分類變量集。(2)在variablesarecodedas框中指定多選變量集中的變量是按照那種方法編碼的。Dichotomies表示以多選二分法編碼,并在countedvalue中輸入用哪個數(shù)值來表示選中該選項。categories表示以多選分類法編碼,并在range框中輸入變量取值的最小值和最大值。1.DefineSets:105(3)為多選項變量集命名,系統(tǒng)會自動在該名字前加字符$。(4)單擊add按鈕將定義好的多選項變量集加到multresponsesets框中。Spss可以定義多個多選項變量集。2.Frequencies:對多選變量集進行頻數(shù)分析。從multresponsesets中把待分析的多選項變量集選擇到tablesfor框中;3.Crosstabs:對多選變量集與其他變量集或與原基本變量進行交叉表分析。(3)為多選項變量集命名,系統(tǒng)會自動在該名字前加字符$。106(1)選擇列聯(lián)表的行變量并定義取值范圍;(2)選擇列聯(lián)表的列變量并定義取值范圍;(3)選擇列聯(lián)表的控制變量并定義取值范圍;(4)單擊option按鈕選擇列聯(lián)表的輸出內(nèi)容和計算方法。Matchvariableacrossresponsesets選項表示,如果列聯(lián)表的行列變量均為多選項變量集時,第一個變量集的第一個變量與第二個變量集的第一個變量作交叉分組,依次類推。結(jié)果中:注意PctofResponses(占總回答數(shù)的%)和PctofCase(占總個案數(shù)%)的區(qū)別。(1)選擇列聯(lián)表的行變量并定義取值范圍;1075.5.3多選項分析的應用舉例利用保險市場調(diào)查數(shù)據(jù)進行分析,實現(xiàn)以下兩個分析目標:

1.分析老年人購買商業(yè)養(yǎng)老保險的原因;

2.分析不同工作單位性質(zhì)人員購買商業(yè)養(yǎng)老保險的原因;。5.5.3多選項分析的應用舉例利用保險市場調(diào)查數(shù)據(jù)進行分析,108

分析1.為進行多選項分析,首先定義名為set1的多選項變量集,其中包括q13a、q13b、q13c三個變量,然后對多選項變量集進行頻數(shù)分析;2.對不同工作單位性質(zhì)人員購買商業(yè)養(yǎng)老保險的原因進行分析,采用多選項交叉分組下的頻數(shù)分析。分析1.為進行多選項分析,首先定義名為set1的多選項109練習:利用居民儲蓄調(diào)查數(shù)據(jù)進行分析,實現(xiàn)以下兩個分析目標:

1.分析儲戶的儲蓄目的;

2.分析不同年齡段儲戶的儲蓄目的。練習:利用居民儲蓄調(diào)查數(shù)據(jù)進行分析,實現(xiàn)以下兩個分析目標:110

分析1.為進行多選項分析,首先定義名為cxmd的多選項變量集,其中包括a7_1、a7_2、a7_3三個變量,然后對多選項變量集進行頻數(shù)分析;2.對不同年齡段儲戶儲蓄目的進行分析,采用多選項交叉分組下的頻數(shù)分析。分析1.為進行多選項分析,首先定義名為cxmd的多選項1115.6比率分析5.6.1比率分析的目的和主要指標比率分析用于對兩變量間變量值比率變化的描述分析,適用于數(shù)值型變量。

例如根據(jù)1999年各地區(qū)保險業(yè)務情況的數(shù)據(jù),分析各地區(qū)財產(chǎn)保險業(yè)務的保費收入占全部業(yè)務保費收入的比例情況。5.6比率分析5.6.1比率分析的目的和主要指標112通常的分析可以生成各個地區(qū)財產(chǎn)保險業(yè)務的保費收入占全部業(yè)務保費收入的比率變量,然后對該比率變量計算基本描述統(tǒng)計量(如均值、中位數(shù)、標準差、全距等),進而刻畫比率變量的集中趨勢和離散程度。

SPSS的比率分析除能夠完成上述分析外,還提供了其他相對比描述指標,大致也屬于集中趨勢描述指標和離散程度描述指標的范疇,具體包括:通常的分析可以生成各個地區(qū)財產(chǎn)保險業(yè)務的保113(1)加權比率均值(Weightedmean):兩變量均值的比,屬集中趨勢描述指標。(2)AAD(AverageAbsoluteDeviation)平均絕對離差:是對比率變量離散程度的描述,計算公式為:其中,是比率數(shù),M是比率變量的中位數(shù),N為樣本數(shù)(1)加權比率均值(Weightedmean):兩變量均值114相對數(shù)或平均數(shù)計算平均數(shù)的計算相對數(shù)(或平均數(shù))用Y表示,有

Y=a/b,a、b為總量指標。求各期Y的平均一般不能采用簡單算術平均法,即因為各期數(shù)據(jù)Yi的對比基礎bi不同,它們對全期總平均水平的影響作用應輕重有別.相對數(shù)或平均數(shù)計算平均數(shù)的計算115計算公式:1.分別計算其分子、分母的平均數(shù)2.對比得:上式實質(zhì)上等于對各期Y加權算術平均。計算公式:1.分別計算其分子、分母的平均數(shù)116(3)COD(CoefficientofDispersion)離散系數(shù):也是對比率變量離散程度的描述,計算公式為:(4)PRD(Price-relatedDifferential)相關價格微分:是比率均值與加權比率均值的比,也是比率變量離散程度的描述。(反向指標)(3)COD(CoefficientofDispersi117(5)COV變異系數(shù):用于對比率變量離散程度的描述,分為基于均值的變異系數(shù)(MeancenteredCOV)和中位數(shù)的變異系數(shù)(MediancenteredCOV)。前者是通常意義下的變異系數(shù),是標準差除以均值;后者定義為:(5)COV變異系數(shù):用于對比率變量離散程度的描述,分為基于1185.6.2比率分析的基本步驟(1)選擇菜單Analyze-DescriptiveStatistics-Radio,出現(xiàn)窗口5.6.2比率分析的基本步驟119(2)將比率變量的分子選擇到Numerator框中,將比率變量的分母選到Denominator框中。(3)如果做不同組間的比率比較,則將分組變量選擇到GroupVariable框中。(4)單擊Statistics按鈕指定輸出哪些關于比率的描述統(tǒng)計量,出現(xiàn)如下窗口:(2)將比率變量的分子選擇到Numerator框中,將比率變120至此,SPSS將自動計算比率變量,并將相關指標輸出到輸出窗口中。至此,SPSS將自動計算比率變量,并將相關121內(nèi)容小結(jié)1、頻數(shù)分析(重點:統(tǒng)計量含義、相互聯(lián)系)2、描述統(tǒng)計3、列聯(lián)表分析(掌握分析適用條件、作用、結(jié)果判定)4、多選項問題多選問題賦值方法(重點掌握)定義多選變量集合(重點掌握)多選變量的頻次分析(重點掌握)多選變量的列聯(lián)表分析(重點掌握)5、探索分析(理解分析工作的作用、掌握假設檢驗的判斷/認識莖葉圖)6、比率分析(了解)內(nèi)容小結(jié)122第五基本統(tǒng)計分析第五基本統(tǒng)計分析123內(nèi)容提要1、頻數(shù)分析(重點:統(tǒng)計量含義、相互聯(lián)系)2、描述統(tǒng)計3、列聯(lián)表分析(掌握分析適用條件、作用、結(jié)果判定)4、多選項問題多選問題賦值方法(重點掌握)定義多選變量集合(重點掌握)多選變量的頻次分析(重點掌握)多選變量的列聯(lián)表分析(重點掌握)5、探索分析(了解分析工作的作用、掌握假設檢驗的判斷/認識莖葉圖)6、比率分析(了解)內(nèi)容提要124SPSS的主要分析工具——Analyze菜單報告--Rports描述性統(tǒng)計分析--DescriptiveStatistics菜單表格--Tables均數(shù)間的比較--CompareMeans菜單一般線性模型――GeneralLinearModel菜單相關分析――Correlate菜單多元線性回歸與曲線擬合――Regression菜單對數(shù)線性模型——Loglinear菜單聚類分析與判別分析——Classify菜單因子分析與對應分析——DataReduction菜單信度分析與多維尺度分析——Scale菜單非參數(shù)檢驗――NonparametricTests菜單時間序列分析--Timeseries

SPSS的主要分析工具——Analyze菜單報告--Rpor125

SPSS基本統(tǒng)計分析(描述性統(tǒng)計分析)的作用:分析數(shù)據(jù)的基本統(tǒng)計特征(如集中度、離散度等);分析數(shù)據(jù)的總體分布情況;是下一步的建模和進行正確統(tǒng)計推斷的先決條件。SPSS基本統(tǒng)計分析(描述性統(tǒng)計分析)的作用:126SPSS的許多模塊均可完成描述性分析,但專門為該目的而設計的幾個模塊則集中在DescriptiveStatistics菜單中,包括:Frequencies:頻數(shù)分析過程,特色是產(chǎn)生頻數(shù)表(主要針對分類變量)Descriptives:數(shù)據(jù)描述過程,進行一般性的統(tǒng)計描述(主要針對定距型變量)Explore:數(shù)據(jù)探察過程,用于對數(shù)據(jù)概況不清時的探索性分析Crosstabs:多維頻數(shù)分布交叉表分析(列聯(lián)表分析)Ratiostatistics:比率分析,用于兩個定距型變量間變量值比率變化分析。SPSS的許多模塊均可完成描述性分析,但專門為該目的而設計的1275.1頻數(shù)分析5.1.1頻數(shù)分析的目的和基本任務

1、目的:基本統(tǒng)計分析往往從頻數(shù)分析開始。通過頻數(shù)分析能夠了解變量取值的狀況,對把握數(shù)據(jù)的分布特征是非常有用的。(如:樣本是否有代表性、抽樣是否存在系統(tǒng)性偏差等)

適用對象:主要是定序或分類變量5.1頻數(shù)分析5.1.1頻數(shù)分析的目的和基本任務128

2、基本任務(1)頻數(shù)分析的第一個基本任務是編制頻數(shù)分布表(可選項)。頻數(shù)(Frequency):即變量值落在某個區(qū)間(或某個類別)中的次數(shù)百分比(Percent):即各頻數(shù)占總樣本數(shù)的百分比有效百分比(ValidPercent):即各頻數(shù)占有效樣本數(shù)的百分比,這里有效樣本數(shù)=總樣本-缺失樣本數(shù)累計百分比(CumulativePercent):即各百分比逐級累加起來的結(jié)果。最終取值為100。2、基本任務129(2)頻數(shù)分析的第二個任務是繪制統(tǒng)計圖條形圖(BarChart):用寬度相同的條形的高度或長短來表示頻數(shù)分布(或百分比)變化的圖形,適用于定序和定類變量的分析。餅圖(PieChart):用圓形及圓內(nèi)扇形的面積來表示頻數(shù)(或百分比)變化的圖形,以利于研究事物內(nèi)在結(jié)構(gòu)組成等問題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論