第三章的基本統(tǒng)計分析_第1頁
第三章的基本統(tǒng)計分析_第2頁
第三章的基本統(tǒng)計分析_第3頁
第三章的基本統(tǒng)計分析_第4頁
第三章的基本統(tǒng)計分析_第5頁
已閱讀5頁,還剩86頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第三章的基本統(tǒng)計分析第一頁,共九十一頁,2022年,8月28日基本統(tǒng)計分析通過基本統(tǒng)計分析,能夠使分析者掌握數(shù)據(jù)的基本統(tǒng)計特征,把握數(shù)據(jù)的總體分布形態(tài)?;窘y(tǒng)計分析的結論對今后進一步的數(shù)據(jù)建模,將起到重要的指導和參考作用頻數(shù)分析計算基本描述統(tǒng)計量(分布特征測度)列聯(lián)分析(交叉分組下的頻數(shù)分析)多選項分析比率分析兩種方式數(shù)值計算圖形繪制第二頁,共九十一頁,2022年,8月28日基本統(tǒng)計分析在Analyze--DescriptiveStatistics菜單中,包括:Frequencies:頻數(shù)分析過程,特色是產(chǎn)生頻數(shù)表(主要針對分類變量)Descriptives:數(shù)據(jù)描述過程,進行一般性的統(tǒng)計描述(主要針對數(shù)值型變量)Explore:數(shù)據(jù)探察過程,用于對數(shù)據(jù)概況不清時的探索性分析Crosstabs:多維頻數(shù)分布交叉表分析(列聯(lián)表分析)Ratiostatistics:比率分析第三頁,共九十一頁,2022年,8月28日頻數(shù)分析目的了解變量取值的狀況,粗略把握變量值的分布狀況研究被調(diào)查者的特征(如:性別、年齡、職業(yè))通過這些分析,能夠在一定程度上反映出樣本是否具有總體代表性,抽樣是否存在系統(tǒng)偏差等,并以此證明以后相關問題分析的代表性和可信性方法編制頻數(shù)分布表:包括計算頻數(shù)、百分比、累計百分比繪制統(tǒng)計圖形:條形圖、餅圖、直方圖第四頁,共九十一頁,2022年,8月28日頻數(shù)分布表內(nèi)容頻數(shù)(Frequency)

變量值落在某個區(qū)間(或某個類別)中的次數(shù)百分比(Percent)

各頻數(shù)占總樣本量的百分比有效百分比(ValidPercent)

各頻數(shù)占總有效樣本量的百分比

有效樣本量=總樣本-缺失樣本量

在不包含缺失值個案的所有個案中各變量取值頻數(shù)的比例累計百分比(CumulativePercent)

各百分比逐級累加起來的結果。最終取值為百分之百第五頁,共九十一頁,2022年,8月28日統(tǒng)計圖柱形圖或條形圖(BarChart)用寬度相同的條形的高度或長短來表示頻數(shù)分布變化的圖形適用于定序和定類變量的分析柱形圖的縱坐標或條形圖的橫坐標可以表示頻數(shù),也可以表示百分比分為單式圖和復式圖等形式第六頁,共九十一頁,2022年,8月28日餅圖(PieChart)用圓形及圓內(nèi)扇形的面積來表示頻數(shù)百分比變化的圖形有利于研究事物內(nèi)在結構組成等問題餅圖中圓內(nèi)的扇形面積可以表示頻數(shù),也可以表示百分比第七頁,共九十一頁,2022年,8月28日直方圖(Histograms)用矩形的面積來表示頻數(shù)分布變化的圖形適用于定距型變量的分析可以在直方圖上附加正態(tài)分布曲線,便于與正態(tài)分布的比較第八頁,共九十一頁,2022年,8月28日頻數(shù)分析基本操作(1)菜單選項:analyze->descriptivestatistics->frequencies(2)選擇幾個待分析的變量到variables框.(3)按chart選項,選擇所需要繪制的統(tǒng)計圖形(4)按Format按鈕,調(diào)整頻數(shù)分布表中數(shù)據(jù)的輸出順序第九頁,共九十一頁,2022年,8月28日

輸出百分位數(shù):輸出四分位數(shù),顯示25%、50%、75%的百分位數(shù);將數(shù)據(jù)平均分為所設定的相等等份,可輸入2—100的整數(shù),如鍵入4則輸出第25、50、75百分位數(shù)自定義百分位數(shù),可輸入0—100的整數(shù)。離散趨勢分布形態(tài)欄集中趨勢欄輸出統(tǒng)計量對話框第十頁,共九十一頁,2022年,8月28日Format對話框控制頻數(shù)表輸出的分類數(shù)量。默認為10多變量框中可設定多變量表格輸出的格式設置頻數(shù)表輸出的格式選擇頻數(shù)表中排列順序按變量升序排列,此為默認按變量降序排列按變量各種取值發(fā)生的頻數(shù)的升序排列按變量各種取值發(fā)生的頻數(shù)的降序排列第十一頁,共九十一頁,2022年,8月28日multiplevariables單選框組如果選擇了兩個以上變量作頻數(shù)表,則comparevariables可以將所有變量的結果在同一個頻數(shù)表過程輸出結果中顯示,便于互相比較organizeoutputbyvariables則將結果在不同的頻數(shù)表過程輸出結果中顯示,每一個變量一張表第十二頁,共九十一頁,2022年,8月28日頻數(shù)分析中的擴展功能—計算分位數(shù)分位數(shù)是變量在不同分位點上的取值。分位點在0~100之間一般使用較多的是四分位點(Quartiles),即將所有數(shù)據(jù)按升序排序后平均等分成四份,各分位點依次是25%,50%,75%。于是,四分位數(shù)分別是25%,50%,75%分位點對應的變量值此外,還有八分位數(shù)、十六分位數(shù)等第十三頁,共九十一頁,2022年,8月28日計算分位數(shù)適用于定序數(shù)據(jù)數(shù)據(jù)按升序排序后,找到若干個分位點上的變量值quartiles:計算四分位數(shù)25%(QL)、50%(中位數(shù))、75%(QU)cutpointsfornequalgroups:n等份percentile:自定義百分位點分位數(shù)的應用在排除極端值影響的條件下,通過計算分位數(shù)差,比較兩組樣本數(shù)據(jù)的離散程度例:(QL=50,QU=80)和(QL=70,QU=75)的比較第十四頁,共九十一頁,2022年,8月28日例題3.1利用住房狀況問卷調(diào)查數(shù)據(jù)分析被調(diào)查家庭中戶主的從業(yè)狀況和目前所住房屋的產(chǎn)權狀況分析人居住房面積的分布狀況,并對本市戶口和外地戶口家庭進行比較第十五頁,共九十一頁,2022年,8月28日目標一:分析從業(yè)狀況和目前所住房屋的產(chǎn)權狀況(1)產(chǎn)權狀況和從業(yè)狀況兩個變量都是定類型變量,可通過基本頻數(shù)分析實現(xiàn)。(2)職業(yè)變量的取值(分類)數(shù)目較多,為使頻數(shù)分布表更一目了然,應對內(nèi)容的輸出順序進行調(diào)整,單擊Format按鈕,選擇Descendingcounts按頻數(shù)的降序輸出。(3)單擊Chart按鈕指定輸出產(chǎn)權變量的餅圖和職業(yè)變量的柱形圖。第十六頁,共九十一頁,2022年,8月28日目標二:分析人均住房面積的分布狀況,并對本市戶口和外地戶口家庭進行比較。1、分析思路:(1)由于人均住房面積數(shù)據(jù)為定距型變量,直接采用頻數(shù)分析不利于對其分布形態(tài)的把握,因此考慮依據(jù)第三章中的數(shù)據(jù)分組功能對數(shù)據(jù)分組后再編制頻數(shù)分布表。(2)進行數(shù)據(jù)拆分,并分別計算本地戶口和外地戶口的人均住房面積的四分位數(shù),并通過四分位數(shù)比較兩者分布上的差異。第十七頁,共九十一頁,2022年,8月28日2、分析過程:(1)數(shù)據(jù)分組,將人均住房面積重新分成四組,四組區(qū)間分別為,少于10平方米,10-20平方米,20-30平方米,30平方米以上。分組后進行頻數(shù)分析并繪制帶正態(tài)曲線的直方圖。(2)利用SPSS的頻數(shù)分析計算所有樣本的人均住房面積的四分位數(shù);然后,按照戶口類型對數(shù)據(jù)進行拆分(Splitfile)并重新計算分位數(shù),分別得到本地戶口和外地戶口的人均住房面積的四分位數(shù)。第十八頁,共九十一頁,2022年,8月28日基本描述統(tǒng)計量目的精確把握變量的總體分布狀況,了解數(shù)據(jù)的集中趨勢、離散趨勢、對稱程度、陡峭程度常見的基本描述統(tǒng)計量有三大類:刻畫集中趨勢的統(tǒng)計量刻畫離散趨勢的統(tǒng)計量刻畫分布形態(tài)的統(tǒng)計量第十九頁,共九十一頁,2022年,8月28日刻畫集中趨勢的描述統(tǒng)計量集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的傾向計算刻畫集中趨勢的描述統(tǒng)計量正是要尋找能夠反映數(shù)據(jù)一般水平的“代表值”或“中心值”均值(Mean):即算術平均數(shù),是反映某變量所有取值的集中趨勢或平均水平的指標。如某企業(yè)職工的平均月收入。其計算公式為適用于定距數(shù)據(jù)。特點:利用了全部數(shù)據(jù),易受極端值的影響第二十頁,共九十一頁,2022年,8月28日刻畫集中趨勢的描述統(tǒng)計量中位數(shù)(Median):即一組數(shù)據(jù)按升序排序后,處于中間位置上的數(shù)據(jù)值。如評價社會的老齡化程度時眾數(shù)(Mode):即一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)值。如生產(chǎn)鞋的廠商在制定各種型號鞋的生產(chǎn)計劃時應該運用眾數(shù)第二十一頁,共九十一頁,2022年,8月28日刻畫離散程度的描述統(tǒng)計量離散程度反映各變量值遠離其中心值的程度(離散程度),它從另一個側面說明了集中趨勢測度值的代表程度。如果數(shù)據(jù)都緊密地集中在“中心值”的周圍,數(shù)據(jù)的離散程度較小,說明這個“中心值”對數(shù)據(jù)的代表性好如果數(shù)據(jù)僅是比較松散地分布在“中心值”的周圍,數(shù)據(jù)的離散程度較大,則此“中心值”說明數(shù)據(jù)特征是不具有代表性的第二十二頁,共九十一頁,2022年,8月28日刻畫離散程度的描述統(tǒng)計量全距(Range):也稱極差,是數(shù)據(jù)的最大值(Maximum)與最小值(Minimum)之間的絕對離差。方差(Variance):各變量值與算數(shù)平均數(shù)離差平方的算術平均數(shù)。其計算公式為標準差(StandardDeviation:StdDev):表示變量取值距離均值的平均離散程度的統(tǒng)計量。其計算公式為第二十三頁,共九十一頁,2022年,8月28日均值標準誤差(StandardErrorofMean)樣本均值作為抽樣樣本的平均數(shù)也與總體均值之間存在差異。若干次抽樣后會得到若干個不同的樣本均值,當樣本容量足夠大時,這些均值服從正態(tài)分布,即X~N(μ,σ2/n)可見,樣本均值與總體均值的平均差異(離散)程度(方差)為/n。于是,均值標準誤差的數(shù)學定義為:因此,均值標準誤差是描述樣本均值與總體均值之間平均差異程度的統(tǒng)計量。樣本數(shù)越大,樣本均值的離散程度越小,對真值的估計越準確第二十四頁,共九十一頁,2022年,8月28日刻畫分布形態(tài)的描述統(tǒng)計量數(shù)據(jù)的分布形態(tài)主要指數(shù)據(jù)分布是否對稱,偏斜程度如何,分布陡峭程度等偏度(skewness):描述某變量分布形態(tài)的偏斜程度和方向的統(tǒng)計量偏度為0表示對稱;大于0表示正偏差大(右偏)小于0表示負偏差大(左偏)偏度絕對值越大,表示數(shù)據(jù)分布形態(tài)的偏斜程度越大第二十五頁,共九十一頁,2022年,8月28日刻畫分布形態(tài)的描述統(tǒng)計量峰度(kurtosis):描述某變量所有變量值分布形態(tài)陡緩程度的統(tǒng)計量峭度為0表示與標準正態(tài)分布峭度相同大于0表示比標準正態(tài)分布陡,尖峰小于0表示比標準正態(tài)分布緩;平峰第二十六頁,共九十一頁,2022年,8月28日扁平分布尖峰分布偏態(tài)峰態(tài)左偏分布右偏分布與標準正態(tài)分布比較!第二十七頁,共九十一頁,2022年,8月28日計算基本描述統(tǒng)計量的操作(1)菜單選項:analyze->descriptivestatistics->descripive(2)選擇將參加計算的數(shù)值型變量名到variables框。(3)按Options按鈕指定計算哪些基本描述統(tǒng)計量,選擇相應的選項第二十八頁,共九十一頁,2022年,8月28日Options對話框

基本統(tǒng)計量當Variables框中有多個變量時,此框確定其輸出順序:按Variables框中的排列順序輸出按各變量的字母順序輸出按均值的升序排列按均值的降序排列分布第二十九頁,共九十一頁,2022年,8月28日例題3.2利用住房狀況問卷調(diào)查數(shù)據(jù),對人均住房面積計算基本描述統(tǒng)計量,并分別對本市戶口和外地戶口家庭進行比較分析:首先按照戶口對數(shù)據(jù)進行拆分(Splitfile),然后計算人均住房面積的基本描述統(tǒng)計量第三十頁,共九十一頁,2022年,8月28日數(shù)據(jù)標準化處理用于對異常值的判斷新變量被稱為標準化值或Z分數(shù),反映的是樣本值與均值的差是幾個標準差單位小于0表示在平均水平下,大于0反之3σ準則:如果標準化值的絕對值大于3,則認為是異常值第三十一頁,共九十一頁,2022年,8月28日數(shù)據(jù)標準化處理正態(tài)分布的數(shù)據(jù)標準化后呈標準正態(tài)分布數(shù)值分布在正負一個標準差之內(nèi)的可能性為68.2%數(shù)值分布在正負兩個標準差之內(nèi)的可能性為95.4%數(shù)值分布在正負三個標準差之內(nèi)的可能性為99.7%如果異常數(shù)的總比例大于0.3%,則認為該組數(shù)據(jù)存在一定的不均衡savestandardizedvaluesasvariables選項將變量作標準化后,結果存入名為“Z+原變量名”的新變量中第三十二頁,共九十一頁,2022年,8月28日例題3.3利用住房狀況問卷調(diào)查數(shù)據(jù),分析人均住房面積是否存在不均衡現(xiàn)象分析:假設人均住房面積服從正態(tài)分布,跟據(jù)3σ原則,異常值通常為3個標準差范圍之外的值,可通過對數(shù)據(jù)的標準化處理來判斷通過標準化可以得到一系列新變量值對新變量進行排序并瀏覽其標準化值的取值情況,可以發(fā)現(xiàn)z分數(shù)值得絕對數(shù)大于3的家庭是存在的。對其分組為三組:z人均面積<-3,-3<z人均面積<3,z人均面積>3。并進行頻數(shù)分析第三十三頁,共九十一頁,2022年,8月28日交叉分組下的頻數(shù)分析(列聯(lián)表分析)例:戶口狀況與購買意向之間有關聯(lián)嗎?(兩變量)例:學習成績與性別有關聯(lián)嗎?(兩變量)例:職業(yè)、性別、愛逛商店有關聯(lián)嗎?(三變量)目的了解多個變量在不同取值下的分布情況,掌握多變量的聯(lián)合分布特征,進而分析變量之間的相互影響和關系基本任務根據(jù)收集到的樣本數(shù)據(jù)編制交叉列聯(lián)表在交叉列聯(lián)表的基礎上,對兩兩變量間是否存在一定的相關性進行分析第三十四頁,共九十一頁,2022年,8月28日編制交叉列聯(lián)表交叉列聯(lián)表是兩個或兩個以上的變量交叉分組后形成的頻數(shù)分布表文化程度合計職稱123411113213432136433合計445316行變量列變量頻數(shù)行標題列邊緣分布第三十五頁,共九十一頁,2022年,8月28日列聯(lián)表(contingencytable)由兩個以上的變量交叉分類的頻數(shù)分布表行變量的類別用r

表示,ri

表示第i

個類別列變量的類別用c

表示,cj

表示第j

個類別每種組合的觀察頻數(shù)用fij

表示表中列出了行變量和列變量的所有可能的組合,所以稱為列聯(lián)表一個

r行c

列的列聯(lián)表稱為r

c

列聯(lián)表第三十六頁,共九十一頁,2022年,8月28日列聯(lián)表的結構(22列聯(lián)表)列(cj)合計j=1j=2i=1f11f12f11+f12i=2f21f22f21+f22合計f11+f21f12+f22n列(cj)行(ri)第三十七頁,共九十一頁,2022年,8月28日列聯(lián)表的結構(r

c

列聯(lián)表的一般表示)列(cj)合計j=1j=2…i=1f11f12…r1i=2f21f22…r2:::::合計c1c2…n列(cj)行(ri)fij表示第i行第j列的觀察頻數(shù)第三十八頁,共九十一頁,2022年,8月28日觀察值的分布邊緣分布行邊緣分布行觀察值的合計數(shù)的分布例如,贊成改革方案的共有279人,反對改革方案的141人列邊緣分布列觀察值的合計數(shù)的分布例如,四個分公司接受調(diào)查的人數(shù)分別為100人,120人,90人,110人公司1公司2公司3公司4合計贊成68755779279反對32453331141合計10012090110420第三十九頁,共九十一頁,2022年,8月28日觀察值的分布條件分布與條件頻數(shù)變量X條件下變量Y

的分布,或在變量Y

條件下變量X

的分布每個具體的觀察值稱為條件頻數(shù)公司1公司2公司3公司4合計贊成68755779279反對32453331141合計10012090110420第四十頁,共九十一頁,2022年,8月28日百分比分布第四十一頁,共九十一頁,2022年,8月28日百分比分布1.條件頻數(shù)反映了數(shù)據(jù)的分布,但不適合對比2.為在相同的基數(shù)上進行比較,可以計算相應的百分比,稱為百分比分布行百分比:行的每一個觀察頻數(shù)除以相應的行合計數(shù)(fij

/ri)列百分比:列的每一個觀察頻數(shù)除以相應的列合計數(shù)(fij

/cj)總百分比:每一個觀察值除以觀察值的總個數(shù)(fij

/n

)第四十二頁,共九十一頁,2022年,8月28日百分比分布(圖示)一分公司二分公司三分公司四分公司合計贊成該方案6875577927924.4%26.9%20.4%28.3%100%68.0%62.5%63.3571.8%66.4%16.2%17.8%13.6%18.8%66.4%反對該方案3245333114122.7%31.9%23.4%22.0%100%32.0%37.5%36.7%28.2%33.6%7.6%10.7%7.9%7.4%33.6%合計1001209011047023.8%28.6%21.4%26.2%100%總百分比列百分比行百分比第四十三頁,共九十一頁,2022年,8月28日層變量(Layer)第四十四頁,共九十一頁,2022年,8月28日交叉分組下的頻數(shù)分析的基本操作菜單選項Analyze-DescriptiveStatistics-Crosstabs第四十五頁,共九十一頁,2022年,8月28日該框中的變量作為分布表中的行變量和列變量。該框中的變量作為控制變量,決定頻數(shù)分布表中的層,可有多個控制變量。顯示每一組中各變量的分類條形圖。只輸出統(tǒng)計量,不輸出多維列聯(lián)表。Crosstabs對話框第四十六頁,共九十一頁,2022年,8月28日交叉分組下的頻數(shù)分析的基本操作如果進行二維列聯(lián)表分析,則將行變量選擇到Row(s)框中,將列變量選擇到Column(s)框中。如果Row(s)和Column(s)框中有多個變量名,SPSS會將行列變量一一配對后產(chǎn)生多張二維列聯(lián)表。如果進行三維或多維列聯(lián)表分析,則將其他變量作為控制變量選到Layer框中。多控制變量間可以是同層次的,也可以是逐層疊加的,可通過Previous或Next按鈕確定控制變量間的層次關系。第四十七頁,共九十一頁,2022年,8月28日交叉分組下的頻數(shù)分析的基本操作選擇Displayclusteredbarcharts選項,指定繪制各變量交叉分組下頻數(shù)分布條形圖。選擇Suppresstables表示不輸出列聯(lián)表,在僅分析行列變量間關系時可選擇該選項。第四十八頁,共九十一頁,2022年,8月28日Crosstabs的CellDisplay對話框選擇在列聯(lián)表中輸出的統(tǒng)計量,包括觀測量數(shù)、百分比、殘差輸出觀測量的實際數(shù)量如果行和列變量在統(tǒng)計上是獨立的或不相關的,那么會在單元格中輸出期望的觀測值的數(shù)量。輸出單元格中觀測量的數(shù)目占整行全部觀測量數(shù)目的百分比輸出單元格中觀測值的數(shù)目占整列全部觀測量數(shù)目的百分比輸出單元格中觀測量的數(shù)目占全部觀測量數(shù)目的百分比計算非標準化殘差計算標準化殘差計算調(diào)整后殘差第四十九頁,共九十一頁,2022年,8月28日交叉分組下的頻數(shù)分析的基本操作單擊Cells按鈕指定列聯(lián)表單元格中的輸出內(nèi)容單擊Format按鈕指定列聯(lián)表各單元格的輸出排列順序。Ascending表示以行變量取值的升序排列,是SPSS默認項;Descending表示以行變量取值的降序排列。單擊Statistics按鈕指定用哪種方法分析行變量和列變量間的關系Unstandardized為非標準化剩余,定義為觀測頻數(shù)-期望頻數(shù)Standardized為標準化剩余,又稱Pearson剩余第五十頁,共九十一頁,2022年,8月28日交叉列聯(lián)表行列變量間關系的分析目的在列聯(lián)表的基礎上作進一步的分析,可以得到行變量和列變量之間是否有聯(lián)系、聯(lián)系的緊密程度如何等更深層次的信息。通過列聯(lián)表分析,檢驗行列變量之間是否獨立工資收入低中高年齡段青40000中05000老00600工資收入低中高年齡段青00500中06000老40000第五十一頁,共九十一頁,2022年,8月28日卡方檢驗大多數(shù)情況下,觀測頻數(shù)分散在列聯(lián)表的各個單元格中,不容易直接發(fā)現(xiàn)行列變量之間的關系強弱程度,此時就要借助非參數(shù)檢驗方法和度量變量間相關程度的統(tǒng)計量等手段。通常用的方法是卡方(

)檢驗。

統(tǒng)計量用于檢驗列聯(lián)表中變量間擬合優(yōu)度和獨立性用于測定兩個分類變量之間的相關程度為觀察頻數(shù),為期望頻數(shù)(ExpectedCount)第五十二頁,共九十一頁,2022年,8月28日期望頻數(shù)RT是指定單元格所在行的觀測頻數(shù)合計CT是指定單元格所在列的觀測頻數(shù)合計n是觀測頻數(shù)的合計期望頻數(shù)的分布反映的是行列變量互不相干下的分布P95第五十三頁,共九十一頁,2022年,8月28日第五十四頁,共九十一頁,2022年,8月28日期望頻數(shù)例如,具有本科學歷的高級工程師的期望頻數(shù)是0.75的計算公式是3*4/16=0.75。期望頻數(shù)可以理解為,總共16個職工的學歷分布是25%:25%:31.3%:18.8%,如果遵從這種學歷的總體比例關系,高級職稱三人的學歷分布也應為25%:25%:31.3%:18.8%,于是期望頻數(shù)為3*25%、3*25%、3*31.3%、3*18.8%。同理可以理解,總共16個職工的職稱分布為18.8%:25%:37.5%:18.8%,本科學歷4人的期望頻數(shù)分別為4*18.8%、4*25%、4*37.5%、4*18.8%第五十五頁,共九十一頁,2022年,8月28日卡方檢驗卡方統(tǒng)計量觀測值的大小取決于列聯(lián)表的單元格子數(shù)觀測頻數(shù)與期望頻數(shù)的總差值在列聯(lián)表確定的情況下,卡方統(tǒng)計量觀測值的大小取決于觀測頻數(shù)與期望頻數(shù)的總差值總差值越大時,卡方值也就越大,實際分布與期望分布的差距越大,表明行列變量之間越相關反之表明行列變量之間越獨立第五十六頁,共九十一頁,2022年,8月28日卡方檢驗基本步驟(1)提出原假設H0:行列變量之間無關聯(lián)或相互獨立(2)構造卡方統(tǒng)計量統(tǒng)計量服從(r-1)*(c-1)個自由度的卡方分布count:觀察(實際)頻數(shù)expectedcount:期望頻數(shù)(期望頻數(shù)反映的是H0成立情況下的數(shù)據(jù)分布特征)Residual:剩余(觀察頻數(shù)-期望頻數(shù))(3)計算卡方統(tǒng)計量的值,并得到該統(tǒng)計量值的概率P值(4)決策。概率P與顯著性水平比較,小于等于則拒絕H0,否則不能拒絕第五十七頁,共九十一頁,2022年,8月28日(4)結論和決策對統(tǒng)計推斷做決策通常有兩種方式:根據(jù)統(tǒng)計量觀測值和臨界值比較的結果進行決策。如果卡方觀測值大于臨界值,則認為實際分布與期望分布之間的差距顯著,可以拒絕原假設,斷定列聯(lián)表的行列變量間不獨立,存在相關關系;反之,接受原假設。根據(jù)統(tǒng)計量觀測值的概率p值和顯著性水平比較的結果進行決策。如果p值小于等于,則認為卡方觀測值出現(xiàn)的概率是很小的,是一個本不應發(fā)生的小概率事件,但卻發(fā)生了,因此拒絕原假設,斷定列聯(lián)表的行列變量間不獨立,存在依存關系;反之,接受原假設。第五十八頁,共九十一頁,2022年,8月28日什么是P值?是一個概率值;P(|t|>ti)=p(i=1,2)如果原假設為真,P-值是抽樣分布中大于或小于樣本統(tǒng)計量的概率;被稱為觀察到的(或?qū)崪y的)顯著性水平。在實際應用中,用p值更方便,即概率值提供的信息也是很有用的,p值是統(tǒng)計量精確的顯著性水平。第五十九頁,共九十一頁,2022年,8月28日雙側檢驗的P值/

2

/

2Z拒絕拒絕H0值臨界值計算出的樣本統(tǒng)計量計算出的樣本統(tǒng)計量臨界值1/2P值1/2P值第六十頁,共九十一頁,2022年,8月28日左側檢驗的P值H0值臨界值a樣本統(tǒng)計量拒絕域抽樣分布1-置信水平計算出的樣本統(tǒng)計量P值第六十一頁,共九十一頁,2022年,8月28日右側檢驗的P值H0值臨界值a拒絕域抽樣分布1-置信水平計算出的樣本統(tǒng)計量P值第六十二頁,共九十一頁,2022年,8月28日利用P值進行檢驗(決策準則)若p-值>

,不拒絕H0若p-值<,拒絕H0第六十三頁,共九十一頁,2022年,8月28日卡方檢驗實現(xiàn)步驟cells選項【Counts】框中的【Expected】表示輸出期望頻數(shù)【Residuals】框中的各個選項是在各個單元格中輸出觀測頻數(shù)與期望頻數(shù)的差?!綰nstandardized】statistics選項指定用哪種方法分析行變量和列變量間的關系Chi-square為卡方檢驗第六十四頁,共九十一頁,2022年,8月28日卡方檢驗的要求:列聯(lián)表各單元格中期望頻數(shù)的大?。阂话阋罅新?lián)表中期望頻數(shù)小于5的格子數(shù)不超過20%,否則會夸大卡方值,容易得出拒絕結論,可以合并單元格。樣本量的大?。嚎ǚ街禃軜颖緮?shù)的影響為此,也有必要對Pearson卡方值進行必要的修正,以剔除樣本量的影響。第六十五頁,共九十一頁,2022年,8月28日例題3.4利用住房狀況調(diào)查數(shù)據(jù),分析本市戶口和外地戶口家庭對“未來三年是否打算買房”是否持相同態(tài)度H0:本市戶口和外地戶口家庭對未來三年是否打算買房的看法是一致的第六十六頁,共九十一頁,2022年,8月28日其他統(tǒng)計量似然比卡方(LikelihoodRation)當樣本量較大時,似然比卡方與Pearson卡方非常接近,檢驗結論通常也是一致的線性相關卡方(Mantel-Haenszel卡方)檢驗列聯(lián)表中行列變量的線性相關性H0:行列變量零相關只適用于定序變量,不能用于定類變量第六十七頁,共九十一頁,2022年,8月28日列聯(lián)表分析的其他方法SPSS還提供了其他測度變量間相關關系的檢驗方法,包括:適用于兩定類變量的方法:Nominal框中列出的方法屬該類方法。適用于兩定序變量的方法:Ordinal框中列出的方法屬該類方法。適用于一定類變量、一定距變量的方法:Nominalbyinterval框中的Eta方法屬該類方法。其他方法第六十八頁,共九十一頁,2022年,8月28日多選項分析按照您自己的實際情況,請依次選擇您購買商業(yè)養(yǎng)老保險的原因,最多不超過三項:(1)使晚年生活有保障;(2)一種安全的投資保值方式;(3)抱著試試看的態(tài)度購買;(4)親戚朋友推薦;(5)單位統(tǒng)一組織購買;(6)保險公司的宣傳;(7)其他。第六十九頁,共九十一頁,2022年,8月28日多選項二分法SPSS變量名變量名標簽變量取值V1是使晚年生活有保障嗎?0/1V2是一種安全的投資保值方式嗎?0/1V3是抱著試試看的態(tài)度購買嗎?0/1V4是親戚朋友推薦嗎?0/1V5是單位統(tǒng)一組織購買嗎?0/1V6是保險公司的宣傳嗎?0/1V7是其他嗎?0/1第七十頁,共九十一頁,2022年,8月28日多選項分類法SPSS變量名變量名標簽變量取值V1第一原因1/2/3/4/5/6/7V2第二原因1/2/3/4/5/6/7V3第三原因1/2/3/4/5/6/7第七十一頁,共九十一頁,2022年,8月28日對多選項問題作普通頻數(shù)分析的困難采用多選項二分法分解問題,對變量V1~V7作頻數(shù)分析,能很方便地分析出哪種原因是人們購買商業(yè)養(yǎng)老保險的主要原因,但卻丟失了被調(diào)查者購買保險原因的順序性信息。采用多選項分類法分解,就能夠有效解決信息丟失的問題。而對變量V1~V3作頻數(shù)分析,能方便地得到購買保險的三個主要原因中各個備選原因所占的比例,但卻無法方便地分析有多少人是由于某個備選原因而去購買保險的多選項分類法--所選答案具有一定順序的多選項問題多選項二分法--所選答案沒有順序的多選項問題第七十二頁,共九十一頁,2022年,8月28日變量值標簽變量值頻數(shù)百分比使晚年生活有保障14590.0單位統(tǒng)一組織購買5510.0合計50100.0變量值標簽變量值頻數(shù)百分比保險公司的宣傳63060.0一種安全的投資保值方式22040.0合計50100.0變量值標簽變量值頻數(shù)百分比一種安全的投資保值方式21020.0單位統(tǒng)一組織購買54080.0合計50100.0V1頻數(shù)分析結果V2頻數(shù)分析結果V3頻數(shù)分析結果第七十三頁,共九十一頁,2022年,8月28日變量值標簽變量值頻數(shù)百分比使晚年生活有保障14530.0保險公司的宣傳63020.0單位統(tǒng)一組織購買54530.0一種安全的投資保值方式23020.0合計150100.0V1、V2、V3頻數(shù)匯總結果第七十四頁,共九十一頁,2022年,8月28日多選項分析的基本思路按多選項二分法或多選項分類法將多選項問題分解成若干個問題,并設置若干個SPSS變量采用多選項頻數(shù)分析或多選項交叉分組下的頻數(shù)分析進行分析定義多選項變量集多選項頻數(shù)分析第七十五頁,共九十一頁,2022年,8月28日定義多選項變量集的基本操作步驟定義多選項變量集目的:將已分解的變量定義為一個集合,便于進行多選項分析菜單選項:analyze->multipleresponse->definesets從原變量中選取被分解的變量(數(shù)值型)到variablesinsets框指定被分解的變量是按多選項二分法(dichotomize)分解還是按多選項分類法(categories)分解的為變量集命名。系統(tǒng)自動在名字前加字符$.第七十六頁,共九十一頁,2022年,8月28日用哪個數(shù)值來表示選中該選項變量取值的最小值和最大值第七十七頁,共九十一頁,2022年,8月28日多選項頻數(shù)分析的基本操作步驟Frequencies:對多選變量集進行頻數(shù)分析。從multresponsesets中把待分析的多選項變量集選擇到tablesfor框中指定是否處理缺失數(shù)據(jù)Crosstabs:對多選變量集與其他變量集或與原基本變量進行交叉表分析第七十八頁,共九十一頁,2022年,8月28日多選項交叉分組下的頻數(shù)分析菜單選項:analyze->multipleresponse->crosstabs選擇列聯(lián)表的行變量并定義取值范圍,或選多選項變量集為行變量選擇列聯(lián)表的列變量并定義取值范圍,或選多選項變量集為列變量選擇列聯(lián)表的控制變量并定義取值范圍,或選多選項變量集為控制變量。第七十九頁,共九十一頁,2022年,8月28日多選項交叉分組下的頻數(shù)分析分母為個案數(shù)分母為應答數(shù)Options:Matchvariableacrossresponsesets:如果列聯(lián)表的行列變量均為多選項變量集時,第一個變量集的第一個變量與第二個變量集的第一個變量作交叉分組,第一個變量集的第二個變量與第二個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論