



版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、目錄第一節(jié)統(tǒng)計分析概述第一節(jié)統(tǒng)計分析概述第二節(jié)描述統(tǒng)計與推斷統(tǒng)計第二節(jié)描述統(tǒng)計與推斷統(tǒng)計第三節(jié)單變量統(tǒng)計分析第三節(jié)單變量統(tǒng)計分析第四節(jié)雙變量統(tǒng)計分析第四節(jié)雙變量統(tǒng)計分析第五節(jié)多變量統(tǒng)計分析簡介第五節(jié)多變量統(tǒng)計分析簡介重點問題統(tǒng)計分析概述描述統(tǒng)計和推斷統(tǒng)計單變量統(tǒng)計分析雙變量統(tǒng)計分析多變量統(tǒng)計分析第一節(jié)統(tǒng)計分析概述統(tǒng)計分析就是統(tǒng)計分析就是運用統(tǒng)計學(xué)原理和方法運用統(tǒng)計學(xué)原理和方法處理調(diào)查所獲得處理調(diào)查所獲得的數(shù)據(jù)資料,的數(shù)據(jù)資料,簡化簡化和描述數(shù)據(jù)資料、和描述數(shù)據(jù)資料、揭示變量之間的揭示變量之間的統(tǒng)計關(guān)系統(tǒng)計關(guān)系,并進而,并進而推斷總體推斷總體的一整套程序和方法。的一整套程序和方法。一、統(tǒng)計分析的
2、目的簡化和描述數(shù)據(jù)簡化和描述數(shù)據(jù) 用樣本推斷總體,如平均數(shù)、百分比等用樣本推斷總體,如平均數(shù)、百分比等發(fā)現(xiàn)變量之間的統(tǒng)計關(guān)系發(fā)現(xiàn)變量之間的統(tǒng)計關(guān)系 二、統(tǒng)計分析的過程數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理就是在統(tǒng)計分析之前對清理后的數(shù)據(jù)做預(yù)備性處理。就是在統(tǒng)計分析之前對清理后的數(shù)據(jù)做預(yù)備性處理。數(shù)據(jù)統(tǒng)計分析數(shù)據(jù)統(tǒng)計分析就是調(diào)用統(tǒng)計軟件中的各種統(tǒng)計程序?qū)?shù)據(jù)進行分析,就是調(diào)用統(tǒng)計軟件中的各種統(tǒng)計程序?qū)?shù)據(jù)進行分析,包括包括單變量單變量、雙變量、多變量統(tǒng)計分析,以及制作統(tǒng)、雙變量、多變量統(tǒng)計分析,以及制作統(tǒng)計圖、統(tǒng)計表等一系列工作。計圖、統(tǒng)計表等一系列工作。三、統(tǒng)計分析的層次描述統(tǒng)計和推斷統(tǒng)計描述統(tǒng)計和推斷統(tǒng)計(按
3、照統(tǒng)計分析性質(zhì)按照統(tǒng)計分析性質(zhì))描述統(tǒng)計是運用樣本統(tǒng)計量描述樣本統(tǒng)計特征的統(tǒng)計分描述統(tǒng)計是運用樣本統(tǒng)計量描述樣本統(tǒng)計特征的統(tǒng)計分析方法。描述統(tǒng)計是相對于推斷統(tǒng)計而言的,即凡是析方法。描述統(tǒng)計是相對于推斷統(tǒng)計而言的,即凡是只涉及樣本而不涉及總體特征的統(tǒng)計分析方法只涉及樣本而不涉及總體特征的統(tǒng)計分析方法都屬于都屬于描述統(tǒng)計的范疇。描述統(tǒng)計的范疇。推斷統(tǒng)計則是以概率理論為基礎(chǔ),推斷統(tǒng)計則是以概率理論為基礎(chǔ),運用樣本統(tǒng)計量推斷運用樣本統(tǒng)計量推斷總體的統(tǒng)計分析方法總體的統(tǒng)計分析方法。兩者密不可分兩者密不可分單變量、雙變量、多變量統(tǒng)計分析單變量、雙變量、多變量統(tǒng)計分析(按統(tǒng)計分析涉及變量多少)(按統(tǒng)計分析
4、涉及變量多少)1 1、單變量統(tǒng)計分析,、單變量統(tǒng)計分析,只能進行描述性研究只能進行描述性研究。只涉及一個變。只涉及一個變量,如平均數(shù)、百分比、標(biāo)準差等。量,如平均數(shù)、百分比、標(biāo)準差等。2 2、只有雙變量統(tǒng)計分析、特別是多變量統(tǒng)計分析,才能進、只有雙變量統(tǒng)計分析、特別是多變量統(tǒng)計分析,才能進行解釋性研究。只有涉及兩個或兩個以上變量,才有可能行解釋性研究。只有涉及兩個或兩個以上變量,才有可能分析它們之間的關(guān)系(包括相關(guān)關(guān)系和因果關(guān)系)。分析它們之間的關(guān)系(包括相關(guān)關(guān)系和因果關(guān)系)。3 3、常用的雙變量統(tǒng)計分析方法,包括列聯(lián)表分析與、常用的雙變量統(tǒng)計分析方法,包括列聯(lián)表分析與X X2 2檢驗、檢驗、
5、各種雙變量相關(guān)分析、二元回歸分析等等。各種雙變量相關(guān)分析、二元回歸分析等等。當(dāng)一項統(tǒng)計分析涉及三個或三個以上變量(其中至少有一個當(dāng)一項統(tǒng)計分析涉及三個或三個以上變量(其中至少有一個因變量)時,則稱為多因變量)時,則稱為多變量或多元統(tǒng)計分析變量或多元統(tǒng)計分析。第二節(jié)描述統(tǒng)計與推斷統(tǒng)計一、描述統(tǒng)計及其內(nèi)容一、描述統(tǒng)計及其內(nèi)容描述統(tǒng)計是相對推斷統(tǒng)計而言的,就是關(guān)于樣本的統(tǒng)描述統(tǒng)計是相對推斷統(tǒng)計而言的,就是關(guān)于樣本的統(tǒng)計分析方法,計分析方法,它的分析結(jié)果是樣本統(tǒng)計量它的分析結(jié)果是樣本統(tǒng)計量。描述統(tǒng)計。描述統(tǒng)計的內(nèi)容,包括單變量、雙變量和多變量等幾種層次的的內(nèi)容,包括單變量、雙變量和多變量等幾種層次的統(tǒng)
6、計分析。統(tǒng)計分析。二、推斷統(tǒng)計與抽樣分布推斷統(tǒng)計是運用樣本統(tǒng)計量對推斷統(tǒng)計是運用樣本統(tǒng)計量對總體進行推斷總體進行推斷的一種統(tǒng)的一種統(tǒng)計分析方法。由于社會調(diào)查的最終目的是研究調(diào)查對計分析方法。由于社會調(diào)查的最終目的是研究調(diào)查對象的總體,因此,它是社會調(diào)查中經(jīng)常使用的統(tǒng)計方象的總體,因此,它是社會調(diào)查中經(jīng)常使用的統(tǒng)計方法。法。推斷統(tǒng)計的推斷統(tǒng)計的必備前提必備前提是,樣本數(shù)據(jù)必須來自是,樣本數(shù)據(jù)必須來自隨機抽樣隨機抽樣調(diào)查。調(diào)查。所謂抽樣分布,是指在一個總體中重復(fù)抽取許多大小所謂抽樣分布,是指在一個總體中重復(fù)抽取許多大小一樣的樣本的統(tǒng)計量(如平均數(shù)、方差、標(biāo)準差)而一樣的樣本的統(tǒng)計量(如平均數(shù)、方差
7、、標(biāo)準差)而形成的分布。形成的分布。需要指出的是,樣本的抽樣分布只是一種理論分布,需要指出的是,樣本的抽樣分布只是一種理論分布,而不是一種實際的分布。從理論上建立這樣一種分布,而不是一種實際的分布。從理論上建立這樣一種分布,目的就是運用它來由樣本統(tǒng)計量推斷總體。目的就是運用它來由樣本統(tǒng)計量推斷總體。三個重要分布為了討論正態(tài)總體下的抽樣分布,先引入由正態(tài)分布導(dǎo)出的統(tǒng)計中的三個重要分布,即 分布,分布,分布。 1、 分布設(shè) 是來自總體 的樣本,則稱統(tǒng)計量 (1)服從自由度為 的 分布,記為2tF2nXXX,211 , 0N222212nXXXn2 n22 n2 其它,0, 0,2212122yey
8、nyfynn yf此處,自由度是指(1)式右端包含獨立變量個數(shù)分布的概率密度為的圖形如圖63所示。(2)圖632、 分布t設(shè) , ,且 獨立1 , 0 NX nY2YX,服從自由度為 的 分布ntnYXt 則稱隨機變量(10) ntt 記為t分布又稱為學(xué)生氏(student)分布 nt分布的概率密度函數(shù)為 ,1221212nntnnntht(11 )圖65中畫出了 的圖形。 的圖形關(guān)于 對稱,當(dāng) 充分大時,其圖形類似于標(biāo)準正態(tài)變量概率密度的圖形。事實上,利用 函數(shù)的性質(zhì)可得 故當(dāng) 足夠大時, 分布近似于 分布。 但對于較小的 , 分布與 分布相差較大(見附表 3 與附表 2 ) th th0t
9、n 2221limtnethnt1 , 0Nnt1 , 0N(12)圖65 其它,00,12222212112221212111ynynnnynnnnynnnnF3. 分布 ,12nU,22nVVU,設(shè)且 獨立,21nVnUF 21,nnF則稱隨機變量服從自由度為 的 分布.,21nnFF記為(16)21,nnF的概率密度為(17)12211,1,nnFnnF容易證明等式:(20)利用這個等式,查附錄表,可以計算當(dāng)995. 0,99. 0,975. 0,95. 0F時的 的值.211. 074. 415 ,10110, 505. 095. 0FF例如F分布的上 分位點有表格可查(見附表 5 )
10、(一)參數(shù)估計(一)參數(shù)估計人們通常把樣本計算出來的統(tǒng)計值成為樣本統(tǒng)計量,簡人們通常把樣本計算出來的統(tǒng)計值成為樣本統(tǒng)計量,簡稱稱統(tǒng)計量統(tǒng)計量,而把總體統(tǒng)計值成為,而把總體統(tǒng)計值成為參數(shù)參數(shù)。所謂參數(shù)估計,。所謂參數(shù)估計,就是就是運用統(tǒng)計量對總體參數(shù)進行推斷或估計的統(tǒng)計運用統(tǒng)計量對總體參數(shù)進行推斷或估計的統(tǒng)計過過程與統(tǒng)計方法。程與統(tǒng)計方法。參數(shù)估計包括:參數(shù)估計包括:(1 1)點值估計)點值估計(2 2)區(qū)間估計)區(qū)間估計三、推斷統(tǒng)計的兩種基本形式三、推斷統(tǒng)計的兩種基本形式1、點值估計、點值估計 ,就是選擇一個最適當(dāng)?shù)臉颖窘y(tǒng)計量,就是選擇一個最適當(dāng)?shù)臉颖窘y(tǒng)計量來直接代表總體的參數(shù)值。來直接代表總
11、體的參數(shù)值。如果一個統(tǒng)計量在參數(shù)的點值估計中符合如果一個統(tǒng)計量在參數(shù)的點值估計中符合無偏性、無偏性、一致性、有效性、充分性一致性、有效性、充分性,則可保證其點值估計,則可保證其點值估計的相對誤差較小。的相對誤差較小。點值估計的點值估計的最大缺陷是不知道估計的誤差到底有最大缺陷是不知道估計的誤差到底有多大多大。所以,常用的是區(qū)間估計。所以,常用的是區(qū)間估計。2、區(qū)間估計、區(qū)間估計區(qū)間估計是用一個數(shù)值區(qū)間表示未知總體參數(shù)落入該區(qū)間估計是用一個數(shù)值區(qū)間表示未知總體參數(shù)落入該區(qū)間的概率或可能性有多大的一種統(tǒng)計方法,是從點區(qū)間的概率或可能性有多大的一種統(tǒng)計方法,是從點估計值和抽樣標(biāo)準誤差出發(fā),按給定的概
12、率值建立包估計值和抽樣標(biāo)準誤差出發(fā),按給定的概率值建立包含待估計參數(shù)的區(qū)間。含待估計參數(shù)的區(qū)間。()置信區(qū)間與置信水平()置信區(qū)間與置信水平置信區(qū)間是指進行區(qū)間估計時,在某一概率水平置信區(qū)間是指進行區(qū)間估計時,在某一概率水平下總體參數(shù)所處的數(shù)值區(qū)間。區(qū)間的上、下限下總體參數(shù)所處的數(shù)值區(qū)間。區(qū)間的上、下限(端點)稱為臨界值,所確定的(端點)稱為臨界值,所確定的概率水平概率水平稱為稱為置置信水平信水平或置信度,以概率或置信度,以概率表示,表示,稱為顯著稱為顯著性水平性水平,表示該區(qū)間估計的不可靠性程度,即估,表示該區(qū)間估計的不可靠性程度,即估計參數(shù)位于該區(qū)間時可能犯錯誤的概率。計參數(shù)位于該區(qū)間時可
13、能犯錯誤的概率。()區(qū)間估計的原理區(qū)間估計的理論基礎(chǔ)是區(qū)間估計的理論基礎(chǔ)是抽樣分布抽樣分布。區(qū)間估計的核心問。區(qū)間估計的核心問題是把樣本統(tǒng)計量與總體參數(shù)之間的關(guān)系轉(zhuǎn)換成抽樣題是把樣本統(tǒng)計量與總體參數(shù)之間的關(guān)系轉(zhuǎn)換成抽樣分布來處理。分布來處理。由于抽樣分布一定條件下趨近由于抽樣分布一定條件下趨近正態(tài)分布正態(tài)分布,借助抽樣分,借助抽樣分布的平均數(shù)、標(biāo)準差及其正態(tài)分布的統(tǒng)計特性可以對布的平均數(shù)、標(biāo)準差及其正態(tài)分布的統(tǒng)計特性可以對樣本統(tǒng)計量與總體參數(shù)之間的關(guān)系作出概率意義上的樣本統(tǒng)計量與總體參數(shù)之間的關(guān)系作出概率意義上的估計與推斷。估計與推斷。在在95%95%的置信水平條件下,總體平均數(shù)的的置信水平條
14、件下,總體平均數(shù)的置信區(qū)間置信區(qū)間在在99%99%的置信水平條件下,總體平均數(shù)的的置信水平條件下,總體平均數(shù)的置信區(qū)間置信區(qū)間196. 1NSX158. 2NSX假設(shè)檢驗假設(shè)檢驗假設(shè)檢驗:是以抽樣分布原理為基礎(chǔ),假設(shè)檢驗:是以抽樣分布原理為基礎(chǔ),檢驗調(diào)查樣本中檢驗調(diào)查樣本中的統(tǒng)計特性是否在總體中同樣存在的一種統(tǒng)計方法的統(tǒng)計特性是否在總體中同樣存在的一種統(tǒng)計方法,它,它是是推斷統(tǒng)計推斷統(tǒng)計中最重要也是最常用的方法。中最重要也是最常用的方法。首先是事先對總體的參數(shù)或分布形式作出一個假設(shè)。首先是事先對總體的參數(shù)或分布形式作出一個假設(shè)。然后利用樣本信息判斷關(guān)于總體性質(zhì)假設(shè)是否合理。然后利用樣本信息判斷
15、關(guān)于總體性質(zhì)假設(shè)是否合理。即判斷總體的真實情況與假設(shè)是否存在顯著的系統(tǒng)性即判斷總體的真實情況與假設(shè)是否存在顯著的系統(tǒng)性差異。差異。假設(shè)檢驗亦稱顯著性檢驗。假設(shè)檢驗亦稱顯著性檢驗。事實上,許多研究報告或論文就只有統(tǒng)計描述而沒有事實上,許多研究報告或論文就只有統(tǒng)計描述而沒有假設(shè)檢驗,但是,必須明確,假設(shè)檢驗,但是,必須明確,有無假設(shè)檢驗的研究結(jié)有無假設(shè)檢驗的研究結(jié)論,其解釋或使用的范圍是不同的論,其解釋或使用的范圍是不同的。不經(jīng)過假設(shè)檢驗不經(jīng)過假設(shè)檢驗的研究結(jié)論,只能適用于已調(diào)查的對象或樣本的研究結(jié)論,只能適用于已調(diào)查的對象或樣本(在普(在普遍調(diào)查中不存在假設(shè)檢驗問題,因為樣本等于總體),遍調(diào)查中
16、不存在假設(shè)檢驗問題,因為樣本等于總體),而不能推斷總體而不能推斷總體;只有在樣本統(tǒng)計量基礎(chǔ)上經(jīng)過假設(shè)只有在樣本統(tǒng)計量基礎(chǔ)上經(jīng)過假設(shè) 檢驗后,才能說樣本中發(fā)現(xiàn)的現(xiàn)象或規(guī)律有多大把握檢驗后,才能說樣本中發(fā)現(xiàn)的現(xiàn)象或規(guī)律有多大把握在總體中存在或不存在。在總體中存在或不存在。需要明確,并不是所有調(diào)查數(shù)據(jù)多能進行假設(shè)檢驗,需要明確,并不是所有調(diào)查數(shù)據(jù)多能進行假設(shè)檢驗,只有通過只有通過隨機抽樣調(diào)查隨機抽樣調(diào)查得來的數(shù)據(jù)才有資格進行假設(shè)得來的數(shù)據(jù)才有資格進行假設(shè)檢驗。檢驗。假設(shè)檢驗假設(shè)檢驗假設(shè)檢驗的過程提出假設(shè):使用證偽的原理建立對立假設(shè)。提出假設(shè):使用證偽的原理建立對立假設(shè)。虛無假設(shè)(虛無假設(shè)(H H0
17、0):是假設(shè)在樣本中觀察到的事實或變量之:是假設(shè)在樣本中觀察到的事實或變量之間的關(guān)系在總體中并不存在,即關(guān)于間的關(guān)系在總體中并不存在,即關(guān)于“不存在不存在”假設(shè)假設(shè)備擇假設(shè)備擇假設(shè):它與虛無假設(shè):它與虛無假設(shè)針鋒相對針鋒相對的假設(shè),即存在。的假設(shè),即存在。構(gòu)造適當(dāng)?shù)慕y(tǒng)計量,并根據(jù)樣本統(tǒng)計量的具體數(shù)值構(gòu)造適當(dāng)?shù)慕y(tǒng)計量,并根據(jù)樣本統(tǒng)計量的具體數(shù)值規(guī)定顯著水平,建立檢驗規(guī)則規(guī)定顯著水平,建立檢驗規(guī)則做出判斷做出判斷 . .假設(shè)檢驗的本質(zhì)假設(shè)檢驗的本質(zhì)就是要判斷虛無假設(shè)是否正確就是要判斷虛無假設(shè)是否正確若拒絕虛無假設(shè),則意味著接受備擇假設(shè)若拒絕虛無假設(shè),則意味著接受備擇假設(shè)虛無假設(shè)與備擇假設(shè). .備擇
18、假設(shè)(備擇假設(shè)(H H1 1):如果虛無假設(shè)錯誤則是必然正確):如果虛無假設(shè)錯誤則是必然正確的陳述,即與虛無假設(shè)相互排斥的假設(shè)。的陳述,即與虛無假設(shè)相互排斥的假設(shè)。表述:邏輯上與虛無假設(shè)相反或?qū)α?,不能同時成立。表述:邏輯上與虛無假設(shè)相反或?qū)αⅲ荒芡瑫r成立。表示:參數(shù)表示:參數(shù) 或或 或或 某個值。某個值。一、集中量數(shù)分析一、集中量數(shù)分析所謂集中量數(shù)分析,是指用一個具體的所謂集中量數(shù)分析,是指用一個具體的統(tǒng)計量統(tǒng)計量反映一反映一組數(shù)據(jù)向組數(shù)據(jù)向該統(tǒng)計量集中趨勢的統(tǒng)計方法該統(tǒng)計量集中趨勢的統(tǒng)計方法,它所表示的,它所表示的是一組數(shù)據(jù)是一組數(shù)據(jù)集中的程度或水平集中的程度或水平。集中量數(shù)有平均數(shù)、。
19、集中量數(shù)有平均數(shù)、中位數(shù)、眾數(shù)、四分位數(shù)、百分位數(shù)以及倒數(shù)平均數(shù)、中位數(shù)、眾數(shù)、四分位數(shù)、百分位數(shù)以及倒數(shù)平均數(shù)、幾何平均數(shù)等。其中,常用的集中量數(shù)是幾何平均數(shù)等。其中,常用的集中量數(shù)是平均數(shù)、中平均數(shù)、中位數(shù)和眾數(shù)位數(shù)和眾數(shù)。第三節(jié) 單變量統(tǒng)計分析數(shù)據(jù)分布的集中性大學(xué)生畢業(yè)生的平均初始收入是多少?大學(xué)生畢業(yè)生的平均初始收入是多少?某地區(qū)的居民平均年收入是多少?某地區(qū)的居民平均年收入是多少?集中性測量:一種將群體描述為一個整體的有用集中性測量:一種將群體描述為一個整體的有用方法是找到一個單獨的數(shù)字,能夠平均地或者典方法是找到一個單獨的數(shù)字,能夠平均地或者典型的代表一個數(shù)據(jù)集。型的代表一個數(shù)據(jù)集
20、。代表值常常位于數(shù)據(jù)分布的中部代表值常常位于數(shù)據(jù)分布的中部包括眾數(shù)、中位數(shù)、均值包括眾數(shù)、中位數(shù)、均值集中性的描述指標(biāo)集中性的描述指標(biāo)1.1.平均值(均值)平均值(均值) 1 1)定義:稱算數(shù)平均數(shù),是把一個變量的所有觀測值)定義:稱算數(shù)平均數(shù),是把一個變量的所有觀測值相加之和再除以觀測值數(shù)目得到的數(shù)值。相加之和再除以觀測值數(shù)目得到的數(shù)值。 2 2)計算:)計算: X bar X bar 或者或者 X X一杠;一杠;西格瑪,累加符號西格瑪,累加符號 3 3)特點:)特點:大體位于觀察值中部,用于度量重心的平衡點大體位于觀察值中部,用于度量重心的平衡點對變量的每一個觀察值都加以利用的優(yōu)點對變量的
21、每一個觀察值都加以利用的優(yōu)點有計算麻煩,對個別極端值敏感的缺點有計算麻煩,對個別極端值敏感的缺點X11=11=+=nniinXXXXnnn個觀測值的和()例題例題1. 某次考試中,5位同學(xué)的得分分別為85分、74分、90分、65分、78分,則這5位同學(xué)的平均分數(shù)為:11=11=+=nniinXXXXnnn個觀測值的和()=(85+74+90+65+78)/5=78.4分例題例題如果從調(diào)查中獲得的是如下5個分組的資料:考試分數(shù)考試分數(shù)人數(shù)人數(shù)65分274分478分285分390分3合計14=(65*2+74*4+78*2+85*3+90*3)/14=79.07分NXffXfX例題例題考試分數(shù)考試
22、分數(shù)人數(shù)人數(shù)65-74分475-84分485-100分2合計10如果從調(diào)查中獲得的是如下5個分組的資料:=((1/2(65+74)*4+1/2(75+84)*4+1/2(85+100)*2/10)=78.1分2下限上限組中值NXffXfX集中性的描述指標(biāo)集中性的描述指標(biāo)2.2.中位數(shù)中位數(shù) 1 1)定義:又稱中數(shù)、中點數(shù),指位于按順序排列的一)定義:又稱中數(shù)、中點數(shù),指位于按順序排列的一組數(shù)據(jù)中央位置的數(shù)值。是一個變量分布的中間點,組數(shù)據(jù)中央位置的數(shù)值。是一個變量分布的中間點,就是一半觀測值比它小,一半觀測值比它大的那個數(shù)就是一半觀測值比它小,一半觀測值比它大的那個數(shù)值。值。 2 2)方法:)
23、方法:把所有觀測值排順序,由小到大。把所有觀測值排順序,由小到大。若觀測值個數(shù)若觀測值個數(shù)n n為奇數(shù),中位數(shù)為奇數(shù),中位數(shù)M M就是排序后觀測值就是排序后觀測值最中間的一個,即數(shù)到最中間的一個,即數(shù)到(n+1)/2(n+1)/2個位置。個位置。若觀察值個數(shù)若觀察值個數(shù)n n為偶數(shù),中位數(shù)就是排序后最中間的為偶數(shù),中位數(shù)就是排序后最中間的兩個觀察值的平均。兩個觀察值的平均。集中性的描述指標(biāo)集中性的描述指標(biāo) 五孩子家庭:五孩子家庭:1717歲、歲、1414歲、歲、1212歲、歲、9 9歲、歲、5 5歲歲 六孩子家庭:六孩子家庭:1717歲、歲、1414歲、歲、1212歲、歲、9 9歲、歲、5 5
24、歲、歲、5 5歲歲 3 3)特點:)特點:優(yōu)點:中位數(shù)很好的代表了一組觀察值的中點只需很優(yōu)點:中位數(shù)很好的代表了一組觀察值的中點只需很少量的計少量的計缺點:除了中間值,中位數(shù)并未利用其他觀測值,對缺點:除了中間值,中位數(shù)并未利用其他觀測值,對極端值不敏感。極端值不敏感。集中性的描述指標(biāo)3.3.眾數(shù)眾數(shù)1 1)定義:又稱范數(shù)、秘籍?dāng)?shù),是變量的觀察值中出)定義:又稱范數(shù)、秘籍?dāng)?shù),是變量的觀察值中出現(xiàn)次數(shù)最多的數(shù)值現(xiàn)次數(shù)最多的數(shù)值2 2)特點:)特點:一般用來描述分類變量;一般用來描述分類變量;有兩個值出現(xiàn)最多時,叫做二眾數(shù)分布;有兩個值出現(xiàn)最多時,叫做二眾數(shù)分布;從圖表中很容易找到眾數(shù);從圖表中很
25、容易找到眾數(shù);眾數(shù)不能顯示比其他數(shù)值出現(xiàn)次數(shù)多的程度;眾數(shù)不能顯示比其他數(shù)值出現(xiàn)次數(shù)多的程度;集中性的描述指標(biāo)集中性的描述指標(biāo)4.4.計算步驟計算步驟1 1)將數(shù)字從高到低排列)將數(shù)字從高到低排列2 2)眾數(shù):頻數(shù)最大的數(shù)值)眾數(shù):頻數(shù)最大的數(shù)值3 3)中位數(shù):最居中的數(shù)值)中位數(shù):最居中的數(shù)值4 4)平均值:求出觀測值的)平均值:求出觀測值的總和,將總和除以觀測值總和,將總和除以觀測值的個數(shù)的個數(shù)編號編號 身高身高 編號編號 身高身高1 10 01691691 11571571 11 11691692 21631631 12 21691693 31631631 13 31691694 416
26、31631 14 41751755 51631631 15 51751756 61631631 16 61751757 71691691 17 71751758 81691691 18 81751759 91691691919181181平均數(shù)被公認是三種集中量數(shù)中最好的一種,也是使平均數(shù)被公認是三種集中量數(shù)中最好的一種,也是使用最多的一種,用最多的一種,但是它往往受一個或幾個極端數(shù)據(jù)的但是它往往受一個或幾個極端數(shù)據(jù)的影響,使平局數(shù)反映數(shù)據(jù)整體集中趨勢的準確性變得影響,使平局數(shù)反映數(shù)據(jù)整體集中趨勢的準確性變得面目全非。面目全非。中位數(shù)在表現(xiàn)數(shù)據(jù)整體的集中趨勢上,一般沒有平均中位數(shù)在表現(xiàn)數(shù)據(jù)整體
27、的集中趨勢上,一般沒有平均數(shù)數(shù)準確,但當(dāng)一組數(shù)據(jù)中存在極端數(shù)據(jù),或數(shù)據(jù)中數(shù)數(shù)準確,但當(dāng)一組數(shù)據(jù)中存在極端數(shù)據(jù),或數(shù)據(jù)中有個別數(shù)據(jù)不準確,中位數(shù)平均數(shù)更準確反映集中趨有個別數(shù)據(jù)不準確,中位數(shù)平均數(shù)更準確反映集中趨勢。勢。眾數(shù)被認為最差的一種,但當(dāng)需要快速而粗略找出一眾數(shù)被認為最差的一種,但當(dāng)需要快速而粗略找出一組數(shù)據(jù)的代表值時,其優(yōu)越性。組數(shù)據(jù)的代表值時,其優(yōu)越性。集中性的描述指標(biāo)評價集中性的描述指標(biāo)評價二、離散量數(shù)分析所謂離散量數(shù),就是表示一組數(shù)據(jù)變異程度或分散程所謂離散量數(shù),就是表示一組數(shù)據(jù)變異程度或分散程度的量數(shù)度的量數(shù)。離散量數(shù)越大,表示數(shù)據(jù)分布范圍越廣,。離散量數(shù)越大,表示數(shù)據(jù)分布范圍
28、越廣,越不集中,越不整齊;相反,離散量數(shù)越小,表示數(shù)越不集中,越不整齊;相反,離散量數(shù)越小,表示數(shù)據(jù)分布范圍越集中,變動程度越小。據(jù)分布范圍越集中,變動程度越小。地區(qū)地區(qū)a aa aa aa aa aa aa ab bb bb bb bb bb bb b年齡年齡6 66 66 66 66 66 66 65 55 56 66 66 67 77 7數(shù)據(jù)分布的離散性數(shù)據(jù)分布的離散性數(shù)據(jù)分布的離散性數(shù)據(jù)分布的離散性數(shù)據(jù)存在不同程度的離散性(變異性)數(shù)據(jù)存在不同程度的離散性(變異性)數(shù)據(jù)需要從集中性和離散性兩個方面描述數(shù)據(jù)需要從集中性和離散性兩個方面描述數(shù)據(jù)離散程度的描述指標(biāo):數(shù)據(jù)離散程度的描述指標(biāo):方
29、差方差標(biāo)準差標(biāo)準差全距全距異眾比率異眾比率離散系數(shù)離散系數(shù)偏度系數(shù)偏度系數(shù)1 1 方差方差方差是一種重要的離散量數(shù),是把一組數(shù)據(jù)中每個數(shù)據(jù)相減,將其差進行平方后相加,再除以數(shù)據(jù)的個數(shù),計算公式 :22NXXNSSS2、標(biāo)準差標(biāo)準差:將方差開平方得到的數(shù)值標(biāo)準差:將方差開平方得到的數(shù)值 標(biāo)準差解決了方差單位不明,與觀測值單位一致。標(biāo)準差解決了方差單位不明,與觀測值單位一致。標(biāo)準差用于描述觀測值與均值的離散程度。標(biāo)準差用于描述觀測值與均值的離散程度。標(biāo)準差越大觀測值越分散,越小觀測值越集中。標(biāo)準差越大觀測值越分散,越小觀測值越集中。標(biāo)準差可以作為單位用于描述個體的偏離程度。標(biāo)準差可以作為單位用于描
30、述個體的偏離程度。22()XXSSN3、全距全距:全距: 1 1)定義:一個分布中最大值和最小值之間的差距。)定義:一個分布中最大值和最小值之間的差距。 2 2)計算:全距)計算:全距= =(最大值)(最大值)- -(最小值)(最小值) 3 3)意義:)意義:反映數(shù)據(jù)間最大變異程度。反映數(shù)據(jù)間最大變異程度。計算簡單,只取決于最大值和最小值。計算簡單,只取決于最大值和最小值。只能粗略描述數(shù)據(jù)分布的離散程度。只能粗略描述數(shù)據(jù)分布的離散程度。4. 異眾比率異眾比率,是指非眾數(shù)的頻數(shù)與全部個案數(shù)的比值,異眾比率,是指非眾數(shù)的頻數(shù)與全部個案數(shù)的比值,用用VR表示,其含義是指眾數(shù)所不能代表的其他數(shù)據(jù)表示,
31、其含義是指眾數(shù)所不能代表的其他數(shù)據(jù)(即非眾數(shù)數(shù)據(jù))在總數(shù)中的比重。(即非眾數(shù)數(shù)據(jù))在總數(shù)中的比重。VR值越大,表示非眾數(shù)的個案所占總數(shù)據(jù)的比例越大,值越大,表示非眾數(shù)的個案所占總數(shù)據(jù)的比例越大,也就是眾數(shù)的代表性越小,相反,也就是眾數(shù)的代表性越小,相反,VR值越小,則表示值越小,則表示眾數(shù)的代表性越大。眾數(shù)的代表性越大。異眾比率是從反面檢驗眾數(shù)的一項指標(biāo)異眾比率是從反面檢驗眾數(shù)的一項指標(biāo)4. 異眾比率公式公式表示眾數(shù)的樣本個數(shù)表示樣本數(shù)量表示異眾比率00fmnVRnfmnVR例題:一組原始數(shù)據(jù)為例題:一組原始數(shù)據(jù)為6,8,4,7,5,8,4,86,8,4,7,5,8,4,8共有共有8 8個數(shù)(
32、個數(shù)(n=8n=8),眾數(shù)),眾數(shù)M0=8M0=8,非眾數(shù),非眾數(shù)n-fm0=5n-fm0=5VR=8-3/8=0.625VR=8-3/8=0.6255、離散系數(shù)所謂離散系數(shù),即標(biāo)準差與算術(shù)平均數(shù)的百分比值,所謂離散系數(shù),即標(biāo)準差與算術(shù)平均數(shù)的百分比值,用用CV表示。表示。它是一種無量綱的相對數(shù),因而便于進行它是一種無量綱的相對數(shù),因而便于進行比較。比較。公式:公式:CV表示離散系數(shù)表示離散系數(shù)S表示標(biāo)準差表示標(biāo)準差 表示算數(shù)平均數(shù)表示算數(shù)平均數(shù)%100XSCVX例題:比較某區(qū)一季度二手房成交價格與房屋面積分例題:比較某區(qū)一季度二手房成交價格與房屋面積分布的差異程度,假設(shè)通過調(diào)查得到如下數(shù)據(jù):
33、布的差異程度,假設(shè)通過調(diào)查得到如下數(shù)據(jù): 平均數(shù)(平均數(shù)( ) 標(biāo)準差(標(biāo)準差(S)房屋價格房屋價格 1702817028元元 562562元元房屋面積房屋面積 58.1658.16平方米平方米 2.862.86平方米平方米解:分別求價格、面積的離散系數(shù)解:分別求價格、面積的離散系數(shù)房屋價格房屋價格: =5.62/170.28=3.3%5.62/170.28=3.3%房屋面積:房屋面積: =2.86/58.16=4.92%=2.86/58.16=4.92%5、離散系數(shù)X%100XSCV%100XSCV通過上述計算可以看出,離散量數(shù)方差、標(biāo)準差、全通過上述計算可以看出,離散量數(shù)方差、標(biāo)準差、全距
34、等,都屬于絕對離散量數(shù),即它們都是帶有與原觀距等,都屬于絕對離散量數(shù),即它們都是帶有與原觀察值(數(shù)據(jù))相同量綱(單位)的量數(shù)。絕對離散量察值(數(shù)據(jù))相同量綱(單位)的量數(shù)。絕對離散量數(shù)的局限是,只有當(dāng)兩種離散量數(shù)的單位相同時,才數(shù)的局限是,只有當(dāng)兩種離散量數(shù)的單位相同時,才能比較大小,當(dāng)兩種離散量數(shù)的單位不同時,就無法能比較大小,當(dāng)兩種離散量數(shù)的單位不同時,就無法進行差異比較。進行差異比較。而離散系數(shù)可以對不同單位數(shù)據(jù)比較,如上例題,針而離散系數(shù)可以對不同單位數(shù)據(jù)比較,如上例題,針對房屋價格、面積離散程度,可以看出二手房屋面積對房屋價格、面積離散程度,可以看出二手房屋面積方面的差異明顯大于價格
35、方面的差異。方面的差異明顯大于價格方面的差異。5、離散系數(shù)6、偏度系數(shù)偏度系數(shù)是用來描述數(shù)據(jù)分布特征的統(tǒng)計量數(shù)。偏度系數(shù)是用來描述數(shù)據(jù)分布特征的統(tǒng)計量數(shù)。所謂偏度,指的是數(shù)據(jù)分布的所謂偏度,指的是數(shù)據(jù)分布的偏傾方向偏傾方向和和程度程度,它能說明,它能說明數(shù)據(jù)總體是否近似于正態(tài)分布,從而確定能否進行統(tǒng)計推數(shù)據(jù)總體是否近似于正態(tài)分布,從而確定能否進行統(tǒng)計推斷或如何進行統(tǒng)計推斷。斷或如何進行統(tǒng)計推斷。簡要介紹兩種方法:簡要介紹兩種方法:(1)按平均數(shù)與眾數(shù)的離差求偏度系數(shù))按平均數(shù)與眾數(shù)的離差求偏度系數(shù)。越大,其偏向程度越大時,分布呈負偏態(tài),當(dāng)時,分布呈正篇,當(dāng)分布;時,數(shù)據(jù)呈嚴格的正態(tài)當(dāng)表示標(biāo)準差
36、表示眾數(shù)值表示樣本數(shù)據(jù)的平均數(shù)表示偏度系數(shù);ppppSSSSkSMXSkSMXSkk0k0k0pp00(2 2)按平均數(shù)與中位數(shù)的離差求偏度系數(shù))按平均數(shù)與中位數(shù)的離差求偏度系數(shù)在數(shù)據(jù)呈基本正態(tài)分布的情況下,平均數(shù)、中位數(shù)、在數(shù)據(jù)呈基本正態(tài)分布的情況下,平均數(shù)、中位數(shù)、眾數(shù)三者之間存在如下關(guān)系:眾數(shù)三者之間存在如下關(guān)系:鑒于中位數(shù)較之眾數(shù)更穩(wěn)定、更具有代表性,故認為鑒于中位數(shù)較之眾數(shù)更穩(wěn)定、更具有代表性,故認為用平均數(shù)與中位數(shù)的離差求偏度系數(shù)的方法比前一種用平均數(shù)與中位數(shù)的離差求偏度系數(shù)的方法比前一種更好,更準確。更好,更準確。6、偏度系數(shù)平均數(shù)中位數(shù)眾數(shù)得:公式將這一公式代入前面的XMMSM
37、dXSXMdXSSXMdMppd)(3)23(k,k2300三、單變量統(tǒng)計推斷參數(shù)估計參數(shù)估計: :是用樣本統(tǒng)計量來估計總體參數(shù)的。是用樣本統(tǒng)計量來估計總體參數(shù)的。它通常只涉及一個變量,也涉及兩個變量的。參數(shù)估它通常只涉及一個變量,也涉及兩個變量的。參數(shù)估計分為三種情況,即總體平均數(shù)的參數(shù)估計、總體比計分為三種情況,即總體平均數(shù)的參數(shù)估計、總體比率的參數(shù)估計和總體方差的參數(shù)估計。率的參數(shù)估計和總體方差的參數(shù)估計。假設(shè)檢驗假設(shè)檢驗在單變量統(tǒng)計分析范圍內(nèi),假設(shè)檢驗分為三種情況,在單變量統(tǒng)計分析范圍內(nèi),假設(shè)檢驗分為三種情況,即總體平均數(shù)的假設(shè)檢驗,總體比率的假設(shè)檢驗和總即總體平均數(shù)的假設(shè)檢驗,總體比
38、率的假設(shè)檢驗和總體方差的假設(shè)檢驗。體方差的假設(shè)檢驗。第四節(jié)雙變量統(tǒng)計分析一、雙變量統(tǒng)計分析的內(nèi)容一、雙變量統(tǒng)計分析的內(nèi)容兩個變量間的相關(guān)關(guān)系兩個變量間的相關(guān)關(guān)系()按照相關(guān)方向的不同,可分為正相關(guān)和負相關(guān)。()按照相關(guān)方向的不同,可分為正相關(guān)和負相關(guān)。()按照相關(guān)強度的不同,可分為完全相關(guān)、不相關(guān)()按照相關(guān)強度的不同,可分為完全相關(guān)、不相關(guān)和不完全相關(guān)。和不完全相關(guān)。()按照相關(guān)形式的不同,可分為線性相關(guān)和非線性()按照相關(guān)形式的不同,可分為線性相關(guān)和非線性相關(guān)。相關(guān)。兩個變量間的因果關(guān)系兩個變量間的因果關(guān)系,是指一個變量的變化可以確兩個變量間的因果關(guān)系,是指一個變量的變化可以確定為另一個變
39、量變化的原因的關(guān)系。定為另一個變量變化的原因的關(guān)系。二、雙變量統(tǒng)計分析的方法在雙變量統(tǒng)計分析中,由于變量的測量層次不同,因在雙變量統(tǒng)計分析中,由于變量的測量層次不同,因而計算兩個變量相關(guān)系數(shù)的方法和假設(shè)檢驗的方法也而計算兩個變量相關(guān)系數(shù)的方法和假設(shè)檢驗的方法也不相同。不相同。變量的測量層次,可分為定類、定序、定距、變量的測量層次,可分為定類、定序、定距、定比四種類型定比四種類型,這樣就形成了多種不同測量層次變量,這樣就形成了多種不同測量層次變量的兩兩組合。的兩兩組合。58 多變量統(tǒng)計方法是運用數(shù)理統(tǒng)計的方法來研究多變量問題的多變量統(tǒng)計方法是運用數(shù)理統(tǒng)計的方法來研究多變量問題的理論和方法理論和方
40、法, ,它是單變量統(tǒng)計統(tǒng)計方法的推廣,是研究多個它是單變量統(tǒng)計統(tǒng)計方法的推廣,是研究多個隨機變量之間相互依賴關(guān)系以及內(nèi)在統(tǒng)計規(guī)律性的一門統(tǒng)計隨機變量之間相互依賴關(guān)系以及內(nèi)在統(tǒng)計規(guī)律性的一門統(tǒng)計學(xué)分支學(xué)科。學(xué)分支學(xué)科。 近年來,多變量統(tǒng)計方法已廣泛應(yīng)用到醫(yī)學(xué)研究的各個領(lǐng)域。近年來,多變量統(tǒng)計方法已廣泛應(yīng)用到醫(yī)學(xué)研究的各個領(lǐng)域。醫(yī)學(xué)現(xiàn)象涉及到的變量不止一個醫(yī)學(xué)現(xiàn)象涉及到的變量不止一個, ,而是多個變量而是多個變量, ,且這些變量且這些變量間又存在一定的聯(lián)系間又存在一定的聯(lián)系, ,需要處理多個變量的觀測數(shù)據(jù)。需要處理多個變量的觀測數(shù)據(jù)。第五節(jié)多變量統(tǒng)計分析簡介59回歸分析的分類回歸分析的分類多個因變量多個因變量(y1,y2,yk)路徑分析路徑分析結(jié)構(gòu)方程模型分析結(jié)構(gòu)方程模型分析一個一個因變因變量量 y連續(xù)型因變量連續(xù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程施工分包管理試題及答案
- 腦筋智力測試題及答案
- 食品與飲料行業(yè)食品行業(yè)食品安全監(jiān)管技術(shù)創(chuàng)新與展望報告
- 老年旅游市場細分領(lǐng)域定制化服務(wù)行業(yè)市場規(guī)模及增長預(yù)測報告
- 經(jīng)典作品分析與理解試題及答案
- 鹽湖提鋰技術(shù)2025年成本優(yōu)化與產(chǎn)能擴張市場前景預(yù)測報告
- 深入挖掘2025年物理考試試題及答案
- 小學(xué)教師教育中反思的創(chuàng)新方式試題及答案
- 新能源汽車輕量化設(shè)計策略試題及答案
- 數(shù)字故事與形狀探索的有趣題目試題及答案
- MOOC 人工智能導(dǎo)論-福建師范大學(xué) 中國大學(xué)慕課答案
- 【農(nóng)業(yè)技術(shù)推廣探究文獻綜述2300字】
- 新生兒腸脹氣課件
- 加油站清明節(jié)節(jié)前安全教育培訓(xùn)
- 專題17浮力與液面升降問題(選擇、填空題)- 中考物理一輪復(fù)習(xí)專題練習(xí)(解析版)
- 《公路工程經(jīng)濟》簡課件
- 《醫(yī)學(xué)綜述的撰寫》課件
- 【CMMI】8. TS、PI、VV、PR 訪談問題-編碼和測試 -(含答案)
- 06J403-1 樓梯、欄桿、欄板圖集
- 危險化學(xué)品存放與使用安全規(guī)范與要求培訓(xùn)
- 《鏡子的發(fā)展史》課件
評論
0/150
提交評論