




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第 4 章 數(shù)據(jù)的概括性度量 4.1 集中趨勢的度量 4.2 離散程度的度量 4.3 偏態(tài)與峰態(tài)的度量數(shù)據(jù)的概括性度量方差和標(biāo)準(zhǔn)差數(shù)據(jù)的概括性度量集中趨勢離散程度分布形狀眾數(shù)中位數(shù)均值異眾比率四分位差離散系數(shù)偏態(tài)峰度4.1 集中趨勢的度量集中趨勢(central tendency)是指一組數(shù)據(jù)向某一中心值靠攏的傾向和程度,集中趨勢可以反映一組數(shù)據(jù)的中心值或代表值,不同數(shù)據(jù)類型可選用不同的集中趨勢測度值.低層次數(shù)據(jù)的測度值適用于高層次的測量數(shù)據(jù),但高層次數(shù)據(jù)的測度值并不適用于低層次的測量數(shù)據(jù).4.1.1 分類數(shù)據(jù):眾數(shù) 一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值稱為眾數(shù)(mode) ,用M0 表示.不受極端
2、值的影響.眾數(shù)主要用于測度分類數(shù)據(jù)的集中趨勢.也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù). 一組數(shù)據(jù)可以沒有眾數(shù),也可以有幾個(gè)眾數(shù).眾數(shù)的特性(1) 一組數(shù)據(jù)可以沒有眾數(shù) 假定一組數(shù)據(jù)如下:1 2 3 4 5則這組數(shù)據(jù)沒有眾數(shù). (2) 一組數(shù)據(jù)可以有多個(gè)眾數(shù). 假定一組數(shù)據(jù)如下:1 2 2 3 4 4 5那么這組數(shù)據(jù)有兩個(gè)眾數(shù). 圖4 -1 眾數(shù)示意圖 無眾數(shù) 一個(gè)眾數(shù) 多于一個(gè)眾數(shù)例 4.1 根據(jù)第3章表 3-4 的數(shù)據(jù),計(jì)算“飲料品牌”的眾數(shù).表3-4 不同品牌飲料的頻數(shù)分布 解:這里的變量為“飲料品牌”,是分類變量,不同類型的飲料就是變量值.在所調(diào)查的50 人中, 購買可口可樂的人數(shù)最多,為15人,
3、占總被調(diào)查人數(shù)的 30% ,因此眾數(shù)為“可口可樂”這一品牌. 即 可口可樂0M例4.2表3-6 甲城市家庭對(duì)住房狀況的評(píng)價(jià) 根據(jù)第3章表3-6的數(shù)據(jù),計(jì)算甲城市對(duì)住房狀況滿意度評(píng)價(jià)的眾數(shù). 解:這里的變量是回答類別,是順序變量.甲城市所調(diào)查的300戶家庭中,對(duì)目前住房不滿意的戶數(shù)最多,有108戶.所以這組數(shù)據(jù)的眾數(shù)為“不滿意” 這一類別.即 不滿意0M例4.3 在某城市中隨機(jī)抽取9戶家庭, 調(diào)查得每戶家庭的人均月收入數(shù)據(jù)如下(單位:元).要求計(jì)算人均月收入的眾數(shù). 1080 750 1080 1080 850 960 2000 1250 1630 解: 人均月收入1080的家庭最多, 即 元1
4、0800M 一個(gè)由claremont學(xué)院本科學(xué)生組成的“莎士比亞診所”,用統(tǒng)計(jì)分析對(duì)58個(gè)與莎士比亞同時(shí)代的作家進(jìn)行分析,以確定誰的寫作風(fēng)格與莎士比亞的作品風(fēng)格最相近。他們從58個(gè)作家的作品中選取片段,并將其分成500字一段的小段,對(duì)區(qū)組中的一些變量進(jìn)行計(jì)數(shù)統(tǒng)計(jì),例如,考察52個(gè)關(guān)鍵字的出現(xiàn)情況,并找出其眾數(shù),由此得出各個(gè)作家的主要特征。結(jié)果,58個(gè)備選者中沒有一個(gè)能通過眾數(shù)檢驗(yàn)。因此證明,是莎士比亞寫下了他本人的詩篇。莎士比亞著作中的眾數(shù)4.1.2 順序數(shù)據(jù):中位數(shù)和分位數(shù)1.中位數(shù)(median)一組數(shù)據(jù)按從小到大排列時(shí),處于中間位置上的變量值稱為中位數(shù),用 Me 表示. 中位數(shù)主要用于測
5、度順序數(shù)據(jù)的集中趨勢.中位數(shù)當(dāng)然也適用于數(shù)值型數(shù)據(jù),但不適用于分類數(shù)據(jù). 顯然,中位數(shù)作為位置代表值,其數(shù)值不受極大值和極小值的影響.中位數(shù)的位置對(duì)未分組數(shù)據(jù)中位數(shù)的位置即未分組數(shù)據(jù)的中位數(shù)是1, 2, , n 這 n 個(gè)位置的平均. 而對(duì)于分組數(shù)據(jù),則 中位數(shù)的位置(4.1)21n2n中位數(shù)的計(jì)算nxxx,21,)2()1(xx)12()2()21(21nnnexxxM當(dāng) n 為奇數(shù)當(dāng) n 為偶數(shù)(4.2) 設(shè)一組數(shù)據(jù)為 ,按從小到大排序后為 , 則中位數(shù)為)(,nx例 4.4根據(jù)第 3 章表 3-6 的數(shù)據(jù),計(jì)算甲城市家庭對(duì)住房狀況滿意程度評(píng)價(jià)的中位數(shù).表3-6 甲城市家庭對(duì)住房狀況的評(píng)價(jià)
6、 解:已知n = 300,從而中位數(shù)的位置為1502300從累積頻數(shù)可知,中位數(shù)在“一般”這一類中,因此eM一般例 4.5 在某城市中隨機(jī)抽取9個(gè)家庭,調(diào)查得各個(gè)家庭的人均月收入數(shù)據(jù)如下(單位:元),試計(jì)算人均月收入的中位數(shù). 1500 750 780 1080 850 960 2000 1250 1630 解:把數(shù)據(jù)排序得 750 780 850 960 1080 1250 1500 1630 2000而中位數(shù)的位置= (9+1)/2 = 5, 于是 1080eM例 4.5(續(xù)) 假定例4.5中隨機(jī)抽取10個(gè)家庭,各個(gè)家庭的人均月收入數(shù)據(jù)如下 660 750 780 850 960 1080
7、 1250 1500 1630 2000從而中位數(shù)的位置= (10+1)/2 = 5.5, 于是102021080960eM例 根據(jù)第3章表3-12的數(shù)據(jù),計(jì)算電腦銷售量的中位數(shù). 解:由于 n =120,則中位數(shù)的位置為182)182182(21)(21)61()60(xxMe 中位數(shù)為5 .6021n2 四分位數(shù)(quartile)與中位數(shù)類似的還有四分位數(shù)。一組數(shù)據(jù)按從小到大排列時(shí),處于位置上的變量值稱為第一個(gè)四分位數(shù)(下四分位數(shù)),處于位置上的變量值稱為第三個(gè)四分位數(shù)(上四分位數(shù)),而中位數(shù)就是第二個(gè)四分位數(shù)。4143四分位數(shù)的位置 對(duì)未分組時(shí) 下四分位數(shù)( )的位置 上四分位數(shù)( )
8、的位置 而對(duì)于分組數(shù)據(jù),則 下四分位數(shù)( )的位置 上四分位數(shù)( )的位置41n4) 1(3n4n43n(4.3)LQUQLQUQ例 根據(jù)第3章表3-12的數(shù)據(jù),計(jì)算電腦銷售量的下四分位數(shù)和上四分位數(shù). 解:已知 n =120,得下四分位數(shù)和上四分位數(shù)的位置197)197197(75. 019725.170)170171(25. 0170ULQQ于是75.904) 1120(34) 1(3,25.304112041nn例 4.6 對(duì)例4.5的數(shù)據(jù),計(jì)算人均月收入的下四分位數(shù)和上四分位數(shù). 解:已知 n =9,得下四分位數(shù)和上四分位數(shù)的位置1565)16301500(21765)780750(2
9、1ULQQ于是5 . 74) 19(34) 1(3,5 . 241941nn例解:解:QL位置= (300)/4 =75 QU位置 =(3300)/4 =225 從累計(jì)頻數(shù)看, QL在“不滿意”這一組別中; QU在“一般”這一組別中。因此 QL = 不滿意不滿意 QU = 一般一般甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別回答類別甲城市甲城市戶數(shù)戶數(shù) (戶戶)累計(jì)頻數(shù)累計(jì)頻數(shù) 非常不滿意非常不滿意 不滿意不滿意 一般一般 滿意滿意 非常滿意非常滿意2410893453024132225270300合計(jì)合計(jì)3004.1.3 數(shù)值型數(shù)據(jù):平均數(shù)平均數(shù)也稱均值(me
10、an), 是最常用的集中趨勢測度值,易受極端值的影響.主要適用于數(shù)值型數(shù)據(jù),但不適用于分類數(shù)據(jù)和順序數(shù)據(jù).1.簡單平均數(shù)與加權(quán)平均數(shù)(1) 根據(jù)未分組的數(shù)據(jù)計(jì)算簡單平均數(shù) 設(shè)一組數(shù)據(jù)為 則平均數(shù) 的計(jì)算公式為xniinxnnxxxx1211 例如,根據(jù)例4.5的數(shù)據(jù),計(jì)算9個(gè)家庭人均月收入的平均數(shù)為1200910800916307501500 x(元)(4.4 ),21nxxx(2)根據(jù)分組的數(shù)據(jù)計(jì)算加權(quán)平均數(shù)設(shè)一組數(shù)據(jù)分為k組,各組的組中值和組頻數(shù)分別為 . 則平均數(shù) 的計(jì)算公式為 ikiiikiikiifMnfMfx11111(4.5 )kifMii, 2, 1,x,21nxxx例4.7
11、根據(jù)第3章表 3-13中的數(shù)據(jù),計(jì)算電腦銷售量的平均數(shù).表4 -1某電腦公司銷售量數(shù)據(jù)平均數(shù)計(jì)算表解:根據(jù)(4.5)式,得185120222001201101iiifMx(臺(tái))加權(quán)平均數(shù)(權(quán)數(shù)對(duì)平均數(shù)的影響) 甲乙兩組各有10名學(xué)生,他們的考試成績及其分布數(shù)據(jù)如下 甲組: 考試成績(x ): 0 20 100 人數(shù)分布(f ): 1 1 8 乙組: 考試成績(x): 0 20 100 人數(shù)分布(f ): 8 1 1)(82108100120101分甲nfxxniii)(12101100120801分乙nfxxniii2 調(diào)和平均數(shù)(Harmonic mean)均值的另一種表現(xiàn)形式,易受極端值的
12、影響.計(jì)算公式為調(diào)和平均數(shù)(例題分析)某日三種蔬菜的批發(fā)成交數(shù)據(jù)某日三種蔬菜的批發(fā)成交數(shù)據(jù)蔬菜蔬菜名稱名稱批發(fā)價(jià)格批發(fā)價(jià)格(元元) xi成交額成交額(元元) fi成交量成交量(公斤公斤)甲甲乙乙丙丙1.200.500.801800012500640015000250008000合計(jì)合計(jì)3690048000【例】某蔬菜批發(fā)市場三種蔬菜的日成交數(shù)據(jù)如表,計(jì)算三種蔬菜該日的平均批發(fā)價(jià)格。(元)批發(fā)價(jià)格成交額成交額769. 04800036900mH3 一種特殊的平均數(shù):幾何平均數(shù) 幾何平均數(shù)(geometric mean)是平均數(shù)的另一種類型,主要用于比率或速度的平均.(1)根據(jù)未分組的數(shù)據(jù)計(jì)算幾何
13、平均數(shù)設(shè)一組數(shù)據(jù)為 則幾何平均數(shù)為,21nxxxnniinnmxxxxG121(4.6 ) (2)根據(jù)分組的數(shù)據(jù)計(jì)算幾何平均數(shù)設(shè)一組數(shù)據(jù) 分為k組,各組的組中值和組頻數(shù)分別為 ,則幾何平均數(shù)的計(jì)算公式為kifMii, 2, 1,nkifinfkffmiKMMMMG12121,21nxxx平均增長率 對(duì)逐年增長率 平均增長率應(yīng) 滿足,21nGGGniinGG1)1 ()1 (4.8 )即GnniiGG1)1 ()1 (或1)1 (1nniiGG(4.9 )幾何平均數(shù) (例題分析) 【例例】某水泥生產(chǎn)企業(yè)1999年的水泥產(chǎn)量為100萬噸,2000年與1999年相比增長率為9%,2001年與2000
14、年相比增長率為16%,2002年與2001年相比增長率為20%。求各年的年平均增長率。年平均增長率114.91%-1=14.91%幾何平均數(shù) (例題分析)【例例】某企業(yè)生產(chǎn)某種產(chǎn)品要經(jīng)過三個(gè)連續(xù)作業(yè)車間才能完成。若某月份第一車間粗加工產(chǎn)品的合格率為 95%,第二車間精加工產(chǎn)品的合格率為 93%,第三車間最后裝配的合格率為 90%,則該產(chǎn)品的車間平均合格率為多少?即該產(chǎn)品的車間平均合格率為 92.64% 。%64.92%90%93%953MG例4.8一位投資者持有一種股票,2001-2004年的收益率分別為4.5%,2.1%,25.5%和1.9%. 計(jì)算該投資者在這四年內(nèi)的平均收益率. 解:根據(jù)
15、(4.6),得即該投資者的投資平均收益率為108.0787%-100%=8.0787% .%0787.108%9 .101%5 .125%1 .102%5 .1044mG4.1.4 眾數(shù)、中位數(shù)和平均數(shù)的比較1.眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系圖4-2 不同分布的眾數(shù)、中位數(shù)和平均數(shù)(a)對(duì)稱分布(b)左偏分布(c)右偏分布o(jì)eMMx xMMeo xMMeo 2.眾數(shù)、中位數(shù)和平均數(shù)的特點(diǎn)(1)眾數(shù)是一組數(shù)據(jù)出現(xiàn)次數(shù)最多的數(shù)值,不受極端值的影響,但可能沒有眾數(shù),也可能有兩個(gè)或兩個(gè)以上眾數(shù)。眾數(shù)主要適用于分類數(shù)據(jù)的集中趨勢測度. (2)中位數(shù)是一組數(shù)據(jù)處于中間位置上的數(shù)值,不受極端值的影響,主要適用于
16、順序數(shù)據(jù)的集中趨勢測度. (3)平均數(shù)具有優(yōu)良的統(tǒng)計(jì)性質(zhì),是實(shí)際應(yīng)用最廣泛的集中趨勢測度值.主要適用于數(shù)值型數(shù)據(jù)的集中趨勢測度3.眾數(shù)、中位數(shù)和平均數(shù)的應(yīng)用場合 例 從一家公司中選取一個(gè)20名工人的樣本,將他們每周除去所有費(fèi)用后的凈收入近似為整數(shù)并按升序排列如下(元):240,240,240,240,240,240,240,240,255,255,265,265,280,280,290,300,305,325,330,340。計(jì)算 (1)、平均數(shù),中位數(shù),眾數(shù); ,中位數(shù)=260元,眾數(shù)=240元 (2)、從偏斜度的角度描述這組工資數(shù)據(jù); 由于平均數(shù)大于中位數(shù),所以這個(gè)分布是右偏分布。元5 .
17、270205410nxx3.眾數(shù)、中位數(shù)和平均數(shù)的應(yīng)用場合 (3)、假如你是這家公司負(fù)責(zé)勞資問題的副總經(jīng)理,你會(huì)采用哪個(gè)測度值代表公司中所有員工的收入水平? 因?yàn)闃颖酒骄鶖?shù)是這三個(gè)平均數(shù)測度值中的最大值,所以你可能傾向于采用它作為平均數(shù)。事實(shí)上,使用它非常合適,因?yàn)檫@里牽涉到統(tǒng)計(jì)推斷,而樣本平均數(shù)是可用的最穩(wěn)定的統(tǒng)計(jì)量。 (4)、假設(shè)你是推選出的工會(huì)主席,你會(huì)采用哪個(gè)測度值代表公司中所有員工的收入水平? 從你在工資問題談判中所處的位置出發(fā),你可能傾向于選擇眾數(shù),或者至少是中位數(shù),而決不會(huì)選用平均數(shù)。為了說明你選擇的測度值是合理的,你應(yīng)該指出眾數(shù)代表了樣本中大部分人的凈收入,或者可以指出從樣本中
18、可以看出樣本平均數(shù)受到極少數(shù)高工資的影響。然而,無論是眾數(shù)還是中位數(shù)都會(huì)隨樣本不同而產(chǎn)生很大變化,所以比起平均數(shù)都是不穩(wěn)定的總體估計(jì)值。數(shù)據(jù)類型與集中趨勢測度值數(shù)據(jù)類型和所適用的集中趨勢測度值數(shù)據(jù)類型和所適用的集中趨勢測度值數(shù)據(jù)類型數(shù)據(jù)類型分類數(shù)據(jù)分類數(shù)據(jù) 順序數(shù)據(jù)順序數(shù)據(jù)間隔數(shù)據(jù)間隔數(shù)據(jù)比率數(shù)據(jù)比率數(shù)據(jù)適適用用的的測測度度值值眾數(shù)眾數(shù)中位數(shù)中位數(shù)平均數(shù)平均數(shù)平均數(shù)平均數(shù)四分位數(shù)四分位數(shù)眾數(shù)眾數(shù)調(diào)和平均數(shù)調(diào)和平均數(shù)眾數(shù)眾數(shù)中位數(shù)中位數(shù)幾何平均數(shù)幾何平均數(shù)四分位數(shù)四分位數(shù) 中位數(shù)中位數(shù)四分位數(shù)四分位數(shù)眾數(shù)眾數(shù)4.2 離散程度的度量離散程度或分散程度是數(shù)據(jù)分布的另一個(gè)重要特征,離散程度的測度值反映
19、數(shù)據(jù)的分散程度.數(shù)據(jù)的分散程度越大,則集中趨勢測度值的代表性就越差;分散程度越小,則集中趨勢測度值的代表性就越好. 不同數(shù)據(jù)類型有不同的離散程度測度值.4.2.1 分類數(shù)據(jù):異眾比率異眾比率(variation ratio)是非眾數(shù)組的頻數(shù)所占的比例,即nffffVmkiikimir111異眾比率用于衡量眾數(shù)的代表程度: (1)異眾比率大,說明眾數(shù)的代表性差 (2)異眾比率小,說明眾數(shù)的代表性好(4.10)例4.9 根據(jù)第3章表34的數(shù)據(jù),計(jì)算異眾比率.表 3-4不同品牌飲料的頻數(shù)分布 解:根據(jù)(4.10)式,得異眾比率在所調(diào)查的50人當(dāng)中,購買其他品牌飲料的人數(shù)占70%. 由于異眾比率比較大
20、,因此用“可口可樂”代表消費(fèi)者購買飲料品牌的狀況,其代表性不是很好.4.2.2 順序數(shù)據(jù):四分位差四分位差(quartile deviation)是上四分位數(shù)與下四分位數(shù)之差,即(4.11)LUDQQQ四分位差反映了下四分位數(shù)至上四分位數(shù)之間 (即中間的50%數(shù)據(jù))的離散程度或變動(dòng)范圍四分位差越大,說明中間這部分?jǐn)?shù)據(jù)越分散,而四分位差越小,則說明中間這部分?jǐn)?shù)據(jù)越集中.四分位差在一定程度上可用于衡量中位數(shù)的代表程度.四分位差 (例題分析)解:解:為了計(jì)算順序數(shù)據(jù)的四分位差,需要把各類別數(shù)量化。設(shè)非常不滿意為1,不滿意為2, 一般為3, 滿意為 4, 非常滿意為5,已知 QL = 不滿意 = 2
21、QU = 一般 = 3四分位差: QD = QU QL = 3 2 = 1甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別回答類別甲城市甲城市戶數(shù)戶數(shù) (戶戶)累計(jì)頻數(shù)累計(jì)頻數(shù) 非常不滿意非常不滿意 不滿意不滿意 一般一般 滿意滿意 非常滿意非常滿意2410893453024132225270300合計(jì)合計(jì)300例4.10根據(jù)例4.6的數(shù)據(jù),已求得 ,從而四分位差為1565,765ULQQ8007651565DQ(臺(tái))4.2.3 數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差測度數(shù)值型數(shù)據(jù)離散程度的主要方法有極差、 平均差、方差和標(biāo)準(zhǔn)差,但最常用的是方差和標(biāo)準(zhǔn)差.1.1.極差極差(ran
22、ge)是一組數(shù)據(jù)的最大值與最小值之差,即未分組數(shù)據(jù):R最大值最小值 分組數(shù)據(jù):R最后一組的上限第一組的下限 (4.12)極差計(jì)算簡單,是描述數(shù)據(jù)離散程度的最簡單的測度值但極差易受極端值的影響,并且不能反映中間數(shù)據(jù)的分散程度。例如,根據(jù)例4.5的數(shù)據(jù),得9個(gè)家庭人均月收入的極差為 R20007501250(元)2.平均差平均差(mean deviation)是各變量值與均值離差絕對(duì)值的平均.平均差雖然能全面反映一組數(shù)據(jù)的分散程度,但由于離差取了絕對(duì)值,這給計(jì)算和統(tǒng)計(jì)性質(zhì)的討論帶來不便,因而實(shí)際工作中應(yīng)用較少.計(jì)算公式為:未分組數(shù)據(jù)組距分組數(shù)據(jù)(4.13)(4.14)例 4.11某電腦公司銷售量數(shù)
23、據(jù)平均差計(jì)算表某電腦公司銷售量數(shù)據(jù)平均差計(jì)算表 按銷售量分按銷售量分組組組中值組中值(Mi)頻數(shù)頻數(shù)(fi)14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合計(jì)合計(jì)1202040 含義:含義:每一天的銷售量與平均數(shù)相比,平均相差17臺(tái)3.方差和標(biāo)準(zhǔn)差方差和標(biāo)準(zhǔn)差(variance and standard deviation)是最常用的離散程
24、度測度值. 根據(jù)總體數(shù)據(jù)計(jì)算的稱為總體方差或總體標(biāo)準(zhǔn)差,而根據(jù)樣本數(shù)據(jù)計(jì)算的則稱為樣本方差或樣本標(biāo)準(zhǔn)差.(1)總體方差和標(biāo)準(zhǔn)差方差的計(jì)算公式未分組數(shù)據(jù):組距分組數(shù)據(jù):標(biāo)準(zhǔn)差的計(jì)算公式未分組數(shù)據(jù):組距分組數(shù)據(jù):2121NiiXXNiKiiFXXN2121211NiiXXNiKiiFXXN211總體標(biāo)準(zhǔn)差(例題分析)分組(個(gè))組中值( )頻數(shù)( )105110107.53 246.49739.47110115112.55 114.49572.45115120117.58 32.49259.92120125122.514 0.49 6.86125130127.510 18.49184.9013013
25、5132.56 86.49518.94135140137.54 204.49817.96合計(jì)50 3100.5iF某車間名工人日加工零件的標(biāo)準(zhǔn)差計(jì)算表2XXi解: 計(jì)算過程列于表,根據(jù)計(jì)算公式得(個(gè))87. 7505 .3100121iKIiFXXNiiFXX2ix含義:每個(gè)工人的日加工零件數(shù)與平均數(shù)相比相差7.87個(gè)。(2)樣本方差和標(biāo)準(zhǔn)差未分組數(shù)據(jù):組距分組數(shù)據(jù):未分組數(shù)據(jù):組距分組數(shù)據(jù):方差的計(jì)算公式標(biāo)準(zhǔn)差的計(jì)算公式(4.15)(4.17)(4.18)(4.16)注意:樣本方差用自由度n-1去除!自由度的說明1、一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個(gè)數(shù)2、當(dāng)樣本數(shù)據(jù)的個(gè)數(shù)為 n 時(shí),若樣本均值
26、x 確定后,只有n-1個(gè)數(shù)據(jù)可以自由取值,其中必有一個(gè)數(shù)據(jù)不能自由取值3、例如,樣本有3個(gè)數(shù)值,即x1=2,x2=4,x3=9,則 x = 5。當(dāng) x = 5 確定后,x1,x2和x3有兩個(gè)數(shù)據(jù)可以自由取值,另一個(gè)則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值4、樣本方差用自由度去除,其原因可從多方面來解釋,從實(shí)際應(yīng)用角度看,在抽樣估計(jì)中,當(dāng)用樣本方差去估計(jì)總體方差2時(shí),它是2的無偏估計(jì)量例4.12 樣本標(biāo)準(zhǔn)差的計(jì)算某電腦公司銷售量數(shù)據(jù)標(biāo)準(zhǔn)差計(jì)算表某電腦公司銷售量數(shù)據(jù)標(biāo)準(zhǔn)差計(jì)算表 按銷售量分按銷售量分組組組中值組中值(Mi)頻數(shù)頻數(shù)(fi)1401501501601
27、60170170180180190190200200210210220220230230240145155165175185195205215225235491627201710845160090040010001004009001600250064008100640027000170040007200640012500合計(jì)合計(jì)12055400含義:每一天的銷售量與平均數(shù)相比,平均相差21.58臺(tái).方差的展開公式在實(shí)際計(jì)算時(shí),也可按展開公式計(jì)算方差123421221121221211NiiNiiNiiNiiXXNXNXXXNXXN21212211KiiiKiiiXFXNFXXN21212211
28、1111niiniinxnnxnxxnS212122111111kiiikiiinxnnfxnfxxnS4.相對(duì)位置的測量由均值和標(biāo)準(zhǔn)差,記sxxzii稱為 為 的標(biāo)準(zhǔn)分?jǐn)?shù). 可以表達(dá) 的相對(duì)位置,也可用于判斷一組數(shù)據(jù)是否有離群點(diǎn).izix(4.19)izix(1)標(biāo)準(zhǔn)分?jǐn)?shù)標(biāo)準(zhǔn)分?jǐn)?shù)(性質(zhì))1)(1111)(11)2(0)(11) 1 (1221212211niiniiniiniiniisxxnznzznsxxnsznz標(biāo)準(zhǔn)分?jǐn)?shù)(性質(zhì)) 標(biāo)準(zhǔn)分?jǐn)?shù)只是將原始數(shù)據(jù)進(jìn)行了線性變換,它并沒有改變一個(gè)數(shù)據(jù)在該組數(shù)據(jù)中的位置,也沒有改變?cè)摻M數(shù)分布的形狀,而只是將該組數(shù)據(jù)變?yōu)榫禐?,標(biāo)準(zhǔn)差為1。 例4.13
29、68.431,1200 sx 根據(jù)例4.5的數(shù)據(jù),計(jì)算每個(gè)家庭的人均月收入的標(biāo)準(zhǔn)分?jǐn)?shù). 解:根據(jù)例4.5的數(shù)據(jù)求可得 ,由(4.19)式得每個(gè)家庭的人均月收入的標(biāo)準(zhǔn)分?jǐn)?shù)如下(表4-4) 表4-4 9個(gè)家庭人均月收入標(biāo)準(zhǔn)分?jǐn)?shù)計(jì)算表 可以看出,收入最低的家庭其人均收入與平均數(shù)相比低1.042個(gè)標(biāo)準(zhǔn)差;而收入最高的家庭人均收入比平均數(shù)高1.853個(gè)標(biāo)準(zhǔn)差。標(biāo)準(zhǔn)分?jǐn)?shù) (例題分析) 前NBA巨星Michael Jordan身高78英寸,而WNBA運(yùn)動(dòng)員R. Lobo身高76英寸,很明顯Jordan高出2英寸,但誰相對(duì)來說高一些呢?(男性平均身高69英寸,標(biāo)準(zhǔn)差為2.8英寸;女性平均身高63.6英寸,標(biāo)準(zhǔn)
30、差為2.5英寸)7869:3.212.87663.6:4.962.5iiXXJordan zXXLobo z Jordan的身高高于平均數(shù)3.21個(gè)標(biāo)準(zhǔn)差,而Lobo的身高高于平均數(shù)4.96個(gè)標(biāo)準(zhǔn)差。(2)經(jīng)驗(yàn)法則 經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí) 約有68%的數(shù)據(jù)在均值加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) 約有95%的數(shù)據(jù)在均值加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) 約有99%的數(shù)據(jù)在均值加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) (4.15)(3)切比雪夫不等式(Chebyshev inequality )對(duì)于k=2,3,4,該不等式的含義是 至少有75%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) 至少有89%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)
31、準(zhǔn)差的范圍之內(nèi) 至少有94%的數(shù)據(jù)在平均數(shù)加減4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) 1)如果一組數(shù)據(jù)不是對(duì)稱分布,經(jīng)驗(yàn)法則就不再使用,這時(shí)可使用切比雪夫不等式,它對(duì)任何分布形狀的數(shù)據(jù)都適用 2)切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少” 3)對(duì)于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有 (1-1/ ) 的數(shù)據(jù)落在k個(gè)標(biāo)準(zhǔn)差之內(nèi)。其中k是大于1的任意值,但不一定是整數(shù)2K4.2.4 相對(duì)離散程度:離散系數(shù) 方差或標(biāo)準(zhǔn)差都反映了數(shù)據(jù)分散程度的絕對(duì)值,而影響方差或標(biāo)準(zhǔn)差數(shù)值大小有2個(gè)方面的原因:(1)與這組數(shù)據(jù)的平均數(shù)大小有關(guān)(2)與這組數(shù)據(jù)的計(jì)量單位有關(guān)例:設(shè)一組數(shù)據(jù)為1,2,3(n =
32、3),則 .而另一組數(shù)據(jù)為100,200,300 ( n = 3 ) ,則 .從而對(duì)于不同平均水平或不同計(jì)量單位的兩組數(shù)據(jù),不能通過直接比較方差或標(biāo)準(zhǔn)差來表明數(shù)據(jù)離散程度的大小. 為消除平均水平與計(jì)量單位的影響,需要計(jì)算離散系數(shù)1,2sx100,200sxxsvs(4.20)例4.14表4-5某管理局所屬8家企業(yè)的產(chǎn)品銷售數(shù)據(jù) 某管理局抽查了8家企業(yè),其產(chǎn)品銷售數(shù)據(jù)見表4-5.試比較產(chǎn)品銷售額與銷售利潤的離散程度.1x2x例4.14的解 710. 05125.3209.23,09.23,5124.32577. 025.53619.309,19.309,25.536222111vsxvsx 解:
33、由于銷售額與利潤額的平均數(shù)大小不同,不能直接按標(biāo)準(zhǔn)差進(jìn)行比較,需計(jì)算離散系數(shù). 根據(jù)表4-5數(shù)據(jù),得由于 ,說明銷售額的離散程度小于銷售利潤的離散程度.12vv 數(shù)據(jù)類型與離散程度測度值數(shù)據(jù)類型和所適用的離散程度測度數(shù)據(jù)類型和所適用的離散程度測度值值數(shù)據(jù)類型數(shù)據(jù)類型分類數(shù)據(jù)分類數(shù)據(jù) 順序數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)數(shù)值型數(shù)據(jù)適適用用的的測測度度值值異眾比率異眾比率四分位差四分位差 方差或標(biāo)準(zhǔn)差方差或標(biāo)準(zhǔn)差 異眾比率異眾比率 離散系數(shù)(比較時(shí)用)離散系數(shù)(比較時(shí)用) 平均差平均差 極差極差 四分位差四分位差 異眾比率異眾比率4.3 偏態(tài)與峰態(tài)的測度偏態(tài)與峰度是對(duì)數(shù)據(jù)分布形狀的測度扁平分布尖峰分布偏態(tài)峰
34、態(tài)左偏分布右偏分布與標(biāo)準(zhǔn)正態(tài)分布比較!4.3.1 偏態(tài)及其測度(1)未分組樣本數(shù)據(jù)的偏態(tài)系數(shù)偏態(tài)(skewness)是對(duì)分布的偏斜方向和偏斜程度的測度. 設(shè)一組數(shù)據(jù) ,則偏態(tài)系數(shù)(skewness coefficient)的計(jì)算公式為 (4.21)nxxx,21niixxsnnnSK133)()2)(1(2)分組樣本數(shù)據(jù)的偏態(tài)系數(shù) 設(shè)一組數(shù)據(jù) 分為 k 組,各組的組中值和組頻數(shù)分別為 . 則偏態(tài)系數(shù)的計(jì)算公式為(4.22)kifMii, 2, 1, ),(kiiifxMnsSK133)(1(1) ,為對(duì)稱分布.0SK(2) ,為右偏分布.0SK(3) ,為左偏分布.0SK(4) 越大,則偏斜程度就越大.SKnxxx,21例4.15 某
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025合同法工作時(shí)間的規(guī)定
- 安全生產(chǎn)工作計(jì)劃10篇
- 2025年大學(xué)食堂承包合同
- 醫(yī)院健康教育科職責(zé)
- 家電行業(yè)智能化升級(jí)與用戶體驗(yàn)方案
- 體態(tài)智能評(píng)估解讀課件
- 醫(yī)療行業(yè)健康數(shù)據(jù)分析與應(yīng)用平臺(tái)建設(shè)方案
- 在線平臺(tái)訂單處理情況統(tǒng)計(jì)表
- 2025原油長期供應(yīng)協(xié)議(直接提取合同)
- 2025貸款擔(dān)保合同:個(gè)人借款合同范本
- 高中英語 選必二 Unit3 Times change 第4課時(shí)-developing ideas- Emojis a new language 課件
- 機(jī)動(dòng)車檢測站突發(fā)環(huán)境污染事件應(yīng)急預(yù)案
- 經(jīng)典案例分析單軌吊車培訓(xùn)
- 多發(fā)軟組織損傷疾患臨床路徑
- T∕CIS 71001-2021 化工安全儀表系統(tǒng)安全要求規(guī)格書編制導(dǎo)則
- 福利院裝修改造工程施工組織設(shè)計(jì)(225頁)
- 凝灰?guī)r的簡介及應(yīng)用
- 華師大版九年級(jí)下冊(cè)數(shù)學(xué)全冊(cè)教案
- 預(yù)制梁質(zhì)量控制要點(diǎn)及注意事項(xiàng)手冊(cè)
- 中國電信SMGP協(xié)議V
- 【真題】2018年陜西省中考英語試題及答案
評(píng)論
0/150
提交評(píng)論