描述統(tǒng)計中的測度_第1頁
描述統(tǒng)計中的測度_第2頁
描述統(tǒng)計中的測度_第3頁
描述統(tǒng)計中的測度_第4頁
描述統(tǒng)計中的測度_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1,3 統(tǒng)計數據的測度,表示統(tǒng)計資料的特征數有哪些? 集中趨勢:對頻數分布資料的集中狀況和平均水平的綜合測度,集中性和共性。 離中趨勢:對頻數分布資料的差異程度和離散程度的測度,用來衡量穩(wěn)定性和均勻性。,2,第一節(jié) 集中趨勢的描述,集中趨勢,集中趨勢(central tendency),亦稱為趨中性。是指一組數據向某一中心值靠攏的程度,它反映了一組數據中心點的位置所在。或者說各觀察值有一種向中心集中的趨勢,在中心附近的觀察值數目較多,遠離中心的較少。一般用平均指標來表示。,一、集中趨勢與平均指標,3,第一節(jié) 集中趨勢的描述,一、集中趨勢與平均指標,將變量的各變量值差異抽象化,以反映變量值一般水

2、平或平均水平的指標。其數值表現稱為平均數。,平均指標(Average Indicators),先進水平,一般水平,落后水平,一條平均深度只有0.5米的河,你可以安全走著過河嗎?,4,1.平均指標的種類,從總體各單位變量值中抽象出具有一般水平的量,這個量是根據各個單位的具體標志值計算出來的,有算術平均數、調和平均數、幾何平均數等形式。,先將總體各單位的變量值按一定順序排列,然后取某一位置的變量值來反映總體各單位的一般水平。具體標志值是確定出來的。有眾數、中位數、四分位數等形式。,計算方法不同,5,二、數值平均數,引例 某班6個學生的年齡(X)為:16,21,22,23,18,17 現求該6個學生

3、的平均年齡?,如果已知36個學生的年齡,會算嗎?,6,2.平均指標的作用,利用平均指標可對不同空間的發(fā)展水平進行比較,可以對某一現象總體在不同時間上的發(fā)展水平進行比較,說明現象發(fā)展變化的趨勢或規(guī)律性,幫助人們對研究 現象的一般數量特征有一個客觀的認識,利用平均指標可以分析現象之間的依存關系或進行數量上的推算,平均指標還可以作為研究和評價事物的一種數量標準或參考,7,引例 某班36個學生的年齡(X)分布如下表: 年齡 21 20 19 18 17 人數 5 6 18 4 3 ,現求該班的平均年齡? 解:,8,二、數值平均數,(一)算術平均數(Arithmetic Average),算術平均數稱為

4、均值,是觀察值的總和除以觀察值個數的商,1.概念,2.分類,簡單算術平均數,加權算術平均數,9,例3.1: 中國統(tǒng)計年鑒2008資料顯示,2007年我國各省份(直轄市)創(chuàng)造的GDP(以當年價格計算,單位:億元)如表所示,計算各省份(直轄市)GDP的平均規(guī)模。,10,簡單算術平均數的公式往往用于未經分組整理的原始數據,11,例3.3:設某廠職工按日產量分組后所得組距數列如下所示,據此求該廠職工的平均日產量。,12,加權算術平均數公式往往用于分過組經過整理的數據,13,權數轉換,14,(2)算術平均數的大小,取決于研究對象的變量值(x)和各變量值重復出現的頻數(f)或頻率 (fifi)大小的影響。

5、,3.注意點,(3)權數的表現形式,(1)簡單算術平均數和加權算數平均數的關系,15, 變量值與其算術平均數的離差之和衡等于零, 即: 變量值與其算術平均數的離差平方和為最小, 即:,算術平均數的主要數學性質,16,離差的概念,-1,-1,-2,1,3,0,17,5.算術平均數的優(yōu)缺點,優(yōu)點 (1)可用于推算總體標志總量 (2)代表性強,在抽樣中具有良好的穩(wěn)定性和可靠性 (3)可以進行代數運算,缺點 (1)當總體中個別單位標志值特別大或特別小時,會導致算術平均數偏大或偏小 (2) 當組距數列有開口組時,組中值有較大假定性,18,鏈接例子1: F1比賽時,A車手第一圈時速300公里,第二圈時速3

6、40公里,B車手第一圈時速320公里,第二圈時速318。請問:只賽兩圈誰獲勝?,鏈接例子2,小學四年級的算術題: 一輛小車以每小時80公里的速度從山下開到山頂,又以每小時100公里的速度沿原路返回到山下,問:該車的平均速度。,80km/h,100km/h,如果該車山下,山頂來回開,n次的速度分別為x1,x2,x3,xn,則平均速度就成為:,推 廣,這一計算方式被定義為“調和平均數”(H),變量值倒數的算術平均數的倒數,故又稱為“倒數平均數”,(二)調和平均數(harmonic mean ),1.簡單調和平均數,(1)作為算術平均的變形,例3.4:三種不同等級的桔子,每公斤單價分別為2元、4元、

7、5元。每種等級各買1元,則均價是多少?,定義:調和平均數是變量值倒數的算術平均數的倒數。又稱倒數平均數。調和平均通常是作為算術平均數的變形來使用的。但一些特殊的領域,如綜合評價,調和平均卻是一種獨立的統(tǒng)計平均數,有著特定的應用價值。,例3.4等價于:三種等級的桔子單價分別為2元/公斤、4元/公斤、5元/公斤,分別購買0.5公斤、0.25公斤、0.2公斤,要求計算平均價格。,適用于總體資料未經分組整理、尚為原始資料的情況,2.加權調和平均數,例3.7:法拉利隊的車王邁克爾舒馬赫在2004年9月初的一次試車中(F2004),以每小時320公里的速度開了52圈,以每小時345公里的速度開了35圈,而

8、隊友巴里切羅以每小時322公里的速度開了45圈,以每小時337公里的速度開了42圈,求兩人各自的平均車速。,例3.8:三種不同等級的桔子分別買5元、6元、10元,每公斤單價分別為2元、4元、5元,則平均價格是多少?,加權調和平均數的基本公式,選擇合適的xi,合適的權重mi,應該以組平均作為xi,若無,則用組中值近似代表,權重mi應該是具有實際意義的“各組標志總量”,適用于總體資料經過分組整理形成變量數列的情況,25,調和平均數易受極端值的影響,且受極小值的影響比受極大值的影響更大。 只要有一個變量值為零,就不能計算調和平均數。 當組距數列有開口組時,其組中值即使按相鄰組距計算了,假定性也很大,

9、這時,調和平均數的代表性就很不可靠。 調和平均數應用的范圍較小。,D.調和平均的特點,26,甲乙兩農貿市場三種農產品的價格和成交量和成交額如下: 產品 價格 甲市場成交額 乙市場成交量 (元/斤) (萬元) (萬斤) A 1.2 1.2 2 B 1.4 2.8 1 C 1.5 1.5 1 分別求兩個市場農產品的平均價格。,思考題:,27,是N項變量值連乘積的開N次方根。,幾何平均數,各個比率或速度的連乘積等于總比率或總速度; 相乘的各個比率或速度不為零或負值。,簡單幾何平均數,適用于總體資料未經分組整理 尚為原始資料的情況,式中: 為幾何平均數; 為變量值的個數; 為第 個變量值。,適用對象:

10、現象的總比率是若干項變量的乘積,或現象的總發(fā)展速度是各時期發(fā)展速度的連乘積時,計算平均比率或平均發(fā)展速度。,28,【例5】某流水生產線有前后銜接的五道工序。某日各工序產品的合格率分別為95、92、90、85、80,求整個流水生產線產品的平均合格率。,設最初投產100A個單位 ,則 第一道工序的合格品為100A0.95; 第二道工序的合格品為(100A0.95)0.92; 第五道工序的合格品為 (100A0.950.920.900.85)0.80;,因該流水線的最終合格品即為第五道工序的合格品, 故該流水線總的合格品應為 : 100A0.950.920.900.850.80;,則該流水線產品總的

11、合格率為:,29,解:,因該流水線的最終合格品即為第五道工序的合格品, 故該流水線總的合格品應為 100A0.950.920.900.850.80; 則該流水線產品總的合格率為:,即該流水線總的合格率等于各工序合格率的連乘積,符合幾何平均數的適用條件,故需采用幾何平均法計算。,30,思考,若上題中不是由五道連續(xù)作業(yè)的工序組成的流水生產線,而是五個獨立作業(yè)的車間,且各車間的合格率同前,又假定各車間的產量相等均為100件,求該企業(yè)的平均合格率。,幾何平均數的計算方法,因各車間彼此獨立作業(yè),所以有 第一車間的合格品為:1000.95; 第二車間的合格品為:1000.92; 第五車間的合格品為:100

12、0.80。 則該企業(yè)全部合格品應為各車間合格品的總和,即 總合格品=1000.95+1000.80,31,應采用加權算術平均數公式計算,即,32,據報到,成都溫江的蘭花節(jié)上,一盆蘭花賣價是1100萬元,這背后是迅速壯大的10萬戶成都養(yǎng)蘭、炒蘭戶。他們當中,不少人是在借高利貸炒蘭,圖謀暴利。專家稱,成都蘭市價格已漲到了瘋狂的境地,投資蘭花不能盲目跟風,“擊鼓傳花”式的投機最終會讓人血本無歸。,紅荷,黃金海岸,龍女,彩蝶,33,例3.13:設某炒蘭投資者從朋友處借得一筆高利貸,以季度為結算單位,每個季度生成的利息到期自動轉為本金,一年連本帶利付清。各季利率根據蘭花價格變化適當調整。實際一年下來,第

13、一季度的利率是13%,第二季度的利率是13.2%,第三季度的利率是13.6%,第四季度的利率是12.8%。問平均利率是多少?,即若借款總額為L萬元,則一年之后的付款額(本息和)為:,如果平均利率為G,則應該有:,34,2.加權幾何平均數,fi代表各個變量值出現的次數,例 3.14:投資銀行某筆投資的年利率是按復利計算的,10年的年利率分配是:第1-2年為5%,第3-5年為8%,第6-8年為10%,第9-10年為12%,求平均年利率。,35,若不按復利計算,,36,(1)受極端值的影響較算術平均數小。 (2)如果變量值有負值,計算出的幾何平均數就會成為負數或虛數。 (3)僅適用于具有等比或近似等

14、比關系的數據。 (4)其對數是各變量值對數的算術平均數。,幾何平均數特點,37,某公司所屬三個企業(yè)有關生產資料如下: (1)若三個企業(yè)生產同種產品,試計算平均合格率 (2)若三個企業(yè)生產不同產品,試計算平均合格率 (3)若三個企業(yè)為流水作業(yè)生產同一種產品,試計算平均合格率,思考題:,38,三、位置平均數,位置平均數,就是根據總體中處于特殊位置上的個別單位或部分單位的標志值來確定的代表值,它對于整個總體來說,具有非常直觀的代表性,因此,常用來反映分布的集中趨勢。,眾數,中位數,分位數,39,(一)中位數與分位數,1.中位數(Median)的含義 中位數是將數據按大小順序排列起來,形成一個數列,居

15、于數列中間位置的那個數據就是中位數。中位數用Me表示。,在一個等差數列或一個正態(tài)分布數列中,中位數就等于算術平均數。,不受極端數值的影響,在總體標志值差異很大時,具有較強的代表性。,40,2.中位數的計算,A.對于未分組的原始資料,首先必須將標志值按大小排序。設排序的結果為:,n 為奇數,n 為偶數,41,例3.15: 24名IT從業(yè)人員年薪資料表如下所示,計算該24名IT人員的中位數,排序得:,中位數的位置在(24+1)/2 = 12.5,中位數在第12個數值(49800)和第13個數值(49900)之間,即 Me = (49800+49900)/2=49850(元),42,(1)由單項數列

16、確定中位數,直接按 公式求出中位數所在組的位置,計算累計次數確定中位數所在的組,組值即是中位數。,B.由分組資料確定中位數,例3.16:下表是某車間800名工人日加工零件數分組情況,試計算該車間工人日加工零件的中位數。,43,中位數的確定,(單值數列),【例8】某企業(yè)某日工人的日產量資料如下:,計算該企業(yè)該日全部工人日產量的中位數。,44,中位數的確定,(組距數列),【例9】某車間50名工人月產量的資料如下:,計算該車間工人月產量的中位數。,45,中位數的確定,(組距數列),共 個單位,共 個單位,共 個單位,共 個單位,L,U,中位數組,組距為d,共 個單位,假定該組內的單位呈均勻分布,中位

17、數公式為,46,中位數的作用及用法,中位數一定存在; 中位數與算術平均數相近; 中位數不受極端值影響; 變量值與中位數離差絕對值之和最小。,47,中位數一定存在; 中位數與算術平均數相近; 中位數不受極端值影響; 變量值與中位數離差絕對值之和最小。,變量值34556910 中位數 5 平均值 6 與中位數離差 -2 -1 0 0 1 4 5 與平均數離差 -3 -2 -1 -1 0 3 4,絕對數值之和 13 14,中位數的作用及用法,48,(二)眾數(Mode),1.眾數的含義 眾數是指總體中出現次數最多的那個標志值。用Mo表示。它主要用于定類(品質標志)數據的集中趨勢,當然也適用于作為定序

18、(品質標志)數據以及定距和定比(數量標志)數據集中趨勢的測度值。 眾數也不受數列中極端變量值的影響,它可反映總體各單位某一標志值的集中趨勢。,49,2.眾數的計算(眾數的不唯一性),無眾數原始數據: 10 5 9 12 6 8,一個眾數原始數據: 6 5 9 8 5 5,多于一個眾 數原始數據: 25 28 28 36 42 42,眾數的計算只適用于單位數較多,且存在明顯的集中趨勢的情況,否則計算眾數是沒有意義的。,50,眾數(mode):出現次數最多即出現頻率最高的變量值。,51,身高 人數 比重 (CM) (人) (%) 150-155 3 3.61 155-160 11 13.25 16

19、0-165 34 40.96 165-170 24 28.92 170以上 11 13.25 總計 83 100,例10:某年級83名女生身高資料,眾數的確定方法,概約數:眾數所在組的組中值,在本例為162.5cm,52,【例11】已知某企業(yè)某日工人的日產量資料如下:,眾數的確定,(單值數列),計算該企業(yè)該日全部工人日產量的眾數。,53,眾數的確定,(組距數列),【例12】某車間50名工人月產量的資料如下:,計算該車間工人月產量的眾數。,54,(1)眾數不受分布數列的極大或極小值的影響。 (2)當分組數列沒有任何一組的次數占多數,而是近似于均勻分布時,則該次數分配數列無眾數。 (3)如果與眾數

20、組相比鄰的上下兩組的次數相等,則眾數組的組中值就是眾數值;如果與眾數組比鄰的上一組的次數較多,則眾數在眾數組內會偏向該組下限;如果與眾數組比鄰的下一組的次數較多,則眾數在眾數組內會偏向該組上限。 (4)缺乏敏感性。,3.眾數特點,當數據分布的集中趨勢不明顯或存在兩個以上分布中心時,不適合使用眾數(前者無眾數,后者為雙眾數或多眾數,也等于沒有眾數),55,(三)中位數、眾數和算術平均數的關系,1.在對稱分布(即正態(tài))時,對稱分布,2.在左偏分布時,左偏分布,右偏分布,3.在右偏分布時,56,五數概括法,57,首先將數據按遞增順序排列,然后很容易就能確定最小值、3個四分位數和最大值了。對12個月薪

21、數據的樣本,按照遞增順序排列如下: 2210 2255 2350 | 2380 2380 2390 | 2420 2440 2450 | 2550 2630 2825 Q12365 Q22405 Q32500 上述起薪數據以五數概括為:2210,2365,2405,2500,2825。,五數概括法,58,集中趨勢的測度,均值:一般水平代表值,數據信息提取最充分。 中位數:容易理解、很直觀,不受極端值的影響,但也因此利用數據信息不夠充分。 眾數:容易計算,但不是永遠存在,應用場合少,平均指標是一個代表性數值,它反映總體各單位某一數量標志的一般水平,而把總體各單位之間的差異抽象化了。 總體各單位之

22、間的差異是客觀存在的,這種差異也是統(tǒng)計總體的重要特征之一。,59,第二節(jié) 離中趨勢的描述,一、離中趨勢和離散指標,離中趨勢,就是變量分布中各變量值背離中心值的傾向。一般用離散指標來描述,反映變量值變動范圍和差異程度的指標,即反映變量分布中各變量值遠離中心值或代表值程度的指標,亦稱為變異指標或標志變動度指標。,離散 指標,60,全距、平均差、方差和標準差、變異系數,1.常用指標,2.離散指標作用,衡量和比較平均指標的代表性。變異指標越大,平均指標的代表性越?。蛔儺愔笜嗽叫?,平均指標的代表性越大,反映經濟活動過程的均衡性、穩(wěn)定性和節(jié)奏性,為統(tǒng)計推斷提供依據,61,集中趨勢弱、離散趨勢強,集中趨勢強

23、、離散趨勢弱,62,接吻定律 第一次接吻以后,女人會把這個吻當作一筆放出去的投資,男人卻會把它當做一筆收回來的貸款。 樂觀與悲觀定律 樂觀者發(fā)明了游艇,悲觀者發(fā)明了救生圈;樂觀者建造了高樓,悲觀者生產了救火栓;樂觀者都去做了玩命的賽車手,悲觀者卻穿起了白大褂當了醫(yī)生;最后樂觀者發(fā)射了宇宙飛船,悲觀者則開辦了保險公司。 人力定律 一個人在一分鐘內可以挖一個洞,六十個人在一秒鐘內就辦不到。 做飯定律 因為怕做飯,男人下了班也不忙著回家;因為要做飯,女人沒下班就忙著溜回家。,魔 鬼 詞 典,63,二、離散指標的測度,(一)全距,1.定義:全距(R)也稱為極差,是指總體各單位的兩個極端標志值之差。,2

24、.計算公式:,3.特點,(1)簡明 (2)只反映變異范圍 (3)只受兩個數值影響,最容易受極端值影響,最大變量值或最高組上限,或開口組假定上限,最小變量值或最低組下限,或開口組假定下限,64,R甲=100-60=40(分) R乙=82-78=4(分),例:有兩個學習小組的統(tǒng)計學成績?yōu)?第一組:60,70,80,90,100 第二組:78,79,80,81,82,兩組的統(tǒng)計成績的平均分都是80分,哪一組的分數比較集中呢?,如果用全距指標來衡量,則第一組資料的標志變動度或離中趨勢遠大于第二組資料的標志變動度。,65,例:某季度某工業(yè)公司18個工業(yè)企業(yè)產值計劃完成情況如下:,計算該公司該季度計劃完成

25、程度的全距。,相鄰組距,66, 簡單平均差適用于未分組資料,是各個數據與其算術平均數的離差絕對值的算術平均數,用A.D 表示,平均差,計算公式:,67,【例15】某售貨小組5個人,某天的銷售額分別為440元、480元、520元、600元、750元,求該售貨小組銷售額的平均差。,解:,即該售貨小組5個人銷售額的平均差為93.6元,68, 加權平均差適用于分組資料,平均差的計算公式,69,例:某廠按月收入水平分組的組距數列如表所示,計算平均差。,70,1525 65 35 15,71,平均差的特點,優(yōu)點:不易受極端數值的影響,能綜合反映全部單位標志值的實際差異程度; 缺點:用絕對值的形式消除各標志

26、值與算術平均數離差的正負值問題,不便于作數學處理和參與統(tǒng)計分析運算。 一般情況下都是通過計算標準差和方差,來反映總體內部各單位標志值的差異狀況。,72,方差與標準差,1.定義:方差是各變量與其算術平均數的離差平方的算術平均數,標準差是方差的平方根。,方差和標準差是測度數據變異程度最重要、最常用的指標。,2.計算公式,(1)總體方差和標準差,A.對于未經分組整理的原始數據,73,B.對于分過組的數據,A.對于未經分組的原始數據,(2)樣本方差和樣本標準差,B.對于分過組的數據,74,根據該行業(yè)通用法則:如果一個樣本中的14個數據項的方差大于0.005,則該機器必須關閉待修。問此時的機器是否必須關

27、閉?,例:考察一臺機器的生產能力,利用抽樣程序來檢驗生產出來的產品質量,假設搜集的數據如下:,因此,該機器工作正常。,例3.24:以下是某賽季季后賽場均得分排名榜上凱爾特人隊的格倫-戴維斯,火箭隊的姚明,黃蜂隊的克里斯-保羅最近10場球賽的得分情況,試比較誰的發(fā)揮更為穩(wěn)定。,格倫-戴維斯的發(fā)揮更為穩(wěn)定!,77,例:計算下表中某公司職工月工資的標準差。,78,解:,(比較:其工資的平均差為138.95元),即該公司職工月工資的標準差為167.9元。,79,3.方差、標準差的性質,(1)常數的方差為0,(2)若,為常數,則,80,樣本方差為什么要除以(n-1)?,請看視頻,81,反應靈敏,隨任何一

28、個數據的變化而變化; 一組數據的方差和標準差有確定的值; 適合代數計算,不僅求方差和標準差的過程中可以進行代數運算,而且可以將幾個方差和標準差綜合成一個總的方差和標準差; 用樣本數據推斷總體差異量時,方差和標準差是最好的估計量。,4.方差、標準差的特點,優(yōu)點,受數據量綱的約束,當數據間量綱不統(tǒng)一時,無法直接比較; 受數據自身水平的影響較大,當數據水平存在差異時,無法直接比較;,缺點,82,離散系數,1.定義:離散系數也稱為標準差系數,它是一組數據的標準差與其相應的均值之比,是測度數據離散程度的相對指標。,2.計算公式,V和Vs分別表示總體離散系數和樣本離散系數。離散系數用于對不同組別數據的離散程度進行比較時,離散系數大的說明該組數據的離散程度也就大,離散系數小的說明該組數據的離散程度也就小。,83,抽取一群20歲的男女生,測量了他們的體重,分別得到均值和標準差如下: 男生:女生: 男生:女生:,離散系數,女生的體重差異大, 男生的體重差異小, 男生的體重均值代表性大。,84,例:某年級一、二兩班某門課

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論