第四章數據分布特征的描述_第1頁
第四章數據分布特征的描述_第2頁
第四章數據分布特征的描述_第3頁
第四章數據分布特征的描述_第4頁
第四章數據分布特征的描述_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第四章數據分布特征的描述第1頁,共54頁,2023年,2月20日,星期三第一節(jié)

數據分布集中趨勢的測定第2頁,共54頁,2023年,2月20日,星期三一、均值/平均數/數值平均數(mean)(一)概念

是反映數據分布集中趨勢十分重要的數據,代表總體單位某一標志值的一般水平(二)特征

1.具有抽象性

2.具有代表性

3.反映總體分布的集中趨勢**舉例

1.某市中學生每周平均上網時間為2.8小時

2.某農貿市場2月份牛肉的平均價格為16元/千克

3.某地區(qū)“十五”期間經濟平均增長率為9.6%第3頁,共54頁,2023年,2月20日,星期三(三)均值的種類及計算

1.算術平均數**

(1)概念

算術平均數又稱平均值,是用一組數據中所有值之和除以該組數據的個數

(2)基本公式第4頁,共54頁,2023年,2月20日,星期三算術平均數的計算**簡單算術平均數:針對未分組資料

總體平均數

樣本平均數第5頁,共54頁,2023年,2月20日,星期三算術平均數的計算

**加權算術平均數

概念:是對每個數據都根據其在全組中的重要程度賦予一定權重后得到的算術平均數

計算公式:

未分組數據

其中:w表示各組的標志總量,而不是各組變量值出現的次數,總體和樣本加權算術平均數的公式是相同

第6頁,共54頁,2023年,2月20日,星期三

[例4-2]根據某公司四個品牌數碼相機的銷售資料計算平均利潤率表4-1四個品牌數碼相機的利潤率和銷售額資料第7頁,共54頁,2023年,2月20日,星期三所以,四個品牌數碼相機的平均銷售利潤率為

因為:

第8頁,共54頁,2023年,2月20日,星期三**加權算術平均數⑵分組的加權平均數:根據分組數據計算均值

樣本均值的計算公式:

總體均值的計算公式:表示各組的變量值(或組距式數列的組中值)表示各組變量值出現的頻數(即權數)第9頁,共54頁,2023年,2月20日,星期三

[例4-3]根據某電腦公司在各市場上銷售量的分組數據,計算電腦銷售量的均值。

按銷售量分組(臺)市場個數(fi)組中值(Mi)Mifi

140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240491627201710845145155165175185195205215225235

58013952640472537003315205017209001175合計∑fi=

120

∑Mifi

=22200第10頁,共54頁,2023年,2月20日,星期三2.調和平均數

1.問題的由來

思考題:三種蔬菜單價分別為2、3和4元/千克,(1)各買一千克平均單價是多少?(2)各買一元的平均單價是多少?

2.概念:

調和平均數又稱倒數平均數,是各個變量值倒數的算術平均數的倒數

3.計算

(1)簡單調和平均數:針對未分組資料計算公式為:算術平均調和平均第11頁,共54頁,2023年,2月20日,星期三2.調和平均數2.加權調和平均數:針對分組資料

計算公式為:

其中:

是一種特殊權數,它不是各組變量值出現的次數,表示各組標志總量即第12頁,共54頁,2023年,2月20日,星期三

[例4-4]根據某商場職工月工資資料計算月平均工資第13頁,共54頁,2023年,2月20日,星期三

課堂練習

[資料]甲乙企業(yè)職工的工資如下表:[要求]分別計算甲乙企業(yè)職工月工資額的均值第14頁,共54頁,2023年,2月20日,星期三算術平均數和調和平均數的關系****聯系——實質相同

調和平均數是算術平均數的變形,兩者的基本公式均為:**區(qū)別——適用的情況不同

當已知平均指標的分母資料、未知分子資料時,采用加權算術平均法當已知平均指標的分子資料、未知分母資料時,采用加權調和平均法第15頁,共54頁,2023年,2月20日,星期三3.幾何平均數(1)概念:幾何平均數(geometricmean)又稱對稱平均數,它是各變量值乘積的n次方根。(2)計算基本公式:

對數公式:

在實際工作中,由于變量個數較多,通常要應用對數來進行計算。即

第16頁,共54頁,2023年,2月20日,星期三(3)幾何平均數的應用及特點

**應用條件

a.變量值是相對數據,如比率或發(fā)展速度

b.變量值的連乘積等于總比率或總發(fā)展速度**特點

a.如果數列中有一個標志值等于零或負值,則無法計算

b.受極端值影響較小,故較穩(wěn)健第17頁,共54頁,2023年,2月20日,星期三

[例4-5]

某電器銷售公司2000~2005年銷售量的環(huán)比增長率分別為:7.6%、2.5%、0.6%、2.7%和2.2%。求這期間銷售量的平均增長速度?表4-4銷售量平均發(fā)展速度計算表幾何平均數的計算示例第18頁,共54頁,2023年,2月20日,星期三幾何平均數的計算示例

1.采用基本公式計算的銷售量平均發(fā)展速度為:2.采用對數公式計算的銷售量平均發(fā)展速度為:所以,銷售量的平均增長速度=103.1%-1=3.1%第19頁,共54頁,2023年,2月20日,星期三二、位置平均數(一)中位數(median)

1.概念中位數是將一組數據項按照數值大小升序或者降序排列后位于中間位置的那個數據,符號為

2.中位數的計算方法

(1)未分組數據的中位數

將變量值按升序或降序排列,找中間位置的變量值

(2)單項數列的中位數計算各組的累計頻數(向上累計或向下累計);根據中位數位置確定中位數第20頁,共54頁,2023年,2月20日,星期三

[例4-6]

計算某公司銷售人員月銷售冰箱中位數

按月銷售冰箱分組

(臺)銷售人員數(人)向上累計頻數向下累計頻數25303234363931014271883132754728080776753268合計80--中位數的位置

即中位數在累計頻數為40的那一組內(向上累計或向下累計均可得出),則

第21頁,共54頁,2023年,2月20日,星期三2.中位數的計算方法(3)組距數列的中位數:由下列公式近似計算

下限公式其中:為總體單位總數為中位數組的下限為中位數組以下的累計頻數為中位數組的頻數為中位數組的組距第22頁,共54頁,2023年,2月20日,星期三[例4-7]求以下組距數列的中位數

按家庭收入分組(元)家庭數(戶)向上累計頻率5000以下5000~1000010000~1500015000~2000020000以上214514662166808692合計92-中位數的近似值為:某地區(qū)家庭收入分組表中位數的位置在第46(92/2)位,應在第二組第23頁,共54頁,2023年,2月20日,星期三中位數的特點⑴是一種位置平均數,不受極端值及開口組的影響

⑵對于分配不對稱的數據,中位數比平均值更適合當集中趨勢的代表值⑶

對某些不具有數字特征或不能用數字測定的現象,可用中位數表示其一般水平例如,對眾多的消費者購買數碼相機時,分別對價格、外觀、品質的注重程度排序后,可以求出消費者在乎的中位數因素

第24頁,共54頁,2023年,2月20日,星期三二、位置平均數(二)眾數(mode)

1.概念

眾數(mode)是指在一組數中出現次數最多的那個數值,符號為

2.數據數列的眾數分布情況

無眾數如數據數列:13791268

一個眾數如數據數列:659866

多個眾數如數據數列:223527352736第25頁,共54頁,2023年,2月20日,星期三3.眾數的計算方法**品質變量的眾數——觀察次數,出現次數最多的變量值就是眾數

例如:企業(yè)的所有制結構分布、人口的城鄉(xiāng)分布**數值變量的眾數未分組資料——觀察次數,出現次數最多的數據就是眾數分組資料(1)單項式數列——直接觀察,次數最多的組的變量值即為眾數

第26頁,共54頁,2023年,2月20日,星期三[例4-8]單項式變量數列確定眾數實例

某市居民家庭按家庭人口數分組

由上表可以看出,家庭人口數為3人的家庭數最多,因此本例中家庭人口數的眾數為3人

第27頁,共54頁,2023年,2月20日,星期三3.眾數的計算方法

組距數列計算眾數:由下列公式近似計算

下限公式其中:為眾數組與前一組頻數之差為眾數組的下限為眾數組與后一組頻數之差為眾數組的組距·第28頁,共54頁,2023年,2月20日,星期三[例4-10]組距式數列計算眾數示例收入組別人均收入(元)頻數(人)1234562000元以下2000~4000元4000~6000元6000~8000元8000~10000元10000以上234368322410合計-200其眾數的近似值為:某地區(qū)的人均月收入調查數據表第29頁,共54頁,2023年,2月20日,星期三三、均值、中位數和眾數的比較(一)均值、中位數和眾數的數量關系

1.當數據呈對稱分布的,三者合而為一,如圖(a)

2.當數據呈左偏分布時,說明數據存在極小值,必然拉動均值向極小值一方靠,則從左至右依次是均值、中位數和眾數,如圖(b)

3.當數據呈右偏分布時,說明數據存在極大值,必然拉動均值向極大值一方靠,則從左至右依次是眾數、中位數和均值,如圖(c)

第30頁,共54頁,2023年,2月20日,星期三均值、中位數和眾數的數量關系

1.當數據呈對稱分布的,三者合而為一

第31頁,共54頁,2023年,2月20日,星期三均值、中位數和眾數的數量關系

2.當數據呈左偏分布時,從左至右依次是均值、中位數和眾數

第32頁,共54頁,2023年,2月20日,星期三均值、中位數和眾數的數量關系

3.當數據呈右偏分布時,從左至右依次是眾數、中位數和均值,如圖c

第33頁,共54頁,2023年,2月20日,星期三三、均值、中位數和眾數的比較(二)均值、眾數和中位數的特點及應用場合

**均值是對數值型數據計算的,利用了全部數據信息,具有優(yōu)良的數學性質,是實際中應用最廣泛的集中趨勢測度值

**中位數是一組數據中間位置上的代表值,其特點是不受數據極端值的影響,主要適合于作為順序數據的集中趨勢測度值

**眾數是一組數據分布的峰值,它也是一種位置代表值,不受極端值的影響,主要適合于作為分類數據的集中趨勢測度值

第34頁,共54頁,2023年,2月20日,星期三第三節(jié)

數據分布離散程度的測定第35頁,共54頁,2023年,2月20日,星期三一、極差/全距(一)概念:又稱全距,是數據中最大值和最小值之差。記為(二)計算

1.未分組數據的極差為:表示數據的最大值表示數據的最小值

2.分組數據的極差

極差=最大組的上限-最小組的下限

若存在開口組,則:

最大組的上限=前一組的上限+組距最小組的下限=下一組的下限-組距其中:第36頁,共54頁,2023年,2月20日,星期三

[例4-11]對人均月收入分組如下:2000元以下、2000~4000元、……、8000~10000元、10000元以上,計算全距

[分析]:其最小組的下限為0

最大組的上限為:則全距為:極差/全距的計算示例第37頁,共54頁,2023年,2月20日,星期三(三)修正極差(modifiedrange)

1.概念:是去掉極端值后的極差,又稱四分位全距(IQR,interquartilerange),是中間50%的數據的間距,即數據分布中第25個和第75個百分位數的間距,也即第1個和第3個四分位數的間距

2.公式:

其中:Q3表示第3個四分位數,即第75個百分位數

Q1表示第1個四分位數,即第25百分位數

第38頁,共54頁,2023年,2月20日,星期三二、平均差(MAD)(一)概念:

平均差(meanabsolutedeviation)是各數據對平均數的離差絕對值的平均數

(二)樣本平均差的計算公式為:

1.未分組數據:

2.分組數據:

第39頁,共54頁,2023年,2月20日,星期三三、方差和標準差(一)概念方差(variance)是各變量值與其均值離差平方的平均數。標準差(standarddeviation)是方差的平方根,又稱“均方差”(二)比較與評價

1.其內涵與平均差相似,均為各個數據對其平均數的平均離差。但平均差采用求絕對值消除正負離差,標準差采用平方法消除正負離差,在數學處理上標準差上比平均差更為科學合理

2.方差和標準差是測度數值型數據離散程度的最主要的指標第40頁,共54頁,2023年,2月20日,星期三(三)方差和標準差的計算

1.總體方差和標準差

方差標準差未分組數據分組數據第41頁,共54頁,2023年,2月20日,星期三[例4-12]某電腦公司銷售量分組數據如下表,計算銷售量的方差和標準差

總體方差和標準差計算示例某電腦公司銷售量分組數據方差計算表第42頁,共54頁,2023年,2月20日,星期三總體方差和標準差計算示例

根據公式計算可知總體均值為:

總體方差為:

總體標準差為:

第43頁,共54頁,2023年,2月20日,星期三2.樣本方差和標準差

說明:在大多數統計應用中,都針對樣本數據來分析總體數量特征。因此通常用樣本方差來估計總體方差,用樣本標準差來估計總體標準差符號:

樣本容量用n表示樣本方差用S2表示

樣本標準差用S表示

第44頁,共54頁,2023年,2月20日,星期三(三)方差和標準差的計算

2.樣本方差和標準差

方差標準差未分組數據分組數據··第45頁,共54頁,2023年,2月20日,星期三[例4-13]

根據以下樣本數據,計算企業(yè)職工平均工資的標準差。(已知平均工資為=760元)

某企業(yè)職工工資分組數據表第46頁,共54頁,2023年,2月20日,星期三樣本方差和標準差計算示例

樣本方差為:

樣本標準差為:

第47頁,共54頁,2023年,2月20日,星期三四、離散系數/變異系數

(一)概念:離散系數(coefficientofvariation)是一組數據的離散指標的絕對數與其相應的均值之比。是離散指標的相對數形式(二)表現形式有全距系數、平均差系數和標準差系數。最常用的是標準差系數(三)計算公式總體標準差系數

樣本標準差系數第48頁,共54頁,2023年,2月20日,星期三四、離散系數/變異系數

(四)應用:用于比較不同總體數據分布的離散程度[例題4-13]

甲乙企業(yè)職工的年均收入分別為20000元和50000元,收入的標準差分別為3000元和5000元,問哪家企業(yè)職工

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論