第四章 數據分布特征的測度_第1頁
第四章 數據分布特征的測度_第2頁
第四章 數據分布特征的測度_第3頁
第四章 數據分布特征的測度_第4頁
第四章 數據分布特征的測度_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第4章數據分布特征的測度4.1集中趨勢的度量4.2離散程度的度量4.3偏態(tài)與峰態(tài)的度量Statistic學習目標度量集中趨勢的統計量度量離散程度的統計量度量偏態(tài)與峰態(tài)的統計量各統計量的的特點及應用場合用Excel計算描述統計量數據分布的特征數據水平(位置)分布形狀(偏態(tài)和峰態(tài))數據差異

(分散程度)4.1集中趨勢的度量4.1.1分類數據:眾數4.1.2順序數據:中位數和分位數4.1.3數值型數據:平均數4.1.4眾數、中位數和平均數的比較集中趨勢

(centraltendency)一組數據向其中心值靠攏的傾向和程度測度集中趨勢就是尋找數據水平的代表值或中心值不同類型的數據用不同的集中趨勢測度值低層次數據的測度值適用于高層次的測量數據,但高層次數據的測度值并不適用于低層次的測量數據4.1.1分類數據:眾數

(mode)1.定義:一組數據中出現次數最多的變量值2.特征:適合于數據量較多時使用不受極端值的影響一組數據可能沒有眾數或有幾個眾數主要用于分類數據,也可用于順序數據和數值型數據分類數據的眾數

(例題分析)解:這里的變量為“飲料品牌”,這是個分類變量,不同類型的飲料就是變量值所調查的50人中,購買碳酸飲料的人數最多,為15人,占總被調查人數的30%,因此眾數為“可口可樂”這一品牌,即

Mo=碳酸飲料順序數據的眾數

(例題分析)解:這里的數據為順序數據。變量為“回答類別”甲城市中對住房表示不滿意的戶數最多,為108戶,因此眾數為“不滿意”這一類別,即Mo=不滿意眾數

(不惟一性)無眾數

原始數據:10591268一個眾數

原始數據:65

9855多于一個眾數

原始數據:252828

3642424.1.2順序數據:中位數和分位數中位數

(median)定義:排序后處于中間位置上的值Me50%50%特點:不受極端值的影響主要用于順序數據,也可用數值型數據,但不能用于分類數據各變量值與中位數的離差絕對值之和最小,即中位數

位置確定順序數據的中位數解:中位數的位置為(300+1)/2=150.5從累計頻數看,中位數在“一般”這一組別中中位數為

Me=一般數值型數據的中位數【例】

9個家庭的人均月收入數據原始數據:

15007507801080850960200012501630排序:

7507808509601080

1250150016302000位置:1234

5

6789中位數

1080

數值型數據的中位數【例】:10個家庭的人均月收入數據排序:

660

75078085096010801250150016302000位置:1234

5678910

四分位數

(quartile)定義:排序后處于25%和75%位置上的值特點:不受極端值的影響計算公式QLQMQU25%25%25%25%順序數據的四分位數

(例題分析)解:QL位置=(300)/4=75QU位置=(3×300)/4

=225從累計頻數看,QL在“不滿意”這一組別中;QU在“一般”這一組別中四分位數為QL

=不滿意

QU

=一般數值型數據的四分位數【例】:9個家庭的人均月收入數據(4種方法計算)原始數據:15007507801080850960200012501630排序:750780850960108012501500

16302000位置:123456

789

4.1.3數值型數據:平均數統計應用

一種測量的平均數比單個的測量更可靠下面是NIST的時間與正確時間的10個誤差數據(秒)長期來講,對時間的度量并沒有偏差。NIST的秒有時比BIPM的短,有時比BIPM的長,并不是都較短或較長。盡管NIST的測量很準確,但從上面的數字還是可以看出有些差異。世界上沒有百分之百可靠的度量,但用多次測量的平均數比只用一次測量的結果可靠程度會更高。這就是BIPM要結合很多原子鐘的時間的原因平均數

(mean)定義:也稱為均值,是一組數據相加后除以數據的個數而得到的結果,是集中趨勢的最常用測度值。特點:一組數據的均衡點所在易受極端值的影響有簡單平均數和加權平均數之分根據總體數據計算的,稱為平均數,記為

;根據樣本數據計算的,稱為樣本平均數,記為

x簡單平均數

(Simplemean)設一組數據為:x1,x2,…,xn平均數平均數?加權平均數

(Weightedmean)設各組的組中值為:M1,M2,…,Mk

相應的頻數為:

f1,f2,…,fk加權平均加權平均數

(例題分析)

4.1.4眾數、中位數和平均數的比較

眾數、中位數和平均數的關系左偏分布均值

中位數

眾數對稱分布

均值=中位數=

眾數右偏分布眾數

中位數均值眾數、中位數、平均數的特點和應用眾數不受極端值影響具有不惟一性數據分布偏斜程度較大且有明顯峰值時應用中位數不受極端值影響數據分布偏斜程度較大時應用平均數易受極端值影響數學性質優(yōu)良數據對稱分布或接近對稱分布時應用4.2離散程度的度量4.2.1分類數據:異眾比率4.2.2順序數據:四分位差4.2.3數值型數據:方差和標準差4.2.4相對離散程度:離散系數一則笑話如果你一只腳放在攝氏1度的水里,另一只腳放在攝氏79度的水里,平均水溫40度,你會感覺很舒服?顯然,只了解變量的集中趨勢是不夠的!甲、乙兩學生某次考試成績列表

甲、乙兩學生的平均成績?yōu)?0分,集中趨勢一樣,但是他們偏離平均數的程度卻不一樣。乙組數據的離散程度大,數據分布越分散,平均數的代表性就越差;甲組數據的離散程度小,數據分布越集中,平均數的代表性越大。例離中趨勢(離散程度)數據分布的另一個重要特征反映各變量值遠離其中心值的程度(離散程度)從另一個側面說明了集中趨勢測度值的代表程度不同類型的數據有不同的離散程度測度值分類數據:異眾比率異眾比率

(variationratio)1. 定義:非眾數組的頻數占總頻數的比例,是對分類數據離散程度的測度。2. 計算公式為3.用于衡量眾數的代表性異眾比率

(例題分析)解:

在所調查的50人當中,購買其他品牌飲料的人數占70%,異眾比率比較大。因此,用“碳酸飲料”代表消費者購買飲料品牌的狀況,其代表性不是很好順序數據:四分位差四分位差

(quartiledeviation)1.定義:對順序數據離散程度的測度,也稱為內距或四分間距,是上四分位數與下四分位數之差

Qd=QU

–QL2.特點:反映了中間50%數據的離散程度不受極端值的影響用于衡量中位數的代表性四分位差

(例題分析)解:設非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5。已知

QL

=不滿意=2

QU

=一般=3四分位差為

Qd

=QU

-

QL

=3–2

=1數值型數據:方差和標準差極差

(range)定義:一組數據的最大值與最小值之差特點:對數值型數據離散程度的最簡單測度值易受極端值影響未考慮數據的分布R

=max(xi)-min(xi)3.計算公式為平均差

(meandeviation)定義:各變量值與其平均數離差的絕對值的平均數特點:能全面反映一組數值型數據的離散程度數學性質較差,實際中應用較少3.計算公式為未分組數據組距分組數據平均差

(例題分析)平均差

(例題分析)

含義:每一天的銷售量與平均數相比,平均相差17臺

方差和標準差

(varianceandstandarddeviation)定義:各變量值與其平均數離差平方和的平均數,稱為方差,方差的平方根稱為標準差。均是數據離散程度的最常用測度值。反映了各變量值與均值的平均差異根據總體數據計算的,稱為總體方差(標準差),記為

2();根據樣本數據計算的,稱為樣本方差(標準差),記為s2(s)總體方差和標準差

(PopulationvarianceandStandarddeviation)未分組數據組距分組數據未分組數據組距分組數據方差的計算公式標準差的計算公式樣本方差和標準差

(samplevarianceandstandarddeviation)未分組數據組距分組數據未分組數據組距分組數據方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!樣本標準差

(例題分析)【例】計算計算9名員工的月工資收入的方差和標準差15007507801080850960200012501630方差標準差樣本標準差

(例題分析)樣本標準差

(例題分析)

含義:每一天的銷售量與平均數相比,平均相差21.58臺

相對位置的度量:標準分數標準分數

(standardscore)1.定義:變量值與其平均數的離差除以標準差后的值,也稱為z分數。2.特點:對某一個值在一組數據中相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論