集中、離中、偏態(tài)與峰態(tài)_第1頁
集中、離中、偏態(tài)與峰態(tài)_第2頁
集中、離中、偏態(tài)與峰態(tài)_第3頁
集中、離中、偏態(tài)與峰態(tài)_第4頁
集中、離中、偏態(tài)與峰態(tài)_第5頁
已閱讀5頁,還剩110頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據的集中趨勢、分散趨勢、偏度與峰度數據的概括性度量p2.2分布集中趨勢的測度p2.3分布離散程度的測度p2.4

分布偏態(tài)與峰度的測度數據分布的特征集中趨勢(位置)離中趨勢(分散程度)偏態(tài)和峰態(tài)(形狀)集中趨勢的度量p分類數據:眾數p順序數據:中位數p數值型數據:平均數p眾數、中位數和平均數比較集中趨勢(centraltendency)1.

一組數據向其中心值靠攏的傾向和程度2.

測度集中趨勢就是尋找數據一般水平的代表值/中心值3.

不同類型的數據用不同的集中趨勢測度值4.

低層次數據的測度值適用于高層次的測量數據,但高層次數據的測度值并不適用于低層次的測量數據分類數據:眾數眾數(mode)1.

一組數據中出現次數最多的變量值2.

分布最高峰點所對應的數值即眾數3.

一種位置代表值,不受極端值的影響,應用場合有限,4.

一組數據可能沒有眾數或有幾個眾數5.

主要用于分類數據,也可用于順序數據和數值型數據眾數(不惟一性)無眾數原始數據:

10

5

9

12

6

8一個眾數原始數據:

6

5

9

8

5

5多于一個眾數原始數據:

25

28

28

36

42

42分類數據的眾數(例題分析)解:這里的變量為“飲不同品牌飲料的頻數分布料品牌”,這是個分類變量,不同類型的飲料就是變量值百分比(%)飲料品牌頻數

比例可口可樂旭日升冰茶

11150.300.220.180.120.183022181218所調查的50人中,購買可口可樂的人數最多,為15人,占被調查總人數的30%,因此眾數為“可口可樂”這一品牌,即百事可樂匯源果汁露露969合計501100M

=可口可樂o順序數據的眾數(例題分析)甲城市家庭對住房狀況評價的頻數分布

解:這里的數據為順序數據。變量為“回答類別”甲城市回答類別戶數

(戶)

百分比

(%)甲城市中對住房非常不滿意不滿意一般2410893836311510表示不滿意的戶數最多,為108戶,因此眾數為“不滿意”這一類別,即滿意45非常滿意30M

=不滿意o合計300100.0統(tǒng)計函數—MODE數值型數據的眾數(步驟)p

下限公式:p

上限公式:數值型數據的眾數(例題分析)月工資

人數350元以下

10350-450

50450-550

120550-650

180650-750

40750以上

30合計430順序數據:中位數和分位數中位數(median)1.

排序后處于中間位置上的數據50%50%Me1,4,7,11,13(113)1,4,7,11,13,192.

不受極端值的影響,具有穩(wěn)?。ǚ€(wěn)定)性特點3.

主要用于順序數據,也可用數值型數據,但不能用于分類數據中位數(未分組資料)位置確定數值確定數值型數據的中位數(9個數據的算例)p

【例】

9個家庭的人均月收入數據p

原始數據:

1500

750

780

1080

850

960

2000

1250

1630p

序:

750

780

850

960

1080

125015001630

2000p

置:

1

2

3

4

5

6

7

8

9中位數

1080數值型數據的中位數(10個數據的算例)p

【例】:10個家庭的人均月收入數據p

序:

660750

780

850

960

1080

125015001630

2000p

置:

1

2

3

4

5

6

7

8

9

10統(tǒng)計函數—MEDIAN順序數據的中位數(例題分析)甲城市家庭對住房狀況評價的頻數分布

解:中位數的位置為甲城市(300+1)/2=150.5回答類別戶數

(戶)

累計頻數從累計頻數看,中位數在“一般”這一組別中非常不滿意不滿意一般241089324132225270300中位數為滿意45M

=一般非常滿意30e合計300—數值型數據的中位數數值型數據的中位數(例題分析)月工資

人數

向上

向下

中位數位置:p累積

累積350元以下

10

10

430350-450

50

60

420450-550

120

180

370550-650

180

360

250650-750

40

400

70750以上

30

430

30合計430

--

-中位數的性質p

如果數據大量重復某一數值,此時中位數未必準確,在解釋時要特別小心p

各變量值與中位數的離差絕對值之和最小,即四分位數(quartile)1.

排序后處于25%和75%位置上的值25%

25%

25%

25%QLQMQU2.

不受極端值的影響3.

主要用于順序數據,也可用于數值型數據,但不能用于分類數據四分位數(位置的確定)方法1:定義算法方法2:較準確算法四分位數(位置的確定)p

方法3:ppp其中[

]表示中位數的位置取整。這樣計算出的四分位數的位置,要么是整數,要么在兩個數之間0.5的位置上p

方法4:

Excel給出的四分位數位置的確定方法pp如果位置不是整數,則按比例分攤位置兩側數值的差值順序數據的四分位數(例題分析)甲城市家庭對住房狀況評價的頻數分布解:Q

位置=(300)/4=75L甲城市Q

位置=(3×300)/4回答類別U戶數

(戶)

累計頻數=225從累計頻數看,Q

在“不非常不滿意不滿意一般241089324132225270300L滿意”這一組別中;Q

在U“一般”這一組別中四分位數為滿意45非常滿意30Q

=不滿意L合計300—Q

=一般U數值型數據的四分位數(9個數據的算例)p

【例】:9個家庭的人均月收入數據(4種方法計算)p

原始數據:

1500

750

780

1080

850

960

2000

1250

1630p

序:

750

780

850

960

1080

1250

1500

1630

2000p

置:

1

2

3

4

5

6

7

8

9方法1數值型數據的四分位數(9個數據的算例)p

【例】:9個家庭的人均月收入數據p

原始數據:

1500

750

780

1080

850

960

2000

1250

1630p

序:

750

780

850

960

1080

1250

1500

1630

2000p

置:

1

2

3

4

5

6

7

8

9方法2數值型數據的四分位數(9個數據的算例)p【例】:9個家庭的人均月收入數據p原始數據:

1500

750

780

1080

850

960

2000

1250

1630p排

序:

750

780

850

960

1080

1250

1500

1630

2000p位

置:

1

2

3

4

5

6

7

8

9方法3數值型數據的四分位數(9個數據的算例)p

【例】:9個家庭的人均月收入數據p

原始數據:

1500

750

780

1080

850

960

2000

1250

1630p

序:

750

780

850

960

1080

1250

1500

1630

2000p

置:

1

2

3

4

5

6

7

8

9方法4統(tǒng)計函數—QUARTILE數值型數據:平均數算術平均數(mean)1.

也稱為均值2.

集中趨勢的最常用、最重要的測度值3.

分子分母必須屬于同一總體5.

易受極端值的影響6.

有簡單平均數和加權平均數之分x/demos/average簡單算術平均數(Simplemean)設一組數據為:x

,x

,…,x

(總體數據x

)12nN簡單算術平均數(未分組資料)例:設有一組大學生的月生活費支出為:150,200,240,300,350,500(單位:元)。則平均月生活費支出=150+200+240+300+350+500=290加權平均數例:有一班級的大學生月生活費支出如下表:月生活費(元)x

人數(人)f

頻率(%)150355.368.93200240712.5042.8528.571.7930024161350500合

計56100.00則平均生活費支出?=(150*3+200*5+240*7+300*24+350*16+500*1)/56=293.39(為什么由分組資料計算平均指標不能將各組的標志值簡單平均?)加權平均數(Weightedmean)設各組的標志值為:x

,x

,…,x12kk相應的頻數為:

f

,

f

,…,f12加權平均加權平均數(權數對均值的影響)p

甲乙兩組各有10名學生,考試成績及其分布數據如下0

20

1008pp甲組:

考試成績(x):人數分布(f):1

10

20

1001pp乙組:

考試成績(x):人數分布(f):8

1統(tǒng)計函數—AVERAGE加權平均數(權數對均值的影響)p

平均數的大小不僅取決于各組標志值x的大小,同時還受各組次數f多少的影響。p各組標志值次數的多少在平均數的計算中具有權衡輕重的作用,因而把各組的次數又稱為權數,用各組的次數去乘以各組的標志值,就是對各組的標志值進行加權。所以,用這種方法計算的算術平均數,稱為加權算術平均數。p如果各組次數完全相同,結果會怎樣?加權平均數(權數為相對數)p實務中給定的權數資料,既可以是絕對數,也可以是相對數,即頻率或稱權數系數。p月生活費(元)

人數(%)p150200240300350500合

計5.368.93p12.5042.8528.571.79100.00加權平均數(組距數列)設各組的組中值為:M

,M

,…,M12k相應的頻數為:

f

,

f

,…,f12k加權平均加權平均數(例題分析)某公司售量數分表按售量分(M

)數(f

)M

fiii

i140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549580139526404725370033152050172090016272017108451175合—12022200組中值p用組中值代表各組實際數據p假定u各組數據在組中均勻分布u各數據與組中值的誤差可以相互抵消平均數(數學性質)1.各變量值與平均數的離差之和等于零2.

各變量值與平均數的離差平方和最小3.

均值是統(tǒng)計分布的均衡點中位數和平均數數學性質的驗證幾何平均數(geometric

mean)1.

n

個變量值乘積的n

次方根2.

適用于對比率數據的平均3.

主要用于計算平均增長率、平均發(fā)展速度4.

計算公式為5.可看作是平均數的一種變形幾何平均數(例題)表2.13

我國1998-2002年的gdp年份

1998

1999

2000

2001

2002GDP

78345.2

82067.5

89468.1

97314.8

104790.6表2.14

我國1998-2002年的gdp發(fā)展速度年份1999

2000

2001

2002GDP發(fā)展速度

104.75

709.02

108.77

107.68幾何平均數(例題分析)p

某水泥生產企業(yè)1999

年的水泥產量為100萬噸,2000年與1999年相比增長率為9%,2001年與2000年相比增長率為16%,2002年與2001年相比增長率為20%。求各年的年平均增長率年平均增長率=114.91%-1=14.91%幾何平均數(例題分析)p

【例】一位投資者購持有一種股票,在2000、2001、2002和2003年收益率分別為4.5%、2.1%、25.5%、1.9%。計算該投資者在這四年內的平均收益率幾何平均:??算術平均:統(tǒng)計函數—GEOMEAN切尾均值(trimmedMean)1.

去掉大小兩端的若干數值后計算中間數據的均值2.

在電視大獎賽、體育比賽及需要人們進行綜合評價的比賽項目中已得到廣泛應用3.

計算公式為n表示觀察值的個數;α表示切尾系數,切尾均值(例題分析)【例】謀次比賽共有11名評委,對某位歌手的給分分別是:經整理得到順序統(tǒng)計量值為去掉一個最高分和一個最低分,取1/11切尾均值(trimmedmean)pα=0,切尾均值就是算數平均數pα≈1/2,切尾均值就是中位數p改變α的值可以選擇集中趨勢的測度值p切尾均值是結合了均值利用數據信息充分和中位數不受極端值影響的兩個有點而形成的新型統(tǒng)計量眾數、中位數和均值的關系眾數、中位數和平均數的關系均值

中位數

眾數均值

=

中位數

=

眾數眾數

中位數

均值左偏分布對稱分布右偏分布眾數、中位數和平均數的關系p取決于次數分布狀況p對稱分布時,中位數、眾數和算術平均數合而為一,即:

M

=M

=Xe0p在非對稱分布的情況下,中位數、眾數和算術平均數之間存在一定的差別。p右偏,則三者之間的關系是:

M

M

X;0ep左偏,則三者之間的關系是:M

M

X。0ep無論是右偏還是左偏,中位數總是介于算術平均數和眾數之間。眾數、中位數和平均數的關系n

適度偏態(tài)時,X-Me的距離是X-M0的1/3。n

如果X-Me>0,說明右偏n

如果X-Me<0,說明左偏n

如果X-Me較大,說明偏態(tài)較嚴重,反之,較輕眾數、中位數、平均數的特點和應用1.

眾數u

優(yōu)點:不受極端值影響u

缺點:具有不惟一性u

偏態(tài)分布且有明顯峰值時應用比均值好2.

中位數u

優(yōu)點:不受極端值影響u

數據偏態(tài)分布時應用比均值好3.

平均數u

優(yōu)點:數學性質優(yōu)良u

缺點:易受極端值影響u

數據對稱分布或接近對稱分布時應用數據類型與集中趨勢測度值數據類型分類數據※眾數順序數據※中位數眾數數值型數據※平均數眾數適用的測度值中位數分布離散程度的測度p集中趨勢只是數據分布的一個特征,它所反映的是總體各單位變量值向其中心值聚集的程度。而各變量值之間的離散和差異狀況如何,均值的代表性有多大,這就需要用離中程度對其進行考察。案例1p[案例]有兩組男生身高分別為:p

甲組(cm):168,172,172,173,175,190p

乙組(cm):168,172,175,175,178,182p兩組平均身高均為175cm,它們的代表性一樣嗎?案例2p[案例]有男、女兩組身高:p

男組(cm):168,172,172,173,175,190p

女組(cm):163,164,165,165,167,171p

男組平均身高175cm;p

女組平均身高165.83cm。p

思考:兩組平均身高的代表性如何評價?離散程度1.

數據分布的另一個重要特征2.

反映各變量值遠離其中心值的程度(離散程度)3.

從另一個側面說明了集中趨勢測度值的代表程度4.

變量值變異大,離散程度就大,均值的代表性就小。反之亦然。離散程度p分類數據:異眾比率p順序數據:四分位差p數值型數據:方差和標準差p相對位置度量:離散系數異眾比率(variation

ratio)1.對分類數據離散程度的測度2.非眾數組的頻數占總頻數的比例3.計算公式為4.

用于衡量眾數的代表性異眾比率(例題分析)解:不同品牌飲料的頻數分布百分比(%)飲料品牌

頻數

比例可口可樂15

0.3030旭日升冰茶

11

0.22

22在所調查的50人當中,購買其他品牌飲料的人數占70%,異眾比率比較大。因此,用“可口可樂”代表消費者購買飲料品牌的狀況,其代表性不是很好百事可樂匯源果汁露露9

0.186

0.129

0.18181218合計501100內距(inter-quartilerange,IQR)p也稱四分位差,是兩個四分位數之差p內距=上四分位數-下四分位數=Q3-Q1p極差容易受極端值影響,內距基本不受極端值影響p內距反映的是中間50%數值大小的差異,四分位差(例題分析)甲城市家庭對住房狀況評價的頻數分布解:設非常不滿意為1,

不滿意為

2,

一般為3,

滿意為

4,

非常滿意為5

。已知甲城市回答類別戶數

(戶)

累計頻數非常不滿意不滿意一般241089324132225270300Q

=不滿意=2LQ

=一般=3U滿意四分位差為45非常滿意30Q

=Q

-

QdUL合計300—=3

2

=1極差(range)1.

又稱全距。一組數據的最大值與最小值之差2.

離散程度的最簡單測度值3.

易受極端值影響4.

未考慮數據的分布5.

計算公式為R

=max(x)-min(x)ii平均差(meandeviation)1.

各變量值與其平均數離差絕對值的平均數2.

能全面反映一組數據的離散程度3.

數學性質較差,實際中應用較少4.

計算公式為未分組數據組距分組數據平均差(例題分析)某電腦公司銷售量數據平均差計算表按銷售量分組組中值(Mi)頻數(fi)140~150150

~

160160

~

170170

~

180180

~

190190

~

200200

~

210210

~

220220

~

230230

~

24014515516517518519520521522523549403020100160270320270016272017108102030405017020024016025045合計—120—2040平均差(例題分析)含義:每一天的銷售量同平均數相比,平均相差17臺統(tǒng)計函數—AVEDEV方差和標準差(variance

and

standard

deviation)1.

數據離散程度的最常用測度值2.

反映了各變量值與均值的平均差異3.

根據總體數據計算的,稱為總體方差或標準差,記為2();根據樣本數據計算的,(s)稱為樣本方差或標準差,記為s2標準差與平均差n標準差與平均差雖都是變量值與均值的平均離差,但不同的是平均差所平均的是,而標準差平均的是。n標準差徹底解決了正負離差不能相加的問題。它在抽樣調查、相關分析中應用較多,所以標準差是應用較為廣泛的一種離中趨勢的測度值??傮w方差和標準差(PopulationvarianceandStandarddeviation)方差的計算公式標準差的計算公式p

未分組數據未分組數據組距分組數據組距分組數據樣本方差和標準差(simplevarianceandstandarddeviation)方差的計算公式標準差的計算公式p

未分組數據未分組數據注意:樣本方差用自由度n-1去除!組距分組數據組距分組數據自由度(degreeoffreedom)1.

自由度是指附加給獨立的觀測值的約束或限制的個數2.

從字面涵義來看,自由度是指一組數據中可以自由取值的個數3.

當樣本數據的個數為n時,若樣本平均數確定后,則附加給n個觀測值的約束個數就是1個,因此只有n-1個數據可以自由取值,其中必有一個數據不能自由取值4.

按著這一邏輯,如果對n個觀測值附加的約束個數為k個,自由度則為n-k自由度(degreeoffreedom)1.

本有

3

個數值,即

x

=2

,

x

=4

x

=9123當

x

=

5

確定后,x

,x

和x

有兩個數據可以自由取123值,另一個則不能自由取值,比如x

=6,x

=7,那么x3則必然取2,而不能取其他值122.

為什么樣本方差的自由度是n-1呢?因為在計算離差平方和時,必須先求出樣本均值

x

,

x

則是給離差平方和的一個約束,因此,計算離差平方和時只有n-1個獨立的觀測值,而不是n個3.

樣本方差用自由度去除,其原因可從多方面解釋,從實際應用角度看,在抽樣估計中,當用樣本方差s去估計總體方差σ

時,它是σ

的無偏估計量222樣本標準差(例題分析)某電腦公司銷售量數據平均差計算表按銷售量分組組中值(Mi)頻數(fi)140~150150

~

160160

~170170

~180180

~

190190

~

200200

~

210210

~220220

~230230

~24014515516517518519520521522523549403020100160270320270016272017108102030405017020024016025045合計—120—55400樣本標準差(例題分析)含義:每一天的銷售量與平均數相比,平均相差21.58臺統(tǒng)計函數—STDEV方差的數學性質p變量的方差等于變量平方的平均數減去變量平均數的平方

。p變量對算術平均數的方差,小于對任意常數的方差。相對離散程度p平均差和標準差其數值大小,不僅決定于各標志值的差異程度,還決定于數列平均水平的高低,同時它們具有與標志值相同的名數。p對于具有不同平均水平和不同計量單位的數列,就不能直接利用標準差等來比較其標志變動程度的大小,而需要用變異系數,以消除不同數列水平的影響。離散系數(coefficientofvariation)1.又稱變異系數。標準差(或平均差)與其相應的均值之比2.

對數據相對離散程度的測度3.

消除了數據水平高低和計量單位的影響4.

用于對不同組別數據離散程度的比較5.

計算公式為離散系數(例題分析)【

某管理局抽查了所屬的

8

家企業(yè),其產品銷售數據如表。試比較產品銷售額與銷售利潤的離散程度某管理局所屬8家企業(yè)的產品銷售數據產品銷售額(萬元)銷售利潤(萬元)企業(yè)編號x1x21234567817022039043048065095010008.112.518.022.026.540.064.069.0離散系數(例題分析)309.19536.2523.09v

==0.577v

==0.7101232.5215結論:

計算結果表明,

v

<

v

說明產品銷售額1的離散程度小于銷售利潤的離散程度2標準分數(standardscore)p

1.

也稱標準化值p

2.

對某一個值在一組數據中相對位置的度量p

3.

可用于判斷一組數據是否有離群點p

4.

用于對變量的標準化處理p

5.

計算公式為標準分數(性)1.

均值等于0p

2.

方差等于1標準分數(性)z分數只是將原始數據進行了線性變換,它并沒有改變一個數據在改組數據中的位置,也沒有改變該組數分布的形狀,而只是將該組數據變?yōu)榫禐?,標準差為1。p標準化值(例題分析)9個家庭人均月收入標準化值計算表家庭編號人均月收入(元)1500標準化值z1234567890.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.9967507801080850960200012501630經驗法則p

經驗法則表明:當一組數據對稱分布時p

約有68%的數據在平均數加減1個標準差的范圍之內p

約有95%的數據在平均數加減2個標準差的范圍之內p

約有99%的數據在平均數加減3個標準差的范圍之內切比雪夫不等式(Chebyshev’s

inequality

)p

對于任一隨機變量X,若EX與DX均存在,則對任意ε>0,p

恒有P{|X-EX|>=ε}<=DX/ε^2

或P{|X-EX|<ε}>=1-DX/ε^21.

如果一組數據不是對稱分布,經驗法則就不再使用,這時可使用切比雪夫不等式,它對任何分布形狀的數據都適用2.

切比雪夫不等式提供的是“下界”,也就是“所占比例至少和多少”3.

對于任意分布形態(tài)的數據,根據切比雪夫不等式,至少有1-1/k2數據落在k個標準差之內。其中k是大于1的任意值,但不一定是整數4.在任何數據集中,與平均數超過K倍標準差的數據占的比例至多是1/K^2。的切比雪夫不等式(Chebyshev’s

inequality

)p

對于k=2,3,4,該不等式的含義是1.

至少有75%的數據落在平均數加減2個標準差的范圍之內2.

至少有89%的數據落在平均數加減3個標準差的范圍之內3.

至少有94%的數據落在平均數加減4個標準差的范圍之內u若一班有36個學生,而在一次考試中,平均分是80分,標準差是10分,我們便可得出結論:少於50分(與平均相差3個標準差以上)的人,數目不多於4個(=36*1/9箱線圖(box

plot)1.

用于顯示未分組的原始數據的分布2.

由一組數據的5個特征值繪制而成,它由一個箱子和兩條線段組成3.

繪制方法u

首先找出一組數據的5個特征值,即最大值、最小值、中位數M

和兩個四分位數(下四分位數Q

和上eL四分位數QU)u

連接兩個四分位數畫出箱子,再將兩個極值點與箱子相連接u

該箱線圖也稱為Median/Quart./Range箱線圖未分組數據—單批數據箱線圖(箱線圖的構成)X

Q

中位數

Q

X最小值LU最大值4

6

8

10

12Median/Quart./Range箱線圖未分組數據—單批數據箱線圖(例題分析)下四分位數

中位數

上四分位數最小值最大值170.25182197141237140

150

160

170

180

190

200

210

220

230

240某電腦公司銷售量數據的Median/Quart./Range箱線圖分布的形狀與箱線圖中位數

QUQL

中位數

QUQ

中位數

QQLLU左偏分布對稱分布右偏分布不同分布的箱線圖未分組數據—多批數據箱線圖(例題分析)【

從某大學經濟管理專業(yè)二年級學生中隨機抽取11人,對8門主11名學生各科的考試成績數據學生編號課程名稱12

3

4

5

6

7

8

9

10

11英語76

90

97

71

70

93

86

83

78

85

8165

95

51

74

78

63

91

82

75

71

5593

81

76

88

66

79

83

92

78

86

7874

87

85

69

90

80

77

84

91

74

7068

75

70

84

73

60

76

81

88

68

7570

73

92

65

78

87

90

70

66

79

6855

91

68

73

84

81

70

69

94

62

71要課程的考試成績進行調查,

經濟數學所得結果如右

西方經濟學表。試繪制各

市場營銷學科考試成績的批比較箱線圖,財務管理基礎會計學統(tǒng)計學并分析各科考試成績的分布特征計算機應用基礎

85

78

81

95

70

67

82

72

80

81

77未分組數據—多批數據箱線圖(例題分析—Median/Quart./Range)8門課程考試成績的Median/Quart./Range箱線圖未分組數據—多批數據箱線圖(例題分析—Median/Quart./Range)105958575655545min-max25%-75%學生1學生3學生5學生7學生9學生11學生2學生4學生6學生8學生10medianvalue11名學生8門課程考試成績的Median/Quart./Range箱線圖分布偏態(tài)與峰度的測度偏態(tài)與峰態(tài)分布的形狀偏態(tài)峰態(tài)左偏分布右偏分布扁平分布尖峰分布與標準正態(tài)分布比較!偏態(tài)(skewness)1.

統(tǒng)計學家Pearson于1895年首次提出2.

數據分布偏斜方向和程度的測度3.

偏態(tài)系數的計算方式4.

皮爾遜系數法5.

動差法偏態(tài)系數—皮爾遜偏態(tài)系數法pPearson偏態(tài)系數是根據眾數、中位數與均值各自的性質,通過比較眾數或中位數與均值來衡量偏斜度的p以平均值與中位數之差對標準差之比率來衡量偏斜的程度,p偏態(tài)系數小于0,因為平均數在眾數之左,是一種左偏的分布,又稱為負偏。p偏態(tài)系數大于0,因為均值在眾數之右,是一種右偏的分布,又稱為正偏。p偏態(tài)系數的變動范圍為-3≤SK≤+3。當SK=0時,表示對稱分布;當SK=3時,表示極右偏態(tài);當SK=-3時,表示極左偏態(tài)。偏態(tài)系數—中心矩偏態(tài)測度法u

中心矩指各個變量值與平均數的離差的K次方的平均值,也稱中心動差。其計算公式為:pp

k代表中心動差的階數u

K=1,一階中心矩,mk=0u

K=2,二階中心矩,mk=方差u

K=3,三階中心矩,u

K=4,四階中心矩,偏態(tài)系數(coefficient

ofskewness)n

統(tǒng)計上常以三階中心矩作為測定偏態(tài)的一個重要指標。并且常用三階中心矩m

除以標準差的三次方σ3作為偏態(tài)3系數,以測定數據分布的相對偏斜程度。p

偏態(tài)系數:u

當分布對稱時,

α

=0;3u

當分布不對稱時,則形成了正或負的偏態(tài)系數。u

當α

>0時,說明分布為右偏,并且值越大,說明右偏斜的程度越高;3u

α

0時,說明分布為左偏,值越小,左偏程度越高。3偏態(tài)系數(例題分析)某電腦公司銷售量偏態(tài)及峰度計算表按銷售量份組(臺)

組中值(Mi)頻數fi140

~

150150

~

160160

~

170170

~

180180

~190190

~200200

~210210

~220220

~

230230

~

24014515516517518519520521522523549-256000-243000-128000-27000010240000729000025600002700000162720171081

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論