




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
統(tǒng)學第四章 數(shù)據(jù)的描述2——重要的統(tǒng)計量第四章數(shù)據(jù)的描述2---重要的統(tǒng)計量§1集中趨勢的描述§2離散趨勢的描述§3偏態(tài)與峰度的描述§4數(shù)據(jù)的標準化處理1集中趨勢的描述集中趨勢是指一組數(shù)據(jù)向某中心值靠攏的傾向,是描述數(shù)據(jù)分布的一個重要特征。集中趨勢的測度實際是對一組數(shù)據(jù)的一般水平代表值或中心值的測度。1集中趨勢的描述§1.1均值§1.2中位數(shù)§1.3眾數(shù)§1.4均值、中位數(shù)、眾數(shù)之間的比較均值(Mean)又稱平均數(shù),是一組數(shù)據(jù)大小相互抵消的結(jié)果,可以看作是數(shù)據(jù)集的重心。是最主要的集中趨勢測度統(tǒng)計量。適用于定量變量的取值,一般用符號
x
表示。1.算術(shù)平均數(shù)分組整理的原始數(shù)據(jù),其算術(shù)平均(arithmeticmean)的計算就是直接將一組數(shù)據(jù)的各個數(shù)值相加除以數(shù)值個數(shù),稱為簡單算術(shù)平均數(shù)。1設(shè)一組樣本數(shù)據(jù)為
x
、x2、、xn
,則算術(shù)平均數(shù)的計算公式為:nx
nnx1
x2
xn
i1
xi根據(jù)分組整理的數(shù)據(jù)計算的算術(shù)平均數(shù),要以各組變量值出現(xiàn)的次數(shù)或頻數(shù)為權(quán)數(shù)計算
算術(shù)平均數(shù)。假設(shè)樣本數(shù)據(jù)被分成組,樣本數(shù)據(jù)各組變量的代表值用m1、m2、…、mk
表示,各組變量值出現(xiàn)的頻數(shù)用f1、f2、…、fk
,則
算術(shù)平均數(shù)的計算公式為:1
1
2
21kk2
km
f
m
f
m
f
k k
i1
x
f
f
fmi
fi
fii1如果是單變量分組,上式中的代表值就是各組的分組變量值;如果是組距分組,上式中的代表值就是各組的組中值。算術(shù)平均數(shù)其數(shù)值的大小,不僅受各組變量值大小的影響,而且受各組變量值出現(xiàn)的頻數(shù)即權(quán)數(shù)大小的影響。kki1
i
kik
i1
f
fii1x
xi
fi
fii1x算術(shù)平均數(shù)的數(shù)學性質(zhì):性質(zhì)1
各變量值與其算術(shù)平均數(shù)的離差之和等于零,即:性質(zhì)2
各變量值與其算術(shù)平均數(shù)的離差平方和最小,即:n(
xi
x
)
0i1或k(
xi
x
)
fi
0i1nii1(
x
x
)2
最小值
或2ki
i(
x
x
)
f
i1最小值【例4.1】根據(jù)表中給出的某項,計算其平均收入水平:中30名被訪者的月收入水平分組數(shù)據(jù)解:55x
i1
101000
3366.67
(元)30
xi
fi
fii1所以30名被訪者的平均月收入水平是3366.67元。2.調(diào)和平均數(shù)調(diào)和平均數(shù)(harmonic
mean)也稱倒數(shù)平均數(shù)或調(diào)和均值。有簡單和兩種形式。簡單調(diào)和平均數(shù)是各個變量值倒數(shù)的簡單算術(shù)平均數(shù)的倒數(shù)。主要應用于各變量值對應的標志總量相等的情況。當變量值用xi表示時,其計算公式如下:Hnnx1
x2
x1
1
1M
1
1
1當各變量值對應的標志總量不相等時,用Mi表示各單位或各組的變量值對應的標志總量,其計算公式如下:nMHMix1
x2xkxi
M
M
M
M
1
M
2 1
2n
i1
Mn
Mini1【例4.2】根據(jù)某
交易所信息,已知四只 某日的收盤價和成交額如表所示,計算這四只
的當日平均收盤價格。解:44
i1
Mix1
x2
x3
x4i1864891MH
Mi4xiM
M
M
M
7460000 1
2
31
2
3M
M
M
M
4
8.63(元)所以4只的當日平均收盤價是8.63元。3.幾何平均數(shù)幾何平均數(shù)(geometric
mean)也稱幾何均值,通常用來計算平均比率和平均速度。計算公式為:幾何平均數(shù)也可看作是算術(shù)平均數(shù)的一種變形nMG
n
x1
x2
xn
n
xii1【例4.3】某投資者長期持有一只,2005-2008年每年的收益率分別是5.6%,7.2%,28.5%,-15.6%。計算該
投資者4年內(nèi)的平均收益率。解:根據(jù)四年的平均收益率可得到其四年的相對價格分別是105.6%,107.2%,128.5%,84.4%。計算四年平均相對價格四年的平均收益率是105.26%-1=5.26%。4nn
M
x
105.6%
107.2%
128.5%
84.4%
G
ii1105.26%4.均值的特點:均值一般用于尋找定量數(shù)據(jù)的中心代表值,并不適用于定性數(shù)據(jù)。均值的優(yōu)點在于它對變量的每一個取值都加以利用。均值的缺點在于其統(tǒng)計量的穩(wěn)健性較差,即容易受到值的干擾。§1.2中位數(shù)中位數(shù)(median)是將變量取值按大小順序排列后,處于中間位置的那個變量值。適用于定量變量,以及定性變量中的順序變量取值的集中趨勢測度。不適用于定性變量中的分類變量取值。一般用Me表示。1.中位數(shù)的確定單算術(shù)平均數(shù)即為中位數(shù)。22變量的取值數(shù)據(jù)規(guī)模較小時,將數(shù)據(jù)按大小排列。當數(shù)據(jù)個數(shù)N為奇數(shù)時,處在N
1
位置上的變量取值大小即為改2組數(shù)據(jù)的中位數(shù);當數(shù)據(jù)個數(shù)N為偶數(shù)時,處在
N
和N
1
位置上兩個變量取值的簡22當N為奇數(shù)時當N為偶數(shù)時
X
N
1
Me
1
X
N
X
N
2
12
如果是單變量分組,可以該組標志值作為中位數(shù)。如果是組距分組,則采用如下公式近似計算得到計算公式下限公式:上限公式:2當變量的取值數(shù)據(jù)規(guī)模較大時,將數(shù)據(jù)按單變量分組或組距分組,得到頻數(shù)分布。對頻數(shù)分布做向上累計或向下累計:當
f
為偶數(shù)時,第
f
個變量值所在的組為中位數(shù)所在的組。2當
f
為奇數(shù)時,第
f
1
個變量值所在的組為中位數(shù)所在的組。2emM
L
f
Sm1
i
f
f2emM
U
f
Sm1
i【例4.4】給出的某項
中30名被訪者的月收入水平分組數(shù)據(jù),得到累積頻數(shù)分布表,計算其中位數(shù)。解:2
f
15L
3000fm
13U
4000i
1000Sm1
3
7
10
Sm1
2
5
7對應的收入水平是,3000-4000元,因此該組就是中位數(shù)所在組,有2em
fM
L
f
Sm1
i
(元)2emfM
f
Sm1
i
(元)因此,30名被訪者的月收入水平的中位數(shù)是3384.6元。2.根據(jù)統(tǒng)計圖來尋找中位數(shù)對于處理成莖葉圖的數(shù)據(jù):首先找到頻數(shù)一半所對應的那段莖。然后在對應的葉上找處在全部數(shù)據(jù)中間位置上的數(shù)即可。例:100名員有效問卷數(shù)分布的莖葉圖如果圖形中沒有原始數(shù)據(jù),例如直方圖。1090420100名員的有效問卷數(shù)分布直方圖假設(shè)數(shù)據(jù)在中位數(shù)所在區(qū)間組均勻分布,全部100名員的中位數(shù)說對應的位置應當是50.5。通過圖中觀察在140-150組之前的累積頻數(shù)是42,只需要在140-150之間找到第8.5位置上所對應的數(shù)。由于假設(shè)140-150間這18個數(shù)是均勻分布的,而這段區(qū)間的長時10,因此區(qū)間上第8.5位置上的數(shù)應當是
。即中位數(shù)是144.718140
8.5
10
144.73.中位數(shù)的特點中位數(shù)很好的代表了一組數(shù)據(jù)的中間位置。當直方圖顯示數(shù)據(jù)時一個有偏分布時。中位數(shù)具有較好的穩(wěn)健性,對
值并不敏感。中位數(shù)并沒有利用數(shù)據(jù)的所有信息,其對原始數(shù)據(jù)信息的代表性不如均值?!?
3眾數(shù)眾數(shù)(mode)是指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,主要用于測度分類數(shù)據(jù)的集中趨勢。一組數(shù)據(jù)分布的最
點所對應的變量值即為眾數(shù)。具有不唯一性,用M0表示。1.定性變量的眾數(shù)確定根據(jù)分類變量和順序變量的不同取值得到頻數(shù)分布,確定眾數(shù)時,只需找出頻數(shù)出現(xiàn)最多所對應的變量取值即為眾數(shù)。例:通過觀察頻數(shù)分布表,可以直
到受教育水平為高中的頻數(shù)最大。因此對于3000名被
者受教育水平來說,眾數(shù)就是高中學歷。2.定量變量的眾數(shù)確定對于離散型變量的取值,計算眾數(shù)時,只需找出出現(xiàn)次數(shù)最多的變量取值即為眾數(shù)?!纠?.5】根據(jù)表中35名
員的有效問卷頻數(shù)分布資料,確定眾數(shù)。解:根據(jù)表中所示,問卷數(shù)為145份所對應的人數(shù)是4人,高于其他所有問卷數(shù)對應的人數(shù)。因此35名
員有效問卷的眾數(shù)是145份。對于連續(xù)性變量的取值,首先根據(jù)組距分組得到頻數(shù)分布。對于等距分組,對應頻數(shù)最大的組為眾數(shù)所在組;對于不等距分組,對應頻數(shù)密度最大的組為眾數(shù)組。設(shè)眾數(shù)組的頻數(shù)為
fm
,眾數(shù)前一組的頻數(shù)為
f
1
,眾數(shù)后一組的頻數(shù)為
f
1。假定數(shù)據(jù)在眾數(shù)組均勻分布,眾數(shù)與其相鄰兩組的頻數(shù)分布有如下關(guān)系:下限公式:上限公式:1Mo
L
(
fm
f1
)
(
fmfm
f1om1M
U
(
fm
f1
)
(
f
f
)
i§1.3眾數(shù)34L
3000U
4000fm1
7fm1
5fm
13i
1000者月收入水平【例4.6】根據(jù)例4.4,確定表4.3中30名被的眾數(shù)。解:首先確定眾數(shù)組是3000-40000元組,因此Mo
L
(
f
fm
Mo
U
(
f
fm因此,30名被訪者的月收入水平的眾數(shù)是3428.6元。3.眾數(shù)的特點眾數(shù)根據(jù)眾數(shù)組及相鄰組的頻率分布信息來確定數(shù)據(jù)中心點位置的。眾數(shù)是一個位置代表值,它不受數(shù)據(jù)中
值的影響。對原數(shù)據(jù)信息的代表性也不如均值。只有在數(shù)據(jù)量較多時才有意義?!?.4均值中位數(shù)、眾數(shù)之間的比較從分布的角度看:均值是一組數(shù)據(jù)全部數(shù)值的平均數(shù)。中位數(shù)是處于一組數(shù)據(jù)中間位置上的數(shù)值。眾數(shù)始終是一組數(shù)據(jù)分布的最
值。對于具有單峰分布的大多數(shù)數(shù)據(jù)而言,均值、中位數(shù)、眾數(shù)存在以下關(guān)系:(1)當變量取值的頻數(shù)分布對稱時,則均值與眾數(shù)、中位數(shù)三者完全相等,即x
Mex
Me
Mo正態(tài)分布1.4均值、中位數(shù)、眾數(shù)之間的比較(2)當變量取值的頻數(shù)分布呈現(xiàn)右偏時,說明數(shù)據(jù)存在最大值,必然拉動均值向極大值一方靠,而眾數(shù)和中位數(shù)由于不受 值的影響,因此,三者之間的關(guān)系為x
Me
MoM0
Me
x右偏分布1.4均值、中位數(shù)、眾數(shù)之間的比較(3)當變量取值的頻數(shù)分布呈現(xiàn)左偏時,說明數(shù)據(jù)存在最小值,必然拉動均值向極小值一方靠,而眾數(shù)和中位數(shù)由于不受 值的影響,因此,三者之間的關(guān)系為x
Me
Mo
。x
Me
M0左偏分布1.4均值、中位數(shù)、眾數(shù)之間的比較當頻數(shù)分布呈對稱分布或近似對稱分布時,以均值、中位數(shù)或眾數(shù)來描述數(shù)據(jù)的集中趨勢都比較理想;當頻數(shù)分布呈偏態(tài)時,
值會對均值產(chǎn)生較大影響,而對眾數(shù)、中位數(shù)沒有影響,此時,用眾數(shù)、中位數(shù)來描述集中趨勢比較好。根據(jù)經(jīng)驗,頻數(shù)分布無論是左偏還是右偏,眾數(shù)與中位數(shù)的距離約為算術(shù)平均數(shù)與中位數(shù)的距離的兩倍,即:Me
Mo
x
MeMo
x
3(x
Me
)
3Me
2x2離散趨勢的描述§2.1異眾比率§2.2極差和四分位差§2.3平均差、方差和標準差§2.4離散系數(shù)2
1異眾比率異眾比率(variation
ratio)是指一組數(shù)據(jù)中非眾數(shù)(組)的頻數(shù)占總頻數(shù)的比例。既適用于定性數(shù)據(jù),也適用于定量數(shù)據(jù),但主要用于測度分類數(shù)據(jù)的離散趨勢。用Vr表示。計算公式是:異眾比率的作用是衡量眾數(shù)對一組數(shù)據(jù)的代表性程度的指標。異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的就越大,眾數(shù)的代表性就越差;反之,異眾比率越小,眾數(shù)的代表性就越好。i
mmri
i
f
1
f
fV
f
f1.極差級差(range)是一組數(shù)據(jù)的最大值與最小值之差,也稱全距。級差主要用于測度順序數(shù)據(jù)和定量數(shù)據(jù)的離散趨勢。用R表示。級差是最容易計算的離散趨勢的測度統(tǒng)計量。但它容易受值的影響。計算公式是:R
max(xi【例4.8】根據(jù)表4.5中35名
員的有效問卷數(shù)分組表計算極差。R
max(
xi
)
min(
xi
)
148
131
172.四分位差四分位數(shù)是指一組數(shù)據(jù)按大小排序后處于25%和75%位置上的值,也稱四分位點。通常所說的四分位數(shù)是指:處在25%位置上的數(shù)值(下四分位數(shù))處在75%位置上的數(shù)值(上四分位數(shù))。記下四分位數(shù)為QL
,上四分位數(shù)為QU其計算公式是當四分位數(shù)的位置不是整數(shù)時,按比例分攤四分位數(shù)兩側(cè)的差值。QL
Xn14
X
3(n1)4QU【例4.8】在某城市隨機抽取9個家庭,
得到每個家庭的人均月收入數(shù)據(jù)(單位:元)分別是1450,950,820,860,1060,900,1280,1040,1700。要求計算這九個家庭人均月收入水平的四分位數(shù)。解:將數(shù)據(jù)由小到大按順序排列:820,860,900,950,1040,1060,1280,1450,1700。QL
Xn1
X2.54
X
3(n1)
X7.54QU由于2.5處于順序為2和3的兩個數(shù)中間,因此按比例分攤兩端的差值,即:QL
860
(900
860)*0.5
880
X2.5
X7.5同理,
1280
(1450
1280)*
0.5
1365QU內(nèi)距或四分間距(inter-quartile
range):四分位差是上四分位數(shù)與下四分位數(shù)之差,用Qd表示計算公式為:克服了級差容易受數(shù)據(jù)中兩端極值的影響這一缺陷。
QU
QL1.平均差平均差(mean
deviation)是一組數(shù)據(jù)與其均值離差絕對值的平均數(shù)。用Md表示。據(jù)掌握資料的不同,有兩種計算方法。對于未分組數(shù)據(jù),采用簡單平均法,其計算公式是:對于分組數(shù)據(jù),采用nn平均法,其計算公式是:Md
x
i1
xikMdk
x
fi
i1
xi
fii1【例4.9】根據(jù)表中給出的某項,計算其平均差。中30名被訪者的月收入水平分組數(shù)據(jù)解:平均差能夠準確地、全面地反映一組數(shù)值的離散趨勢。平均差用絕對值進行運算,不適宜于代數(shù)形式處理,在實際應用上受到很大的限制。22333.3
777.78(元)30kMdk
x
fi
i1
xi
fii12.方差和標準差方差(variance)是一組數(shù)據(jù)與其均值離差平方的算術(shù)平均數(shù)。標準差(standard
deviation)是方差的平方根。方差、標準差是實際中應用最廣泛的離散趨勢度量值。設(shè)總體的方差為
2
,標準差為
。對于分組數(shù)據(jù),方差和標準差的計算公式分別是:對于未分組的數(shù)據(jù),方差和標準差的計算公式分別是:N
iN
2
i1
(
X
X
)2NN(
X
X
)2
ii1
K
2K
2
i1
(
Xi
X
)
Fi
Fii1Ki
iKi1(
X
X
)2
F
Fii1
總體的方差和標準差在對各個離差平方平均時是除以數(shù)據(jù)個數(shù)或總頻數(shù)。樣本的方差和標準差在對各個離差平方平均時是用樣本數(shù)據(jù)個數(shù)度)去除總離差平方和。設(shè)樣本的方差為s2,或總頻數(shù)減1(稱為標準差為
s
。對于未分組的數(shù)據(jù),方差和標準差的計算公式為:對于分組數(shù)據(jù),方差和標準差的計算公式為:22n
i1
n
1(
xi
x
)s
2n(x
x
)n
1
ii1s
2
1kk(
x
x
)
fs2
i1
i
i
fii12kik(
x
x
)
f
1
ii1
fii1s【例4.10】根據(jù)表中給出的某項據(jù),計算其方差和標準差。中30名被訪者的月收入水平分組數(shù)解:方差222770000730
1
955172.65
1ki
ik(
x
x
)
f
i1
s
fii1標準差s
955172.65
977.33(元)§2.4離散系數(shù)離散系數(shù)(coefficient
of
variation)是一組數(shù)據(jù)的標準差與其均值之比,又稱變異系數(shù)。用Vs表示。主要用于比較不同樣本數(shù)據(jù)的離散程度。s計算公式是:
Vs
x2
4離散系數(shù)【例4.11】甲乙兩地的個人收入
中,甲地的人均月收入是6520元,標準差是1640元;乙地的人均月收入是5800歲,標準差是1300元。比較甲乙兩地人均月收入的差異程度。解:由得到由于Vs甲
Vs乙,因此甲地的人均月收入差異程度大于乙地。由
x
6520
得到甲甲s
1640
Vx
6520
1640
0.254s甲
s甲甲x
6520乙s
1640乙x
5800
1300
0.224
s乙Vs乙乙3偏態(tài)與峰度的描述§3.1矩的概念§3.2偏態(tài)§3.3峰度3.1矩的概念階矩。其公式表示是:時,上式一階原點矩是kin(
xi
a)
f變量X
的樣本觀測值與a
之差k
次方的平均數(shù)稱為變量X
關(guān)于a
的kn
i1
fii1當a
0時,上式稱為
k
階原點矩,用字母M表示。當
a
稱為k
階中心矩,用字母m表示。1nnx
f
i1
i
i
fii1M22即均值,二階中心矩是
m
n
i1
n(x
x
)
f
i
i
fii1§3
2偏態(tài)偏態(tài)(skewness)是對數(shù)據(jù)分布對稱性的側(cè)度。偏態(tài)系數(shù)用SK表示。偏態(tài)系數(shù)采用矩進行計算。3ni
i(
x
x
)
f
i1
im
3計算公式是:
SK
3fn
3
i13.2偏態(tài)當分布對稱時
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 住宅小區(qū)車庫租賃合同樣本4篇
- 有關(guān)房屋買賣合同律師3篇
- 云臺山旅游合同范本
- 土地旋耕合同范本
- 農(nóng)村流轉(zhuǎn)土地蓋房合同范本
- 員工入股合作合同范例
- 商業(yè)交易居間合同范本
- 啤酒生意合作合同范本
- 商場商鋪裝修合同范例
- 凈地轉(zhuǎn)讓合同范本
- 2025年日歷(日程安排-可直接打印)
- 易能變頻器edsv300說明書
- 人音版音樂七年級上冊《父親的草原母親的河》課件
- 竣工驗收流程培訓課件
- 2024年上海中考化學終極押題密卷三含答案
- 《大客戶銷售培訓》課件
- 形象設(shè)計與化妝技巧學習通超星期末考試答案章節(jié)答案2024年
- 幸福女人課件教學課件
- 2024廣西百色市平果市事業(yè)單位招聘工作人員歷年高頻難、易錯點500題模擬試題附帶答案詳解
- 口服給藥法課件
- 2輸變電工程施工質(zhì)量驗收統(tǒng)一表式(變電工程土建專業(yè))-2024年版
評論
0/150
提交評論