第二章-統(tǒng)計(jì)數(shù)據(jù)的描述(統(tǒng)計(jì)學(xué))_第1頁
第二章-統(tǒng)計(jì)數(shù)據(jù)的描述(統(tǒng)計(jì)學(xué))_第2頁
第二章-統(tǒng)計(jì)數(shù)據(jù)的描述(統(tǒng)計(jì)學(xué))_第3頁
第二章-統(tǒng)計(jì)數(shù)據(jù)的描述(統(tǒng)計(jì)學(xué))_第4頁
第二章-統(tǒng)計(jì)數(shù)據(jù)的描述(統(tǒng)計(jì)學(xué))_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1第二章---統(tǒng)計(jì)數(shù)據(jù)的描述(統(tǒng)計(jì)學(xué))22.1數(shù)據(jù)的計(jì)量尺度在進(jìn)行統(tǒng)計(jì)數(shù)據(jù)分析和整理時(shí),都需要了解統(tǒng)計(jì)數(shù)據(jù)的性質(zhì)。為此要對統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分類,根據(jù)計(jì)量學(xué)一般分類方法,將統(tǒng)計(jì)數(shù)據(jù)按照從粗略到精確(從低級(jí)到高級(jí))分類的計(jì)量尺度分別是列名尺度(定類尺度)、順序尺度(定序尺度)、間隔尺度(等距尺度)和比例尺度(等比尺度)。1、列名尺度(nominalscale)

列名尺度是最粗略的計(jì)量尺度,它只能對事物進(jìn)行平行的分類和分組,各類、組之間是平行的。例如將06營銷和06會(huì)計(jì)專業(yè)學(xué)生按生源地劃分,可以將學(xué)生分為云南籍學(xué)生、貴州籍學(xué)生、廣西籍學(xué)生…等等。在本例中生源地就是列名尺度。由列名尺度確定的數(shù)據(jù)是不能進(jìn)行加、減、乘和除法運(yùn)算的。有時(shí),我們用“1”表示云南籍學(xué)生,“2”表示貴州籍學(xué)生,“3”表示廣西籍學(xué)生,…等等,這時(shí),1,2,3等等僅是一個(gè)符號(hào),不能進(jìn)行運(yùn)算。2、順序尺度(ordinalscale)3順序尺度比列名尺度要高一級(jí),表現(xiàn)為各類或組之間有一定的順序,可以進(jìn)行優(yōu)劣等級(jí)的比較。例如把我們同學(xué)按照學(xué)習(xí)成績優(yōu)秀、良好、及格和不及格四類,顯然這四類是有好壞或者說順序之分的,不是平行的。優(yōu)秀、良好、及格和不及格就是順序數(shù)據(jù),學(xué)習(xí)成績就是順序尺度。顯然順序尺度一定是列名尺度,順序數(shù)據(jù)一定是列名數(shù)據(jù)。

3、間隔尺度(intervalscale)間隔尺度是一種對數(shù)據(jù)進(jìn)行精確計(jì)量的尺度,它不僅可以比較各事物的順序,而且還可以計(jì)算其大小和差值的大小,也就是數(shù)量的間隔。例如我們同學(xué)數(shù)學(xué)考試成績是69、80、70、90、76等等。間隔尺度度量的統(tǒng)計(jì)數(shù)據(jù)是可以進(jìn)行加法和減法運(yùn)算。顯然間隔尺度度量的數(shù)據(jù)一定是順序數(shù)據(jù),也一定是列名數(shù)據(jù)。4、比例尺度(ratioscale)比例尺度,又稱為定比尺度,是一種比間隔尺度更高級(jí)的計(jì)量尺度,和間隔尺度主要區(qū)別是對“0”的理解上,在間隔尺度中,“0”4表示一個(gè)具體值,在比例尺度中“0”表示沒有。例如假設(shè)我數(shù)學(xué)考試成績是0分,表示我數(shù)學(xué)成績是0分,也是我的成績,并不是表示我沒有成績,也不表示我沒有一定數(shù)學(xué)知識(shí),至少1+2=3是知道的。假設(shè)我身上是0元錢,表示我口袋了一分錢都沒有,也就是沒有錢??梢钥闯霰硎境煽兊慕y(tǒng)計(jì)數(shù)據(jù)是間隔數(shù)據(jù),表示錢的統(tǒng)計(jì)數(shù)據(jù)是比例數(shù)據(jù)。兩者之間的關(guān)系:間隔數(shù)據(jù)的差是比例數(shù)據(jù)。例如物理學(xué)中的電勢、電勢能、溫度、重力勢能都是間隔數(shù)據(jù),但它們的差電勢差、電勢能差、溫度差和重力勢能查都是比例數(shù)據(jù)。在經(jīng)濟(jì)學(xué)中,絕大多數(shù)統(tǒng)計(jì)數(shù)據(jù)都是比例數(shù)據(jù)。GDP、就業(yè)人數(shù)、企業(yè)總產(chǎn)值、企業(yè)主營業(yè)務(wù)收入等等都是比例數(shù)據(jù)。顯然比例數(shù)據(jù)一定是間隔數(shù)據(jù)。比例數(shù)據(jù)可以進(jìn)行加、減、乘和除法運(yùn)算。凡是適合低級(jí)數(shù)據(jù)的統(tǒng)計(jì)方法,對高級(jí)數(shù)據(jù)都適合,反之,就不一定成立。52.2統(tǒng)計(jì)數(shù)據(jù)的來源統(tǒng)計(jì)數(shù)據(jù)的來源主要有直接來源和間接來源。間接來源是指利用現(xiàn)有的數(shù)據(jù)。例如從報(bào)紙、圖書、雜志、統(tǒng)計(jì)年鑒、網(wǎng)絡(luò)獲取的數(shù)據(jù)是間接數(shù)據(jù),也包括才市場調(diào)查公司或數(shù)據(jù)庫購買的數(shù)據(jù)。直接來源主要包括試驗(yàn)設(shè)計(jì)和統(tǒng)計(jì)調(diào)查獲取的數(shù)據(jù)。物理、化學(xué)、生物等自然科學(xué)中統(tǒng)計(jì)數(shù)據(jù)直接來源于試驗(yàn)設(shè)計(jì),經(jīng)濟(jì)學(xué)和社會(huì)科學(xué)中的統(tǒng)計(jì)數(shù)據(jù)直接來源于統(tǒng)計(jì)調(diào)查。統(tǒng)計(jì)調(diào)查的方法:普查和抽樣調(diào)查

1、普查普查是為一特定的目的,專門組織的一次全面調(diào)查。例如我國每十年進(jìn)行一次的人口普查,農(nóng)業(yè)普查等等。普查的特點(diǎn)是數(shù)據(jù)全面,但成本高。

2、抽樣調(diào)查抽樣調(diào)查是從總體中隨機(jī)抽出一部分樣本,通過樣本數(shù)據(jù)的數(shù)量特征來分析研究總體數(shù)量特征的調(diào)查研究方法。例如市場調(diào)查、對傳染病的調(diào)查。62.3統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量

1、統(tǒng)計(jì)數(shù)據(jù)的誤差:非抽樣誤差和抽樣誤差非抽樣誤差:調(diào)查過程中由有關(guān)環(huán)節(jié)工作失誤造成的誤差。它包

括調(diào)查過程中的填報(bào)錯(cuò)誤、抄錄錯(cuò)誤、匯總錯(cuò)誤、不完整的抽樣框?qū)е碌恼`差、調(diào)查中不回答產(chǎn)生

的誤差和某些受訪者故意報(bào)虛假數(shù)據(jù)等等??朔椒ǎ杭訌?qiáng)培訓(xùn)工作,認(rèn)真貫策《統(tǒng)計(jì)法》

抽樣誤差:利用樣本推斷總體時(shí)產(chǎn)生的誤差。改善方法:選擇好的統(tǒng)計(jì)方法

2、提高統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量途徑克服非抽樣誤差,選擇好的統(tǒng)計(jì)方法減小抽樣誤差。72.4統(tǒng)計(jì)數(shù)據(jù)的整理一、統(tǒng)計(jì)數(shù)據(jù)的分組統(tǒng)計(jì)分組是統(tǒng)計(jì)整理的第一步,將數(shù)據(jù)列入不同的組內(nèi)的過程。其中列名尺度和順序尺度數(shù)據(jù)是按照事物的性質(zhì)和屬性劃分的,又稱為按品質(zhì)標(biāo)志分組。間隔尺度和比例尺度數(shù)據(jù)是按照事物數(shù)量標(biāo)準(zhǔn)來劃分的,又稱為數(shù)量標(biāo)志分組。例題某班學(xué)生按性別分組按性別分組人數(shù)百分比%

男生3060

女生2040

合計(jì)50100

8二、次數(shù)分配(頻數(shù)分布)次數(shù)分配,也叫頻數(shù)分配,是將數(shù)據(jù)分組后,計(jì)算其次數(shù)分布的情況。例題某車間30名工人周加工零件數(shù)工人編號(hào)周加工零件數(shù)工人編號(hào)周加工零件數(shù)工人編號(hào)周加工零件數(shù)

110611992185284129422106311013119231014911488241055109151182596691169726105711117103271078107181062812891211995291111010520106301019解:對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分組第一步是確定組數(shù),按下列公式來確定

其中k為組數(shù),n為數(shù)據(jù)的個(gè)數(shù)。在本例中,k=1+lg30/lg2,約等于5,故分為5組第二步確定組距(組的上限與下限之差值)在本例中,樣本數(shù)據(jù)中,最大值是128,最小值是84,故組距是(128-84)/5約等于8.1,再結(jié)合本例數(shù)據(jù)的特點(diǎn),取組距為10。得到頻數(shù)分布是如下圖所示10按周加工零件分組數(shù)次數(shù)(頻數(shù))向下累計(jì)次數(shù)向上累計(jì)次數(shù)80~90333090~10071027100~110132320110~1205287120~1302302

合計(jì)30次數(shù)分布的顯示方法:直方圖和折線圖在直角坐標(biāo)系中,用小矩形顯示統(tǒng)計(jì)數(shù)據(jù)的分布特征的圖形就是直方圖。在本例中,其直方圖和折線圖如下:11思考題:向下累計(jì)頻數(shù)和隨機(jī)變量的分布函數(shù)之間的關(guān)系是什么?12四、洛倫茨曲線和基尼系數(shù)

1、洛倫茨曲線美國統(tǒng)計(jì)學(xué)家洛倫次在上個(gè)世紀(jì)初,根據(jù)意大利經(jīng)濟(jì)學(xué)家帕累托提出的收入分配公式繪制成的描述收入和財(cái)富分配的曲線。收入分配百分比與人口百分比之間的函數(shù)關(guān)系的曲線。作法:在直角坐標(biāo)系中,橫軸表示累計(jì)人口的百分比,縱軸表示累計(jì)的收入或財(cái)富百分比。描點(diǎn)繪制出洛倫茨曲線。

13曲線1曲線2曲線3人口占總?cè)丝诘陌俜直蓉?cái)富占總財(cái)富的百分比100%100%AB14在上圖中,曲線1表示人口百分比與收入百分比完全相等,說明這個(gè)國家或地區(qū)的收入分配是完全按人口平均分配的。曲線2表示絕大多數(shù)人沒有收入或財(cái)富,只有極少數(shù)人占有全部財(cái)富,說明這個(gè)國家或地區(qū)人的收入和財(cái)富分配是絕對不平均的。世界上絕大多數(shù)國家或地區(qū)收入分配的洛倫次曲線在曲線1和曲線3之間,如曲線2所示。為了更準(zhǔn)確地反映收入分配的變化程度,意大利經(jīng)濟(jì)學(xué)家基尼提出基尼系數(shù)來刻畫收入分配平均程度基尼系數(shù)=A/(A+B)顯然,基尼系數(shù)在0和1之間,若基尼系數(shù)等于0,表明這個(gè)國家收入分配是絕對平均的,若基尼系數(shù)等于1,表明這個(gè)國家收入分配是財(cái)富集中在極少數(shù)人手上,絕大多數(shù)人沒有財(cái)富,分配是絕對不平均的。在通常情況下,一個(gè)國家的基尼系數(shù)在0.2~0.4之間,社會(huì)比較穩(wěn)定,當(dāng)基尼系數(shù)超過0.4時(shí),表明這個(gè)國家收入分配出現(xiàn)不公了,需要政府采取措施,縮小差距,維護(hù)社會(huì)穩(wěn)定。15例2.2講解。下表是澳大利亞1973年至1974年可稅收入分布情況16可稅收入

/$納稅人數(shù)目/人可稅收入

/$在收入等級(jí)中的百分?jǐn)?shù)累計(jì)的百分?jǐn)?shù)%人數(shù)收入額人數(shù)收入額1200以下1200~15991600~19992000~23992400~27992800~31993200~35993600~39994000~47994800~55995600~63996400~71997200~79998000~87998800~999910000~1199912000~1599916000~1999920000~3999940000以上1193122822943012013517053522973800324165974446258378706656494662333047011955141257401151559854679826314773107945641307253955135439777730079164925578188029482659102.135.035.386.286.296.787.437.9314.9511.888.325.443.492.242.051.761.430.560.550.080.501.512.062.933.474.335.376.4113.9413.0710.567.825.613.994.084.064.132.113.041.012.137.1612.5418.8225.1131.8939.3247.2562.2074.0882.4087.8491.3393.5795.6297.3898.8199.3799.92100.00.502.014.077.0010.4714.8020.1726.5840.5253.5964.1571.9777.5881.5785.6589.7193.8495.9598.99100.0合計(jì)100.0100.017

表中第一列可稅收入是分組的變量(比例尺度數(shù)據(jù)變量);第二列納稅人數(shù)是收入分組的次數(shù)分配(在可稅收入范圍內(nèi)的納稅人數(shù));第三列可稅收入是指各組納稅人可稅收入的總額;第四列和第五列分別是分別是第二列和第三列的百分比分布;第六和第七列分別是第四和第五列向下累積的數(shù)值。下面用MATLAB6.5軟件繪制出洛倫茨曲線,有關(guān)程序是X;Y;PLOT(X,Y);Z=1:2:100;Z1=zPlot(z,z1,x,y,’r’)圖中,藍(lán)線表示的是完全按人口平均分配收入的洛倫茨曲線,紅線表示本例中的洛倫茨曲線,也就是1973~1974年澳大利亞收入分配的洛倫茨曲線。

18192.5分布的集中趨勢的測度數(shù)據(jù)的集中趨勢是指能夠代表數(shù)據(jù)總體變化趨勢的量,集中趨勢的值愈大,表明從總體上看,數(shù)據(jù)值大,反之,集中趨勢值愈小,表明從總體上看,數(shù)據(jù)值愈小。因此,集中趨勢是統(tǒng)計(jì)數(shù)據(jù)的一個(gè)重要指標(biāo)。不同數(shù)據(jù)類型度量它的集中趨勢指標(biāo)值是不同的,下面分別介紹。一、名列尺度數(shù)據(jù):眾數(shù)對于名列尺度數(shù)據(jù),度量它集中趨勢的指標(biāo)是眾數(shù)。眾數(shù):在一組統(tǒng)計(jì)數(shù)據(jù)中,出現(xiàn)次數(shù)最多的數(shù)據(jù)是眾數(shù)。例如某市場調(diào)查公司調(diào)查市場上飲料銷售情況,如下表所示飲料品牌頻數(shù)百分比可口可樂1836%

旭日升冰茶918%

百事可樂1326%

匯源果汁1020%

合計(jì)50100%20由眾數(shù)的定義知,上述數(shù)據(jù)中,眾數(shù)是可口可樂,因?yàn)樗霈F(xiàn)的次數(shù)最多的統(tǒng)計(jì)數(shù)據(jù)。因?yàn)榉彩沁m合低級(jí)統(tǒng)計(jì)數(shù)據(jù)的統(tǒng)計(jì)方法,對高級(jí)統(tǒng)計(jì)數(shù)據(jù)也適合,因此順序數(shù)據(jù)、間隔數(shù)據(jù)和比例數(shù)據(jù)都可以用眾數(shù)來描述它們的集中趨勢。順序數(shù)據(jù)、未分組的間隔數(shù)據(jù)和比例數(shù)據(jù)的眾數(shù)計(jì)算方法和列名數(shù)據(jù)計(jì)算方法相同。對于分組的間隔數(shù)據(jù)和比例數(shù)據(jù),其眾數(shù)計(jì)算方法如下:

表示眾數(shù),L表示眾數(shù)所在的組下限,表示眾數(shù)組次數(shù)與上一組次數(shù)之差。表示眾數(shù)組次數(shù)與下一組次數(shù)之差。i表示眾數(shù)組的組距21例題計(jì)算例2.2中的眾數(shù)解:1)找到眾數(shù)所在的組,也就是頻數(shù)最多的組。在本例中,眾數(shù)所在的組是4000~47992)按上述公式計(jì)算如下

22注:不是在任何情況下,統(tǒng)計(jì)數(shù)據(jù)都有眾數(shù),有時(shí)統(tǒng)計(jì)數(shù)據(jù)沒有眾數(shù)。雖然眾數(shù)可以用來度量順序數(shù)據(jù)和數(shù)量數(shù)據(jù)(間隔數(shù)據(jù)和比例數(shù)據(jù))但是順序數(shù)據(jù)和數(shù)量數(shù)據(jù)不常用眾數(shù)來度量它們的集中趨勢,下面先介紹順序數(shù)據(jù)集中趨勢度量方法二、順序數(shù)據(jù):中位數(shù)和分位數(shù)中位數(shù)是數(shù)據(jù)排序后,位置在最中間的數(shù)值。例如我們有5個(gè)數(shù),2,4,3,8,9,將它們排序后是2,3,4,8,9,處于中間位置的是4。因此這組數(shù)據(jù)的中位數(shù)是4若是偶數(shù)個(gè)數(shù)據(jù),則取中間兩位數(shù)據(jù)的算術(shù)平均數(shù)。例如有數(shù)據(jù)3,5,2,4,8,6,9,7排序后是2,3,4,5,6,7,8,9中間兩位是5和6,中位數(shù)是(5+6)/2=5.5對于分組數(shù)據(jù),可按下列公式來計(jì)算23其中N為樣本數(shù)據(jù)的個(gè)數(shù)(樣本容量),L表示眾位數(shù)所在組的下限表示眾位數(shù)所在組的以下各組的累計(jì)次數(shù);表示中位數(shù)所在組的次數(shù);i表示中位數(shù)所在組的組距。下面我們計(jì)算例2.2中的中位數(shù)解:1)找到中位數(shù)所在的組看N/2次落在哪組,不難看出,N/2次落在4000~4799這一組因此中位數(shù)一定落在這組,所以,L=4000,

,i=799所求的中位數(shù)是4146.97

24分位數(shù)的概念分位數(shù)是將統(tǒng)計(jì)數(shù)據(jù)等分成幾個(gè)部分的數(shù)據(jù)。若等分成四個(gè)部分,稱為四分位數(shù),若等分成10個(gè)部分,稱為十分位數(shù),若等分成兩個(gè)部分,稱為中位數(shù)。下面以四分位數(shù)為例說明分位數(shù)的計(jì)算方法所謂四分位數(shù)是指把一組統(tǒng)計(jì)數(shù)據(jù)等分成四個(gè)部分的三個(gè)數(shù)據(jù),由于中間的那個(gè)分位數(shù)是中位數(shù),已經(jīng)講過,著重講解上下兩個(gè)四分位數(shù)。例題設(shè)有統(tǒng)計(jì)數(shù)據(jù)2,4,3,5,7,6,10,3,5,9,11,21,20,19,16,17,15解:首先將統(tǒng)計(jì)數(shù)據(jù)按升序排列為:2,3,3,4,5,5,6,7,9,10,11,15,16,17,19,20,21第一個(gè)四分位數(shù)(下四分位數(shù))在N/4=17/4=4.25的位置,而4的25位置是4,5的位置是5,故4.25的位置是4.25,即下四分位數(shù)是4.25,即。上四分位數(shù)是在3/4的位置,即12.75的位置12的位置是15,13的位置是16,所以12.75的位置的數(shù)是15.75,故上四分位數(shù)。對于分組數(shù)據(jù),上、下四分位數(shù)的計(jì)算公式分別是

26下面講解例2.2中上、下四分位數(shù)的計(jì)算解:以頻率為標(biāo)準(zhǔn)來算

N=100,N/4=25,3N/4=75,所以,下四分位數(shù)在2400~2799組內(nèi),上四分位數(shù)在5600~6399組內(nèi)。

27注:中位數(shù)和分位數(shù)主要是用來描述順序數(shù)據(jù)的集中趨勢,也可以用來描述數(shù)值型數(shù)據(jù)的集中趨勢。但不能用來描述列名數(shù)據(jù)的集中趨勢。對于數(shù)值型數(shù)據(jù)主要用均值來描述其集中趨勢。數(shù)值型數(shù)據(jù)(間隔數(shù)據(jù)和比例數(shù)據(jù)):均值均值(mean)就是算術(shù)平均數(shù),主要度量間隔數(shù)據(jù)和比例數(shù)據(jù)的集中趨勢。對于未分組的數(shù)據(jù),其均值是

對于分組數(shù)據(jù),用加權(quán)算術(shù)平均數(shù)來表示集中趨勢

28其中為第i組的次數(shù),為第i組的組中值。例如在數(shù)2,4,9,3,4,2,中,其均值是(2+4+9+3+4+2)/6=4在例2.2中,其是分組數(shù)據(jù),它的均值是五、幾何平均數(shù)(Geometricmean)

幾何平均數(shù)是算術(shù)平均數(shù)的變形,即將幾何平均值作對數(shù)變換,得到的結(jié)果是算術(shù)平均數(shù)。反之,將算術(shù)平均數(shù)作指數(shù)變換,得到幾何平均數(shù)。幾何平均值只適合比例尺度統(tǒng)計(jì)數(shù)據(jù),其他數(shù)據(jù)都不適合。在經(jīng)濟(jì)學(xué)中,幾何平均數(shù)主要用來計(jì)算社會(huì)經(jīng)濟(jì)問題的平均發(fā)展速度、平均增長率和平均收益率等方面。計(jì)算方法如下

29設(shè)是比例尺度統(tǒng)計(jì)數(shù)據(jù),則它們的幾何平均數(shù)是

例題講解1998——2002年我國國內(nèi)生產(chǎn)總值如下表所示

年份19981999200020012002國內(nèi)生產(chǎn)總值78345.282067.589468.197314.8104790.6各年發(fā)展速度計(jì)算公式是30

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論