第四章 數(shù)據(jù)的描述性分析(袁軍)_第1頁
第四章 數(shù)據(jù)的描述性分析(袁軍)_第2頁
第四章 數(shù)據(jù)的描述性分析(袁軍)_第3頁
第四章 數(shù)據(jù)的描述性分析(袁軍)_第4頁
第四章 數(shù)據(jù)的描述性分析(袁軍)_第5頁
已閱讀5頁,還剩36頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

4第四章數(shù)據(jù)的描述性分析通過本章的學習,我們應該知道:描述數(shù)據(jù)的集中趨勢的指標及計算描述數(shù)據(jù)的離散程度的指標及計算了解數(shù)據(jù)分布的偏度與峰度利用Excel進行數(shù)據(jù)的描述性統(tǒng)計分析Statistics本章內(nèi)容概述1本章內(nèi)容是關于:單變量截面數(shù)據(jù)的特征描述2為了對統(tǒng)計分組和簡單整理后的數(shù)據(jù)的進一步認識,借助于下面的四類指標進行深入討論:集中趨勢、離散程度、偏態(tài)與峰度3統(tǒng)計指標的作用

1集中趨勢的描述集中趨勢(centraltendency)反映的是一組數(shù)據(jù)向某一中心值靠攏的傾向。數(shù)據(jù)的集中趨勢通常用平均指標來反映。集中趨勢指標(平均指標)按計算方法不同分為:㈠算術平均數(shù)㈡調(diào)和平均數(shù)㈢幾何平均數(shù)㈣中位數(shù)㈤眾數(shù)數(shù)值平均數(shù)位置平均數(shù)83名女生的身高分布的集中趨勢、中心數(shù)值算術平均數(shù)可以反映現(xiàn)象總體的客觀規(guī)律性;可以對比同類現(xiàn)象在不同的時間、地點和條件下的一般水平;可以分析現(xiàn)象之間的依存關系。測定集中趨勢的意義:1-1算術平均數(shù)(arithmeticmean)1概念:算術平均數(shù)是分析社會經(jīng)濟現(xiàn)象一般水平和典型特征的最基本指標,是統(tǒng)計中計算平均數(shù)最常用的方法。2基本公式:注意:公式中分子和分母在經(jīng)濟內(nèi)容上的從屬關系:公式中分子和分母在范圍上是一致的,否則不是平均數(shù)例:勞動生產(chǎn)率=糧食產(chǎn)量/種糧農(nóng)民人數(shù);全國平均每人擁有的糧食產(chǎn)量=糧食產(chǎn)量/全國人口數(shù)。簡單算術平均數(shù)與加權算術平均數(shù)簡單算術平均數(shù)(simplearithmeticmean)特點:適于未分組數(shù)列;每個變量值出現(xiàn)的次數(shù)都是1。加權算術平均數(shù)(weightedarithmeticmean)特點:適于分組數(shù)列;平均數(shù)的值受權數(shù)的影響。計算公式:

其中:原始數(shù)據(jù)分為組,第組變量值為對應的次數(shù)為注意:對變量值的說明單項變量數(shù)列直接對變量值進行加權平均計算;組距變量數(shù)列先求出該組變量值的組中值,作為進行計算。權數(shù)(weight)1概念我們把變量數(shù)列中的次數(shù)看作變量值的權數(shù)。原因在于:影響平均數(shù)大小的兩個因素:變量值大小和權數(shù)。2形式權數(shù)有兩種形式:絕對數(shù)形式(頻數(shù))、相對數(shù)形式(頻率)同一總體資料,用權數(shù)的兩種形式計算的平均數(shù)完全相同。X456合計頻數(shù)頻率(%)10201025.050.025.040100.0X456合計頻數(shù)頻率(%)20402025.050.025.080100.0X456合計頻數(shù)頻率(%)20101050.025.025.040100.0成績(分)人數(shù)(人)甲班乙班丙班603915010013950平均成績(分)619980起到權衡輕重的作用權數(shù)對算術平均數(shù)的影響決定平均數(shù)的變動范圍組距數(shù)列加權算術平均數(shù)計算舉例某企業(yè)工人日產(chǎn)量的算術平均數(shù)計算表(單位:千克)按日產(chǎn)量分組工人數(shù)fi組中值xixifi60以下1060~701970~805080~903690~10027100~11014110以上8合計164工人平均日產(chǎn)量=13550/164=82.62(千克)算術平均數(shù)的數(shù)學性質(zhì)1算術平均數(shù)與總體單位數(shù)的乘積等于總體各單位標志值的總和。2各變量值與算術平均數(shù)的離差之和等于零。3各變量值與算術平均數(shù)的離差平方之和最小。優(yōu)點:1容易理解,便于計算2靈敏度高缺點:1容易受極端變量值的影響2在開口組中,代表性變差1-2調(diào)和平均數(shù)(harmonicmean)概念:由于在社會經(jīng)濟統(tǒng)計中缺乏資料,計算平均數(shù)時就需要采用間接的方式,于是產(chǎn)生了調(diào)和平均數(shù)。時間單價(元/斤)x所花錢數(shù)(元)m購買量(斤)m/x早市中市晚市0.50.40.2111合計

3

購買3次該蔬菜的平均價格是多少?已知分子資料未知分母資料調(diào)和平均數(shù)與算術平均數(shù)的關系調(diào)和平均數(shù)在實際應用中一般是作為算術平均數(shù)的變形使用,區(qū)別在于兩者所掌握的原始資料不同。對于相同的總體,兩者計算得到的結果完全相同。9.25

3

—合計22.2551110.50.40.2早市中市晚市購買量(斤)m/x所花錢數(shù)(元)m單價(元/斤)x時間已知資料→調(diào)和平均數(shù)已知資料→算術平均數(shù)調(diào)和平均數(shù)的特點優(yōu)點:1靈敏度高2在某些情況下,代替簡單平均數(shù)進行計算缺點:1不容易理解2容易受極值影響3有標志值為0時,不能計算已知分子資料未知分母資料未知分子資料已知分母資料1-3幾何平均數(shù)(geometricmean)1概念:若干項變量值連乘積開其項數(shù)次方的算術根。當各項變量值的連乘積等于總比率或總速度時,適宜使用他計算平均比率或平均速度。2計算:簡單幾何平均數(shù):加權幾何平均數(shù):3優(yōu)點:受極端變量值影響小;適宜計算平均比率和平均速度。缺點:有變量值為0或負值不能計算;應用范圍較窄。1-4中位數(shù)與分位數(shù)1概念總體單位標志值按大小順序排列,處于中間位置的那個標志值就是中位數(shù)(median)Me。意義:總體標志值中一半比中位數(shù)小,一半比它大。人口普查中應用年齡中位數(shù);產(chǎn)品質(zhì)量控制中取中位數(shù)2計算:先對數(shù)據(jù)進行排序;①未分組數(shù)據(jù)確定中位數(shù):②單項數(shù)列確定中位數(shù):先求;計算各組的累積次數(shù)(向上或向下累計);根據(jù)中位數(shù)的位置找到中位數(shù)。年齡/歲學生人數(shù)向上累計分布次數(shù)1751881926209212合計50分位數(shù)中位數(shù)的特點:優(yōu)點:容易理解;不受極端值影響;某些不具有數(shù)學特點或不能用數(shù)字測定的現(xiàn)象可以用中位數(shù)求其一般水平。缺點:靈敏度差,不宜計算分位數(shù)概念:四分位數(shù)(Quartiles):把一個變量數(shù)列分為四等分,形成三個分割點Q1、Q2、Q3,這三個分割點的數(shù)值就是四分位數(shù)。Q2=Me計算:略十分位數(shù)(dectile)百分位數(shù)(percentile)1-5眾數(shù)1概念:眾數(shù)(mode)是總體中出現(xiàn)次數(shù)最多的標志值。它能直觀的說明客觀現(xiàn)象分配中的集中趨勢。2應用舉例:有時常用眾數(shù)代替算術平均數(shù)來說明社會經(jīng)濟現(xiàn)象的一般水平例:市場上某種商品一天的價格變動,成交量最多的那個價格大批服裝(鞋)規(guī)格不同,市場需求最多的那個規(guī)格3計算:①單項數(shù)列:直接觀察法—出現(xiàn)次數(shù)最多的②組距數(shù)列:(僅考慮等距數(shù)列)

先觀察眾數(shù)所在組;然后按照公式近似推算。1-6各種平均指標之間的關系1.三類數(shù)值平均數(shù)之間:算術平均數(shù)、幾何平均數(shù)、調(diào)和平均數(shù)2.數(shù)據(jù)的分布與眾數(shù)、中位數(shù)、算術平均數(shù)1-7對各平均指標需要說明的問題1.數(shù)據(jù)的非對稱狀態(tài)越強,之間的差別就越大。KarlPearson:當分布為適當偏態(tài)時,三者關系:2.正確應用平均指標的原則(1)平均指標只能用于同質(zhì)總體;(2)需要用組平均數(shù)補充總平均數(shù);例子(3)需要用分配數(shù)列補充說明平均數(shù);例子組平均數(shù)補充總平均數(shù)沛縣銅山縣播種面積總產(chǎn)量平均畝產(chǎn)量(公斤/畝)播種面積總產(chǎn)量平均畝產(chǎn)量(公斤/畝)旱田1907220038020064000320水田7044800640300186000620合計260117000450500250000500總平均數(shù)某地區(qū)兩個縣的農(nóng)業(yè)生產(chǎn)情況表分配數(shù)列補充說明平均數(shù)按完成計劃比例分組企業(yè)數(shù)按完成計劃比例分組企業(yè)數(shù)85-89.92100-104.94090-94.98105-109.93095-99.910110-114.910合計均值103.35%100某集團下屬企業(yè)計劃完成情況表3.五值概括法與盒須圖

XminQ1MeQ3Xmax利用上面的5個數(shù)可以確定數(shù)據(jù)的分布形狀;五值概括法的圖形表現(xiàn)就是盒須圖。盒須圖的例子甲班13個同學的體育測試成績:39322034403331292530313222

乙班12個同學的體育測試成績:333036453428253229343531data2data1aba(c)data1data3兩供貨商的供貨計劃完成情況0123月份0123月份供貨計劃完成百分比%供貨商甲供貨商乙概念:離散程度指標又稱標志變異指標,離中趨勢指標等,它反映變量分布離散趨勢;常與平均指標匹配使用。(1)評價平均數(shù)的代表性;(2)是對事物發(fā)展均衡性的量度:供貨計劃完成的均衡性,協(xié)調(diào)性;產(chǎn)品質(zhì)量的穩(wěn)定性作用:2離散程度的描述種類離散程度的絕對指標離散程度的相對指標2-1極差、四分位差、平均差概念:極差(Range)也叫全距,是一組數(shù)據(jù)的最大值與最小值之離差,即:四分位差(Interquartilerange)是指第三四分位數(shù)與第一四分位數(shù)之差,也稱為內(nèi)距或四分間距,用Qr表示。平均差(Meandeviation)也稱平均離差,是各變量值與其平均數(shù)離差絕對值的平均數(shù),通常用AD、MD表示。注意:1極差和四分位差的特點2平均差由于采用絕對值的離差形式加以數(shù)學

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論