版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
賈俊平2024/3/131.1統(tǒng)計及其應(yīng)用領(lǐng)域1.2數(shù)據(jù)及其分類1.3統(tǒng)計中的基本概念
統(tǒng)計和數(shù)據(jù)1.1
統(tǒng)計及其應(yīng)用領(lǐng)域各種定義統(tǒng)計學(xué)是收集、分析、表述和解釋數(shù)據(jù)的科學(xué)(不列顛百科全書)統(tǒng)計是一門收集、分析、解釋和提供數(shù)據(jù)的科學(xué)(韋伯斯特國際辭典第3版)統(tǒng)計指的是一組方法,用來設(shè)計實驗、獲得數(shù)據(jù),然后在這些數(shù)據(jù)的基礎(chǔ)上組織、概括、演示、分析、解釋和得出結(jié)論(MarioF.Triola,《初級統(tǒng)計學(xué)》)什么統(tǒng)計學(xué)收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué)收集數(shù)據(jù):取得數(shù)據(jù)處理數(shù)據(jù):整理與圖表展示分析數(shù)據(jù):利用統(tǒng)計方法分析數(shù)據(jù)數(shù)據(jù)解釋:結(jié)果的說明得到結(jié)論:從數(shù)據(jù)分析中得出客觀結(jié)論包括描述方法、推斷方法及其他方法1.1統(tǒng)計及其應(yīng)用領(lǐng)域描述統(tǒng)計研究數(shù)據(jù)收集、處理、匯總、圖表描述、概括與分析等統(tǒng)計方法描述數(shù)據(jù)特征找出數(shù)據(jù)的基本規(guī)律內(nèi)容包括:搜集數(shù)據(jù)、整理數(shù)據(jù)、展示數(shù)據(jù)、描述性分析描述統(tǒng)計與推斷統(tǒng)計推斷統(tǒng)計研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計方法對總體特征作出推斷內(nèi)容包括:參數(shù)估計、假設(shè)檢驗1.1統(tǒng)計及其應(yīng)用領(lǐng)域【例1.1】用統(tǒng)計識別作者1787—1788年,亞歷山大·漢密爾頓(AlexanderHamilton)、約翰·杰伊(JohnJay)和詹姆士·麥迪遜(JamesMadison)為了說服紐約人認可憲法,匿名發(fā)表了85篇著名的論文。在這些論文中,大多數(shù)的作者已經(jīng)得到了識別,但是其中的12篇論文的作者身份引起了爭議。有人通過對不同的單詞的頻數(shù)進行統(tǒng)計分析,得出了結(jié)論:詹姆士·麥迪遜最有可能是這12篇論文的作者?,F(xiàn)在,對于這些存在爭議的論文,認為詹姆士·麥迪遜是作者的觀點占主導(dǎo)地位,而且?guī)缀蹩梢钥隙ㄟ@種觀點是正確的統(tǒng)計的應(yīng)用領(lǐng)域【例1.2】用簡單的描述統(tǒng)計量得到一個重要發(fā)現(xiàn)費舍(R.A.Fisher)在1952年的一篇文章中舉了一個例子,說明如何由基本的描述統(tǒng)計量的知識引出一個重要的發(fā)現(xiàn)。20世紀早期,哥本哈根卡爾堡實驗室的施密特(J.Schmidt)發(fā)現(xiàn)不同地區(qū)所捕獲的同種魚類的脊椎骨和鰓腺的數(shù)量有很大不同,甚至在同一海灣內(nèi)不同地點所捕獲的同種魚類,也有這樣的傾向;然而,鰻魚的脊椎骨的數(shù)量卻變化不大。施密特從歐洲大陸各地、冰島、亞速爾群島以及尼羅河等幾乎分離的水域里所捕獲的鰻魚的樣本中,計算發(fā)現(xiàn)了幾乎一樣的均值和標準偏差值。由此,施密特推斷各個不同海域內(nèi)的鰻魚都是在海洋中某公共場所繁殖的。后來名為“戴納(Dana)”的科學(xué)考察船在一次遠征中發(fā)現(xiàn)了這個場所1.1統(tǒng)計及其應(yīng)用領(lǐng)域
統(tǒng)計的應(yīng)用領(lǐng)域1.1統(tǒng)計及其應(yīng)用領(lǐng)域統(tǒng)計的誤用與濫用統(tǒng)計濫用不好的樣本或過小的樣本誤導(dǎo)性圖表局部描述故意曲解統(tǒng)計應(yīng)用上的兩個極端——不用或幾乎不用統(tǒng)計;簡單問題復(fù)雜化在統(tǒng)計應(yīng)用中,這兩個極端都是不可取的簡單的方法不一定沒用,復(fù)雜的方法也不一定有用。正如有的學(xué)者所說的,最簡單的模型往往是最有用的統(tǒng)計應(yīng)該恰當?shù)貞?yīng)用到它能起作用的地方。不能把統(tǒng)計神秘化,更不能歪曲統(tǒng)計,把統(tǒng)計作為掩蓋實事的陷阱1.2數(shù)據(jù)及其分類按計量尺度分類別數(shù)據(jù)(categoricaldata)只能歸于某一類別的非數(shù)字型數(shù)據(jù)對事物進行分類的結(jié)果,數(shù)據(jù)表現(xiàn)為類別,用文字來表述分為無序類別數(shù)據(jù)和有序類別數(shù)據(jù)數(shù)值數(shù)據(jù)(metricdata)按數(shù)字尺度測量的觀察值結(jié)果表現(xiàn)為具體的數(shù)值,對事物的精確測度分為離散數(shù)據(jù)和連續(xù)數(shù)據(jù)數(shù)據(jù)——變量的觀測結(jié)果按收集方法分觀測的數(shù)據(jù)(observationaldata)通過調(diào)查或觀測而收集到的數(shù)據(jù)在沒有對事物人為控制的條件下而得到的有關(guān)社會經(jīng)濟現(xiàn)象的統(tǒng)計數(shù)據(jù)幾乎都是觀測數(shù)據(jù)實驗的數(shù)據(jù)(experimentaldata)在實驗中控制實驗對象而收集到的數(shù)據(jù)比如,對一種新藥療效的實驗,對一種新的農(nóng)作物品種的實驗等自然科學(xué)領(lǐng)域的數(shù)據(jù)大多數(shù)都為實驗數(shù)據(jù)按時間狀況分截面數(shù)據(jù)(cross-sectionaldata)在相同或近似相同的時間點上收集的數(shù)據(jù)描述現(xiàn)象在某一時刻的變化情況比如,2021年我國各地區(qū)的國內(nèi)生產(chǎn)總值數(shù)據(jù)時間序列數(shù)據(jù)(timeseriesdata)在不同時間上收集到的數(shù)據(jù)描述現(xiàn)象隨時間變化的情況比如,2000年至2021年國內(nèi)生產(chǎn)總值數(shù)據(jù)1.2數(shù)據(jù)及其分類數(shù)據(jù)——變量的觀測結(jié)果數(shù)據(jù)的分類按計量尺度類別數(shù)據(jù)無序類別數(shù)據(jù)有序類別數(shù)據(jù)數(shù)值數(shù)據(jù)離散數(shù)據(jù)連續(xù)數(shù)據(jù)按收集方法觀察數(shù)據(jù)實驗數(shù)據(jù)按時間狀況截面數(shù)據(jù)時間序列數(shù)據(jù)1.3統(tǒng)計中的基本概念總體(population)所研究的全部個體(數(shù)據(jù))的集合,其中的每一個個體也稱為元素分為有限總體和無限總體有限總體的范圍能夠明確確定,且元素的數(shù)目是有限的無限總體所包括的元素是無限的,不可數(shù)的樣本(sample)從總體中抽取的一部分元素的集合構(gòu)成樣本的元素的數(shù)目稱為樣本容量或樣本量(samplesize)總體和樣本1.3統(tǒng)計中的基本概念參數(shù)和統(tǒng)計量參數(shù)(parameter)描述總體特征的概括性數(shù)字度量,是研究者想要了解的總體的某種特征值所關(guān)心的參數(shù)主要有總體均值()、標準差(
)、總體比例()等總體參數(shù)通常用希臘字母表示統(tǒng)計量(statistic)用來描述樣本特征的概括性數(shù)字度量,它是根據(jù)樣本數(shù)據(jù)計算出來的一些量,是樣本的函數(shù)所關(guān)心的樣本統(tǒng)計量有樣本均值(
x)、樣本標準差(s)、樣本比例(p)等樣本統(tǒng)計量通常用小寫英文字母來表示1.3統(tǒng)計中的基本概念說明現(xiàn)象某種特征的概念如商品銷售額、受教育程度、產(chǎn)品的質(zhì)量等級等變量的具體表現(xiàn)稱為變量值,即數(shù)據(jù)變量可以分為類別變量(categoricalvariable):說明事物類別的名稱無序類別變量有序類別變量數(shù)值變量(metricvariable):說明事物數(shù)字特征的名稱離散變量:取有限個值連續(xù)變量:可以取無窮多個值變量(variable)思維導(dǎo)圖本書結(jié)構(gòu)數(shù)據(jù)來源和處理第2章數(shù)據(jù)來源和處理描述方法圖形展示第3章數(shù)據(jù)的圖形展示概括性度量第4章數(shù)據(jù)的概括性度量推斷方法估計方法第5章抽樣與參數(shù)估計檢驗方法第6章假設(shè)檢驗其他方法關(guān)系分析第7章相關(guān)與回歸分析時間序列第8章時間序列分析和預(yù)測描述應(yīng)用推斷本書結(jié)構(gòu)賈俊平2024/3/132.1數(shù)據(jù)的來源2.2數(shù)據(jù)的預(yù)處理2.3生成頻數(shù)分布表
數(shù)據(jù)來源和處理內(nèi)容提要本章主要介紹統(tǒng)計數(shù)據(jù)的來源及其基本的處理方法,以便為進一步的分析奠定基礎(chǔ)具體內(nèi)容包括數(shù)據(jù)的來源,介紹數(shù)據(jù)的直接來源和間接來源,抽樣方法以及抽取數(shù)據(jù)樣本的Excel實現(xiàn)數(shù)據(jù)的預(yù)處理,介紹數(shù)據(jù)審核、數(shù)據(jù)排序和篩選方法及Excel實現(xiàn)生成頻數(shù)分布表。介紹類別數(shù)據(jù)和數(shù)值數(shù)據(jù)頻數(shù)分布表的生成方法及Excel實現(xiàn)本章內(nèi)容提要2.1
數(shù)據(jù)的來源二手數(shù)據(jù)——別人調(diào)查或?qū)嶒灥臄?shù)據(jù)統(tǒng)計部門和政府部門公布的有關(guān)資料,如各類統(tǒng)計年鑒各類經(jīng)濟信息中心、信息咨詢機構(gòu)、專業(yè)調(diào)查機構(gòu)等提供的數(shù)據(jù)各類專業(yè)期刊、報紙、書籍所提供的資料各種會議,如博覽會、展銷會、交易會及專業(yè)性、學(xué)術(shù)性研討會上交流的有關(guān)資料從互聯(lián)網(wǎng)或圖書館查閱到的相關(guān)資料間接來源二手數(shù)據(jù)的特點收集容易,采集成本低作用廣泛分析所要研究的問題提供研究問題的背景幫助研究者更好地定義問題檢驗和回答某些疑問和假設(shè)尋找研究問題的思路和途徑收集二手資料在研究中應(yīng)優(yōu)先考慮二手數(shù)據(jù)的評估數(shù)據(jù)是誰收集的?可信度評估為什么目的而收集的?數(shù)據(jù)是怎樣收集的?什么時候收集的?2.1
數(shù)據(jù)的來源直接來源調(diào)查數(shù)據(jù)通過調(diào)查方法獲得的數(shù)據(jù)通常是對社會現(xiàn)象而言通常取自有限總體實驗數(shù)據(jù)通過實驗方法得到的數(shù)據(jù)通常是對自然現(xiàn)象而言也被廣泛運用到社會科學(xué)中如心理學(xué)、教育學(xué)、社會學(xué)、經(jīng)濟學(xué)、管理學(xué)等2.1
數(shù)據(jù)的來源數(shù)據(jù)抽樣——概率抽樣(probabilitysampling)簡單隨機抽樣(simplerandomsampling)從含有N個元素的總體中,抽取n個元素作為樣本,使得每一個容量為n的樣本都有相同的機會(概率)被抽中簡單隨機抽樣是其他抽樣方法的基礎(chǔ)有兩種抽取元素的方法:重復(fù)抽樣和不重復(fù)抽樣重復(fù)抽樣(samplingwithoutreplacement):從總體中抽取一個元素后,把這個元素放回到總體中再抽取第二個元素,直至抽取n個元素為止不重復(fù)抽樣(samplingwithreplacement:個元素被抽中后不再放回總體,然后再從所剩下的元素中抽取第二個元素,直到抽取n個元素為止分層抽樣(stratifiedsampling)在抽樣之前先將總體的元素劃分為若干層(類),然后從各個層中抽取一定數(shù)量的元素組成一個樣本,這樣的抽樣方式稱為分層抽樣,也稱分類抽樣(stratifiedsampling)在分層或分類時,應(yīng)使層內(nèi)各元素的差異盡可能小,而使層與層之間的差異盡可能大。各層的劃分可根據(jù)研究者的判斷或研究的需要進行。比如,研究的對象為人時,可按性別、年齡等分層;研究收入的差異時,可按城鄉(xiāng)分層,等等。分層抽樣是一種常用的抽樣方式。它具有以下優(yōu)點:分層抽樣除了可以對總體進行估計外,還可以對各層的子總體進行估計分層抽樣按自然區(qū)域或行政區(qū)域進行分層,可以使抽樣的組織和實施都比較方便分層抽樣的樣本分布在各個層內(nèi),從而使樣本在總體中的分布比較均勻分層抽樣可以提高估計的精度2.1
數(shù)據(jù)的來源數(shù)據(jù)抽樣——概率抽樣(probabilitysampling)系統(tǒng)抽樣(systematicsampling)也稱等距抽樣或機械抽樣。先將總體各元素按某種順序排列,并按某種規(guī)則確定一個隨機起點,然后,每隔一定的間隔抽取一個元素,直至抽取n個元素形成一個樣本系統(tǒng)抽樣具有以下優(yōu)點:簡便易行。當抽樣容量很大時,簡單隨機抽樣逐個使用隨機數(shù)字表抽選是相當麻煩的,而系統(tǒng)抽樣有了總體元素的排序,只要確定出抽樣的起點和間隔后,樣本元素也就隨之確定,而且可以利用現(xiàn)有的排列順序,如抽選學(xué)生時利用學(xué)校的花名冊,抽選居民時可利用居委會的戶口本等,方便操作。因此系統(tǒng)抽樣常用來代替簡單隨機抽樣。系統(tǒng)抽樣的樣本在總體中的分布一般也比較均勻,由此估計的誤差通常要小于簡單隨機抽樣。如果掌握了總體的有關(guān)信息,將總體各元素按有關(guān)標志排列,就可以提高估計的精度整群抽樣(clustersampling)先將總體劃分成若干群,然后以群作為抽樣單位從中抽取部分群,再對抽中的各個群中所包含的所有元素進行觀察整群抽樣時,對群的劃分可以按自然的或行政的區(qū)域進行,也可以人為地組成群。比如,在抽選地區(qū)時,可以將一個地區(qū)作為一群,在抽取居民戶時,可以將一個居民區(qū)作為一群整群抽樣的優(yōu)點是群的名單比較容易得到調(diào)查比較方便,節(jié)約費用。當群內(nèi)的各元素存在差異時,整群抽樣可以提供較好的結(jié)果,理想的情況是每一群都是整個總體的一個縮影。在這種情況下,抽取很少的群就可以提供有關(guān)總體特征的信息如果實際情況不是這樣,整群抽樣的誤差會很大,效果也就很差2.1
數(shù)據(jù)的來源數(shù)據(jù)抽樣——概率抽樣——例題分析【例2.1】表2-1是50學(xué)生的姓名、性別、專業(yè)和考試分數(shù)數(shù)據(jù),隨機抽取10個學(xué)生組成的一個樣本學(xué)生編號姓名性別專業(yè)考試分數(shù)1張青松男會計學(xué)822王宇翔男金融學(xué)813田思雨女會計學(xué)754徐麗娜女管理學(xué)865張志杰男會計學(xué)77……………21劉曉軍男管理學(xué)9146孫夢婷女管理學(xué)8647唐國健男管理學(xué)7548尹嘉韓男會計學(xué)7049王雯迪女會計學(xué)7350王思思女會計學(xué)80第1步:在工作表中點擊【數(shù)據(jù)】
【數(shù)據(jù)分析】。第2步:在彈出的對話框中選擇【抽樣】。單擊【確定】。第3步:在出現(xiàn)的對話框【輸入?yún)^(qū)域】中輸入要抽取一般的數(shù)據(jù)區(qū)域(本例中為學(xué)生代碼所在的區(qū)域);在【抽樣方法】中單擊【隨機】;在【樣本數(shù)】中輸入需要抽樣的樣本量(本例為20);在【輸出區(qū)域】中選擇抽樣結(jié)果放置的區(qū)域。單擊【確定】學(xué)生編號姓名性別專業(yè)考試分數(shù)6趙穎穎女金融學(xué)9739劉文濤男管理學(xué)7341馬家強男金融學(xué)8212馬鳳良男金融學(xué)558宋麗媛女會計學(xué)9244邱怡爽女金融學(xué)8315孫學(xué)偉男會計學(xué)5130李愛華女會計學(xué)9812馬鳳良男金融學(xué)5539劉文濤男管理學(xué)732.2數(shù)據(jù)的預(yù)處理數(shù)據(jù)審核就是檢查數(shù)據(jù)中是否有錯誤對于通過調(diào)查取得的原始數(shù)據(jù)(rawdata),主要從完整性和準確性兩個方面去審核。完整性審核主要是檢查應(yīng)調(diào)查個體是否有遺漏,所有的調(diào)查項目是否填寫齊全等。準確性審核主要是檢查數(shù)據(jù)是否有錯誤,是否存在異常值等對于通過其他渠道取得的二手數(shù)據(jù),應(yīng)著重審核數(shù)據(jù)的適用性和時效性應(yīng)弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景材料,以便確定這些數(shù)據(jù)是否符合自己分析研究的需要,不能盲目生搬硬套還要對數(shù)據(jù)的時效性進行審核,對于有些時效性較強的問題,如果所取得的數(shù)據(jù)過于滯后,可能失去了研究的意義數(shù)據(jù)審核與錄入——數(shù)據(jù)審核2.2數(shù)據(jù)的預(yù)處理數(shù)據(jù)錄入就是生成電子數(shù)據(jù)文件用Excel進行數(shù)據(jù)驗證第1步:用鼠標在工作表中選定錄入數(shù)據(jù)的單元格區(qū)域,如A1:B10單元格區(qū)域第2步:選擇【數(shù)據(jù)】→【數(shù)據(jù)驗證】第3步:在【驗證條件】的【允許】框內(nèi)選擇要錄入的數(shù)據(jù)類型,比如,“整數(shù)”(默認為任何值)。在【介于】框內(nèi)選擇驗證條件,或者在“最小值”和“最大值”框內(nèi)輸入數(shù)據(jù)范圍。比如,在【最小值】框內(nèi)輸入0,在【最大值】框內(nèi)輸入100。出現(xiàn)的界面如下圖所示第4步:點擊【出錯警告】,在【式樣】下選擇“警告”,在【錯誤信息】下輸入警告信息,比如“NA”。然后點擊【確定】,即可完成設(shè)置完成上述設(shè)置后,在此區(qū)域內(nèi)錄入不符合驗證條件的數(shù)據(jù)將會出現(xiàn)以下錯誤信息。比如,在A1單元格錄入1000,顯示的錯誤信息。選擇【是】,忽略此錯誤,選擇【否】則返回單元格,再重新錄入數(shù)據(jù)審核與錄入——數(shù)據(jù)錄入2.2數(shù)據(jù)的預(yù)處理
數(shù)據(jù)排序與篩選——數(shù)據(jù)排序2.2數(shù)據(jù)的預(yù)處理數(shù)據(jù)篩選(datafilter)是根據(jù)需要找出符合特定條件的某類數(shù)據(jù)用Excel進行數(shù)據(jù)篩選的過程篩選出考試分數(shù)大于等于90的學(xué)生第1步:將光標放在數(shù)據(jù)區(qū)域的任意單元格。然后點擊【數(shù)據(jù)】
【篩選】。這時繪在每個變量名中出現(xiàn)下拉箭頭第2步:點擊要篩選的變量的下拉箭頭即可對該變量進行篩選。比如,要篩選出考試分數(shù)大于等于90的學(xué)生,點擊考試分數(shù)變量的下拉箭頭第3步:點擊“大于或等于”,并在后面的框內(nèi)輸入90。點擊【確定】篩選出會計學(xué)專業(yè)考試分數(shù)小于60男生——使用【高級篩選】命令第1步:在工作表的上方插入3個空行,將數(shù)據(jù)表的第一行(變量名)復(fù)制到第1個空行;在第2個空行的相應(yīng)變量名下依次輸入篩選的條件第2步:選擇【數(shù)據(jù)】→【高級】。在列表區(qū)域輸入要篩選的數(shù)據(jù)區(qū)域;在條件區(qū)域輸入條件區(qū)域單擊【確定】數(shù)據(jù)排序與篩選——數(shù)據(jù)篩選2.3生成頻數(shù)分布表頻數(shù)(frequency)——落在某一特定類別(或組)中的數(shù)據(jù)個數(shù)頻數(shù)分布(frequencydistribution)——把各個類別及落在其中的相應(yīng)頻數(shù)全部列出,并用表格形式表現(xiàn)出來由于類別數(shù)據(jù)本身就是用文字表達的類別,因此,只要先把所有的類別都列出來,然后計算出每一類別的頻數(shù),即可生成一張頻數(shù)分布表頻數(shù)分布表中落在某一特定類別的數(shù)據(jù)個數(shù)就是頻數(shù)根據(jù)觀察變量的多少,可以生成簡單頻數(shù)表、二維列聯(lián)表和多維列聯(lián)表等類別數(shù)據(jù)的頻數(shù)分布表——簡單頻數(shù)表簡單的頻數(shù)表也稱為一維列聯(lián)表只涉及一個分類變量時,這個變量的各類別(取值)可以放在頻數(shù)分布表中“行”的位置,也可以放在“列”的位置,將該變量的各類別及其相應(yīng)的頻數(shù)列出來2.3生成頻數(shù)分布表類別數(shù)據(jù)的頻數(shù)分布表——簡單頻數(shù)表——例題分析【例2.3】沿用例2.1。分別制作學(xué)生性別和專業(yè)的簡單頻數(shù)表用Excel生成頻數(shù)分布表的步驟第1步:選擇【插入】→【數(shù)據(jù)透視表】第2步:在【表/區(qū)域】框內(nèi)選定數(shù)據(jù)區(qū)域(在操作前將光標放在任意數(shù)據(jù)單元格內(nèi),系統(tǒng)會自動選定數(shù)據(jù)區(qū)域)。選擇放置數(shù)據(jù)透視表的位置。系統(tǒng)默認是新工作表,如果要將透視表放在現(xiàn)有工作表中,選擇【現(xiàn)有工作表】,并在【位置】框內(nèi)點擊工作表的任意單元格(不要覆蓋數(shù)據(jù))。點擊【確定】第3步:用鼠標右鍵單擊數(shù)據(jù)透視表,選擇【數(shù)據(jù)透視表選項】,在彈出的對話框中點擊【顯示】,并選中【經(jīng)典數(shù)據(jù)透視表布局】,然后【確定】第4步:將數(shù)據(jù)透視的一個字段拖至“行”位置,將“另一個字段”拖至“列”的位置(行列可以互換),再將要計數(shù)的變量拖至“值字段”位置,即可生成需要的頻數(shù)分布表2.3生成頻數(shù)分布表類別數(shù)據(jù)的頻數(shù)分布表——二維列聯(lián)表——例題分析二維列聯(lián)表(contingencytable)也稱為交叉表(crosstable)涉及兩個分類變量時,通常將一個變量的各類別放在“行”的位置,另一個變量的各類別放在“列”的位置(行和列可以互換)生成頻數(shù)分布表,這樣表格就是列聯(lián)表可以使用比例(proportion)、百分比(percentage)、比率(ratio)等統(tǒng)計量進行描述。如果是有序類別數(shù)據(jù),還可以計算累積百分比(CumulativePercent)進行分析【例2.4】例如沿用例2.1。將性別放在行的位置、專專業(yè)放在列的位置,制作一個二維列聯(lián)表2.3生成頻數(shù)分布表數(shù)值數(shù)據(jù)的頻數(shù)分布表——例題分析生成數(shù)值數(shù)據(jù)的頻數(shù)分布表時,需要先將其類別化,即轉(zhuǎn)化為類別數(shù)據(jù),然后再生成頻數(shù)分布表。類別化的方法是將原始數(shù)據(jù)分成不同的組別數(shù)據(jù)分組是將數(shù)值數(shù)據(jù)轉(zhuǎn)化成類別數(shù)據(jù)的方法之一,它是先將數(shù)據(jù)按照一定的間距劃分成若干個區(qū)間,然后再統(tǒng)計出每個區(qū)間的頻數(shù),生成頻數(shù)分布表【例2.5】某電腦公司2021年前4個月的銷售額數(shù)據(jù)如表2-7所示。對數(shù)據(jù)額做適當分組,分析銷售額的分布特征2341591871551721831821771631581431981411671942251771891962031871602141681731781842091761881611521492111962341851891962061501611781681741531861901601712281622231701651791861751972081531632181801751441781911971921661961791712331791871731742101541642152331751882371941981681742261801721901721871892002111561651752102071812051952011722031651961721761821881952022132.3生成頻數(shù)分布表數(shù)值數(shù)據(jù)的頻數(shù)分布表——例題分析
2.3生成頻數(shù)分布表數(shù)值數(shù)據(jù)的頻數(shù)分布表——例題分析【例2.5】某電腦公司2021年前4個月的銷售額數(shù)據(jù)分組表
銷售額分組(萬元)天數(shù)(天)頻率(%)140-15043.3315--16097.50160-1701613.33170-1802722.50180-1902016.67190-2001714.17200-210108.33210=22086.67220-23043.33230-24054.17合計120100.00思維導(dǎo)圖本書結(jié)構(gòu)數(shù)據(jù)來源和處理數(shù)據(jù)來源間接來源和間接來源數(shù)據(jù)抽樣簡單隨機抽樣分層抽樣系統(tǒng)抽樣整群抽樣數(shù)據(jù)預(yù)處理審核與錄入排序與篩選生成頻數(shù)表分類數(shù)據(jù)數(shù)值數(shù)據(jù)來源間接和直接處理審核與錄入生成表頻數(shù)表賈俊平2024/3/133.1類別數(shù)據(jù)可視化3.2數(shù)值數(shù)據(jù)可視化3.3合理使用圖表
數(shù)據(jù)可視化內(nèi)容提要本章主要介紹數(shù)據(jù)可視化,也就是如何用圖形來展示數(shù)據(jù)。無論是做數(shù)據(jù)的描述、推斷還是其他分析,都離不開可視化問題??梢暬菙?shù)據(jù)分析的基本技能,也是學(xué)習(xí)統(tǒng)計必須掌握的知識具體內(nèi)容包括類別數(shù)據(jù)的可視化方法,主要介紹條形圖和餅圖的繪制方法數(shù)值數(shù)據(jù)的可視化方法,介紹反映數(shù)據(jù)分布特征的直方圖和箱形圖;反映數(shù)值變量之間關(guān)系的散點圖和氣泡圖;反映樣本相似性的雷達圖和輪廓圖;反映時間序列變化特征的折線圖和面積圖等使用圖表的注意事項,介紹圖表使用中應(yīng)注意的一些問題本章內(nèi)容提要3.1
類別數(shù)據(jù)可視化條形圖(barchart)用一定寬度的條形來表示各類別頻數(shù)的圖形,用于觀察不同類別頻數(shù)的多少或分布狀況繪制時,各類別可以放在橫軸,也可以放在縱軸,將各類別放在橫軸繪制的條形圖也稱為柱形圖(columnchart)只有一個分類變量時,可以繪制簡單條形圖和帕累托圖有兩個分類變量時,可以繪制簇狀條形圖或堆積條形圖條形圖簡單條形圖是根據(jù)一個分類變量繪制的,用于描述該變量的各類別的頻數(shù)分布狀況其中的各個類別可以放在橫軸,也可以放在縱軸帕累托圖(paretoplot)以意大利經(jīng)濟學(xué)家V.Pareto的名字而命名的,它是按各類別的頻數(shù)多少降序排列后繪制的條形圖。帕累托圖可以看做是簡單條形圖的一個變種簇狀條形圖或堆積條形圖可以將兩個變量的條形圖以簇狀或堆積的方式繪制3.1
類別數(shù)據(jù)可視化【例3.1】為研究不同地區(qū)的消費者對網(wǎng)上購物的滿意度,隨機抽取東部、中部和西部的2000個消費者進行調(diào)查,得到的結(jié)果如表3-1所示。繪制條形圖,分析各類別的人數(shù)分布狀況條形圖——簡單條形圖——例題分析東部中部西部總計非常滿意104140132376比較滿意156108120384一般148148160456不滿意156108140404非常不滿意156116108380總計72062066020003.1
類別數(shù)據(jù)可視化【例3.1】為研究不同地區(qū)的消費者對網(wǎng)上購物的滿意度,隨機抽取東部、中部和西部的2000個消費者進行調(diào)查,得到的結(jié)果如表3-1所示。繪制條形圖,分析各類別的人數(shù)分布狀況條形圖——帕累托圖——例題分析東部中部西部總計非常滿意104140132376比較滿意156108120384一般148148160456不滿意156108140404非常不滿意156116108380總計72062066020003.1
類別數(shù)據(jù)可視化【例3.1】——繪制簇狀條形圖和堆積條形圖條形圖——簇狀條形圖和堆積條形圖——例題分析3.1
類別數(shù)據(jù)可視化【例3.1】——繪制百分比堆積條形圖條形圖——簇狀條形圖和堆積條形圖——例題分析3.1
類別數(shù)據(jù)可視化餅圖(piechart)是用圓形及圓內(nèi)扇形的角度來表示一個樣本(或總體)中各類別的頻數(shù)占總頻數(shù)比例大小的圖形對于研究結(jié)構(gòu)性問題十分有用餅圖和環(huán)形圖——餅圖——例題分析3.1
類別數(shù)據(jù)可視化環(huán)形圖(doughnutchart)環(huán)形圖與餅圖類似,但又有區(qū)別。環(huán)形圖中間有一個“空洞”,每個樣本用一個環(huán)來表示,樣本中每一類別的頻數(shù)構(gòu)成用環(huán)中的一段表示。因此,環(huán)形圖可顯示多個樣本各類別頻數(shù)占其相應(yīng)總頻數(shù)的比例,從而有利于構(gòu)成的比較研究繪制環(huán)形圖時,先向圓心方向畫一條垂線(圓的半徑),然后順時針方向依次畫出各類別所占的百分比。其中樣本的順序依次從內(nèi)環(huán)到外環(huán)餅圖和環(huán)形圖——環(huán)形圖——例題分析3.2
數(shù)值數(shù)據(jù)可視化直方圖(histogram)用于展示數(shù)值數(shù)據(jù)分布的一種常用圖形它是用矩形的寬度和高度來表示頻數(shù)分布通過直方圖可以觀察數(shù)據(jù)分布的大體形狀,如分布是否對稱直方圖和箱形圖——直方圖不同直方圖所對應(yīng)的分布形狀3.2
數(shù)值數(shù)據(jù)可視化【例3.2】表3-2是2020年1月—6月北京市的PM2.5數(shù)據(jù)。繪制直方圖分析PM2.5的分布特征直方圖和箱形圖——直方圖——例題分析日期1月2月3月4月5月6月135921910819251312516552335018141459424431011233485612638304812…………………271582854196628171651059375529708645615928304668905315314464112020年1—6月北京市PM2.5的直方圖3.2
數(shù)值數(shù)據(jù)可視化直方圖和箱形圖——直方圖——例題分析2020年1—6月北京市PM2.5的直方圖(組距=15)2020年1—6月北京市PM2.5的直方圖(組距為15,下溢箱為10,溢出箱為180)3.2
數(shù)值數(shù)據(jù)可視化
直方圖和箱形圖——箱形圖3.2
數(shù)值數(shù)據(jù)可視化箱形圖的一般形式直方圖和箱形圖——箱形圖3.2
數(shù)值數(shù)據(jù)可視化不同分布形狀對應(yīng)的箱形圖直方圖和箱形圖——箱形圖3.2
數(shù)值數(shù)據(jù)可視化【例3.3】沿用例3.2。繪制箱形圖,分析各月份PM2.5分布的特征用Excel繪制箱形圖時,先將光標放在任意數(shù)據(jù)單元格,然后點擊【插入】
【插入統(tǒng)計圖表】,選擇【箱形圖】,即可繪制出箱形圖。根據(jù)需要再對圖形做必要的修改,比如,選擇不同的箱形圖式樣、更改坐標軸刻度、添加坐標軸標題、添加箱形圖的數(shù)值標簽等直方圖和箱形圖——箱形圖——例題分析3.2
數(shù)值數(shù)據(jù)可視化
散點圖和氣泡圖——散點圖——例題分析【例3.4】我國2019年31個地區(qū)的地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)投資和社會消費品零售總額數(shù)據(jù)。繪散點圖并觀察它們之間的關(guān)系地區(qū)地區(qū)生產(chǎn)總值房地產(chǎn)開發(fā)投資社會消費品零售總額北京市35371.33838.415063.7天津市14104.32727.84218.2河北省35104.54347.112985.5山西省17026.71656.57030.5內(nèi)蒙古自治區(qū)17212.51042.05051.1…………陜西省25793.23903.710213.0甘肅省8718.31257.93700.3青海省2966.0406.3948.5寧夏回族自治區(qū)3748.5403.11399.4新疆維吾爾自治區(qū)13597.11074.03617.03.2
數(shù)值數(shù)據(jù)可視化散點圖和氣泡圖——散點圖——例題分析【例3.4】我國2019年31個地區(qū)的地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)投資和社會消費品零售總額數(shù)據(jù)。繪散點圖并觀察它們之間的關(guān)系3.2
數(shù)值數(shù)據(jù)可視化氣泡圖(bubblechart)可以看作是散點圖的一個變種在氣泡圖中,第3個變量數(shù)值的大小用圓的大小表示散點圖和氣泡圖——氣泡圖——例題分析【例3.4】地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)投資、社會消費品零售總額3個變量繪制的氣泡圖3.2
數(shù)值數(shù)據(jù)可視化氣泡圖(bubblechart)可以看作是散點圖的一個變種在氣泡圖中,第3個變量數(shù)值的大小用圓的大小表示散點圖和氣泡圖——氣泡圖——例題分析【例3.4】地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)投資、社會消費品零售總額3個變量繪制的氣泡圖3.2
數(shù)值數(shù)據(jù)可視化雷達圖和輪廓圖——雷達圖——例題分析雷達圖(radarchart)從一個點出發(fā),用每一條射線代表一個變量,多個變量的數(shù)據(jù)點連接成線,即圍成一個區(qū)域,多個樣本圍成多個區(qū)域,就是雷達圖利用它也可以研究多個樣本之間的相似程度【例3.5】表3-4是2018年北京、天津、上海和重慶的人均消費支出數(shù)據(jù),繪制雷達圖,比較不同地區(qū)的家庭消費支出的特點和相似性地區(qū)食品煙酒衣著居住生活用品及服務(wù)交通通信教育文化娛樂醫(yī)療保健其他用品及服務(wù)北京8064.92175.514110.32371.94767.43999.43274.51078.6天津8647.51990.06406.31818.44280.93186.62676.9896.3上海10728.22036.814208.52095.54881.25049.43070.21281.5重慶6220.81454.53498.81338.92545.02087.81660.0442.83.2
數(shù)值數(shù)據(jù)可視化雷達圖和輪廓圖——雷達圖——例題分析【例3.5】——雷達圖3.2
數(shù)值數(shù)據(jù)可視化雷達圖和輪廓圖——輪廓圖——例題分析輪廓圖(outlinechart)也稱為平行坐標圖或多線圖它是用x軸表示各樣本,y軸表示每個樣本的多個變量的取值,將同一樣本的不同變量取值用折線連接,即為輪廓圖利用它也可以研究多個樣本之間的相似程度【例3.5】表3-4是2018年北京、天津、上海和重慶的人均消費支出數(shù)據(jù),繪制輪廓圖,比較不同地區(qū)的家庭消費支出的特點和相似性3.2
數(shù)值數(shù)據(jù)可視化折線圖和面積圖——折線圖——例題分析
【例3.1】例3.1中1月份和2月份的數(shù)據(jù)的PM2.5的折線圖3.2
數(shù)值數(shù)據(jù)可視化折線圖和面積圖——折線圖——例題分析
【例3.1】例3.1中1月份和2月份的數(shù)據(jù)的PM2.5的面積圖3.3
合理使用圖表使用圖表的注意事項精心設(shè)計的圖表可以準確表達數(shù)據(jù)所要傳遞的信息設(shè)計圖表時,應(yīng)盡可能簡潔,以能夠清晰地顯示數(shù)據(jù)、合理地表達統(tǒng)計目的為依據(jù)在繪制圖形時,應(yīng)避免一切不必要的修飾。過于花哨的修飾往往會使人注重圖形本身,而掩蓋了圖形所要表達的信息。圖形大體上為4:3的一個矩形,過長或過高的圖形都有可能歪曲數(shù)據(jù),給人留下錯誤的印象圖表應(yīng)有編號和標題。編號一般使用阿拉伯數(shù)字,如表1、表2等等。圖表的標題應(yīng)明示出表中數(shù)據(jù)所屬的時間(when)、地點(where)和內(nèi)容(what),即通常所說的3W準則。表的標題通常放在表的上方;圖的標題可放在圖的上方,也可放在圖的下方思維導(dǎo)圖本書結(jié)構(gòu)數(shù)據(jù)可視化類別數(shù)據(jù)觀察頻數(shù)簡單條形圖帕累托圖簇狀條形圖堆積條形圖觀察頻數(shù)構(gòu)成餅圖環(huán)形圖數(shù)值數(shù)據(jù)看分布直方圖箱形圖看關(guān)系散點圖氣泡圖看相似雷達圖輪廓圖時間序列折線圖面積圖數(shù)值數(shù)據(jù)其他數(shù)據(jù)類別數(shù)據(jù)賈俊平2024/3/134.1集中趨勢的度量4.2離散程度的度量4.3分布形狀的度量
數(shù)據(jù)分布特征的測度內(nèi)容提要數(shù)據(jù)分布的特征主要從三個方面進行測度和描述:一是分布的集中趨勢,反映各數(shù)據(jù)向其中心值靠攏或聚集的程度;二是分布的離散程度,反映各數(shù)據(jù)遠離其中心值的趨勢;三是分布的形狀,反映數(shù)據(jù)分布偏斜程度和峰度。這三個方面分別反映了數(shù)據(jù)分布特征的不同側(cè)面。本章將重點討論數(shù)據(jù)分布特征各測度值的計算方法、特點及應(yīng)用場合具體內(nèi)容包括集中趨勢的度量。介紹數(shù)據(jù)分布集中趨勢的各統(tǒng)計量,包括平均數(shù)、中位數(shù)、四分位數(shù)和眾數(shù)的計算方法、特點和應(yīng)用場合離散程度的度量,介紹測度數(shù)據(jù)離散程度的常用統(tǒng)計量,包括極差、四分位差、方差、標準差以及離散系數(shù)等偏度和峰度的度量,介紹偏度系數(shù)和峰度系數(shù)計算方法類別數(shù)據(jù)的可視化方法,主要介紹條形圖和餅圖的繪制方法本章內(nèi)容提要4.1
集中趨勢的度量
平均數(shù)簡單平均數(shù)加權(quán)平均數(shù)
4.1
集中趨勢的度量【例4.1】隨機抽取30個大學(xué)生,得到他們在“雙十一”期間的網(wǎng)購金額數(shù)據(jù),如表所示。計算30個人的平均網(wǎng)購金額平均數(shù)——簡單平均數(shù)——例題分析479.0721.2672.4728.7443.2381.3527.0500.0586.0500.0528.2633.8705.9423.5590.1353.6447.4565.3557.1481.3561.1620.1477.1436.2562.9505.1515.4502.7487.5675.4
4.1
集中趨勢的度量【例4.2】假定將表4-1的數(shù)據(jù)分成組距為50的組,分組結(jié)果如表4-2所示,計算網(wǎng)購金額的平均數(shù)平均數(shù)——加權(quán)平均數(shù)——例題分析
分組人數(shù)350~4002400~4504450~5004500~5507550~6006600~6502650~7002700~7503合計30分組350~4003752750400~45042541700450~50047541900500~55052573675550~60057563450600~65062521250650~70067521350700~75072532175合計
30162504.1
集中趨勢的度量中位數(shù)和四分位數(shù)——中位數(shù)——例題分析分位數(shù)——一組數(shù)據(jù)按從小到大排序后,可以找出排在某個位置上的數(shù)值,該數(shù)值可以代表數(shù)據(jù)水平的高低。這些位置上的數(shù)值就是相應(yīng)的分位數(shù)(quantile)。常用的分位數(shù)有中位數(shù)、四分位數(shù)、百分位數(shù)等中位數(shù)——排序后處于中間位置上的值。不受極端值影響位置確定數(shù)值計算
4.1
集中趨勢的度量中位數(shù)和四分位數(shù)——四分位數(shù)——例題分析四分位數(shù)——一組數(shù)據(jù)排序后處在25%和75%位置上的數(shù)值它是用3個點將全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù)。中間的四分位數(shù)就是中位數(shù),通常所說的四分位數(shù)是指處在25%位置上和75%位置上的兩個數(shù)值位置確定
4.1
集中趨勢的度量眾數(shù)——各度量值的比較眾數(shù)——一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù)適合于數(shù)據(jù)量較多時使用實際中很少使用平均數(shù)易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良,實際中最常用數(shù)據(jù)對稱分布或接近對稱分布時代表性較好中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時代表性接好眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大且有明顯峰值時代表性較好4.2
離散程度的度量極差和四分位差——極差
4.2
離散程度的度量極差和四分位差——四分位差
4.2
離散程度的度量方差和標準差方差——各變量值與均值的平均差異標準差——上四分位數(shù)與下四分位數(shù)之差
樣本標準差s
樣本標準差s
原始數(shù)據(jù)分組數(shù)據(jù)4.2
離散程度的度量方差和標準差——例題分析
【例4.6】沿用例4.2。根據(jù)表4-2的分組數(shù)據(jù),計算網(wǎng)購金額的標準差分組350~400375226879.6053759.21400~450425412984.6051938.41450~50047544089.6016358.41500~5505257194.601362.22550~60057561299.607797.61600~65062527404.6014809.21650~700675218509.6037019.21700~750725334614.60103843.81合計—30105976.82286888.08
4.2
離散程度的度量離散系數(shù)——例題分析離散系數(shù)——標準差與其相應(yīng)的均值之比對數(shù)據(jù)相對離散程度的測度消除了數(shù)據(jù)水平高低和計量單位的影響用于對不同組別數(shù)據(jù)離散程度的比較計算公式為【例4.7】評價哪名運動員的發(fā)揮更穩(wěn)定
姓名國家預(yù)賽成績決賽10槍成績(環(huán))納塔利婭·帕杰林娜俄羅斯39110.08.510.010.210.610.59.89.79.59.3郭文珺中國39010.010.510.410.410.110.39.410.710.89.7卓格巴德拉赫·蒙赫珠勒蒙古3879.310.08.78.39.29.58.510.79.29.2妮諾·薩盧克瓦澤格魯吉亞3869.810.310.09.510.210.710.410.69.110.8維多利亞·柴卡白俄羅斯3849.39.410.410.110.210.59.210.59.88.6萊萬多夫斯卡·薩貢波蘭3848.110.39.29.99.810.49.99.410.79.8亞斯娜·舍卡里奇塞爾維亞38410.29.69.99.99.39.19.710.09.39.9米拉·內(nèi)萬蘇芬蘭3848.79.39.210.39.810.09.79.99.99.74.2
離散程度的度量離散系數(shù)——例題分析【例4.7】評價哪名運動員的發(fā)揮更穩(wěn)定運動員國家平均環(huán)數(shù)標準差離散系數(shù)納塔利婭·帕杰林娜俄羅斯9.810.61540.0627郭文珺中國10.230.43730.0427卓格巴德拉赫·蒙赫珠勒蒙古國9.260.70740.0764妮諾·薩盧克瓦澤格魯吉亞10.140.54610.0539維多利亞·柴卡白俄羅斯9.800.64980.0663萊萬多夫斯卡·薩貢波蘭9.730.73340.0754亞斯娜·舍卡里奇塞爾維亞9.690.35730.0369米拉·內(nèi)萬蘇芬蘭9.650.46250.0479結(jié)論:從離散系數(shù)可以看出,在最后10槍的決賽中,發(fā)揮比較穩(wěn)定的運動員是塞爾維亞的亞斯娜·舍卡里奇和中國的郭文珺,發(fā)揮不穩(wěn)定的運動員是蒙古國的卓格巴德拉赫·蒙赫珠勒和波蘭的萊萬多夫斯卡·薩貢4.2
離散程度的度量標準分數(shù)——例題分析標準分數(shù)——也稱標準化值對某一個值在一組數(shù)據(jù)中相對位置的度量可用于判斷一組數(shù)據(jù)是否有離群點(outlier)用于對變量的標準化處理計算公式為
4.2
離散程度的度量標準分數(shù)——例題分析【例4.8】沿用例4.1。計算30個人網(wǎng)購金額的標準分數(shù)網(wǎng)購金額標準分數(shù)網(wǎng)購金額標準分數(shù)網(wǎng)購金額標準分數(shù)479.0-0.6141672.41.3670443.2-0.9808527.0-0.1224586.00.4820528.2-0.1101705.91.7102590.10.5240447.4-0.9378557.10.1859561.10.2269477.1-0.6336562.90.2453515.4-0.2412487.5-0.5270721.21.8669728.71.9438381.3-1.6149500.0-0.3990500.0-0.3990633.80.9716423.5-1.1826353.6-1.8987565.30.2699481.3-0.5906620.10.8313436.2-1.0526505.1-0.3468502.7-0.3713675.41.39784.2
離散程度的度量標準分數(shù)——經(jīng)驗法則與切比雪夫不等式經(jīng)驗法則根據(jù)標準分數(shù),可以判斷一組數(shù)據(jù)中是否存在離群點(outlier)經(jīng)驗表明:當一組數(shù)據(jù)對稱分布時,約有68.26%的數(shù)據(jù)在平均數(shù)加減1個標準差的范圍之內(nèi);約有95.44%的數(shù)據(jù)在平均數(shù)加減2個標準差的范圍之內(nèi);約有99%的數(shù)據(jù)在平均數(shù)加減3個標準差的范圍之內(nèi)一組數(shù)據(jù)中低于或高于平均數(shù)3倍標準差之外的數(shù)值是很少的,也就是說,在平均數(shù)加減3個標準差的范圍內(nèi)幾乎包含了全部數(shù)據(jù),而在3個標準差之外的數(shù)據(jù)在統(tǒng)計上也稱為離群點4.2
離散程度的度量標準分數(shù)——經(jīng)驗法則與切比雪夫不等式切比雪夫不等式(Chebyshev’sinequality)經(jīng)驗法則適合對稱分布的數(shù)據(jù)。如果一組數(shù)據(jù)不是對稱分布,經(jīng)驗法則就不再適用,這時可使用切比雪夫不等式它對任何分布形態(tài)的數(shù)據(jù)都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”,對于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式:至少有(1-1/k2)的數(shù)據(jù)落在±k個標準差之內(nèi)。其中k是大于1的任意值,但不一定是整數(shù)。對于k=2,3,4,該不等式的含義是:至少有75%的數(shù)據(jù)在平均數(shù)±2個標準差的范圍之內(nèi)。至少有89%的數(shù)據(jù)在平均數(shù)±3個標準差的范圍之內(nèi)。至少有94%的數(shù)據(jù)在平均數(shù)±4個標準差的范圍之內(nèi)。4.3
分布形狀的度量偏度系數(shù)和峰度系數(shù)
峰度(kurtosis)——指數(shù)據(jù)分布峰值的高低由統(tǒng)計學(xué)家K.Pearson于1905年首次提出峰度系數(shù)—測度一組數(shù)據(jù)分布峰值高低的統(tǒng)計量是(coefficientofkurtosis),記作K計算公式
4.3
分布形狀的度量偏度系數(shù)和峰度系數(shù)——例題分析
4.3
分布形狀的度量偏度系數(shù)和峰度系數(shù)——例題分析【例4.9】沿用例4.1。計算30個人網(wǎng)購金額的偏度系數(shù)和峰度系數(shù)Excel實現(xiàn)第1步:將光標放在任意空白單元格。然后點擊【數(shù)據(jù)】
【數(shù)據(jù)分析】。在分析工具中選擇【描述統(tǒng)計】。單擊【確定】。第2步:在【輸入?yún)^(qū)域】輸入原始數(shù)據(jù)所在的區(qū)域;在【輸出選項】中選擇結(jié)果的輸出位置;選擇【匯總統(tǒng)計】(其他選項可根據(jù)需要選擇)。單擊【確定】即可得到結(jié)果統(tǒng)計量名稱計算結(jié)果平均538.95標準誤差17.82291中位數(shù)521.2眾數(shù)500標準差97.62009方差9529.681峰度-0.40747偏度0.340565區(qū)域375.1最小值353.6最大值728.7求和16168.5觀測數(shù)304.3
分布形狀的度量偏度系數(shù)——例題分析Excel中的描述函數(shù)函數(shù)名語法功能AVEDEVAVEDEV(number1,number2,...)計算平均差A(yù)VERAGEAVERAGE(number1,number2,...)計算平均數(shù)GEOMEANGEOMEAN(number1,number2,...)計算幾何平均數(shù)HARMEANHARMEAN(number1,number2,...)計算簡單調(diào)和平均數(shù)KURTKURT(number1,number2,...)計算峰態(tài)系數(shù)MODEMODE(number1,number2,...)計算眾數(shù)MEDIANMEDIAN(number1,number2,...)計算中位數(shù)QUARTILEQUARTILE(array,quart)計算四分位數(shù)SKEWSKEW(number1,number2,...)計算偏態(tài)系數(shù)STDEVSTDEV(number1,number2,...)計算樣本標準差STDEVPSTDEVP(number1,number2,...)計算總體標準差TRIMMEANTRIMMEAN(array,percent)計算切尾均值思維導(dǎo)圖本書結(jié)構(gòu)分布特征的測度集中趨勢平均數(shù)中位數(shù)四分位數(shù)眾數(shù)離散程度極差和四分位差方差和標準差離散系數(shù)標準分數(shù)分布形狀偏度系數(shù)峰度系數(shù)數(shù)值特征水平差異形狀賈俊平2024/3/135.1統(tǒng)計量的抽樣分布5.2參數(shù)估計的基本原理5.3總體均值的區(qū)間估計5.4總體比的區(qū)間估計5.5樣本量的確定
參數(shù)估計內(nèi)容提要參數(shù)估計是推斷統(tǒng)計的重要內(nèi)容之一。它是在抽樣及抽樣分布的基礎(chǔ)上,根據(jù)樣本統(tǒng)計量來推斷所關(guān)心的總體參數(shù)。本章首先介紹抽樣分布的有關(guān)知識,然后上介紹參數(shù)估計的基本方法,最后介紹參數(shù)估計中樣本量的確定問題具體內(nèi)容包括抽樣分布。主要解釋樣本均值和一般比例的抽樣分布,為理解參數(shù)估計奠定基礎(chǔ)參數(shù)估計的基本原理。介紹點估計和區(qū)間估計的基本思想和原理總體均值的區(qū)間估計。介紹一個總體均值的區(qū)間估計方法,包括正態(tài)總體方差已知和非正態(tài)總體大樣本條件下總體均值的區(qū)間估計,以及正態(tài)總體方差未知及小樣本條件下總體均值的區(qū)間估計體比例的估計。主要介紹大樣本情形下總體比例的區(qū)間估計樣本量的確定。分別介紹估計總體均值時和估計總體比例時樣本量的確定方法本章內(nèi)容提要5.1
統(tǒng)計量的抽樣分布
什么是抽樣分布5.1
統(tǒng)計量的抽樣分布
樣本均值的分布5.1
統(tǒng)計量的抽樣分布
樣本均值的分布——例題分析樣本樣本中的元素11,11.021,21.531,32.041,42.552,11.562,22.072,32.582,43.093,12.0103,22.5113,33.0123,43.5134,12.5144,23.0154,33.5164,44.01.011.522.032.543.033.524.015.1
統(tǒng)計量的抽樣分布
樣本均值的分布——例題分析5.1
統(tǒng)計量的抽樣分布抽樣均值的分布與總體分布及樣本量的關(guān)系樣本均值的分布——與總體分布及樣本量的關(guān)系5.1
統(tǒng)計量的抽樣分布
樣本均值的分布——中心極限定理5.1
統(tǒng)計量的抽樣分布從0~100均勻分布的總體和指數(shù)分布的總體中分別抽取樣本量為2、10和30的各5000個樣本,樣本均值的分布如圖所示圖中的U表示均勻分布,E表示指數(shù)分布樣本均值的分布——中心極限定理的模擬5.1
統(tǒng)計量的抽樣分布
樣本均值的分布——分布的參數(shù)特征5.1
統(tǒng)計量的抽樣分布
樣本比例的分布——比例5.1
統(tǒng)計量的抽樣分布
樣本比例的分布5.1
統(tǒng)計量的抽樣分布
統(tǒng)計量的標準誤5.1
統(tǒng)計量的抽樣分布估計的標準誤當總體標準差
未知時,可用樣本標準差s代替計算,這時計算的標準誤也稱為估計標準誤(standarderrorofestimation)由于實際應(yīng)用中,總體
通常是未知時,所計算的標準誤實際上都是估計標準誤,因此估計標準誤就簡稱為標準誤(統(tǒng)計軟件中得到的都是估計標準誤)統(tǒng)計量的標準誤5.2
參數(shù)估計的基本原理
估計量與估計值5.2
參數(shù)估計的基本原理
點估計與區(qū)間估計5.2
參數(shù)估計的基本原理點估計與區(qū)間估計區(qū)間估計——在點估計的基礎(chǔ)上,給出總體參數(shù)估計的一個估計區(qū)間根據(jù)樣本統(tǒng)計量所構(gòu)造的總體參數(shù)的估計區(qū)間,稱為置信區(qū)間(confidenceinterval,CI),其中區(qū)間的最小值稱為置信下限,最大值稱為置信上限。該區(qū)間由樣本統(tǒng)計量加減估計誤差而得到區(qū)間估計的圖示5.2
參數(shù)估計的基本原理點估計與區(qū)間估計——置信水平
置信水平90%0.100.051.64595%0.050.0251.9699%0.010.0052.585.2
參數(shù)估計的基本原理點估計與區(qū)間估計——置信區(qū)間的理解
5.2
參數(shù)估計的基本原理點估計與區(qū)間估計——置信區(qū)間的理解
5.3
總體均值的區(qū)間估計
正態(tài)總體方差已知,或非正態(tài)總體大樣本
5.3
總體均值的區(qū)間估計
正態(tài)總體方差已知,或非正態(tài)總體大樣本——例題分析【例5.2】一家食品生產(chǎn)企業(yè)以生產(chǎn)袋裝食品為主,每天的產(chǎn)量大約為8000袋左右。按規(guī)定每袋的重量應(yīng)為100克。為對產(chǎn)量質(zhì)量進行監(jiān)測,企業(yè)質(zhì)檢部門經(jīng)常要進行抽檢,以分析每袋重量是否符合要求?,F(xiàn)從某天生產(chǎn)的一批食品中隨機抽取了25袋,測得每袋重量如表5-4所示
112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.35.3
總體均值的區(qū)間估計
正態(tài)總體方差已知,或非正態(tài)總體大樣本——例題分析
5.3
總體均值的區(qū)間估計
正態(tài)總體方差已知,或非正態(tài)總體大樣本——例題分析【例5.3】一家保險公司收集到由36位投保個人組成的隨機樣本,得到每位投保人的年齡(單位:周歲)數(shù)據(jù)如表5-5
2335392736443642464331334253455447243428393644403949383448503439454845325.3
總體均值的區(qū)間估計
正態(tài)總體方差未知,小樣本
5.3
總體均值的區(qū)間估計
正態(tài)總體方差未知,小樣本——例題分析【例5.4】已知某種燈泡的壽命服從正態(tài)分布,現(xiàn)從一批燈泡中隨機抽取16只,測得其使用壽命(單位:小時)如表5-6所示
15101450148014601520148014901460148015101530147015001520151014705.3
總體均值的區(qū)間估計
正態(tài)總體方差未知,小樣本——例題分析
5.4
總體比例間估計總體比例的區(qū)間估計——大樣本
5.4
總體比例間估計總體比例的區(qū)間估計——大樣本【例5.5】某城市交通管理部門想要估計贊成機動車限行的人數(shù)比例,隨機抽取了100個機動車主,其中65人表示贊成。試以95%的置信水平估計該城市贊成機動車限行的人數(shù)比例的置信區(qū)間
5.4
總體均值和比例間估計總體均值和比例的區(qū)間估計——小結(jié)參數(shù)點估計量標準誤差假定條件p5.5
樣本量的確定估計總體均值時樣本量的確定
5.5
樣本量的確定估計總體均值時樣本量的確定
5.5
樣本量的確定估計總體比例時樣本量的確定
5.5
樣本量的確定估計總體比例時樣本量的確定——例題分析
5.5
樣本量的確定估計總體均值時樣本量的確定
思維導(dǎo)圖本書結(jié)構(gòu)參數(shù)估計統(tǒng)計推斷的理論基礎(chǔ)抽樣分布樣本均值的部分樣本比例的分布統(tǒng)計量的標準誤總體均值的區(qū)間估計正態(tài)總體方差已知或非正態(tài)總體大樣本正態(tài)分布正態(tài)總體、方差未知小樣本t分布總體比例的區(qū)間估計大樣本正態(tài)分布樣本量的確定估計總體均值時的樣本量估計總體比例時的樣本量參數(shù)統(tǒng)計量誤差賈俊平2024/3/136.1假設(shè)檢驗的基本原理6.2總體均值的檢驗6.3總體比例的檢驗
假設(shè)檢驗內(nèi)容提要
本章內(nèi)容提要6.1
假設(shè)檢驗的基本原理假設(shè)的陳述——假設(shè)與假設(shè)檢驗假設(shè)—在參數(shù)檢驗中,是對總體參數(shù)的具體數(shù)值所作的陳述就一個總體而言,總體參數(shù)包括總體均值、比例、方差等分析之前必需陳述假設(shè)檢驗—先對總體的參數(shù)(或分布形式)提出某種假設(shè),然后利用樣本信息判斷假設(shè)是否成立的統(tǒng)計方法有參數(shù)檢驗和非參數(shù)檢驗邏輯上運用反證法,統(tǒng)計上依據(jù)小概率原理小概率是在一次試驗中,一個幾乎不可能發(fā)生的事件發(fā)生的概率在一次試驗中小概率事件一旦發(fā)生,我們就有理由拒絕原假設(shè)6.1
假設(shè)檢驗的基本原理如何提出假設(shè)——原假設(shè)與備擇假設(shè)
6.1
假設(shè)檢驗的基本原理如何提出假設(shè)——例題分析【例6.1】一種零件的生產(chǎn)標準是直徑應(yīng)為10cm,為對生產(chǎn)過程進行控制,質(zhì)量監(jiān)測人員定期對一臺加工機床檢查,確定這臺機床生產(chǎn)的零件是否符合標準要求。如果零件的平均直徑大于或小于10cm,則表明生產(chǎn)過程不正常,必須進行調(diào)整。試陳述用來檢驗生產(chǎn)過程是否正常的原假設(shè)和備擇假設(shè)
6.1
假設(shè)檢驗的基本原理如何提出假設(shè)——例題分析【例6.2】某品牌洗滌劑在它的產(chǎn)品說明書中聲稱:平均凈含【例6.2】某品牌洗滌劑在它的產(chǎn)品說明書中聲稱:平均凈含量不少于500g。從消費者的利益出發(fā),有關(guān)研究人員要通過抽檢其中的一批產(chǎn)品來驗證該產(chǎn)品制造商的說明是否屬實。試陳述用于檢驗的原假設(shè)與備擇假設(shè)
6.1
假設(shè)檢驗的基本原理如何提出假設(shè)——例題分析【例6.3】一家研究機構(gòu)估計,某城市中家庭擁有汽車的比例超過30%。為驗證這一估計是否正確,該研究機構(gòu)隨機抽取了一個樣本進行檢驗。試陳述用于檢驗的原假設(shè)與備擇假設(shè)
6.1
假設(shè)檢驗的基本原理如何提出假設(shè)——問題總結(jié)原假設(shè)和備擇假設(shè)是一個完備事件組,而且相互對立。這意味著,在一項假設(shè)檢驗中,原假設(shè)和備擇假設(shè)必有一個成立,而且只有一個成立在建立假設(shè)時,通常是先確定備擇假設(shè),然后再確定原假設(shè)。這樣做的原因是備擇假設(shè)是我們所關(guān)心的,是想予以支持或證實的,因而比較清楚,容易確定。由于原假設(shè)和備擇假設(shè)是對立的,只要確定了備擇假設(shè),原假設(shè)就很容易確定出來在假設(shè)檢驗中,等號“=”總是放在原假設(shè)上在面對某一實際問題時,由于不同的研究者有不同的研究目的,即使對同一問題也可能提出截然相反的原假設(shè)和備擇假設(shè)通常情形下,由于檢驗的目的不同,原假設(shè)可以根據(jù)3種情形來確定:①如果檢驗的目的是確定參數(shù)是否已經(jīng)發(fā)生變化,這時,原假設(shè)的值可以根據(jù)過去的經(jīng)驗、對過程的了解情形來確定。②如果檢驗的目的是證明某種理論或模型是否正確,原假設(shè)的值可以通過有關(guān)這個過程的一些理論或模型來確定。③如果檢驗的目的是檢驗是否符合某種特定標準,原假設(shè)的值可以根據(jù)事先設(shè)計的標準或合同的要求來確定假設(shè)檢驗的目的主要是收集證據(jù)拒絕原假設(shè)。原假設(shè)最初被假設(shè)是成立的,之后就是要根據(jù)樣本數(shù)據(jù),確定是否有足夠的不符合原假設(shè)的證據(jù)以拒絕原假設(shè)6.1
假設(shè)檢驗的基本原理假設(shè)的形式——雙側(cè)檢驗與單側(cè)檢驗雙側(cè)檢驗—備擇假設(shè)沒有特定的方向性,并含有符號“
”的假設(shè)檢驗,稱為雙側(cè)檢驗或雙尾檢驗(two-tailedtest)單側(cè)檢驗—備擇假設(shè)具有特定的方向性,并含有符號“>”或“<”的假設(shè)檢驗,稱為單側(cè)檢驗或單尾檢驗(one-tailedtest)備擇假設(shè)的方向為“<”,稱為左側(cè)檢驗
備擇假設(shè)的方向為“>”,稱為右側(cè)檢驗假設(shè)雙側(cè)檢驗單側(cè)檢驗左側(cè)檢驗右側(cè)檢驗原假設(shè)備擇假設(shè)6.1
假設(shè)檢驗的基本原理兩類錯誤與顯著性水平
6.1
假設(shè)檢驗的基本原理兩類錯誤與顯著性水平——決策及其后果決策結(jié)果實際情形正確決策正確決策6.1
假設(shè)檢驗的基本原理檢驗統(tǒng)計量與拒絕域
6.1
假設(shè)檢驗的基本原理檢驗統(tǒng)計量與拒絕域拒絕域拒絕域臨界值臨界值0
/2
/2非拒絕域
非拒絕域
拒絕域臨界值0
拒絕域臨界值0
雙側(cè)檢驗左側(cè)檢驗右側(cè)檢驗雙側(cè)檢驗:│統(tǒng)計量│>臨界值,拒絕原假設(shè)左側(cè)檢驗:統(tǒng)計量的值<-臨界值,拒絕原假設(shè)右側(cè)檢驗:統(tǒng)計量的值>臨界值,拒絕原假設(shè)6.1
假設(shè)檢驗的基本原理用P值決策
6.1
假設(shè)檢驗的基本原理用P值決策雙側(cè)檢驗左側(cè)檢驗右側(cè)檢驗2P臨界值臨界值0
/2
/2計算出的統(tǒng)計量值計算出的統(tǒng)計量值P值臨界值0
計算出的統(tǒng)計量值P值臨界值0
計算出的統(tǒng)計量值
6.1
假設(shè)檢驗的基本原理用P值決策
6.1
假設(shè)檢驗的基本原理用P值決策與統(tǒng)計量決策的差異
統(tǒng)計量1統(tǒng)計量2拒絕H0的P1拒絕H0的
0拒絕H0的P2P6.1
假設(shè)檢驗的基本原理結(jié)果的表述
6.1
假設(shè)檢驗的基本原理小結(jié)——假設(shè)檢驗的步驟
6.2
總體均值的檢驗大樣本的檢驗方法
總體方差已知總體方差未知6.2
總體均值的檢驗大樣本的檢驗方法——例題分析
拒絕H0拒絕H0-1.961.9600.0250.025Z=1.016.2
總體均值的檢驗大樣本的檢驗方法——公式列表
雙側(cè)檢驗左側(cè)檢驗右側(cè)檢驗假設(shè)形式檢驗統(tǒng)計量P值決策準則6.2
總體均值的檢驗小樣本的檢驗方法
總體方差已知總體方差未知
雙側(cè)檢驗左側(cè)檢驗右側(cè)檢驗假設(shè)形式檢驗統(tǒng)計量P值決策準則6.2
總體均值的檢驗大樣本的檢驗方法——例題分析【例6.7】一種汽車配件的平均長度要求為12cm,高于或低于該標準均被認為是不合格的。汽車生產(chǎn)企業(yè)在購進配件時,通常是經(jīng)過招標,然后對中標的配件提供商提供的樣品進行檢驗,以決定是否采購?,F(xiàn)對一個配件提供商提供的10個樣本進行了檢驗,結(jié)果如下。假定該供貨商生產(chǎn)的配件長度服從正態(tài)分布,在0.05的顯著性水平下,檢驗該供貨商提供的配件是否符合要求12.210.812.011.811.912.411.312.212.012.36.2
總體均值的檢驗大樣本的檢驗方法——例題分析
拒絕域
22已知拒絕域t=-2.262t=2.26200.0250.025-0.70536.2
總體均值的檢驗一個總體均值檢驗的流程6.3
總體比例的檢驗大樣本的檢驗方法假定條件總體服從二項分布可用正態(tài)分布來近似(大樣本)檢驗的z統(tǒng)計量
雙側(cè)檢驗左側(cè)檢驗右側(cè)檢驗假設(shè)形式檢驗統(tǒng)計量P值決策準則6.3
總體比例的檢驗大樣本的檢驗方法——例題分析
6.3
總體比例的檢驗大樣本的檢驗方法——例題分析檢驗統(tǒng)計量的觀察值z=-2.475拒絕H0拒絕H0-1.961.9600.0250.025拒絕H0拒絕H0-2.582.5800.0050.005檢驗統(tǒng)計量的觀察值z=-2.475(a)顯著性水平為0.05(b)顯著性水平為0.01思維導(dǎo)圖本書結(jié)構(gòu)假設(shè)檢驗基本原理提出假設(shè)兩類錯誤和顯著性水平經(jīng)驗統(tǒng)計量和拒絕域用P值決策總體均值的經(jīng)驗大樣本正態(tài)分布正態(tài)總體方差已知小樣本正態(tài)分布正態(tài)總體方差未知小樣本t分布總體比例的經(jīng)驗大樣本t分布提出假設(shè)構(gòu)建統(tǒng)計量計算P值做出決策表述結(jié)果賈俊平2024/3/137.1變量間關(guān)系的度量7.2一元線性回歸分析7.3利用回歸方程進行估計和預(yù)測
相關(guān)與回歸分析內(nèi)容提要相關(guān)與回歸是分析變量之間關(guān)系的統(tǒng)計方法。從所處理的變量多少來看,如果研究的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二四年基礎(chǔ)設(shè)施建設(shè)項目施工圖設(shè)計委托合同3篇
- 2025年度高端健身房裝修施工合同范本4篇
- 2025版木雕工藝品市場調(diào)研與品牌推廣合同3篇
- 水稻種植保險服務(wù)2025年度合同2篇
- 二零二五版門窗行業(yè)環(huán)保與可持續(xù)發(fā)展合作合同3篇
- 2025年電梯安裝與城市更新項目合同2篇
- 二零二五年度船舶船員勞務(wù)合同(海洋工程咨詢)3篇
- 二零二五年度廚房電器配件采購合同樣本4篇
- 2025年度新能源汽車核心部件承攬合同(GF(2024版)規(guī)范)4篇
- 2025年鎂質(zhì)磚項目可行性研究報告
- 鄉(xiāng)村治理中正式制度與非正式制度的關(guān)系解析
- 2024版義務(wù)教育小學(xué)數(shù)學(xué)課程標準
- 智能護理:人工智能助力的醫(yī)療創(chuàng)新
- 國家中小學(xué)智慧教育平臺培訓(xùn)專題講座
- 5G+教育5G技術(shù)在智慧校園教育專網(wǎng)系統(tǒng)的應(yīng)用
- 服務(wù)人員隊伍穩(wěn)定措施
- VI設(shè)計輔助圖形設(shè)計
- 淺談小學(xué)勞動教育的開展與探究 論文
- 2023年全國4月高等教育自學(xué)考試管理學(xué)原理00054試題及答案新編
- 河北省大學(xué)生調(diào)研河北社會調(diào)查活動項目申請書
- JJG 921-2021環(huán)境振動分析儀
評論
0/150
提交評論