版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第3章統(tǒng)計數(shù)據(jù)的描述
作者:首都經(jīng)濟貿(mào)易大學(xué)統(tǒng)計學(xué)院吳啟富第3章統(tǒng)計數(shù)據(jù)的描述
3.1統(tǒng)計數(shù)據(jù)的預(yù)處理3.2定性數(shù)據(jù)的圖表描述3.3數(shù)值型數(shù)據(jù)的圖表描述學(xué)習(xí)目標(biāo)了解數(shù)據(jù)的審核、篩選及排序等預(yù)處理的基本方法。
熟悉分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)的圖形描述。了解分組方法及分組數(shù)據(jù)的描述方法。掌握各種圖形的excel操作方法。3.1統(tǒng)計數(shù)據(jù)的預(yù)處理3.1.1數(shù)據(jù)的審核和篩選3.1.2數(shù)據(jù)的排序3.1.1數(shù)據(jù)的審核和篩選
數(shù)據(jù)的審核
是針對數(shù)據(jù)的真實性和完整性進行審查。
對于原始數(shù)據(jù)的審核,主要集中在數(shù)據(jù)的真實性和完整性兩個方面。真實性主要是判斷所搜集資料是否符合實際情況。判斷方法:抽查復(fù)核與異常值判斷完整性主要是審查所要調(diào)查的調(diào)查單位是否有遺漏,所要調(diào)查的項目是否填答齊全。包括空間的完整性和內(nèi)容的完整性兩個方面。二手數(shù)據(jù)的審核二手數(shù)據(jù)的審核主要是從適用性和時效性兩方面分析。適用性是指二手數(shù)據(jù)對我們分析特定問題的滿足程度。使用二手數(shù)據(jù)時必須清楚數(shù)據(jù)的來源、口徑及其他背景資料,以判斷其適用性。時效性是指數(shù)據(jù)的時間屬性對我們研究問題的滿足程度。數(shù)據(jù)的篩選數(shù)據(jù)的篩選數(shù)據(jù)的篩選就是根據(jù)審查的結(jié)果將不真實的、無法彌補的非完整數(shù)據(jù)予以剔除,并根據(jù)分析的需要依據(jù)數(shù)據(jù)的口徑、范圍等因素,剔除不滿足條件的數(shù)據(jù),以保證數(shù)據(jù)的適用性數(shù)據(jù)的篩選數(shù)據(jù)的篩選一般可以借助計算機完成。下面以Excel為例說明數(shù)據(jù)的篩選過程,不同的版本會略有不同,我們以Excel-2007版為例?!纠?.1】某公司主管想了解職工工資(單位:元)的情況,首先,根據(jù)相關(guān)資料建立Excel文件如表3.1所示(數(shù)據(jù):3.1gz.xlsx):
表3.1公司職工工資基本情況數(shù)據(jù)的篩選若該主管想觀察男性職工中基本工資大于等于2500元,且崗位津貼大于3000元的職工,利用Excel對該資料進行篩選的基本步驟為:第1步:選中數(shù)據(jù)文件中的任一單元格,單擊工具欄中的【排序和篩選】按鈕,出現(xiàn)下拉菜單,如圖3.1所示:圖3.1數(shù)據(jù)篩選過程1—篩選命令菜單數(shù)據(jù)的篩選第2步:在下拉菜單中單擊【篩選】命令,各列首行出現(xiàn)向下箭頭,如圖3.2所示:圖3.2數(shù)據(jù)篩選過程2—建立篩選變量表數(shù)據(jù)的篩選第3步:單擊要篩選變量的箭頭,出現(xiàn)下拉菜單,如本例先篩選性別,則單擊“性別”單元格中的箭頭,出現(xiàn)篩選菜單如圖3.3所示:圖3.3數(shù)據(jù)篩選過程3—指定篩選變量數(shù)據(jù)的篩選第4步:在圖3中下拉菜單中,單擊【全選】按鈕,即去掉所有方框中的“√”,然后單擊【男】按鈕,回復(fù)該選項前方框中的“√”,即選擇性別為“男”的項目。如圖3.4所示:圖3.4數(shù)據(jù)篩選過程4—指定篩選條件數(shù)據(jù)的篩選第5步:單擊菜單中的【確定】按鈕,選出性別為“男”的職工,如圖3.5所示:圖3.5數(shù)據(jù)篩選過程5—定性變量篩選結(jié)果數(shù)據(jù)的篩選第6步:前5步篩選出了男性職工的資料,在此基礎(chǔ)上我們再選擇基本工資大于等于2500元的職工。其操作是單擊“基本工資”單元格的箭頭,出現(xiàn)下拉菜單,如圖3.6所示:圖3.6數(shù)據(jù)篩選過程6—指定篩選數(shù)值變量數(shù)據(jù)的篩選第7步:單擊菜單中的“數(shù)字篩選”命令,出現(xiàn)下一級菜單,列出各種篩選條件,如圖3.7所示:圖3.7數(shù)據(jù)篩選過程7—數(shù)值篩選條件數(shù)據(jù)的篩選第8步:在菜單中選擇滿足條件的選項,本例要選擇基本工資大于等于2500元的職工,所以單擊“大于或等于”選項,出現(xiàn)篩選條件,如圖3.8所示:圖3.8數(shù)據(jù)篩選過程8—選擇篩選條件數(shù)據(jù)的篩選第9步:在所選條件后空格中填入指定數(shù)值條件(如本例為2500),或單擊空格中箭頭,在所列數(shù)值中選擇數(shù)值條件,如圖3.9所示:圖3.9數(shù)據(jù)篩選過程9—指定篩選條件數(shù)據(jù)的篩選第10步:單擊圖9中的【確定】按鈕,完成“基本工資”的篩選。如圖3.10所示:圖3.10數(shù)據(jù)篩選過程10—數(shù)值篩選結(jié)果數(shù)據(jù)的篩選第11步:如果在初步篩選結(jié)果中要進一步篩選,只要重復(fù)上述步驟即可。如本例要求在基本工資大于等于2500元的男性職工中選擇崗位津貼大于3000元的,只要重復(fù)上述第6步到第10步即可。最后篩選結(jié)果如圖3.11所示:、圖3.11數(shù)據(jù)篩選過程11—多重篩選結(jié)果對于異常值的檢查和篩選即可在Excel中完成,如上例幸福感數(shù)據(jù),可以通過指定“小于1”或“大于5”的條件篩選出異常值。3.1.2數(shù)據(jù)的排序數(shù)據(jù)的排序是指將數(shù)據(jù)按照一定的順序重新排列。排序既可以作為數(shù)據(jù)審核的手段,也可以作為數(shù)據(jù)初步分析的方法。Excel提供了兩種排序的方法,一種是直接根據(jù)一個變量按升序或降序排序,另一種是根據(jù)多個變量排序,下面仍以上例職工工資資料為例說明在Excel中數(shù)據(jù)排序的基本步驟:第1步:先選中排序變量,然后單擊工具欄中的【排序和篩選】按鈕,出現(xiàn)下拉菜單,如圖3.1所示。第2步:如果僅按照一個變量排序,直接單擊下拉菜單中的【升序】或【降序】命令即可完成排序。如根據(jù)基本工資按升序?qū)⒙毠づ判颍浣Y(jié)果如圖3.12所示:3.1.2數(shù)據(jù)的排序圖3.12數(shù)據(jù)排序1—單變量排序結(jié)果3.1.2數(shù)據(jù)的排序如果根據(jù)多個變量同時排序,則在第一步的基礎(chǔ)上,選擇下拉菜單中的【自定義排序】,出現(xiàn)排序條件框,如圖3.13所示:圖3.13數(shù)據(jù)排序2—選擇排序變量3.1.2數(shù)據(jù)的排序第3步:在上述窗口中,單擊【添加條件】按鈕,可以重復(fù)上述操作,直到列出條件與所選變量個數(shù)一致。如圖3.14所示:圖3.14數(shù)據(jù)排序3—添加排序條件3.1.2數(shù)據(jù)的排序第4步:在“主要關(guān)鍵字”選擇第一排序變量,在“次要關(guān)鍵字”中選擇第二排序變量,如本例首先依據(jù)基本工資按升序排列,然后再按照崗位津貼按降序排列,則在“主要關(guān)鍵字”中選擇“基本工資”,其后“次序”欄中選擇“升序”,在“次要關(guān)鍵字”中選擇“崗位津貼”。其后“次序”欄中選擇“降序”,如圖3.15所示:圖3.15數(shù)據(jù)排序4—指定排序規(guī)則3.1.2數(shù)據(jù)的排序第5步:單擊圖3.15中的【確定】按鈕,數(shù)據(jù)按指定規(guī)則排序,完成排序過程。其結(jié)果如圖3.16所示:圖3.16數(shù)據(jù)排序過程5—排序結(jié)果3.2定性數(shù)據(jù)的圖表描述3.2.1分類數(shù)據(jù)的展示3.2.2順序數(shù)據(jù)的展示3.2.1分類數(shù)據(jù)的展示統(tǒng)計數(shù)據(jù)的展示手段主要有統(tǒng)計表與統(tǒng)計圖。
1.統(tǒng)計表統(tǒng)計表是以表格的形式展示統(tǒng)計數(shù)據(jù),其組成內(nèi)容主要包括總標(biāo)題、橫行標(biāo)題、縱欄標(biāo)題和統(tǒng)計數(shù)據(jù)四部分。
分類數(shù)據(jù)的圖形展示2.統(tǒng)計圖(1)餅圖(2)條形圖(3)環(huán)形圖(4)帕拉圖(Pareto)餅圖是在圓形中以不同顏色或不同修飾條紋的扇形表示不同類型的數(shù)據(jù),以各種扇形的面積大小表示各類型數(shù)據(jù)的多少,以反映分類數(shù)據(jù)的結(jié)構(gòu)。餅圖主要用于反映樣本數(shù)據(jù)或總體數(shù)據(jù)在某一方面的構(gòu)成情況,同樣適用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)等所有類型數(shù)據(jù)。Excel提供了非常方便的餅圖繪制功能,可以選擇平面圖形,也可以繪制三維餅圖,還可以選擇是否標(biāo)示數(shù)據(jù),數(shù)據(jù)標(biāo)示可以選擇頻數(shù)或頻率。下面仍以電腦銷售數(shù)據(jù)(數(shù)據(jù):3.2dn.xlsx)為例,說明用Excel繪制餅圖的具體步驟:第一步:打開Excel數(shù)據(jù)文件(本例為:3.2dn.xlsx),在主菜單中點擊【插入】,出現(xiàn)下一級工具欄。如圖3.22所示:餅圖圖3.22圖形繪制過程1—打開【插入】功能餅圖第二步:在所列選項中,點擊圖3.22中“餅圖”圖標(biāo),出現(xiàn)各類餅圖圖標(biāo),選擇你所中意的餅圖,如圖3.23所示:圖3.23圖形繪制過程2—選擇圖形類型餅圖第三步:點擊選定餅圖具體形狀以后,點擊鼠標(biāo)右鍵,出現(xiàn)下一級菜單,選擇【選擇數(shù)據(jù)(E)】,出現(xiàn)主對話框。如圖3.24所示:圖3.24圖形繪制過程3—選擇功能餅圖第四步:輸入數(shù)據(jù),在主對話框【圖表數(shù)據(jù)區(qū)域(D)】中輸入數(shù)據(jù)區(qū)域(數(shù)據(jù)區(qū)域為各類型的頻數(shù),本例為各品牌電腦的銷售量)輸入方法是點擊【圖表數(shù)據(jù)區(qū)域(D)】后方框內(nèi)工作表圖標(biāo),用鼠標(biāo)左鍵將數(shù)據(jù)區(qū)域拉入方框內(nèi),再點擊工作表圖標(biāo)確認,本例為$A$2:$B$6),如圖3.25所示:圖3.25圖形繪制過程4—輸入數(shù)據(jù)餅圖第五步:點擊【確定】,系統(tǒng)繪制出餅圖。其他各種修飾可以通過單擊右鍵,進行選擇。常見的幾種餅圖餅圖條形圖是以不同顏色或修飾條紋的、寬窄相同的條形表示不同類型數(shù)據(jù),以條形的長短或高低表示數(shù)據(jù)多少的統(tǒng)計圖形。Excel提供了多種條形圖的繪制功能,圖中長方形條塊可以縱置或橫置,縱置時也稱為柱狀圖??梢杂袉问交驈?fù)式等多種形式。Excel繪制條形圖基本步驟與餅圖一致,下面仍以各品牌電腦銷售量為例簡要說明。第一步:打開Excel數(shù)據(jù)文件(本例為3.2dn.xlsx);第二步:在主菜單中選擇【插入】,在下一級菜單中選擇【柱形圖】或【條形圖】,然后然后點擊自己滿意的圖形圖標(biāo);第三步:點擊右鍵,在所列菜單中單擊【選擇數(shù)據(jù)】,在【圖表數(shù)據(jù)區(qū)域(D)】方框中數(shù)據(jù)區(qū)域(如本例為A2:B6);第四步:點擊【確定】,系統(tǒng)繪制出條形圖。其他各項格式可以通過單擊右鍵,進行各種選擇。條形圖常見的幾種條形圖:各品牌電腦銷售頻數(shù)分布a橫置條形圖b縱置柱狀圖條形圖【例3.3】有甲、乙兩家電腦銷售公司,一月份銷售量(臺)如表所示(數(shù)據(jù):3.3pp.xlsx):
兩公司電腦銷售情況表品牌公司甲乙戴爾1215方正918宏基417惠普920聯(lián)想1610合計5080柱狀圖用柱狀圖反映甲、乙兩公司不同品牌的構(gòu)成情況:
由圖可以非常直觀地發(fā)現(xiàn)甲、乙兩公司銷售電腦品牌的不同構(gòu)成,甲公司戴爾電腦和聯(lián)想電腦占絕對比重,而乙公司惠普電腦、方正電腦和宏基電腦明顯要多。柱狀圖環(huán)形圖是由多個同心的中空圓組成,不同的圓表示不同的時間或空間,同一圓中用不同的顏色或條紋表示不同類型的數(shù)據(jù),其面積大小表示數(shù)據(jù)的多少,依此反映數(shù)據(jù)的結(jié)構(gòu)。通過不同圓的對比,說明不同時間或空間數(shù)據(jù)的不同特征。如甲、乙兩公司電腦銷售量的構(gòu)成情況以環(huán)形圖顯示如圖所示(里圈圓形為甲公司,外圈為乙公司):
不同品牌電腦銷售量構(gòu)成環(huán)形圖帕拉圖是各類數(shù)據(jù)按照頻數(shù)多少由多到少排序后繪制的柱狀圖。該圖可以很好地表現(xiàn)出不同類型數(shù)據(jù)的分布。在Excel中帕拉圖的繪制步驟與計算頻數(shù)基本一致,其基本步驟為:第一步:打開Excel數(shù)據(jù)文件(本例為3.2dn.xlsx);第二步:在工具欄中選擇【數(shù)據(jù)】,在下一級菜單中選擇【數(shù)據(jù)分析】,出現(xiàn)【數(shù)據(jù)分析】子菜單,選擇“直方圖”選項,點擊【確定】,出現(xiàn)主對話框;第三步:在主對話框中,依次輸入【輸入?yún)^(qū)域】、【接受區(qū)域】,并指定【輸出區(qū)域】,選擇【帕拉圖】和【圖標(biāo)輸出】;第四步:點擊【確定】,并將數(shù)據(jù)分類代碼(如1為戴爾等)替換為具體類型名稱(如戴爾),即可繪制出帕拉圖。帕拉圖
不同電腦品牌的帕拉圖帕拉圖3.2.2順序數(shù)據(jù)的展示順序數(shù)據(jù)比分類數(shù)據(jù)度量層次要高,可以在數(shù)據(jù)間比較高低優(yōu)劣。適用于分類數(shù)據(jù)的圖形同樣適用于順序數(shù)據(jù),但順序數(shù)據(jù)能用的圖形未必適用于分類數(shù)據(jù)累積頻數(shù)是指將各類型數(shù)據(jù)的頻數(shù)按照升序或降序的順序逐級累加得到的頻數(shù),說明高于或低于某一級別的數(shù)據(jù)個數(shù)。累積頻率是將各類型數(shù)據(jù)的頻率按照升序或降序的順序逐級累加得到的頻率?!纠?.4】在2008年對北京市居民幸福感調(diào)查中,將居民幸福感由低到高分為“很不幸?!?、“不太幸福”、“一般”、“比較幸福”和“很幸?!?級,調(diào)查所得數(shù)據(jù)如表所示(數(shù)據(jù)3.4xf.xlsx):2008年北京市居民幸福感分布
順序數(shù)據(jù)的展示頻數(shù)或頻率的累積有兩種方式,一是向上累積,是指依數(shù)據(jù)由低到高方向累加其相應(yīng)頻數(shù)或頻率,說明低于某一級別數(shù)據(jù)的頻數(shù)或頻率。順序數(shù)據(jù)的頻數(shù)和頻率可以像類型數(shù)據(jù)一樣用餅圖、條形圖等展示,而累積頻數(shù)和頻率就要用累積頻數(shù)或累積頻率分布圖顯示。在Excel中繪制累積頻數(shù)或頻率圖,與繪制其他圖形基本步驟一樣,只要在圖形類型選擇時選擇折線圖,并選擇累積數(shù)據(jù)即可。如北京居民幸福感頻數(shù)累積分布圖如3.31所示:圖3.31居民幸福感累積頻數(shù)分布圖a向上累積b向下累積順序數(shù)據(jù)的展示順序數(shù)據(jù)的展示
居民幸福感累積頻數(shù)分布圖a向上累積b向下累積多個對象的順序數(shù)據(jù)同樣可以用環(huán)形圖顯示,從圖中我們可以很方便地觀察不同對象數(shù)據(jù)的分布特征。如2008年北京市男、女居民幸福感數(shù)據(jù)如表所示(數(shù)據(jù)3.4xf.xlsx):
不同性別居民幸福感分布
順序數(shù)據(jù)的展示以環(huán)形圖反映不同性別幸福感分布狀況如圖所示:
不同性別幸福感構(gòu)成圖中數(shù)據(jù)為百分比,里圈為男性幸福感,外圈為女性幸福感,可以看出,男性幸福感要低于女性。
順序數(shù)據(jù)的展示3.3數(shù)值型數(shù)據(jù)的圖表描述3.3.1數(shù)據(jù)分組3.3.2數(shù)值型數(shù)據(jù)的圖表顯示3.3.1數(shù)據(jù)分組數(shù)據(jù)分組是根據(jù)研究目的,將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)劃分成不同的組成部分。數(shù)據(jù)經(jīng)過分組以后,可以計算出數(shù)據(jù)在各組中的頻數(shù),形成頻數(shù)分布表,顯示數(shù)據(jù)的分布特征數(shù)據(jù)分組的方法包括單變量值分組和組距式分組兩種。
分組方法組距分組單變量值分組等距分組異距分組數(shù)據(jù)分組【例3.5】為了解某城市家庭人口結(jié)構(gòu),我們調(diào)查了100個家庭,調(diào)查發(fā)現(xiàn)家庭人口數(shù)在1到5口人之間,調(diào)查結(jié)果即原始數(shù)據(jù)如表所示(數(shù)據(jù):3.5jt.xlsx):
家庭人口調(diào)查結(jié)果
將100個家庭按照家庭人口多少進行單變量值分組,即家庭人口為“1”的分為一組,“2”分為一組,共分為5組,在Excel中將數(shù)值型原始數(shù)據(jù)進行單變量值分組的方法與分類數(shù)據(jù)頻數(shù)的統(tǒng)計(見例3.2)基本相同,其步驟為:輸入各組變量值(1,2,3,4,5)→點擊【數(shù)據(jù)】→點擊【數(shù)據(jù)分析】→選擇【直方圖】→點擊【確定】→在【輸入?yún)^(qū)域】中輸入原始數(shù)據(jù)區(qū)域→在【接受區(qū)域】中輸入各分組變量值→選擇并指定【輸出區(qū)域】→點擊【確定】,輸出分組結(jié)果,分組結(jié)果同品質(zhì)數(shù)據(jù)一樣,通常要給出各組頻數(shù)和頻率。如表3.8所示:
家庭人口分布表數(shù)據(jù)分組在確定了分組標(biāo)準(zhǔn)以后,組距分組的基本步驟為:確定組數(shù)。數(shù)據(jù)分組的目的就是要顯示數(shù)據(jù)的分布特征,便于我們觀察和發(fā)現(xiàn)其基本規(guī)律。確定組距。組距是一個組的上限與下限的差。若各組的組距均相等,就稱為等距分組,各組組距不完全相等,稱為異距分組。按確定的各組組限將數(shù)據(jù)分入各組,并整理編制成頻數(shù)分布表,完成分組。
數(shù)據(jù)分組
數(shù)據(jù)分組用Excel進行組距分組方法完全同于單變量值分組,只要在接受區(qū)域中輸入各組上限即可,在此不再贅述。若數(shù)據(jù)為離散變量數(shù)據(jù),組限的確定可以是重疊的,也可以是間斷的?!纠?.6】某車間50名工人月生產(chǎn)零件數(shù)如表所示(數(shù)據(jù):3.6cl.xlsx):
工人月生產(chǎn)零件數(shù)單位:件
數(shù)據(jù)分組數(shù)據(jù)中最大值為63,最小值為35,相差28,分為6組,組距為5,若組限采用間斷方式,分組形式如表所示:
工人月生產(chǎn)零件分布表若組限采用重疊方式,分組形式如表所示:
工人月生產(chǎn)零件分布表由可以發(fā)現(xiàn),兩者分組結(jié)果一樣,只是組限的表示方式不同。這是因為我們在分組時遵循了“不重不漏”的分組原則,即分組時某一個數(shù)據(jù)必須而且只能分到某一組,所有數(shù)據(jù)不能遺漏,某一數(shù)值也不能同時歸屬于兩組或多組。為此,通常規(guī)定“上組限不包括在組內(nèi)”,即一組數(shù)據(jù)不包括這一組的上限數(shù)值,而包括下限數(shù)值,如某一工人生產(chǎn)零件數(shù)為50,這個工人要歸入50-55這一組,而不能計入45-50這一組。
數(shù)據(jù)分組
數(shù)據(jù)分組數(shù)據(jù)按組距分組方法分組以后,我們只能看到各組的組限和頻數(shù)分布情況,觀察不到各組的原始數(shù)據(jù),有時需要我們依分組數(shù)據(jù)計算進一步的數(shù)據(jù)特征,這就需要用組中值代表各組數(shù)據(jù)的一般水平。組中值是指每一組的下限和上限之間的中間值,即:組中值=(下限+上限)/2組中值作為組內(nèi)數(shù)據(jù)的代表值,可能存在一定誤差,其誤差大小取決于組內(nèi)數(shù)據(jù)的分布,組內(nèi)數(shù)據(jù)大致呈均勻分布或?qū)ΨQ分布時,組中值的代表性高,誤差小,非均勻性或非對稱程度越高,代表性越差,誤差越大。
統(tǒng)計學(xué)成績分布表成績(分)組中值(分)組距頻數(shù)(人)頻率(%)60以下55102560-70651082070-8075101537.580-908510102590以上9510512.5合計————40100
【例3.7】某班40名學(xué)生統(tǒng)計學(xué)成績(百分制)如表所示(數(shù)據(jù):3.7cj.xlsx):
數(shù)據(jù)分組
數(shù)據(jù)分組組中值的確定與組限的確定有關(guān),若一組內(nèi)既有下限也有上限,這樣的組稱為閉口組,閉口組的組中值可以直接根據(jù)公式3.2計算。若一個組只有下限或上限,這樣的組稱為開口組,開口組的組距和另一個組限不知道,我們通常以相鄰組的組距作為開口組的假定組距,并以此確定另一個組限,再根據(jù)公式3.2計算組中值。如表3.12中的第一組,只有上限60,沒有下限,根據(jù)我們的假定,以相鄰組60-70的組距10作為該組的假定組距,即可得到該組的下限為50(60-10),依此計算其組中值為:3.3.2數(shù)值型數(shù)據(jù)的圖表顯示
數(shù)值型數(shù)據(jù)從整理程度上可以是原始數(shù)據(jù)或分組數(shù)據(jù),從內(nèi)容上可以是截面數(shù)據(jù)或時間序列數(shù)據(jù),從變量多少角度看可以是單變量數(shù)據(jù),也可以是多變量數(shù)據(jù)。不同的數(shù)據(jù)適用不同的圖表。未分組的原始數(shù)據(jù)通??梢杂们o葉圖或箱線圖觀察其分布,分組數(shù)據(jù)通常用直方圖顯示。1.數(shù)據(jù)分布的圖示(1)莖葉圖(2)箱線圖(3)直方圖2.時間序列數(shù)據(jù)的顯示3.多變量數(shù)據(jù)的顯示(1)散點圖(2)雷達圖莖葉圖就是通過數(shù)據(jù)的“莖”、“葉”和不同莖的頻數(shù)三部分反映數(shù)據(jù)分布特征的圖形。所謂的“莖”指數(shù)據(jù)的高位數(shù)值,類似于植物的“莖”是其主干部分一樣,數(shù)據(jù)的高位數(shù)值部分也是決定數(shù)據(jù)大小的主要部分,而“葉”是指數(shù)據(jù)的最后一個數(shù)字,即最低位數(shù)字。如數(shù)值145,我們將它分成兩部分,百位數(shù)“1”和十位數(shù)“4”組成“莖”,個位數(shù)“5”就是“葉”,同理數(shù)值143中,“1”和“4”構(gòu)成“莖”,“3”是“葉”,可以看出兩個數(shù)值的莖是相同的,而葉是不同的?!纠?.8】某企業(yè)隨機抽查了一年中的50個工作日,登記其產(chǎn)量與成本數(shù)據(jù)(數(shù)據(jù):3.8cb.xlsx),以數(shù)據(jù)中產(chǎn)量(臺)為例說明莖葉圖的繪制及其解讀。因Excel沒有繪制莖葉圖的功能,本例用SPSS軟件實現(xiàn)。首先將3.8cb.xlsx轉(zhuǎn)換為SPSS數(shù)據(jù)(數(shù)據(jù):3.8cb.sav)。SPSS繪制莖葉圖基本步驟:
莖葉圖第1步:在主菜單中選擇【Analyze】,在下拉菜單中選擇【DescriptiveStatistics】,再選擇【Explore】。
莖葉圖步驟1—主菜單莖葉圖第2步:點擊【Explore】,進入主對話框,將變量(如產(chǎn)量)選入【DependentList】,在【Display】下選擇【Plots】,如圖3.34所示:圖3.34莖葉圖步驟2—主對話框莖葉圖第3步:在主對話框中,點擊右側(cè)【Plotts】,出現(xiàn)圖形對話框,在其右側(cè)【Descriptive】下選擇【Stem-and-Leat】,點擊【Continue】,回到主對話框。如圖3.35所示:圖3.35莖葉圖步驟3—圖形對話框莖葉圖第4步:在主對話框中,點擊【OK】,完成莖葉圖繪制,輸出莖葉圖。如圖3.36所示:圖3.36產(chǎn)量莖葉圖莖葉圖莖葉圖中第一列為頻數(shù),第二列為“莖”,第三列為“葉”,本例中莖的單位為“10”,如數(shù)據(jù)中莖“14”代表數(shù)據(jù)“140”,每一個葉代表一個數(shù)據(jù),其寬度為1,如第三行有4片葉“2223”,代表4個數(shù)據(jù),分別為142、142、142、143。數(shù)據(jù)中“14”莖和“15”莖數(shù)據(jù)較多,分別重復(fù)多次,便于觀察數(shù)據(jù)分布。另外圖中第一行和最后一行列出了小于等于135和大于等于160的兩個極端值(具體值及其編號可見箱線圖3.39)。莖葉圖箱線圖(boxplot)箱線圖也稱為盒形圖,是由形如箱子(或稱盒子)的方塊與線段組成的圖形,標(biāo)示數(shù)據(jù)的最大值、最小值、中位數(shù)和上下四分位數(shù),反映數(shù)據(jù)的分布特征。箱線圖可以反映單個變量數(shù)據(jù)的分布,也可以反映多個變量數(shù)據(jù)的分布。圖中5段垂直線段分別對應(yīng)最小值、下四分位數(shù)、中位數(shù)、上四分位數(shù)和最大值。下四分位數(shù)、中位數(shù)和上四分位數(shù)分別指數(shù)據(jù)按升序排序后的第25%、第50%和第75%位置上的數(shù)值。箱線圖結(jié)構(gòu)示意圖箱線圖【例3.9】仍以例3.8的變量產(chǎn)量1數(shù)據(jù)(數(shù)據(jù):3.8cb.sav)為例,說明單變量數(shù)據(jù)在SPSS中箱線圖的繪制及解讀:在SPSS中,繪制單變量數(shù)據(jù)箱線圖的步驟與莖葉圖完全一致,系統(tǒng)在輸出莖葉圖的同時會給出箱線圖。
無離群點的箱線圖箱線圖若數(shù)據(jù)中存在比一般值大很多或小很多的值,稱為離群點或極端值,箱線圖將會在一般箱線圖上或下的一定距離處顯示這些數(shù)據(jù)。我們以例3.8的包含極端值的產(chǎn)量數(shù)據(jù)(數(shù)據(jù):3.8cb.sav)繪制箱線圖:存在離群點的箱線圖箱線圖若觀察不同對象數(shù)據(jù)的分布,可以同時繪制一組箱線圖,以便對比觀察數(shù)據(jù)分布的不同特征和差異?!纠?.10】本學(xué)期經(jīng)濟學(xué)專業(yè)、金融學(xué)專業(yè)等5個專業(yè)學(xué)生參加統(tǒng)計學(xué)考試,用SPSS將其考試成績(數(shù)據(jù):3.10cj.sav)繪制箱線圖方法如下:
第1步:在主菜單中選擇【Graphs】,下拉菜單中選擇【Boxplot】,顯示主對話框;第2步:在對主話框中選擇【Simpie】,在【DatainChartAre】中選擇【SummariesofSeparateVariables】,點擊【Define】,顯示下一級對話框;第3步:將左側(cè)所有變量移入【BoxesRepresent】中,點擊【OK】。箱線圖多變量箱線圖觀察圖可以發(fā)現(xiàn),5個專業(yè)學(xué)生的統(tǒng)計學(xué)成績分布有明顯不同。直觀地看,金融學(xué)專業(yè)成績最為分散,工商管理專業(yè)學(xué)生成績最為集中,會計學(xué)專業(yè)平均成績最高,經(jīng)濟學(xué)專業(yè)平均成績最低,最高成績出現(xiàn)在會計學(xué),最低成績出現(xiàn)在金融學(xué)專業(yè)。箱線圖直方圖是用矩形的高度和寬度的乘積即面積大小表示頻數(shù)分布多少的圖形。繪制直方圖,以直角坐標(biāo)系的橫軸表示變量及其分組,縱軸表示各組頻數(shù)或頻數(shù)密度。直方圖的每個條形的寬度表示組距,高度表示各組頻數(shù)或頻數(shù)密度。如果各組組距都相等,則每個條形的寬度都一樣,這時,各矩形面積大小取決于高度,只要觀察各組矩形的高度分布就可以觀察到數(shù)據(jù)的分布特征。如果是異距分組,各組組距不完全相等,這時,各矩形面積大小就與其寬度即各組組距有關(guān),直方圖的高度就不能確切反映數(shù)據(jù)分布的真實情況,此時通常是將頻數(shù)密度作為縱軸繪制直方圖。頻數(shù)密度是各組頻數(shù)與該組組距的比,反映各組單位變量值內(nèi)分布的數(shù)據(jù)多少,在不等距分組時,組距與頻數(shù)密度的乘積即矩形面積就等于該組頻數(shù),能夠很多地反映數(shù)據(jù)在各組間的分布情況。通常我們設(shè)定各矩形面積之和為1,每組矩形的面積與各矩形面積和之比反映出各組頻數(shù)占總頻數(shù)的比重。直方圖中的矩形可以較清晰地顯示出各組的分布情況。直方圖【例3.11】以例3.7學(xué)生成績數(shù)據(jù)(數(shù)據(jù):3.7cj.sav)為例,說明繪制直方圖的基本方法。用Excel繪制直方圖不是很方便,用SPSS繪制相對比較簡單,其基本步驟是:第1步:選擇菜單。在主菜單中選擇【Transform】→【Recode】→【IntoDifferentVariables】進入主對話框;第2步:選擇變量。將分組變量(如成績)移入【NumerlcVariable→Output】中,在【Name】中定義存放分組結(jié)果的新變量名(如分組),點擊【Change】確認,點擊【OldandNewvalue】進入下一級對話框;第3步:定義各組組限。在【Range】中輸入各組下限(如60)和上限(如70),并將該組識別標(biāo)志(如組中值65)輸入【Value】中,點擊【Add】確認,依次定義各組。點擊【Continue】,返回主對話框,點擊【OK】,分組完畢.系統(tǒng)自動在數(shù)據(jù)文件中形成標(biāo)志分組結(jié)果的新變量(如分組)。第4步:繪制直方圖。選擇【Graphs】→【Histogram】,進入主對話框,將標(biāo)志分組結(jié)果的新變量(如分組)移入【Variable】中,選定【Dispaly】,點擊【OK】。輸出直方圖。直方圖學(xué)生成績直方圖如圖所示:學(xué)生成績直方圖由直方圖可以發(fā)現(xiàn),成績在70-80的學(xué)生最多,左右基本對稱,80分以上的略多于70分以下的人,數(shù)據(jù)略呈右偏分布。直方圖時間序列數(shù)據(jù)是事物在不同時間上的狀態(tài),可以通過線圖表現(xiàn)其變化的特征和基本趨勢。線圖是在平面坐標(biāo)系中用折線表現(xiàn)數(shù)據(jù)隨時間變化而變化的幾何圖形。在Excel中線圖的繪制與條形圖等的繪制方法相同,在此不再贅述。【例3.12】以我國1999年到2009年各年末外匯儲備數(shù)據(jù)(數(shù)據(jù):1.1wh.xls,見表1.1)為例,繪制線圖如圖3所示:歷年末我國外匯儲備時間序列數(shù)據(jù)的展示以上所介紹的圖形多是反映一個變量數(shù)據(jù)的分布,但要反映兩個或更多個有聯(lián)系的變量的數(shù)據(jù)分布,就要用到散點圖、臉譜圖、雷達圖等,這里僅介紹散點圖和雷達圖的繪制。多變量數(shù)據(jù)的展示散點圖散點圖是以兩個變量作為二維坐標(biāo),以坐標(biāo)點表示成對數(shù)據(jù),由對數(shù)據(jù)在坐標(biāo)系中形成的圖形。通過觀察坐標(biāo)系中點的分布,可以直觀地觀察兩個變量間的相關(guān)關(guān)系。在Excel中散點圖的繪制與上述餅圖等的繪制步驟基本一致。在此簡單介紹SPSS中散點圖的繪制方法。用SPSS繪制散點圖的基本步驟是:選擇【Graphs】→選擇【Scatter】→選擇【SimpleScatter】,點擊【Define】→將縱軸變量移入【YAxis】,將橫軸變量移入【XAxis】→點擊【OK】?!纠?.13】以例3.8數(shù)據(jù)(數(shù)據(jù):3.8cb.sav)中的產(chǎn)量為橫軸,成本為縱軸,繪制散點圖如圖所示:產(chǎn)量-成本散點圖由產(chǎn)量—成本散點圖可以看出,隨產(chǎn)量的增加,成本大致也在增加,二者基本呈現(xiàn)線性變化趨勢。散點圖雷達圖,也稱為蜘蛛圖,是用類似
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年非競爭保密協(xié)議
- 2024年項目合作外協(xié)合同2篇
- 2024年裝飾設(shè)計服務(wù)合同5篇
- 2024私人合伙健康養(yǎng)老產(chǎn)業(yè)股權(quán)分配與運營管理協(xié)議2篇
- 2024年項目策劃共同開發(fā)合同3篇
- 2024年:跨境電商平臺建設(shè)與運營合同
- 2025年度智能交通系統(tǒng)研發(fā)與應(yīng)用合同6篇
- 2024年游樂場地租賃合同附場地設(shè)施租賃及運營協(xié)議
- 2024年物業(yè)監(jiān)管下業(yè)主裝修合作合同版
- 教師業(yè)務(wù)檔案管理辦法
- 【APP違規(guī)收集個人信息的法律問題分析9800字(論文)】
- 商品房預(yù)售合同簽約證明和預(yù)告登記申請書
- 質(zhì)量管理體系成熟度評估表
- 國際疾病分類腫瘤學(xué)專輯第3版應(yīng)用課件
- 單體調(diào)試及試運方案
- 2023-2024學(xué)年浙江省杭州市城區(qū)數(shù)學(xué)四年級第一學(xué)期期末學(xué)業(yè)水平測試試題含答案
- 五星級酒店市場調(diào)研報告
- 車輛剮蹭私下解決協(xié)議書(3篇)
- 網(wǎng)球技術(shù)與戰(zhàn)術(shù)-華東師范大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- 2022-2023學(xué)年衡水市深州市小升初數(shù)學(xué)高頻考點檢測卷含答案
- 現(xiàn)代科學(xué)技術(shù)概論知到章節(jié)答案智慧樹2023年成都師范學(xué)院
評論
0/150
提交評論