《商務(wù)統(tǒng)計(jì)分析 第2版》 課件 第1、2、4章 數(shù)據(jù)與統(tǒng)計(jì)分析、數(shù)據(jù)的圖表描述、抽樣與抽樣分布_第1頁
《商務(wù)統(tǒng)計(jì)分析 第2版》 課件 第1、2、4章 數(shù)據(jù)與統(tǒng)計(jì)分析、數(shù)據(jù)的圖表描述、抽樣與抽樣分布_第2頁
《商務(wù)統(tǒng)計(jì)分析 第2版》 課件 第1、2、4章 數(shù)據(jù)與統(tǒng)計(jì)分析、數(shù)據(jù)的圖表描述、抽樣與抽樣分布_第3頁
《商務(wù)統(tǒng)計(jì)分析 第2版》 課件 第1、2、4章 數(shù)據(jù)與統(tǒng)計(jì)分析、數(shù)據(jù)的圖表描述、抽樣與抽樣分布_第4頁
《商務(wù)統(tǒng)計(jì)分析 第2版》 課件 第1、2、4章 數(shù)據(jù)與統(tǒng)計(jì)分析、數(shù)據(jù)的圖表描述、抽樣與抽樣分布_第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第1章

數(shù)據(jù)與統(tǒng)計(jì)分析1第1章數(shù)據(jù)與統(tǒng)計(jì)分析——目錄1.1數(shù)據(jù)1.2數(shù)據(jù)來源1.3統(tǒng)計(jì)分析1.4統(tǒng)計(jì)軟件21.1數(shù)據(jù)——定義數(shù)據(jù)是對現(xiàn)象進(jìn)行計(jì)量的結(jié)果。3地區(qū)年末常住人口/萬人城鎮(zhèn)人口/萬人鄉(xiāng)村人口/萬人北京市21711878293天津海市24182121297江蘇省802955212508浙江省565738471810表1-1

中國東部地區(qū)2018年人口分布情況地區(qū)年末常住人口/萬人城鎮(zhèn)人口/萬人鄉(xiāng)村人口/萬人北京市21711878293天津海市24182121297江蘇省802955212508浙江省5657384718101.1數(shù)據(jù)——個(gè)體、變量和觀測值4在研究中,對每個(gè)個(gè)體的每一變量收集測量值,從而得到數(shù)據(jù)(data)。個(gè)體(element)是指收集數(shù)據(jù)的對象。變量(variable)是個(gè)體的特征或?qū)傩浴S^測值(observation)是數(shù)據(jù)集中每個(gè)個(gè)體的測量值集合。觀測值個(gè)體變量表1-1

中國東部地區(qū)2018年人口分布情況51.1數(shù)據(jù)——定性數(shù)據(jù)和定量數(shù)據(jù)取值是否能排序否是是否有比例屬性否是定性數(shù)據(jù)定量數(shù)據(jù)名義數(shù)據(jù)順序數(shù)據(jù)定距數(shù)據(jù)定比數(shù)據(jù)是否能用數(shù)值表示是否變量是否連續(xù)連續(xù)變量離散變量是否61.1數(shù)據(jù)——定性數(shù)據(jù)和定量數(shù)據(jù)√√√√定比數(shù)據(jù)√√√定距數(shù)據(jù)√√√

分類(=,≠)排序(<,>)

間距(+,-)比值(×,÷)順序數(shù)據(jù)名義數(shù)據(jù)四種計(jì)量尺度的比較計(jì)量尺度數(shù)學(xué)特性“√”表示該尺度所具有的特性注:

定性數(shù)據(jù)可以用數(shù)值變量表示,但不可看作是數(shù)值型數(shù)據(jù)。處理定量數(shù)據(jù)也可轉(zhuǎn)化為定性數(shù)據(jù)(如年齡→老年、中年、青年、兒童)71.1數(shù)據(jù)——截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)按照被描述的現(xiàn)象與時(shí)間的關(guān)系截面數(shù)據(jù)(cross-sectionaldata)是在相同或近似相同的時(shí)間點(diǎn)上收集的不同個(gè)體的數(shù)據(jù),用于描述現(xiàn)象在某一時(shí)刻的變化情況。時(shí)間序列數(shù)據(jù)(timeseriesdata)是在不同時(shí)間點(diǎn)上收集的同一個(gè)體的數(shù)據(jù),用于描述現(xiàn)象隨時(shí)間的變化情況。地區(qū)年末常住人口/萬人城鎮(zhèn)人口/萬人鄉(xiāng)村人口/萬人北京市21711878293天津海市24182121297江蘇省802955212508浙江省565738471810表1-1

中國東部地區(qū)2018年人口分布情況81.1數(shù)據(jù)——截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)截面數(shù)據(jù)91.1數(shù)據(jù)——截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)時(shí)間序列數(shù)據(jù)年度中央財(cái)政債務(wù)余額/億元國內(nèi)債務(wù)/億元國外債務(wù)/億元2018149607.42148208.621398.802017134770.15133447.431322.722016120066.75118811.241255.512015106599.59105467.481132.11201495655.4594676.31979.14表1-2

中央財(cái)政債務(wù)余額情況101.2數(shù)據(jù)——直接來源和間接來源調(diào)查或?qū)嶒?yàn)間接來源:別人通過調(diào)查或?qū)嶒?yàn)的方式收集的,使用者只是找到它們并加以使用。系統(tǒng)內(nèi)部數(shù)據(jù);或從公開出版、公開報(bào)道的信息中獲得優(yōu)點(diǎn):收集方便、數(shù)據(jù)采集快、采集成本低等等缺點(diǎn):針對性不夠

調(diào)查(survey)通常針對社會(huì)現(xiàn)象。普查:調(diào)查針對總體中的所有個(gè)體;抽樣調(diào)查:總體、樣本、樣本量(舉例)。實(shí)驗(yàn)(experiment):在控制條件下進(jìn)行的(舉例)。直接來源:自己直接調(diào)查或?qū)嶒?yàn)獲得的一手?jǐn)?shù)據(jù)。使用二手?jǐn)?shù)據(jù)時(shí)應(yīng)注意以下幾點(diǎn):數(shù)據(jù)的含義數(shù)據(jù)搜集的時(shí)間計(jì)算口徑計(jì)算方法數(shù)據(jù)的可信度111.2數(shù)據(jù)——直接來源和間接來源121.2數(shù)據(jù)——直接來源和間接來源(調(diào)查vs實(shí)驗(yàn))抽樣調(diào)查研究問題:一個(gè)班的平均身高,按一定的規(guī)律抽出20個(gè)同學(xué)的身高研究??傮w:這個(gè)班的所有同學(xué)的身高。個(gè)體:A同學(xué)的身高就是1個(gè)個(gè)體。樣本:20個(gè)同學(xué)的身高。樣本容量:20。實(shí)驗(yàn)研究問題:糖寧膠囊聯(lián)合利拉魯肽對2型糖尿病治療是否有效。實(shí)驗(yàn)方法:對照組皮下注射利拉魯肽注射液,治療組在對照組基礎(chǔ)上口服降糖寧膠囊,然后收集每組每個(gè)人治療前后的血糖數(shù)據(jù)。最后數(shù)據(jù)的統(tǒng)計(jì)分析將會(huì)有助于了解該藥的治療效果。131.3數(shù)據(jù)——什么是統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué)描述統(tǒng)計(jì)(descriptivestatistics):是將數(shù)據(jù)以表格、圖形或數(shù)值形式匯總的統(tǒng)計(jì)方法。推斷統(tǒng)計(jì)(inferencestatistics):利用樣本數(shù)據(jù)信息對總體特征做出推斷,包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩大類。統(tǒng)計(jì)學(xué)(statistics):一門分析數(shù)據(jù)的科學(xué),涉及數(shù)據(jù)的收集、整理、分析及對數(shù)字信息的解釋。141.3數(shù)據(jù)——什么是統(tǒng)計(jì)學(xué)(推斷統(tǒng)計(jì))樣本平均值數(shù)據(jù)對總體平均數(shù)進(jìn)行估計(jì)總體:用新燈絲生產(chǎn)的所有燈泡的平均壽命未知200個(gè)用新燈絲制成的燈泡200個(gè)用新燈絲制成的燈泡的平均壽命為760小時(shí)抽樣獲得樣本數(shù)據(jù)推斷統(tǒng)計(jì)的過程151.4數(shù)據(jù)——統(tǒng)計(jì)軟件SPSS:目前國內(nèi)應(yīng)用最為廣泛的統(tǒng)計(jì)軟件Excel:不是專業(yè)的統(tǒng)計(jì)軟件,但包含一些基本的統(tǒng)計(jì)方法,容易上手R:專業(yè)統(tǒng)計(jì)人員最常用的統(tǒng)計(jì)軟件第2章

數(shù)據(jù)的圖表描述16第2章數(shù)據(jù)的圖表描述——目錄2.1單個(gè)定性變量的數(shù)據(jù)描述2.2單個(gè)定量變量的數(shù)據(jù)描述2.3兩個(gè)變量數(shù)據(jù)的表格描述2.4兩個(gè)變量數(shù)據(jù)的圖形描述2.5數(shù)據(jù)可視化:創(chuàng)建有效圖形172.1單定性變量的數(shù)據(jù)描述定性數(shù)據(jù)是非數(shù)值型的,因此只能對其進(jìn)行分組(類)處理頻數(shù)分布(頻數(shù)、相對頻數(shù)、百分?jǐn)?shù)頻數(shù))條形圖餅形圖18頻數(shù)(frequency):落在某一特定組別中的觀測值個(gè)數(shù)相對頻數(shù)(relativefrequency):頻數(shù)除以總觀測值個(gè)數(shù)(n)百分?jǐn)?shù)頻數(shù)(percentagefrequency):相對頻數(shù)乘以100%192.1單定性變量的數(shù)據(jù)描述——頻數(shù)百分?jǐn)?shù)頻數(shù)=相對頻數(shù)×100%相對頻數(shù)=頻數(shù)/n2.1單定性變量的數(shù)據(jù)描述——頻數(shù)分布表(實(shí)例)202.1單定性變量的數(shù)據(jù)描述——頻數(shù)分布表(實(shí)例)212.1單定性變量的數(shù)據(jù)描述——頻數(shù)分布表(實(shí)例)222.1單定性變量的數(shù)據(jù)描述——條形圖條形圖(barchart):對已匯總定性數(shù)據(jù)的頻數(shù)分布進(jìn)行直觀描述的一種圖形表示方法。用寬度相同的條形的高度來表示各類別數(shù)據(jù)的頻數(shù)(條形高度與類別頻數(shù)成正比)。繪制條形圖時(shí),各類別可以放在縱軸,也可以放在橫軸。類別放在橫軸的條形圖也可稱為柱形圖(columnchart)。232.1單定性變量的數(shù)據(jù)描述——條形圖24圖2-1

購買手機(jī)品牌的條形圖2.1單定性變量的數(shù)據(jù)描述——餅形圖

252.1單定性變量的數(shù)據(jù)描述——餅形圖26圖2-2

購買手機(jī)品牌的餅形圖

272.2單個(gè)定量變量的數(shù)據(jù)描述——頻數(shù)2.2單定量變量的數(shù)據(jù)描述——頻數(shù)分布表(實(shí)例)282.2單定量變量的數(shù)據(jù)描述——頻數(shù)分布表(實(shí)例)29

2.2單定量變量的數(shù)據(jù)描述——頻數(shù)分布表(實(shí)例)302.2單定量變量的數(shù)據(jù)描述——頻數(shù)分布表(實(shí)例)312.2單定量變量的數(shù)據(jù)描述——直方圖直方圖(histogram):用矩形的寬度和高度(即面積)來表示頻數(shù)分布的定量數(shù)據(jù)的圖形描述方法。在直角坐標(biāo)中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)分布,各組與相應(yīng)的頻數(shù)就形成了一個(gè)矩形,即直方圖。32圖2-5

考試成績的直方圖2.2單定量變量的數(shù)據(jù)描述——條形圖vs直方圖條形圖用條形的高度(縱置時(shí))表示各類別頻數(shù)的多少,其寬度沒有意義,是固定的。直方圖用矩形的寬度和高度(即面積)來表示頻數(shù)分布,其高度和寬度均有意義。條形圖的條形是分開排列的,而直方圖的矩形是連續(xù)排列的。332.2單定量變量的數(shù)據(jù)描述——累積頻數(shù)34累積頻數(shù)(cumulativefrequency):將各類有序組別的頻數(shù)逐漸累加起來得到的頻數(shù)。可用于描述定量數(shù)據(jù)或順序數(shù)據(jù)表示小于或等于每一組上組限的數(shù)據(jù)個(gè)數(shù)。2.2單定量變量的數(shù)據(jù)描述——累積頻數(shù)352.2單定量變量的數(shù)據(jù)描述——莖葉圖莖葉圖(stem-and-leafplot):用于顯示未分組的原始數(shù)據(jù)的分布,既能給出數(shù)據(jù)的分布狀況,又能給出每一個(gè)原始數(shù)值,保留了原始數(shù)據(jù)的信息。莖葉圖由“莖”和“葉”兩部分構(gòu)成,以“17”為例:該組數(shù)據(jù)的高位數(shù)值作樹莖“1”,低位數(shù)字作樹葉“7”。362.2單定量變量的數(shù)據(jù)描述——莖葉圖37圖2-6考試成績的莖葉圖2.2單定量變量的數(shù)據(jù)描述——直方圖vs莖葉圖直方圖可以直觀看清數(shù)據(jù)分布的總體趨勢,但是得不到原始的數(shù)據(jù)內(nèi)容。莖葉圖不僅可以看出數(shù)據(jù)的分布,還能保留原始數(shù)據(jù)的信息。制作莖葉圖不需要對數(shù)據(jù)進(jìn)行分組,當(dāng)數(shù)據(jù)量較少時(shí),用莖葉圖更容易觀察數(shù)據(jù)的分布。莖葉圖的數(shù)據(jù)可以隨時(shí)添加數(shù)據(jù),方便記錄與表示。莖葉圖和直方圖的應(yīng)用取決于總體中的個(gè)體數(shù)。當(dāng)總體中的個(gè)體取值較少時(shí),用莖葉圖估計(jì)總體的分布;當(dāng)總體中的個(gè)體取值較多時(shí),將樣本數(shù)據(jù)恰當(dāng)分組,選擇直方圖。382.3兩個(gè)變量數(shù)據(jù)的表格描述——交叉分組表交叉分組表(crosstable),也稱列聯(lián)表(contingencytable):用于分類觀測值的表格描述方法,是觀測數(shù)據(jù)按多個(gè)變量分類所列出的頻數(shù)表。交叉分組表提供了兩個(gè)變量之間的相互關(guān)系的基本畫面,可以幫助我們發(fā)現(xiàn)它們之間的相互作用。交叉分組表中的兩個(gè)變量,可以是定性數(shù)據(jù)或者定量數(shù)據(jù)。392.3兩個(gè)變量數(shù)據(jù)的表格描述——交叉分組表402.3兩個(gè)變量數(shù)據(jù)的表格描述——辛普森悖論412.3兩個(gè)變量數(shù)據(jù)的表格描述——辛普森悖論422.4兩個(gè)變量數(shù)據(jù)的圖形描述——散點(diǎn)圖

432.4兩個(gè)變量數(shù)據(jù)的圖形描述——散點(diǎn)圖44圖2-10北京市旅游人數(shù)與餐飲業(yè)收入的散點(diǎn)圖2.4兩個(gè)變量數(shù)據(jù)的圖形描述——線圖線圖(linechart):變量以時(shí)間為序的圖形描述方法。繪圖時(shí),以時(shí)間為橫軸,以變量值為縱軸。時(shí)間序列數(shù)據(jù)通常以線圖的形式來表示。45圖2-1204-18年北京市旅游人數(shù)的時(shí)間序列圖2.4兩個(gè)變量數(shù)據(jù)的圖形描述——復(fù)合和結(jié)構(gòu)條形圖復(fù)合條形圖和結(jié)構(gòu)條形圖均是在條形圖的基礎(chǔ)上進(jìn)行的拓展,可以用于顯示和對比多個(gè)數(shù)據(jù)變量。復(fù)合條形圖(side-by-sidebarchart):同時(shí)顯示已匯總的多個(gè)條形圖的一種圖形描述方法。結(jié)構(gòu)條形圖(stackedbar):其每一個(gè)長條被分解為不同段,每段顯示該組數(shù)據(jù)的相對頻數(shù)。462.4兩個(gè)變量數(shù)據(jù)的圖形描述——復(fù)合和結(jié)構(gòu)條形圖47圖2-13復(fù)合條形圖圖2-14結(jié)構(gòu)條形圖2.4兩個(gè)變量數(shù)據(jù)的圖形描述——環(huán)形圖環(huán)形圖(doughnutchart):由兩個(gè)及兩個(gè)以上大小不一的餅圖疊在一起,挖去中間部分所構(gòu)成的圖形。類似于結(jié)構(gòu)條形圖,環(huán)形圖同樣可以用來描述數(shù)據(jù)總體結(jié)構(gòu)并對不同數(shù)據(jù)系列進(jìn)行直觀對比。環(huán)形圖中,每個(gè)樣本用一個(gè)環(huán)來表示,樣本中的每組數(shù)據(jù)的相對頻數(shù)(百分?jǐn)?shù)頻數(shù))用環(huán)中的一段表示。482.4兩個(gè)變量數(shù)據(jù)的圖形描述——環(huán)形圖49圖2-15環(huán)形圖2.5數(shù)據(jù)可視化——?jiǎng)?chuàng)建有效的圖形創(chuàng)建有效的圖形顯示是科學(xué)也是藝術(shù)。作為單獨(dú)的圖形,簡單的永遠(yuǎn)是最好的。標(biāo)題要清晰、簡明。圖形要保持簡潔,能用二維表示時(shí)不要用三維。軸有清楚的標(biāo)記,并給出測量的單位。使用顏色區(qū)分類別時(shí),要確保顏色有明顯差異。用圖例來標(biāo)明多種顏色或線型時(shí),要將圖例靠近所表示的數(shù)據(jù)。所設(shè)計(jì)的圖形應(yīng)有助于洞察問題的實(shí)質(zhì),避免歪曲事實(shí)。502.5數(shù)據(jù)可視化——選擇圖表的類型51用于顯示數(shù)據(jù)分布的圖形描述方法:·條形圖展示定性數(shù)據(jù)的頻數(shù)分布和相對頻數(shù)分布·餅形圖展示定性數(shù)據(jù)的相對頻數(shù)分布和百分?jǐn)?shù)頻數(shù)分布·直方圖展示定量數(shù)據(jù)在一個(gè)區(qū)間組集合上的頻數(shù)分布·莖葉圖展示定量數(shù)據(jù)的等級順序和分布形態(tài)用于進(jìn)行比較的圖形描述方法:·復(fù)合條形圖展示兩個(gè)變量頻數(shù)的比較·結(jié)構(gòu)條形圖比較和展示兩個(gè)變量的相對頻數(shù)和百分?jǐn)?shù)頻數(shù)·環(huán)形圖展示兩個(gè)數(shù)據(jù)變量的相對頻數(shù)和百分?jǐn)?shù)頻數(shù)用于顯示兩變量數(shù)據(jù)相關(guān)關(guān)系的圖形描述方法:·散點(diǎn)圖展示兩個(gè)數(shù)據(jù)變量的相關(guān)關(guān)系·線圖展示數(shù)據(jù)變量隨時(shí)間的變化關(guān)系2.5數(shù)據(jù)可視化——工具Echarts:百度開發(fā)的一款不需要編程的可視化圖表生成工具。其特點(diǎn):可以在網(wǎng)頁端個(gè)性化定制可視化圖表;完全開源免費(fèi);可以和百度地圖結(jié)合使用;能夠應(yīng)對較大的數(shù)據(jù)量和三維繪圖任務(wù)。HighCharts:國外開放的一款成熟的可視化圖表生成工具。其特點(diǎn):具有詳細(xì)的使用教程和案例庫;產(chǎn)品穩(wěn)定性較強(qiáng);對非商業(yè)使用免費(fèi)。Tableau:一款用于可視分析數(shù)據(jù)的商業(yè)智能工具。其特點(diǎn):允許數(shù)據(jù)混合和實(shí)時(shí)協(xié)作;可以在不編程的情況下進(jìn)行數(shù)據(jù)分析,也可以集成R語言或Python對數(shù)據(jù)進(jìn)行分析;學(xué)生用戶可以認(rèn)證信息后免費(fèi)下載和試用一年,其他用戶也可以下載TableauPublic免費(fèi)使用,但是需要將自己的數(shù)據(jù)公開到Tableau的服務(wù)器上。522.5數(shù)據(jù)可視化——工具PowerBI:是微軟推出的一款商業(yè)智能工具。其特點(diǎn):可連接數(shù)百個(gè)數(shù)據(jù)源,進(jìn)行數(shù)據(jù)的收集、整理和分析,生成個(gè)性化的數(shù)據(jù)儀表板;可以在web和移動(dòng)設(shè)備上與他人共享;當(dāng)建立好數(shù)據(jù)模型后,可以自動(dòng)刷新數(shù)據(jù),生成新的圖表,實(shí)現(xiàn)數(shù)據(jù)處理的全自動(dòng)化;操作簡單,不需要編程;個(gè)人用戶可以免費(fèi)使用PowerBIDesktop。FineBI:主要面向企業(yè)客戶,也是一款不需要編程的商業(yè)智能工具。其特點(diǎn):相比于其他商業(yè)智能工具,F(xiàn)ineBI更加契合企業(yè)分工協(xié)作進(jìn)行數(shù)據(jù)分析的工作流程;操作界面簡單,對普通用戶的使用和上手門檻相對更低;對于個(gè)人用戶來說,F(xiàn)ineBI可以免費(fèi)下載使用。532.5數(shù)據(jù)可視化——數(shù)據(jù)儀表板數(shù)據(jù)儀表板(datadashboard):一個(gè)直觀顯示的集合,它用易于理解的方法匯總和展示公司或機(jī)構(gòu)的信息,用以監(jiān)控公司業(yè)績。542.5數(shù)據(jù)可視化——數(shù)據(jù)儀表板55為了說明在決策中數(shù)據(jù)儀表板的使用,我們將用某超市2019年4月1日到30日一個(gè)月的銷售數(shù)據(jù),做一個(gè)銷售分析的數(shù)據(jù)儀表板。首先,我們要明確數(shù)據(jù)儀表板要展示什么內(nèi)容?超市的數(shù)據(jù)儀表板要幫助管理者明確如何選擇更優(yōu)的庫存管理方法,加快庫存周轉(zhuǎn)率,促進(jìn)產(chǎn)品銷售,從而使企業(yè)獲得更多的利潤。針對這個(gè)問題,確定以下關(guān)鍵指標(biāo):1.總銷售額、總利潤。2.各品類利潤的比較。3.各品牌利潤、銷售量的比較。4.各品牌有無促銷的銷售量比較。5.各品牌當(dāng)前庫存的庫存量。2.5數(shù)據(jù)可視化——數(shù)據(jù)儀表板56頻數(shù):展示銷售額利潤情況條形圖:各品牌的利潤比較情況餅形圖:各類產(chǎn)品的利潤占比情況條形圖:各品牌當(dāng)前的庫存量條形圖:各品牌的銷售量比較情況復(fù)合條形圖:有無促銷的銷售量比較情況

周銷售額:75028.3

周利潤:32914.3

2.5數(shù)據(jù)可視化——數(shù)據(jù)儀表板57前面討論的數(shù)據(jù)可視化準(zhǔn)則適用于數(shù)據(jù)儀表板的單個(gè)圖,也適用于整個(gè)儀表板。除了這些準(zhǔn)則,數(shù)據(jù)儀表板應(yīng)最大限度地減少屏幕滾動(dòng)的次數(shù),以及圖與圖之間應(yīng)使用邊框以提高可讀性。構(gòu)建標(biāo)題陷阱,誤導(dǎo)讀者58第2章數(shù)據(jù)的圖表描述的拓展——圖表的欺騙性改變縱坐標(biāo)刻度,拉伸縱坐標(biāo),壓縮橫坐標(biāo)造成圖形更陡峭的效果59過去一年的各季度銷售額過去一年的各季度銷售額第2章數(shù)據(jù)的圖表描述的拓展——圖表的欺騙性改變條形圖寬度和高度的比例,夸大增長量60第2章數(shù)據(jù)的圖表描述的拓展——圖表的欺騙性加拿大家庭的周均食品支出第4章

抽樣與抽樣分布6162在一些情況下,對總體的觀察成本太高:例:調(diào)查國民民意時(shí)對國民逐一調(diào)查耗時(shí)耗力對于某些情況,對總體進(jìn)行全部檢驗(yàn)也是不現(xiàn)實(shí)的:例:生產(chǎn)線上產(chǎn)品質(zhì)檢、湖水中物質(zhì)分析樣本推斷總體具有一定的可靠性。為什么要抽樣?第4章抽樣與抽樣分布第4章抽樣與抽樣分布——目錄4.1幾個(gè)基本概念4.2抽樣4.3正態(tài)分布以及與其相關(guān)的幾種分布4.4樣本統(tǒng)計(jì)量的抽樣分布4.5其他抽樣方法634.1幾個(gè)基本概念——抽樣總體和抽樣框抽樣總體(sampledpopulation):被抽取樣本的總體。抽樣框(sampledframe):用于抽取樣本的總體中所有個(gè)體的名單。抽樣框是對抽樣總體列出名冊或排序編號,是抽樣總體的具體表現(xiàn)。

目標(biāo)總體與抽樣總體的關(guān)系64例:檢測某個(gè)地區(qū)的人均收入水平,抽樣總體是該地區(qū)群眾,抽樣框是所有群眾的列表。例:研究某企業(yè)員工薪酬水平;研究全國人民收入水平。4.1幾個(gè)基本概念——總體參數(shù)與樣本統(tǒng)計(jì)量基本概念:總體參數(shù):描述總體特征的指標(biāo),如均值、方差等。樣本統(tǒng)計(jì)量:由樣本數(shù)據(jù)構(gòu)造的不含未知參數(shù)的函數(shù),用以描述樣本特征。推斷統(tǒng)計(jì)是通過樣本統(tǒng)計(jì)量推斷總體參數(shù)。65總體樣本抽樣樣本統(tǒng)計(jì)量總體參數(shù)推斷描述統(tǒng)計(jì)4.2抽樣

66利用計(jì)算機(jī)生成隨機(jī)數(shù)(均勻分布),從容量為N的總體中生成容量為n的隨機(jī)樣本。例如:Excel的RANDBETWEEN(1,900)能夠用來隨機(jī)產(chǎn)生1到900之間的整數(shù)。例如:Excel的RAND()能夠用來隨機(jī)產(chǎn)生0到1之間的數(shù)。674.2抽樣——隨機(jī)樣本的生成

4.2抽樣——有限總體和無限總體

684.3正態(tài)分布以及與其相關(guān)的幾種分布

6970正態(tài)分布

正態(tài)隨機(jī)變量在特定區(qū)間上取值的概率由該區(qū)間正態(tài)分布曲線下的面積給出4.3分布——正態(tài)分布714.3分布——正態(tài)分布正態(tài)分布的特征

72

4.3分布——標(biāo)準(zhǔn)正態(tài)分布73

74

75

76

77

78

79

4.4樣本統(tǒng)計(jì)量的抽樣分布在實(shí)際操作中,為了通過觀測樣本獲得總體的特征,我們測量樣本均值以及方差等樣本統(tǒng)計(jì)量。從總體中抽取樣本的可能性是無窮的,不同樣本的統(tǒng)計(jì)量有不同的取值,因此樣本統(tǒng)計(jì)量本身就是隨機(jī)變量,對樣本統(tǒng)計(jì)量的判斷和比較基于它們的概率分布。樣本統(tǒng)計(jì)量所有可能值的概率分布稱為樣本統(tǒng)計(jì)量的抽樣分布,是一種理論分布。4.4樣本統(tǒng)計(jì)量的抽樣分布樣本誤差抽樣誤差(samplingerror):樣本統(tǒng)計(jì)量與其對應(yīng)的總體參數(shù)之間的差異。擴(kuò)大樣本容量可減少抽樣誤差,使得樣本更具有代表性。非抽樣誤差(nonsamplingerror):除了抽樣誤差以外所有誤差的總和??梢酝ㄟ^縝密的設(shè)計(jì)和規(guī)劃進(jìn)行人為控制。4.4樣本統(tǒng)計(jì)量的抽樣分布——樣本均值的分布

824.4樣本統(tǒng)計(jì)量的抽樣分布——樣本均值的分布83如果抽樣總體服從正態(tài)分布,從總體中抽取的隨機(jī)樣本的均值分布服從正態(tài)分布。

=50

=10X總體分布n=4抽樣分布Xn=164.4樣本統(tǒng)計(jì)量的抽樣分布——樣本均值的分布84總體抽樣分布

4.4樣本統(tǒng)計(jì)量的抽樣分布——樣本均值的分布85總體正態(tài)分布

非正態(tài)分布

【例】設(shè)一個(gè)總體,含有4個(gè)元素(個(gè)體),即總體單位數(shù)N=4。4個(gè)個(gè)體分別為X1=1、X2=2、X3=3、X4=4。總體的均值、方差及分布如下均值和方差總體分布14230.1.2.3864.4抽樣分布——樣本均值的分布(例子)現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,在重復(fù)抽樣條件下,共有42=16個(gè)樣本。所有樣本的結(jié)果如下表3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個(gè)觀察值第一個(gè)觀察值所有可能的n=2的樣本(共16個(gè))874.4抽樣分布——樣本均值的分布(例子)計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個(gè)觀察值第一個(gè)觀察值16個(gè)樣本的均值(x)樣本均值的抽樣分布1.00.1.2.3P(x)1.53.04.03.52.02.5x884.4抽樣分布——樣本均值的分布(例子)式中:M為樣本數(shù)目比較及結(jié)論:1.樣本均值的均值(數(shù)學(xué)期望)等于總體均值

2.樣本均值的方差等于總體方差的1/n894.4抽樣分布——樣本均值的分布(例子)4.4樣本統(tǒng)計(jì)量的抽樣分布——其他統(tǒng)計(jì)量的分布

904.4樣本統(tǒng)計(jì)量的抽樣分布——其他統(tǒng)計(jì)量的分布

914.5其他抽樣方法概率抽樣(隨機(jī)抽樣)簡單隨機(jī)抽樣分層隨機(jī)抽樣整群抽樣多階段抽樣系統(tǒng)抽樣4.5其他抽樣方法——分層隨機(jī)抽樣分層隨機(jī)抽樣(stratifiedsampling):總體被分為若干個(gè)組,每個(gè)組稱為層,從每層中隨機(jī)抽取樣本。分層隨機(jī)抽樣方法要求按照一定的規(guī)則或者標(biāo)準(zhǔn)對總體進(jìn)行分組。每個(gè)組內(nèi)樣本需要具有相同或相近的特征,同時(shí)要求組間差異明顯。優(yōu)點(diǎn):保證樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)比較相近,從而提高估計(jì)的精

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論