版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
統(tǒng)計分析基礎(chǔ)2023/3/9基本統(tǒng)計1第一頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計2基本統(tǒng)計課程大綱敘述統(tǒng)計(DescriptiveStatistcs)機(jī)率分配及抽樣機(jī)率分配概念參數(shù)的估計
(PointEstimation&IntervalEstimation)第二頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計3什麼是統(tǒng)計學(xué)?Statistics源自印歐語系字根status(狀態(tài));understand(了解)蒐集、整理、陳述、解釋統(tǒng)計資料特性敘述統(tǒng)計學(xué)利用已知樣本(sample)所蒐集的資料,推論未知母(群)體(population)的特性推論統(tǒng)計學(xué)使在不確定情況下作成決策的科學(xué)方法第三頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計4敘述統(tǒng)計與推論統(tǒng)計之比較母體(欲分析的對象)樣本(母體的代表)統(tǒng)計抽樣分析推估敍述統(tǒng)計推論統(tǒng)計從數(shù)據(jù)分析中有效掌握數(shù)據(jù)間的規(guī)律性及差異性第四頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計5統(tǒng)計資料的種類屬性資料依資料的性質(zhì)而劃分類別,無法按大小排列例:產(chǎn)品區(qū)分為「合格」、「不合格」兩類 or作業(yè)員、班別。屬量資料計數(shù)值資料(離散型資料,DiscreteData)
零或正整數(shù)計量值資料(連續(xù)型資料,ContinuousData)可帶有小數(shù)點(diǎn)的資料第五頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計6敘述統(tǒng)計如何觀察一組數(shù)據(jù)莖葉圖直方圖統(tǒng)計量數(shù)箱型圖第六頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計7你對資料瞭解多少?
收集某廠某月每天的產(chǎn)量,連續(xù)27天。第七頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計8莖葉圖
TheStem-and-LeafPlot
將十位數(shù)視為莖,個位數(shù)視為葉第八頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計9莖葉圖你看出了什麼?平均產(chǎn)量約為(大部分資料落在)40-60左右。資料大概分散在20-50之間。資料的分佈不對稱,偏向數(shù)字大的那一邊。第九頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計10莖葉圖你還可以看出什麼?若覺得stem太少,或每一stem的資料太多,可以再分細(xì)一點(diǎn)。第十頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計11莖葉圖你還可以看出什麼?Q2=X(14)=40Q1=X(7)=22Q3=X(21)=54IQR=Q3-Q1=32P10=(X(2)+X(3))/2=7P90=(X(25)+X(26))/2=61第十一頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計12直方圖第十二頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計13直方圖與莖葉圖的補(bǔ)同直方圖的分組可較細(xì)緻,莖葉圖的分組較粗略。直方圖無原始數(shù)據(jù),莖葉圖有原始數(shù)據(jù)。第十三頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計14資料大概落在哪裡?平均產(chǎn)量,平均厚度。資料的分散程度?品質(zhì)(變異)是高或低?資料是否對稱?如何觀察一組數(shù)據(jù)第十四頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計15如何以一些量數(shù)描述一組數(shù)據(jù)代表資料特性的一些統(tǒng)計量數(shù)集中趨勢量數(shù):(centraltendency)
代表大部份資料集中的位置所在,通常利用此數(shù)作為資料的代表值差異量數(shù):(variation,dispersion)代表資料的分散程度偏態(tài)量數(shù)
:(shape)代表資料偏離對稱的程度第十五頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計16各種統(tǒng)計量數(shù)連續(xù)資料特性的描述方式平均數(shù)
Mean中位數(shù)Median眾數(shù)Mode全距Range四分位距InterquartileRange變異數(shù)Variance標(biāo)準(zhǔn)差StandardDeviation偏態(tài)Skew集中趨勢量數(shù)差異量數(shù)偏態(tài)量數(shù)第十六頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計17集中趨勢量數(shù)意義:代表大部份資料集中的位置所在,通常利用此數(shù)作為資料的代表值功用:簡化作用,代表作用,比較作用常用的量數(shù)算數(shù)平均數(shù)中位數(shù)眾數(shù)第十七頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計18算數(shù)平均數(shù)(Mean)樣本平均數(shù)(samplemean)第十八頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計19例子:連續(xù)27天LOTS平均產(chǎn)量?第十九頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計20中位數(shù)(Median)意義:一群資料中間的那個數(shù)。中位數(shù)將一組資料分成兩半,比中位數(shù)大和比中位數(shù)小的資料數(shù)各為一半。(Median,Me)算法:排序(X(1)≦X(2)≦…≦X(n))算出中位數(shù)大概的位置所在(或是比中位數(shù)小的數(shù)字有幾個):I=(n+1)/2看I是否為整數(shù),來決定中位數(shù)的所在。若I為整數(shù)(資料數(shù)為奇數(shù)):Me=X(I)若I為不整數(shù)(資料數(shù)為偶數(shù)):Me=(X([I])+X([I]+1))/2第二十頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計21眾數(shù)(Mode)意義:一組資料中,出現(xiàn)次數(shù)最多的數(shù)NoMode
RawData: 10.3,4.9,8.9,11.7,6.3,7.7OneMode
RawData: 6.3,4.9,
8.9,6.3,4.9,
4.9MoreThan1Mode
RawData: 21,28,
28,41,43,43算法:做次數(shù)分配表第二十一頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計22三種集中量數(shù)的比較若有極端值時,平均數(shù)較不具意義。第二十二頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計23三種集中量數(shù)的比較Median一定居中。右偏Right-Skewed左偏Left-Skewed對稱SymmetricMean=Median=ModeMeanMedianModeModeMedianMean第二十三頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計24哪一個集中量數(shù)較好原則:無極端值:mean有極端值:median類別資料:mode例:現(xiàn)有100名學(xué)生成績想知道班上整體表現(xiàn)如何mean成績分等級,想知道哪一等級較多人mode第二十四頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計25非集中位置量數(shù)集中位置量數(shù)(集中趨勢量數(shù))大部分資料的所在非集中位置量數(shù)描繪數(shù)值資料的分佈情況百分位數(shù)(percentile)四分位數(shù)(quartile)十分位數(shù)(decimal)第二十五頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計26百分位數(shù)(Pk)算法:排序:算出百分位數(shù)大概位置的所在(比百分為數(shù)小的大概有幾個):I=(n+1)*k/100看I是否為整數(shù):若I為整數(shù),則Pk=X(I)若I不為整數(shù),則Pk=(X([I])+X([I]+1))/2第二十六頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計27特殊的百分位數(shù)(Pk)特殊的百分位數(shù)四分位數(shù)(Q1,Q2,Q3)—QuartileQ1=P25,
Q2=P50,
Q3=P75十分位數(shù)(D1,D2,…,D10)—DecimalD1=P10,
D2=P20,…,
D10=P100第二十七頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計28四分位數(shù)/十分位數(shù)廠內(nèi)每日產(chǎn)量例子:排序:1,1,13,14,21,21,22,23,25,30,35,38,39,40,42,48,50,52,53,53,54,56,56,58,59,63,65第一,二,三四分位數(shù):k=25,I=(n+1)k/100=7,Q1=X(7)=22k=50,I=(n+1)k/100=14,Q2=X(14)=40k=75,I=(n+1)k/100=21,Q3=X(21)=54第十,九十百分位數(shù):k=10,I=(n+1)/10=2.8,D1=(X(2)+X(3))/2=7k=90,I=(n+1)x0.9=25.2,D9=(X(25)+X(26))/2=61第二十八頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計29全距(Range)想法:若有兩個數(shù),如何表示他們的差異程度?公式:R=X(n)-X(1)優(yōu)點(diǎn):意義簡單明瞭缺點(diǎn):只考慮兩個觀察值,無法測出中間各觀察值之間的差異程度,敏感度小。受極端值影響較大產(chǎn)量例子:R=65-1=64.第二十九頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計30四分位距想法:如何彌補(bǔ)全距易受極端值影響的缺點(diǎn)?用中間資料來衡量差異程度公式:IQR=Q3-Q1意義:一組資料中間一半觀察值的全距僅與中間50%的資料有關(guān)當(dāng)資料對稱時,Me-Q1=Q3-Me=IQR/2第三十頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計31四分位距優(yōu)點(diǎn):計算方便易於瞭解,不受極端值影響缺點(diǎn):僅考慮中間一半的數(shù)值,對兩端之?dāng)?shù)值皆未涉及,較不敏感。為此項(xiàng)缺點(diǎn)不如全距之甚。產(chǎn)量例子:Q1=22Q3=54IQR=54-22=32第三十一頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計32離差(deviation)全距及四分位差均只考慮一群資料中的少數(shù)幾個資料,並未將全部資料考慮進(jìn)來。那如何將全部資料考慮進(jìn)來計算其分散程度?離差=觀察值與集中量數(shù)之差可見離差的絕對值越大表示其差異程度應(yīng)越大若有n個資料,就有n個離差。如何將這n個離差整合起來成一個數(shù)?第三十二頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計33變異數(shù)與標(biāo)準(zhǔn)差離差:變異數(shù)公式:標(biāo)準(zhǔn)差公式:第三十三頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計34變異數(shù)與標(biāo)準(zhǔn)差優(yōu)點(diǎn):意義簡明。代數(shù)計算容易。(實(shí)際計算可能複雜)由全部數(shù)值得到,較敏感。缺點(diǎn):易受極端值影響。第三十四頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計35變異數(shù)與標(biāo)準(zhǔn)差(特性)特性:資料越集中(越相似),差異程度小,標(biāo)準(zhǔn)差(全距,IQR)也小。若一資料的標(biāo)準(zhǔn)差小,表大部份資料集中在平均數(shù)附近,則平均數(shù)的代表性高。標(biāo)準(zhǔn)差(變異數(shù),全距,IQR)恆大於或等於零。若為零則表示全部數(shù)值均相同。標(biāo)準(zhǔn)差與資料的大小無關(guān),他只與資料的分散程度有關(guān)。(可能兩組資料數(shù)字,平均數(shù)相差很大,但標(biāo)準(zhǔn)差相等)第三十五頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計36箱型圖(BoxPlot)以五個量表示資料分佈fivenumbersummaryplotQ2Q3Q1X(n)X(1)第三十六頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計37箱型圖(BoxPlot)右偏左偏對稱Q1
Q2
Q3Q1
Q2
Q3Q1
Q2
Q3哪一邊較大,就是偏向哪一邊第三十七頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計38箱型圖
最多資料聚集的地方QuartileBoxPlotOutlierBoxPlotP10P90Q2Q3Q1X(n)X(1)Q1-1.5IQRQ3+1.5IQR第三十八頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計39箱型圖極端值Outlier第三十九頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計40例子:某日之cellgap值)3.74.14.5資料分佈,有右偏情形,近似雙峰的現(xiàn)象,可能有不同因素在影響;需根據(jù)資料收集的成因加以進(jìn)一步的探討第四十頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計41箱型圖(比較數(shù)組資料的分佈情形)CellgapV.S機(jī)臺(TOOLID)不同機(jī)臺所對應(yīng)的cellgap值差異似不大?!!Outlier第四十一頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計42箱型圖(比較數(shù)組資料的分佈情形)CellgapV.S量測日期Cellgap3.44.04.30.619202122232425262728293030day不同日期所對應(yīng)之cellgap值似有差異第20,26,27,29,30日之cellgap值似有偏高現(xiàn)象。第23日之cellgap值似偏低。第19,20,30日之cellgap值離散度較其他位置為大。第四十二頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計43機(jī)率分配課程單元隨機(jī)變數(shù)期望值變異數(shù)重要的機(jī)率分配簡介常態(tài)分配t分配卡方分配F分配第四十三頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計44隨機(jī)變數(shù)定義:用以代表從某一母(群)體之所有可能隨機(jī)抽樣試驗(yàn)的結(jié)果,都可以唯一存在的一個實(shí)數(shù)值與之對應(yīng)之函數(shù),通常以大寫字母表示。數(shù)學(xué)表示方式:Xf(x)f(x)稱之為隨機(jī)變數(shù)x的機(jī)率密度函數(shù)性質(zhì):
第四十四頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計45重要機(jī)率分配簡介常態(tài)分配(NomalDistribution)通常以Z代表其隨機(jī)變數(shù),記作Z~N(,2)
其中為期望值,2為變異數(shù)。標(biāo)準(zhǔn)常態(tài)分配,(Z-)/~N(0,1)為一鐘型分配常態(tài)分配底下的面積是固定的P(-≦Z≦+)=68.26%P(-2≦Z≦+2)=95.44%P(-3≦Z≦+3)=99.74%第四十五頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計46常態(tài)分配圖形+1+2+3-3-2-1+4-468.27%95.45%99.73%第四十六頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計47常態(tài)分配隨機(jī)變數(shù)的線性轉(zhuǎn)換常態(tài)分配的標(biāo)準(zhǔn)化-3-2-10123一般常態(tài)分配標(biāo)準(zhǔn)常態(tài)分配第四十七頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計48其他重要的機(jī)率分配卡方分配(Chi-SquaredDistribution)記作X~
,其中為參數(shù)
t分配(StudenttDistribution)記作T~,其中為參數(shù)
F分配(FDistribution)記作F~,其中1,2
為參數(shù)
第四十八頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計49抽樣分配統(tǒng)計量(statistics)是一組隨機(jī)樣本的實(shí)數(shù)值函數(shù)T(X1,X2,…,Xn)Samplemean,variance,median,mode,sampleproportionetc.統(tǒng)計量也是一種隨機(jī)變數(shù)統(tǒng)計量的機(jī)率分配稱為抽樣分配(samplingdistribution)因?yàn)槲覀兪怯媒y(tǒng)計量去猜母體參數(shù),我們需要知道其抽樣分配,才能衡量猜的準(zhǔn)確性。第四十九頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計50中央極限定理若X1,X2,….,Xn
為自任意一母群體(期望值為μ,變異數(shù)為σ2<)抽出的一組隨機(jī)樣本,則當(dāng)n
時,(通常n>30),則的機(jī)率分配會近似於標(biāo)準(zhǔn)常態(tài)分配。中央極限定理的重要性不論母體分配為何,任何樣本平均數(shù)的抽樣分配,當(dāng)樣本數(shù)巨大時,即可應(yīng)用常態(tài)分配以求算其近似機(jī)率。第五十頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計51思考時間機(jī)率論與統(tǒng)計學(xué)著重的重點(diǎn)差異為何?為何須要發(fā)展統(tǒng)計學(xué)?機(jī)率論為就已知的母(群)體,探討抽樣出來的可能性。統(tǒng)計學(xué)討論就未知的母(群)及已知的樣本來對母(群)體特性作推估。因?qū)崉?wù)上或經(jīng)濟(jì)上無法對母(群)體作全檢,係為不確定因素來源,故利用抽樣方法來對母(群)體作推論。第五十一頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計52思考時間推論統(tǒng)計學(xué)與敘述統(tǒng)計學(xué)基本差異為何?推論統(tǒng)計學(xué)導(dǎo)入機(jī)率理論來對母(群)體加以推論,使得對母群體之機(jī)率特性有更進(jìn)一步與可信之描述。而不只是對母群體單一樣本資料狀態(tài)的描述。第五十二頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計53統(tǒng)計學(xué)領(lǐng)域?qū)в[統(tǒng)計學(xué)Statistics敘述統(tǒng)計學(xué)DescriptiveStatistics推論統(tǒng)計學(xué)InferentialStatistics有母數(shù)統(tǒng)計學(xué)ParametricStatistics無母數(shù)統(tǒng)計學(xué)Non-parametricStatistics參數(shù)的估計ParameterEstimation參數(shù)的假設(shè)檢定HypothesisTesting點(diǎn)估計PointEstimation區(qū)間估計IntervalEstimation單邊假設(shè)檢定OneSideTesting雙邊假設(shè)檢定TwoSideTesting第五十三頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計推論54統(tǒng)計推論單元推論的基本觀念參數(shù)估計第五十四頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計55統(tǒng)計推論統(tǒng)計推論:在不確定的情況下,討論如何由資料全體(母體)中抽出一部分資料(樣本),而以這一部份資料去推測資料全體的某些特性。蒐集、整理、陳述、解釋統(tǒng)計資料特性敘述統(tǒng)計學(xué)利用已知樣本(sample)所蒐集的資料,推論未知母(群)體(population)的特性推論統(tǒng)計學(xué)使在不確定情況下作成決策的科學(xué)方法第五十五頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計56點(diǎn)估計
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【大學(xué)課件】GIS技術(shù)的發(fā)展現(xiàn)狀和趨勢
- 餐館食材供應(yīng)合同三篇
- 系統(tǒng)工程課件層次分析法案例
- 《數(shù)字證書CA培》課件
- 醫(yī)院人事管理課件
- 類風(fēng)濕性關(guān)節(jié)炎護(hù)理查房
- 《數(shù)據(jù)化管理應(yīng)用》課件
- 《保額分紅優(yōu)勢》課件
- 《信息系統(tǒng)工程》課件
- 浙江省人教版歷史與社會八年級下冊6.2《沖破思想的牢籠》教學(xué)實(shí)錄2
- 設(shè)計重點(diǎn)難點(diǎn)分析、應(yīng)對措施
- C#筆試題及答案
- python程序編寫入門教案-完整版
- 汽車吊起重吊裝專項(xiàng)施工方案
- 小學(xué)英語-What's he like Story time教學(xué)設(shè)計學(xué)情分析教材分析課后反思
- 第5章 自動駕駛技術(shù)
- 運(yùn)動解剖學(xué)智慧樹知到課后章節(jié)答案2023年下云南體育運(yùn)動職業(yè)技術(shù)學(xué)院
- 國開經(jīng)濟(jì)法律基礎(chǔ)形考任務(wù)國開電大《經(jīng)濟(jì)法律基礎(chǔ)》形考任務(wù)3答案
- 內(nèi)部食堂用餐登記表-
- 北師大版六年級上冊第二單元整理與復(fù)習(xí)
- 團(tuán)隊聯(lián)系人制度模板
評論
0/150
提交評論