統(tǒng)計學(xué)入門介紹2015_第1頁
統(tǒng)計學(xué)入門介紹2015_第2頁
統(tǒng)計學(xué)入門介紹2015_第3頁
統(tǒng)計學(xué)入門介紹2015_第4頁
統(tǒng)計學(xué)入門介紹2015_第5頁
已閱讀5頁,還剩142頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

課程大綱一、何為統(tǒng)計學(xué)

1.1定義

1.2統(tǒng)計分析方法的類別

1.3統(tǒng)計學(xué)相關(guān)名詞二、變量及其分布

2.1變量及類型

2.2正態(tài)分布

2.3其他常見分布

2.4中心極限定理1三、統(tǒng)計量及抽樣分布

3.1何為統(tǒng)計量

3.2三大抽樣分布四、參數(shù)估計

4.1點估計

4.2區(qū)間估計課程大綱五、圖形分析

5.1直方圖

5.2箱型圖

5.3散點圖

5.4時間序列圖六、假設(shè)檢驗

6.1假設(shè)檢驗定義及原理

6.2均值檢驗2

6.3方差檢驗

6.4OneWayANOVA6.5TwoWayANOVA

6.6比例檢驗七、相關(guān)與回歸

7.1相關(guān)分析

7.2回歸分析何為統(tǒng)計學(xué)3何為統(tǒng)計學(xué)統(tǒng)計學(xué)定義以上所有例子,都要通過各種直接或間接的手段來搜集數(shù)據(jù),都要利用相應(yīng)方法來整理和分析數(shù)據(jù),最后通過分析得到結(jié)論。4你可以借助統(tǒng)計說出你想要的結(jié)論,甚至撒下謊言你可以借助統(tǒng)計說明世界多奇妙樣本總體抽樣/實驗推論統(tǒng)計學(xué)分析方法的類別5含義:大多以圖表方式,簡單計算等方式來對數(shù)據(jù)的分布、變化、趨勢等進行描述的統(tǒng)計分析方法;特點:操作簡單、直觀有效含義:研究如何根據(jù)樣本數(shù)據(jù)對統(tǒng)計總體特征做出以概率形式表述的推斷;特點:一般需要建模,相對復(fù)雜;經(jīng)典方法:估計、假設(shè)檢驗兩大類統(tǒng)計分析方法描述統(tǒng)計方法推論統(tǒng)計方法一般來說,推論統(tǒng)計分析是在描述統(tǒng)計分析的基礎(chǔ)上進行的,兩種分析方法密不可分;統(tǒng)計學(xué)分析方法的類別描述統(tǒng)計與推論統(tǒng)計的聯(lián)系:6統(tǒng)計名詞總體:研究對象所有個體的集合樣本:由總體中抽取部分個體所組成的集合一般n<30稱為小樣本,n≧30則稱為大樣本總體參數(shù):表達總體特征的指標

統(tǒng)計量:表達樣本特征的量數(shù),也稱樣本統(tǒng)計量變量:統(tǒng)計學(xué)研究的對象,用數(shù)據(jù)衡量,根據(jù)其特性可分為:計量值(連續(xù)型):可量化表示

---例如:高度、膜厚、溫度、CD、流量、阻值

---常用的總體參數(shù)或統(tǒng)計量有平均數(shù)、標準差計數(shù)值(離散型):可分類表示

---例如:人數(shù)、不合格品數(shù)、亮點數(shù)、良率

---常用的總體參數(shù)或統(tǒng)計量有比例7變量及其分布8變量當(dāng)一個指標的取值固定為某個值時,我們稱之為常量;當(dāng)一個指標的取值不固定時(多種可能性),我們稱之為變量。例如:——若用X表示32A05產(chǎn)品的mura檢測結(jié)果,因該結(jié)果的值可能是”O(jiān)K”、”NG”等各種可能,故X為變量?!粲肅D表示28”產(chǎn)品的CD值,因制程的波動該值也是波動的,CD值不固定,故CD為變量。變量:變量的具體取值是用數(shù)據(jù)衡量的9變量的數(shù)據(jù)類型變量不能連續(xù)取值,能一一列出樣本點;一般用數(shù)據(jù)表示其頻數(shù),故用計數(shù)型數(shù)據(jù)表示變量能夠連續(xù)取值,無法一一列出樣本點;具體取值可用計量型數(shù)據(jù)表示例:某產(chǎn)品defect類型檢驗結(jié)果;一次擲20個硬幣,硬幣正面朝上的數(shù)量;例:

28”產(chǎn)品的CD值;

華星員工食堂吃午飯,打飯的排隊時間;離散型變量:連續(xù)型變量:10變量特征的測度變量特征中心趨勢分散程度眾數(shù)中位數(shù)平均值一般用μ表示一般用σ表示標準偏差全距變異數(shù)形狀特征偏態(tài)系數(shù)峰態(tài)系數(shù)11變量的分布

為變量X的分布函數(shù)。稱X服從例:投擲一個骰子,求點數(shù)X不超過3的概率。

解:分布離散型變量分布列連續(xù)型變量概率密度函數(shù)不同數(shù)據(jù)類型的變量用不同的方式衡量其分布狀況

X……P……12離散型變量的分布列對離散型隨機變量,常用以下定義的分布列來表示其分布:例:X為投擲兩個骰子的點數(shù)之和,其分布列如下:X23456789101112P1/362/363/364/365/366/365/364/363/362/361/36

為X的概率分布列,簡稱分布列,記為

逐一列出每個可能的取值的概率13練習(xí)現(xiàn)同時投擲兩個骰子,Y為6點的骰子個數(shù),Z為最大點數(shù),求隨機變量Y的分布列求隨機變量Z的分布列Y012P25/3610/361/36Z123456P1/363/365/367/369/3611/3614連續(xù)型變量的概率密度函數(shù)例

膜厚X是一個隨機變量。假如記錄10000筆膜厚值,我們將各膜厚的頻率用直方圖形式表示出來,x軸表示膜厚,y軸表示單位長度上的頻率

對連續(xù)型隨機變量,用概率密度函數(shù)來表示其分布狀況:

即為膜厚的概率密度函數(shù)

15正態(tài)分布在統(tǒng)計學(xué)上最重要的連續(xù)型分布是正態(tài)分布特點:正態(tài)分布的概率密度函數(shù)中間高,兩邊低,對稱的鐘型;均值=中位數(shù)=眾數(shù)m=median=mode50%50%量測值

16

為位置尺度,決定圖形的中心位置;為形狀尺度,決定圖形的胖瘦。

m=1

m=2

m=3

ms=1s=2s=3固定s,變動m固定m,變動s17正態(tài)分布的概率計算中心到各標準偏差(σ)之概率如下μ-3σμ-2σμ-σμ+σμ+2σμ+3σμ0.02150.13590.34130.34130.13590.02150.68260.95440.9973曲線以下的面積等于概率18正態(tài)分布的概率計算Excel計算公式如下:P(X<=15)=NORM.DIST(15,??,??,TRUE

)P(X>15)=1-P(X<=15)若已知概率(假設(shè)P(X<=z1)=0.8),求區(qū)間點Z1,則Z1=NORM.INV(p,??,??)1015

19練習(xí)假設(shè)1370站點CD值服從正態(tài)分布,平均值為16.5,標準差為0.5,規(guī)格為16.8~18.2求超出規(guī)格上限的概率CD大于Z的概率為0.025,求Z值求該CD值的不良率(即,超出規(guī)格的概率)20一般正態(tài)分布=1Z標準正態(tài)分布標準正態(tài)分布表示為任何一個一般的正態(tài)分布,可通過下面的線性變換轉(zhuǎn)化為標準正態(tài)分布標準正態(tài)分布21標準正態(tài)分布的概率計算Excel計算公式如下:P(X<=1.96)=NORM.S.DIST(1.96,TRUE)P(X>1.96)=1-P(X<=1.96)若已知概率(假設(shè)P(X<=Z1)=0.8),求區(qū)間點則Z1=NORM.S.INV(p)已知X服從N(0,1)分布,求X大于1.96的概率。01.96???X~N(0,1)22正態(tài)性檢驗23其他常見連續(xù)分布均勻分布指數(shù)分布例如:比如旅客進機場的時間間隔、電話通話時間電子元器件的壽命、動物的壽命許多電子產(chǎn)品的壽命分布一般服從指數(shù)分布f(x)=,其他0,a<x<b

0abxf(x)10abxF(x)概率密度函數(shù)l=0.5l=1l=2其中參數(shù)λ>0,記作X~Exp(λ)期望:E(X)=1/λ方差:D(X)=1/(λ^2)記作X~U(a,b)期望:E(X)=(a+b)/2方差:D(X)=(b-a)^2/12分布函數(shù)

24常見離散分布二項分布泊松分布一般地,在n次獨立重復(fù)試驗中,用X表示事件A發(fā)生的次數(shù),如果單次試驗中A發(fā)生的概率是P,則不發(fā)生的概率q=1-p,N次獨立重復(fù)試驗中發(fā)生K次的概率是那么就說K服從二項分布。

記作X~B(n,p)期望:E(X)=np方差:D(X)=npqP(X=k)=(K=1,2,3,…n)例如:良率的問題一般屬于二項分布泊松分布常與單位時間(單位面積、單位產(chǎn)品等)上的計數(shù)過程相聯(lián)系,例如:(K=1,2,3,…)泊松分布的概率分布列為:其中參數(shù)λ>0,記作X~P(λ)期望:E(X)=λ方差:D(X)=λ在單位時間內(nèi),電話總機接到用戶呼喚的次數(shù)在單位時間內(nèi),一電路受到外界電磁波的沖擊次數(shù)1平方米內(nèi),玻璃上的氣泡數(shù)單片panel上的defect數(shù)

25樣本均值的分布假如X1,X2,…Xn是從均值為μ,方差為σ2的正態(tài)總體中抽取的樣本值其抽樣的均值:若將其視為另外一個變量則

的均值為μ,方差為且服從正態(tài)分布

總體分布

X

s26樣本均值的分布已知總體X~N(50,10^2),若抽取樣本,樣本均值的分布如下:X=60s=10

27中心極限定理不論總體為何種分布,只要樣本容量n≥30,樣本平均值的抽樣分布近似于正態(tài)分布,假設(shè)總體均值為m,標準差為s。

即,當(dāng)n足夠大時,樣本均值服從

當(dāng)樣本數(shù)夠大時(n≥30)

,樣本平均值的抽樣分布會趨近于正態(tài)分布一個任意分布的總體

JMP操作28統(tǒng)計量及抽樣分布29統(tǒng)計量總體樣本最常見的統(tǒng)計量:平均值m

標準差s

設(shè)為取自某總體的樣本,若樣本函數(shù)中不含任何未知參數(shù),則稱T為統(tǒng)計量,統(tǒng)計量的服從的分布稱為抽樣分布。定義

統(tǒng)計量30三大抽樣分布卡方分布t分布F分布31卡方分布

32卡方分布的計算Excel計算公式:

33卡方統(tǒng)計量的構(gòu)建設(shè)x1,x2,….,xn是來自N(m,s^2)的樣本,其中樣本均值和樣本方差分別為

34F分布

35F分布的計算

36F統(tǒng)計量的構(gòu)建37t分布定義:設(shè)隨機變量X1與X2獨立且X1~N(0,1),X2~(n),則稱

的分布為自由度為n的t分布,記為t

~

t(n)。Z分布不同自由度的t分布自由度n越大,t分布越接近正態(tài);一般n>=30,可認為正態(tài)

t分配受兩個變量的影響(),因此其變異會較標準正態(tài)分布來的大當(dāng)t分布的自由度越大時,會越接近標準正態(tài)分布也就是說38t分布的性質(zhì)Z分布不同自由度的t分布39t統(tǒng)計量的構(gòu)建大部分的情況下,總體標準σ是未知的!!當(dāng)σ未知,且樣本不夠大時,可以用樣本標準偏差s替代,仍可得到跟正態(tài)分布接近的性質(zhì)t分布的自由度是n-140t分布的計算41參數(shù)估計42估計點估計:以樣本統(tǒng)計量為基礎(chǔ)估計參數(shù)推測某一分布的母數(shù)值是多少的方法,包括點估計和區(qū)間估計??傮w參數(shù)樣本統(tǒng)計量推算出樣本抽取估計樣本統(tǒng)計量總體參數(shù)xmsspP^估計請注意:點估計沒有誤差的概念,即不知道抽取的樣本之估計值與總體真值的接近程度。43估計估計區(qū)間估計:與點估計不同,估計參數(shù)存在的范圍(區(qū)間)

=點估計±抽樣誤差考慮了抽樣誤差置信區(qū)間的計算:a.根據(jù)一組樣本觀察值;b.給定某區(qū)間可以估計總體參數(shù)的概率;計算出總體參數(shù)的估計范圍置信水平樣本統(tǒng)計量

(點估計)置信下限置信上限置信區(qū)間44估計置信水平置信水平一般表示為(1-α),意思是總體參數(shù)落在該置信區(qū)間內(nèi)的概率??傮w參數(shù)()不同取樣計算出來的置信區(qū)間例如:95%的

置信區(qū)間,是指100次取樣中,求得的100個置信區(qū)間中,有95個包含總體平均。α

為顯著性水平,是總體參數(shù)未在區(qū)間內(nèi)的概率,在假設(shè)檢驗中,為第一類風(fēng)險;常用的置信水平(1-α)有99%,95%,90%

相對應(yīng)的顯著性水平α為0.01,0.05,0.1存在總體參數(shù)不在置信區(qū)間內(nèi)的風(fēng)險,該風(fēng)險概率為α45XiX1-αα/2α/2σσμμ1)總體s已知時

對平均(μ)的置信區(qū)間μ=??=10.510.5±???σ2=??s2=3.83.8±???對平均(μ)的區(qū)間估計

對變異(σ2)的的區(qū)間估計估計置信區(qū)間的計算公式1)總體s未知時

對變異(σ2)的置信區(qū)間

46估計置信區(qū)間的計算練習(xí):14.65314.75414.48914.2114.37514.47114.49914.77614.33414.74現(xiàn)抽取10片32A05產(chǎn)品,每片在同一點位量測其CD1值(第一層),數(shù)據(jù)如下:請問:CD1的均值和方差的置信區(qū)間分別為多少?(取α=0.05)在JMP中創(chuàng)建新數(shù)據(jù)表,輸入以上數(shù)據(jù);操作:分析分布47估計

JMP操作:在JMP中創(chuàng)建新數(shù)據(jù)表,輸入以上數(shù)據(jù);操作:分析分布平臺選單置信區(qū)間注:默認置信水平為95%,可在平臺選單中修改置信水平現(xiàn)在,請嘗試用excel計算出以上結(jié)果常用統(tǒng)計分析方法匯總data型態(tài)常用統(tǒng)計分析方法常用圖形分析方法YX假設(shè)檢定連續(xù)單一水平1-sampleztest(σ已知)

1-samplettest(σ未知)直方圖箱型圖時間序列圖1-variancetest連續(xù)兩水平2-variancetest2-samplettest;

pairedttest連續(xù)多水平testforequalvarianceone-wayANOVA離散單一水平1-proportiontest離散兩水平2-proportiontest相關(guān)與回歸X、Y均為隨機變數(shù)相關(guān)分析散點圖X為自變量;Y為因變量回歸分析48圖形分析49圖形分析1234直方圖箱型圖散點圖時間序列圖50直方圖51區(qū)分data的區(qū)間,顯示分布形態(tài)和中心位置及變異,能看到連續(xù)性資料的分布模樣。直方圖用以了解一群數(shù)據(jù)之分布狀況,及其中心值與變異情形。直方圖分析目的1.觀察數(shù)據(jù)分布形態(tài)1)數(shù)據(jù)的中心位置2)數(shù)據(jù)的離散程度2.與規(guī)格的關(guān)系將產(chǎn)品特性值數(shù)據(jù)與規(guī)格進行比較形態(tài)可能原因參考對策形態(tài)可能原因參考對策一般顯示的形狀沒有異常要因的變化工程穩(wěn)定多種工程條件混合存在的時候可能是測定系統(tǒng)問題,不能準確地讀出特定范圍的數(shù)值或避開時發(fā)生根據(jù)層別方法,將全體散布分為許多互相不同的工程條件下進行作業(yè)時,如不同機臺、不同班別、不同原材料等即規(guī)格值的下限抑制時,不取某值以下的值備注:右偏型同理為擴展Data幅,離下限接近的值也都要取因工程發(fā)生異常而引起,工程條件變化測定錯誤追究發(fā)生落島型原因的話,可以掌握其改善方法.刪除不滿足規(guī)格的數(shù)據(jù)時測定的騙術(shù)檢查錯誤測定誤差等要提高工序能力,重新研討規(guī)格52正態(tài)型陡壁型缺齒型偏態(tài)型平頂型孤島型雙峰型.制訂層別的矩形圖而比較.重新制訂層別的矩形圖的話,2個分布的差就明確.常見直方圖形態(tài)直方圖與規(guī)格進行比較53與規(guī)格比較(1)滿足規(guī)格時LSLUSLLSLUSL特性值都滿足規(guī)格,但制程變異尚有較大改善空間特性值都滿足規(guī)格,且制程非常穩(wěn)定。LSLUSL特性值都滿足規(guī)格,且制程非常穩(wěn)定,但是制程整體偏離中心位置(目標)。直方圖與規(guī)格進行比較54與規(guī)格比較(2)不滿足規(guī)格時LSLUSLLSLUSL制程穩(wěn)定,但是特性值偏離中心目標值,導(dǎo)致超出規(guī)格中心與目標值一致,但特性值的變異大而存在超過規(guī)格的數(shù)據(jù)。LSLUSL數(shù)據(jù)的中心偏離目標值很大,特性值的變異也很大,制程很不穩(wěn)定,很多數(shù)據(jù)超出規(guī)格。備注:在計算制程能力時,可先用直方圖做初步觀察。案例A01現(xiàn)已搜集32A05產(chǎn)品CD1,請用直方圖分析其分布狀況:案例55打開“直方圖.jmp”數(shù)據(jù)表;操作:圖形圖形生成器鼠標放在圖形區(qū)域,右擊,選擇直方圖注:將數(shù)據(jù)拖到Y(jié)軸也可案例A01案例56圖形看起來沒有太大問題,可將其與規(guī)格進行比較,規(guī)格為15+/-1.5By機臺層別分析操作:將“機臺”拖到Y(jié)軸對比兩個機臺,可得出什么結(jié)論?圖形分析1234直方圖箱型圖散點圖時間序列圖57什么是箱型圖對X測定的Y值可用Box形態(tài)表示,用于確認分布的模樣,以及數(shù)據(jù)的中央值、最小值、4分位數(shù)、最大值、異常點,也可以分析幾個Group之間對數(shù)據(jù)分布的差異點58箱型圖箱型圖的解釋50分位(中位數(shù))Q3+1.5(Q3-Q1)內(nèi)最大值Q1-1.5(Q3-Q1)內(nèi)最小值75分位(第三四分位數(shù))Q325分位(第一四分位數(shù))Q1異常點(Outlies)*數(shù)據(jù)的中間

50%IQR=Q3-Q159箱型圖案例A01針對上個案例A01,請做箱型圖分析:打開“直方圖.jmp”數(shù)據(jù)表;操作:圖形圖形生成器鼠標放在圖形區(qū)域,右擊,選擇箱型圖60箱型圖案例A01從箱型圖可得出什么結(jié)論?61箱型圖范例圖形分析1234Ydata分布形態(tài)—直方圖根據(jù)X的Y分布比較—箱型圖散點圖Y的時間性變化—時間序列圖62定義:以縱軸表示因變量,以橫軸表示自變量,用點表示出分布型態(tài),根據(jù)分布的型態(tài)判斷對應(yīng)數(shù)據(jù)之間的相互關(guān)系的圖形。63散點圖目的用以探索分析成對的二個連續(xù)型變量數(shù)據(jù)之間的關(guān)系適用時機原因分析、真因證實散點圖常見形態(tài)散點圖散點圖1散點圖3散點圖2散點圖4散點圖6散點圖56465散點圖案例A02:散布圖注意事項注意是否有異常點存在,亦即該點與其他點相距很遠。是否有必要加以層別,亦即由數(shù)據(jù)看是無相關(guān),但將數(shù)據(jù)分群后卻發(fā)現(xiàn)具有相關(guān),反之亦然。因此一個相關(guān)與否的散布圖需放入單純且必要的數(shù)據(jù)。層別圖形分析1234直方圖箱型圖散點圖時間序列圖67時間序列圖顯示隨時間經(jīng)過的數(shù)據(jù)變化;可通過時間序列圖觀察特性值是否存在時間趨勢或存在周期性;掌握隨時間經(jīng)過對制程Data有何影響,掌握是否有因異常原因的工序變化。68時間序列圖69時間序列圖案例A04:每月客返品中均有不規(guī)則mura,現(xiàn)針對每月搜集的累計不規(guī)則mura產(chǎn)品數(shù),做數(shù)據(jù)分析,以期預(yù)估未來不規(guī)則mura數(shù)量趨勢。打開“不規(guī)則mura.jmp”數(shù)據(jù)表;操作:圖形圖形生成器鼠標放在圖形區(qū)域,右擊,選擇箱型圖70時間序列圖案例A04:從該時間序列圖可得出什么結(jié)論?備注:必要時可在JMP軟件中通過“分析建模時間序列”操作,進行時間序列建模分析71時間序列圖范例:72圖形分析注意事項圖形分析只是數(shù)據(jù)分析的第一步,利用圖形直觀地做出初步判斷,具體尚需做進一步推論統(tǒng)計分析驗證做圖形分析時,要注意使用層別法假設(shè)檢驗73假設(shè)檢驗12345假設(shè)檢驗基本概念平均值檢驗變異數(shù)檢驗比例檢驗單因子方差分析74案例A1原廠內(nèi)產(chǎn)品不良率為1.5%,工程師陳某負責(zé)該產(chǎn)品良率,經(jīng)過1個月的努力,現(xiàn)將給改善對策進行小量試產(chǎn),共run250片產(chǎn)品,發(fā)現(xiàn)2片不良。據(jù)此,該工程師聲稱,良率得到改善,決定量產(chǎn)。為什么需要假設(shè)檢驗75

基礎(chǔ)統(tǒng)計量產(chǎn)品狀況頻數(shù)比例總樣本量OK24899.2%250NG20.8%0.8%跟1.5%之間的差異,到底是真的存在此差異?還是差異只是因正常抽樣而導(dǎo)致的差異?在統(tǒng)計上是否有意義呢?提問:別擔(dān)心,假設(shè)檢驗可以為您解決這個困擾!原假設(shè)(簡稱H0):也叫虛無假或零假設(shè);通常H0敘述的是無效果或無差別;先假設(shè)H0成立,后基于統(tǒng)計證據(jù)拒絕或不能拒絕H0。

對立假設(shè)(簡稱H1或Ha):與H0對立的假設(shè);關(guān)于總體體參數(shù)的,在H0被拒絕時可以成立的敘述。一般含有等號,例如:H0:μ1

>=μ2

H0:μ1

<=μ2

H0:

μ1

=μ2與H0對立,例如:H1:μ1<μ2

H1

:

μ1>μ2

H1:

μ1≠μ2注意:1.含有等號的均放在H0;

2.H1通常是想驗證的結(jié)果。假設(shè)檢驗基本概念76練習(xí)題請寫出以下各情形的H0和H1:某制藥會社新開發(fā)的頭痛藥B比原有的頭痛藥A,藥效能多持續(xù)30分鐘;AC廠某工程師想知道膜厚機臺A和機臺B是否有差異;以案例A1為例,建立H0和H1:H0:μ(調(diào)整前)=μ(調(diào)整后)統(tǒng)計意義:調(diào)整前和調(diào)整后的總體膜厚平均是相等的;實際意義:wipingtime調(diào)整前后PS膜厚沒有差異H1:μ(調(diào)整前)≠μ(調(diào)整后)統(tǒng)計意義:調(diào)整前和調(diào)整后的總體膜厚平均是不相等的;實際意義:wipingtime調(diào)整前后PS膜厚有差異假設(shè)檢驗基本概念77假設(shè)檢驗中,建立H0&H1以后,需根據(jù)檢驗的對象建立相應(yīng)的檢驗統(tǒng)計量,常見樣本檢驗統(tǒng)計量如下:Z統(tǒng)計量服從正態(tài)分布t

統(tǒng)計量服從T分布F統(tǒng)計量服從F分布c2統(tǒng)計量服從

分布在分布已知情況下,即可通過概率求區(qū)間點,或通過區(qū)間點求概率。假設(shè)檢驗基本概念檢驗統(tǒng)計量:78實際狀況H0H1樣本結(jié)果H0判斷正確概率:1-a第二類錯誤概率:bH1第一類錯誤概率:a判斷正確概率:1-b第一類錯誤H0成立,卻拒絕H0稱為a風(fēng)險,發(fā)生的概率用a表示第二類錯誤H0不成立,卻接受H0稱為b風(fēng)險,發(fā)生的概率用b表示注意:a一般取0.05、0.1、0.01,最常用的是0.05a越小b越大,故a不可過小,否則范第二類錯誤概率b會很大不可知假設(shè)檢驗基本概念假設(shè)檢驗的兩類錯誤:7980拒絕域&接受域拒絕域&接受域

m置信下限置信上限總體的95%置信區(qū)間接受域若H0成立,樣本均值應(yīng)該落在此區(qū)間拒絕域拒絕域若樣本均值應(yīng)該落在此區(qū)間,則拒絕H0,即H0不成立因在計算拒絕域時需先知道a,但是不同情況下可能選定的a不一樣,此方式比較麻煩,故將計算拒絕域轉(zhuǎn)換為P-valueP-value假設(shè)檢驗中,以指標P-value跟a比較來確認結(jié)論:若P-value≦α,則拒絕H0;若P-value>α,則接受H0假設(shè)檢驗基本概念P-value越小越拒絕H0

落于此中間部分為接受H081

3.確定H0&H1,選擇a水平

2.判斷數(shù)據(jù)類型,選擇合適的檢驗方法1.把實際問題轉(zhuǎn)化為統(tǒng)計問題4.抽取樣本數(shù)據(jù),進行分析(運用軟件)5.判斷,得出結(jié)論假設(shè)檢驗基本概念假設(shè)檢驗一般步驟建立檢驗統(tǒng)計將P-value與a比較82data型態(tài)統(tǒng)計量分析方法YX連續(xù)單一水平(σ已知)Z1-sampleztest(σ未知)t1-samplettest連續(xù)兩水平(獨立樣本)t2-samplettest;(相關(guān)樣本)Zpairedttest連續(xù)多水平Fone-wayANOVA各均值檢驗及方差檢驗方法定義data型態(tài)統(tǒng)計量分析方法YX連續(xù)單一水平c21-variancetest連續(xù)兩水平F2-variancetest

連續(xù)多水平(近似)c2Bartlett

test檢驗均值檢驗方差(變異數(shù))data型態(tài)統(tǒng)計量分析方法YX離散單一水平Z1-Ptest離散兩水平Z2-Ptest檢驗比例83假設(shè)檢驗12345假設(shè)檢驗基本概念平均值檢驗變異數(shù)檢驗比例檢驗單因子方差分析841

sampleZ/t檢驗如何驗證膜厚是否等于目標值?如何確認首件與之前產(chǎn)品均值是否有差異?85案例A2:GB項目——CF廠R20CD1Cpk改善若已知CD1標準差s=0.089,問:CD1平均值是否等于目標值147.5?1

sampleZ檢驗解決方法——搜集數(shù)據(jù)資料,25片Glass的CD值(每片量30個點)A2_CD1.jmp861

sampleZ檢驗H0:CD1=147.5V.SH1:CD1≠147.5(a取0.05)

CD1為連續(xù)型數(shù)據(jù),只有一組樣本,標準差s已知,故用1sampleZ檢驗檢驗統(tǒng)計量:若H0成立,則Z~N(0,1)

根據(jù)實際情況可設(shè)為H0:

m<=m0V.S

H1:

m>m0或H0:

m>=m0

V.SH1:m<m0或H0:

m=m0

V.SH1:m≠m0871

sampleZ檢驗打開“A2_CD1.jmp”文檔。功能選單:分析分布假設(shè)均值實際標準差功能選單:CD1平臺選單檢驗均值P-value<0.05,拒絕Ho故CD1均值不等于目標值147.5881

samplet檢驗H0:CD1=147.5V.SH1:CD1≠147.5(a取0.05)

但是,實際工作中,基本上是不知道總體標準差s的,因此,需要用樣本標準差s來預(yù)估s,故用1samplet檢驗根據(jù)實際情況可設(shè)為H0:

m<=m0V.S

H1:

m>m0或H0:

m>=m0

V.SH1:m<m0或H0:

m=m0

V.SH1:m≠m0檢驗統(tǒng)計量:若H0成立,則t~t(n-1)

891

samplet檢驗打開“A2_CD1.jmp”檔案。功能選單:分析

分布假設(shè)均值未知,不需要填功能選單:CD1平臺選單檢驗均值P-value<0.05,拒絕Ho故CD1均值不等于目標值147.5901

sampleVariance檢驗

單樣本,用1sampleVariance檢驗

91打開“CD1.jmp”文檔。1

sampleVariance檢驗功能選單:

分析

分布

;CD1平臺選單檢驗標準差填入欲驗證的標準差P-value>0.05,無法拒絕Ho故CD1標準差并沒有大于0.089綜合均值和變異數(shù)檢驗結(jié)果,CD1的CPK差主要是由于精度問題導(dǎo)致921.如何知道A機臺與B機臺CD是否存在機差?2.如何判斷兩個不同溫度條件下膜厚是否受影響?3.如何判斷參數(shù)調(diào)整后,某特性是否變好?2

samplet檢驗932

samplet檢驗案例A3:GB項目——CF廠PS月產(chǎn)能114K提升至120K能否直接調(diào)節(jié)wipingtime來降低Coater涂布時間,從而提升月產(chǎn)能?解決方法——搜集數(shù)據(jù)資料,25片Glass的CD值(每片量30個點)PS月產(chǎn)能提升Coater涂布時間WipingtimeCoatingTimeCSPSuctionTime衍生指標:PSHCpkY小yX942

samplet檢驗顯然,Wipingtime降低

Coater涂布時間降低;但可能會有副作用,即PSHCpk變差。要降低wipingtime,必須確保PSH不受影響。故,問題轉(zhuǎn)換為“如何判斷wipingtime調(diào)整前后PSH是否受影響”調(diào)整前2.86612.87442.86612.85532.88112.87622.86852.85942.86822.86312.86432.85252.85542.87442.86472.86242.86082.85592.85912.85342.86882.87712.85612.85712.8612調(diào)整后2.85362.85092.85722.85152.85672.85172.84122.84662.84052.85532.8492.85862.85822.85232.84982.85472.85772.86252.86312.85732.85952.86182.85252.8512.8597數(shù)據(jù)資料:搜集調(diào)整前和調(diào)整后的單片glass的平均PHS值,各25筆X:wipingtime參數(shù)(調(diào)整前(7.9s)、調(diào)整后(5.95s))——兩水平Y(jié):PHS(膜厚)——連續(xù)判斷層別因子(wipingtime)(兩水平)的顯著性均值檢定2-samplet檢驗A3_2-sample_wipingtime.jmp952

sampleVariance檢驗由于在進行2samplettest時,檢驗統(tǒng)計量的選擇會受到方差是否相等的影響,故在進行均值檢驗之前先進行等方差檢驗;PS:方差也是PHS是否收到影響的其中一方面;(即PHS均值跟方差都要同時考慮)

雙樣本,用2sampleVariance檢驗

96P-value>0.05,無法拒絕Ho故wipingtime調(diào)整前后PHS標準差沒有差異。2

sampleVariance檢驗打開A3_2-sample_wipingtime.Jmp檔案。功能選單:分析以X擬合Y平臺選單分位數(shù)功能選單:

平臺選單不等方程箱型圖觀察分析972

samplet檢驗H0:PHS1=PHS2V.SH1:PHS1≠PHS2

(a取0.05)

檢驗統(tǒng)計量:

;若H0成立,則t~t(m+n-2)

根據(jù)實際情況可設(shè)為H0:

m1<=m2

V.S

H1:

m1>m2或H0:

m1>=m2

V.SH1:m1<m2或H0:

m1=m2

V.SH1:m1≠m2

982

samplet檢驗檢驗統(tǒng)計量:

;若H0成立,則t近似服從~t(L)(L推算復(fù)雜,此處不做解釋)

992

samplet檢驗回到案例A3,驗證等方差性后,發(fā)現(xiàn)調(diào)整前后方差相等,故均值檢驗操作如下:功能選單:

平臺選單均值/方差/合并的tP-value<0.05,拒絕Ho故wipingtime調(diào)整前后PHS均值不一樣。綜合變異數(shù)和均值檢驗結(jié)果發(fā)現(xiàn):wipingtime調(diào)整前后PHS變異無差別,但均值受到影響,故不能將wipingtime調(diào)整至5.95s,需要另尋因子,或檢驗其他調(diào)整幅度。1002

samplet檢驗在案例A3中,平臺選單t檢驗備注:方差不等情況下,檢驗統(tǒng)計量近似服從t分布。101Pairedt檢驗在雙樣本連續(xù)型變量檢驗中,若樣本一一對應(yīng),此時“2samplet檢驗”不再適用;例如:

1.同一批樣品的CD,由兩種不同量具量測結(jié)果的比較;2.同一批樣品在不同溫度下的某連續(xù)型特性值。102案例A4:Pairedt檢驗?zāi)逞芯繉W(xué)者欲了解補習(xí)班能否增進學(xué)習(xí)能力,選一組隨機樣本12位小朋友,以α=0.05的顯著水平,驗證補習(xí)后成績是否高于補習(xí)前:

補習(xí)前:22、31、28、27、29、32、26、27、31、28、25、30

補習(xí)后:29、27、32、25、33、30、36、29、33、28、32、29該案例中,兩組樣本是一一對應(yīng)的,此時2samplet檢驗不再適用;此時,使用Pairedt檢驗。首先對兩組樣本做如下處理:di=補習(xí)后成績-補習(xí)前成績,得到新的樣本數(shù)據(jù):7、-4、4、-2、4、-2、10、2、2、0、7、-1A4_Pairedt_補習(xí)成績.jmp103Pairedt檢驗

則檢驗兩樣本均值的問題轉(zhuǎn)化為單樣本零均值檢驗的問題;根據(jù)實際情況可設(shè)為H0:

m<=m0V.S

H1:

m>m0或H0:

m>=m0

V.SH1:m<m0或H0:

m=m0

V.SH1:m≠m0檢驗統(tǒng)計量:,sd為新的數(shù)據(jù)列di的樣本標準差若H0成立,則t~t(n-1)

104Pairedt檢驗打開Pairedt_補習(xí)成績.jmp檔案。功能選單:分析配對P-value<0.05,拒絕Ho故補習(xí)后成績確實大于補習(xí)前,補習(xí)有一定成效。備注:pairedt檢驗,要求兩列數(shù)據(jù)樣本量要一樣;

2samplet檢驗,兩列數(shù)據(jù)樣本量可以不一樣。105假設(shè)檢驗12345假設(shè)檢驗基本概念平均值檢驗變異數(shù)檢驗比例檢驗單因子方差分析106單因子方差分析(OneWayANOVA)1.兩個機臺之間的CD是否有差異可以用2samplet檢驗,如果是三個機臺或更多呢?2.如何判斷兩個以上不同溫度條件下膜厚是否受影響?107定義:

方差分析(AnalysisofVariance,簡稱ANOVA),又稱“F檢驗”,是R.A.Fisher發(fā)明的,用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。原理:OneWayANOVA機臺1的樣本數(shù)據(jù)機臺2的樣本數(shù)據(jù)總變異包括:組間變異

+

組內(nèi)變異不同機臺引起的波動隨機因素引起的波動在總變異中,當(dāng)組間變異占比重較大時,說明不同機臺之間差異顯著,即該因子有影響,這就是ANOVA的原理。108OneWayANOVAH0:m1

=m2

=……=m

k

,即,所有水平樣本平均值均相等H1:

各樣本平均值不全相等,即至少有一個與其他不相等原假設(shè)&對立假設(shè):檢驗統(tǒng)計量:

109案例A5:32A05TTNPT(CVD小黑點)不良降低OneWayANOVA問:R2處理時間是否對TTNPTdefectdensity有影響?TTNPTdefectdensityHDCCV轉(zhuǎn)速R2處理氣體種類R2處理時間Y

X清潔功率清潔距離NF3流量光阻厚度干燥壓力2200HDC4300PHOTO2200CVD110R2處理時間為連續(xù)型變量,取三個水平10、12.5、15;以25片計算一個TTNPTdefectdensity值,當(dāng)成連續(xù)型數(shù)據(jù);故,問題轉(zhuǎn)換為“如何判斷三個不同R2處理時間下的defectdensity是否有差異”數(shù)據(jù)資料:每個R2處理時間下搜集10-15筆TTNPTdefectdensity數(shù)據(jù)X:R2處理時間(10、12.5、15)——三水平Y(jié):TTNPTdefectdensity——連續(xù)判斷層別因子(R2處理時間)(三水平)的顯著性均值檢定OneWayANOVA檢驗OneWayANOVA.jmpOneWayANOVA111OneWayANOVAH0:三個TTNPTdefectdensity全部相等

H1:三個TTNPTdefectdensity不全相等

(a取0.05)

來源偏差平方和自由度均方和F統(tǒng)計量HDCCV轉(zhuǎn)速(A)SSAdfA=r-1MSA=SSA/dfAF=MSA/Mse誤差(e)SSedfe=n-rMse=SSe/dfe總計SSTn-1方差分析表備注:r為因子水平數(shù);

n為總樣本數(shù)。112A5變異數(shù)檢驗因OneWayANOVA前提假設(shè)是等方差,故在使用該方法檢驗均值前,先進行變異數(shù)檢驗;PS:方差也是PHS是否收到影響的其中一方面;(即PHS均值跟方差都要同時考慮)

樣本組數(shù)大于2,用修正的Bartlett檢驗113備注:若不等方差,則使用非參數(shù)檢驗進行均值驗證A5_變異數(shù)檢驗114P-value>0.05,無法拒絕Ho故三個R2處理水平下的TTNPT

defectdensity滿足等方差假設(shè)。打開A5_OneWayANOVA.Jmp檔案。功能選單:分析

以X擬合Y平臺選單分位數(shù)功能選單:

平臺選單不等方差箱型圖觀察分析A5_OneWayANOVA115H0:defectdensity(10)=defectdensity(12.5)=defectdensity(15)

H1:defectdensity(10)、defectdensity(12.5)、defectdensity(15)

不全相等(a取0.05)

檢驗統(tǒng)計量:若H0成立,則F~F(dfA,dfe)

dfA=3-1=2(3為因子水平數(shù))Dfe=18-3=15(18為樣本量,3為因子水平數(shù))116A5_OneWayANOVAP-value=0.0145<0.05,拒絕Ho故三個R2處理時間下的TTNPT

defectdensity不全相等,即R2處理時間對TTNPT

defectdensity有影響。承接變異數(shù)檢驗功能選單:平臺選單均值/方差分析方差分析表圖形顯示,15S情況下TTNPT最低,但統(tǒng)計上到底哪兩個水平有顯著差異,需進一步分析117A5_多重比較法承接變異數(shù)檢驗功能選單:平臺選單比較

均值所有對,TukeyHSD118TwoWayANOVA案例A6:現(xiàn)有一筆有關(guān)Sandy暗點不良率的數(shù)據(jù),包含兩個因子,請針對該數(shù)據(jù)進行分析,判斷這兩個因子對Sandy的影響狀況,資料見數(shù)據(jù)表“TwoWayANOVA.jmp”操作:分析擬合模型TwoWayANOVA.jmp119TwoWayANOVA假設(shè)檢驗12345假設(shè)檢驗基本概念平均值檢驗變異數(shù)檢驗比例檢驗單因子方差分析1201samplep檢驗當(dāng)某廠工程師告訴你,目前廠內(nèi)不良率已控制在3.5%以下時,你如何通過數(shù)據(jù)分析確認是否要相信他的結(jié)論?121案例A61samplep檢驗以前,32A04的defect發(fā)生率為9%,對相應(yīng)制程進行了改善,從新抽取300個產(chǎn)品,其中25個存在defect。問:defect是否真的得到改善?a=0.05122解:本題要驗證改善后的是defect發(fā)生率是否低于9%,屬于單樣本;Y取值為“發(fā)生defect””未發(fā)生defect”,為離散型資料,只能用頻數(shù)來衡量;故,該題用1samplep進行驗證。1samplep檢驗

根據(jù)實際情況可設(shè)為H0:p≥p0

V.SH1:p<p0

H0:p≤p0

V.SH1:p>p0

H0:p=p0

V.SH1:p≠p0

H0:

p

9%

V.SH1:

p>9%

(a取0.05)

注意:取樣時樣本n需足夠大,一般需滿足np≥5,且n(1-p)

≥51231samplep檢驗124打開A6_1-ptest.jmp

檔案功能選單:分析分布第二層平臺選單檢驗概率P-value=0.03908>0.05,無法拒絕H0

;改善后defect并沒有降低,改善措施無效。輸入要檢驗的概率值選擇相應(yīng)的對立假設(shè)H12samplep檢驗如何確認兩個機臺的良率或不良率是否有差異?如何確認對策實施前后,良率是否有提升?1252samplep檢驗126案例A7:55UD模組組裝不良率降低問:如何驗證BLU轉(zhuǎn)板機速度是否對55UD模組組裝不良率有影響?55UD模組組裝不良率8.5%Y

XBLU異物不良率2.28%BLU臟污不良率1.91%顯示異常不良率2.14%風(fēng)槍風(fēng)力1BLU轉(zhuǎn)板機速度Panel翻轉(zhuǎn)速度Panel在BLU位置吸盤作業(yè)高度2samplep檢驗127現(xiàn)搜集轉(zhuǎn)板機速度為1m/s和0.8m/s條件下的產(chǎn)品狀況,均搜集200片樣品,記錄如下:BLU轉(zhuǎn)板機速度產(chǎn)品狀況數(shù)量1m/sOK1711m/sNG290.8m/sOK1850.8m/sNG15X(BLU轉(zhuǎn)板機速度)取兩水平,屬于兩樣本;Y取值為“OK””NG”,為離散型資料,只能用頻數(shù)來衡量;故,該題用2samplep進行驗證。2samplep檢驗

根據(jù)實際情況可設(shè)為H0:p1≥p2

V.SH1:p1<p2或

H0:p1≤p2V.SH1:p1>

p2

H0:p1=p2V.SH1:p1≠

p2

注意:取樣時樣本n需足夠大,一般需滿足np≥5,且n(1-p)

≥51282samplep檢驗129打開A7_2samplep.jmp

檔案功能選單:分析以X擬合Y平臺選單比例均值分析1.P-value=0.0274<0.05,拒絕H0,即BLU轉(zhuǎn)板機速度對組裝不良率確實有影響,22.從圖形以及單尾檢驗結(jié)果可知,0.8m/s的不良率顯著低于1m/s的不良率。圖形分析平臺選單雙樣本比例檢驗注意:此處JMP的檢驗統(tǒng)計量與前面的Z統(tǒng)計量不一樣。假設(shè)檢驗總結(jié)非參數(shù)檢定方法非正態(tài)總體檢定均值兩組相關(guān)樣本檢定均值檢定變異數(shù)兩組獨立樣本檢定均值檢定變異數(shù)一組樣本正態(tài)總體σ不等σ相等σ未知σ已知σ未知σ已知Z統(tǒng)計量T統(tǒng)計量Z統(tǒng)計量近似T統(tǒng)計量T統(tǒng)計量F統(tǒng)計量χ2

統(tǒng)計量檢定比例檢定比例JMP操作Z統(tǒng)計量Z統(tǒng)計量檢驗統(tǒng)計量分布>檢驗均值分布>檢驗均值分布>檢驗概率

T統(tǒng)計量分析>配對以X擬合Y>方差不齊以X擬合Y>t檢驗NA(使用Excel)以X擬合Y

>雙樣本比例檢驗

以X擬合Y

>均值/方差分析/合并的t兩組或兩組以上樣本檢定均值F統(tǒng)計量分析>以X擬合Y>均值/方差分析檢驗方法1-Z

test1-t

test2-Z

test2-ttestPairedttest2-variancetest1-variancetest1-ptest2-ptest2-ttestOneWayANOVA分布>檢驗標

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論