方差分析與正交實驗設計初步_第1頁
方差分析與正交實驗設計初步_第2頁
方差分析與正交實驗設計初步_第3頁
方差分析與正交實驗設計初步_第4頁
方差分析與正交實驗設計初步_第5頁
已閱讀5頁,還剩67頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

方差分析與正交實驗設計初步學習目標方差分析的基本思想和原理單因子方差分析多重比較雙因子方差分析的方法實驗設計方法與數據分析第2頁,共72頁,星期六,2024年,5月不同運動隊的平均成績之間是否有顯著差異?奧運會女子團體射箭比賽,每個隊有3名運動員。進入最后決賽的運動隊需要進行4組射擊,每個隊員進行兩次射擊。這樣,每個組共射出6箭,4組共射出24箭在2008年8月10日進行的第29屆北京奧運會女子團體射箭比賽中,獲得前3名的運動隊最后決賽的成績如下表所示第3頁,共72頁,星期六,2024年,5月不同運動隊的平均成績之間是否有顯著差異?每個隊伍的24箭成績可以看作是該隊伍射箭成績的一個隨機樣本。獲得金牌、銀牌和銅牌的隊伍之間的射箭成績是否有顯著差異呢?如果采用第5章介紹的假設檢驗方法,用分布做兩兩的比較,則需要做次數比較。這樣做不僅繁瑣,而且每次檢驗犯第Ι類錯誤的概率都是一樣的,作多次檢驗會使犯第Ι類錯誤的概率相應地增加,檢驗完成時,犯第Ι類錯誤的概率將會很大。同時,隨著檢驗的次數的增加,偶然因素導致差別的可能性也會增加。采用方差分析方法很容易解決這樣的問題,它是同時考慮所有的樣本數據,一次檢驗即可判斷多個總體的均值是否相同,這不僅排除了犯錯誤的累積概率,也提高了檢驗的效率。第4頁,共72頁,星期六,2024年,5月7.1方差分析的基本思想7.1.1方差分析的有關概念7.1.2方差分析的基本思想和原理7.1.3方差分析中的基本假定7.1.4假設問題的一般提法第5頁,共72頁,星期六,2024年,5月

7.1.1方差分析的有關概念第6頁,共72頁,星期六,2024年,5月什么是方差分析(ANOVA)?1)檢驗多個總體均值是否相等通過分析數據的誤差判斷各總體均值是否相等2)研究分類型自變量對數值型因變量的影響

一個或多個分類尺度的自變量兩個或多個(k個)處理水平或分類一個間隔或比率尺度的因變量3)有單因素方差分析和雙因素方差分析單因素方差分析:涉及一個分類的自變量雙因素方差分析:涉及兩個分類的自變量第7頁,共72頁,星期六,2024年,5月什么是方差分析?(例題分析)消費者對四個行業(yè)的投訴次數行業(yè)觀測值零售業(yè)旅游業(yè)航空公司家電制造業(yè)12345675766494034534468392945565131492134404451657758【例】為了對幾個行業(yè)的服務質量進行評價,消費者協(xié)會在四個行業(yè)分別抽取了不同的企業(yè)作為樣本。最近一年中消費者對總共23家企業(yè)投訴的次數如下表一個分類變量第8頁,共72頁,星期六,2024年,5月什么是方差分析?(例題分析)分析四個行業(yè)之間的服務質量是否有顯著差異,也就是要判斷“行業(yè)”對“投訴次數”是否有顯著影響作出這種判斷最終被歸結為檢驗這四個行業(yè)被投訴次數的均值是否相等。怎樣檢驗?若它們的均值相等,則意味著“行業(yè)”對投訴次數是沒有影響的,即它們之間的服務質量沒有顯著差異;若均值不全相等,則意味著“行業(yè)”對投訴次數是有影響的,它們之間的服務質量有顯著差異。第9頁,共72頁,星期六,2024年,5月方差分析中的其他有關概念1.因素或因子(factor)所要檢驗的對象要分析行業(yè)對投訴次數是否有影響,行業(yè)是要檢驗的因素或因子2.水平或處理(treatment)因子的不同表現零售業(yè)、旅游業(yè)、航空公司、家電制造業(yè)就是因子的水平3.觀察值在每個因素水平下得到的樣本數據每個行業(yè)被投訴的次數就是觀察值第10頁,共72頁,星期六,2024年,5月4.試驗這里只涉及一個因素,因此稱為單因素四水平的試驗5.總體因素的每一個水平可以看作是一個總體比如零售業(yè)、旅游業(yè)、航空公司、家電制造業(yè)可以看作是四個總體6.樣本數據被投訴次數可以看作是從這四個總體中抽取的樣本數據第11頁,共72頁,星期六,2024年,5月7.1.2方差分析的基本思想和原理零售業(yè)旅游業(yè)航空公司家電制造第12頁,共72頁,星期六,2024年,5月從散點圖上可以看出不同行業(yè)被投訴的次數是有明顯差異的同一個行業(yè),不同企業(yè)被投訴的次數也明顯不同家電制造被投訴的次數較高,航空公司被投訴的次數較低行業(yè)與被投訴次數之間有一定的關系如果行業(yè)與被投訴次數之間沒有關系,那么它們被投訴的次數應該差不多相同,在散點圖上所呈現的模式也就應該很接近方差分析的基本思想和原理(圖形分析)第13頁,共72頁,星期六,2024年,5月3僅從散點圖上觀察還不能提供充分的證據證明不同行業(yè)被投訴的次數之間有顯著差異這種差異可能是由于抽樣的隨機性所造成的,也有可能是系統(tǒng)性影響因素造成的。4需要有更準確的方法來檢驗這種差異是否顯著,也就是進行方差分析所以叫方差分析,因為雖然我們感興趣的是均值,但在判斷均值之間是否有差異時則需要借助于方差這個名字也表示:它是通過對數據誤差來源的分析判斷不同總體的均值是否相等。因此,進行方差分析時,需要考察數據誤差的來源第14頁,共72頁,星期六,2024年,5月1. 比較兩類誤差(系統(tǒng)性誤差、隨機誤差),以檢驗均值是否相等;2. 比較的基礎是方差比;3. 如果系統(tǒng)(處理)誤差明顯地不同于隨機誤差,則均值就是不相等的;反之,均值就是相等的;4. 誤差是由各部分的誤差占總誤差的比例來測度的。方差分析的基本思想和原理第15頁,共72頁,星期六,2024年,5月方差分析的基本思想和原理(兩類誤差)隨機誤差因素的同一水平(總體)下,樣本各觀察值之間的差異比如,同一行業(yè)下不同企業(yè)被投訴次數是不同的這種差異可以看成是隨機因素的影響,稱為隨機誤差

系統(tǒng)誤差因素的不同水平(不同總體)下,各觀察值之間的差異比如,不同行業(yè)之間的被投訴次數之間的差異這種差異可能是由于抽樣的隨機性所造成的,也可能是由于行業(yè)本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差第16頁,共72頁,星期六,2024年,5月方差分析的基本思想和原理(兩類方差)數據的誤差用平方和(sumofsquares)表示,又構成方差。組內方差(withingroups)因素的同一水平(同一個總體)下樣本數據的方差比如,零售業(yè)被投訴次數的方差組內方差只包含隨機誤差組間方差(betweengroups)因素的不同水平(不同總體)下各樣本之間的方差比如,四個行業(yè)被投訴次數之間的方差組間方差既包括隨機誤差,也包括系統(tǒng)誤差第17頁,共72頁,星期六,2024年,5月方差分析的基本思想和原理(方差的比較)若不同行業(yè)對投訴次數沒有影響,則組間誤差中只包含隨機誤差,又有系統(tǒng)誤差。這時,組間誤差與組內誤差經過平均后的數值就應該很接近,它們的比值就會接近1。若不同行業(yè)對投訴次數有影響,在組間誤差中除了包含隨機誤差外,還會包含有系統(tǒng)誤差,這時組間誤差平均后的數值就會大于組內誤差平均后的數值,它們之間的比值就會大于1。當這個比值大到某種程度時,就可以說不同水平之間存在著顯著差異,也就是自變量對因變量有影響。判斷行業(yè)對投訴次數是否有顯著影響,實際上也就是檢驗被投訴次數的差異主要是由于什么原因所引起的。如果這種差異主要是系統(tǒng)誤差,說明不同行業(yè)對投訴次數有顯著影響。第18頁,共72頁,星期六,2024年,5月7.1.3方差分析的基本假定第19頁,共72頁,星期六,2024年,5月方差分析的基本假定1每個總體都應服從正態(tài)分布對于因素的每一個水平,其觀察值是來自服從正態(tài)分布總體的簡單隨機樣本比如,每個行業(yè)被投訴的次數必需服從正態(tài)分布各個總體的方差必須相同各組觀察數據是從具有相同方差的總體中抽取的比如,四個行業(yè)被投訴次數的方差都相等觀察值是獨立的比如,每個行業(yè)被投訴的次數與其他行業(yè)被投訴的次數獨立第20頁,共72頁,星期六,2024年,5月方差分析中的基本假定2在上述假定條件下,判斷行業(yè)對投訴次數是否有顯著影響,實際上也就是檢驗具有同方差的四個正態(tài)總體的均值是否相等如果四個總體的均值相等,可以期望四個樣本的均值也會很接近四個樣本的均值越接近,推斷四個總體均值相等的證據也就越充分樣本均值越不同,推斷總體均值不同的證據就越充分第21頁,共72頁,星期六,2024年,5月方差分析中基本假定

如果原假設成立,即H0:

m1=m2=m3=m4四個行業(yè)被投訴次數的均值都相等意味著每個樣本都來自均值為

、方差為

2的同一正態(tài)總體

Xf(X)

1

2

3

4

第22頁,共72頁,星期六,2024年,5月方差分析中基本假定

若備擇假設成立,即H1:mj

(j=1,2,3,4)不全相等至少有一個總體的均值是不同的四個樣本分別來自均值不同的四個正態(tài)總體

Xf(X)

3

1

2

4

第23頁,共72頁,星期六,2024年,5月7.1.4問題的一般提法設因素有k個水平,每個水平的均值分別用

1,

2,,

k

表示要檢驗k個水平(總體)的均值是否相等,需要提出如下假設:H0:

1

2

k

H1:

1,

2,,

k

不全相等設

1為零售業(yè)被投訴次數的均值,

2為旅游業(yè)被投訴次數的均值,

3為航空公司被投訴次數的均值,

4為家電制造業(yè)被投訴次數的均值,提出的假設為H0:

1

2

3

4

H1:

1,

2,

3,

4

不全相等第24頁,共72頁,星期六,2024年,5月7.2單因素方差分析

7.2.1數據結構7.2.2分析步驟7.2.3關系強度的測量第25頁,共72頁,星期六,2024年,5月7.2.1單因素方差分析的數據結構

(one-wayanalysisofvariance)

觀察值(i)因素(A)j

水平A1水平A2

…水平Ak12:n

x11

x12

x1kx21

x22

x2k::

:

:::

:

:xn1

xn2

xnk第26頁,共72頁,星期六,2024年,5月一、提出假設:一般提法H0

:m1=m2=…=

mk

自變量對因變量沒有顯著影響

H1:m1

,m2

,…

,mk不全相等自變量對因變量有顯著影響

注意:拒絕原假設,只表明至少有兩個總體的均值不相等,并不意味著所有的均值都不相等7.2.2方差分析的基本步驟第27頁,共72頁,星期六,2024年,5月二、構造檢驗的統(tǒng)計量構造統(tǒng)計量需要計算水平的均值全部觀察值的總均值誤差平方和(SS)均方(MS)第28頁,共72頁,星期六,2024年,5月三、構造檢驗的統(tǒng)計量(計算水平的均值)假定從第j個總體中抽取一個容量為ni的簡單隨機樣本,第j個總體的樣本均值為該樣本的全部觀察值總和除以觀察值的個數計算公式為式中:ni為第i個總體的樣本觀察值個數

xij為第i個總體的第j個觀察值

第29頁,共72頁,星期六,2024年,5月四、構造檢驗的統(tǒng)計量(計算全部觀察值的總均值)全部觀察值的總和除以觀察值的總個數計算公式為第30頁,共72頁,星期六,2024年,5月例題分析第31頁,共72頁,星期六,2024年,5月五、構造檢驗的統(tǒng)計量(計算總誤差平方和SST

:sumofsquaresfortotal)全部觀察值與總平均值的離差平方和反映全部觀察值的離散狀況其計算公式為前例的計算結果:

SST=(57-47.869565)2+…+(58-47.869565)2=115.9295第32頁,共72頁,星期六,2024年,5月六、構造檢驗的統(tǒng)計量(計算水平項平方和SSA)SSA

:SumofsquaresforfactorA各組平均值與總平均值的離差平方和反映各總體的樣本均值之間的差異程度,又稱組間平方和該平方和既包括隨機誤差,也包括系統(tǒng)誤差計算公式為前例的計算結果:SSA=1456.608696第33頁,共72頁,星期六,2024年,5月七、構造檢驗的統(tǒng)計量(計算誤差項平方和SSE)SSE:Sumofsquaresforerror每個水平或組的各樣本數據與其組平均值的離差平方和反映每個樣本各觀察值的離散狀況,又稱組內平方和該平方和反映的是隨機誤差的大小計算公式為前例的計算結果:SSE=2708第34頁,共72頁,星期六,2024年,5月八、構造檢驗的統(tǒng)計量(三個平方和的關系)

總離差平方和(SST)、誤差項離差平方和(SSE)、水平項離差平方和(SSA)之間的關系SST=SSA+SSE總離差平方和=組間離差平方和+組內離差平方和前例的計算結果:

4164.608696=1456.608696+2708第35頁,共72頁,星期六,2024年,5月三個平方和的作用

SST反映全部數據總的誤差程度;SSE反映隨機誤差的大??;SSA反映隨機誤差和系統(tǒng)誤差的大小如果原假設成立,則表明沒有系統(tǒng)誤差,組間平方和SSA除以自由度后的均方與組內平方和SSE除以自由度后的均方差異就不會太大;如果組間均方顯著地大于組內均方,說明各水平(總體)之間的差異不僅有隨機誤差,還有系統(tǒng)誤差判斷因素的水平是否對其觀察值有影響,實際上就是比較組間方差與組內方差之間差異的大小第36頁,共72頁,星期六,2024年,5月十、構造檢驗的統(tǒng)計量(計算均方MS)各誤差平方和的大小與觀察值的多少有關,為消除觀察值多少對誤差平方和大小的影響,需要將其平均,這就是均方,也稱為方差計算方法是用誤差平方和除以相應的自由度三個平方和對應的自由度分別是SST

的自由度為n-1,其中n為全部觀察值的個數SSA的自由度為k-1,其中k為因素水平(總體)的個數SSE的自由度為n-k第37頁,共72頁,星期六,2024年,5月十一、構造檢驗的統(tǒng)計量(計算均方MS)組間方差:SSA的均方,記為MSA,計算公式為組內方差:SSE的均方,記為MSE,計算公式為第38頁,共72頁,星期六,2024年,5月十二、構造檢驗的統(tǒng)計量(計算檢驗統(tǒng)計量

F)將MSA和MSE進行對比,即得到所需要的檢驗統(tǒng)計量F當H0為真時,二者的比值服從分子自由度為k-1、分母自由度為n-k的F分布,即記住第39頁,共72頁,星期六,2024年,5月F分布與拒絕域如果均值相等,F=MSA/MSE

1a

F分布F

(k-1,n-k)0拒絕H0不能拒絕H0F第40頁,共72頁,星期六,2024年,5月十二、統(tǒng)計決策

將統(tǒng)計量的值F與給定的顯著性水平

的臨界值F

進行比較,作出對原假設H0的決策根據給定的顯著性水平

,在F分布表中查找與第一自由度df1=k-1、第二自由度df2=n-k相應的臨界值F

若F>F

,則拒絕原假設H0

,表明均值之間的差異是顯著的,所檢驗的因素對觀察值有顯著影響若F<F

,則不能拒絕原假設H0

,表明所檢驗的因素對觀察值沒有顯著影響第41頁,共72頁,星期六,2024年,5月單因素方差分析表(基本結構)記住第42頁,共72頁,星期六,2024年,5月例題分析第43頁,共72頁,星期六,2024年,5月

7.2.3關系強度的測量拒絕原假設表明因素(自變量)與觀測值之間有關系組間平方和(SSA)度量了自變量(行業(yè))對因變量(投訴次數)的影響效應只要組間平方和SSA不等于0,就表明兩個變量之間有關系(只是是否顯著的問題)當組間平方和比組內平方和(SSE)大,而且大到一定程度時,就意味著兩個變量之間的關系顯著,大得越多,表明它們之間的關系就越強。反之,就意味著兩個變量之間的關系不顯著,小得越多,表明它們之間的關系就越弱第44頁,共72頁,星期六,2024年,5月關系強度的測量

變量間關系的強度用自組間平方和(SSA)及殘差平方和(SSE)占總平方和(SST)的比例大小來反映自變量平方和占總平方和的比例記為R2,即其平方根R就可以用來測量兩個變量之間的關系強度

第45頁,共72頁,星期六,2024年,5月關系強度的測量(例題分析)

R=0.591404

結論:行業(yè)(自變量)對投訴次數(因變量)的影響效應占總效應的34.9759%,而殘差效應則占65.0241%。即行業(yè)對投訴次數差異解釋的比例達到近35%,而其他因素(殘差變量)所解釋的比例近為65%以上

R=0.591404,表明行業(yè)與投訴次數之間有中等以上的關系

第46頁,共72頁,星期六,2024年,5月7.3雙因素方差分析7.3.1雙因素方差分析及其類型7.3.2無交互作用的雙因素方差分析7.3.3有交互作用的雙因素方差分析第47頁,共72頁,星期六,2024年,5月雙因素方差分析(two-wayanalysisofvariance)

分析兩個因素(行因素Row和列因素Column)對試驗結果的影響如果兩個因素對試驗結果的影響是相互獨立的,分別判斷行因素和列因素對試驗數據的影響,這時的雙因素方差分析稱為無交互作用的雙因素方差分析或無重復雙因素方差分析(Two-factorwithoutreplication)如果除了行因素和列因素對試驗數據的單獨影響外,兩個因素的搭配還會對結果產生一種新的影響,這時的雙因素方差分析稱為有交互作用的雙因素方差分析或可重復雙因素方差分析

(Two-factorwithreplication)第48頁,共72頁,星期六,2024年,5月雙因素方差分析的基本假定每個總體都服從正態(tài)分布對于因素的每一個水平,其觀察值是來自正態(tài)分布總體的簡單隨機樣本各個總體的方差必須相同對于各組觀察數據,是從具有相同方差的總體中抽取的觀察值是獨立的第49頁,共72頁,星期六,2024年,5月雙因素方差分析

(例題分析)不同品牌的彩電在各地區(qū)的銷售量數據品牌因素地區(qū)因素地區(qū)1地區(qū)2地區(qū)3地區(qū)4地區(qū)5品牌1品牌2品牌3品牌4365345358288350368323280343363353298340330343260323333308298【例】有4個品牌的彩電在5個地區(qū)銷售,為分析彩電的品牌(品牌因素)和銷售地區(qū)(地區(qū)因素)對銷售量是否有影響,對每種品牌在各地區(qū)的銷售量取得以下數據。試分析品牌和銷售地區(qū)對彩電的銷售量是否有顯著影響?(=0.05)第50頁,共72頁,星期六,2024年,5月數據結構

第51頁,共72頁,星期六,2024年,5月數據結構

是行因素的第i個水平下各觀察值的平均值

是列因素的第j個水平下的各觀察值的均值

是全部

kr個樣本數據的總平均值第52頁,共72頁,星期六,2024年,5月分析步驟(提出假設)1提出假設對行因素提出的假設為H0:m1=m2

=

…=mi=…=

mk(mi為第i個水平的均值)H1:mi

(i=1,2,…,k)

不全相等對列因素提出的假設為H0:m1=m2

=

…=mj=…=

mr(mj為第j個水平的均值)H1:mj

(j=1,2,…,r)

不全相等第53頁,共72頁,星期六,2024年,5月分析步驟

計算平方和(SS)總誤差平方和行因素誤差平方和列因素誤差平方和隨機誤差項平方和2構造檢驗的統(tǒng)計量第54頁,共72頁,星期六,2024年,5月分析步驟

總離差平方和(SST)、水平項離差平方和

(SSR和SSC)

、誤差項離差平方和(SSE)

之間的關系SST=SSR+SSC+SSE3構造檢驗的統(tǒng)計量第55頁,共72頁,星期六,2024年,5月分析步驟

計算均方(MS)誤差平方和除以相應的自由度三個平方和的自由度分別是總離差平方和SST的自由度為kr-1行因素的離差平方和SSR的自由度為k-1列因素的離差平方和SSC的自由度為r-1隨機誤差平方和SSE的自由度為(k-1)×(r-1)

4構造檢驗的統(tǒng)計量第56頁,共72頁,星期六,2024年,5月分析步驟計算均方(MS)行因素的均方,記為MSR,計算公式為列因素的均方,記為MSC

,計算公式為隨機誤差項的均方,記為MSE

,計算公式為5構造檢驗的統(tǒng)計量第57頁,共72頁,星期六,2024年,5月分析步驟計算檢驗統(tǒng)計量(F)檢驗行因素的統(tǒng)計量檢驗列因素的統(tǒng)計量6構造檢驗的統(tǒng)計量第58頁,共72頁,星期六,2024年,5月分析步驟

將統(tǒng)計量的值F與給定的顯著性水平

的臨界值F

進行比較,作出對原假設H0的決策根據給定的顯著性水平

在F分布表中查找相應的臨界值F

若FR>F

,則拒絕原假設H0

,表明均值之間的差異是顯著的,即所檢驗的行因素對觀察值有顯著影響若FC

>F

,則拒絕原假設H0

,表明均值之間有顯著差異,即所檢驗的列因素對觀察值有顯著影響7統(tǒng)計決策第59頁,共72頁,星期六,2024年,5月雙因素方差分析表(基本結構)第60頁,共72頁,星期六,2024年,5月雙因素方差分析(例題分析)提出假設對品牌因素提出的假設為H0:

m1=m2=m3=m4(品牌對銷售量沒有影響)H1:

mi

(i=1,2,…,4)

不全相等(品牌對銷售量有影響)對地區(qū)因素提出的假設為H0:m1=m2=m3=m4=m5(地區(qū)對銷售量沒有影響)H1:mj

(j=1,2,…,5)

不全相等(地區(qū)對銷售量有影響)

第61頁,共72頁,星期六,2024年,5月雙因素方差分析(例題分析)結論:

FR=18.10777>F

=3.4903,拒絕原假設H0,說明彩電的品牌對銷售量有顯著影響

FC=2.100846<F

=3.2592,不能拒絕原假設H0,說明銷售地區(qū)對彩電的銷售量沒有顯著影響第62頁,共72頁,星期六,2024年,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論