方差分析與回歸分析(pu).ppt_第1頁
方差分析與回歸分析(pu).ppt_第2頁
方差分析與回歸分析(pu).ppt_第3頁
方差分析與回歸分析(pu).ppt_第4頁
方差分析與回歸分析(pu).ppt_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第八章 方差分析與回歸分析,在工農(nóng)業(yè)生產(chǎn)和科研活動中,我們經(jīng)常遇到這樣的問題:影響產(chǎn)品產(chǎn)量、質(zhì)量的因素很多,例如影響農(nóng)作物的單位面積產(chǎn)量有品種、施肥種類、施肥量等許多因素。我們要了解這些因素中哪些因素對產(chǎn)量有顯著影響,就要先做試驗(yàn),然后對測試結(jié)果進(jìn)行分析,作出判斷。方差分析就是分析測試結(jié)果的一種方法。,引 言,基 本 概 念,試驗(yàn)指標(biāo)試驗(yàn)結(jié)果。,可控因素在影響試驗(yàn)結(jié)果的眾多因素中,可人為 控制的因素。,水平可控因素所處的各種不同的狀態(tài)。每個(gè) 水平又稱為試驗(yàn)的一個(gè)處理。,單因素試驗(yàn)如果在一項(xiàng)試驗(yàn)中只有一個(gè)因素改變, 其它的可控因素不變,則該類試驗(yàn)稱 為單因素試驗(yàn)。,引例,例1 (燈絲的配料方案優(yōu)

2、選)某燈泡廠用四種配料方案制成的燈絲生產(chǎn)了四批燈泡,在每批燈泡中作隨機(jī)抽樣,測量其使用壽命(單位:小時(shí)),數(shù)據(jù)如下:,試驗(yàn)指標(biāo)燈泡的使用壽命,可控因素(唯一的一個(gè)) 燈絲的配料方案,四個(gè)水平四種配料方案(甲乙丙丁),因此,本例是一個(gè)四水平的單因素試驗(yàn)。,引 例,用X1,X2,X3,X4分別表示四種燈泡的使用壽命,即為 四個(gè)總體。假設(shè)X1,X2,X3,X4相互獨(dú)立,且服從方差 相同的正態(tài)分布,即XiN(i,2)(i=1,2,3,4),本例問題歸結(jié)為檢驗(yàn)假設(shè) H0:1= 2= 3= 4 是否成立。,單因素方差分析的目的:通過試驗(yàn)數(shù)據(jù)來判斷因素 A 的不同水平對試驗(yàn)指標(biāo)是否有影響。,設(shè) A 表示欲考

3、察的因素,它的 個(gè)不同水平,對應(yīng)的指標(biāo)視作 個(gè)總體 每個(gè)水平下,我們作若干次重復(fù)試驗(yàn): (可等重復(fù)也可不等重復(fù)),同一水平的 個(gè)結(jié)果,就是這個(gè)總體 的一個(gè)樣本:,單因素試驗(yàn)的方差分析,單因素試驗(yàn)資料表,縱向個(gè)體間的差異稱為隨機(jī)誤差(組內(nèi)差異),由試驗(yàn)造成;橫向個(gè)體間的差異稱為系統(tǒng)誤差(組間差異),由因素的不同水平造成。,由于同一水平下重復(fù)試驗(yàn)的個(gè)體差異是隨機(jī)誤差,所以設(shè):,其中 為試驗(yàn)誤差,相互獨(dú)立且服從正態(tài)分布,方差分析的線性模型,單因素試驗(yàn)的方差分析的數(shù)學(xué)模型,具有方差齊性。,相互獨(dú)立,從而各子樣也相互獨(dú)立。,首先,我們作如下假設(shè):,即,令 (其中 )稱為一般平均值。,稱為因素A的第 個(gè)水

4、平 的效應(yīng)。,則線性統(tǒng)計(jì)模型變成,于是檢驗(yàn)假設(shè):,等價(jià)于檢驗(yàn)假設(shè):,顯然有:,整個(gè)試驗(yàn)的均值,考察統(tǒng)計(jì)量,經(jīng)恒等變形,可分解為:,其中,反映的是各水平平均值偏離總平均值的偏離程度。,如果H0 成立,則SSA 較小。,若H0成立,則,總離差平方和,反映的是重復(fù)試驗(yàn)種隨機(jī)誤差的大小。,若假設(shè) 成立,則,將 的自由度分別記作,則,(記 ,稱作均方和),(各子樣同分布),則,(記 ,稱作均方和),對給定的檢驗(yàn)水平 ,由,得H0 的拒絕域?yàn)椋?F 單側(cè)檢驗(yàn),結(jié)論:方差分析實(shí)質(zhì)上是假設(shè)檢驗(yàn),從分析離差平方和入手,找到F統(tǒng)計(jì)量,對同方差的多個(gè)正態(tài)總體的均值是否相等進(jìn)行假設(shè)檢驗(yàn)。單因素試驗(yàn)中兩個(gè)水平的均值檢驗(yàn)

5、可用第七章的T檢驗(yàn)法。,(1)若 ,則稱因素的差異極顯著(極有統(tǒng)計(jì)意義),或稱因素A的影響高度顯著,這時(shí)作標(biāo)記 ;,約 定,(2)若 ,則稱因素的差異顯著(差異 有統(tǒng)計(jì)意義),或稱因素A的影響顯著,作標(biāo)記 ;,(3)若 ,則稱因素A有一定影響,作標(biāo)記( );,(4)若 ,則稱因素A無顯著影響(差異無統(tǒng)計(jì)意義)。,注意:在方差分析表中,習(xí)慣于作如下規(guī)定:,簡便計(jì)算公式:,其中,同一水平下觀測值 之和,所以觀測 值之和,例2 以 A、B、C 三種飼料喂豬,得一個(gè)月后每豬 所增體重(單位:500g)于下表,試作方差分析。,解:,解:,不同的飼料對豬的體重的影響極有統(tǒng)計(jì)意義。,方差分析表,定理 在單因

6、素方差分析模型中,有,如果H0不成立,則,所以,,即H0不成立時(shí),,有大于1的趨勢。,所以H0為真時(shí)的小概率事件應(yīng)取在F值較大的一側(cè)。,多重比較法,拒絕H0,接受H1, 表示總體均數(shù)不全相等 哪兩兩均數(shù)之間相等? 哪兩兩均數(shù)之間不等? 需要進(jìn)一步作多重比較。,方差分析結(jié)果 不拒絕H0,表示拒絕總體均數(shù)相等的證據(jù)不足, 分析終止。,常用多重比較法,最小顯著差數(shù)法(Least significant difference,簡稱LSD法),q法(又稱SNK (student-Newman-Keuls)檢驗(yàn)法),q測驗(yàn)方法是將r個(gè)平均數(shù)由大到小排列后,根據(jù)所比較的兩個(gè)處理平均數(shù)的差數(shù)是幾個(gè)平均數(shù)間的極

7、差分別確定最小顯著極差LSR值的。,Tukey法(又稱honestly significant difference,簡稱HSD ),回歸這一術(shù)語是1886年英國生物學(xué)家高爾頓在研究遺傳現(xiàn)象時(shí)引進(jìn)的.,他發(fā)現(xiàn): 雖然高個(gè)子的先代會有高個(gè)子的后代, 但后代的增高并不與先代的增高等量. 他稱這一現(xiàn)象為“向平常高度的回歸”.,一 回歸分析的基本概念,爾后,他的朋友麥爾遜等人搜集了上千個(gè)家庭成員的身高數(shù)據(jù):,y=0.516x+33.73 (英寸),分析出兒子的身高y和父親的身高x大致為如下關(guān)系:,1 英寸=2.54cm,這意味著, 若父親身高超過父代平均身高6英寸, 那么其兒子的身高大約只超過子代平均

8、身高3英寸, 可見有向平均值返回的趨勢.,如今對回歸這一概念的理解并不是高爾頓的原意, 但這一名詞卻一直沿用下來, 成為統(tǒng)計(jì)學(xué)中最常用的概念之一.,6英寸,3英寸,在現(xiàn)實(shí)問題中,處于同一個(gè)過程中的一些變量,往往是相互依賴和相互制約的,它們之間的相互關(guān)系大致可分為兩種:,相關(guān)關(guān)系問題,(1)確定性關(guān)系函數(shù)關(guān)系;,(2)非確定性關(guān)系相關(guān)關(guān)系;,相關(guān)關(guān)系表現(xiàn)為這些變量之間有一定的依賴關(guān)系,但這種關(guān)系并不完全確定,它們之間的關(guān)系不能精確地用函數(shù)表示出來,這些變量其實(shí)是隨機(jī)變量,或至少有一個(gè)是隨機(jī)變量。,類似的變量間的關(guān)系在大自然和社會中屢見不鮮.,例如,小麥的穗長與穗重的關(guān)系;某班學(xué)生最后一次考試分?jǐn)?shù)

9、與第一次考試分?jǐn)?shù)的關(guān)系;溫度、降雨量與農(nóng)作物產(chǎn)量間的關(guān)系;人的年齡與血壓的關(guān)系;最大積雪深度與灌溉面積間的關(guān)系;家庭收入與支出的關(guān)系等等.,函數(shù)關(guān)系與相關(guān)關(guān)系的區(qū)別,相關(guān)關(guān)系,影響,的值,不能確定。,函數(shù)關(guān)系,決定,的值,,因此,統(tǒng)計(jì)學(xué)上討論兩變量的相關(guān)關(guān)系時(shí),是設(shè)法 確定:在給定自變量 的條件下,因變量 的 條件數(shù)學(xué)期望,回歸分析的概念,研究一個(gè)隨機(jī)變量與一個(gè)(或幾個(gè))可控變量之間 的相關(guān)關(guān)系的統(tǒng)計(jì)方法稱為回歸分析。,只有一個(gè)自變量的回歸分析稱為一元回歸分析;多 于一個(gè)自變量的回歸分析稱為多元回歸分析。,引進(jìn)回歸函數(shù),稱為回歸方程,在這一講里, 我們主要討論的是一元線性回歸. 它是處理兩個(gè)變

10、量之間關(guān)系的最簡單的模型. 它雖然比較簡單, 但我們從中可以了解到回歸分析的基本思想、方法和應(yīng)用.,一元線性回歸,一元線性回歸,一元線性回歸,為了估計(jì)山上積雪融化后對下游灌溉的影響, 在山上建立了一個(gè)觀測站, 測量了最大積雪深度x與當(dāng)年灌溉面積 y, 得到連續(xù)10年的數(shù)據(jù)如下表:,讓我們用一個(gè)例子來說明如何建立一元線性回歸方程.,年序 最大積雪深度x(米) 灌溉面積y(公頃) 1 5.1 1907 2 3.5 1287 3 7.1 2693 4 6.2 2373 5 8.8 3260 6 7.8 3000 7 4.5 1947 8 5.6 2273 9 8.0 3113 10 6.4 2493

11、,為了研究這些數(shù)據(jù)中所蘊(yùn)含的規(guī)律性, 我們由10對數(shù)據(jù)作出散點(diǎn)圖.,從圖看到, 數(shù)據(jù)點(diǎn)大致落在一條直線附近, 這告訴我們變量x和y之間大致可看作線性關(guān)系.,從圖中還看到, 這些點(diǎn)又不完全在一條直線上, 這表明x和y的關(guān)系并沒有確切到給定x就可以唯一確定y的程度.,事實(shí)上, 還有許多其它因素對y產(chǎn)生影響,如當(dāng)年的平均氣溫、當(dāng)年的降雨量等等, 都是影響y取什么值的隨機(jī)因素.,一元線性回歸模型,如果試驗(yàn)的散點(diǎn)圖如下圖呈直線狀,設(shè)隨機(jī)變量Y依賴于自變量x,作n次獨(dú)立試驗(yàn),得n對觀測值: 稱這n對觀測值為容量為n的一個(gè)子樣,若把這n對觀測值在平面直角坐標(biāo)系中描點(diǎn),得到試驗(yàn)的散點(diǎn)圖.,因此,則設(shè),其中 是

12、與 無關(guān)的未知常數(shù)。,(9.1),一元線性回歸模型,一般地,稱如下數(shù)學(xué)模型為一元線性模型,而 稱為回歸函數(shù)或回歸方程。,稱為回歸系數(shù)。,回歸函數(shù)(方程)的建立,由觀測值 確定的回歸函數(shù) ,應(yīng)使得 較小。,考慮函數(shù),問題:確定 ,使得 取得極小值。,這是一個(gè)二元函數(shù)的無條件極值問題。,回歸方程的建立,令,回歸方程的建立,記,表示對 的估計(jì)值,則變量 對 的回歸方程為,最小二乘法,回歸方程有效性的檢驗(yàn),對于任何一組數(shù)據(jù) ,都可按最 小二乘法確定一個(gè)線性函數(shù),但變量 與 之間是否真 有近似于線性函數(shù)的相關(guān)關(guān)系呢?尚需進(jìn)行假設(shè)檢驗(yàn)。,假設(shè),如果 成立,則不能認(rèn)為 與 有線性相關(guān)關(guān)系。,三種檢驗(yàn)方法:F

13、檢驗(yàn)法、t-檢驗(yàn)法、r檢驗(yàn)法。,回歸方程有效性的F檢驗(yàn)法,記,總離差平方和,反映觀測值與平均值的偏差程度。,經(jīng)恒等變形,將 分解,回歸平方和,反映回歸值與平均值的偏差,揭示 變量 與 的線性關(guān)系所引起的數(shù)據(jù)波動。,剩余平方和,反映觀測值與回歸值的偏差,揭示 試驗(yàn)誤差和非線性關(guān)系對試驗(yàn)結(jié)果所引起的數(shù)據(jù)波動。,如果 為真,則,于是,統(tǒng)計(jì)量,對給定的檢驗(yàn)水平 ,,(1)當(dāng) 時(shí),拒絕 ,即可認(rèn)為變量 與 有線性相關(guān)關(guān)系;,(2)當(dāng) 時(shí),接受 ,即可認(rèn)為變量 與 沒有線性相關(guān)關(guān)系;,此時(shí),可能有以下幾種情況:,(2) 對 有顯著影響,但這種影響不能用線性關(guān)系 表示,應(yīng)作非線性回歸;,(3)除 之外,還有

14、其它變量對 也有顯著影響,從 而削弱了 對 的影響,應(yīng)考慮多元回歸。,(1) 對 沒有顯著影響,應(yīng)丟棄自變量 ;,回歸方程有效性的r檢驗(yàn)法,記,樣本的相關(guān)系數(shù),可反映變量 與 之間的線性相關(guān)程度。,因?yàn)?回歸方程有效性的r檢驗(yàn)法,記,樣本的相關(guān)系數(shù),越大,變量 與 之間的線性相關(guān)程度越強(qiáng)。,因?yàn)?(1),(2) 時(shí),,(3) 時(shí),,與 有線性相關(guān)關(guān)系;,與 無線性相關(guān)關(guān)系;,計(jì)算,對給定的檢驗(yàn)水平 ,查相關(guān)系數(shù)的臨界值表,如果 ,則拒絕 ,即線性回歸方程有效; 否則,接受 ,即線性回歸方程無效。,回歸方程有效性的t檢驗(yàn)法,統(tǒng)計(jì)量,H0成立時(shí),,對給定的檢驗(yàn)水平 ,H0的拒絕域?yàn)?即當(dāng) 時(shí),變量 與 有線性相關(guān)關(guān)系。,試求出 與 的關(guān)系,并判斷是否有效。,例1 為了研究大豆脂肪含量 和蛋白質(zhì)含量 的關(guān)系, 測定了九種大豆品種籽粒內(nèi)的脂肪含量和蛋白質(zhì)含量, 得到如下數(shù)據(jù),解 (1)描散點(diǎn)圖,(2)建立模型,由散點(diǎn)圖,設(shè)變量 與 為線性相關(guān)關(guān)系:,確定回歸系數(shù) 和 :,所以,所求的回歸方程為,(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論