擬合優(yōu)度檢驗(yàn).ppt_第1頁
擬合優(yōu)度檢驗(yàn).ppt_第2頁
擬合優(yōu)度檢驗(yàn).ppt_第3頁
擬合優(yōu)度檢驗(yàn).ppt_第4頁
擬合優(yōu)度檢驗(yàn).ppt_第5頁
已閱讀5頁,還剩57頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十三章檢驗(yàn)與方差分析 我們前面已經(jīng)比較系統(tǒng)地討論了雙樣本的參數(shù)和非參數(shù)檢驗(yàn)的問題 現(xiàn)在 我們希望利用一般的方法來檢驗(yàn)三個(gè)以上樣本的差異 檢驗(yàn)法和方差分析法就是解決這方面問題的 檢驗(yàn)法可以對擬合優(yōu)度和獨(dú)立性等進(jìn)行檢驗(yàn) 方差分析法則可以對多個(gè)總體均值是否相等進(jìn)行檢驗(yàn) 后者由于通過各組樣本資料之間的方差和組內(nèi)方差的比較來建立服從F分布的檢驗(yàn)統(tǒng)計(jì)量 所以又稱F檢驗(yàn) 第一節(jié) 擬合優(yōu)度檢驗(yàn)第二節(jié) 無關(guān)聯(lián)性檢驗(yàn)第三節(jié) 方差分析第四節(jié) 回歸方程與相關(guān)系數(shù)的檢驗(yàn) 第一節(jié)擬合優(yōu)度檢驗(yàn) 運(yùn)用Z檢驗(yàn) t檢驗(yàn)等討論假設(shè)檢驗(yàn)的問題 一般要求總體服從正態(tài)分布 或者在大樣本條件下可以利用漸近正態(tài)分布理論來描述抽樣分布 也就是說 我們都要直接或間接地假定對象總體具有已知的分布形式 然后對總體的未知參數(shù)進(jìn)行假設(shè)檢驗(yàn) 如果不知道總體的分布形式 就無法運(yùn)用t檢驗(yàn)法等對總體參數(shù)進(jìn)行假設(shè)檢驗(yàn) 于是 這里有一個(gè)前面留下來的尚未討論的問題很重要 就是怎樣檢定總體是否具有正態(tài)或其他分布形式 擬合優(yōu)度檢驗(yàn)正是就這一問題而言的檢驗(yàn)方法 第十一章最后一節(jié) 我們將累計(jì)頻數(shù)檢驗(yàn)用于經(jīng)驗(yàn)分布與理論分布的比較 實(shí)際已經(jīng)提供了擬合優(yōu)度檢驗(yàn)的一種方法 擬合優(yōu)度檢驗(yàn)與累計(jì)頻數(shù)擬合優(yōu)度檢驗(yàn)相對應(yīng) 在評(píng)估從經(jīng)驗(yàn)上得到的頻數(shù)和在一組特定的理論假設(shè)下期望得到的頻數(shù)之間是否存在顯著差異時(shí) 是一種更普遍的檢驗(yàn)方法 現(xiàn)在我們再來看看第七章提到的著名的孟德爾豌豆試驗(yàn) 根據(jù)孟德爾提出的分離規(guī)律 純種豌豆雜交后的子二代出現(xiàn)分化 紅花植株與白花植株的數(shù)目應(yīng)為3 1 但由于隨機(jī)性 觀察結(jié)果與3 1理論值總有些差距 因此有必要去考察某一大小的差距是否已構(gòu)成否定3 l理論的充分根據(jù) 這正是我們所討論的擬合優(yōu)度檢驗(yàn)的問題 解決這類問題的工具 是卡 皮爾遜在1900年發(fā)表的一篇文章中引進(jìn)的所謂檢驗(yàn)法 1 問題的導(dǎo)出 首先把問題表述成一般模式 設(shè)一總體包含c種可區(qū)別的個(gè)體 根據(jù)某種理論或純粹的假設(shè) 第i種個(gè)體出現(xiàn)的概率應(yīng)為某個(gè)已知的數(shù)Pi i 1 2 c 有Pi 0 1 這一組概率 P1 P2 Pc 就構(gòu)成了我們的理論分布 現(xiàn)在在該總體中隨機(jī)地抽取一個(gè)容量為n的樣本 發(fā)現(xiàn)其中第i種個(gè)體的數(shù)目為fi i 1 2 c 并有 n 我們要據(jù)此檢驗(yàn)理論分布 用概率論的語言可以這樣說 設(shè)對象總體中隨機(jī)變量X有c種取值 當(dāng)X的取值是xi時(shí) 按零假設(shè) 其總體分布等于理論分布 即P Pi i 1 2 c 例如 就孟德爾的3 1理論來說 c 2 P x1 3 4 P x2 1 4 現(xiàn)在從該總體中隨機(jī)地抽取一個(gè)容量為n的樣本 發(fā)現(xiàn)其中xi i 1 2 c 出現(xiàn)的次數(shù)為fi i 1 2 c 并有 n 知道了頻數(shù)也就知道了頻率 即 出現(xiàn)的頻率為 并有 1 現(xiàn)在我們就是要據(jù)此經(jīng)驗(yàn)分布來檢驗(yàn)總體分布等于理論分布的零假設(shè) 2 擬合優(yōu)度檢驗(yàn) 比率擬合檢驗(yàn) 擬合優(yōu)度檢驗(yàn)如何進(jìn)行 關(guān)鍵是確定合適的檢驗(yàn)統(tǒng)計(jì)量以及該統(tǒng)計(jì)量所服從的概率分布 這里不可避免地要引進(jìn)某種人為因素 即人們設(shè)計(jì)出下面這樣的綜合性可比指標(biāo) 其中k1 k2 kc是適當(dāng)選取的常數(shù) 仔細(xì)觀察不難發(fā)現(xiàn) L值大 意味著經(jīng)驗(yàn)分布與理論分布偏離大 L值小 意味著經(jīng)驗(yàn)分布與理論分布偏離小 當(dāng)在某個(gè)選定的水平上 經(jīng)驗(yàn)分布顯著偏離理論分布 那么對象總體具有某種分布形式的零假設(shè)便被否定 結(jié)論 用作為檢定Ho成立的檢驗(yàn)統(tǒng)計(jì)量 理論證明 當(dāng)n足夠大時(shí) 該統(tǒng)計(jì)量服從分布 它是一種具有已知的并制成表的概率分布 因此對給定的顯著性水平 可求得臨界值 與比較 進(jìn)而作出檢驗(yàn)結(jié)論 顯而易見 理論頻數(shù)fe與觀測頻數(shù)fo越接近 統(tǒng)計(jì)值越小 經(jīng)驗(yàn)分布與理論分布擬合程度越好 反之 fe與fo差距越大 值越大 經(jīng)驗(yàn)分布與理論分布擬合程度越差 擬合優(yōu)度檢驗(yàn)由此得名 例 孟德爾遺傳定律表明 在純種紅花豌豆與白花豌豆雜交后所生的子二代豌豆中 紅花對白花之比為3 1 某次種植試驗(yàn)的結(jié)果為 紅花豌豆176株 白花豌豆48株 試在 0 05的顯著性水平上 對孟德爾定律作擬合優(yōu)度檢驗(yàn) 參見下表 應(yīng)用舉例 3 正態(tài)擬合檢驗(yàn) 例 試對下表所給男青年身高分布的數(shù)據(jù)作正態(tài)擬合檢驗(yàn) 選取 0 05 解 檢驗(yàn)的另一個(gè)重要應(yīng)用是對交互分類資料的獨(dú)立性檢驗(yàn) 即列聯(lián)表檢驗(yàn) 在上一章 我們曾多次提到過性別與收入高低有無關(guān)聯(lián)的問題 在實(shí)際中類似的問題很多 例如受教育程度與投票行為有無關(guān)聯(lián) 吸煙與壽命長短有無關(guān)聯(lián) 家庭小孩多少與收入多少有無關(guān)聯(lián) 受教育時(shí)間長短與收入多少有無關(guān)聯(lián) 血型與某種性格上的差異有無關(guān)聯(lián) 等等 把這類問題上升到一般 就是在列聯(lián)表的基礎(chǔ)上考察變量X與Y有無關(guān)聯(lián) 由于列聯(lián)表一般是按品質(zhì)標(biāo)志把兩個(gè)變量的頻數(shù)進(jìn)行交互分類的 所以 檢驗(yàn)法用于對交互分類資料的獨(dú)立性檢驗(yàn) 有其它方法無法比擬的優(yōu)點(diǎn) 如何求得列聯(lián)表中的理論頻數(shù)就成了獨(dú)立性檢驗(yàn)的關(guān)鍵 第二節(jié)無關(guān)聯(lián)性檢驗(yàn) 1 獨(dú)立性 理論頻數(shù)及自由度 應(yīng)用此式 不必計(jì)算理論頻數(shù) 計(jì)算與這個(gè)檢驗(yàn)統(tǒng)計(jì)量相聯(lián)系的自由度 算出統(tǒng)計(jì)量之值并定出其自由度后 就可以依前述的方法 在給定了顯著性水平之后 來對X Y屬性無關(guān)聯(lián)的零假設(shè)進(jìn)行檢驗(yàn)了 應(yīng)用舉例 檢驗(yàn)也適用于定類變量和定類變量的相關(guān)統(tǒng)計(jì) 即可以用它檢定 和 系數(shù)是否顯著 就下表所示資料 試以檢驗(yàn)檢定性別與收入之間的相關(guān)程度是否顯著 取0 001 解 故拒絕H0 即認(rèn)為總體上性別與收入高低之間不獨(dú)立 有顯著相關(guān)關(guān)系 例 在某種流行病流行的時(shí)候 共有120個(gè)病人進(jìn)行了治療 其中40個(gè)病人按標(biāo)準(zhǔn)劑量服用某種新藥 另有40個(gè)病人按標(biāo)準(zhǔn)劑量的2倍服用了這種新藥 其余40個(gè)病人只按病狀治療 而不是按病因治療 治療結(jié)果按迅速痊愈 緩慢痊愈 未痊愈分為三類 最后交叉分類的情況列于下表 試問這三種療法之間有沒有差別 取0 05 解 H0 這三種療法之間沒有差別H1 這三種療法之間有差別由于 0 05 自由度k c l r l 2 2 4 查分布表得臨界值 在零假設(shè)下 計(jì)算檢驗(yàn)統(tǒng)計(jì)量 計(jì)算過程參見后表 因此 故拒絕零假設(shè) 即三種療法之間有顯著差別 第三節(jié)方差分析 方差分析 是一種很重要的分析方法 它可以檢驗(yàn)兩個(gè)以上樣本均值之差 方差分析是均值差檢驗(yàn)的推廣 一般用于處理自變量是一個(gè) 或多個(gè) 定類變量和因變量是一個(gè)定距變量之間的關(guān)系 方差分析所包含的假定與均值差檢驗(yàn)所包含的假定差不多 例如正態(tài)分布 獨(dú)立隨機(jī)樣本 等方差性等 但檢驗(yàn)本身卻很不相同 方差分析直接涉及的是方差而不是均值和標(biāo)準(zhǔn)差 同時(shí) 比較也不取兩種估計(jì)量之差 而是取兩種估計(jì)量的比率 在兩種估計(jì)量彼此獨(dú)立的前提下 兩種估計(jì)量之比率F具有已知的抽樣分布 因而可進(jìn)行很簡單的檢驗(yàn) 1 總變差及其分解 總變差 在方差分析中記作SST 它表示對于總均值的偏差之平方和 即 SST 式中 ni是第i個(gè)樣本的容量 n 為什么會(huì)形成總變差這個(gè)散布度呢 一是三個(gè)樣本可能不同 這使全部數(shù)據(jù)有三個(gè) 中心 二是隨機(jī)抽樣誤差的影響 使數(shù)據(jù)在每個(gè)中心附近有散布 總變差分解 可以看出 總變差分解成兩部分 第一部分是各觀測值對其所屬類別均值的偏差的平方和 稱為組內(nèi)變差 Within groupsSumofSquares 記作SSW 組內(nèi)變差反映了數(shù)據(jù)圍繞各 中心 的散布程度 即反映了因隨機(jī)波動(dòng)所產(chǎn)生的變異 與自變量因素?zé)o關(guān) 換言之 SSW是自變量因素所沒有解釋的的變異 因此 又稱之為殘差 第二部分是組間平方和 Between groupsSumofSquares 記作SSB 它涉及到諸類別均值對總均值的偏差 反映了前表中數(shù)據(jù)的c個(gè) 中心 的散布程度 弄清了組間變差和組內(nèi)變差 檢驗(yàn) A1 A2 A3 也就是零假設(shè) 1 2 3 的思路也就梳理出來了 關(guān)鍵是比較兩種變差是否有顯著差異 若第一種變差明顯大于第二種變差 則認(rèn)為家庭因素對孩子圖書消費(fèi)是有影響的 若第一種變差與第二種變差之間無顯著區(qū)別 則不能認(rèn)為家庭因素對孩子圖書消費(fèi)有影響 但在統(tǒng)計(jì)學(xué)上 方差分析不取兩者之差而取兩者之比來進(jìn)行這種比較 而且 方差分析不是直接用SSB SSW作為檢驗(yàn)統(tǒng)計(jì)量 而是用可以解釋的方差 不能解釋的方差作為檢驗(yàn)統(tǒng)計(jì)量 即 2 關(guān)于自由度 組間平方和代表c個(gè)樣本均值對總均值的偏差 也就是每個(gè)可看作為一個(gè)單位 c個(gè)可看作為c個(gè)單位 有c個(gè)自由度 求用去一個(gè)自由度 因而 與組間平方和相聯(lián)系的自由度為c 1 再看組內(nèi)平方和 計(jì)算時(shí)每列失去一個(gè)自由度 因而 與組內(nèi)平方和相聯(lián)系的自由度為n c 最后看總平方和 計(jì)算總均值時(shí)失去一個(gè)自由度 因而 與總平方和相聯(lián)系的自由度為n l 總的來看有 n l n c c 1 總自由度 組內(nèi)自由度 組間自由度 上式是在在零假設(shè) H0 1 2 c 之下 檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算公式 理論證明 上式服從分子自由度為k1 c 1 分母自由度為k2 n c 的F分布 于是 給定顯著性水平 我們就可以很方便地從F分布表中查到臨界值F c 1 n c 如果出現(xiàn)Fo F 的情況 我們將在這個(gè)顯著性水平上拒絕零假設(shè) 在實(shí)際運(yùn)用中 方差分析的結(jié)果常用一種稱為 方差分析表 的標(biāo)準(zhǔn)形式的表格表示出來 其基本形式如表后所示 為了簡化檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算 有必要將SST SSW SSB這三個(gè)定義式展開 其方法與分解總變差的方法相同 于是有 3 關(guān)于檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算 注意 由于總變差等于另兩個(gè)變差之和 所以三個(gè)變差中僅需求出兩個(gè)變差 求出組內(nèi)平方和比求另兩個(gè)平方和繁瑣得多 故通常我們都是從總平方和減去組間平方和來求組內(nèi)平方和的 例 試對下表中的資料 計(jì)算SST SSW SSB 并檢驗(yàn) 1 2 3的零假設(shè) 取0 05 解 據(jù)題意 n1 n2 n3 8 n1 n2 n3 24組內(nèi)自由度 n c 24 3 21組間自由度 c 1 3 1 2分別計(jì)算SST和SSB 計(jì)算過程參見下表 由于 0 05 查F分布表得臨界值 F c 1 n c F0 05 2 21 3 47 1 19故在0 05顯著性水平上不否定零假設(shè) 即沒有充分根據(jù)提出這三類家庭的孩子在圖書消費(fèi)方面有顯著不同 例 研究某種商品銷量與品牌的關(guān)系 得下表資料 其中A1 A2 A3表示不同的品牌 數(shù)據(jù)表示銷量 試以顯著性水平10 判斷品牌對該種商品的銷量有無影響 解 據(jù)題意 n1 n1 n2 n3 2 4 3 9組內(nèi)自由度 n c 9 3 6組間自由度 c 1 3 1 2分別計(jì)算SST和SSB 計(jì)算過程參見前表13 16 于是得MSB和MSWMSB SSB c 1 6 89 2 3 45MSW SSW n c 30 6 5 00再根據(jù) 13 19 式求檢驗(yàn)統(tǒng)計(jì)量FoFo 0 69 1故在0 10顯著性水平上不否定零假設(shè) 即不能判斷不同品脾對該種商品的銷量有顯著影響 4 相關(guān)比率 當(dāng)方差分析的檢驗(yàn)呈顯著性后 進(jìn)一步討論兩變量間的相關(guān)程度是很自然的 方差分析中相關(guān)程度的測定仍采用PRE法 當(dāng)不知因變量Y的取值與自變量X的取值A(chǔ)1 A2 Ac有關(guān)時(shí) 最好的預(yù)測是以總均值作為Y的估計(jì)值 此時(shí) 估計(jì)所犯的錯(cuò)誤將等于SSTE1 SST 當(dāng)已知因變量Y的取值與自變量X的取值A(chǔ)1 A2 Ac有關(guān)后 自然用各樣本的均值作為各類別的預(yù)測值 此時(shí)預(yù)測所產(chǎn)生的誤差將等于SSWE2 SSW 所以消減誤差比例可寫成PRE 正是因?yàn)樯鲜?我們把SSB稱為已解釋的變差 顯然 已解釋的變差越大 預(yù)測Y所減少的誤差就越多 X與Y之間的關(guān)系就越密切 據(jù)此 方差分析中把已解釋的變差對總變差的比值稱為相關(guān)比率 用符號(hào)表示 1 可用于一個(gè)定類變量與一個(gè)定距變量的相關(guān)程度的測定 當(dāng)然也可以用于定序 定距變量或定距 定距變量的相關(guān)程度的測定 例 試以表13 12的資料 分析孩子圖書消費(fèi)與家庭類型的關(guān)系 解 據(jù)前面例題中已計(jì)算的結(jié)果 已知SSB 28 SST 276 因而有 1 10 1 可見 就表給資料而言 利用家庭類型預(yù)測孩子圖書消費(fèi)量 只能削減10 1 的預(yù)測誤差 小結(jié) 相關(guān)比率研究的是定類 定距變量之間的相關(guān)程度 由于定類變量不具有數(shù)量大小的問題 不存在關(guān)系是否線性的問題 因此 當(dāng)被用于研究定距 定距變量之間的關(guān)系時(shí) 不僅可以作為線性相關(guān)的量度 也可以作為非線性相關(guān)的量度 這意味著 對線性相關(guān) 相關(guān)比率與r2 積差系數(shù)之平方 有相同的PRE性質(zhì) 但如果對非線性相關(guān) 用積差系數(shù)r來討論就不行了 對于定距 定距變量 曲線相關(guān)既然要用R來測量 那么反過來 同一資料通過相關(guān)指數(shù)R與積差系數(shù)r計(jì)算的比較 可以判斷確定兩定距變量的關(guān)系是不是直線 如果同時(shí)求出r與R r等于或略大于R 可說明兩變量關(guān)系是直線的 用r去測量是合適的 如果r R 則說明兩變量關(guān)系可能是曲線的 首先 MSB和MSW可以分別稱為組間方差和組內(nèi)方差 其中 在等方差的假設(shè)下 組內(nèi)方差總是 2的無偏估計(jì) 而組間方差 只有當(dāng)諸總體 即各樣本所代表的子總體 均值實(shí)際上相等時(shí) 它才是 2的無偏估計(jì) 這就是說 如果零假設(shè)為真 MSB和MSW之間將沒有太大的差別 反之 如果零假設(shè)實(shí)際不正確 可以期望MSB和MSW的比值大于1 如果這個(gè)比值小于1 則不從F分布表中查找臨界值F 就可以判斷零假設(shè)不能被否定 其次 以上兩個(gè)例題也可以用均值差檢驗(yàn)來處理 均值差檢驗(yàn)涉及t分布 可以做三組合的比較 即A1與A2 A2與A3 A1與A3 與均值差檢驗(yàn)不同 方差分析僅進(jìn)行一次檢驗(yàn)來判定三種類別的家庭 或品牌 在消費(fèi) 或銷售 上彼此是否有顯著性差異 方差分析的優(yōu)點(diǎn)在于 一個(gè)檢驗(yàn)可以代替多個(gè)檢驗(yàn) 如果有四個(gè)類別 均值差檢驗(yàn)需做 4 3 2 6次 如果有六個(gè)類別 需做 6 5 2 15次 如果有十個(gè)類別 需做 10 9 2 45次 況且 如果做15次均值差檢驗(yàn) 其中4次結(jié)果具有顯著性 這時(shí)應(yīng)當(dāng)下什么結(jié)論 可能很難回答 5 關(guān)于方差分析的幾點(diǎn)討論 第三 方差分析中的自變量X如果是二分變量 也可以采用均值差t檢驗(yàn) 在這種情況下 F的分子自由度是2 1 1 分母自由度是n 2 這與均值差檢驗(yàn)中的t相同 經(jīng)過計(jì)算可知 具有自由度n 2的t2值等于具有分子自由度為1和分母自由度為n 2的F值 比較F表和t表也可以核實(shí)這一點(diǎn) 換言之 t是分子自由度為l的F的平方根 這當(dāng)然意味著 對于樣本而言 此時(shí)不論采用方差分析或均值差檢驗(yàn) 其結(jié)果完全相同 第四 本節(jié)集中討論了自變量為一個(gè)定類變量而因變量為一個(gè)定距變量的情況 如果對因變量Y影響的自變量由一個(gè)變?yōu)閮蓚€(gè)以上 我們就將面對多元方差分析了 總變差分解的思想可以直接推廣至多因素顯著性檢驗(yàn) 例如就兩個(gè)自變量 A和B 獨(dú)立對因變量Y影響的情況 可以得到下述方差分析表 表13 17 相關(guān)與回歸 由于其廣泛應(yīng)用 如今在統(tǒng)計(jì)學(xué)中是高度發(fā)展的分支之一 而從實(shí)用的觀點(diǎn)來看 線性關(guān)系是最簡單也是最重要的一種關(guān)系 本書第十二章已經(jīng)對積差系數(shù)與回歸直線作了比較細(xì)致的討論 但有關(guān)假設(shè)檢驗(yàn)的內(nèi)容 由于要借助于推論統(tǒng)計(jì)的知識(shí)方能闡明 所以本書將這部分內(nèi)容集中放到這一節(jié)來加以補(bǔ)充 學(xué)過推論統(tǒng)計(jì)的人要克制自己免受直線的誘惑 對此 討論回歸系數(shù)和積差系數(shù)之假設(shè)檢驗(yàn)將具有重要意義 第四節(jié)回歸方程與相關(guān)系數(shù)的檢驗(yàn) 1 回歸系數(shù)的檢驗(yàn) 檢驗(yàn)兩個(gè)總體變量 定距 定距變量 是否具有線性關(guān)系 主要檢驗(yàn)總體的回歸系數(shù)B是否等于零 因此 對于總體線性檢驗(yàn)的假設(shè)可寫成如下形式 H0 B 0H1 B 0 為了尋求檢驗(yàn)H0的方法 我們需要對離差平方和進(jìn)行分解 而這項(xiàng)工作 前面已經(jīng)完成 我們發(fā)現(xiàn) 估計(jì)Y 當(dāng)不知Y和X的關(guān)系時(shí) 對它的最佳估計(jì)值只能是 離差之平方和 總變差 正是不知Y和X的關(guān)系時(shí) 估計(jì)Y的全部誤差E0 E0 SST 做了回歸預(yù)測之后 我們可以用Yc估計(jì)Y 參見下圖 這時(shí)估計(jì)Y的誤差變?yōu)镋1 剩余變差 E1 SSW 顯然 利用Yc去估計(jì)Y比用去估計(jì)Y要消減一些誤差 消減的誤差E0 E1就是被回歸直線解釋掉的誤差 回歸變差 從第十二章已經(jīng)討論過的回歸變差和剩余變差的意義來看 一個(gè)回歸方程效果的好壞 取決于它們兩者之間的比較 已解釋的回歸變差越大 用Yc去估計(jì)Y比用去估計(jì)Y消減的誤差就越多 回歸預(yù)測的效果也就越好 依此 并按上一節(jié)方差分析的思想 在H0成立的條件下 檢驗(yàn)回歸直線的統(tǒng)計(jì)量可構(gòu)造為 E0 E1 Fo F 1 n 2 自由度問題 因回歸變差中僅含一個(gè)自變量X 故自由度為l 而總變差所含自由度為 n 1 從而由總自由度 組內(nèi)自由度 組間自由度 得剩余變差的自由度為 n 2 對選定顯著性水平 可查表得臨界值F 若出現(xiàn)Fo F 1 n 2 的情況 則拒絕H0 即認(rèn)為回歸方程中X變量對Y的解釋力是顯著的 若出現(xiàn)Fo F 1 n 2 的情況 則不能拒絕H0 即認(rèn)為回歸方程中X變量對Y沒有的顯著的解釋力 例 對 例12 5 1 所建立的回歸方程進(jìn)行回歸直線的檢驗(yàn) 取0 05 解 根據(jù)表12 22和 例12 5 1 的計(jì)算結(jié)果可知 48 252 52 5 299 75 268 5a 0 475 b 0 975 n 12 299 75 0 475 52 5 0 975 268 5 13 02 0 975 2 252 57 04 計(jì)算檢驗(yàn)統(tǒng)計(jì)量Fo 43 81對 0 05 查F表得臨界值F 1 n 2 F0 05 1 10 4 96 43 81所以拒絕H0 即可以認(rèn)為對總體配置回歸直線是有意義的 2 積差系數(shù)的檢驗(yàn) 對于定距 定距變量 上一章討論的積差系數(shù)是就樣本而言的 如同樣本均值 成數(shù)不能完全代表總體均值 成數(shù)一樣 樣本積差系數(shù)r也不就是總體積差系數(shù) 但在社會(huì)研究中 要想確切了解兩總體變量 定距 定距變量 間的積差系數(shù)是很難的 所以 通常需要通過樣本積差系數(shù)的統(tǒng)計(jì)檢驗(yàn)來認(rèn)識(shí)總體的積差系數(shù) 設(shè)有兩變量X和Y 它們的積差系數(shù)記為 當(dāng) 0時(shí) 表示X和Y不具有線性相關(guān)關(guān)系 當(dāng) 0時(shí) 表示X和Y具有線性相關(guān)關(guān)系 實(shí)踐證明 樣本積差系數(shù)r值比較大時(shí) 并不等于總體積差系數(shù) 也比較大 尤其是樣本中所含觀測值較少時(shí) 更可能出現(xiàn)這種情況 例如 當(dāng)X與Y各只有兩個(gè)樣本數(shù)據(jù)時(shí) 積差系數(shù)總是為1 但顯然這不能說明變量間一定完全相關(guān) 也就是說 有時(shí)即使樣本積差系數(shù)很大 也并不一定就表明總體積差系數(shù) 也一定很大 總體積差系數(shù) 的情況 只有在對樣本積差系數(shù)進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)后 才能得出結(jié)論 那么判斷線性相關(guān)的 顯著 與 不顯著 的檢驗(yàn)統(tǒng)計(jì)量如何構(gòu)造呢 統(tǒng)計(jì)理論證明 樣本積差系數(shù)是總體積差系數(shù)的一個(gè)無偏估計(jì)量 有 而且當(dāng) 0時(shí) 樣本容量越大 r 顯然為一隨機(jī)變量 的抽樣分布越接近于自由度為n 2的t分布 見前圖 因而有檢驗(yàn)統(tǒng)計(jì)量 to r t n 2 積差系數(shù)檢驗(yàn)的假設(shè)為 H0 0 兩總體不具有線性相關(guān)關(guān)系 H1 0 兩總體具有線性相關(guān)關(guān)系 對選定的顯著性水平 查t分布表得臨界值t 2 n 2 與統(tǒng)計(jì)值to作比較 若 則表明r在統(tǒng)計(jì)上是顯著的 即總體積差系數(shù)顯著地不同于零 則說明r在統(tǒng)計(jì)上不顯著 即X與Y間并不存在線性相關(guān)關(guān)系 例12 4 1 已對表12 21所示資料求出積差系數(shù) 試在0 05顯著性水平上作總體相關(guān)檢驗(yàn) 表12 21 解 建立假設(shè)H0 0H1 0已知r 0 902 n 12 于是得to r 0 902 6 608對 0 05 查表得臨界值t 2 n 2 t0 025 10 2 228 6 608故拒絕H0 接受H1 即認(rèn)為員工的工齡和技術(shù)考核分之間存在線性相關(guān) 但是 為了使用者的方便 上述檢驗(yàn)現(xiàn)已簡化為使用相關(guān)系數(shù)r進(jìn)行直接檢驗(yàn) 附表12是以r的抽樣分布編制的相關(guān)系數(shù)表 只要給出顯著性水平 和自由度k n 2 便可以在表中直接查出相應(yīng)的臨界值r n 2 解 已知r 0 902 n 12 對 0 05 k 12 2 10 從附表12中查得r n 2 r 10 0 576 0 902故拒絕零假設(shè) 即在0 05顯著性水平上可以認(rèn)為員工的工齡和技術(shù)考核分之間存在線性相關(guān) 例 用附表12直接對上例進(jìn)行積差系數(shù)檢驗(yàn) 小結(jié) 上一小節(jié) 我們講的是回歸系數(shù)的檢驗(yàn) 實(shí)際上那只是線性回歸方程的檢驗(yàn) 而這一小節(jié)討論積差系數(shù)的檢驗(yàn) 也是要確認(rèn)總體線性相關(guān)的存在 因而假設(shè)H0 B 0與假設(shè)H0 0等價(jià) 也就是說 如果樣本積差系數(shù)r通過了檢驗(yàn) t檢驗(yàn) 也必然導(dǎo)致回歸系數(shù)b能通過檢驗(yàn) F檢驗(yàn) 實(shí)際上F公式與t公式是有對應(yīng)關(guān)系的 Fo t2即具有自由度n 2的t2值等于具有分子自由度1和分母自由度n 2的F值 也正是由于這個(gè)原因 有的教科書就是用t統(tǒng)計(jì)量來檢驗(yàn)回假設(shè)的 而如果有了r檢驗(yàn)表 附表12 問題就變得更為簡單 計(jì)算Fo值并進(jìn)行F檢驗(yàn)也都不必要了 估計(jì)Y當(dāng)不知Y和X有關(guān)系時(shí) 對它的最佳估計(jì)值只能是 估計(jì)的全部誤差是 當(dāng)知道Y和X有關(guān)系時(shí) 可以改用Yc來估計(jì)Y 此時(shí)估計(jì)的誤差減少為 當(dāng)知道Y和X有關(guān)系后 用Yc來估計(jì)Y固然可以消減不少估計(jì)誤差 這也不過是點(diǎn)估計(jì) 而如果我們能在擬合值Yc上下設(shè)置一個(gè)合適區(qū)間 那么Y被估計(jì)到的可能性便會(huì)大大增加 3 回歸方程的區(qū)間估計(jì) 回歸方程區(qū)間估計(jì)提出的背景 在回歸線兩側(cè)設(shè)置一個(gè)估計(jì)區(qū)間總是容易做到的 但問題是我們需要對估計(jì)的信度和效度作通盤考慮 為此 我們必須了解Y在Yc兩側(cè)的分布特征以及Y在Yc兩側(cè)的分散程度 由于誤差為正態(tài)分布的原理 即中心極限定理 當(dāng)樣本容量n大于30時(shí) 我們可以作如下假定 參見前圖 1 Y的實(shí)際觀測值在對應(yīng)的每個(gè)估計(jì)值Yc周圍都是正態(tài)分布 越靠近Yc的地方 Y值出現(xiàn)的機(jī)會(huì)越多 反之出現(xiàn)的機(jī)會(huì)越少 2 所

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論