版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第十一章簡單回歸分析Simplelinearregressionanalysis本章內(nèi)容
第一節(jié)簡單線性回歸
第二節(jié)線性回歸的應(yīng)用第三節(jié)殘差分析
第四節(jié)非線性回歸
雙變量計(jì)量資料:每個(gè)個(gè)體有兩個(gè)變量值
總體:無限或有限對(duì)變量值樣本:從總體隨機(jī)抽取的n對(duì)變量值
(X1,Y1),(X2,Y2),…,(Xn,Yn)
目的:研究X和Y的數(shù)量關(guān)系
方法:回歸與相關(guān)簡單、基本——直線回歸、直線相關(guān)第一節(jié)簡單線性回歸
英國人類學(xué)家F.Galton首次在《自然遺傳》一書中,提出并闡明了“相關(guān)”和“相關(guān)系數(shù)”兩個(gè)概念,為相關(guān)論奠定了基礎(chǔ)。其后,他和英國統(tǒng)計(jì)學(xué)家KarlPearson對(duì)上千個(gè)家庭的身高、臂長、拃長(伸開大拇指與中指兩端的最大長度)做了測(cè)量,發(fā)現(xiàn):歷史背景:
兒子身高(Y,英寸)與父親身高(X,英寸)存在線性關(guān)系:。
也即高個(gè)子父代的子代在成年之后的身高平均來說不是更高,而是稍矮于其父代水平,而矮個(gè)子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”
“回歸”已成為表示變量之間某種數(shù)量依存關(guān)系的統(tǒng)計(jì)學(xué)術(shù)語,相關(guān)并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計(jì)學(xué)概念。如研究糖尿病人血糖與其胰島素水平的關(guān)系,研究兒童年齡與體重的關(guān)系等。線性回歸的概念及其統(tǒng)計(jì)描述直線回歸的概念
目的:研究應(yīng)變量Y對(duì)自變量X的數(shù)量依存關(guān)系。特點(diǎn):統(tǒng)計(jì)關(guān)系。X值和Y的均數(shù)的關(guān)系,不同于一般數(shù)學(xué)上的X和Y的函數(shù)關(guān)系
為了直觀地說明直線回歸的概念,以14名健康婦女體重(X)與基礎(chǔ)代謝(Y)數(shù)據(jù)(表10-1)進(jìn)行回歸分析,得到圖11-1所示散點(diǎn)圖(scatterplot)
編號(hào)基礎(chǔ)代謝(kJ/d)體重(kg)編號(hào)基礎(chǔ)代謝(kJ/d)體重(kg)14175.650.783970.648.624435.053.793983.244.633460.237.1105050.158.644020.851.7115355.571.053987.447.8124560.659.764970.662.8134874.462.175359.767.3145029.261.5
在定量描述健康婦女體重(X)與基礎(chǔ)代謝(Y)數(shù)據(jù)的數(shù)量上的依存關(guān)系時(shí),將體重稱為自變量(independentvariable),用X表示;基礎(chǔ)代謝稱為應(yīng)變量(dependentvariable),用Y表示
圖11-114例中年健康婦女基礎(chǔ)代謝與體重的散點(diǎn)圖
由圖11-1可見,基礎(chǔ)代謝隨體重的增加而減低且呈直線趨勢(shì),但并非所有點(diǎn)子恰好全都在一直線上,此與兩變量間嚴(yán)格的直線函數(shù)關(guān)系不同,稱為直線回歸(linearregression),其方程叫直線回歸方程,以區(qū)別嚴(yán)格意義的直線方程。回歸是回歸分析中最基本、最簡單的一種,故又稱簡單回歸。
在應(yīng)用中,線性回歸中的自變量還可以精確測(cè)量和嚴(yán)密控制的指標(biāo),但因變量必須是隨機(jī)變化的。如某研究者應(yīng)用單向環(huán)狀免疫擴(kuò)散法,在固定IgG濃度下覺得瓊脂免疫板上沉淀環(huán)直徑數(shù)據(jù)見表10-2。No.12345IgG(濃度)(IU/ml)12345沉淀環(huán)直徑(mm)Y4.05.56.27.78.5
表11-2IgG濃度與沉淀環(huán)直徑的散點(diǎn)圖
圖11-2IgG濃度與沉淀環(huán)直徑的散點(diǎn)圖樣本線回歸方程
為各X處Y的總體均數(shù)的估計(jì)。簡單線性回歸模型1.a(chǎn)為回歸直線在Y
軸上的截距a>0,表示直線與縱軸的交點(diǎn)在原點(diǎn)的上方a<0,則交點(diǎn)在原點(diǎn)的下方a=0,則回歸直線通過原點(diǎn)2.b為回歸系數(shù),即直線的斜率
b>0,直線從左下方走向右上方,Y隨X增大而增大;
b<0,直線從左上方走向右下方,Y隨X增大而減??;
b=0,表示直線與X軸平行,X與Y無直線關(guān)系b的統(tǒng)計(jì)學(xué)意義是:X
每增加(減)一個(gè)單位,Y
平均改變b個(gè)單位
回歸模型的前提假設(shè)線性回歸模型的前提條件是:線性(linear)獨(dú)立(independent)正態(tài)(normal)等方差(equalvariance)
殘差(residual)或剩余值,即實(shí)測(cè)值Y與假定回歸線上的估計(jì)值的縱向距離。求解a、b實(shí)際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點(diǎn)分布趨勢(shì)的直線。原則:最小二乘法(leastsumofsquares),即可保證各實(shí)測(cè)點(diǎn)至直線的縱向距離的平方和最小回歸參數(shù)的估計(jì)
——最小二乘原則
回歸參數(shù)的估計(jì)方法
本例:n=14
圖11-114例中年健康婦女基礎(chǔ)代謝與體重的散點(diǎn)圖解題步驟3、計(jì)算有關(guān)指標(biāo)的值4、計(jì)算回歸系數(shù)和截距5、列出回歸方程
此直線必然通過點(diǎn)(,)且與縱坐標(biāo)軸相交于截距a。如果散點(diǎn)圖沒有從坐標(biāo)系原點(diǎn)開始,可在自變量實(shí)測(cè)范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的值代入回歸方程得到一個(gè)點(diǎn)的坐標(biāo),連接此點(diǎn)與點(diǎn)(,)也可繪出回歸直線。繪制回歸直線總體回歸系數(shù)β的的統(tǒng)計(jì)推斷
1、t檢驗(yàn)法對(duì)回歸系數(shù)作檢驗(yàn)
2、回歸方程的假設(shè)檢驗(yàn)
建立樣本直線回歸方程,只是完成了統(tǒng)計(jì)分析中兩變量關(guān)系的統(tǒng)計(jì)描述,研究者還須回答它所來自的總體的直線回歸關(guān)系是否確實(shí)存在,即是否對(duì)總體有?1.方差分析
Y的離均差,總變異殘差回歸的變異數(shù)理統(tǒng)計(jì)可證明:上式用符號(hào)表示為
式中
上述三個(gè)平方和,各有其相應(yīng)的自由度,并有如下的關(guān)系:
如果兩變量間總體回歸關(guān)系確實(shí)存在,回歸的貢獻(xiàn)就要大于隨機(jī)誤差,大到何種程度時(shí)可以認(rèn)為具有統(tǒng)計(jì)意義,可計(jì)算統(tǒng)計(jì)量F:式中t檢驗(yàn)
(1)方差分析
方差分析表
總體回歸系數(shù)β的的統(tǒng)計(jì)推斷
t檢驗(yàn)法例11-3對(duì)例11-1中的樣本回歸系數(shù)作檢驗(yàn)注意:
總體回歸系數(shù)的可信區(qū)間
利用上述對(duì)回歸系數(shù)的t檢驗(yàn),可以得到β的1-α雙側(cè)可信區(qū)間為
本例b=61.4229,自由度=12,t0.05,12=2.179,Sb=4.8810,代入公式)得參數(shù)β的95%置信區(qū)間為
=(50.79~72.06)第二節(jié)線性回歸的應(yīng)用(估計(jì)和預(yù)測(cè))
反映其抽樣誤差大小的標(biāo)準(zhǔn)誤為例11-1中,第一觀測(cè)值X1=50.7,
165.1311,1144.5771,代入(11.8)式獲得第一觀測(cè)點(diǎn)X1對(duì)應(yīng)的標(biāo)準(zhǔn)誤為Y的總體均數(shù)的95%置信區(qū)間為
以上是給定某一X值時(shí)所對(duì)應(yīng)的總體均數(shù)的置信區(qū)間。當(dāng)同時(shí)考慮X的所有可能取值時(shí),總體均數(shù)的點(diǎn)估計(jì)就是根據(jù)樣本算得的回歸直線(1-α)置信區(qū)間的上下限連起來形成一個(gè)弧形區(qū)帶,稱為回歸直線的(1-α)置信帶(confidenceband)。同樣,因?yàn)槠錁?biāo)準(zhǔn)誤是X的函數(shù),所以在均數(shù)()點(diǎn)處置信帶寬度最小,越遠(yuǎn)離該均數(shù)點(diǎn),置信帶寬度越大。圖11-4中,左圖顯示位于最小二乘回歸線上下兩側(cè)的兩條弧形虛線為總體回歸線的(1-α)置信區(qū)帶。右圖的實(shí)線表示可能的總體回歸線,它們落在弧形虛線所確定的置信帶內(nèi)。(1-α)置信帶的意義是:在滿足線性回歸的假設(shè)條件下,可以認(rèn)為真實(shí)的回歸直線落在兩條弧形曲線所形成的區(qū)帶內(nèi),置信度為(1-α)圖11-14總體回歸系數(shù)置信區(qū)帶例11-1中,第一觀測(cè)值X1=50.7,
165.1311,1144.5771,代入(11.8)式獲得第一觀測(cè)點(diǎn)X1對(duì)應(yīng)的標(biāo)準(zhǔn)誤為Y95%的預(yù)測(cè)區(qū)間為
PICI圖11-14總體回歸系數(shù)置信區(qū)帶和預(yù)測(cè)帶決定系數(shù)(coefficientofdetermination)
定義為回歸平方和與總平方和之比,計(jì)算公式為:
取值在0到1之間且無單位,其數(shù)值大小反映了回歸貢獻(xiàn)的相對(duì)程度,也就是在Y的總變異中回歸關(guān)系所能解釋的百分比。
第三節(jié)殘差分析
殘差(residual)是指觀測(cè)值Yi與回歸模型擬合值之差殘差分析(residualanalysis)旨在通過殘差深入了解數(shù)據(jù)與模型之間的關(guān)系,評(píng)價(jià)實(shí)際資料是否符合回歸模型假設(shè),識(shí)別異常點(diǎn)等。例如,第一數(shù)據(jù)點(diǎn)的殘差e1=4175.6-4220.784=-45.184,如此類推,計(jì)算出各數(shù)據(jù)點(diǎn)的殘差值,將殘差減去其均數(shù),除以其標(biāo)準(zhǔn)差,便得標(biāo)準(zhǔn)化殘差。若以反應(yīng)變量取值Yi為橫坐標(biāo),以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),構(gòu)成的散點(diǎn)圖如圖11-7所示。類似地,也可以自變量取值Xi為橫坐標(biāo),以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),構(gòu)成的散點(diǎn)圖。這類散點(diǎn)圖統(tǒng)稱為標(biāo)準(zhǔn)化殘差圖。
圖11-8給出的是以自變量取值為縱坐標(biāo),以殘差為橫坐標(biāo)的殘差圖的常見類型。其中,圖(e)顯示殘差呈隨機(jī)分布;圖(a)、(b)和(f)表示殘差不滿足方差齊性條件;圖(c)顯示存在非線性關(guān)系;圖(d)顯示有的點(diǎn)處于
2倍標(biāo)準(zhǔn)差以外,可能是異常點(diǎn)。圖11-8不同類型的標(biāo)準(zhǔn)化殘差圖第四節(jié)非線性回歸非線性回歸要比線性回歸更能充分地表達(dá)變量間的關(guān)系。當(dāng)今線性回歸之所以比非線性回歸應(yīng)用甚多,原因在于無論從數(shù)學(xué)理論還是計(jì)算方法,線性回歸都比非線性回歸模型簡單得多。通過自變量的變換實(shí)現(xiàn)線性化實(shí)踐中有兩類非線性關(guān)系,一類是通過自變量X的適當(dāng)變換可線性化的,另一類是不可能通過自變量X的變換實(shí)現(xiàn)線性化的X數(shù)據(jù)變換不能線性化的關(guān)系
變換自變量實(shí)現(xiàn)線性回歸步驟
1.將觀測(cè)數(shù)據(jù)(Xi,Yi),i=1,2,…,n作散點(diǎn)圖,觀察散點(diǎn)分布特征類似于何種函數(shù)類型;2.按照所選定的函數(shù)進(jìn)行相應(yīng)的變量變換;3.對(duì)變換后的數(shù)據(jù)用常規(guī)最小二乘法(OLS)作線性模型的參數(shù)估計(jì)。4.一般擬合多個(gè)相近的模型,然后通過對(duì)各個(gè)模型的擬合優(yōu)度評(píng)價(jià)挑選較為合適的模型。例11-2某研究者用免疫球蛋白A(IgA,ug/ml)的不同濃度做火箭電泳,測(cè)得電泳高度(nm)如表11-4所示。欲用合適的回歸模型描述火箭高度隨IgA濃度的變化規(guī)律
IgA(μg/ml)火箭電泳高度(nm)X*=lnX0.27.6-1.60940.412.3-0.91630.615.7-0.51080.818.2-0.22311.018.70.00001.221.40.18231.422.60.33651.623.80.4700表11-4免疫球蛋白A不同濃度下的火箭電泳高度由結(jié)果可見:在所擬合的三種模型中,以x對(duì)數(shù)函數(shù)回歸的效果最佳,該模型擬合的殘差均方最小,決定系數(shù)最大模型名稱回歸方程F值P值R2值簡單線性92.440.0000.939對(duì)數(shù)函數(shù)763.500.000.992二次函數(shù)185.170.0000.987值得一提的是,本節(jié)只涉及對(duì)自變量X進(jìn)行變換,然后以變換后的數(shù)據(jù)用標(biāo)準(zhǔn)最小二乘(OLS)法求解模型的參數(shù)估計(jì)與模型評(píng)價(jià)。當(dāng)涉及到對(duì)反應(yīng)變量y實(shí)施非線性變換[如Z=ln(Y)]時(shí),因?yàn)镺LS只保證變換后的Z,即ln(Y)的殘差平方和最小,并不能保證原變量Y的殘差平方和也最小,所以在此情況下,我們建議用統(tǒng)計(jì)軟件來完成非線性擬合,例如,用SAS系統(tǒng)中的PROCNLIN程序產(chǎn)生非線性模型參數(shù)的最小二乘估計(jì)。
直線回歸應(yīng)用的注意事項(xiàng)直線回歸用于定量刻畫應(yīng)變量Y對(duì)自變量X在數(shù)值上的依存關(guān)系,其中應(yīng)變量的定奪主要依專業(yè)要求而定,可以考慮把易于精確測(cè)量的變量作為X,另一個(gè)隨機(jī)變量作Y,例如用身高估計(jì)體表面積。兩個(gè)變量的選擇一定要結(jié)合專業(yè)背景,不能把毫無關(guān)聯(lián)的兩
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年個(gè)人述職報(bào)告
- 2025年度汽車維修車間租賃及轉(zhuǎn)讓合同范本5篇
- 2024年非洲礦產(chǎn)資源開發(fā)合作合同
- 2025年度智能圍墻控制系統(tǒng)安裝承包合同3篇
- 2024年物業(yè)管理履約保證金協(xié)議3篇
- 二零二五年度辦公大樓公共區(qū)域設(shè)計(jì)與維護(hù)合同2篇
- 2025版葡萄酒進(jìn)口分銷及品牌推廣合作協(xié)議3篇
- 2024年餐飲業(yè)食材訂購合同3篇
- 2024年甲乙雙方關(guān)于復(fù)雜電子產(chǎn)品研發(fā)與銷售的合同
- 2024版水電及消防安裝承包合同
- 中國陰離子交換膜行業(yè)調(diào)研分析報(bào)告2024年
- 絨毛下血腫保胎方案
- 醫(yī)美行業(yè)監(jiān)管政策與競(jìng)爭環(huán)境
- 2024年02月湖北武漢市公安局招考聘用輔警267人筆試歷年高頻考題(難、易錯(cuò)點(diǎn)薈萃)答案帶詳解附后
- 房屋移交的時(shí)間和方式
- 北京市西城區(qū)2022-2023學(xué)年七年級(jí)(上)期末數(shù)學(xué)試卷(人教版 含答案)
- 2024年福建寧德城市建設(shè)投資開發(fā)公司招聘筆試參考題庫含答案解析
- 電焊的安全防護(hù)技術(shù)模版
- 低值易耗品明細(xì)表
- 金礦投資可行性方案
- 山東省濟(jì)南市2023-2024學(xué)年高三上學(xué)期期末學(xué)習(xí)質(zhì)量檢測(cè)生物試題(原卷版)
評(píng)論
0/150
提交評(píng)論