簡(jiǎn)單線性回歸_第1頁(yè)
簡(jiǎn)單線性回歸_第2頁(yè)
簡(jiǎn)單線性回歸_第3頁(yè)
簡(jiǎn)單線性回歸_第4頁(yè)
簡(jiǎn)單線性回歸_第5頁(yè)
已閱讀5頁(yè),還剩70頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

簡(jiǎn)單線性回歸第一頁(yè),共七十五頁(yè),2022年,8月28日本章內(nèi)容

第一節(jié)簡(jiǎn)單線性回歸

第二節(jié)線性回歸的應(yīng)用第三節(jié)殘差分析

第四節(jié)非線性回歸

第二頁(yè),共七十五頁(yè),2022年,8月28日雙變量計(jì)量資料:每個(gè)個(gè)體有兩個(gè)變量值

總體:無(wú)限或有限對(duì)變量值樣本:從總體隨機(jī)抽取的n對(duì)變量值

(X1,Y1),(X2,Y2),…,(Xn,Yn)

目的:研究X和Y的數(shù)量關(guān)系

方法:回歸與相關(guān)簡(jiǎn)單、基本——直線回歸、直線相關(guān)第一節(jié)簡(jiǎn)單線性回歸第三頁(yè),共七十五頁(yè),2022年,8月28日

英國(guó)人類(lèi)學(xué)家F.Galton首次在《自然遺傳》一書(shū)中,提出并闡明了“相關(guān)”和“相關(guān)系數(shù)”兩個(gè)概念,為相關(guān)論奠定了基礎(chǔ)。其后,他和英國(guó)統(tǒng)計(jì)學(xué)家KarlPearson對(duì)上千個(gè)家庭的身高、臂長(zhǎng)、拃長(zhǎng)(伸開(kāi)大拇指與中指兩端的最大長(zhǎng)度)做了測(cè)量,發(fā)現(xiàn):歷史背景:第四頁(yè),共七十五頁(yè),2022年,8月28日

兒子身高(Y,英寸)與父親身高(X,英寸)存在線性關(guān)系:。

也即高個(gè)子父代的子代在成年之后的身高平均來(lái)說(shuō)不是更高,而是稍矮于其父代水平,而矮個(gè)子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”第五頁(yè),共七十五頁(yè),2022年,8月28日

“回歸”已成為表示變量之間某種數(shù)量依存關(guān)系的統(tǒng)計(jì)學(xué)術(shù)語(yǔ),相關(guān)并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計(jì)學(xué)概念。如研究糖尿病人血糖與其胰島素水平的關(guān)系,研究?jī)和挲g與體重的關(guān)系等。第六頁(yè),共七十五頁(yè),2022年,8月28日線性回歸的概念及其統(tǒng)計(jì)描述第七頁(yè),共七十五頁(yè),2022年,8月28日直線回歸的概念

目的:研究因變量Y對(duì)自變量X的數(shù)量依存關(guān)系。特點(diǎn):統(tǒng)計(jì)關(guān)系。X值和Y的均數(shù)的關(guān)系,不同于一般數(shù)學(xué)上的X和Y的函數(shù)關(guān)系第八頁(yè),共七十五頁(yè),2022年,8月28日

為了直觀地說(shuō)明直線回歸的概念,以15名健康人凝血酶濃度(X)與凝血時(shí)間(Y)數(shù)據(jù)(表12-1)進(jìn)行回歸分析,得到圖12-1所示散點(diǎn)圖(scatterplot)

第九頁(yè),共七十五頁(yè),2022年,8月28日No.123456789101112131415X1.11.21.00.91.21.10.90.61.00.91.10.91.11.00.7Y141315151314161714161516141517第十頁(yè),共七十五頁(yè),2022年,8月28日

在定量描述健康人凝血酶濃度(X)與凝血時(shí)間(Y)數(shù)據(jù)的數(shù)量上的依存關(guān)系時(shí),將凝血酶濃度稱為自變量(independentvariable),用X表示;凝血時(shí)間稱為因變量(dependentvariable),用Y表示第十一頁(yè),共七十五頁(yè),2022年,8月28日第十二頁(yè),共七十五頁(yè),2022年,8月28日

由圖12-1可見(jiàn),凝血時(shí)間隨凝血酶濃度的增加而減低且呈直線趨勢(shì),但并非所有點(diǎn)子恰好全都在一直線上,此與兩變量間嚴(yán)格的直線函數(shù)關(guān)系不同,稱為直線回歸(linearregression),其方程叫直線回歸方程,以區(qū)別嚴(yán)格意義的直線方程。回歸是回歸分析中最基本、最簡(jiǎn)單的一種,故又稱簡(jiǎn)單回歸。第十三頁(yè),共七十五頁(yè),2022年,8月28日樣本線回歸方程

為各X處Y的總體均數(shù)的估計(jì)。簡(jiǎn)單線性回歸模型第十四頁(yè),共七十五頁(yè),2022年,8月28日1.a(chǎn)為回歸直線在Y

軸上的截距a>0,表示直線與縱軸的交點(diǎn)在原點(diǎn)的上方a<0,則交點(diǎn)在原點(diǎn)的下方a=0,則回歸直線通過(guò)原點(diǎn)第十五頁(yè),共七十五頁(yè),2022年,8月28日2.b為回歸系數(shù),即直線的斜率

b>0,直線從左下方走向右上方,Y隨X增大而增大;

b<0,直線從左上方走向右下方,Y隨X增大而減?。?/p>

b=0,表示直線與X軸平行,X與Y無(wú)直線關(guān)系b的統(tǒng)計(jì)學(xué)意義是:X

每增加(減)一個(gè)單位,Y

平均改變b個(gè)單位

第十六頁(yè),共七十五頁(yè),2022年,8月28日回歸模型的前提假設(shè)線性回歸模型的前提條件是:線性(linear)獨(dú)立(independent)正態(tài)(normal)等方差(equalvariance)第十七頁(yè),共七十五頁(yè),2022年,8月28日

第十八頁(yè),共七十五頁(yè),2022年,8月28日第十九頁(yè),共七十五頁(yè),2022年,8月28日殘差(residual)或剩余值,即實(shí)測(cè)值Y與假定回歸線上的估計(jì)值的縱向距離。求解a、b實(shí)際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點(diǎn)分布趨勢(shì)的直線。原則:最小二乘法(leastsumofsquares),即可保證各實(shí)測(cè)點(diǎn)至直線的縱向距離的平方和最小回歸參數(shù)的估計(jì)

——最小二乘原則

第二十頁(yè),共七十五頁(yè),2022年,8月28日

回歸參數(shù)的估計(jì)方法

第二十一頁(yè),共七十五頁(yè),2022年,8月28日本例:n=15ΣX=14.7ΣX2=14.81ΣY=224ΣXY=216.7ΣY2=3368第二十二頁(yè),共七十五頁(yè),2022年,8月28日第二十三頁(yè),共七十五頁(yè),2022年,8月28日第二十四頁(yè),共七十五頁(yè),2022年,8月28日解題步驟第二十五頁(yè),共七十五頁(yè),2022年,8月28日3、計(jì)算有關(guān)指標(biāo)的值4、計(jì)算回歸系數(shù)和截距5、列出回歸方程第二十六頁(yè),共七十五頁(yè),2022年,8月28日

此直線必然通過(guò)點(diǎn)(,)且與縱坐標(biāo)軸相交于截距a。如果散點(diǎn)圖沒(méi)有從坐標(biāo)系原點(diǎn)開(kāi)始,可在自變量實(shí)測(cè)范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的值代入回歸方程得到一個(gè)點(diǎn)的坐標(biāo),連接此點(diǎn)與點(diǎn)(,)也可繪出回歸直線。繪制回歸直線第二十七頁(yè),共七十五頁(yè),2022年,8月28日總體回歸系數(shù)β的的統(tǒng)計(jì)推斷樣本回歸系數(shù)b的標(biāo)準(zhǔn)誤

第二十八頁(yè),共七十五頁(yè),2022年,8月28日回歸方程的假設(shè)檢驗(yàn)

建立樣本直線回歸方程,只是完成了統(tǒng)計(jì)分析中兩變量關(guān)系的統(tǒng)計(jì)描述,研究者還須回答它所來(lái)自的總體的直線回歸關(guān)系是否確實(shí)存在,即是否對(duì)總體有?第二十九頁(yè),共七十五頁(yè),2022年,8月28日第三十頁(yè),共七十五頁(yè),2022年,8月28日第三十一頁(yè),共七十五頁(yè),2022年,8月28日1.方差分析

第三十二頁(yè),共七十五頁(yè),2022年,8月28日Y的離均差,總變異殘差回歸的變異第三十三頁(yè),共七十五頁(yè),2022年,8月28日數(shù)理統(tǒng)計(jì)可證明:第三十四頁(yè),共七十五頁(yè),2022年,8月28日上式用符號(hào)表示為

式中

第三十五頁(yè),共七十五頁(yè),2022年,8月28日第三十六頁(yè),共七十五頁(yè),2022年,8月28日上述三個(gè)平方和,各有其相應(yīng)的自由度,并有如下的關(guān)系:

第三十七頁(yè),共七十五頁(yè),2022年,8月28日

如果兩變量間總體回歸關(guān)系確實(shí)存在,回歸的貢獻(xiàn)就要大于隨機(jī)誤差,大到何種程度時(shí)可以認(rèn)為具有統(tǒng)計(jì)意義,可計(jì)算統(tǒng)計(jì)量F:第三十八頁(yè),共七十五頁(yè),2022年,8月28日式中第三十九頁(yè),共七十五頁(yè),2022年,8月28日t檢驗(yàn)

第四十頁(yè),共七十五頁(yè),2022年,8月28日(1)方差分析第四十一頁(yè),共七十五頁(yè),2022年,8月28日

方差分析表

第四十二頁(yè),共七十五頁(yè),2022年,8月28日(2)t檢驗(yàn)參數(shù)β的意義是:若自變量X增加一個(gè)單位,反因變量Y的平均值便增加β

第四十三頁(yè),共七十五頁(yè),2022年,8月28日注意:

第四十四頁(yè),共七十五頁(yè),2022年,8月28日總體回歸系數(shù)的可信區(qū)間

利用上述對(duì)回歸系數(shù)的t檢驗(yàn),可以得到β的1-α雙側(cè)可信區(qū)間為第四十五頁(yè),共七十五頁(yè),2022年,8月28日

本例b=-6.9802,自由度=13,t0.05,13=2.16,Sb=0.78655,代入公式(12-7)得參數(shù)β的95%置信區(qū)間為

=(-8.6791~-5.2813)第四十六頁(yè),共七十五頁(yè),2022年,8月28日第四十七頁(yè),共七十五頁(yè),2022年,8月28日第二節(jié)線性回歸的應(yīng)用(估計(jì)和預(yù)測(cè))

第四十八頁(yè),共七十五頁(yè),2022年,8月28日反映其抽樣誤差大小的標(biāo)準(zhǔn)誤為第四十九頁(yè),共七十五頁(yè),2022年,8月28日例12-1中,第一觀測(cè)值X1=1.1,

0.4994,0.404,代入(12.8)式獲得第一觀測(cè)點(diǎn)X1對(duì)應(yīng)的的標(biāo)準(zhǔn)誤為

0.1599Y的總體均數(shù)的95%置信區(qū)間為

14.0957±(2.16)(0.1599)=(13.7502,14.4412)第五十頁(yè),共七十五頁(yè),2022年,8月28日實(shí)測(cè)值實(shí)測(cè)值預(yù)測(cè)Y的均值Y的均值的標(biāo)準(zhǔn)誤Y的均值的95%置信區(qū)間Y值的95%預(yù)測(cè)區(qū)間殘差對(duì)象實(shí)測(cè)值

X實(shí)測(cè)值Y預(yù)測(cè)值均值均值的標(biāo)準(zhǔn)誤Y均值的95%CIY值的95%預(yù)測(cè)區(qū)間殘差下限上限下限上限11.11414.09570.159913.750214.441212.961815.2297-0.095721.21313.39770.215912.931313.864112.221214.5741-0.397731.01514.79370.130014.512815.074713.677715.90970.206340.91515.49170.143615.181515.802014.368016.6155-0.491751.21313.39770.215912.931313.864112.221214.5741-0.397761.11414.09570.159913.750214.441212.961815.2297-0.095770.91615.49170.143615.181515.802014.368016.61550.508380.61717.58580.325616.882518.289216.296918.8747-0.585891.01414.79370.130014.512815.074713.677715.9097-0.7937100.91615.49170.143615.181515.802014.368016.61550.5083111.11514.09570.159913.750214.441212.961815.22970.9043120.91615.49170.143615.181515.802014.368016.61550.5083131.11414.09570.159913.750214.441212.961815.2297-0.0957141.01514.79370.130014.512815.074713.677715.90970.2063150.71716.88780.255316.336317.439315.675118.10050.1122第五十一頁(yè),共七十五頁(yè),2022年,8月28日以上是給定某一X值時(shí)所對(duì)應(yīng)的總體均數(shù)的置信區(qū)間。當(dāng)同時(shí)考慮X的所有可能取值時(shí),總體均數(shù)的點(diǎn)估計(jì)就是根據(jù)樣本算得的回歸直線(1-α)置信區(qū)間的上下限連起來(lái)形成一個(gè)弧形區(qū)帶,稱為回歸直線的(1-α)置信帶(confidenceband)。同樣,因?yàn)槠錁?biāo)準(zhǔn)誤是X的函數(shù),所以在均數(shù)()點(diǎn)處置信帶寬度最小,越遠(yuǎn)離該均數(shù)點(diǎn),置信帶寬度越大。第五十二頁(yè),共七十五頁(yè),2022年,8月28日?qǐng)D12-4中,左圖顯示位于最小二乘回歸線上下兩側(cè)的兩條弧形虛線為總體回歸線的(1-α)置信區(qū)帶。右圖的實(shí)線表示可能的總體回歸線,它們落在弧形虛線所確定的置信帶內(nèi)。(1-α)置信帶的意義是:在滿足線性回歸的假設(shè)條件下,可以認(rèn)為真實(shí)的回歸直線落在兩條弧形曲線所形成的區(qū)帶內(nèi),置信度為(1-α)第五十三頁(yè),共七十五頁(yè),2022年,8月28日第五十四頁(yè),共七十五頁(yè),2022年,8月28日第五十五頁(yè),共七十五頁(yè),2022年,8月28日以第一觀測(cè)點(diǎn)數(shù)據(jù)(X1=1.1)點(diǎn)為例,該點(diǎn)預(yù)測(cè)值的標(biāo)準(zhǔn)差為

=0.52489182第一數(shù)據(jù)點(diǎn)的預(yù)測(cè)區(qū)間為:14.0957±(2.16)(0.0.5249)=12.9618~15.2297當(dāng)同時(shí)考慮X的所有可能取值時(shí),個(gè)體Y值的95%預(yù)測(cè)區(qū)間形成一個(gè)帶子,稱為Y值的95%預(yù)測(cè)帶,它比總體回歸線95%置信帶更寬。圖12-5和圖12-6同時(shí)顯示個(gè)體Y值的預(yù)測(cè)帶與總體回歸線的置信帶,可見(jiàn),在相同信度下,個(gè)體值預(yù)測(cè)帶的曲線要比回歸線置信帶的曲線離回歸直線更遠(yuǎn)。第五十六頁(yè),共七十五頁(yè),2022年,8月28日PICI第五十七頁(yè),共七十五頁(yè),2022年,8月28日決定系數(shù)(coefficientofdetermination)

定義為回歸平方和與總平方和之比,計(jì)算公式為:

取值在0到1之間且無(wú)單位,其數(shù)值大小反映了回歸貢獻(xiàn)的相對(duì)程度,也就是在Y的總變異中回歸關(guān)系所能解釋的百分比。

第五十八頁(yè),共七十五頁(yè),2022年,8月28日第五十九頁(yè),共七十五頁(yè),2022年,8月28日第三節(jié)殘差分析

殘差(residual)是指觀測(cè)值Yi與回歸模型擬合值之差殘差分析(residualanalysis)旨在通過(guò)殘差深入了解數(shù)據(jù)與模型之間的關(guān)系,評(píng)價(jià)實(shí)際資料是否符合回歸模型假設(shè),識(shí)別異常點(diǎn)等。例如,第一數(shù)據(jù)點(diǎn)的殘差e1=14-14.0957=-0.0957,如此類(lèi)推,計(jì)算出各數(shù)據(jù)點(diǎn)的殘差值示于表12-2的第10列中。將第10列的殘差減去其均數(shù),除以其標(biāo)準(zhǔn)差,便得標(biāo)準(zhǔn)化殘差。第六十頁(yè),共七十五頁(yè),2022年,8月28日若以反因變量取值Yi為橫坐標(biāo),以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),構(gòu)成的散點(diǎn)圖如圖12-7所示。類(lèi)似地,也可以自變量取值Xi為橫坐標(biāo),以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),構(gòu)成的散點(diǎn)圖。這類(lèi)散點(diǎn)圖統(tǒng)稱為標(biāo)準(zhǔn)化殘差圖。

第六十一頁(yè),共七十五頁(yè),2022年,8月28日?qǐng)D12-8給出的是以自變量取值為縱坐標(biāo),以殘差為橫坐標(biāo)的殘差圖的常見(jiàn)類(lèi)型。其中,圖(e)顯示殘差呈隨機(jī)分布;圖(a)、(b)和(f)表示殘差不滿足方差齊性條件;圖(c)顯示存在非線性關(guān)系;圖(d)顯示有的點(diǎn)處于2倍標(biāo)準(zhǔn)差以外,可能是異常點(diǎn)。第六十二頁(yè),共七十五頁(yè),2022年,8月28日第六十三頁(yè),共七十五頁(yè),2022年,8月28日第四節(jié)非線性回歸非線性回歸要比線性回歸更能充分地表達(dá)變量間的關(guān)系。當(dāng)今線性回歸之所以比非線性回歸應(yīng)用甚多,原因在于無(wú)論從數(shù)學(xué)理論還是計(jì)算方法,線性回歸都比非線性回歸模型簡(jiǎn)單得多。第六十四頁(yè),共七十五頁(yè),2022年,8月28日通過(guò)自變量的變換實(shí)現(xiàn)線性化實(shí)踐中有兩類(lèi)非線性關(guān)系,一類(lèi)是通過(guò)自變量X的適當(dāng)變換可線性化的,另一類(lèi)是不可能通過(guò)自變量X的變換實(shí)現(xiàn)線性化的X數(shù)據(jù)變換不能線性化的關(guān)系第六十五頁(yè),共七十五頁(yè),2022年,8月28日

變換自變量實(shí)現(xiàn)線性回歸步驟

1.將觀測(cè)數(shù)據(jù)(Xi,Yi),i=1,2,…,n作散點(diǎn)圖,觀察散點(diǎn)分布特征類(lèi)似于何種函數(shù)類(lèi)型;2.按照所選定的函數(shù)進(jìn)行相應(yīng)的變量變換;3.對(duì)變換后的數(shù)據(jù)用常規(guī)最小二乘法(OLS)作線性模型的參數(shù)估計(jì)。4.一般擬合多個(gè)相近的模型,然后通過(guò)對(duì)各個(gè)模型的擬合優(yōu)度評(píng)價(jià)挑選較為合適的模型。第六十六頁(yè),共七十五頁(yè),2022年,8月28日例12-2為了研究某藥物濃度與腎上腺素釋放的量關(guān)系,選取10個(gè)給藥物濃度水平,每種藥物劑量水平上重復(fù)5次試驗(yàn),觀測(cè)結(jié)果如表12-3所示。欲用合適的回歸模型描述該藥品劑量與反應(yīng)的規(guī)律

第六十七頁(yè),共七十五頁(yè),2022年,8月28日藥物劑量(mg)腎上腺素釋放量(pg/ml)1519.2614.2917.6018.3616.532021.2021.7820.7720.6523.382521.7722.6122.7021.1721.653023.4723.2221.7424.0224.053523.8825.3222.9024.8423.704025.2724.6924.6724.4825.244524.2024.9425.5225.0227.435027.9825.8826.6726.3125.945527.4224.9126.4228.2425.496028.4127.0929.0428.8527.89第六十八頁(yè),共七十五頁(yè),2022年,8月28日第六十九頁(yè),共七十五頁(yè),2022年,8月28日由結(jié)果可見(jiàn):在所擬合的三種模型中,以x對(duì)數(shù)函數(shù)回歸的效果最佳,該模型擬合的殘差均方最小,決定系數(shù)最大模型名稱回歸方程MSEF值P值R2值簡(jiǎn)單線性1.91786212.48<0.00010.8157對(duì)數(shù)函數(shù)1.39592309.88<.00010.8659二次函數(shù)2.72770135.05<0.00010.852第七十頁(yè),共七十五頁(yè),2022年,8月28日值得一提的是,本節(jié)只涉及對(duì)自變量X進(jìn)行變換,然后以變換后的數(shù)據(jù)用標(biāo)準(zhǔn)最小二乘(OLS)法求解模型的參數(shù)估計(jì)與模型評(píng)價(jià)。當(dāng)涉及到對(duì)反因變量y實(shí)施非線性變換[如Z=ln(Y)]時(shí),因?yàn)镺LS只保證變換后的Z,即ln(Y)的殘差平方和最小,并不能保證原變量Y的殘差平方和也最小

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論