統(tǒng)計學(xué)案例——相關(guān)回歸分析_第1頁
統(tǒng)計學(xué)案例——相關(guān)回歸分析_第2頁
統(tǒng)計學(xué)案例——相關(guān)回歸分析_第3頁
統(tǒng)計學(xué)案例——相關(guān)回歸分析_第4頁
統(tǒng)計學(xué)案例——相關(guān)回歸分析_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、統(tǒng)計學(xué)案例相關(guān)回歸分析案例一 質(zhì)量控制中的簡單線性回歸分析1、問題的提出某石油煉廠的催化裝置通過高溫及催化劑對原料的作用進行反應(yīng),生成各種產(chǎn)品,其中液化氣用途廣泛、易于儲存運輸,所以,提高液化氣收率,降低不凝 氣體產(chǎn)量,成為提高經(jīng)濟效益的關(guān)鍵問題。通過因果分析圖和排列圖的觀察,發(fā)現(xiàn)回流溫度是影響液化氣收率的主要原 因,因此,只有確定二者之間的相關(guān)關(guān)系,尋找適當?shù)幕亓鳒囟?,才能達到提高 液化氣收率的目的。經(jīng)認真分析仔細研究,確定了在保持原有輕油收率的前提下, 液化氣收率比去年同期增長1個百分點的目標,即達到12.24%的液化氣收率。2、數(shù)據(jù)的收集液化氣收率液化氣收率序號回流溫度(C)序號回流溫度

2、(C)(%)(%)13613.1164212.323912.8174311.934311.3184610.944311.4194410.453912.3204211.563812.5214112.574311.1224511.184410.8234011.193713.1244611.1104011.9254710.8113413.6264510.5123912.2273812.1134012.2283912.5144111.8294411.5154411.1304510.9目標值確定之后,我們收集了某年某季度的回流溫度與液化氣收率的30組數(shù)據(jù)(如上表),進行簡單直線回歸分析。3方法的確立設(shè)線

3、性回歸模型為y =ix ;,估計回歸方程為y = bQ bix將數(shù)據(jù)輸入計算機,輸出散點圖可見,液化氣收率y具有隨著回流溫度x的提高而降低的趨勢。因此,建立描述y與x之間關(guān)系的模型時,首選直線型是合理的16151413121110984050從線性回歸的計算結(jié)果,可以知道回歸系數(shù)的最小二乘估計值bo=21.263和bi=-0.229,于是最小二乘直線為0 =21.263-0.229X這就表明,回流溫度每增加C,估計液化氣收率將減少0.229%。1515 -14 -13 -12 -1110 -go35404550(3)殘差分析為了判別簡單線性模型的假定是否有效,作出殘差圖,進行殘差分析1 10.

4、5 -.* * .*e * 40o T產(chǎn)L35 * 453540 * 4550-0*54*T*-1.5 從圖中可以看到,殘差基本在-0.5+0.5左右,說明建立回歸模型所依賴的 假定是恰當?shù)?。誤差項的估計值 s=0.388。(4)回歸模型檢驗a. 顯著性檢驗在90%的顯著水平下,進行t檢驗,拒絕域為I t | = | bi/ sbi | >t 0/2=1.7011 <由輸出數(shù)據(jù)可以找到 bi和sbi , t=bi/ Sbi=-0.229/0.022=-10.313,于是拒絕 原假設(shè),說明液化氣收率與回流溫度之間存在線性關(guān)系。b. 擬合度檢驗判定系數(shù)r2=0.792。這意味著液化氣收

5、率的樣本變差大約有80%可以由它與回流溫度的線性關(guān)系來解釋。r 二 r2 =-0.89這樣,r值為y與x之間存在中高度的負線性關(guān)系提供了進一步的證據(jù)。由于n馮0,我們近似確定y的90%置信區(qū)間為:y±(z務(wù))s=21.263-0.229x ±.282 >0.388 = 21.263-0.229x± 0.49716 151413121110g800504、結(jié)果分析由回歸直線圖可知,要保持液化氣收率在 12.24%以上,回流溫度必須控制 在34 C以下。因為裝置工藝卡片要求回流溫度在 3340 C之間,為確保液化氣 質(zhì)量合格,可以將回流溫度控制在 3334 C之

6、間。為此,應(yīng)當采取各項有效措 施,改善外部操作環(huán)境,將液化氣收率控制在目標值范圍內(nèi)。案例二:轎車生產(chǎn)與GDP等關(guān)系研究中國的轎車生產(chǎn)是否與 GDP、城鎮(zhèn)居民人均可支配收入、城鎮(zhèn)居民家庭恩格爾系數(shù)、私人載客汽車擁有量、公路里程等都有密切關(guān)系?如果有關(guān)系, 它們 之間是種什么關(guān)系?關(guān)系強度如何?(數(shù)據(jù)見中國統(tǒng)計年鑒)(1)分析轎車生產(chǎn)量與私人載客汽車擁有量之間的關(guān)系:首先,求的因變量轎車生產(chǎn)量 y和自變量私人載客汽車擁有量 x1的相關(guān)系數(shù)r=0.992018,說明兩者間存在一定的線性相關(guān)關(guān)系且正相關(guān)程度很強。xly1xlg 9920181然后以轎車生產(chǎn)量為因變量y,私人載客汽車擁有量x1為自變量進

7、行一元線性回歸分析,結(jié)果如下:SUJIMARY OUTPUT回歸統(tǒng)計Multiple0. 992018R Square0. 984101Adjusted0. 983041標準誤差14.3861617方差分析dfssISF回歸分析1192150.3192150.3928. 4352904殘差153104. 422206. 9615總計16195254.8Coefficien'標準誤差t StatPralu 亡IntercepiL7756874.6764080.3797120.7094815431xl0. 2067830. 00678630. 470246.60805E-15由回歸統(tǒng)計中的

8、R=0.984101看出,所建立的回歸模型對樣本觀測值的擬合程度很好; 估計出的樣本回歸函數(shù)為:?=1.775687+0.206783 x1,說明私人載客汽車擁有量每增加1萬輛,轎車生產(chǎn)量增加2067.83輛; 由上表中a和B?的p值分別是0.709481543和6.60805E-15,顯然a的 p值大于顯著性水平a =0.05,不能拒絕原假設(shè)a =0,而B?的p值遠小于顯著性水 平a=0.05,拒絕原假設(shè)B =0,說明私人載客汽車擁有量對轎車生產(chǎn)量有顯著影響。(2) 分析轎車生產(chǎn)量與城鎮(zhèn)居民家庭恩格爾系數(shù)之間的關(guān)系:首先,求的因變量轎車生產(chǎn)量y和自變量城鎮(zhèn)居民家庭恩格爾系數(shù) x2的相 關(guān)系數(shù)

9、r=-0.77499,說明兩者間存在一定的線性相關(guān)關(guān)系但負相關(guān)程度一般。yi2y1x2-0.774991口然后以轎車生產(chǎn)量為因變量y,城鎮(zhèn)居民家庭恩格爾系數(shù)x2為自變量進行元線性回歸分析,結(jié)果如下:SUMMARY OUTPUT回歸統(tǒng)計llultiple0. 774989R Square 10> 600608Adjusted0. 573982標準誤差72.10323觀測值17方差分析dfSSISFmi fd回歸分析1U727L6117271.622. 55712a oo1577983.135198. 87516195254. 8Coefficien標準誤差I(lǐng)ntercept 661. 24

10、3 120* 1556t Stat 5 503221P-aluc :& 07EH35Lower405.x2-12. 6922.672314-4. ¥49430.000258 -1&;由回歸統(tǒng)計中的R=0.600608看出,所建立的回歸模型對樣本觀測值的擬合程度一般,綜合其相關(guān)系數(shù)值可知此二者關(guān)系不太符合所建立的線性模型,說明二者間沒有密切的線性相關(guān)關(guān)系。(3)分析轎車生產(chǎn)量與公路里程之間的關(guān)系:首先,求的因變量轎車生產(chǎn)量y和自變量公路里程 x3的相關(guān)系數(shù)r=0.941214,說明兩者間存在一定的線性相關(guān)關(guān)系且正相關(guān)程度較強。然后以轎車生產(chǎn)量為因變量y,公路里程x3為自

11、變量進行一元線性回歸分 析,結(jié)果如下:SUMMARY OUTPUT回歸統(tǒng)計Hultiple0. 941214R Square0.885883Adjusted0.878275標準誤差38. 54168觀測值17方差分析dfSSRSFjnific回歸分析_ 1172972.9172972.9116. 4439L82殘差1522281.911485. 461總計16195254.8Coefficien標準誤差t StatP-valueL 口 tverInterceptT25.15622. 58047-5. 54268S. 64E-05-17XL 4030220.13001910, 790921. 8

12、2E-081.12E由回歸統(tǒng)計中的R=0.885883看出,所建立的回歸模型對樣本觀測值的擬由上表中a和B?的p值分別是5.64E-05和1.82E-08 ,顯然a和B?的p值 均遠小于顯著性水平a =0.05 ,拒絕原假設(shè)a=0、3=0,但由于B對兩者的影響更為 顯著,所以可以說明公路里程對轎車生產(chǎn)量有顯著影響(4) 分析轎車生產(chǎn)量與GDP之間的關(guān)系:首先,求的因變量轎車生產(chǎn)量 y和自變量GDP x4的相關(guān)系數(shù)r=0.939995, 說明兩者間存在一定的線性相關(guān)關(guān)系且正相關(guān)程度較強。yy1x40, 9399951然后以轎車生產(chǎn)量為因變量y, GDP x4為自變量進行一元線性回歸分析,結(jié)果如下

13、:SUMMARY OUTPUT回歸統(tǒng)計Multiple0. 939995R Square0.88359Adjusted0, 87583標準誤差38. 92691觀測管17方差分析dfssKSFmi回歸分析1172525.2172525. 2113. 85522殘差1522729. 561515. 304總計16195254.8Coefficien-標準誤差t StatP-/alueL口Intercept -70* 712718* 30702-3. 86260. 001534*-10. 0018290. 00017110l 6702912,11E-0810.由回歸統(tǒng)計中的R=0.88359看出,

14、所建立的回歸模型對樣本觀測值的擬合程度較好;估計出的樣本回歸函數(shù)為:?=-70.7127+0.001829x4,說明GDP每增加1億元,轎車生產(chǎn)量增加18.29輛;由上表中a和B?的p值分別是0.001534和2.11E-08,顯然a和B?的p 值均小于顯著性水平a =0.05 ,拒絕原假設(shè)a=0、3=0,但由于B對兩者的影響更為 顯著,所以可以說明GDP對轎車生產(chǎn)量有較顯著影響。(5) 分析轎車生產(chǎn)量與城鎮(zhèn)居民人均可支配收入 x5之間的關(guān)系:首先,求的因變量轎車生產(chǎn)量y和自變量城鎮(zhèn)居民人均可支配收入 x5的相關(guān)系數(shù)r=0.917695,說明兩者間存在一定的線性相關(guān)關(guān)系且正相關(guān)程度較強。 y1

15、5y1x5a 9176951然后以轎車生產(chǎn)量為因變量y,城鎮(zhèn)居民人均可支配收入 x5為自變量進行元線性回歸分析,結(jié)果如下:SUMMARY OUTPUT回歸統(tǒng)計Multiple0. 917695R Square0. 342164Adjusted0.831641標準誤差45, 32719觀測值17方差分析dfSSUSF;nif回歸分析1164436. 5164436. 5 80. 035112.1殘差1530818. 312054, 554總計16195254.8Coefficien標準誤差t Stat PvalueLow(Intercept-92- 905423. 8703-3. 89209lo

16、. 0014441-140.0329280.0036818. 946234 2.12E-070.0由回歸統(tǒng)計中的R=0.842164看出,所建立的回歸模型對樣本觀測值的擬由上表中a和B?的p值分別是0.001444和2.12E-07,顯然a和B?的p值均小于顯著性水平a =0.05 ,拒絕原假設(shè)a=0、3=0,但由于B對兩者的影響更為顯著,所以可以說明城鎮(zhèn)居民人均可支配收入對轎車生產(chǎn)量有顯著影響。案例三:子女身高與父母身高的回歸分析1、問題的提出早在 19 世紀后期,英國生物學(xué)家 Galton 通過觀察 1078 個家庭中父親、母 親身高的平均值x和其中一個成年兒子身高y,建立了關(guān)于父母身高與

17、子女身高 的線性方程: y=33.73+0.516x從方程可以看出, 子女身高有回歸平均的傾向。 那么, 時隔一百多年后的今 天,人類的物質(zhì)生活和精神生活都已發(fā)生巨大的變化, 父母身高與子女身高之間 將呈現(xiàn)出什么樣的關(guān)系呢?在現(xiàn)實生活中, 我們都知道父母身高對子女身高是有影響的, 但父親與母親 的影響分別有多大?他們對兒子和女兒的影響程度是否相同?能否用定量的形 式回答這個問題呢?如果可以利用回歸方法, 進一步揭示父親身高、 母親身高與 子女身高之間量化關(guān)系的秘密, 將有助于那些關(guān)注自己后代身高的年輕父母們進 行早期預(yù)測,同時也可為那些未婚青年男女在選擇理想配偶時提供科學(xué)的參考依 據(jù)。2、數(shù)據(jù)

18、的收集為了問題的研究, 我們要求所調(diào)查的家庭滿足下列條件: (1)家庭中有一個 或多個子女( 2)家庭成員身體健康,發(fā)育正常,無先天性和遺傳性疾病,無殘 疾(3)子女的年齡均在 23 歲(含 23 歲)以上??紤]到調(diào)查范圍的廣泛性,我 們隨機抽取了機關(guān)干部、職員、工人、農(nóng)民、城市居民、軍人、大學(xué)生家庭,并 特意選擇了一所全國招生的院校應(yīng)屆畢業(yè)生, 他們來自于全國各地, 家庭背景相 對復(fù)雜,這樣使得樣本更具代表性。在收回的 410 份(發(fā)放 460 份)調(diào)查表中,符合要求的有 290 個家庭,其 中,有兒子 405 人,有女兒 270 人。3、方法的確定根據(jù)所收集的數(shù)據(jù), 應(yīng)用二元回歸分析方法,

19、 研究父親身高、 母親身高與兒 子或女兒身高的關(guān)系。(1) 建立回歸方程設(shè) X1 為父親身高, X2 為母親身高, Y 為兒子或女兒身高。則父母身高與子女身高的回歸模型為: 丫=刃+ B1X1+儀X2+ &根據(jù)樣本數(shù)據(jù)建立估計二元回歸方程:y?=b0+b1x1+b2x2(2) 顯著性檢驗對回歸方程進行F檢驗,拒絕區(qū)域為F > F a , n-3);對回歸系數(shù)進行t檢 驗,拒絕區(qū)域為t> t o/2(n-3)。(3) 預(yù)測若某一家庭父親和母親身高分別為 x10和x20,則子女身高的點估計為:y?=b0+b1x10+b2x20 區(qū)間估計方法已超出大綱要求,在此不要求。4、結(jié)果分

20、析(1) 父母身高對兒子身高的影響y?=53.640+0.368x1+0.349x2 顯著性檢驗:在a=0.01 的顯著水平下, F=62.714 > F a (2,400)=4.68t1=7.85 > t a/2(400)=2.689t2=6.71 > t a/2(400)=2.689結(jié)果說明回歸方程顯著, 兩個偏回歸系數(shù)顯著。 因此, 所建立回歸方程是有 意義的,即父母身高與兒子身高有顯著的線性關(guān)系(2) 父母身高對女兒身高的影響y?=47.140+0.249x1+0.455x2 顯著性檢驗:在 a=0.01 的顯著水平下,F(xiàn)=46.81> F 2,300)=4.68t1=4.92 > t 2(300)=2.68t2=7.61 > t 2(300)=2.689結(jié)果說明回歸方程顯著,回歸系數(shù)顯著,故所建立回歸方程有效,即女兒身

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論