第4章-回歸與相關(guān)分析[114頁]課件_第1頁
第4章-回歸與相關(guān)分析[114頁]課件_第2頁
第4章-回歸與相關(guān)分析[114頁]課件_第3頁
第4章-回歸與相關(guān)分析[114頁]課件_第4頁
第4章-回歸與相關(guān)分析[114頁]課件_第5頁
已閱讀5頁,還剩109頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第四章 回歸與相關(guān)分析 客觀事物在發(fā)展過程中是相互聯(lián)系、相互影響,常常要研究兩個或兩個以上變量間的關(guān)系。 第一節(jié) 回歸與相關(guān)的概念一類是完全確定性的關(guān)系,又稱函數(shù)關(guān)系,可以用精確的數(shù)學(xué)表達(dá)式來表示,即當(dāng)變量x的值取定后,變量y有唯一確定的值與之對應(yīng)。 如長方形的面積(S) 與 長(a)和寬(b)的關(guān)系: S=ab。它們之間的關(guān)系是確定性的,只要知道了其中兩個變量的值就可以精確地計算出另一個變量的值,這類變量間的關(guān)系稱為函數(shù)關(guān)系。各種變量間的關(guān)系大致可分為兩類:確定性關(guān)系非確定性關(guān)系 如人的身高與體重的關(guān)系,作物種植密度與產(chǎn)量的關(guān)系,食品價格與需求量的關(guān)系等等,這些變量間都存在著十分密切的關(guān)系,

2、但不能由一個或幾個變量的值精確地求出另一個變量的值。統(tǒng)計學(xué)中把這些變量間的關(guān)系稱為相關(guān)關(guān)系,把存在相關(guān)關(guān)系的變量稱為相關(guān)變量。 另一類是 非確定性關(guān)系,不能用精確的數(shù)學(xué)公式來表示,當(dāng)變量x的值取定后,y有若干種可能取值。 在一定范圍內(nèi),對一個變量的任意數(shù)值(xi),雖然沒有另一個變量的確定數(shù)值yi與之對應(yīng),但是卻有一個特定yi的條件概率分布與之對應(yīng),這種變量的不確定關(guān)系,稱為相關(guān)關(guān)系。x=x1時y的分布x=x1時的E(y) 一種是因果關(guān)系,即一個變量的變化受另一個或幾個變量的影響。如食品干燥速率受原料含水率、干燥溫度、干燥方式等因素影響。子女的身高受父母身高的影響等; 另一種是平行關(guān)系,即兩個

3、以上變量之間共同受到另外因素的影響,如人的身高和體重之間的關(guān)系,兄弟身高之間的關(guān)系等都屬于平行關(guān)系。相關(guān)變量間的關(guān)系一般分為兩種: 研究“一因一果”,即一個自變量與一個依變量的回歸分析稱為一元回歸分析; 研究“多因一果”,即多個自變量與一個依變量的回歸分析稱為多元回歸分析。 一元回歸分析又分為直線回歸分析與曲線回歸分析兩種;多元回歸分析又分為多元線性回歸分析與多元非線性回歸分析兩種。 統(tǒng)計學(xué)上采用回歸分析 (regression analysis)方法研究呈因果關(guān)系的相關(guān)變量間的關(guān)系。表示原因的變量稱為自變量,表示結(jié)果的變量稱為依變量。一、回歸分析回歸分析的任務(wù)就是揭示出呈因果關(guān)系的相關(guān)變量間

4、的聯(lián)系形式,建立它們之間的回歸方程,利用所建立的回歸方程,由自變量(原因)來預(yù)測、控制依變量(結(jié)果)?;貧w分析主要包括:找出回歸方程;檢驗回歸方程是否顯著;通過回歸方程來預(yù)測或控制另一變量。 對多個變量進(jìn)行相關(guān)分析時,研究一個變量與多個變量間的線性相關(guān)稱為復(fù)相關(guān)分析;研究其余變量保持不變的情況下兩個變量間的線性相關(guān)稱為偏相關(guān)分析。統(tǒng)計學(xué)上采用相關(guān)分析 (correlation analysis)來研究呈平行關(guān)系相關(guān)變量之間的關(guān)系。 對兩個變量間的直線關(guān)系進(jìn)行相關(guān)分析稱為簡單相關(guān)分析(也叫直線相關(guān)分析);二、相關(guān)分析圖4-1 變量間的關(guān)系示意圖三、回歸與相關(guān)的關(guān)系(一) 相關(guān)分析與回歸分析的聯(lián)系

5、 相關(guān)分析是回歸分析的基礎(chǔ)和前提,回歸分析則是相關(guān)分析的深入和繼續(xù)。相關(guān)分析需要依靠回歸分析來表現(xiàn)變量之間數(shù)量相關(guān)的具體形式,而回歸分析則需要依靠相關(guān)分析來表現(xiàn)變量之間數(shù)量變化的相關(guān)程度。只有當(dāng)變量之間存在高度相關(guān)時,進(jìn)行回歸分析尋求其相關(guān)的具體形式才有意義。如果在沒有對變量之間是否相關(guān)以及相關(guān)方向和程度做出正確判斷之前,就進(jìn)行回歸分析,很容易造成“虛假回歸”。與此同時,相關(guān)分析只研究變量之間相關(guān)的方向和程度,不能推斷變量之間相互關(guān)系的具體形式,也無法從一個變量的變化來推測另一個變量的變化情況,因此,在具體應(yīng)用過程中,只有把相關(guān)分析和回歸分析結(jié)合起來才能達(dá)到研究和分析的目的。2. 相關(guān)分析與回

6、歸分析的區(qū)別 (1) 相關(guān)分析中涉及的變量不存在自變量和因變量的劃分問題,變量之間的關(guān)系是對等的;而在回歸分析中,則必須根據(jù)研究對象的性質(zhì)和研究分析的目的,對變量進(jìn)行自變量和因變量的劃分。因此,在回歸分析中,變量之間的關(guān)系是不對等的。 (2) 在相關(guān)分析中所有的變量都必須是隨機(jī)變量;而在回歸分析中,自變量是確定的,因變量才是隨機(jī)的,即將自變量的給定值代入回歸方程后,所得到的因變量的估計值不是唯一確定的,而會表現(xiàn)出一定的隨機(jī)波動性。 (3) 相關(guān)分析主要是通過一個指標(biāo)(統(tǒng)計量)即相關(guān)系數(shù)來反映變量之間相關(guān)程度的大小,由于變量之間是對等的,因此相關(guān)系數(shù)是唯一確定的。而在回歸分析中,對于互為因果的兩

7、個變量 (如人的身高與體重),則有可能存在多個回歸方程。需要指出的是,變量之間是否存在“真實相關(guān)”,是由變量之間的內(nèi)在聯(lián)系所決定的。相關(guān)分析和回歸分析只是定量分析的手段,通過相關(guān)分析和回歸分析,雖然可以從數(shù)量上反映變量之間的聯(lián)系形式及其密切程度,但是無法準(zhǔn)確判斷變量之間內(nèi)在聯(lián)系的存在與否,也無法判斷變量之間的因果關(guān)系。因此,在具體應(yīng)用過程中,一定要注意把定性分析和定量分析結(jié)合起來,在定性分析的基礎(chǔ)上開展定量分析。表4-1為直線相關(guān)與直線回歸的比較。區(qū)別直線相關(guān)直線回歸變量地位變量x變量y處于平等的地位,彼此相關(guān)關(guān)系變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預(yù)測因變量的變化變量性質(zhì)所

8、涉及的變量x和y都是隨機(jī)變量,要求兩個變量都服從正態(tài)分布因變量y是隨機(jī)變量,自變量x可以是隨機(jī)變量,也可以是非隨機(jī)的確定變量實際作用主要是描述兩個變量之間線性關(guān)系的密切程度(相關(guān)系數(shù)無單位)揭示變量x對變量y的影響大小(回歸系數(shù)有單位),還可以由回歸方程進(jìn)行預(yù)測和控制表4-1 直線相關(guān)與直線回歸第二節(jié) 一元線性回歸 一、一元線性回歸數(shù)學(xué)模型 對于兩個相關(guān)變量,一個變量用x表示,另一個變量用y表示,如果通過試驗或調(diào)查獲得兩個變量的n對觀測值:(x1,y1),(x2,y2),(xn,yn)。 (i=1,2, , n) 若呈因果關(guān)系的兩個相關(guān)變量y(依變量)與x(自變量)間的關(guān)系是直線關(guān)系,那么,由

9、于依變量y的實際觀測值總是帶有隨機(jī)誤差,因而依變量y的實際觀測值yi可用自變量x的實際觀測值xi表示為: 式中: 、 為未知參數(shù), i為相互獨立,且服從N(0, )的隨機(jī)變量。這就是一元線性回歸數(shù)學(xué)模型。 總體線性回歸模型的圖示YX觀察值觀察值總體線性回歸模型因變量自變量參數(shù)隨機(jī)誤差y條件平均數(shù)設(shè)回歸直線方程為:二、 參數(shù)、的估計其中, 是的估計值,b是的估計值。最小二乘估計法一元線性回歸分析就是根據(jù)樣本觀測數(shù)據(jù)資料對未知參數(shù)、進(jìn)行估計。,建立 樣本線性回歸方程的方法最小二乘法實際觀察值與樣本回歸線上的點的距離的平方和最小xy e1e2e3e4最小 、b應(yīng)使回歸估計值 與實際觀測值y的偏差平方

10、和最小,即:總的離回歸平方和,即剩余平方和 根據(jù)微積分學(xué)中的求極值的方法,令 Q對a、b的一階偏導(dǎo)數(shù)等于0,即:最小 經(jīng)整理,得關(guān)于a、b的正規(guī)方程組: 解正規(guī)方程組,得: 其中,分子為自變量x的離均差與依變量y的離均差的乘積和 ,簡稱乘積和,記作 ,分母是自變量x的離均差平方和,記作SSx。 所以 a為回歸截距(regression intercept),是回歸直線與y軸交點的縱坐標(biāo),當(dāng)x=0時, ; b為回歸系數(shù)(regression coefficient),表示x變化一個單位,y平均變化的數(shù)量;b的符號反映了x影響y的性質(zhì),b的絕對值大小反映了x 影響y的程度; 為回歸估計值,是當(dāng)x在

11、其研究范圍內(nèi)取某一個值時,y值平均數(shù) 的估計值。 如果x和y變量間并不存在直線關(guān)系, 但由n對觀測值(xi,yi)也可以根據(jù)上面介紹的方法求得一個回歸方程 。 顯然,這樣的回歸方程所反應(yīng)的兩個變量間的直線關(guān)系是不真實的。 由樣本數(shù)據(jù)建立了變量y與x之間的回歸關(guān)系,但并不能說明兩個變量關(guān)系密切。那么如何判斷所配置的回歸方程有意義的,需要進(jìn)行回歸方程的顯著性檢驗。如果y與x之間沒有線性關(guān)系,那么回歸模型中的=0,所以回歸方程顯著性檢驗就是檢驗是否等于0 。要檢驗假設(shè)H0:=0 是否成立,可采用F檢驗法,也可采用t檢驗法。 三、回歸方程的顯著性檢驗圖4-2 的分解圖1. 平方和與自由度的分解y總變異

12、的分解 由于所以于是由圖4-2可以看出:則有所以有反映了y的總變異程度,稱為y的總偏差平方和,記為SSy;反映了由于y與x間存在直線關(guān)系所引起的y的變異程度,稱為回歸平方和,記為SSR; 反映了除y與x存在直線關(guān)系以外的一切因素(包括x對y的非線性影響及其他一切未加控制的隨機(jī)因素)所引起的y的變異程度,稱為離回歸平方和或剩余平方和,記為SSr或SSe。 所以,y的總變異平方和可分解為: 表明y的總平方和可剖分為 回歸平方和 與離回歸平方和兩部分。與此相對應(yīng),y的總自由度dfy也可分解為回歸自由度dfr與離回歸自由度dfr兩部分,即 在直線回歸分析中,回歸自由度等于自變量的個數(shù),即 ;y的總自由

13、度 ;離回歸自由度 。所以離回歸均方 回歸均方 x與y兩個變量間是否存在直線關(guān)系,可用F檢驗法進(jìn)行檢驗。 無效假設(shè)HO:=0,備擇假設(shè)HA:0。 在無效假設(shè)成立的條件下,回歸均方與離回歸均方的比值服從 和 的F分布,所以,可以用下式來檢驗回歸方程的顯著性。2. 回歸方程的顯著性檢驗F檢驗df1=1,df2=n-2回歸平方和的計算:所以,離回歸平方和的計算公式為:回歸方程顯著性檢驗結(jié)果見表4-2。表4-2 直線回歸方程顯著性檢驗方差分析表對于給定的顯著水平,查F分布表得 ,如果 ,則F檢驗不顯著,回歸方程沒有意義,變量x與y沒有明顯的線性關(guān)系。若 ,則F檢驗顯著,說明x與y有顯著的線性關(guān)系,所建

14、回歸方程有意義。 若回歸方程檢驗不顯著時有以下幾種可能:影響y的因素除x外,可能還有其他不可忽略的因素;x與y之間不是直線關(guān)系,有可能是曲線關(guān)系;x與y根本無任何關(guān)系。 應(yīng)該指出,上述用剩余平方和去檢驗回歸平方和所作出的“回歸方程顯著”這一判斷,只是表明相對其他因素及試驗誤差來說,因素x的一次項對指標(biāo)y的影響是主要的,但并不能說明影響y的因素除x外,是否還有一個或幾個不可忽視的其他因素,以及x和y的關(guān)系確是線性關(guān)系,也就是說,在上述意義下“回歸方程顯著”并不表明這個回歸方程是擬合得很好。3. 回歸系數(shù)的顯著性檢驗t檢驗采用回歸系數(shù)的顯著性檢驗t檢驗也可檢驗x與y間是否存在直線關(guān)系?;貧w系數(shù)顯著

15、性檢驗時,原假設(shè) 備擇假設(shè) 。 在原假設(shè) 成立的條件下,t的計算公式為 其中,Sb為回歸系數(shù)標(biāo)準(zhǔn)誤,Syx反映回歸估測值 與實測值y的偏離程度。t與臨界值ta(n-2)比較,以判斷顯著性。例4-1 某食品干制加工試驗中,10批物料平均含水率x/%與干燥初速度y/(kg/h)的測定結(jié)果見表4-3,試建立干燥初速度y對平均含水率x的回歸關(guān)系。四、一元線性回歸分析實例表4-3 物料平均含水率與干燥初速度的試驗結(jié)果 平均含水率x/%3.604.054.274.584.604.855.235.405.585.90干燥初速度y/ (kg/h)5.255.435.646.155.856.136.386.60

16、6.716.891. 作散點圖 以物料平均含水率x為橫坐標(biāo),干燥速度y為縱坐標(biāo)作散點圖,如圖4-3所示。可以看出,物料平均含水率x與干燥初速度y之間存在直線關(guān)系,所以有必要建立其線性回歸關(guān)系。 圖4-3 物料平均含水率x與干燥初速度y的關(guān)系散點圖2. 計算回歸截距a,回歸系數(shù)b,建立直線回歸方程根據(jù)實際觀測值計算:所以,y對x的直線回歸方程為:然后計算出b、a:3. 回歸方程的顯著性檢驗F檢驗由SSx、SPxy、SSy,計算回歸平方和SSR和剩余平方和SSrdfy=n-1=10-1=9,dfR=1,dfr=10-2=8構(gòu)造F統(tǒng)計量,計算F統(tǒng)計量值 列方差分析表進(jìn)行回歸關(guān)系顯著性檢驗變異來源自由

17、度平方和均方F顯著性回歸12.6932.693269.3*剩余80.0800.010總和92.773表4-4 方差分析表查F表可得 ,因為 表明y與x之間具有高度顯著線性關(guān)系,回歸直線方程有效。物料干燥初速度y與平均含水率x之間的關(guān)系可以用 來描述。 4. 回歸系數(shù)的顯著性檢驗t檢驗由資料計算得構(gòu)造t統(tǒng)計量,計算 當(dāng) ,查t值表,得 因 ,P0.01 , 否定HO:0,接受HA:0,表明直線回歸系數(shù)b=0.754是極顯著的,回歸直線方程有意義,可用所建立的直線回歸方程來進(jìn)行 預(yù)測和控制。 最后需要指出的是,一元線性回歸分析中,回歸方程的顯著性檢驗(F檢驗)和回歸系數(shù)的顯著性檢驗(t檢驗)效果一

18、致,在實際應(yīng)用時選擇一種即可。但多元回歸分析中,應(yīng)分別進(jìn)行回歸方程的顯著性檢驗和回歸系數(shù)的顯著性檢驗。以上計算也可在回歸計算表中進(jìn)行。序號kxkykxk2xkykyk213.60 5.25 12.96 18.90 27.56 24.05 5.43 16.40 21.99 29.48 34.27 5.64 18.23 24.08 31.81 44.58 6.15 20.98 28.17 37.82 54.60 5.85 21.16 26.91 34.22 64.85 6.13 23.52 29.73 37.58 75.23 6.38 27.35 33.37 40.70 85.40 6.60 29

19、.16 35.64 43.56 95.58 6.71 31.14 37.44 45.02 105.90 6.89 34.81 40.65 47.47 48.0661.03235.7136296.882375.2395回歸方程計算表1(一級數(shù)據(jù))xk=48.06yk=61.03n=10 =4.806=6.103xk2=235.714xk yk=296.882yk2=375.240(xk)2/n=230.976(xk)(yk)/n=293.310(yk)2/n=372.466SSx=4.738SPxy=3.572SSy=2.774b= SPxy/SSx0.754 a=y-bx6.103-0.754

20、4.806=2.479 y=2.479+0.754x回歸方程計算表2(二級數(shù)據(jù)) 特別要指出的是:利用直線回歸方程進(jìn)行預(yù)測或控制時,一般只適用于原來研究的范圍,不能隨意把范圍擴(kuò)大,因為在研究的范圍內(nèi)兩變量是直線關(guān)系,這并不能保證在這研究范圍之外仍然是直線關(guān)系。若需要擴(kuò)大預(yù)測和控制范圍,則要有充分的理論依據(jù)或進(jìn)一步的實驗依據(jù)。利用直線回歸方程進(jìn)行預(yù)測或控制 , 一 般只能內(nèi)插,不要輕易外延。Excel數(shù)據(jù)分析庫-回歸分析Excel回歸分析結(jié)果復(fù)相關(guān)系數(shù)R決定系數(shù)R2校正決定系數(shù)回歸方程顯著性檢驗回歸系數(shù)顯著項檢驗y=13.958+1.255x,方程顯著。五、可直線化的曲線回歸 曲線回歸分析:是通

21、過兩個相關(guān)變量x與y的實際觀測數(shù)據(jù)建立曲線回歸方程,以揭示x與y間的曲線聯(lián)系的形式。 曲線回歸分析最困難和首要的工作是確定變量y與x間的曲線關(guān)系的類型。通常通過兩個途徑來確定: 1、利用有關(guān)的專業(yè)知識,根據(jù)已知的理論規(guī)律和實踐經(jīng)驗。 2、在沒有已知的理論規(guī)律和經(jīng)驗可資利用時,則可用描點法將實測點在直角坐標(biāo)紙上描出,觀察實測點的分布趨勢與哪一類已知的函數(shù)曲線最接近,然后再選用該函數(shù)關(guān)系式來擬合實測點。可線性化的曲線函數(shù)類型(1) 雙曲線型方法:變量替換(2) 指數(shù)曲線型令v=lny,得到:指數(shù)曲線型令y=lny,x1/x,得到:(3) 冪函數(shù)型v=lny,u=lnx,得到:4. 對數(shù)曲線型令u=

22、lgx,得到:(5) S曲線型令:得到:Excel繪制散點圖根據(jù)散點圖選擇合適的模型!Excel非線性回歸分析結(jié)果第三節(jié) 直線相關(guān)分析 在前面討論的事例中,x和y有自變量和因變量之分,或具有由x決定y的性質(zhì)。但是也有不少的變數(shù)資料,其散點圖呈現(xiàn)明顯的線性關(guān)系,卻并不能區(qū)別出自變量和因變量。例如大豆蛋白質(zhì)含量與脂肪含量的測定結(jié)果呈負(fù)相關(guān),但既不能認(rèn)為蛋白質(zhì)含量決定脂肪含量,又不能認(rèn)為脂肪含量決定蛋白質(zhì)含量。在這種情況下,求取回歸方程并不是恰當(dāng)?shù)?,而需確定一個不因自變量和因變量區(qū)分而變化的統(tǒng)計量即相關(guān)系數(shù)(coefficient of correlation)。 直線相關(guān)分析的基本任務(wù)在于根據(jù)x、

23、y的實際觀測值,計算表示兩個相關(guān)變量x、y間線性相關(guān)程度和性質(zhì)的統(tǒng)計量相關(guān)系數(shù)r,并進(jìn)行顯著性檢驗。一、決定系數(shù)和相關(guān)系數(shù) 直線回歸分析中: 由這個等式不難看出,y與x直線回歸效果的好壞取決于回歸平方和 與離回歸平方和 的大小,或者說取決于回歸平方和在y的總平方和 中所占的比例的大小。這個比例越大,y與x的直線回歸效果就越好,反之則差。 我們把比值 叫 做 x 對 y 的決定系數(shù)( determination coefficient ),記為 r2,即 決定系數(shù)的大小表示了回歸方程估測可靠程度的高低,或者說表示了回歸直線擬合度的高低,或者表示x對y的變異影響大小。顯然有0r21。如r20.81

24、,表明SSR占SSy的81,也就是說,x決定了y變異的81,決定作用強(qiáng)。 SPxy/SSx是以x為自變量、y為依變量時的回歸系數(shù)byx。 若把y作為自變量、x作為依變量 ,則回歸系數(shù) bxy =SPxy/SSy ,所以決定系數(shù)r2等于y對x的回歸系數(shù)與 x對y的回歸系數(shù)的乘積。這就是說,決定系數(shù)反應(yīng)了x為自變量、y為依變量和y為自變量、x為依變量時兩個相關(guān)變量x與y直線相關(guān)的信息 ,即決定系數(shù)表示了 兩個互為因果關(guān)系的相關(guān)變量間直線相關(guān)的程度。但決定系數(shù)介于0和1之間,不能反應(yīng)直線關(guān)系的性質(zhì)是同向增減或是異向增減。 相關(guān)系數(shù)可表示y與x的直線相關(guān)的密切程度,也可表示直線相關(guān)的性質(zhì),記為r,即r

25、 = 0(h)r 0(f)r-1(d)r1(b)0r1(a)-1r0時,表示兩個變量正相關(guān);(2) r 0時,表示兩個變量為負(fù)相關(guān);(3)當(dāng)| r |=1時,表示兩個變量為完全線性相關(guān);(4)當(dāng)r =0時,表示兩個變量間無線性相關(guān)關(guān)系;(5)當(dāng)0| r |1時,表示兩個變量存在一定程度的線性相關(guān),且| r |越接近1,兩個變量間線性關(guān)系越密切;(6)|r|越接近于0,表示兩個變量的線性相關(guān)程度越弱。二、相關(guān)系數(shù)的計算例4-2 操作壓力與水果出汁率的關(guān)系測定結(jié)果見表4-5,計算二者的相關(guān)系數(shù)。批次12345678910操作壓力/kg68707071717173747676水果出汁率/%50606

26、865697271737577表4-5 操作壓力與水果出汁率的數(shù)據(jù)資料x偏差平方和y偏差平方和x、y離差積和根據(jù)表4-5所列數(shù)據(jù)計算:操作壓力與果實出汁率的相關(guān)系數(shù)為0.8475。所以, 由實際觀測值計算的相關(guān)系數(shù)r是樣本相關(guān)系數(shù), 它是雙變量正態(tài)總體中的總體相關(guān)系數(shù)的估計值。樣本相關(guān)系數(shù)r是否來自0的總體,也需對樣本相關(guān)系數(shù)r 進(jìn)行顯著性檢驗。 此時無 效假設(shè)、備擇假設(shè)為H0:=0,HA:0。與直線回歸關(guān)系顯著性檢驗一樣,可采用t檢驗法與F檢驗法對相關(guān)系數(shù)r的顯著性進(jìn)行檢驗。 三、相關(guān)系數(shù)的顯著性檢驗 其中 為相關(guān)系數(shù)標(biāo)準(zhǔn)誤。df1=1,df2=n-2df=n-2t檢驗:F檢驗: 為了方便應(yīng)

27、用,統(tǒng)計學(xué)家已根據(jù)相關(guān)系數(shù)r顯著性t檢驗法計算出了臨界r值并列出了表格。 所以可以直接采用查表法對相關(guān)系數(shù)r進(jìn)行顯著性檢驗。 具體作法是: 先根據(jù) 自由度 n-2 查臨界 r 值 (附表9 ),得 , 。 若|r| ,P0.05,則相關(guān)系數(shù)r不顯著,在r的右上方標(biāo)記“ns”;若 |r| ,0.01P0.05,則相關(guān)系數(shù) r 顯著,在r的右上方標(biāo)記“*”;若|r| , P 0.01, 則相關(guān) 系 數(shù) r 極顯著,在 r 的右上方標(biāo)記“*”。 而實際計算的r = 0.8475 ,P0.01,表明操作壓力與果實出汁率的相關(guān)系數(shù)極顯著,兩個變量高度相關(guān)。 對于【例4-2】,df =n-2=10-2=8

28、,查附表9得: 直線回歸和相關(guān)分析由于方法簡單、結(jié)果直觀,在科學(xué)研究中得到了廣泛的應(yīng)用,是普及和應(yīng)用最廣的統(tǒng)計方法之一。但雖然簡單,實踐中也出現(xiàn)了不少的誤用,或者對結(jié)果的不恰當(dāng)?shù)慕忉屌c推斷。為了正確應(yīng)用這一工具,必須注意以下幾點: 第四節(jié) 應(yīng)用直線回歸與相關(guān)的注意事項(1)回歸和相關(guān)分析要有學(xué)科專業(yè)知識作指導(dǎo)。變量間是否存在相關(guān)以及在什么條件下會發(fā)生什么相關(guān)等問題,都必須由各具體學(xué)科本身來決定。客觀規(guī)律要由各具體學(xué)科根據(jù)自己的理論和實踐去發(fā)現(xiàn),回歸和相關(guān)分析只是作為一種工具,幫助完成有關(guān)的認(rèn)識和解釋。如果不以一定的科學(xué)依據(jù)為前提,把風(fēng)馬牛不相及的資料隨意地湊到一起作回歸或相關(guān)分析,那是根本性的

29、錯誤。 (2)要嚴(yán)格控制研究對象(x和y)以外的有關(guān)因素,即要在x和y的變化過程中盡量使其它因素保持穩(wěn)定一致。由于自然界各種事物間的相互聯(lián)系和相互制約,一事物的變化通常都會受到許多其他事物的影響。因此,如果僅研究該事物(y)和另一事物(x)的關(guān)系,則要求其余事物的均勻性必須得到盡可能嚴(yán)格的控制。否則,回歸和相關(guān)分析有可能導(dǎo)致完全虛假的結(jié)果。例如研究種植密度和產(chǎn)量的關(guān)系,由于品種、播期、肥水條件等的不同也影響產(chǎn)量,所以這些條件必須盡可能地控制一致,才能比較真實地反映出密度和產(chǎn)量的關(guān)系。 (3)直線回歸和相關(guān)分析結(jié)果不顯著,并不意味著x和y沒有關(guān)系,而只說明x和y沒有顯著的線性關(guān)系,但并不能排除兩

30、變量間存在曲線關(guān)系的可能性。(4)一個顯著的r或b并不代表x和y的關(guān)系就一定是線性的,因為它并不排斥能夠更好地描述x和y的各種曲線的存在。一般地說,如x和y的真實關(guān)系是拋物線、雙曲線或指數(shù)曲線等,當(dāng)僅僅觀察(x,y)的某一區(qū)間時,完全有可能給出一個極顯著的線性關(guān)系。對這一問題的正確認(rèn)識更有賴于專業(yè)知識的支持。(5)雖然顯著的線性相關(guān)和回歸并不意味著x和y的真實關(guān)系就是線性,但在農(nóng)學(xué)和生物學(xué)研究中要發(fā)現(xiàn)x和y的真實曲線關(guān)系又是相當(dāng)困難的。因此,在x和y的一定區(qū)間內(nèi),用線性關(guān)系作近似描述是允許的,它的精確度至少要比僅用描述y變量有顯著提高。但是,研究結(jié)果的適用范圍應(yīng)加以限制,一般應(yīng)以觀察區(qū)間為準(zhǔn)。

31、外推到這一區(qū)間之外是危險的,因為該區(qū)間外的x和y的關(guān)系是否仍為線性,試驗未給出任何信息。(6)一個顯著的相關(guān)或回歸并不一定具有實踐上的預(yù)測意義。例如當(dāng)n50時,|r|=0.273檢驗顯著,但這表明x和y可用線性關(guān)系說明的部分僅占總變異的7.4%,未被說明的部分高達(dá)92.6%,顯然由x預(yù)測y并不可靠。一般而言,當(dāng)需要由x預(yù)測y時,|r|必須在0.7以上,此時y的變異將有49%以上可以為x的變異說明。(7)為了提高回歸和相關(guān)分析的準(zhǔn)確性,兩個變量的樣本容量n(觀察值對數(shù))要盡可能大一些,至少應(yīng)有5對以上。同時,x變量的取值范圍也應(yīng)盡可能寬些,這樣一方面可降低回歸方程的誤差,另一方面也能及時發(fā)現(xiàn)x和

32、y間可能存在的曲線關(guān)系。第五節(jié) 多元線性回歸分析(選學(xué)內(nèi)容)一元線性回歸是對客觀現(xiàn)象進(jìn)行高度簡化的結(jié)果。在實際問題中,一個變量往往受許多因素(或變量)的影響,要研究它們之間的關(guān)系就是多元回歸問題(multiple regression)。而其中最為簡單、常用的是多元線性回歸分析(multiple linear regression analysis),許多非線性回歸(non-linear regression)和多項式回歸(polynomial regression)都可以轉(zhuǎn)化為多元線性回歸來解決,多元線性回歸分析有著廣泛的應(yīng)用。 多元線性回歸分析的基本任務(wù):根據(jù)依變量與多個自變量的實際觀測值

33、建立依變量對多個自變量的多元線性回歸方程;檢驗、分析各個自變量對依自變量的綜合線性影響的顯著性;檢驗、分析各個自變量對依變量的單純線性影響的顯著性,選擇僅對依變量有顯著線性影響的自變量,建立最優(yōu)多元線性回歸方程;評定各個自變量對依變量影響的相對重要性以及測定最優(yōu)多元線性回歸方程的偏離度等。 設(shè)因變量 y 與 m 個自變量 x1, x2, , xm 共有 n 組實際觀測數(shù)據(jù),數(shù)據(jù)模式見表4-6。 表4-6 因變量y與m個自變量x1、x2、xm對應(yīng)的n組觀測數(shù)據(jù) 一、多元線性回歸方程的建立試驗號 假定依變量y與自變量x1、x2、xm間存在線性關(guān)系,那么式中,x1、x2、xm為可以觀測的一般變量(可

34、以觀測的隨機(jī)變量);y為可以觀測的隨機(jī)變量,隨x1、x2、xm而變,受試驗誤差影響; 為相互獨立且都服從 的隨機(jī)變量。上式就是多元線性回歸的數(shù)學(xué)模型。若假設(shè)y對x1、x2、xm的m元線性回歸方程為: 式中 b0、b1、b2、bm為 的最小二乘估計值。即要求b0、b1、b2、bm應(yīng)使實際觀測值y與回歸估計值 的偏差平方和最小。即 最小。是關(guān)于b0、b1、b2、bm的m+1元非負(fù)二次函數(shù),存在最小值。根據(jù)微分學(xué)中復(fù)合函數(shù)求極值的方法,要使Q最小,則應(yīng)使即 稱為正規(guī)方程組, 對正規(guī)方程組求解,獲得b0, ,bj. 經(jīng)整理可得到關(guān)于偏回歸系數(shù)b1、b2、bm的正規(guī)方程組(normal equation

35、s)為:若記解此正規(guī)方程組即可得偏回歸系數(shù)b1、b2、bm的解。 附:可直接由原始觀測值的結(jié)構(gòu)矩陣出發(fā)來解正規(guī)方程組正規(guī)方程組如果令A(yù)為正規(guī)方程組的系數(shù)矩陣,即 :(m+1) (m+1)方陣 (m+1) nn (m+1)為X的轉(zhuǎn)置陣(p+1) NN 1令B為正規(guī)方程組右端的常數(shù)項矩陣,即:令 則正規(guī)方程組對上式求解,得: 可以寫成矩陣形式:例欲建立的二元線性回歸方程為: 試建立x1 、 x2與y之間的二元線性回歸方程。 表6-2 試驗數(shù)據(jù)序號x1x2y116291392163215031432133412391425182614361437160716311478143816191440169

36、101628134常數(shù)項矩陣y 矩陣結(jié)構(gòu)矩陣結(jié)構(gòu)矩陣y 矩陣常數(shù)項矩陣對 求解得:A-1 是方程系數(shù)矩陣的逆矩陣, 稱相關(guān)矩陣。自變量x1、x2與因變量y之間的二元線性回歸方程為 二、 多元線性回歸方程的顯著性檢驗 與一元線性回歸分析一樣,將因變量y的總平方和SSy分解為回歸平方和SSR與剩余平方和SSr兩部分 (一) 回歸方程的顯著性檢驗 建立了多元線性回歸方程后,還必須對因變量與多個自變量間的線性關(guān)系假設(shè)進(jìn)行顯著性檢驗,也就是進(jìn)行多元線性回歸關(guān)系的顯著性檢驗,采用F檢驗法。1. 平方和與自由度的分解SSy = SSr + SSR反映了因變量y的總變異。 反映了由于依變量y與多個自變量x1、

37、x2、xm間存在線性關(guān)系所引起的變異,或者反映了多個自變量對依變量的綜合線性影響所引起的變異。 反映了除依變量與多個自變量間線性關(guān)系以外的其他因素(包括試驗誤差)所引起的變異。 平方和的計算自由度的分解2. 計算回歸均方與離回歸均方總自由度: dfy = n 1 回歸自由度: df回 = m 剩余自由度: df剩 = dfy - df回 = n 1 mm為回歸方程中自變量的個數(shù),n為實際觀測數(shù)據(jù)的組數(shù)。3. 構(gòu)造F統(tǒng)計量,進(jìn)行顯著性檢驗檢驗多元線性回歸關(guān)系是否顯著,實質(zhì)也就是檢驗各自變量的總體偏回歸系數(shù) 是否全部等于零。所以顯著性檢驗的無效假設(shè)為 ,備擇假設(shè) 不全為零。在H0成立條件下,有服從F分布,且df1=dfR,df2=dfr 由F統(tǒng)計量進(jìn)行F檢驗即可推斷多元線性回歸關(guān)系的顯著性。 這里特別要說明的是,上述顯著性檢驗實質(zhì)上是測定各自變量對因變量的綜合線性影響的顯著性,或者是測定因變量與各自變量的綜合線性關(guān)系的顯著性。如果經(jīng)過F檢驗,多元線性回歸關(guān)系或多元線性回歸方程是顯著的,但并不一定說明每一個自變量與依變量的線性關(guān)系都是顯著的,或者說每一個偏回歸系數(shù)不一定都是顯著的。在上述多元線性回歸關(guān)系顯著性檢驗中,無法區(qū)別全部自變量中,哪些是對依變量的線性影響是顯著的,哪些是不顯著的。因此,當(dāng)多元線性回歸關(guān)系經(jīng)檢驗為顯著時,還必須逐一對各偏回歸系數(shù)進(jìn)行顯著性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論