第六章相關(guān)與回歸分析_第1頁
第六章相關(guān)與回歸分析_第2頁
第六章相關(guān)與回歸分析_第3頁
第六章相關(guān)與回歸分析_第4頁
第六章相關(guān)與回歸分析_第5頁
已閱讀5頁,還剩160頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

STATISTICS統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué)原理統(tǒng)計(jì)學(xué)原理統(tǒng)計(jì)學(xué)原理第六章相關(guān)與回歸分析子代與父代一樣嗎?Galton被譽(yù)為現(xiàn)代回歸和相關(guān)技術(shù)的創(chuàng)始人。1875年,Galton利用豌豆實(shí)驗(yàn)來確定尺寸的遺傳規(guī)律。他挑選了7組不同尺寸的豌豆,并說服他在英國不同地區(qū)的朋友每一組種植10粒種子,最后把原始的豌豆種子(父代)與新長的豌豆種子(子代)進(jìn)行尺寸比較當(dāng)結(jié)果被繪制出來之后,他發(fā)現(xiàn)并非每一個(gè)子代都與父代一樣,不同的是,尺寸小的豌豆會(huì)得到更大的子代,而尺寸大的豌豆卻得到較小的子代。Galton把這一現(xiàn)象叫做“返祖”(趨向于祖先的某種平均類型),后來又稱之為“向平均回歸”。一個(gè)總體中在某一時(shí)期具有某一極端特征(低于或高于總體均值)的個(gè)體在未來的某一時(shí)期將減弱它的極端性(或者是單個(gè)個(gè)體或者是整個(gè)子代),這一趨勢現(xiàn)在被稱作“回歸效應(yīng)”。人們發(fā)現(xiàn)它的應(yīng)用很廣,而不僅限于從一代到下一代豌豆大小問題子代與父代一樣嗎?正如Galton進(jìn)一步發(fā)現(xiàn)的那樣,平均來說,非常矮小的父輩傾向于有偏高的子代;而非常高大的父輩則傾向于有偏矮的子代。在第一次考試中成績最差的那些學(xué)生在第二次考試中傾向于有更好的成績(比較接近所有學(xué)生的平均成績),而第一次考試中成績最好的那些學(xué)生在第二次考試中則傾向于有較差的成績(同樣比較接近所有學(xué)生的平均成績)。同樣,平均來說,第一年利潤最低的公司第二年不會(huì)最差,而第一年利潤最高的公司第二年則不會(huì)是最好的如果把父代和子代看作兩個(gè)變量,找出這兩個(gè)變量的關(guān)系,并根據(jù)這種關(guān)系建立適當(dāng)?shù)臄?shù)學(xué)模型,就可以根據(jù)父代的數(shù)值預(yù)測子代的取值,這就是經(jīng)典的回歸方法要解決的問題。學(xué)完本章的內(nèi)容你會(huì)對(duì)回歸問題有更深入的理解本章主要內(nèi)容一、變量間關(guān)系的分析與度量二、一元線性回歸模型的建立三、回歸直線的擬合優(yōu)度四、顯著性檢驗(yàn)五、利用回歸方程進(jìn)行估計(jì)和預(yù)測六、殘差分析一、變量間關(guān)系的分析與度量一、變量間關(guān)系的分析與度量1、變量間關(guān)系的兩種類型

————函數(shù)關(guān)系與相關(guān)關(guān)系2、相關(guān)關(guān)系的種類3、相關(guān)關(guān)系的描述與測度4、相關(guān)系數(shù)的顯著性檢驗(yàn)主要內(nèi)容1、變量間關(guān)系的兩種類型

————函數(shù)關(guān)系與相關(guān)關(guān)系1、變量間關(guān)系的兩種類型:函數(shù)關(guān)系與相關(guān)關(guān)系客觀現(xiàn)象總是普遍聯(lián)系、相互依存、相互制約的,當(dāng)我們用變量來反映這些現(xiàn)象的特征時(shí),便表現(xiàn)為變量之間的依存關(guān)系。變量之間就其關(guān)系的變化來說可分為:函數(shù)關(guān)系相關(guān)關(guān)系1、變量間關(guān)系的兩種類型:函數(shù)關(guān)系與相關(guān)關(guān)系函數(shù)關(guān)系是指現(xiàn)象之間存在的確定性的數(shù)量依存關(guān)系。在這種關(guān)系中,當(dāng)某一變量或某些變量取任意一個(gè)值時(shí),另一變量都會(huì)有一個(gè)確定值與之嚴(yán)格相對(duì)應(yīng),并且這種對(duì)應(yīng)關(guān)系可以用一個(gè)數(shù)學(xué)表達(dá)式來反映。函數(shù)關(guān)系是人們比較熟悉的。設(shè)有兩個(gè)變量x和y,當(dāng)x取其變化范圍中的每個(gè)特定的值時(shí),相應(yīng)地有唯一的y與它對(duì)應(yīng),則稱y是x的函數(shù)。記為y=f(x)等,其中x稱為自變量,y稱為因變量。實(shí)際上在數(shù)學(xué)領(lǐng)域,函數(shù)就是一種變換或映射關(guān)系,這種關(guān)系使一個(gè)集合里的每一個(gè)元素對(duì)應(yīng)到另一個(gè)集合里的唯一元素。1、變量間關(guān)系的兩種類型:函數(shù)關(guān)系與相關(guān)關(guān)系函數(shù)關(guān)系的幾個(gè)例子當(dāng)圓的半徑為r時(shí),圓的面積s與半徑r之間的數(shù)量關(guān)系為:s=πr2

,s與r值之間存在著嚴(yán)格的一一對(duì)應(yīng)關(guān)系,圓的面積隨半徑而變動(dòng),半徑一旦確定,圓的面積也隨之確定。某種商品的銷售額y與銷售量x之間的關(guān)系可表示為y=px(p為單價(jià))。企業(yè)的原材料消耗額y與產(chǎn)量x1、單位產(chǎn)品消耗x2、原材料價(jià)格x3之間的關(guān)系可表示為y=x1x2x3

1、變量間關(guān)系的兩種類型:函數(shù)關(guān)系與相關(guān)關(guān)系相關(guān)關(guān)系是指現(xiàn)象之間存在的非確定性的數(shù)量依存關(guān)系。即現(xiàn)象之間雖然存在著數(shù)量依存關(guān)系,一個(gè)現(xiàn)象發(fā)生數(shù)量上發(fā)生變化時(shí),另一個(gè)現(xiàn)象數(shù)量水平也會(huì)相應(yīng)地發(fā)生變化。但這種數(shù)量變化關(guān)系并不是嚴(yán)格一一對(duì)應(yīng)的,當(dāng)一個(gè)變量數(shù)值確定時(shí),另—個(gè)變量可能有許多個(gè)可能的取值與之相對(duì)應(yīng),這些數(shù)值圍繞著它們的平均數(shù)上下波動(dòng)。(舉例說明)1、變量間關(guān)系的兩種類型:函數(shù)關(guān)系與相關(guān)關(guān)系例如:商品價(jià)格與商品需求量之間存在著數(shù)量變動(dòng)關(guān)系,價(jià)格升高,需求量一般會(huì)減少。但在價(jià)格相同的情況下未必有相同的商品需求量,而是會(huì)有多個(gè)不同的數(shù)值。這是因?yàn)樯唐穬r(jià)格不是決定商品需求量的唯一因素,商品需求量還受消費(fèi)者收入狀況、消費(fèi)習(xí)慣、地區(qū)差異、替代品和互補(bǔ)品的價(jià)格變化、季節(jié)變化等眾多因素的影響。因此,商品價(jià)格與商品需求量之間的關(guān)系是相關(guān)關(guān)系。(回憶經(jīng)濟(jì)學(xué)中是如何分析商品需求量與商品價(jià)格之間的關(guān)系)1、變量間關(guān)系的兩種類型:函數(shù)關(guān)系與相關(guān)關(guān)系一般認(rèn)為,若變量y與變量x為相關(guān)關(guān)系,則y除受主要因素x的影響外,還受其他因素影響,由于這些因素對(duì)y的影響相比之下較小且具有隨機(jī)性,因此把它們看作隨機(jī)因素。相關(guān)關(guān)系的數(shù)學(xué)—般形式為:上式中的ε為隨機(jī)誤差項(xiàng),用于反映隨機(jī)因素對(duì)y的影響。相關(guān)與回歸分析正是描述與探索這類變量之間關(guān)系及其規(guī)律的統(tǒng)計(jì)方法。1、變量間關(guān)系的兩種類型:函數(shù)關(guān)系與相關(guān)關(guān)系相關(guān)關(guān)系的其它例子父母身高與子女身高之間的關(guān)系收入水平與受教育程度之間的關(guān)系糧食畝產(chǎn)量與施肥量、降雨量、溫度之間的關(guān)系商品的消費(fèi)量與居民收入之間的關(guān)系商品銷售額與廣告費(fèi)支出之間的關(guān)系1、變量間關(guān)系的兩種類型:函數(shù)關(guān)系與相關(guān)關(guān)系函數(shù)關(guān)系與相關(guān)關(guān)系有區(qū)別也有聯(lián)系,二者的聯(lián)系主要體現(xiàn)在以下兩個(gè)方面:一是對(duì)于具有函數(shù)關(guān)系的現(xiàn)象,在實(shí)際中由于觀察或測量誤差等原因,往往呈現(xiàn)出相關(guān)關(guān)系的特征;二是當(dāng)對(duì)現(xiàn)象之間的內(nèi)在聯(lián)系和規(guī)律性了解的更清楚深刻的情況下,相關(guān)關(guān)系也可能轉(zhuǎn)化為函數(shù)關(guān)系。因此,相關(guān)關(guān)系通??梢杂靡欢ǖ暮瘮?shù)關(guān)系表達(dá)式去近似地描述。1、變量間關(guān)系的兩種類型:函數(shù)關(guān)系與相關(guān)關(guān)系另外:在具有相互依存關(guān)系的兩個(gè)變量中,作為根據(jù)的變量叫自變量,發(fā)生對(duì)應(yīng)變化的變量叫因變量。當(dāng)變量之間存在前因后果的關(guān)系時(shí),自變量與因變量的確定較為容易。如前述的父母身高、家庭收入、企業(yè)投入是自變量,兒女身高、消費(fèi)支出、企業(yè)產(chǎn)出是因變量。當(dāng)變量之間互為因果時(shí),則要根據(jù)研究目的來確定哪個(gè)是自變量,哪個(gè)是因變量,如商品需求量與商品價(jià)格水平之間就屬于這種情況。在相關(guān)分析中,一般不需要確定自變量和因變量,在回歸分析中,則必須確定自變量和因變量。2、相關(guān)關(guān)系的種類2、相關(guān)關(guān)系的種類(1)按照相關(guān)關(guān)系涉及的因素(變量)多少,可分為單相關(guān)和復(fù)相關(guān)。兩個(gè)因素之間的相關(guān)關(guān)系稱作單相關(guān),也稱為—元相關(guān)或簡單相關(guān)。三個(gè)或三個(gè)以上因素之間的相關(guān)關(guān)系稱為復(fù)相關(guān)或多元相關(guān)。在復(fù)相關(guān)中,如果將其它的自變量固定不變而只研究因變量與其中某一個(gè)自變量之間的相關(guān)關(guān)系,這種相關(guān)關(guān)系稱為偏相關(guān)。2、相關(guān)關(guān)系的種類(2)按照相關(guān)關(guān)系的表現(xiàn)形式不同,可分為線性相關(guān)與非線性相關(guān)。對(duì)于一元相關(guān),即為直線相關(guān)和曲線相關(guān)。線性相關(guān)指的是變量之間呈線性關(guān)系,如果記自變量為x1,x2,x3,...,xp,因變量為y,則下面相關(guān)形式即為“線性”:對(duì)于直線相關(guān),意味著兩個(gè)相關(guān)現(xiàn)象的數(shù)據(jù)在坐標(biāo)上描點(diǎn)后近似表現(xiàn)為一條直線。2、相關(guān)關(guān)系的種類非線性相關(guān)則指變量之間呈非線性關(guān)系,其形式多種多樣,下面兩式均屬于非線性相關(guān):對(duì)于曲線相關(guān),意味著兩個(gè)相關(guān)現(xiàn)象的數(shù)據(jù)在坐標(biāo)上描點(diǎn)后近似地表現(xiàn)為一條曲線,如拋物線、雙曲線、指數(shù)曲線等。continued2、相關(guān)關(guān)系的種類(3)對(duì)于單相關(guān),按照現(xiàn)象數(shù)量變化的方向不同,可分為正相關(guān)和負(fù)相關(guān)。當(dāng)一個(gè)變量隨著另一個(gè)變量的增加(減少)而增加(減少),即兩者同向變化時(shí),稱為正相關(guān),例如家庭收入與家庭支出之間的關(guān)系,一般隨著家庭收入的增加,家庭支出也會(huì)隨之增加。當(dāng)一個(gè)變量隨著另一個(gè)變量的增加(減少)而減少(增加),即兩者反向變化時(shí),稱為負(fù)相關(guān),如產(chǎn)品產(chǎn)量與單位成本之間的關(guān)系,單位成本會(huì)隨著產(chǎn)量的增加而減少。2、相關(guān)關(guān)系的種類(4)按照相關(guān)程度不同,可以分為完全相關(guān)、不完全相關(guān)和無相關(guān)。當(dāng)一個(gè)變量的變化完全由另一個(gè)變量所決定時(shí),稱變量間的這種關(guān)系為為完全相關(guān)關(guān)系,這種嚴(yán)格的依存關(guān)系實(shí)際上就是函數(shù)關(guān)系?;蛘哒f函數(shù)關(guān)系是相關(guān)關(guān)系的一個(gè)特例。當(dāng)兩個(gè)變量的變化相互獨(dú)立、互不影響時(shí),稱這兩個(gè)變量不相關(guān)(或零相關(guān))。(學(xué)生成績與學(xué)生身高)變量之間關(guān)系介于完全相關(guān)與不完全相關(guān)之間,稱為不完全相關(guān)。不完全相關(guān)關(guān)系是現(xiàn)實(shí)當(dāng)中相關(guān)關(guān)系的主要表現(xiàn)形式,也是相關(guān)分析的主要研究對(duì)象。2、相關(guān)關(guān)系的種類我們要重點(diǎn)討論的是:一元線性相關(guān)(簡單線性相關(guān))3、相關(guān)關(guān)系的描述與測度3、相關(guān)關(guān)系的描述與測度相關(guān)關(guān)系分析的內(nèi)容很多,我們主要對(duì)兩個(gè)變量之間線性關(guān)系(一元線性相關(guān))進(jìn)行描述和度量,它要解決的問題包括:變量之間是否存在關(guān)系?如果存在關(guān)系,它們之間是什么樣的關(guān)系?變量之間的關(guān)系強(qiáng)度(密切程度)如何?樣本所反映的變量之間的關(guān)系能否代表總體變量之間的關(guān)系?前兩個(gè)問題主要通過定性分析或相關(guān)表與散點(diǎn)圖來解決;第三問題主要通過計(jì)算相關(guān)系數(shù)來確定;第四個(gè)問題涉及到對(duì)相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)。3、相關(guān)關(guān)系的描述與測度變量之間關(guān)系的定性分析:在研究相關(guān)關(guān)系時(shí),應(yīng)根據(jù)一定的經(jīng)濟(jì)理論和實(shí)踐經(jīng)驗(yàn)的總結(jié),對(duì)社會(huì)經(jīng)濟(jì)現(xiàn)象進(jìn)行科學(xué)的定性分析,以判斷它們之間是否具有相關(guān)關(guān)系以及相關(guān)關(guān)系的類型。只有在定性分析的基礎(chǔ)上,才能進(jìn)一步從數(shù)量上來測定現(xiàn)象之間的相關(guān)關(guān)系及相關(guān)的密切程度。這是判斷相關(guān)關(guān)系的一種重要方法,也是相關(guān)分析的重要前提。3、相關(guān)關(guān)系的描述與測度相關(guān)表相關(guān)表是一種反映變量之間相關(guān)關(guān)系的統(tǒng)計(jì)表。將某一變量按其取值的大小排列,然后再將與其相關(guān)的另一變量的對(duì)應(yīng)值平行排列,便可得到簡單的相關(guān)表。例:某地區(qū)某企業(yè)近8年產(chǎn)品產(chǎn)量與生產(chǎn)費(fèi)用的相關(guān)情況如下表所示。3、相關(guān)關(guān)系的描述與測度產(chǎn)品產(chǎn)量與生產(chǎn)費(fèi)用相關(guān)表從上表可看出,產(chǎn)品產(chǎn)量與生產(chǎn)費(fèi)用之間存在一定的正相關(guān)關(guān)系。3、相關(guān)關(guān)系的描述與測度散點(diǎn)圖(scatterdiagrams)散點(diǎn)圖是將相關(guān)表中的觀測值在平面直角坐標(biāo)系中用坐標(biāo)點(diǎn)描繪出來,以表明相關(guān)點(diǎn)的分布狀況。散點(diǎn)圖是描述變量之間關(guān)系的一種直觀方法,從中可以大體上看出兩個(gè)變量之間有無相關(guān)關(guān)系以及相關(guān)的形態(tài)、方向和密切程度。也稱相關(guān)圖。以上表為例,繪制散點(diǎn)圖。從圖中可以看出產(chǎn)品產(chǎn)量與生產(chǎn)費(fèi)用之間存在明顯的線性正相關(guān)關(guān)系。3、相關(guān)關(guān)系的描述與測度3、相關(guān)關(guān)系的描述與測度散點(diǎn)圖的幾種典型情況:3、相關(guān)關(guān)系的描述與測度r=0(h)r=0(f)r=-1(d)r=1(b)0<r<1(a)-1<r<0(c)r

0(e)r

0(g)零相關(guān)正相關(guān)負(fù)相關(guān)完全正相關(guān)完全負(fù)相關(guān)零相關(guān)零相關(guān)零相關(guān)3、相關(guān)關(guān)系的描述與測度相關(guān)系數(shù)的測定通過相關(guān)表或散點(diǎn)圖可以判斷兩個(gè)變量之間有無相關(guān)關(guān)系,并對(duì)變量間的關(guān)系形態(tài)做出大致的描述,但它們不能準(zhǔn)確反映變量之間的關(guān)系強(qiáng)度。因此,為了準(zhǔn)確度量兩個(gè)變量之間的關(guān)系強(qiáng)度,需要計(jì)算相關(guān)系數(shù)。此處所指的相關(guān)系數(shù)為簡單相關(guān)系數(shù),或稱為直線相關(guān)系數(shù),它是描述兩個(gè)變量之間線性相關(guān)密切程度和相關(guān)方向的統(tǒng)計(jì)分析指標(biāo)。由于這個(gè)系數(shù)是由英國統(tǒng)計(jì)學(xué)家皮爾遜(Pearson)設(shè)計(jì)的,故又稱為Pearson相關(guān)系數(shù)。3、相關(guān)關(guān)系的描述與測度【例6.6】一家大型商業(yè)銀行在多個(gè)地區(qū)設(shè)有分行,其業(yè)務(wù)主要是進(jìn)行基礎(chǔ)設(shè)施建設(shè)、國家重點(diǎn)項(xiàng)目建設(shè)、固定資產(chǎn)投資等項(xiàng)目的貸款。近年來,該銀行的貸款額平穩(wěn)增長,但不良貸款額也有較大比例的提高,這給銀行業(yè)務(wù)的發(fā)展帶來較大壓力。為弄清楚不良貸款形成的原因,希望利用銀行業(yè)務(wù)的有關(guān)數(shù)據(jù)做些定量分析,以便找出控制不良貸款的辦法。下面是該銀行所屬的25家分行的有關(guān)業(yè)務(wù)數(shù)據(jù)3、相關(guān)關(guān)系的描述與測度3、相關(guān)關(guān)系的描述與測度3、相關(guān)關(guān)系的描述與測度相關(guān)系數(shù)的測定方法與相關(guān)變量的測量層次有關(guān)。對(duì)于定距變量或定比變量,通常采用皮爾遜線性相關(guān)系數(shù)測量相關(guān)密切程度;對(duì)于定序變量,通常采用斯皮爾曼等級(jí)相關(guān)系數(shù)或肯德爾等級(jí)相關(guān)系數(shù)測量相關(guān)密切程度;對(duì)于定類變量,則常常采用列聯(lián)系數(shù)等來測量相關(guān)密切程度。我們重點(diǎn)分析的是皮爾遜線性相關(guān)系數(shù)。3、相關(guān)關(guān)系的描述與測度若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),一般用ρ表示;若相關(guān)系數(shù)是根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本相關(guān)系數(shù),一般用r表示。樣本相關(guān)系數(shù)的計(jì)算公式為:式中:3、相關(guān)關(guān)系的描述與測度所以,因?yàn)椋?、相關(guān)關(guān)系的描述與測度r的簡捷計(jì)算公式:自己推導(dǎo)3、相關(guān)關(guān)系的描述與測度也可以寫成這樣:3、相關(guān)關(guān)系的描述與測度總體相關(guān)系數(shù)的計(jì)算公式為:式中:一般情況下,總體相關(guān)系數(shù)是ρ未知的,通常是根據(jù)樣本相關(guān)系數(shù)r作為它的近似估計(jì)值。3、相關(guān)關(guān)系的描述與測度相關(guān)系數(shù)的性質(zhì)性質(zhì)1:r的取值范圍是[-1,1]|r|=1,為完全相關(guān)r=1,為完全正相關(guān)r=-1,為完全負(fù)正相關(guān)

r=0,不存在線性相關(guān)關(guān)系

-1r<0,為負(fù)相關(guān)0<r1,為正相關(guān)|r|越趨于1表示關(guān)系越強(qiáng);|r|越趨于0表示關(guān)系越弱3、相關(guān)關(guān)系的描述與測度-1.0+1.00-0.5+0.5完全負(fù)相關(guān)無線性相關(guān)完全正相關(guān)負(fù)相關(guān)程度增加r正相關(guān)程度增加3、相關(guān)關(guān)系的描述與測度性質(zhì)2:r具有對(duì)稱性。即x與y之間的相關(guān)系數(shù)和y與x之間的相關(guān)系數(shù)相等,即rxy=ryx性質(zhì)3:r數(shù)值大小與x和y原點(diǎn)及尺度無關(guān),即改變x和y的數(shù)據(jù)原點(diǎn)及計(jì)量尺度,并不改變r(jià)數(shù)值大小性質(zhì)4:僅僅是x與y之間線性關(guān)系的一個(gè)度量,它不能用于描述非線性關(guān)系。這意為著,r=0只表示兩個(gè)變量之間不存在線性相關(guān)關(guān)系,并不說明變量之間沒有任何關(guān)系性質(zhì)5:r雖然是兩個(gè)變量之間線性關(guān)系的一個(gè)度量,卻不一定意味著x與y一定有因果關(guān)系3、相關(guān)關(guān)系的描述與測度相關(guān)系數(shù)的經(jīng)驗(yàn)解釋|r|0.8時(shí),可視為兩個(gè)變量之間高度相關(guān)0.5|r|<0.8時(shí),可視為中度相關(guān)0.3|r|<0.5時(shí),視為低度相關(guān)|r|<0.3時(shí),說明兩個(gè)變量之間的相關(guān)程度極弱,可視為不相關(guān)上述解釋必須建立在對(duì)相關(guān)系數(shù)的顯著性進(jìn)行檢驗(yàn)的基礎(chǔ)之上3、相關(guān)關(guān)系的描述與測度3、相關(guān)關(guān)系的描述與測度

我國人均國民收入與人均消費(fèi)金額數(shù)據(jù)

單位:元年份人均國民收入人均消費(fèi)金額年份人均國民收入人均消費(fèi)金額1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148【例】在研究我國人均消費(fèi)水平的問題中,把全國人均消費(fèi)額記為y,把人均國民收入記為x。我們收集到1981~1993年的樣本數(shù)據(jù)(xi

,yi),i=1,2,…,13,數(shù)據(jù)見下表,計(jì)算相關(guān)系數(shù)。3、相關(guān)關(guān)系的描述與測度解:根據(jù)樣本相關(guān)系數(shù)的計(jì)算公式有人均國民收入與人均消費(fèi)金額之間的相關(guān)系數(shù)為0.99874、相關(guān)系數(shù)的顯著性檢驗(yàn)4、相關(guān)系數(shù)的顯著性檢驗(yàn)一般情況下,總體相關(guān)系數(shù)是ρ未知的,通常是根據(jù)樣本相關(guān)系數(shù)r作為它的近似估計(jì)值。但由于r是根據(jù)樣本數(shù)據(jù)計(jì)算出來的,它受到抽樣波動(dòng)的影響。因此r是隨機(jī)變量。能否根據(jù)樣本相關(guān)系數(shù)說明總體的相關(guān)程度,這需要考察樣本相關(guān)系數(shù)的可靠性,也就是進(jìn)行顯著性檢驗(yàn)。為了對(duì)r的顯著性進(jìn)行檢驗(yàn),需要考察r的抽樣分布。相關(guān)理論表明,通常情況下,對(duì)r應(yīng)該采用t檢驗(yàn)為好。4、相關(guān)系數(shù)的顯著性檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量為:原假設(shè)與備擇假設(shè)一般寫作:H0:;H1:0其它步驟同假設(shè)檢驗(yàn)的一般步驟。4、相關(guān)系數(shù)的顯著性檢驗(yàn)4、相關(guān)系數(shù)的顯著性檢驗(yàn)各相關(guān)系數(shù)檢驗(yàn)的統(tǒng)計(jì)量4、相關(guān)系數(shù)的顯著性檢驗(yàn)對(duì)前面例子的相關(guān)系數(shù)進(jìn)行檢驗(yàn)(α=0.05)寫假設(shè):H0:;H1:0α=0.05,雙側(cè)檢驗(yàn),自由度13-2=11,查表臨界值為:tα/2=±2.201,計(jì)算檢驗(yàn)統(tǒng)計(jì)量的值:64.98>2.201,因此,拒絕原假設(shè),接受備擇假設(shè)。表明總體相關(guān)系數(shù)不為零。人均國民收入與人均消費(fèi)金額相關(guān)關(guān)系顯著。二、一元線性回歸模型的建立二、一元線性回歸模型的建立1.回歸分析概述2.回歸模型與回歸方程3.參數(shù)的最小二乘估計(jì)法1.回歸分析概述1.回歸分析概述引言如前所述,通過做散點(diǎn)圖、計(jì)算相關(guān)系數(shù)等方法對(duì)變量間關(guān)系進(jìn)行分析,可以認(rèn)識(shí)現(xiàn)象之間相關(guān)關(guān)系的類型、方向及相關(guān)的密切程度。但相關(guān)分析不能判斷現(xiàn)象之間具體的數(shù)量變動(dòng)依存關(guān)系,也不能根據(jù)相關(guān)系數(shù)來估計(jì)或預(yù)測因變量可能發(fā)生的數(shù)值。因此,為了探求經(jīng)濟(jì)變量之間的具體數(shù)量變動(dòng)關(guān)系,一般在相關(guān)分析的基礎(chǔ)上再進(jìn)行回歸分析。1.回歸分析概述回歸分析的含義回歸分析就是對(duì)具有相關(guān)關(guān)系的兩個(gè)或兩個(gè)以上變量之間數(shù)量變化的一般關(guān)系進(jìn)行測定,確定因變量和自變量之間數(shù)量變動(dòng)關(guān)系的數(shù)學(xué)表達(dá)式,以便對(duì)因變量進(jìn)行估計(jì)或預(yù)測的統(tǒng)計(jì)分析方法。顯然,相關(guān)分析的主要任務(wù)是研究變量間相關(guān)關(guān)系的表現(xiàn)形式和密切程度,而回歸分析是在相關(guān)分析的基礎(chǔ)上,進(jìn)一步研究現(xiàn)象之間的數(shù)量變化規(guī)律。二者是相互補(bǔ)充密切聯(lián)系的。1.回歸分析概述“回歸”(Regression)一詞的由來回歸這個(gè)統(tǒng)計(jì)術(shù)語是由英國著名統(tǒng)計(jì)學(xué)家FrancisGalton在19世紀(jì)末期研究孩子及他們的父母的身高時(shí)提出來的。Galton發(fā)現(xiàn)身材高的父母,他們的孩子也高。但這些孩子平均起來并不像他們的父母那樣高。對(duì)于比較矮的父母情形也類似:他們的孩子比較矮,但這些孩子的平均身高要比他們的父母的平均身高高。Galton把這種孩子的身高向中間值靠近的趨勢稱之為一種回歸效應(yīng),而他發(fā)展的研究兩個(gè)數(shù)值變量的方法稱為回歸分析。1.回歸分析概述回歸分析與相關(guān)分析特點(diǎn)的比較回歸分析中必須根據(jù)研究目的確定哪個(gè)變量為因變量,哪些變量為自變量。相關(guān)分析可以不用區(qū)分自變量和因變量。相關(guān)分析中,兩個(gè)變量要求都是隨機(jī)的;而在回歸分析中,要求因變量是隨機(jī)的,而自變量的值可以是給定的,也可以是隨機(jī)的。若變量之間互為因果,或是沒有明顯因果關(guān)系,則可以求出兩個(gè)回歸方程。即y倚x的回歸方程(y為因變量)和x倚y的回歸方程(x為因變量),兩個(gè)方程的含義是不同的。對(duì)于相關(guān)分析來說,兩個(gè)變量之間只能求出一個(gè)相關(guān)系數(shù)。1.回歸分析概述回歸方程有較強(qiáng)的應(yīng)用性。根據(jù)回歸方程的參數(shù)可以得出變量之間的具體數(shù)量變動(dòng)關(guān)系,即自變量變動(dòng)一個(gè)單位,因變量會(huì)變動(dòng)多少。回歸方程也可以用于估計(jì)推斷,即根據(jù)給定的自變量的數(shù)值來估計(jì)因變量的可能值,或以限定的因變量取值范圍來推斷自變量取值應(yīng)控制在什么范圍內(nèi)。相關(guān)分析是回歸分析的基礎(chǔ),回歸分析是相關(guān)分析的深入。continued1.回歸分析概述具體來說,回歸分析主要解決以下幾個(gè)方面的問題:(1)從一組樣本數(shù)據(jù)出發(fā),確定出變量之間的數(shù)學(xué)關(guān)系式。(2)對(duì)這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響是顯著的,哪些是不顯著的。(3)利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來估計(jì)或預(yù)測另一個(gè)特定變量的取值,并給出這種估計(jì)或預(yù)測的可靠程度。1.回歸分析概述回歸分析模型的種類(1)簡單回歸與多元回歸:回歸分析模型按照具有相關(guān)關(guān)系的變量個(gè)數(shù)劃分,可分為簡單回歸分析模型和多元回歸分析模型。簡單回歸分析模型是指只有一個(gè)自變量和一個(gè)因變量的回歸分析模型,簡單回歸也稱一元回歸。多元回歸分析模型也稱復(fù)回歸分析模型,是指由多個(gè)自變量和一個(gè)因變量組成的回歸分析的模型。它與簡單回歸分析模型相比,增加了自變量的個(gè)數(shù),是對(duì)簡單回歸分析模型的拓展。此外,還有多個(gè)自變量對(duì)多個(gè)因變量的回歸分析。1.回歸分析概述(2)線性回歸與非線性回歸:回歸分析模型按照變量間相互關(guān)系的形態(tài)來分,可分為線性回歸分析模型和非線性回歸分析模型。當(dāng)變量之間關(guān)系的形態(tài)表現(xiàn)為線性相關(guān)時(shí),擬合的模型稱為線性回歸分析模型,其模型表達(dá)式為線性回歸方程;當(dāng)變量之間相互關(guān)系的形態(tài)表現(xiàn)為某種曲線趨勢時(shí),擬合的模型稱為非線性回歸分析模型,其模型表達(dá)式為某種曲線回歸方程。除上述分類外,根據(jù)簡單回歸和多元回歸與直線回歸和非直線回歸的交叉結(jié)合,還可以進(jìn)一步細(xì)分為簡單線性回歸和簡單非線性回歸,多元線性回歸和多元非線性回歸等不同類型。continued1.回歸分析概述回歸模型一元回歸多元回歸線性回歸非線性回歸線性回歸非線性回歸continued我們要討論的是“一元線性回歸模型”!2.回歸模型與回歸方程2.回歸模型與回歸方程對(duì)于具有線性關(guān)系的兩個(gè)變量,可以用一個(gè)線性方程來表示他們之間的關(guān)系。描述因變量y如何依賴于x和誤差項(xiàng)ε的方程稱為回歸模型(regressionmodel)。對(duì)于只涉及一個(gè)自變量的一元線性回歸模型可表示為:式中:β0,β1稱為模型參數(shù);

ε被稱為誤差項(xiàng)的隨機(jī)變量;

x為自變量(解釋變量或預(yù)測變量);

y為因變量(被解釋變量或被預(yù)測變量);2.回歸模型與回歸方程在上述的一元線性回歸模型中,y是x的線性函數(shù)(β0+β1x部分)加上誤差項(xiàng)ε。β0+β1x反映了由于x的變化而引起的y的線性變化;誤差項(xiàng)ε反映了除x和y之間線性關(guān)系之外的隨機(jī)因素對(duì)y的影響,是不能由x和y之間的線性關(guān)系所揭示的變異性。2.回歸模型與回歸方程上述模型也被稱為理論回歸模型,對(duì)這一模型,有以下幾個(gè)主要假定:(1)因變量y與自變量x之間具有線性關(guān)系。(2)x是非隨機(jī)的,也就是假定在重復(fù)抽樣中,x的取值是固定的。(3)誤差項(xiàng)ε是一個(gè)期望值為0的隨機(jī)變量,即E(ε)=0。這表示:E(y)=β0+β1x(4)對(duì)于所有的x值,ε的方差σ2都相同。這表示:對(duì)于所有的x,y的方差也為σ2。(5)誤差項(xiàng)ε是一個(gè)服從正態(tài)分布的隨機(jī)變量且獨(dú)立。這表示:對(duì)于任何一個(gè)給定的x的值,y都服從期望值為β0+β1x,方差為σ2的正態(tài)分布,且對(duì)于不同的x都具有相同方差。2.回歸模型與回歸方程x1x2x3xyE(y)=β0+β1xβ0x=x1時(shí)y的分布x=x2時(shí)y的分布x=x3時(shí)y的分布x=x1時(shí)的E(y)x=x2時(shí)的E(y)x=x3時(shí)的E(y)回歸模型假定圖示2.回歸模型與回歸方程從上圖可以看出,E(y)的值隨著x的不同而變化,但無論x怎樣變化,ε和y的概率分布都是正態(tài)分布,并且具有相同的方差。在任意特定點(diǎn)上,誤差項(xiàng)ε某一特定值依賴于y的真實(shí)值大于或小于E(y)。E(y)=β0+β1x實(shí)際上就是假定變量間關(guān)系的模型為一條直線。2.回歸模型與回歸方程=隨機(jī)誤差項(xiàng)yx觀測值E(Y)X01YXii01觀測值xi2.回歸模型與回歸方程根據(jù)回歸模型的假定,y的期望值E(y)=β0+β1x,也就是說,y的期望值是x的線性函數(shù)。描述因變量y的期望值如何依賴于自變量x的方程稱為回歸方程(regressionmodel)。一元線性回歸方程的形式為:

E(y)=β0+β1x一元線性回歸方程的圖示是一條直線,因此也稱為直線回歸方程。其中β0是回歸直線在y軸上截距,是當(dāng)x=0時(shí)y的期望值;β1是直線的斜率,它表示當(dāng)x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值。2.回歸模型與回歸方程一元線性回歸中的可能回歸線:回歸直線回歸直線回歸直線2.回歸模型與回歸方程如果回歸方程中的參數(shù)β0,β1已知,對(duì)于一個(gè)給定的x的值,利用上面的式子就能計(jì)算出y的期望值。但總體回歸參數(shù)β0與β1的是未知的,必須利用樣本數(shù)據(jù)去估計(jì)它們。用樣本統(tǒng)計(jì)量和代替回歸方程中未知參數(shù)β0與β1,這時(shí)就得到了估計(jì)回歸方程(estimatedregressionequation)。對(duì)一元線性回歸,估計(jì)的回歸方程形式為:式中:為估計(jì)回歸直線在y軸上的截距;為直線的斜率,表示x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值。

如何確定估計(jì)回歸方程中的

和?3.參數(shù)的最小二乘估計(jì)法3.參數(shù)的最小二乘估計(jì)“參數(shù)的最小二乘估計(jì)法”是利用樣本進(jìn)行回歸方程估計(jì)的一種方法。簡稱為“最小平方法(leastsquaresmethod)”或“最小二乘法”。例:阿姆得(Armand)比薩餅連鎖店坐落在美國的5個(gè)州內(nèi),它們通常的位置是在大學(xué)旁邊,而且管理人員相信附近大學(xué)的人數(shù)與這些連鎖店的季度銷售額是有關(guān)系的。下面是10家連鎖店附近大學(xué)的學(xué)生人數(shù)和季度銷售收入的數(shù)據(jù):(1)做學(xué)生人數(shù)x與銷售額y兩個(gè)變量之間的散點(diǎn)圖(2)計(jì)算相關(guān)系數(shù)r(3)對(duì)變量之間的關(guān)系做出判斷3.參數(shù)的最小二乘估計(jì)法學(xué)生人數(shù)x與銷售額y兩個(gè)變量之間的散點(diǎn)圖相關(guān)系數(shù)r=0.95學(xué)生人數(shù)x與銷售額y之間應(yīng)是較顯著的正相關(guān)關(guān)系3.參數(shù)的最小二乘估計(jì)法實(shí)際上,我們可以假定學(xué)生人數(shù)x與銷售額y兩個(gè)變量之間是正線性相關(guān)關(guān)系,并且銷售額隨學(xué)生人數(shù)的變化而變化,也就是說學(xué)生人數(shù)為自變量,銷售額為因變量。根據(jù)上述假設(shè),我們可以寫出銷售額與學(xué)生人數(shù)兩個(gè)變量之間的回歸估計(jì)方程。continued那么,現(xiàn)在的問題是,如何找到一條直線,使這條直線盡可能的靠近所有的樣本點(diǎn)呢?3.參數(shù)的最小二乘估計(jì)法如何確定?continued實(shí)際上就是如何確定

與。3.參數(shù)的最小二乘估計(jì)法確定這條直線的方法有很多種,其中有一種最常使用的方法就是“最小二乘法”,該方法是由德國科學(xué)家卡爾·弗里德里?!じ咚固岢龅摹W钚《朔ǖ幕驹砭褪牵鹤屗鶎ふ业闹本€上的點(diǎn)盡可能地接近實(shí)際觀測點(diǎn),即回歸估計(jì)線上的點(diǎn)與實(shí)際觀測點(diǎn)的離差平方和最小。(以下用圖形說明)continued3.參數(shù)的最小二乘估計(jì)法xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)^ei即為因變量實(shí)際觀測值yi與所要尋找的回歸直線上的點(diǎn),也即yi的估計(jì)值(yi)之間的離差。e13.參數(shù)的最小二乘估計(jì)法因此,最小二乘法就是使因變量的觀察值yi與估計(jì)值yi之間的離差平方和達(dá)到最小來求β1和β2的估計(jì)與的方法。也就是使^最小。因此,求解的最小值即可得到與。如何求解。利用微積分求極值定理。推導(dǎo)如下。3.參數(shù)的最小二乘估計(jì)法令,把代入上式即在給定了樣本數(shù)據(jù)后,Q便是與的函數(shù),且最小值存在。根據(jù)微積分的極值定理,對(duì)Q求相應(yīng)于與的偏導(dǎo)數(shù),并令其等于0,便可求出與,也就是說與應(yīng)滿足下列方程組。3.參數(shù)的最小二乘估計(jì)法即,解上述方程組得,自己推導(dǎo)很重要的公式3.參數(shù)的最小二乘估計(jì)法或者可寫為:可以證明用最小二乘法擬合的直線具有一些優(yōu)良的性質(zhì),或者最小二乘估計(jì)量具有一些優(yōu)良性質(zhì),如無偏性,有效性等。3.參數(shù)的最小二乘估計(jì)法在“阿姆德比薩餅連鎖店”的例子中,因此,阿姆德比薩餅連鎖店的回歸估計(jì)方程為,(自己算一下)你對(duì)該方程中系數(shù)的含義怎么理解?3.參數(shù)的最小二乘估計(jì)法擬合出來的直線為,3.參數(shù)的最小二乘估計(jì)法3.參數(shù)的最小二乘估計(jì)法不良貸款對(duì)貸款余額回歸方程的圖示三、回歸直線的擬合優(yōu)度三、回歸直線的擬合優(yōu)度回歸直線在一定程度上描述了變量x與y之間的數(shù)量關(guān)系,根據(jù)這一方程,可根據(jù)自變量x的取值來估計(jì)或預(yù)測因變量y的取值,但這種估計(jì)或預(yù)測的精度如何將取決于回歸直線對(duì)觀測數(shù)據(jù)的擬合程度。各觀測值越是緊密圍繞直線,說明直線對(duì)觀測數(shù)據(jù)的擬合程度越好,反之則越差。所謂回歸直線的擬合優(yōu)度(Goodnessoffit),就是指樣本觀測值聚集在回歸估計(jì)線周圍的緊密程度。判斷回歸模型擬合程度大小的最常用的指標(biāo)是判定系數(shù)(coefficientofdetermination),又稱可決系數(shù),為了說明判定系數(shù)的含義,需要對(duì)因變量y取值的變差進(jìn)行研究。三、回歸直線的擬合優(yōu)度因變量y的取值是不同的,y取值的這種波動(dòng)稱為變差。變差來源于兩個(gè)方面由于自變量x的取值不同造成的除x以外的其他因素(如x對(duì)y的非線性影響、測量誤差等)的影響對(duì)一個(gè)具體的觀測值(第i個(gè))來說,變差的大小可以通過該實(shí)際觀測值y與其均值y之差yi-y來表示。而n次觀察值的總變差可由這些離差的平方和來表示,稱為總平方和(TotalDeviationSumofSquares),記為SST,即也可認(rèn)為是未引進(jìn)回歸時(shí)的總變差。三、回歸直線的擬合優(yōu)度因變量y變差的分解(見下圖)xiyx三、回歸直線的擬合優(yōu)度從上圖可以看出,每個(gè)觀測點(diǎn)的變差都可以分解為:將上式兩邊平方,并對(duì)所有n個(gè)點(diǎn)求和,有:可以證明,因此三、回歸直線的擬合優(yōu)度上面式子的左邊即為總平方和SST,它可以分解為兩部分:其中是回歸值與均值的離差平方和,根據(jù)估計(jì)的回歸方程,估計(jì)值,因此可以把看做是由于自變量x的變化引起的y的變化,而其平方和則反映了y的總變差中由于x與y之間的線性關(guān)系引起的y的變化部分,它是可以由回歸直線來解釋的yi變差部分,稱為回歸平方和(RegressionSumofSquares),記為SSR。(回歸的貢獻(xiàn))分析這個(gè)式子的構(gòu)成三、回歸直線的擬合優(yōu)度另一部分是各實(shí)際觀測值與回歸值的殘差

平方和,它是除了x對(duì)y的線性影響之外的其他因素對(duì)y變差的作用,是不能由回歸直線來解釋的yi變差部分,稱為殘差平方和(ResidualSumofSquares)或誤差平方和,記為SSE。(引進(jìn)回歸以后的剩余變差)三個(gè)平方和的關(guān)系為:總平方和(SST)=回歸平方和(SSR)+殘差平方和(SSE)三、回歸直線的擬合優(yōu)度SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{三、回歸直線的擬合優(yōu)度總平方和(SST)反映因變量的n個(gè)觀察值與其均值的總離差。回歸平方和(SSR)反映自變量x的變化對(duì)因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和。殘差平方和(SSE)反映除x以外的其他因素對(duì)y取值的影響,也稱為不可解釋的平方和或剩余平方和。三、回歸直線的擬合優(yōu)度從前面的分析可以看出,回歸直線擬合的好壞取決于SSR及SSE的大小,或者說取決于回歸平方和SSR占總平方和SST的比例(SSR/SST)大小。各觀測點(diǎn)越是靠近直線,SSR/SST則越大,直線擬合得越好。反之則直線擬合的越差?;貧w平方和占總平方和的比例(SSR/SST)稱為判定系數(shù),記為R2,其計(jì)算公式為:三、回歸直線的擬合優(yōu)度實(shí)際上,由或者三、回歸直線的擬合優(yōu)度判定系數(shù)R2是對(duì)估計(jì)的回歸方程擬合優(yōu)度的度量,它表示了全部變差中有百分之幾的偏差可由x與y的線性回歸關(guān)系來解釋,其取值范圍在[0,1]之間。R2越接近1,說明回歸直線的擬合程度越好;反之,R2越接近0,說明回歸直線的擬合程度越差。在一元線性回歸中,相關(guān)系數(shù)r實(shí)際上是判定系數(shù)的平方根,即也即因此,相關(guān)系數(shù)從另一個(gè)角度說明了回歸直線的擬合優(yōu)度。但要注意,r的值(r=-1、1和0除外)總是大于判定系數(shù)的值。三、回歸直線的擬合優(yōu)度在“阿姆德比薩餅連鎖店”的例子中:SST=15730SSE=1530SSR=1-SSE=15730-1530=14200。判定系數(shù)R2=0.9027,它的實(shí)際意義是:在銷售額的變差中,有90.27%可以由銷售額與學(xué)生人數(shù)之間的線性關(guān)系解釋,或者說,在銷售額取值的變動(dòng)中,有90.27%是由學(xué)生人數(shù)所決定的??梢姡貧w方程的擬合程度是比較好的?;蛘哒f,銷售額與學(xué)生人數(shù)之間有較強(qiáng)的線性關(guān)系。三、回歸直線的擬合優(yōu)度三、回歸直線的擬合優(yōu)度除判定系數(shù)外,還有一個(gè)可用于反映回歸直線擬合優(yōu)度的指標(biāo),即估計(jì)標(biāo)準(zhǔn)誤差(standarderrorofestimate)。實(shí)際上,估計(jì)標(biāo)準(zhǔn)誤差是度量各實(shí)際觀測值在回歸直線周圍的散布狀況的一個(gè)統(tǒng)計(jì)量,它是均方殘差(meansquareerror/MSE)平方根,用Se來表示,其計(jì)算公式為:三、回歸直線的擬合優(yōu)度估計(jì)標(biāo)準(zhǔn)誤差是對(duì)誤差項(xiàng)ε的標(biāo)準(zhǔn)差σ的估計(jì),它可以看做是在排除了x對(duì)y的線性影響后,y隨機(jī)波動(dòng)大小的一個(gè)估計(jì)量。從估計(jì)標(biāo)準(zhǔn)誤差的實(shí)際意義上看,它反映了用估計(jì)的回歸方程預(yù)測因變量y時(shí)預(yù)測誤差的大小。若各觀測值越靠近回歸直線,Se越小,回歸直線對(duì)各觀測值的代表性就越好,根據(jù)估計(jì)的回歸方程進(jìn)行預(yù)測也就越準(zhǔn)確;反之則反是。所以說,Se從另一個(gè)角度說明了回歸直線的擬合優(yōu)度。三、回歸直線的擬合優(yōu)度從估計(jì)標(biāo)準(zhǔn)誤差的計(jì)算公式可以看出,回歸直線是對(duì)n個(gè)觀測值擬合的所有直線中估計(jì)標(biāo)準(zhǔn)誤差最小的一條直線,因?yàn)榛貧w直線是使為最小時(shí)確定。在阿姆德比薩餅店例子中,四、顯著性檢驗(yàn)四、顯著性檢驗(yàn)根據(jù)樣本數(shù)據(jù)擬合回歸方程時(shí),實(shí)際上已經(jīng)假定變量x與y之間存在線性關(guān)系,即y=β0+β1x+ε,并假定誤差項(xiàng)ε是一個(gè)服從正態(tài)分布的隨機(jī)變量,且對(duì)不同的x具有相同的方差。但這些假設(shè)是否成立,需要通過檢驗(yàn)后才能證實(shí)?;貧w分析中的顯著性檢驗(yàn)主要包括兩個(gè)方面的內(nèi)容:一是線性關(guān)系檢驗(yàn)(方程總體回歸關(guān)系的顯著性)二是回歸系數(shù)檢驗(yàn)(方程各回歸系數(shù)的顯著性)就一元線性回歸模型而言,上述的兩個(gè)檢驗(yàn)是等價(jià)的。四、顯著性檢驗(yàn)線性關(guān)系檢驗(yàn)是檢驗(yàn)自變量x和因變量y之間的線性關(guān)系是否顯著,或者說,它們之間能否用一個(gè)線性模型y=β0+β1x+ε來表示。為了達(dá)到這目的,需要構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,該統(tǒng)計(jì)量的構(gòu)造是以回歸平方和SSR與殘差平方和SSE為基礎(chǔ)的。將SSR除以其相應(yīng)的自由度(一元線性回歸中自由度為1)后的結(jié)果稱為均方回歸(meansquareregression),記為MSR。將SSE除以其相應(yīng)的自由度(一元線性回歸中自由度為n-2)后的結(jié)果稱為均方殘差(meansquareerror),記為MSE。四、顯著性檢驗(yàn)如果原假設(shè)成立(H0:β1=0),則比值MSR/MSE抽樣分布服從分子自由度為1、分母自由度為n-2的F分布,即線性關(guān)系檢驗(yàn)的具體步驟如下:四、顯著性檢驗(yàn)1.提出假設(shè):H0:1=0線性關(guān)系不顯著

H1:1≠0線性關(guān)系顯著2.計(jì)算檢驗(yàn)統(tǒng)計(jì)量F3.確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F4.作出決策:若F>F,拒絕H0;若F<F,不拒絕H0四、顯著性檢驗(yàn)在阿姆德比薩餅店例子中,檢驗(yàn)統(tǒng)計(jì)量的值為:如果α=0.01,分子自由度為1,分母自由度為10-2=8,查表F0.01=11.26,因此74.25>11.26,拒絕原假設(shè),得出當(dāng)顯著性水平為0.01是,β1不等于0。四、顯著性檢驗(yàn)四、顯著性檢驗(yàn)回歸系數(shù)的顯著性檢驗(yàn)是要檢驗(yàn)自變量對(duì)因變量的影響是否顯著。實(shí)際上也是檢驗(yàn)回歸系數(shù)1是否等于0。但所構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量與前面的不一樣。為了構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,需研究回歸系數(shù)b1的抽樣分布。是根據(jù)最小二乘法得到的用于估計(jì)總體參數(shù)β1的統(tǒng)計(jì)量,是一個(gè)隨機(jī)變量。統(tǒng)計(jì)證明,服從正態(tài)分布。其期望值為:標(biāo)準(zhǔn)差為:四、顯著性檢驗(yàn)由于σ未知,需用其估計(jì)量Se來代替得到的估計(jì)的標(biāo)準(zhǔn)差為:這樣就可以構(gòu)造出用于檢驗(yàn)回歸系數(shù)β1的統(tǒng)計(jì)量為:該統(tǒng)計(jì)量是服從自由度為n-2的t分布。如果原假設(shè)成立(H0:1=0),則檢驗(yàn)統(tǒng)計(jì)量為:四、顯著性檢驗(yàn)1.提出假設(shè)H0:β1=0(沒有線性關(guān)系)H1:β1

0(有線性關(guān)系)2.計(jì)算檢驗(yàn)的統(tǒng)計(jì)量3.確定顯著性水平,并進(jìn)行決策t>t,拒絕H0;t<t,不拒絕H0檢驗(yàn)步驟如下:四、顯著性檢驗(yàn)在阿姆德比薩餅店例子中,檢驗(yàn)統(tǒng)計(jì)量的值為:如果α=0.01,自由度為10-2=8,查表t0.005=3.355,因此8.62>3.355,拒絕原假設(shè),得出當(dāng)顯著性水平為0.01是,β1不等于0。四、顯著性檢驗(yàn)四、顯著性檢驗(yàn)需要進(jìn)一步說明的是:在一元線性回歸中,自變量只有一個(gè),上面介紹的F檢驗(yàn)和t檢驗(yàn)是等價(jià)的,也就是說,如果H0:1=0被t檢驗(yàn)拒絕,它也將被F檢驗(yàn)拒絕。但是在多元回歸分析中,這兩種檢驗(yàn)的意義是不同的。F檢驗(yàn)只是用來檢驗(yàn)總體回歸關(guān)系的顯著性,而t檢驗(yàn)則是檢驗(yàn)各回歸系數(shù)的顯著性。四、顯著性檢驗(yàn)excel等軟件中輸出的結(jié)果更多,有些需要進(jìn)一步學(xué)習(xí)。五、利用回歸方程進(jìn)行估計(jì)和預(yù)測五、利用回歸方程進(jìn)行估計(jì)和預(yù)測回歸分析的主要目的根據(jù)所建立的估計(jì)回歸方程進(jìn)行預(yù)測或控制。預(yù)測是指通過自變量x的取值來預(yù)測因變量y的取值。控制則與預(yù)測恰好相反,它是根據(jù)一個(gè)想要的y值,求得所要的x值?;貧w模型經(jīng)過各種檢驗(yàn)并表明符合預(yù)訂的要求后,就可以用它來完成這一目的了。主要介紹根據(jù)估計(jì)回歸方程進(jìn)行估計(jì)和預(yù)測的方法:點(diǎn)估計(jì)區(qū)間估計(jì)五、利用回歸方程進(jìn)行估計(jì)和預(yù)測點(diǎn)估計(jì)值可以分兩種:y的平均值的點(diǎn)估計(jì)y的個(gè)別值的點(diǎn)估計(jì)所謂點(diǎn)估計(jì)是對(duì)于自變量x的一個(gè)給定值x0

,根據(jù)估計(jì)回歸方程得到因變量y的一個(gè)估計(jì)值。五、利用回歸方程進(jìn)行估計(jì)和預(yù)測平均值的點(diǎn)估計(jì)就是利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y

的平均值的一個(gè)估計(jì)值E(y0)。在阿姆德比薩餅店的例子中,估計(jì)回歸方程為,該方程表示學(xué)生人數(shù)和季度銷售額y之間的估計(jì)關(guān)系。如果管理人員想估計(jì)學(xué)生人數(shù)為10000名時(shí),所有餐館的平均季度銷售額,就是平均值的點(diǎn)估計(jì)。根據(jù)上面的估計(jì)回歸方程,可得,五、利用回歸方程進(jìn)行估計(jì)和預(yù)測個(gè)別值的點(diǎn)估計(jì)是利用回歸估計(jì)方程,對(duì)于x一個(gè)特定值x0,求出y的一個(gè)個(gè)別值的估計(jì)值。例如,前面的例子中,如果只想知道某個(gè)大學(xué)附近的餐館的季度銷售額是多少,則屬于個(gè)別值的點(diǎn)估計(jì)。根據(jù)上面的估計(jì)的回歸方程,假定這個(gè)大學(xué)的人數(shù)為10000人,可得這個(gè)大學(xué)附近這個(gè)餐館的季度銷售額為,實(shí)際上,在點(diǎn)估計(jì)條件下,對(duì)于同一個(gè)x0,平均值的點(diǎn)估計(jì)和個(gè)別值的的點(diǎn)估計(jì)的結(jié)果是一樣的,但在區(qū)間估計(jì)中則不同五、利用回歸方程進(jìn)行估計(jì)和預(yù)測點(diǎn)估計(jì)不能給出估計(jì)的精度,點(diǎn)估計(jì)值與實(shí)際值之間是有誤差的,因此需要進(jìn)行區(qū)間估計(jì)區(qū)間估計(jì)就是對(duì)于自變量x的一個(gè)給定值x0,根據(jù)回歸估計(jì)方程得到因變量y的一個(gè)估計(jì)區(qū)間。區(qū)間估計(jì)也有兩種類型:置信區(qū)間估計(jì)(confidenceintervalestimate)預(yù)測區(qū)間估計(jì)(predictionintervalestimate)五、利用回歸方程進(jìn)行估計(jì)和預(yù)測置信區(qū)間估計(jì)是指利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0,求出因變量y的平均值的估計(jì)區(qū)間(這一估計(jì)區(qū)間稱為置信區(qū)間)。設(shè)x0為自變量x的一個(gè)特定值或給定值;E(y0)為給定x0時(shí)因變量y的平均值或期望值。當(dāng)x=x0時(shí),為E(y0)的估計(jì)值。一般來說,不能期望估計(jì)值精確地等于E(y0)。因此,要想用推斷E(y0),必須考慮根據(jù)估計(jì)的回歸方程得到的方差。對(duì)于給定的x0,統(tǒng)計(jì)學(xué)家給出了估計(jì)標(biāo)準(zhǔn)差的公式,用表示。五、利用回歸方程進(jìn)行估計(jì)和預(yù)測公式如下:有了的標(biāo)準(zhǔn)差之后,對(duì)于給定的x0,E(y0)在1-α置信水平下的置信區(qū)間可表示為:t分布的自由度n-2。五、利用回歸方程進(jìn)行估計(jì)和預(yù)測在阿姆德比薩餅店例子中,給定x0=10(千人),那么對(duì)于所有位于有10000名學(xué)生的校園附近的餐館平均季度銷售額,建立置信度為95%的區(qū)間估計(jì)。t0.025=2.306。五、利用回歸方程進(jìn)行估計(jì)和預(yù)測五、利用回歸方程進(jìn)行估計(jì)和預(yù)測預(yù)測區(qū)間估計(jì)是對(duì)于x的一個(gè)給定值x0,求出y的一個(gè)個(gè)別值的區(qū)間估計(jì)。為了求出預(yù)測區(qū)間,首先必須知道用于估計(jì)的標(biāo)準(zhǔn)差。統(tǒng)計(jì)學(xué)家已經(jīng)給出y的一個(gè)個(gè)別值y0的標(biāo)準(zhǔn)差的估計(jì)量,用sind表示,其計(jì)算公式為:五、利用回歸方程進(jìn)行估計(jì)和預(yù)測因此,對(duì)于給定的x0,y的一個(gè)個(gè)別值y0在1-α置信水平下的預(yù)測區(qū)間可以表示為:與前面的公式相比,這個(gè)式子的根號(hào)內(nèi)多了一個(gè)1。因此,即使是對(duì)同一個(gè)x0,這兩個(gè)區(qū)間的寬度也是不一樣的,預(yù)測區(qū)間要比置信區(qū)間寬一些。五、利用回歸方程進(jìn)行估計(jì)和預(yù)測在阿姆德比薩餅店例子中,給定x0=10(千人),那么對(duì)于位于有10000名學(xué)生的校園附近的某一餐館季度銷售額,建立置信度為95%的預(yù)測區(qū)間。t0.025=2.306。五、利用回歸方程進(jìn)行估計(jì)和預(yù)測五、利用回歸方程進(jìn)行估計(jì)和預(yù)測置信水平(1-)區(qū)間寬度隨置信水平的增大而增大數(shù)據(jù)的離散程度(s)區(qū)間寬度隨離散程度的增大而增大樣本容量區(qū)間寬度隨樣本容量的增大而減小用于預(yù)測的x0與x的差異程度區(qū)間寬度隨x0與x的差異程度的增大而增大影響置信區(qū)間寬度的因素五、利用回歸方程進(jìn)行估計(jì)和預(yù)測x0yxx預(yù)測上限置信上限預(yù)測下限置信下限五、利用回歸方程進(jìn)行估計(jì)和預(yù)測從上面的圖可以看出,兩個(gè)區(qū)間的寬度不一樣,y的個(gè)別值的預(yù)測區(qū)間要寬一些。二者的差別表明,估計(jì)y的平均值比預(yù)測y的一個(gè)特定值或個(gè)別值更精確。并且當(dāng)x0=x時(shí),兩者都是最精確的。最后需要注意的是:在利用回歸直線方程進(jìn)行估計(jì)或預(yù)測時(shí),不要用樣本數(shù)據(jù)之外的x值去預(yù)測相應(yīng)的y值。因?yàn)樵谝辉€性回歸分析中,總是假定因變量y與自變量x之間的關(guān)系用線性模型表達(dá)是正確的。但實(shí)際應(yīng)用中,它們之間的關(guān)系可能是某種曲線。因此如果用樣本數(shù)據(jù)以外的x值得出的估計(jì)值和預(yù)測值就會(huì)很差。六、殘差分析六、殘差分析在回歸模型y=β0+β1x+ε假定ε是期望值為0、方差相等、服從正態(tài)分布且獨(dú)立的隨機(jī)變量。但是,如果關(guān)于它的假定不成立,那么,此時(shí)所做的檢驗(yàn)以及估計(jì)和預(yù)測也許就站不住腳了。確定ε的假定是否成立的方法之一就是進(jìn)行殘差分析(residualanalysis)。本部分有兩個(gè)內(nèi)容:一是用殘差證實(shí)模型的假定二是用殘差檢測異常值和有影響的觀測值用殘差證實(shí)模型的假定殘差(residual)是因變量的觀測值yi與根據(jù)估計(jì)的回歸方程求出的預(yù)測值之差,用e表示。它反映了用估計(jì)的回歸方程去預(yù)測而引起的誤差。

第i個(gè)觀察值的殘差可以寫為:為了分析誤差項(xiàng)ε的假定是否成立,可以通過對(duì)殘差圖(residualplot)的分析來完成。殘差圖種類有:關(guān)于x的殘差圖關(guān)于的殘差圖標(biāo)準(zhǔn)化殘差圖用殘差證實(shí)模型的假定關(guān)于x的殘差圖是用橫軸表示自變量x的值,用縱軸表示對(duì)應(yīng)的殘差,每個(gè)x的值與對(duì)應(yīng)的殘差用一個(gè)點(diǎn)來表示。幾種不同形態(tài)的殘差圖及其反映出的信息。用殘差證實(shí)模型的假定若對(duì)所有的x值,ε的方差都相同,而且假定描述變量x和y之間關(guān)系的回歸模型是合理的,那么殘差圖中的所有點(diǎn)都應(yīng)落在一條水平帶中間。如上面第一個(gè)圖所示。但如果對(duì)所有的值,ε的方差是不同的,如第二個(gè)圖所示,這就違背了ε的方差相等的假設(shè)。如果殘差圖如第三個(gè)圖的樣子,表明所選擇的回歸模型不合理,這時(shí)應(yīng)考慮曲線回歸或多元回歸模型。用殘差證實(shí)模型的假定關(guān)于的殘差圖是在坐標(biāo)橫軸上表示,在縱軸上表示殘差值。這種類型的殘差圖與關(guān)于x的殘差圖的分析基本一樣。標(biāo)準(zhǔn)化殘差(standardizedresiduals)是殘差除以它的標(biāo)準(zhǔn)差后得到的數(shù)值,用ze表示。第i個(gè)觀察值的標(biāo)準(zhǔn)化殘差可以表示為:se是殘差的標(biāo)準(zhǔn)差的估計(jì)。用殘差證實(shí)模型的假定標(biāo)準(zhǔn)化殘差主要用于對(duì)ε正態(tài)性假定的檢驗(yàn)。如果誤差項(xiàng)ε服從正態(tài)分布這一假定成立,那么標(biāo)準(zhǔn)化殘差的分布也應(yīng)服從正

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論