顏第章相關(guān)與回歸_第1頁
顏第章相關(guān)與回歸_第2頁
顏第章相關(guān)與回歸_第3頁
顏第章相關(guān)與回歸_第4頁
顏第章相關(guān)與回歸_第5頁
已閱讀5頁,還剩56頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第6章相關(guān)和回歸分析第一節(jié)相關(guān)關(guān)系和相關(guān)分析的內(nèi)容第二節(jié)相關(guān)圖表和簡單相關(guān)系數(shù)第三節(jié)簡單線性回歸分析第四節(jié)非線性回歸方程一、函數(shù)關(guān)系與相關(guān)關(guān)系1.函數(shù)關(guān)系當一個或幾個變量取一定的值時,另一個變量有確定值與之相對應,我們稱這種關(guān)系為確定性的函數(shù)關(guān)系。第一節(jié)相關(guān)關(guān)系和相關(guān)分析的內(nèi)容(函數(shù)關(guān)系)(1)是一一對應的確定關(guān)系(2)設(shè)有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x,當變量x取某個數(shù)值時,y依確定的關(guān)系取相應的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量(3)各觀測點落在一條線上xy變量間的關(guān)系

(函數(shù)關(guān)系)函數(shù)關(guān)系的例子某種商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為y=px(p為單價)圓的面積(S)與半徑之間的關(guān)系可表示為S=r2企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價格(x3)之間的關(guān)系可表示為y=x1x2x32.相關(guān)關(guān)系:當一個或幾個相互聯(lián)系的變量取一定數(shù)值時,與之相對應的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化?,F(xiàn)象之間客觀存在的不嚴格、不確定的數(shù)量依存關(guān)系。變量間的關(guān)系

(相關(guān)關(guān)系)(1)變量間關(guān)系不能用函數(shù)關(guān)系精確表達;(2)一個變量的取值不能由另一個變量唯一確定;(3)當變量x取某個值時,變量y的取值可能有幾個;(4)各觀測點分布在直線周圍。xy(相關(guān)關(guān)系)相關(guān)關(guān)系的例子商品的消費量(y)與居民收入(x)之間的關(guān)系商品的消費量(y)與物價(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系父親身高(y)與子女身高(x)之間的關(guān)系相關(guān)關(guān)系也具有某種變動規(guī)律性,所以,相關(guān)關(guān)系經(jīng)常可以用一定的函數(shù)形式去近似地描述??陀^現(xiàn)象的函數(shù)關(guān)系可以用數(shù)學分析的方法去研究,而研究客觀現(xiàn)象的相關(guān)關(guān)系則是借助于統(tǒng)計學中的相關(guān)與回歸分析方法。指出下列現(xiàn)象之間屬于相關(guān)關(guān)系還是函數(shù)關(guān)系?1.商品流轉(zhuǎn)規(guī)模越大,流通費用率越低。2.秤砣的誤差越大,所權(quán)衡的誤差也越大。3.測量次數(shù)越多,其平均長度越接近于實際長度。4.物體體積隨著溫度升高而膨脹,隨著壓力加大而收縮。5.車輛使用年限越長,修理費用增長越快。6.圓的半徑越大,其面積也越大。7.廣告費用支出越多,商品銷售額也有增長傾向。8.機械化程度越高,勞動生產(chǎn)率一般也越高。二、相關(guān)關(guān)系的種類1.按相關(guān)的程度可分為完全相關(guān)、不完全相關(guān)和不相關(guān)。——當一種現(xiàn)象的數(shù)量變化完全由另一個現(xiàn)象的數(shù)量變化所確定時,稱這兩種現(xiàn)象間的關(guān)系為完全相關(guān)。在這種場合,相關(guān)關(guān)系便成為函數(shù)關(guān)系。因此也可以說函數(shù)關(guān)系是相關(guān)關(guān)系的一個特例。——當兩個現(xiàn)象彼此互不影響,其數(shù)量變化各自獨立時,稱為不相關(guān)現(xiàn)象?!獌蓚€現(xiàn)象之間的關(guān)系介于完全相關(guān)和不相關(guān)之間,稱為不完全相關(guān),一般的相關(guān)現(xiàn)象都是指這種不完全相關(guān)。2.按相關(guān)形式劃分可以分為線性相關(guān)和非線性相關(guān)。圖中(1)、(2)為線性相關(guān),(3)、(4)為非線性相關(guān)3.按相關(guān)的方向劃分可分為正相關(guān)和負相關(guān)。(1)正相關(guān):兩個相關(guān)現(xiàn)象間,當一個變量的數(shù)值增加(或減少)時,另一個變量的數(shù)值也隨之增加(或減少),即同方向變化?!缡杖肱c消費的關(guān)系。(2)負相關(guān):當一個變量的數(shù)值增加(或減少)時,而另一個變量的數(shù)值相反地呈減少(或增加)趨勢變化,即反方向變化?!缥飪r與消費的關(guān)系。4.按相關(guān)關(guān)系涉及的因素多少劃分分為單相關(guān)、復相關(guān)和偏相關(guān)。兩個變量之間的相關(guān),稱為單相關(guān)。當所研究的是一個變量對兩個或兩個以上其他變量的相關(guān)關(guān)系時,稱為復相關(guān)。在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合,假定其他變量不變,專門考察其中兩個變量的相關(guān)關(guān)系稱為偏相關(guān)。例如,在假定人們的收入水平不變的條件下,某種商品的需求與其價格水平的關(guān)系就是一種偏相關(guān)。三、相關(guān)分析的內(nèi)容1.確定相關(guān)關(guān)系的存在,相關(guān)關(guān)系呈現(xiàn)的的形態(tài)和方向,相關(guān)的密切程度。繪制相關(guān)圖表,計算相關(guān)系數(shù)。2.確定相關(guān)系數(shù)的數(shù)學表達式——回歸分析。3.確定因變量估計值誤差的程度。擬合程度的評價計算估計標準誤第二節(jié)相關(guān)圖表和簡單相關(guān)系數(shù)一、相關(guān)表1.簡單相關(guān)表:將自變量x的數(shù)值按照從小到大的順序,并配合因變量y的數(shù)值一一對應而平行排列的表。例:為了研究分析某種勞務產(chǎn)品完成量與其單位產(chǎn)品成本之間的關(guān)系,調(diào)查30個同類服務公司得到的原始數(shù)據(jù)如表。 整理后有2.分組相關(guān)表:按自變量x分組,并計算次數(shù)f,對應的因變量y不分組,計算其平均數(shù)。二、相關(guān)圖:又稱散點圖。將x置于橫軸上,y置于縱軸上,將(x,y)繪于坐標圖上。三、簡單相關(guān)系數(shù)的計算1.簡單相關(guān)系數(shù):在線性條件下說明兩個變量之間相關(guān)關(guān)系密切程度的統(tǒng)計分析指標,簡稱相關(guān)系數(shù),通常用表示。2.計算:計算相關(guān)系數(shù)的“積差法”3.相關(guān)系數(shù)的特點(1)r的取值介于-1與1之間,r的取值范圍是[-1,1](2)在大多數(shù)情況下,0<|r|<1,即X與Y的樣本觀測值之間存在著一定的線性關(guān)系,當r>0時,X與Y為正相關(guān),當r<0時,X與Y為負相關(guān)。|r|的數(shù)值愈接近于1,表示x與y直線相關(guān)程度愈高;反之,|r|的數(shù)值愈接近于0,表示x與y直線相關(guān)程度愈低。通常判斷的標準是:|r|<0.3稱為微弱相關(guān),0.3≤|r|<0.5稱為低度相關(guān),0.5≤|r|<0.8稱為顯著相關(guān),0.8≤|r|<1稱為高度相關(guān)或強相關(guān)。(3)如果|r|=1,則表明X與Y完全線性相關(guān),當r=1時,稱為完全正相關(guān),而r=-1時,稱為完全負相關(guān)。(4)r是對變量之間線性相關(guān)關(guān)系的度量。r=0只是表明兩個變量之間不存在線性關(guān)系,它并不意味著X與Y之間不存在其他類型的關(guān)系。相關(guān)關(guān)系的測度

(相關(guān)系數(shù)取值及其意義)-1.0+1.00-0.5+0.5完全負相關(guān)無線性相關(guān)完全正相關(guān)負相關(guān)程度增加r正相關(guān)程度增加相關(guān)系數(shù)只度量變量間的線性關(guān)系,因此,弱相關(guān)不一定表明變量間沒有關(guān)系;極端值可能影響相關(guān)系數(shù)。警惕偽相關(guān)。相關(guān)關(guān)系可能是偽相關(guān),即兩變量的相關(guān)只是表面上的,它實際上由第三變量引起,當?shù)谌兞肯r,相關(guān)關(guān)系亦隨之消失。請看下例。偽相關(guān)的例子:教堂數(shù)與監(jiān)獄服刑人數(shù)同步增長美國印第安納州的地區(qū)教會想要籌款興建新教堂,提出教堂能潔凈人們的心靈,減少犯罪,降低監(jiān)獄服刑人數(shù)的口號。為了增進民眾參與的熱誠和信心,教會的神父收集了近15年的教堂數(shù)與在監(jiān)獄服刑的人數(shù)進行統(tǒng)計分析。結(jié)果卻令教會大吃一驚。最近15年教堂數(shù)與監(jiān)獄服刑人數(shù)呈顯著的正相關(guān)。那么是否可以由此得出,教堂建得越多,就可能帶來更多的犯罪呢?2023/1/1024經(jīng)過統(tǒng)計學家和教會神父深入討論,并進一步收集近15年的當?shù)厝丝谧儎淤Y料和犯罪率等資料作進一步分析,發(fā)現(xiàn):監(jiān)獄服刑人數(shù)的增加和教堂數(shù)的增加都與人口的增加有關(guān)。教堂數(shù)的增加并非監(jiān)獄服刑人數(shù)增加的原因。至此,教會人士總算松了一口氣。2023/1/1025還可以有:1234第三節(jié)簡單線性回歸分析相關(guān)分析與回歸分析的關(guān)系一元線性回歸模型擬合程度的評價估計標準誤2023/1/10281877年弗朗西斯?高爾頓爵士在遺傳學研究過程中測量了1078個父親及成年兒子的身高,它們之間的數(shù)量關(guān)系如圖1:2023/1/1029“回歸”一詞的由來:多數(shù)點子位于角平分斜線的兩側(cè)橢圓形面積之內(nèi),落在斜線上的點子極少,即兒子與父親身高完全相同的極少。由點子落在斜線周圍還說明,高個子的父親有著較高身材的兒子,而矮個子父親的兒子身材也比較矮。同時,我們也看到一些遠離斜線的點子,這些點子反映的是父親的身高與兒子的身高相差甚遠的情況。比如高個子的父親有矮兒子的情況,或者矮父親有高個兒子的情況。45°線作相關(guān)分析知道,父親身高和兒子身高的相關(guān)系數(shù)為0.501,表明高個子的父親會有較高的兒子,而低個子父親的兒子也比較低,但這種相關(guān)關(guān)系并不明顯。那么,父子身高之間有什么規(guī)律呢?經(jīng)過對1078對父子身高數(shù)據(jù)的計算,得到:父親的平均身高=67.6英寸≈68英寸兒子的平均身高=68.7英寸≈69英寸兒子的平均身高比父親高一英寸,表明下一代的平均身高比上一代要高?這樣,我們會自然地猜測72英寸的父親平均會有73英寸的兒子;64英寸的父親平均會有65英寸的兒子。2023/1/1030圖2中斜虛線是從父子身高推測的關(guān)系,即58英寸父親有59英寸的兒子,59英寸的父親有60英寸的兒子等等。圖2中的實線是回歸線。2023/1/1031在父親身高64英寸和72英寸處的兩個條形虛線,表明64英寸高父親和72英寸高父親的兒子們身高的分布情況回歸regression平均身高圖2表明64英寸高父親的兒子們的身高多數(shù)高于65英寸,即較矮父親的兒子們多少比父親身材要高。而72英寸高父親的兒子們身高多數(shù)低于73英寸,甚至多數(shù)低于與父親同樣高度的72英寸,即較高父親的兒子們多數(shù)比父親身材要矮。這種現(xiàn)象稱為“回歸效應”即回歸到一般高度的效應。2023/1/1032一、回歸分析與相關(guān)分析的關(guān)系1.相關(guān)分析就是用一個指標來表明現(xiàn)象間相互依存關(guān)系的密切程度。廣義的相關(guān)分析包括相關(guān)關(guān)系的分析(狹義的相關(guān)分析)和回歸分析。2.回歸分析是指對具有相關(guān)關(guān)系的現(xiàn)象,根據(jù)其相關(guān)關(guān)系的具體形態(tài),選擇一個合適的數(shù)學模型(稱為回歸方程式),用來近似地表達變量間的平均變化關(guān)系的一種統(tǒng)計分析方法。

相關(guān)分析回歸分析區(qū)別不必確定自變量和因變量必須事先確定哪個為自變量,哪個為因變量不能指出變量間相互關(guān)系的具體形式能確切的指出變量之間相互關(guān)系的具體形式變量一般都是隨機變量因變量是隨機的,自變量則作為研究時給定的非隨機變量聯(lián)系相關(guān)分析是回歸分析的基礎(chǔ)和前提;回歸分析是相關(guān)分析的深入和繼續(xù)。2023/1/1034二、簡單線性回歸方程回歸方程:經(jīng)整理,得到以下標準方程組b表示自變量x每變動一個計量單位時,因變量y的平均變動值,稱回歸系數(shù)。當b的符號為正時,x和y按相同方向變動,是正相關(guān)關(guān)系;當b的符號為負時,自變量x和因變量y按相反方向變動,是負相關(guān)關(guān)系。解該方程組可得例:現(xiàn)以前例的資料配合回歸直線,計算如下:b表示人口增加量每增加(或減少)1千人,該種食品的年需求量平均來說增加(或減少)0.5301十噸即5.301噸。根據(jù)回歸方程,還可以給出自變量的某一數(shù)值來估計或預測因變量平均可能值。例如,當人口增長量為400千人時,該食品的年需求量為用Excel進行回歸分析第1步:選擇“工具”下拉菜單第2步:選擇“數(shù)據(jù)分析”選項第3步:在分析工具中選擇“回歸”,然后選擇“確定”第4步:當對話框出現(xiàn)時在“Y值輸入?yún)^(qū)域”方框內(nèi)鍵入Y的數(shù)據(jù)區(qū)域在“X值輸入?yún)^(qū)域”方框內(nèi)鍵入X的數(shù)據(jù)區(qū)域在“置信度”選項中給出所需的數(shù)值在“輸出選項”中選擇輸出區(qū)域在“殘差”分析選項中選擇所需的選項Excel的輸出結(jié)果直線回歸方程中的回歸系數(shù)與相關(guān)系數(shù)的關(guān)系:三、一元線性回歸模型的檢驗2023/1/1042回歸模型的檢驗包括理論意義檢驗、一級檢驗和二級檢驗。理論意義檢驗主要涉及參數(shù)估計值的符號和取值區(qū)間,如果它們與實質(zhì)性科學的理論以及人們的實踐經(jīng)驗不相符,就說明模型不能很好地解釋現(xiàn)實的現(xiàn)象。一級檢驗又稱統(tǒng)計學檢驗,它是利用統(tǒng)計學中的抽樣理論來檢驗樣本回歸方程的可靠性,具體又可分為擬合程度評價和顯著性檢驗。一級檢驗是對所有現(xiàn)象進行回歸分析時都必須通過的檢驗。二級檢驗又稱計量經(jīng)濟學檢驗,它是對標準線性回歸模型的假定條件能否得到滿足進行檢驗,具體包括序列相關(guān)檢驗、異方差性檢驗、多重共線性檢驗等。所謂擬合優(yōu)度,是指樣本觀測值聚集在樣本回歸線周圍的緊密程度。測量緊密程度最常用的數(shù)量尺度是樣本判定系數(shù)(又稱決定系數(shù))。它是建立在對總離差平方和進行分解的基礎(chǔ)之上的。2023/1/1043擬合優(yōu)度的評價總離差平方和的分解因變量y的取值是不同的,y取值的這種波動稱為變差。變差來源于兩個方面:由于自變量x的取值不同造成的;除x以外的其他因素(如x對y的非線性影響、測量誤差等)的影響。對一個具體的觀測值來說,離差的大小可以通過該實際觀測值與其均值之差來表示。離差平方和的分解(圖示)xyy{}}離差分解圖離差平方和的分解(三個平方和的關(guān)系)1、從圖上看有2、兩端平方后求和有SST=SSR+SSE殘差平方和(SSE)回歸平方和(SSR)總離差平方和(SST){{{離差平方和的分解(三個平方和的意義)總離差平方和(SST)反映因變量的n個觀察值與其均值的總離差回歸平方和(SSR)反映自變量x的變化對因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的離差平方和。殘差平方和(SSE)反映除x以外的其他因素對y取值的影響,也稱為不可解釋的離差平方和或剩余離差平方和。樣本決定系數(shù)(判定系數(shù))1.回歸平方和占總離差平方和的比例:2.反映回歸直線的擬合程度。3.取值范圍在[0,1]之間。4.1,說明回歸方程擬合的越好;0,說明回歸方程擬合的越差。5.在一元線性回歸模型中,判定系數(shù)等于相關(guān)系數(shù)的平方,即四、估計標準誤差1.定義:是反映觀測值與其估計值的平均差異程度的指標??傻煤喕?.在大樣本(n足夠大)情況下:3.作用(1)說明以回歸方程的估計值的代表性大小。(2)說明x和y的相關(guān)性大小。這時有定性分析是依據(jù)研究者的理論知識和實踐經(jīng)驗,對客觀現(xiàn)象之間是否存在相關(guān)關(guān)系、何種關(guān)系以及自變量因變量的確定作出判斷。定量分析在定性分析的基礎(chǔ)上,通過編制相關(guān)表、繪制相關(guān)圖、計算相關(guān)系數(shù)等方法,來判斷現(xiàn)象之間相關(guān)的方向、形態(tài)及密切程度,以及相應的回歸方程的擬合。五、正確運用回歸分析的條件——在定性的基礎(chǔ)上再進行定量分析。第四節(jié)非線性相關(guān)與回歸分析一、非線性函數(shù)形式的確定在對實際的客觀現(xiàn)象進行定量分析時,選擇回歸方程的具體形式應遵循以下原則:首先,方程形式應與有關(guān)實質(zhì)性科學的基本理論相一致。例如,采用冪函數(shù)的形式,能夠較好地表現(xiàn)生產(chǎn)函數(shù);采用多項式方程能夠較好地反映總成本與總產(chǎn)量之間的關(guān)系等等。其次,方程有較高的擬合程度。因為只有這樣,才能說明回歸方程可以較好地反映現(xiàn)實經(jīng)濟的運行情況。最后,方程的數(shù)學形式要盡可能簡單。如果幾種形式都能基本符合上述兩項要求,則應該選擇其中數(shù)學形式較簡單的一種。一般來說,數(shù)學形式越簡單,其可操作性就越強。(一)拋物線函數(shù)(二)雙曲線函數(shù)(三

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論