多元統(tǒng)計分析簡答題概要_第1頁
多元統(tǒng)計分析簡答題概要_第2頁
多元統(tǒng)計分析簡答題概要_第3頁
多元統(tǒng)計分析簡答題概要_第4頁
多元統(tǒng)計分析簡答題概要_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、簡述多元統(tǒng)計分析中協(xié)差陣檢驗的步驟第一,提出待檢驗的假設(shè)H0和H1;第二,給出檢驗的統(tǒng)計量及其服從的分布;第三,給定檢驗水平,查統(tǒng)計量的分布表,確定相應(yīng)的臨界值,從而得到否定域;第四,根據(jù)樣本觀測值計算出統(tǒng)計量的值,看是否落入否定域中,以便對待判假設(shè)做出決策(拒絕或接受)。協(xié)差陣的檢驗檢驗檢驗統(tǒng)計量2.針對一個總體均值向量的檢驗而言,在協(xié)差陣已知和未知的兩種情形下,如何分別構(gòu)造的統(tǒng)計量?3.作多元線性回歸分析時,自變量與因變量之間的影響關(guān)系一定是線性形式的嗎?多元線性回歸分析中的線性關(guān)系是指什么變量之間存在線性關(guān)系?答:作多元線性回歸分析時,自變量與因變量之間的影響關(guān)系不一定是線性形式。當自變量與因變量是非線性關(guān)系時可以通過某種變量代換,將其變?yōu)榫€性關(guān)系,然后再做回歸分析。多元線性回歸分析的線性關(guān)系指的是隨機變量間的關(guān)系,因變量y與回歸系數(shù)βi間存在線性關(guān)系。多元線性回歸的條件是:(1)各自變量間不存在多重共線性;(2)各自變量與殘差獨立;(3)各殘差間相互獨立并服從正態(tài)分布;(4)Y與每一自變量X有線性關(guān)系。4.回歸分析的基本思想與步驟基本思想:所謂回歸分析,是在掌握大量觀察數(shù)據(jù)的基礎(chǔ)上,利用數(shù)理統(tǒng)計方法建立因變量與自變量之間的回歸關(guān)系函數(shù)表達式(稱回歸方程式)?;貧w分析中,當研究的因果關(guān)系只涉及因變量和一個自變量時,叫做一元回歸分析;當研究的因果關(guān)系涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。此外,回歸分析中,又依據(jù)描述自變量與因變量之間因果關(guān)系的函數(shù)表達式是線性的還是非線性的,分為線性回歸分析和非線性回歸分析。通常線性回歸分析法是最基本的分析方法,遇到非線性回歸問題可以借助數(shù)學手段化為線性回歸問題處理。步驟:1)確定回歸方程中的解釋變量和被解釋變量。2)確定回歸模型

根據(jù)函數(shù)擬合方式,通過觀察散點圖確定應(yīng)通過哪種數(shù)學模型來描述回歸線。如果被解釋變量和解釋變量之間存在線性關(guān)系,則應(yīng)進行線性回歸分析,建立線性回歸模型;如果被解釋變量和解釋變量之間存在非線性關(guān)系,則應(yīng)進行非線性回歸分析,建立非線性回歸模型。3)建立回歸方程

根據(jù)收集到的樣本數(shù)據(jù)以及前步所確定的回歸模型,在一定的統(tǒng)計擬合準則下估計出模型中的各個參數(shù),得到一個確定的回歸方程。4)對回歸方程進行各種檢驗

由于回歸方程是在樣本數(shù)據(jù)基礎(chǔ)上得到的,回歸方程是否真實地反映了事物總體間的統(tǒng)計關(guān)系,以及回歸方程能否用于預(yù)測等都需要進行檢驗。5)利用回歸方程進行預(yù)測5.多重共線性問題、不良后果、解決方法多重共線性是指線性回歸模型中的自變量之間由于存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系而使模型估計失真或難以估計準確。常見的是近似的多重共線性關(guān)系,即存在不全為0的p個常數(shù)C1,C2,…,Cp使得C1Xi1+C2Xi2+…+CpXip≈0,i=1,2,…n不良后果:模型存在完全的多重共線性,則資料陣X的秩<p+1,從而無法得到回歸參數(shù)的估計量。對于近似多重共線性情況,雖有r(X)=p+1,但|XTX|≈0,從而矩陣(XTX)-1的主對角線上的元素很大,使得估計的參數(shù)向量的協(xié)方差陣的對角線上的元素也很大,導(dǎo)致普通最小二乘參數(shù)估計量并非有效。檢驗方法:方差擴大因子(VIF)法和特征根判定法方差擴大因子表達式為:VIFi=1/(1-Ri2),其中Ri為自變量xi對其余自變量作回歸分析的復(fù)相關(guān)系數(shù)。當VIFi很大時,表明自變量間存在多重共線性。解決方法:當發(fā)現(xiàn)自變量存在嚴重的多重共線性時,可以通過剔除一些不重要的自變量、增大樣本容量、對回歸系數(shù)做有偏估計(如采用嶺回歸法、主成分法、偏最小二乘法等)等方法來克服多重共線性。6.為什么要進行回歸方程的顯著性檢驗?答:對于任意給定的一組觀測數(shù)據(jù)(xi1,xi2,...,xip;yi),(i=1,2,...,n),我們都可以建立回歸方程。但實際問題很可能y與自變量x1,x2,...,xp之間根本不存在線性關(guān)系,這時建立起來的回歸方程的效果一定很差,即回歸值yi實際上不能擬合真實的值yi。即使整個回歸方程的效果是顯著的,在多元的情況下,是否每個變量都起著顯著的作用呢?因此還需要對各個回歸系數(shù)進行顯著性檢驗,對于回歸效果不顯著的自變量,我們可以從回歸方程中剔除,而只保留起重要作用的自變量,這樣可以使回歸方程更簡練。7.統(tǒng)計性的依據(jù)是什么?給出一個回歸方程如何做顯著性檢驗?統(tǒng)計性的依據(jù)是方差分析。對于多元線性回歸方程作顯著性檢驗就是要看自變量x1,x2,...xp從整體上對隨機變量y是否有明顯的影響,即檢驗假設(shè)H0:β1=β2=...=βp=0H1:至少有某個βi≠0,1<=i<=p如果H0被接受,則表明y與x1,x2,...xp之間不存在線性關(guān)系,為了說明如何進行檢驗,我們首先要建立方差分析表。在進行顯著性檢驗中,我們可以用F統(tǒng)計量來檢驗回歸方程的顯著性,也可以用P值法做檢驗。F統(tǒng)計量是:F=MSR/MSE=[SSR/p]/[SSE/(n-p-1)]當H0為真時,F(xiàn)~F(p,n-p-1)。給定顯著性水平α,查F分布表得臨界值F1-α(p,n-p-1),計算F的觀測值,若F0<=F1-α(p,n-p-1),則接受H0,即認為在顯著性水平α之下,認為y與x1,x2,...xp之間線性關(guān)系不顯著。利用P值法做顯著性檢驗十分方便,這里的P值是P(F>F0),定顯著性水平α,若p<α,則拒絕H0,反之接受H0。回歸系數(shù)的顯著性檢驗回歸方程通過了顯著性檢驗并不意味著每個自變量xi都對y有顯著影響。而回歸系數(shù)的顯著性檢驗的目的就是從回歸方程中剔除那些對y的影響不顯著的自變量,從而建立一個較為有效的回歸方程。如果自變量xi對y無影響,則在線性模型中,βi=0檢驗xi的影響是否顯著等價于檢驗假設(shè)H0:βi=0,H1:βi≠0對給定的顯著性水平α,當|ti|>tα/2(n-p-1)時,拒絕H0。反之,則接受H0。數(shù)據(jù)的中心化和標準化目的:解決利用回歸方程分析實際問題時遇到的諸多自變量量綱不一致的問題。數(shù)據(jù)中心化處理的幾何意義:相當于將坐標原點移至樣本中心,而坐標系的平移并不改變直線的斜率,只改變了截距。通過對殘差進行分析,可以在一定程度上回答下列問題:1)回歸函數(shù)線性假定的可行性;2)誤差項的等方差假設(shè)的合理性;3)誤差項獨立性假設(shè)的合理性;4)誤差項是否符合正態(tài)分布;5)觀測值中是否存在異常值;6)是否在模型中遺漏了某些重要的自變量。8.標準化回歸方程與非標準化回歸方程有何不同?在怎樣的情況下需要將變量標準化?標準化回歸方程就是將自變量因變量都標準化后的方程。在spss輸出的回歸系數(shù)中有一列是標準化的回歸系數(shù),由于都標準化了,因此標準化方程中沒有常數(shù)項了。對數(shù)據(jù)標準化,即將原始數(shù)據(jù)減去相應(yīng)變量的均數(shù)后再除以該變量的標準差,計算得到的回歸方程稱為標準化回歸方程,相應(yīng)的回歸系數(shù)為標準化回歸系數(shù)。一般情況下的回歸,并不必須標準化,直接回歸即可。在做主成分分析包括因子分析時,則必須標準化。9.回歸分析和相關(guān)分析的區(qū)別和聯(lián)系相關(guān)分析和回歸分析都是對客觀事物數(shù)量依存關(guān)系的分析,均有一元和多元,線性與非線性之分,在應(yīng)用中相互結(jié)合滲透,但仍有差別,主要是:(1)相關(guān)分析主要刻畫兩類變量間線性相關(guān)的密切程度,而回歸分析則是揭示一個變量如何與其他變量相聯(lián)系,并可由回歸方程進行控制和預(yù)測(2)在相關(guān)分析中,變量y與x處于平等的地位,在回歸分析中,因變量y處于被解釋的特殊地位(3)在相關(guān)分析中所涉及的變量y與x完全是隨機變量;而在回歸分析中因變量y是隨機變量,自變量可以是隨機變量也可以是非隨機變量。一般來說,只有存在相關(guān)關(guān)系才可以進行回歸分析,相關(guān)程度越高,回歸分析的結(jié)果就越可靠。10.回歸方程的基本假定?(1)回歸函數(shù)的線性假設(shè)(2)誤差項的等方差假設(shè)(3)誤差項的獨立性假設(shè)(4)誤差項的正態(tài)分布假設(shè)11.運用回歸分析解決問題時,回歸變量的選擇理論依據(jù)的什么?選擇回歸變量時應(yīng)注意哪些問題?(1)從擬合角度考慮,可以采用修正的復(fù)相關(guān)系數(shù)達到最大的準則準則1:修正的復(fù)相關(guān)系數(shù)Ra2達到最大。因為:Ra2=1-MSE/(SST/(n-1))從這個關(guān)系式容易看出,Ra2達到最大時,MSE達到最小。(2)從預(yù)測的角度考慮,可以采用預(yù)測平方和達到最小的準則及Cp準則準則2:預(yù)測平方和PRESSp達到最小準則3:(Cp準則)(3)從極大似然估計角度考慮,可以采用赤池信息量化準則(AIC準則)準則4:赤池信息量達到最小AIC=nln(SSEp)+2p選擇AIC值最小的回歸方程為最優(yōu)回歸方程自變量的選擇問題可以看成是應(yīng)該采用全模型還是選模型的問題全模型正確誤用選模型:全模型相應(yīng)參數(shù)為有偏估計,選模型預(yù)測也是有偏的。選模型的參數(shù)估計和預(yù)測殘差以及均方差都有較小的方差。選模型正確誤用全模型,全模型參數(shù)估計和預(yù)測是有偏估計,而全模型預(yù)測值的方差和均方差大于選模型相應(yīng)的方差。上述結(jié)論說明丟掉那些對應(yīng)變量影響不大的,或雖有影響,但難于觀測的自變量是有利的。12.逐步回歸方法的基本思想與步驟基本思想:有進有出。具體做法是將變量一個一個引入,引入變量的條件是通過了偏F統(tǒng)計量的檢驗,同時,每引入一個新變量后,對已入選方程的老變量進行檢測,將經(jīng)檢驗認為不顯著的變量剔除,此過程經(jīng)過若干步,直到既不能引入新變量又不能剔除老變量為止?;静襟E:(1)對于每個自變量xi(1≤i≤m),擬合m個一元線性回歸模型,若Fi1(1)>FE,則所選擇含有自變量xi1的回歸模型為當前模型,否則,沒有變量引入模型,選擇過程結(jié)束,即認為所有自變量對y的影響均不顯著。(2)在第一步的基礎(chǔ)上,再將其余的m-1個自變量分別加入此模型中,得到m-1個二元回歸方程,若若Fi1(2)>FE則將自變量xi2引入模型,進一步考察xi2引入模型后,xi1對y的影響是否仍顯著,若Fi1(2)≤FD,則剔除xi。(3)在第二步的基礎(chǔ)上再將其余的m-2個自變量分別加入此模型中,擬合各個模型并計算偏F統(tǒng)計量值,與FE比較決定是否又新變量引入,如果有新的變量引入,還需要檢驗原模型中的老變量是否因為這個新變量的引入而不再顯著,那樣就應(yīng)該被剔除。重復(fù)以上步驟,直到?jīng)]有新的變量進入模型,同時在模型中的老變量都不能被剔除,則結(jié)束選擇過程。13.在作判別分析時,如何檢驗判別效果的優(yōu)良性?當一個判別準則提出以后,還要研究其優(yōu)良性,即要考察誤判概率。一般使用以訓練樣本為基礎(chǔ)的回代估計法與交叉確認估計法。(1)誤判率回代估計法回判過程中,用n12表示將本屬于G1的樣本誤判為G2的個數(shù),n21表示將本屬于G2的樣本誤判為G1的個數(shù),總的誤判個數(shù)是n12+n21,誤判率的回代估計為(n12+n21)/(n1+n2),但往往比真實的誤判率要小。(2)誤判率的交叉確認估計每次剔除訓練樣本中的一個樣本,利用其余容量為n1+n2-1個訓練樣本來建立判別準則,再利用所建立的判別準則對刪除的那個樣本作判別,對訓練樣本中的每個樣本做上述分析,以其誤判的比例作為誤判概率的估計。14、簡述費希爾判別法的基本思想。從k個總體中抽取具有p個指標的樣品觀測數(shù)據(jù),借助方差分析的思想構(gòu)造一個線性判別函數(shù)系數(shù):確定的原則是使得總體之間區(qū)別最大,而使每個總體內(nèi)部的離差最小。將新樣品的p個指標值代入線性判別函數(shù)式中求出值,然后根據(jù)判別一定的規(guī)則,就可以判別新的樣品屬于哪個總體。15.Fisher判別法的基本思想基本思想是投影。將k組m元數(shù)據(jù)投影到某一個方向,使得投影后組與組之間盡可能地分開,其中利用了一元差分的思想導(dǎo)出判別函數(shù)。這個函數(shù)可以是線性的,也可以是其他類型的函數(shù)。貝葉斯判別法的基本思想基本思想是假定對所研究是對象(總體)在抽樣前就有一定的認識,常用先驗概率分布來描述這種認識。然后基于抽取的樣本再對先驗概率做修正,得到后驗概率分布,再基于后驗概率分布做判別分析。16.簡述費歇爾準則下兩類判別分析的基本思想。答:費歇爾的判別方法,其基本思想是把p個變量x1,x2,...,xp綜合成一個新變量y,y=c1x1+c2x2+...+cpxp=c’x,也即產(chǎn)生一個綜合判別指標,要求已知的g個類Gk,k=1,2,...,g在這個新變量下能最大程度地區(qū)分開,于是可用這個綜合判別指標判別未知樣品的歸屬。其中c=(c1,c2,cp)’為待定參數(shù)。判別方程除沒有常數(shù)外,與回歸方程非常相似,但兩者有著本質(zhì)的區(qū)別。在回歸方程中,y為因變量,是一個已知的隨機變量,有其樣本測試值,回歸分析的任務(wù)是選擇一組參數(shù),使得根據(jù)回歸方程預(yù)測的因變量的值與實測值盡可能地接近;而判別模型中y只是一個綜合變量,實際上并不存在這樣一個變量,因而也沒有實測值。判別模型的幾何意義是把p維空間的點投影到一維空間(直線)上去,使各已知類在該直線上的投影盡可能分離。17.比較費歇爾準則下的兩類判別方程與回歸方程的異同。為什么判別方程中不需要常數(shù)項?答:除沒有常數(shù)項外,與回歸方程非常相似,但兩者有著本質(zhì)的區(qū)別。在回歸方程中,y為因變量,是一個已知的隨機變量,有其樣本測試值,回歸分析的任務(wù)是選擇一組參數(shù),使得根據(jù)回歸方程預(yù)測的因變量的值與實測值盡可能地接近;而判別模型中y只是一個綜合變量,實際上并不存在這樣一個變量,因而也沒有實測值。判別模型的幾何意義是把p維空間的點投影到一維空間(直線)上去,使各已知類在該直線上的投影盡可能分離。18.判別分析與聚類分析有何不同?聚類分析和判別分析有相似的作用,都是起到分類的作用。但是判別分析是已知分類然后總結(jié)出判別規(guī)則,是一種有指導(dǎo)的學習;而聚類分析則是有了一批樣本,不知道它們的分類,甚至連分成幾類都不知道,希望用某種方法把觀測進行合理的分類,使得同一類的觀測比較接近,不同類的觀測相差較多,這是無指導(dǎo)的學習。所以聚類分析依賴于對觀測間的接近程度(距離)或相似程度的理解,定義不同的距離量度和相似性量度就可以產(chǎn)生不同的聚類結(jié)果。19.簡述聚類分析的基本思想。有哪兩類聚類分析?各自的作用?聚類分析就是根據(jù)空間點群的“親疏”關(guān)系進行分類的一種方法。為此要給出表示空間點與點之間“親疏”關(guān)系的相似性度量,然后討論根據(jù)相似性度量進行點群簇分的方法和應(yīng)用。聚類分析的目的是把分類對象按一定規(guī)則分成若干類,這些類不是事先給定的,而是根據(jù)數(shù)據(jù)的特征確定的。在同一類中這些對象在某種意義上趨向于彼此相似,而在不同類中對象趨向于不相似。聚類分析根據(jù)對象不同分為Q型聚類分析(對樣本進行聚類)和R型聚類(對變量進行聚類)。對樣品或變量進行聚類時,我們常用距離和相似系數(shù)來對樣品或變量之間的相似性進行度量。距離用來度量樣品之間的相似性,而相似系數(shù)常用來度量變量間的相似性。20.距離系數(shù)需要滿足的基本條件?答:點i和點j之間的距離dij可有各種不同的定義,只要其滿足所謂的距離公理:對一切是i,j,dij>=0;dij=0等價于點i和點j為同一點,即X(i)=X(j);對一切的i,j,dij=dji;三角不等式成立,即對一切的i,j,k,有dij<=dik+dkj21.系統(tǒng)聚類法的基本思想和步驟。有哪些常用的系統(tǒng)聚類法?基本思想:(1)將聚類的n個樣品(或者變量)各自看成一類,共有n類;(2)按照事先選定的方法計算每兩類之間的聚類統(tǒng)計量,即某種距離(或者相似系數(shù)),將關(guān)系最密切的兩類并為一類,其余不變,即得n-1類;(3)按前面的計算方法計算新類與其他類之間的距離(或者相似系數(shù)),將關(guān)系最密切的兩類并為一類,其余不變,即得n-2類;(4)如此繼續(xù)下去,直到最后所有樣品(或者變量)歸為一類為止?;静襟E:(1)n個樣品(或者變量)各自成一類,一共有n類。計算兩兩之間的距離,顯然D(Gp,Gq)=dpq,構(gòu)成一個對稱矩陣D(0)=(dij)n×n,其對角線上的元素全為0.(2)選擇D(0)中對角線元素以外的上(或者下)三角部分中的最小元素,設(shè)其為D(Gp,Gq),與其下標相對應(yīng),將類Gp與Gq合并成一個新類,記為Gr。計算Gr與其他類Gk(k≠p,q)之間的距離。(3)在D(0)中劃去與Gp、Gq所對應(yīng)的兩行和兩列,并加入由新類Gr與其他各類之間的距離所組成的一行和一列,得到一個新的n-1階對稱距離矩陣D(1)。(4)由D(1)出發(fā),重復(fù)步驟(2)(3)得到對稱矩陣D(2);再由D(2)出發(fā),重復(fù)步驟(2)(3)得到對稱矩陣D(3),...,依次類推,直到n個樣品(或者變量)聚為一個大類為止。(5)在合并某兩類的過程中記下兩類樣品(或者變量)的編號以及所對應(yīng)的距離(或者相似系數(shù)),并繪制成果聚類圖。(6)決定類的個數(shù)以及聚類結(jié)果。常用的系統(tǒng)聚類法有:最短距離法、最長距離法、中間距離法、重心法、來平均法、離差平方和法22.模糊聚類法的基本思想和步驟基本思想:采用模糊數(shù)學語言對事物按一定的要求進行描述和分類的數(shù)學方法稱為模糊聚類分析,模糊聚類分析一般是指根據(jù)研究對象本身的屬性來構(gòu)造模糊矩陣,并在此基礎(chǔ)上根據(jù)一定的隸屬度來確定聚類關(guān)系,即用模糊數(shù)學的方法把樣本之間的模糊關(guān)系定量的確定,從而客觀且準確地進行聚類。模糊聚類分析所討論的對象,事先沒有給定任何模式供分類參考,要求按照樣本各自的屬性特征加以分類。聚類就是將數(shù)據(jù)集分成多個類或簇,使得各個類之間的數(shù)據(jù)差別應(yīng)盡可能大,類內(nèi)之間的數(shù)據(jù)差別應(yīng)盡可能小,即為“最小化類間相似性,最大化類內(nèi)相似性”原則?;静襟E:(1)選定一種計算距離或相似系數(shù)的公式。(2)由觀測數(shù)據(jù)矩陣計算樣品間的距離dij(1≤i,j≤n)或變量間的相似系數(shù)rij(1≤i,j≤m),形成距離矩陣D=(dij)n×n或相似系數(shù)矩陣R=(rij)m×m(3)將距離矩陣D或相似系數(shù)矩陣R中的元素壓縮到0與1之間,形成模糊矩陣A=(aij)(4)將模糊矩陣A改造成為模糊等價矩陣(5)選取截取水平λ(0<λ<1),對樣本進行模糊聚類(6)按λ的值畫出聚類的譜系圖。23如何確定合理的聚類數(shù)目?聚類數(shù)目的真正確定在于研究的問題是什么,以及事先有無一個大致的判斷標準。分類的數(shù)目應(yīng)該符合使用的目的。確定聚類數(shù)的問題屬于聚類有效性問題。比如在模糊聚類分析中,可以根據(jù)方差分析理論,應(yīng)用混合F統(tǒng)計量來確定最佳分類數(shù)。24、在進行系統(tǒng)聚類分析時,不同的類間距離計算方法有何區(qū)別?請舉例說明。設(shè)dij表示樣品Xi與Xj之間距離,用Dij表示類Gi與Gj之間的距離。(1).最短距離法(2)最長距離法(3)中間距離法 其中-1/4≤β≤0(4)重心法(5)類平均法(6)可變類平均法其中是可變的且<1(7)可變法其中是可變的且<1(8)離差平方和法D25.數(shù)據(jù)變換由于每個樣品各個變量的觀測值具有不同的數(shù)量級和不同的測量單位,所以有必要進行變換,得到無量綱數(shù)據(jù),以消除其中的不合理現(xiàn)象,提高分類效果,常用的數(shù)據(jù)變換方法有:標準化法、正規(guī)化法、極差標準化法、極大值正規(guī)化法、均值正規(guī)化法26.Q型聚類統(tǒng)計量考慮對樣品進行聚類,描述變量之間的接近程度常用“距離”來度量。兩個樣品之間的距離越小,表示兩者之間的共同點越多;距離越大,共同點越少。常用距離有:絕對值距離、歐式距離、閔克夫斯基距離、切比雪夫距離、馬哈拉諾比斯距離27.R型聚類統(tǒng)計量考慮對樣品進行聚類,描述變量之間的接近程度常用“相似系數(shù)”來度量。兩個變量之間的相似系數(shù)的絕對值越接近于1,表示兩者關(guān)系越密切;絕對值越接近于0,關(guān)系越疏遠。常用相似距離有:夾角余弦和相似系數(shù)。28.簡述主成分分析的基本思想。答:主成分分析的基本思想是構(gòu)造原始變量的適當?shù)木€性組合,以產(chǎn)生一系列互不相關(guān)的新變量,從中選出少量幾個新變量并使它們含有足夠多的原始變量帶有的信息,從而使得用這幾個新變量代替原始變量分析問題和解決問題成為可能。29.主成分的求取首先,求其協(xié)方差矩陣Σ的各特征值及相應(yīng)的正交單位化特征向量,然后,以特征值從大到小所對應(yīng)的特征向量為組合系數(shù)所得到的X1,X2,...,Xp的線性組合分別取作X的第一、第二、直至第p個主成分,而各主成分的方差等于相應(yīng)的特征值。30.主成分分析的基本思想,可以做什么應(yīng)用及在應(yīng)用中要選幾個主成分?主成分分析的基本思想:構(gòu)造原始變量的適當?shù)木€性組合,以產(chǎn)生一系列互不相關(guān)的新變量,從中選出少量幾個新變量并使它們含有足夠多的原始變量帶有的信息,從而使得用這幾個新變量代替原始變量分析問題和解決問題成為可能。通常變量中所含信息的多少用該變量的方差(或樣本方差)來度量,這是經(jīng)典的信息量的表示方法。解決的問題:(1)研究的問題當中,隨機變量的個數(shù)比較大,將增大計算量和分析問題的復(fù)雜性;(2)隨機變量之間存在著一定的相關(guān)性,它們的觀測樣本所反映的信息在一定程度上存在著重疊的。一般地,在約束條件①liTli=1②Cov(Yi,Yk)=liTΣlk=0,k=1,2,...,i-1之下,使得Var(Yi)達到最大,由此li確定的Yi=liTX稱為X1,X2,...,Xp的第i個主成分。31.比較主成分分析與判別分析的基本思想。主成分分析就是一種通過降維技術(shù)把多個指標約化為少數(shù)幾個綜合指標的統(tǒng)計分析方法。其基本思想是:設(shè)法將原來眾多具有一定相關(guān)性的指標(設(shè)為p個),重新組合成一組新的相互無關(guān)的綜合指標來代替原來指標。數(shù)學上的處理就是將原來P個指標作線性組合,作為新的指標。第一個線性組合,即第一個綜合指標記為Y1,為了使該線性組合具有唯一性,要求在所有線性組合中Y1的方差最大,即Var(Y1)越大,那么包含的信息越多。如果第一個主成分不足以代表原來p個指標的信息,再考慮選取第二個主成分Y2,并要求Y1已有的信息不出現(xiàn)在Y2中,即主成分分析是將分散在一組變量上的信息集中到某幾個綜合指標上的探索性統(tǒng)計分析方法。以便利用主成分描述數(shù)據(jù)集內(nèi)部結(jié)構(gòu),實際上也起著數(shù)據(jù)降維作用。聚類分析的目的是把分類對象按一定規(guī)則分成若干類,這些類不是事先給定的,而是根據(jù)數(shù)據(jù)的特征確定的。在同一類中這些對象在某種意義上趨向于彼此相似,而在不同類中對象趨向于不相似。聚類分析根據(jù)對象不同可分為Q型聚類分析(對樣本進行聚類)和R型聚類分析(對變量進行聚類)。對樣本或變量進行聚類時,我們常用距離和相似系數(shù)來對樣品或變量之間的相似性進行度量。距離常用來度量樣品之間的相似性,而相似系數(shù)常用來度量變量間的相似性。32、簡述典型變量與典型相關(guān)系數(shù)的概念,并說明典型相關(guān)分析的基本思想。在每組變量中找出變量的線性組合,使得兩組的線性組合之間具有最大的相關(guān)系數(shù)。選取和最初挑選的這對線性組合不相關(guān)的線性組合,使其配對,并選取相關(guān)系數(shù)最大的一對,如此下去直到兩組之間的相關(guān)性被提取完畢為止。被選出的線性組合配對稱為典型變量,它們的相關(guān)系數(shù)稱為典型相關(guān)系數(shù)。33.因子分析的基本思想?因子分析是主成分分析的推廣,它也是利用降維的思想,從研究原始變量相關(guān)矩陣內(nèi)部結(jié)構(gòu)出發(fā),把一些具有錯綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子的多元統(tǒng)計分析方法,因子分析的基本思想是根據(jù)相關(guān)性大小將變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,不同組的變量相關(guān)性較低。每一組變量代表一個基本結(jié)構(gòu),用一個不可觀測的綜合變量表示,這個基本結(jié)構(gòu)稱為公共因子。對于所研究的問題就可用最少個數(shù)的不可觀測的所謂公共因子的線性函數(shù)與特殊因子之和來描述原來觀測的每一分量。34、比較主成分分析與因子分析的異同點。相同點:①兩種分析方法都是一種降維、簡化數(shù)據(jù)的技術(shù)。②兩種分析的求解過程是類似的,都是從一個協(xié)方差陣出發(fā),利用特征值、特征向量求解。因子分析可以說是主成分分析的姐妹篇,將主成分分析向前推進一步便導(dǎo)致因子分析。因子分析也可以說成是主成分分析的逆問題。如果說主成分分析是將原指標綜合、歸納,那么因子分析可以說是將原指標給予分解、演繹。主要區(qū)別是:主成分分析本質(zhì)上是一種線性變換,將原始坐標變換到變異程度大的方向上為止,突出數(shù)據(jù)變異的方向,歸納重要信息。而因子分析是從顯在變量去提煉潛在因子的過程。此外,主成分分析不需要構(gòu)造分析模型而因子分析要構(gòu)造因子模型。35、簡述相應(yīng)分析的基本思想。相應(yīng)分析指受制于某個載體總體的兩個因素為A和B,其中因素A包含r個水平,即A1,A2,…,Ar;因素B包含即c個水平,即B1,B2,…,Bc。對這兩組因素作隨機抽樣調(diào)查,記為得到一個r×c的二維列聯(lián)表,記為K=(Kij)r×c,主要目的是尋求列聯(lián)表行因素A和列因素B的基本分析特征和它們的最優(yōu)聯(lián)立表示?;舅枷霝橥ㄟ^列聯(lián)表的轉(zhuǎn)換,使得因素A和列因素B具有對等性,這樣就可以用相同的因子軸同時描述兩個因素各個水平的情況,把兩個因素的各個水平的狀況同時反映到具有相同坐標軸的因子平面上,直觀地描述兩個因素A和因素B以及各個水平之間的相關(guān)關(guān)系。36、進行相應(yīng)分析時在對因素A和因素B進行相應(yīng)分析之前有沒有必要進行獨立性檢驗?為什么?有必要,如果因素A和因素B獨立,則沒有必要進行相應(yīng)分析;如果因素A和因素B不獨立,可以進一步通過相應(yīng)分析考察兩因素各個水平之間的相關(guān)關(guān)系。37.解釋因子分析模型中,變量共同度與公因子方差貢獻的統(tǒng)計意義。為什么有時候需要作因子旋轉(zhuǎn)?有哪些估計因子得分的方法?因子得分的計算是不是通常意義下的參數(shù)估計?變量共同度的統(tǒng)計意義:Xi*=ai1F1+...+aimFm+εi兩邊求方差Var(Xi)=a2i1Var(F1)+...+a2imVar(Fm)+Var(εi)1=Σaij2+σi2=hi2+σi2所有的公共因子和特殊因子對變量Xi*的貢獻為1。hi2反映了全部公共因子對變量Xi*影響,是全部公共因子對變量方差所作出的貢獻,或者說Xi*對公共因子的共同依賴程度,稱為公共因子對變量Xi*的方差貢獻。hi2接近于1,表明該變量的原始信息幾乎都被選取的公共因子說明了。σi2特殊因子的方差,反映了原有變量方差中無法被公共因子描述的比例。公因子方差貢獻的統(tǒng)計意義:是衡量公共因子相對重要性的指標,gj2越大,表明公共因子Fj對x的貢獻越大,或者說對x的影響和作用就越大。一個正交變換對應(yīng)坐標系的旋轉(zhuǎn),而且主因子的任一解均可由已求得的A經(jīng)過旋轉(zhuǎn)(右乘一個正交陣)得到。經(jīng)過旋轉(zhuǎn)后,公共因子對xi的貢獻hi2并不改變,但公共因子本身可能有較大變化,即gj2不再與原來的值相同,從而可通過適當?shù)男D(zhuǎn)來得到我們比較滿意的公共因子。估計因子得分的方法較多,常用的有回歸估計法,Bartlett估計法,Thomson估計法。⑴回歸估計法F=Xb=X(X¢X)-1A¢=XR-1A¢(這里R為相關(guān)陣,且R=X¢X)。⑵Bartlett估計法Bartlett估計因子得分可由最小二乘法或極大似然法導(dǎo)出。F=[(W-1/2A)¢W-1/2A]-1(W-1/2A)¢W-1/2X=(A¢W-1A)-1A¢W-1X⑶Thomson估計法在回歸估計法中,實際上是忽略特殊因子的作用,取R=X¢X,若考慮特殊因子的作用,此時R=X¢X+W,于是有:F=XR-1A¢=X(X¢X+W)-1A¢這就是Thomson估計的因子得分,使用矩陣求逆算法(參考線性代數(shù)文獻)可以將其轉(zhuǎn)換為:F=XR-1A¢=X(I+A¢W-1A)-1W-1A¢將公共因子用變量的線性組合來表示,也即由地區(qū)經(jīng)濟的各項指標值來估計它的因子得分。設(shè)公共因子F由變量x表示的線性組合為:Fj=uj1xj1+uj2xj2+…+ujpxjpj=1,2,…,m但因子得分函數(shù)中方程的個數(shù)m小于變量的個數(shù)p,所以并不能精確計算出因子得分,只能對因子得分進行估計。38.試比較主成分分析、因子分析、對應(yīng)分析這三種方法的異同之處并簡要介紹它們的應(yīng)用。主成分分析的基本思想是構(gòu)造原始變量的適當?shù)木€性組合,以產(chǎn)生一系列互不相關(guān)的新變量,從中選出少量幾個新變量并使它們含有足夠多的原始變量帶有的信息,從而使得用這幾個新變量代替原始變量分析問題和解決問題成為可能。通常變量中所含信息的多少用該變量的方差(或樣本方差)來度量,這是經(jīng)典的信息量的表示方法。例如,高??蒲袪顩r評價中的立項課題數(shù)與項目經(jīng)費、經(jīng)費支出等之間會存在較高的相關(guān)性;學生綜合評價研究中的專業(yè)基礎(chǔ)課成績與專業(yè)課成績、獲獎學金次數(shù)等之間也會存在較高的相關(guān)性。利用主成分分析既可以大大減少參與建模的變量個數(shù),同時也不會造成信息的大量丟失。能夠有效降低變量維數(shù)。因子分析是主成分分析的推廣,它也是利用降維的思想,從研究原始變量相關(guān)矩陣內(nèi)部結(jié)構(gòu)出發(fā),把一些具有錯綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子的多元統(tǒng)計分析方法,因子分析的基本思想是根據(jù)相關(guān)性大小將變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,不同組的變量相關(guān)性較低。每一組變量代表一個基本結(jié)構(gòu),用一個不可觀測的綜合變量表示,這個基本結(jié)構(gòu)稱為公共因子。對于所研究的問題就可用最少個數(shù)的不可觀測的所謂公共因子的線性函數(shù)與特殊因子之和來描述原來觀測的每一分量。例如,某企業(yè)招聘人才,對每位應(yīng)聘者進行外貿(mào)、申請書的形式、專業(yè)能力、討人喜歡的能力、自信心、洞察力、誠信、推銷本領(lǐng)、經(jīng)驗、工作態(tài)度、抱負、理解能力、潛在能力、實際能力、適應(yīng)性的15個方面考核。這15個方面可歸結(jié)為應(yīng)聘者的表現(xiàn)力、親和力、實踐經(jīng)驗、專業(yè)能力4個方面,每一方面稱為一個公告因子。企業(yè)可根據(jù)這4個公共因子的情況來衡量應(yīng)聘者的綜合水平。對應(yīng)分析是因子分析的進一步推廣,也稱關(guān)聯(lián)分析、R-Q型因子分析,是近年新發(fā)展起來的一種多元相依變量統(tǒng)計分析技術(shù),通過分析由定性變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系??梢越沂就蛔兞康母鱾€類別之間的差異,以及不同變量各個類別之間的對應(yīng)關(guān)系。對應(yīng)分析的基本思想是將一個聯(lián)列表的行和列中各元素的比例結(jié)構(gòu)以點的形式在較低維的空間中表示出來。它最大特點是能把眾多的樣品和眾多的變量同時作到同一張圖解上,將樣品的大類及其屬性在圖上直觀而又明了地表示出來,具有直觀性。另外,它還省去了因子選擇和因子軸旋轉(zhuǎn)等復(fù)雜的數(shù)學運算及中間過程,可以從因子載荷圖上對樣品進行直觀的分類,而且能夠指示分類的主要參數(shù)(主因子)以及分類的依據(jù),是一種直觀、簡單、方便的多元統(tǒng)計方法。相應(yīng)分析指受制于某個載體總體的兩個因素為A和B,其中因素A包含r個水平,即A1,A2,…,Ar;因素B包含即c個水平,即B1,B2,…,Bc。對這兩組因素作隨機抽樣調(diào)查,記為得到一個r×c的二維列聯(lián)表,記為K=(Kij)r×c,主要目的是尋求列聯(lián)表行因素A和列因素B的基本分析特征和它們的最優(yōu)聯(lián)立表示?;舅枷霝橥ㄟ^列聯(lián)表的轉(zhuǎn)換,使得因素A和列因素B具有對等性,這樣就可以用相同的因子軸同時描述兩個因素各個水平的情況,把兩個因素的各個水平的狀況同時反映到具有相同坐標軸的因子平面上,直觀地描述兩個因素A和因素B以及各個水平之間的相關(guān)關(guān)系。共同點:(1)都是用少數(shù)的幾個變量(因子)來反映原始變量(因子)的主要信息。并且新的變量彼此不相關(guān),消除了多重共線性。(2)求解過程是類似的,都是從一個協(xié)方差陣出發(fā),利用特征值、特征向量求解。不同點:(1)相對于主成分分析,因子分析更傾向于描述原始變量之間的相關(guān)關(guān)系。(2)線性表示方向不同,因子分析和對應(yīng)分析是把變量表示成公共因子的線性組合,而主成分分析則是把主成分表示成各變量的線性組合。(3)主成分分析本質(zhì)上是一種線性變換,將原始坐標變換到變異程度大的方向上為止,突出數(shù)據(jù)變異的方向,歸納重要信息。而因子分析和對應(yīng)分析是從顯在變量去提煉潛在因子的過程。此外,主成分分析不需要構(gòu)造分析模型而因子分析和對應(yīng)分析要構(gòu)造因子模型。(4)對應(yīng)分析克服了因子分析的不足之處,可以尋找出R型和Q型分析間的內(nèi)在聯(lián)系,由R型分析的結(jié)果可以方便地得到Q型分析結(jié)果,克服了做Q型分析樣品容量n很大時計算上的困難。40.因子分析的一般步驟1)將原始數(shù)據(jù)標準化2)建立變量的相關(guān)系數(shù)矩陣R3)求R的特征根及相應(yīng)的單位特征向量,根據(jù)累積貢獻率要求,取前m個特征根及相應(yīng)的特征向量,寫出因子載荷陣A4)對A施行因子旋轉(zhuǎn)5)計算因子得分41.試述主成分分析的基本思想。由協(xié)方差矩陣出發(fā)和由相關(guān)系數(shù)矩陣出發(fā)求主成分有何不同?答:主成分分析的基本思想是構(gòu)造原始變量的適當?shù)木€性組合,以產(chǎn)生一系列互不相關(guān)的新變量,從中選出少量幾個新變量并使它們含有足夠多的原始變量帶有的信息,從而使得用這幾個新變量代替原始變量分析問題和解決問題成為可能。一般而言,對于度量單位不同的指標或是取值范圍彼此差異非常大的指標,我們不直接由其協(xié)方差矩陣出發(fā)進行主成分分析,而應(yīng)該考慮將數(shù)據(jù)標準化,由相關(guān)陣出發(fā)求解主成分。對同度量或是取值范圍在同量級的數(shù)據(jù),還是直接從協(xié)方差矩陣求解主成分為宜。相關(guān)陣求得的主成分與協(xié)差陣求得的主成分一般情況是不相同的。實際表明,這種差異有時很大。由協(xié)方差陣出發(fā)求解主成分所得的結(jié)果及由相關(guān)陣出發(fā)求解主成分所得的結(jié)果有很大不同,所得主成分解釋原始變量方差比例與主成分表達式均有顯著差別,且兩者之間不存在簡單的線性關(guān)系。42.如果回歸方程通過了顯著性檢驗而有部分系數(shù)(變量)沒有通過顯著性檢驗,你覺得應(yīng)該如何處理?談?wù)勀銓貧w方程形式設(shè)定和自變量選擇的想法或經(jīng)驗。答:根絕具體情況,找準原因。如果是變量對Y有很強的影響,而該變量對應(yīng)的系數(shù)卻沒有通過檢驗,則修改回歸模型。常用的可選的回歸方程形式有:線性函數(shù)、線性對數(shù)函數(shù)、倒數(shù)函數(shù)、線性多項式函數(shù)、交互作用函數(shù)等等。選擇的標準:第一,看散點圖,根據(jù)散點圖的形態(tài)進行選擇;第二,經(jīng)濟實質(zhì),這個根據(jù)回歸系數(shù)的含義;第三,數(shù)據(jù)特征,有的是絕對數(shù)據(jù)有的是相對數(shù)據(jù)。但是,以上這些判斷非常依賴經(jīng)驗,經(jīng)驗不足的話可以進行試錯,對于樣本選擇所有的函數(shù)形式進行回歸,再根據(jù)回歸統(tǒng)計量的優(yōu)劣確定最佳的函數(shù)形式。自變量的選擇問題可以看成是應(yīng)該采用全模型還是選模型的問題全模型正確誤用選模型:全模型相應(yīng)參數(shù)為有偏估計,選模型預(yù)測也是有偏的。選模型的參數(shù)估計和預(yù)測殘差以及均方差都有較小的方差。選模型正確誤用全模型,全模型參數(shù)估計和預(yù)測是有偏估計,而全模型預(yù)測值的方差和均方差大于選模型相應(yīng)的方差。上述結(jié)論說明丟掉那些對應(yīng)變量影響不大的,或雖有影響,但難于觀測的自變量是有利的。43.簡述動態(tài)聚類法的基本思想和步驟,在實際應(yīng)用中如何確定合理的聚類數(shù)目?答:基本思想:首先選擇若干個樣本作為聚類中心,再按照事先確定的聚類準則進行聚類。在聚類過程中,根據(jù)聚類準則對聚類中心反復(fù)修改,直到分類合理為止。步驟:(1)選擇凝聚點,凝聚點就是一批有代表性的樣品??梢詰{經(jīng)驗選擇,或?qū)⑺袠悠冯S機分成k份,計算每一類的均值,將這些均值作為凝聚點;也可以采用最大最小原則或密度法。(2)初始分類(3)判斷分類是否合理,若不合理,則修改分類,重復(fù)步驟(2)(4)至分類結(jié)果合理,結(jié)束分類。聚類數(shù)目的真正確定在于研究的問題是什么,以及事先有無一個大致的判斷標準。分類的數(shù)目應(yīng)該符合使用的目的。確定聚類數(shù)的問題屬于聚類有效性問題。比如在模糊聚類分析中,可以根據(jù)方差分析理論,應(yīng)用混合F統(tǒng)計量來確定最佳分類數(shù)。44.試述有序樣品最優(yōu)分割法的基本思想和步驟。答:基本思想:先將n個樣品看成一類,然后依據(jù)分類的誤差函數(shù)逐漸增加分類。步驟:1)計算類的直徑{D(I,j)}2)計算最小分類損失函數(shù)L[b(n,K)]3)決定K4)最優(yōu)解分類45.簡要介紹逐步回歸的基本思想和步驟,實際應(yīng)用中,如何確定最優(yōu)的回歸方程?答:基本思想:有進有出。具體做法是將變量一個一個引入,引入變量的條件是通過了偏F統(tǒng)計量的檢驗,同時,每引入一個新變量后,對已入選方程的老變量進行檢測,將經(jīng)檢驗認為不顯著的變量剔除,此過程經(jīng)過若干步,直到既不能引入新變量又不能剔除老變量為止?;静襟E:(1)對于每個自變量xi(1≤i≤m),擬合m個一元線性回歸模型,若Fi1(1)>FE,則所選擇含有自變量xi1的回歸模型為當前模型,否則,沒有變量引入模型,選擇過程結(jié)束,即認為所有自變量對y的影響均不顯著。(2)在第一步的基礎(chǔ)上,再將其余的m-1個自變量分別加入此模型中,得到m-1個二元回歸方程,若若Fi1(2)>FE則將自變量xi2引入模型,進一步考察xi2引入模型后,xi1對y的影響是否仍顯著,若Fi1(2)≤FD,則剔除xi。(3)在第二步的基礎(chǔ)上再將其余的m-2個自變量分別加入此模型中,擬合各個模型并計算偏F統(tǒng)計量值,與FE比較決定是否又新變量引入,如果有新的變量引入,還需要檢驗原模型中的老變量是否因為這個新變量的引入而不再顯著,那樣就應(yīng)該被剔除。重復(fù)以上步驟,直到?jīng)]有新的變量進入模型,同時在模型中的老變量都不能被剔除,則結(jié)束選擇過程。最優(yōu)回歸方程的選擇準則:(1)基于RSS的自變量的選擇準則(2)Cp統(tǒng)計量,Cp愈小愈好具體方法:(1)從變量所有可能組合的回歸方程中選擇最優(yōu)者(2)前進法與后退法(3)逐步回歸法46.簡述典型相關(guān)分析的基本思想與步驟,試舉例說明它的應(yīng)用。答:基本思想:在每組變量中找出變量的線性組合,使得兩組的線性組合之間具有最大的相關(guān)系數(shù)。選取和最初挑選的這對線性組合不相關(guān)的線性組合,使其配對,并選取相關(guān)系數(shù)最大的一對,如此下去直到兩組之間的相關(guān)性被提取完畢為止。步驟:(1)確定典型相關(guān)分析的目標(2)設(shè)計典型相關(guān)分析(3)檢驗典型相關(guān)分析的基本假設(shè)(4)估計典型模型,評價模型擬合程度(5)解釋典型變量(6)驗證模型典型相關(guān)分析的用途很廣。在實際分析問題中,當我們面臨兩組多變量數(shù)據(jù),并希望研究兩組變量之間的關(guān)系時,就要用到典型相關(guān)分析。例如,為了研究擴張性財政政策實施以后對宏觀經(jīng)濟發(fā)展的影響,就需要考察有關(guān)財政政策的一系列指標如財政支出總額的增長率、財政赤字增長率、國債發(fā)行額的增長率、稅率降低率等與經(jīng)濟發(fā)展的一系列指標如國內(nèi)生產(chǎn)總值增長率、就業(yè)增長率、物價上漲率等兩組變量之間的相關(guān)程度。47.多元線性回歸方程有哪些基本假定?在實際應(yīng)用中,若這些假定并不滿足,會造成怎樣的不良后果?答:多元線性回歸模型的基本假定有:零均值假定、隨機項獨立同方差假定、解釋變量的非隨機性假定、解釋變量之間不存在線性相關(guān)關(guān)系假定、隨機誤差項μi服從均值為0方差為σ2的正態(tài)分布假定。在證明最小二乘估計量的無偏性中,利用了解釋變量與隨機誤差項不相關(guān)的假定;在有效性的證明中,利用了隨機項獨立同方差假定。若這些假定不滿足,會遇到較多問題,主要有多重共線性問題以及自相關(guān)、異方差等問題。48.回歸系數(shù)的普通最小二乘估計具有哪些統(tǒng)計性質(zhì)?要想獲得理想的系數(shù)估計以及較好的預(yù)測效果,對觀測樣本有何要求?答:1)線性。估計量βi是yi的線性函數(shù);2)無偏性。βi是βi的無偏估計。3)有效性。估計量在所有的無偏估計量中有最小方差。觀測樣本的x取值要盡可能分散些,樣本容量也盡可能大些。49.試解釋回歸方程的樣本決定系數(shù)和檢驗回歸方程顯著性的P值的含義。答:樣本決定系數(shù)用回歸平方和與總離差平方和的比例來表示,是用來評判一個模型擬合優(yōu)度的標準。其值越接近于1,意味著模型的擬合優(yōu)度越高。P值是P(F>F0),它表示第一、第二自由度分別為p,n-p-1的F變量取值大于F0的概率。50.如何考慮兩個自變量對因變量的交叉作用?對于實際應(yīng)用問題,如何設(shè)定回歸方程的形式?答:若某一自變量的單獨效應(yīng)隨另一自變量的變化而變化時,說明兩自變量間有交叉作用。檢驗兩自變量間有無交叉作用,普遍的做法是在方程中加入它們的乘積再做檢驗,如考察x1,x2間的交叉作用,可在模型中加入x1x2項?;蚴峭ㄟ^兩變量不同水平的均數(shù)作線圖,得到交互作用圖,若圖中兩條直線幾乎平行,則說明兩交叉作用很小或不存在。反之,若兩條直線互不平行,則說明兩變量可能存在交叉作用,需要進一步假設(shè)檢驗進行確認。回歸方程的形式應(yīng)包含某些變量的高次項或交叉乘積項。51.如何考察自變量之間是否存在多重共線性問題?如果存在多重共線性,會有怎樣的不良后果?如何在盡量不降低模型解釋能力的前提下消除多重共線性問題?答:多重共線性可從以下幾個方面識別:1)變量的重要性與專業(yè)不符2)R2高,但各自變量對應(yīng)的回歸系數(shù)均不顯著3)方差膨脹因子(VIF)>104)回歸系數(shù)的符號與專業(yè)知識不符不良后果:1)參數(shù)估計值的標準誤差變得很大,從而t值變得很小2)回歸方程不穩(wěn)定,增加或減少某幾個觀察值,估計值可以發(fā)生很大變化3)t檢驗不準確,誤將應(yīng)保留在方程中的重要變量舍棄4)估計值的客觀符號與客觀實際不一致解決方法:當發(fā)現(xiàn)自變量存在嚴重的多重共線性時,可以通過剔除一些不重要的自變量、增大樣本容量、對回歸系數(shù)做有偏估計(如采用嶺回歸法、主成分法、偏最小二乘法等)等方法來克服多重共線性。52.如何診斷數(shù)據(jù)中的異常數(shù)據(jù)?是否只要存在異常數(shù)據(jù),都會對回歸方程的參數(shù)估計以及預(yù)測效果造成較大的影響?為什么?答:在常規(guī)回歸模型中,異常值是指對既定模型偏離較大的數(shù)據(jù)點。通過建立數(shù)據(jù)刪除模型來分析某一數(shù)據(jù)點對回歸分析的影響,如果該點對回歸方程估計量的影響超過臨界值,那么就判定該點為異常值。可以從殘差分布的角度分析預(yù)測值與實際值之差的誤差百分率的分布是否服從某種分布,并在該分布下檢驗誤差百分率這列數(shù)據(jù)中的異常值。可以根據(jù)杠桿值、庫克距離、標準化回歸系數(shù)的變化和標準化預(yù)測值的變化來探測解釋變量中的異常值。53.為什么要對回歸方程和變量進行檢驗?答:對回歸方程的檢驗是指對模型中被解釋變量與解釋變量之間的線性關(guān)系在總體上是否顯著成立。對變量檢驗的目的是檢驗解釋變量對被解釋變量的單獨作用是否顯著,為某個解釋變量是否保留在模型中,提供重要參考依據(jù)。54.如何解釋多元線性回歸系數(shù)的含義?如何度量回歸方程擬合優(yōu)度?擬合優(yōu)度的好壞是否可作為回歸方程優(yōu)劣是重要標志?答:回歸系數(shù)表示自變量x對因變量y的影響程度。回歸系數(shù)越大表示x對y影響越大,正的回歸系數(shù)表示y隨x增大而增大,負的回歸系數(shù)表示y隨x增大而減小。用樣本決定系數(shù)(回歸平方和與總離差平方和的比例)作為評判一個模型擬合優(yōu)度的標準。擬合優(yōu)度的好壞可以作為回歸方程優(yōu)劣的重要標志,但不是判斷模型質(zhì)量的唯一標準,有時為了追求模型的實際意義,可以在一定程度上放寬對擬合優(yōu)度的要求。55.作因子分析時,如何確定公共因子的個數(shù)?如何解釋這些公共因子的實際意義?答:有3個方法可以用來確定因子的個數(shù):1)方差貢獻率2)設(shè)定特征值條件3)碎石圖公共因子的實際意義,需結(jié)合具體問題來定。56.主成分分析與因子分析有哪些應(yīng)用?答:主成分分析是構(gòu)造原始變量的適當線性組合,以產(chǎn)生一系列互不相關(guān)的變量,并從中選取少量幾個新變量來分析和解決問題,例如高??蒲袪顩r評價中的立項課題數(shù)與項目經(jīng)費、經(jīng)費支出等之間會存在較高的相關(guān)性;學生綜合評價研究中的專業(yè)基礎(chǔ)課成績與專業(yè)課成績、獲獎學金次數(shù)等之間也會存在較高的相關(guān)性。利用主成分分析既可以大大減少參與建模的變量個數(shù),同時也不會造成信息的大量丟失。能夠有效降低變量維數(shù)。因子分析是主成分分析的推廣,它也是利用降維的思想,從研究原始變量相關(guān)矩陣內(nèi)部結(jié)構(gòu)出發(fā),把一些具有錯綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子的多元統(tǒng)計分析方法。例如,某企業(yè)招聘人才,對每位應(yīng)聘者進行外貿(mào)、申請書的形式、專業(yè)能力、討人喜歡的能力、自信心、洞察力、誠信、推銷本領(lǐng)、經(jīng)驗、工作態(tài)度、抱負、理解能力、潛在能力、實際能力、適應(yīng)性的15個方面考核。這15個方面可歸結(jié)為應(yīng)聘者的表現(xiàn)力、親和力、實踐經(jīng)驗、專業(yè)能力4個方面,每一方面稱為一個公告因子。企業(yè)可根據(jù)這4個公共因子的情況來衡量應(yīng)聘者的綜合水平。57.距離判別法采用何種距離?這種距離有什么特點?答:距離判別法采用馬氏距離。其特點有:1)兩點之間的馬氏距離與原始數(shù)據(jù)的測量單位無關(guān)。2)標準化數(shù)據(jù)和中心化數(shù)據(jù)(即原始數(shù)據(jù)與均值之差)計算出的二點之間的馬氏矩離相同。3)

可以排除變量之間的相關(guān)性的干擾。4)滿足距離的四個基本公理:非負性、自反性、對稱性和三角不等式。58.變量間的統(tǒng)計關(guān)系和函數(shù)關(guān)系的本質(zhì)區(qū)別是什么?答:變量間的統(tǒng)計關(guān)系是指變量間具有密切關(guān)聯(lián)而又不能由某一個或某一些變量唯一確定另外一個變量的關(guān)系,而變量間的函數(shù)關(guān)系是指由一個變量唯一確定另外一個變量的確定關(guān)系。59.回歸模型中隨機誤差項ε的意義是什么?答:ε為隨機誤差項,正是由于隨機誤差項的引入,才將變量間的關(guān)系描述為一個隨機方程,使得我們可以借助隨機數(shù)學方法研究y與x1,x2?..xp的關(guān)系,由于客觀經(jīng)濟現(xiàn)象是錯綜復(fù)雜的,一種經(jīng)濟現(xiàn)象很難用有限個因素來準確說明,隨機誤差項可以概括表示由于人們的認識以及其他客觀原因的局限而沒有考慮的種種偶然因素。60.回歸分析與相關(guān)分析的聯(lián)系與區(qū)別是什么?答:聯(lián)系有回歸分析和相關(guān)分析都是研究變量間關(guān)系的統(tǒng)計學課題。區(qū)別有a.在回歸分析中,變量y稱為因變量,處在被解釋的特殊地位。在相關(guān)分析中,變量x和變量y處于平等的地位,即研究變量y與變量x的密切程度與研究變量x與變量y的密切程度是一回事。b.相關(guān)分析中所涉及的變量y與變量x全是隨機變量。而在回歸分析中,因變量y是隨機變量,自變量x可以是隨機變量也可以是非隨機的確定變量。C.相關(guān)分析的研究主要是為了刻畫兩類變量間線性相關(guān)的密切程度。而回歸分析不僅可以揭示變量x對變量y的影響大小,還可以由回歸方程進行預(yù)測和控制。61.線性回歸模型的基本假設(shè)是什么?答:線性回歸模型的基本假設(shè)有:1.解釋變量x1.x2?.xp是非隨機的,觀測值xi1.xi2?..xip是常數(shù)。2.等方差及不相關(guān)的假定條件為{E(εi)=0i=1,2?.Cov(εi,εj)={σ^23.正態(tài)分布的假定條件為相互獨立。4.樣本容量的個數(shù)要多于解釋變量的個數(shù),即n>p.62.回歸變量的設(shè)置理論根據(jù)是什么?在回歸變量設(shè)置時應(yīng)注意哪些問題?答:理論判斷某個變量應(yīng)該作為解釋變量,即便是不顯著的,如果理論上無法判斷那么可以采用統(tǒng)計方法來判斷,解釋變量和被解釋變量存在統(tǒng)計關(guān)系。應(yīng)注意的問題有:在選擇變量時要注意與一些專門領(lǐng)域的專家合作,不要認為一個回歸模型所涉及的變量越多越好,回歸變量的確定工作并不能一次完成,需要反復(fù)試算,最終找出最合適的一些變量。63.你認為運用回歸分析研究實際問題時應(yīng)該定性分析和定量分析相結(jié)合嗎?為什么?對此你是否有直接經(jīng)驗?如有,請作簡要介紹。答:在回歸模型的運用中,我們還強調(diào)定性分析和定量分析相結(jié)合。這是因為數(shù)理統(tǒng)計方法只是從事物外在的數(shù)量表面上去研究問題,不涉及事物質(zhì)的規(guī)定性,單純的表面上的數(shù)量關(guān)系是否反映事物的本質(zhì)?這本質(zhì)究竟如何?必須依靠專門的學科研究才能下定論,所以,在經(jīng)濟問題的研究中,我們不能僅憑樣本數(shù)據(jù)估計的結(jié)果就不加分析地說長道短,必須把參數(shù)估計的結(jié)果和具體經(jīng)濟問題以及現(xiàn)實情況緊密結(jié)合,這樣才能保證回歸模型在經(jīng)濟問題研究中的正確應(yīng)用簡述多元統(tǒng)計的主要內(nèi)容,結(jié)合你的專業(yè)談?wù)勀苡玫侥男┙y(tǒng)計方法。答:多元統(tǒng)計分析是從經(jīng)典統(tǒng)計學中發(fā)展起來的一個分支,是一種綜合分析方法,它能夠在多個對象和多個指標互相關(guān)聯(lián)的情況下分析它們的統(tǒng)計規(guī)律。主要內(nèi)容包括多元正態(tài)分布及其抽樣分布、多元正態(tài)總體的均值向量和協(xié)方差陣的假設(shè)檢驗、多元方差分析、直線回歸與相關(guān)、多元線性回歸與相關(guān)(Ⅰ)和(Ⅱ)、主成分分析與因子分析、判別分析與聚類分析、對應(yīng)分析、典型相關(guān)分析、Shannon信息量及其應(yīng)用。主成分分析作為多元統(tǒng)計分析的一種方法,作為數(shù)據(jù)分析和數(shù)據(jù)挖掘的工具,在遙感圖像變化信息提取、遙感圖像處理分析、地理要素分析等方面也具有廣泛應(yīng)用。主成分分析可以提取主要信息,使誤差出現(xiàn)的機會大大減小。在分析影像數(shù)據(jù)特征和主成分變換算法基礎(chǔ)上,利用兩次主成分變換的方式有效地實現(xiàn)了剔除原始影像中的部分噪聲信息的目的,從而提供了一種新的方法實現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論