




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1、主成分分析的目的是什么?主成分分析是考慮各指標(biāo)間的相互關(guān)系,利用降維的思想把多個(gè)指標(biāo)轉(zhuǎn)換成較少的幾個(gè)相互獨(dú)立的、能夠解釋原始變量絕大部分信息的綜合指標(biāo),從而使進(jìn)一步研究變得簡單的一種統(tǒng)計(jì)方法。它的目的是希望用較少的變量去解釋原始資料的大部分變異,即數(shù)據(jù)壓縮,數(shù)據(jù)的解釋。常被用來尋找判斷事物或現(xiàn)象的綜合指標(biāo),并對綜合指標(biāo)所包含的信息進(jìn)行適當(dāng)?shù)慕忉尅?、主成分分析基本思想?主成分分析就是設(shè)法將原來指標(biāo)重新組合成一組新的互相無關(guān)的幾個(gè)綜合指標(biāo)來代替原來指標(biāo)。同時(shí)根據(jù)實(shí)際需要從中選取幾個(gè)較少的綜合指標(biāo)盡可能多地反映原來的指標(biāo)的信息。主成分和原始變量之間的關(guān)系表示為J1-+/馬 T 卜Cp=IIQ2
2、Pxpyp=%工1+0的+a郎/主成分分析的數(shù)學(xué)模型3、在進(jìn)行主成分分析時(shí)是否要對原來的 p 個(gè)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化?SPSS 軟件是否能對數(shù)據(jù)自動進(jìn)行標(biāo)準(zhǔn)化?標(biāo)準(zhǔn)化的目的是什么?需要進(jìn)行標(biāo)準(zhǔn)化, 因?yàn)橐蛩刂g的數(shù)值或者數(shù)量級存在較大差距, 導(dǎo)致較小的數(shù)被淹沒導(dǎo)致主成分偏差較大,所以要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化;設(shè) p 個(gè)原始變量為y 力,、小力 ypp新的變量(即主成分)ah為第i個(gè)主成分片和原來的第j個(gè)變量甩之間的線性相關(guān)系數(shù),稱為載荷(loading比如,表示第1主成分和原來的第1個(gè)變量之間的相關(guān)系數(shù), 曰力表示第2主成分和原來的第1個(gè)變量之間的相關(guān)系數(shù)進(jìn)行主成分分析時(shí) SPSS 可以自動進(jìn)行標(biāo)準(zhǔn)化;標(biāo)準(zhǔn)
3、化的目的是消除變量在水平和量綱上的差異造成的影響。求解步驟對原來的 p 個(gè)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化,以消除變量在水平和量綱上的影響根據(jù)標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣求出相關(guān)系數(shù)矩陣求出協(xié)方差矩陣的特征根和特征向量確定主成分,并對各主成分所包含的信息給予適當(dāng)?shù)慕忉尠姹径焊鶕?jù)我國 31 個(gè)省市自治區(qū) 2006 年的 6 項(xiàng)主要經(jīng)濟(jì)指標(biāo)數(shù)據(jù),表二至表五,是SPSS 的輸出表,試解釋從每張表可以得出哪些結(jié)論,進(jìn)行主成分分析,找出主成分并進(jìn)行適當(dāng)?shù)慕忉專海ㄏ旅媸?SPSS 的輸出結(jié)果,請根據(jù)結(jié)果寫出結(jié)論)表一:數(shù)據(jù)輸入界面AB11CDEFG)1地區(qū)人均GDF(元)財(cái)政收入 (萬元)固定資產(chǎn)投資(億元)年末總?cè)丝趪耍┚用裣?/p>
4、費(fèi)水平社合消費(fèi)品零售總額同伙)(億元)2北京S04BT111715143296415811677032T5.23天津4116341704791820.510751056413S6.64河北16962620S3405470.26398494533*45山西141235833T522255.T337548431613.46內(nèi)蒙古20053343377433&3,22397SSOO1595.37遼寧2176891767185639.642716位g3434.6表二:數(shù)據(jù)輸出界面 a)CorrelnionMitiix人均GDP政入固定資產(chǎn)投資年末總?cè)丝诤诰淤M(fèi)社概肖費(fèi)品軍售總顫Correlation人均
5、GDP1.000B70.362-.091,967,436財(cái)哪人,670LOOOJ32,560.,693,924固磔柳資,362.8321,00078.327,932年襦人口-.091560,7831000-.066.771居解物k平,96793,327-.0661.000.442社含肖費(fèi)品藉麒.436.924.9327714421000此表為相關(guān)系數(shù)矩陣,表示的是各個(gè)變量之間的相關(guān)關(guān)系,說明變量之間存在較強(qiáng)的相關(guān)系數(shù),適合做主成分分析。觀察各相關(guān)系數(shù),若相關(guān)矩陣中的大部分相關(guān)系數(shù)小于 0.3,則不適合作因子分析。TotnlVFhiiiceExplainerIComponentInitialEi
6、genvaluesExtractionSimsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%395366.05266.0523.95366,05266J52217/129.51895.5701.77129.51895,5703.1282.12897.6934,0951.59999.2975,D26433997206017.290100.000ExtractionMethod:PrincipalComponentAnalysis.表三為各成分的總解釋方差表。component 為各成分的序號;init
7、ialEigenvalues 是初始特征值,total 是各成分的特征值,%ofvariance 是各成分的方差占總方差的百分比(貢獻(xiàn)率)。Cumulative%是累計(jì)貢獻(xiàn)率,表明前幾個(gè)成分可以解釋總方差的百分?jǐn)?shù)。Extractionsums 是因子提取結(jié)果。一般來說,當(dāng)特征根需大于 1,主成分的累計(jì)方差貢獻(xiàn)率達(dá)到 80%以上的前幾個(gè)主成分,都可以選作最后的主成分。由表可知,第一個(gè)主成分的特征根為 3.963,方差貢獻(xiàn)率為66.052%,這表示第一個(gè)主成分解釋了原始 6 個(gè)變量 66.052%的信息,可以看出前兩個(gè)成分所解釋的方差占總方差的 95.57%,僅丟失了 4.43%的信息。因此最后結(jié)
8、果是提取兩個(gè)主成分。在 extractionsumsofsquaredloadings 一欄,自動提取了前兩個(gè)公因子,因?yàn)榍皟蓚€(gè)0-5電oT1T11T123456CDiriponentNumber表四是表示各成分特征值的碎石圖。可以看出因子 1 與因子 2,以及因子 2 與因子 3之間的特征值之差值比較大。而因子 3、4、5 之間的特征值差值都比較小,可以初步得出保留兩個(gè)因子將能概括絕大部分信息。明顯的拐點(diǎn)為 3,因此提取 2 個(gè)因子比較合適。證實(shí)了表三中的結(jié)果。碎石圖(ScreePlot),從碎石圖可以看到 6 個(gè)主軸長度變化的趨勢。實(shí)踐中,通常選擇碎石圖中變化趨勢出現(xiàn)拐點(diǎn)的前幾個(gè)主成分作為
9、原先變量的代表,該例中選擇前兩個(gè)主成分即可。CompoiieiifMatrix3Component12人均GDP,670.725財(cái)制攵入.976.055固定資產(chǎn)投資,896-.351年末總?cè)丝?633-.728居民消禱水平,674.721社會消費(fèi)品零售總額,950-.263ExtractionMethod:PrincipalComponentAnaiysisa.2componentsextracted表五是初始提取的成分矩陣,它顯示了原始變量與各主成分之間的相關(guān)系數(shù),表中的每一列表示一個(gè)主成分作為原來變量線性組合的系數(shù),也就是主成分分析模型中的系數(shù)公因子就可以解釋總方差的絕大部分95.6%。S
10、creePlotaijo比如,第一主成分所在列的系數(shù) 0.670 表示第 1 個(gè)主成分和原來的第一個(gè)變量(人均GDP)之間的線性相關(guān)系數(shù)。這個(gè)系數(shù)越大,說明主成分對該變量的代表性就越大。第一主成分(component1)對財(cái)政收入,固定資產(chǎn)投資,社會消費(fèi)品零售總額有絕對值較大白:必然70X1睚渦7&第 m6nen10.63以人昂.674x5壬心昆&6水平有絕上將較*72釣0.05所以叢得1Xi8x4+。721%-0.263X6版本一:根據(jù)我國 31 個(gè)省市自治區(qū) 2006 年的 6 項(xiàng)主要經(jīng)濟(jì)指標(biāo)數(shù)據(jù),進(jìn)行因子分析,對因子進(jìn)行命名和解釋,并計(jì)算因子得分和排序表一數(shù)據(jù)輸入界面ABCDEF1G1地
11、區(qū)人均GDP(元)財(cái)政日入(萬坨)固定資產(chǎn)投資(億元)年末總?cè)丝谠L大)居民消費(fèi)水平阮/人)社會消費(fèi)品零售息額(億元)2北京50467111715143296.41581167703275.23天津41163417047910205107510564135684河北1696262053405470.2689349453397.45山西1412358337522255.7337548431613.46內(nèi)蓑古2005334337743363.2239758001595.37遼寧2179881767185689.642716g293434.6表二因子分析 SPSS 輸出界面 a)KMOIKIBartl
12、ettsTesiKaiser-Meyer*OlkinMeasureofSamplingAdequacy695Elartlett 七 TestofApprox.Chi-Square277025Sphericityjf15Sig.000KMO 統(tǒng)計(jì)量為 0.695,接近 0.7,表明 6 個(gè)變量之間有較強(qiáng)的相關(guān)關(guān)系。適合作因子分析.Bartlett 球度檢驗(yàn)統(tǒng)計(jì)量為 277.025。檢驗(yàn)的 P 值接近 0,拒絕原假設(shè),認(rèn)為相關(guān)系數(shù)與單位陣有顯著差異??梢砸蜃臃治?。表三因子分析 SPSS 輸出界面 b)CornnmimlitisInitialExtraction人均GDF1.000,975財(cái)珈攵入1
13、.000.955固定資產(chǎn)投資1001,927年末原人口1.000.930居民消費(fèi)水平1001,974社會消費(fèi)品零售總額1000,972Extract!orMethod:PrincipalComponentAralysis.表三為公因子提取前和提取后的共同度表,initial 列提取因子前的各變量的共同度extraction 列是按特定條件(如特征值1)提取公因子時(shí)的共同度,表中的共同度都很高,說明提取的成分能很好的描述這些變量。所有變量的共同度量都在 80%以上,因此,提取出的公因子對原始變量的解釋能力應(yīng)該是很強(qiáng)的。變量 Xi的信息能夠被 k 個(gè)公因子解釋的程度表四因子分析 SPSS 輸出界面
14、 c)WNVcMceExphin&ilComponentnit閭EigervsluesExtractionSumsofSquaredLoadingsRotalionSumsmSquaredLosdingsTotal%ofVsrisnceCurralative%Total%ofVarianceCumulative%Total%ofVarianceCumulative%1396366J0526B.0523J96366.05266,0523.1S7-53,29453,28471.77129期895.5701.77129.516955702.53742,2669557031282.12897.6984
15、,095158999.2875,026.43399,7206017280IOOJOOOExtractionMethod:PrincipalComponentAnalysis.表四為各成分的總解釋方差。Component 表示按特征值大小排序的因子編號。Initial 下分別給出了相關(guān)系數(shù)矩陣的特征值、方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率。Extraction 是所提取的公因子未經(jīng)旋轉(zhuǎn)情況下的特征值,方差貢獻(xiàn)了和累計(jì)方差貢獻(xiàn)率。Rotation 項(xiàng)下是旋轉(zhuǎn)后的。RotationSumsofSquaredLoadings”部分是因子旋轉(zhuǎn)后對原始變量方差的解釋情況。旋轉(zhuǎn)后的累計(jì)方差沒有改變,只是兩個(gè)因子所解釋
16、的原始變量的方差發(fā)生了一些變化。95.57%表明提取的兩個(gè)公共因子的方差可以解釋總方差的 95.57%。第 j 個(gè)公因子對變量 Xi的提供的方差總和,反映第 j 個(gè)公因子的相對重要程度RotatedComponentMcitiixaComponent12人均GDP112,931財(cái)咖攵入,755,622固定資產(chǎn)投資,931,247年末世人口,941-.213居民消費(fèi)水平,1179B0社會消費(fèi)品零售總額922.349ExtractionMettiod:PrincipalComponentAnalysisRotationMethod:VarimaxwithKaiserNormalizationRot
17、ationconvergedin3Iterations.旋轉(zhuǎn)后成分矩陣。第一個(gè)因子與年末總?cè)丝?、固定資產(chǎn)投資、社會消費(fèi)品零售總額、財(cái)政收入這幾個(gè)載荷系數(shù)較大,主要解釋了這幾個(gè)變量。從實(shí)際意義上看,可以把因子 1 姑且命名為經(jīng)濟(jì)水平”因子。而第二個(gè)因子與人均 GDP、居民消水平這兩個(gè)變量的載荷系數(shù)較大,主要解釋了這兩個(gè)變量,從實(shí)際意義看,可以將因子 2 姑且命名為消費(fèi)水平”因子a=0.112于1+0.98172x2=0.755+0.622f2x3=0.931f+0.247f2xA=0.941工-0.213x5=0,117工+0.980 x6=0.922fx+0.349f2子分析的數(shù)學(xué)模型Comp
18、oikeiiVScoieCoeTficierrtMmiixComponent12人均GUF.105.430口才加攵入.180.171固定資產(chǎn)投資.300-.026年末總?cè)丝?372-237居民消費(fèi)水平-104.429社會消費(fèi)品零售菽顫.281.022ExtractionMeUiod:PrincipalComponeritAnalysis.Roiationruleltiod:VarimaxwithKaiserNormalization.表達(dá)式中的用已經(jīng)不是原始變量, 而是標(biāo)準(zhǔn)化變量表五是因子得分系數(shù)矩陣。根據(jù)因子得分和原始變量的標(biāo)準(zhǔn)化值可計(jì)算每個(gè)觀測量的各因子的分?jǐn)?shù)。由因子得分系數(shù)矩陣,可以將公
19、因子表示為O得到的因子得分函數(shù)為工=-0.105甬+0.180工工+0,300吊+0+372X40.104兀+0+28f2=0430$+017屋092640237七+0429三+0.02次因子得分函數(shù)上面表達(dá)式中的片標(biāo)推化變量.根據(jù)這一表達(dá)式便可以計(jì)算每個(gè)地區(qū)對應(yīng)的第一個(gè)因子和第二個(gè)因子的取值,也稱為因子得分像ctorscore),有了因子得分,就可以對每個(gè)地區(qū)分別按照前面命名的“經(jīng)濟(jì)水平 R 因子和消費(fèi)水平”因子進(jìn)行評價(jià)和排序4、因子分析基本思想?因子分析是利用降維的思想,由研究原始變量相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā),把一些具有錯綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子的一種多變量統(tǒng)計(jì)分析方法。因
20、子分析的基本思想是根據(jù)相關(guān)性的大小將原始變量分組,使得組內(nèi)的變量之間相關(guān)性較高,而不同組的變量之間相關(guān)性較低。每組變量代表一個(gè)基本結(jié)構(gòu),并用一個(gè)不可觀測的綜合變量表示,這個(gè)基本結(jié)構(gòu)就稱為公共因子。對于所研究的某一具體問題,原始變量可以分解為兩部分之和的形式,一部分是少數(shù)幾個(gè)不可測的所謂公共因子的線性函數(shù),另一部分是與公共因子無關(guān)的特殊因子。XI,x2,Xk,要尋找的 m 個(gè)因子(m0 x 三 G2,當(dāng) W(x):二 0判別準(zhǔn)則為:待判,當(dāng)W(x)=0注意:距離一般采用馬氏距離;適合對自變量均為連續(xù)變量的情況進(jìn)行分類;對各類的分布無特定的要求。2)Fisher 判別法:基本思想是通過將多維數(shù)據(jù)投
21、影至某個(gè)方向上,投影的原則是將總體與總體之間盡可能分開,然后再選擇合適的判別規(guī)則,將待判的樣本進(jìn)行分類判別。所謂的投影實(shí)際上是利用方差分析的思想構(gòu)造也一個(gè)或幾個(gè)超平面,使得兩組間的差別最大,每組內(nèi)的差別最小。費(fèi)歇爾判別函數(shù)為:y=(x-X2)?XxGyiy2,yy。xG2yiy2,y:v。xG2yi:y2,yv。計(jì)算需要用到的一些反映樣品特征的值,比如均值、協(xié)方差陣,等等QSTEP0fiTEpQ2根據(jù)一定的原則建立判別函數(shù)u,1=0山+0*?+-+CR.XM為判別函數(shù)的一股形式,建立判別函數(shù)就是要確定這些系數(shù).STEP03確定判別準(zhǔn)則.有的判別準(zhǔn)則需要計(jì)算一些判別時(shí)用到的參數(shù),比如Fishei
22、判別需要計(jì)算臨界值.STEP0檢驗(yàn)判別效果,即驗(yàn)證判別函數(shù)用來進(jìn)行判別時(shí)的準(zhǔn)確度.STEP05對待判樣品判別歸類.其判別準(zhǔn)則是:xGy1:y2,y:y0Fisher 判別對各類分布、方差都沒有限制。但當(dāng)總體個(gè)數(shù)較多時(shí),計(jì)算比較麻煩。建立 Fisher 判別函數(shù)的準(zhǔn)則是:使得綜合指標(biāo) Z 在 A 類的均數(shù)ZA與在 B 類的均數(shù)ZB的差異IZA-ZB盡可能大,而兩類內(nèi)綜合指標(biāo) Z 的變異SA+SB盡可能小3)Bayes 判別法:基本思想是:設(shè)有兩個(gè)總體,它們的先驗(yàn)概率分別為 q1、q2,各總體的密度函數(shù)為 f1(x)、f2(x),在觀測到一個(gè)樣本 x 的情況下,可用貝葉斯公式計(jì)算它來自第 kP(G
23、k/x)-yfk(x)k-1,2、qkfk(x)個(gè)總體的后驗(yàn)概率為:k一種常用判別準(zhǔn)則是:對于待判樣本 x,如果在所有的 P(Gk/x)中 P(Gh/x)是最大的,則判定x 屬于第 h 總體。通常會以樣本的頻率作為各總體的先驗(yàn)概率。Bayes 判別主要用于多類判別,它要求總體呈多元正態(tài)分布4)逐步判別法:逐步判別法與逐步回歸法的基本思想類似,都是逐步引入變量,每引入一個(gè)最重要”的變量進(jìn)入判別式,同時(shí)也考慮較早引入判別式的某些變量,若其判別能力不顯著了,應(yīng)及時(shí)從判別式中剔除去,直到判別式中沒有不重要的變量需要剔除,且也沒有重要的變量要引入為止。21、對 Bayes 判別法與 Fisher 判別法
24、作比較一一(k)(1)當(dāng) k 個(gè)總體的均值向量 x,x,x 共線性程度較局時(shí),F(xiàn)isher 判別法可用較少的判別函數(shù)進(jìn)行判別,因而比 Bayes 判別法簡單。另外,F(xiàn)isher 判別法未對總體的分布提出什么特定的要求。(2)Fisher 判別法的不足是它不考慮各總體出現(xiàn)概率的大小,也給不出預(yù)報(bào)的后驗(yàn)概率及錯判率的估計(jì)以及錯判之后造成的損失。而這不足恰是 Bayes 判別法的優(yōu)點(diǎn),但值得指出的是,如果給定的先驗(yàn)概率不符合客觀實(shí)際時(shí),Bayes 判別法也可能會導(dǎo)致錯誤的結(jié)論。22、簡述判別分析與聚類分析的區(qū)別。判別分析已知研究對象分為若干個(gè)類別,并且已經(jīng)取得每一類別的若干觀測數(shù)據(jù),在此基礎(chǔ)上尋求出
25、分類的規(guī)律性,建立判別準(zhǔn)則,然后對未知類別的樣品進(jìn)行判別分類。聚類分析一批樣品劃分為幾類事先并不知道,需要通過聚類分析來給以確定分幾種類型。判別分析與聚類分析不同點(diǎn)在于,判別分析要求已知一系列反映事物特征的數(shù)值變量的值,并且已知各個(gè)體的分類。28、K-均值聚類是否需要在聚類之前先做標(biāo)準(zhǔn)化處理?K-均值聚類是針對樣品(case)的聚類,需要單獨(dú)做標(biāo)準(zhǔn)化處理,而后再進(jìn)行聚類。各變量的取值不應(yīng)有數(shù)量級上的過大差異,否則會對分類結(jié)果產(chǎn)生較大影響。這時(shí)需要對變量進(jìn)行標(biāo)準(zhǔn)化處理(SPSS 提供的層次聚類法中在聚類時(shí)可以選擇對變量做標(biāo)準(zhǔn)化處理,而 K-均值聚類法則需要單獨(dú)做標(biāo)準(zhǔn)化處理,爾后再進(jìn)行聚類)各變量
26、間不應(yīng)有較強(qiáng)的相關(guān)關(guān)系。若兩個(gè)強(qiáng)相關(guān)的變量同時(shí)參與聚類分析,在測度距離時(shí),就加大了它們的貢獻(xiàn),而其他變量則相對被削弱33、簡述多元線性回歸中,寫出兩種多重共線性的診斷方法和解決方案。診斷方法:檢測多重共線性的最簡單的一種辦法是計(jì)算模型中各對自變量之間的相關(guān)系數(shù),并對各相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)。若有一個(gè)或多個(gè)相關(guān)系數(shù)顯著,就表示模型中所用的自變量之間相關(guān),存在著多重共線性。如果出現(xiàn)下列情況,暗示存在多重共線性模型中各對自變量之間顯著相關(guān)當(dāng)模型的線性關(guān)系檢驗(yàn)(F 檢驗(yàn))顯著時(shí),幾乎所有回歸系數(shù)的 t 檢驗(yàn)卻不顯著回歸系數(shù)的正負(fù)號與預(yù)期的相反。解決方案:將一個(gè)或多個(gè)相關(guān)的自變量從模型中剔除,使保留的自
27、變量盡可能不相關(guān);如果要在模型中保留所有的自變量,則應(yīng)避免根據(jù) t 統(tǒng)計(jì)量對單個(gè)參數(shù)進(jìn)行檢驗(yàn);對因變量彳 1 的推斷(估計(jì)或預(yù)測)的限定在自變量樣本值的范圍內(nèi)。34、一家大型商業(yè)銀行在多個(gè)地區(qū)設(shè)有分行,為弄清楚不良貸款形成的原因,抽取了該銀行所屬的 25 家分行 2002 年的有關(guān)業(yè)務(wù)數(shù)據(jù)。試建立不良貸款 y 與貸款余額 XI、累計(jì)應(yīng)收貸款 X2、貸款項(xiàng)目個(gè)數(shù) X3 和固定資產(chǎn)投資額 X4 的線性回歸方程,并解釋各回歸系數(shù)的含ABc1DEFGI1SUMMARYOUTPUT23回歸統(tǒng)計(jì)4MultipleR0.39315RSquare0.79786AdjustedRSquare0.75717標(biāo)準(zhǔn)誤
28、差17TB88觀惻值25910方差分析11dfssNISFSignifieanceF12回歸4249371262,342619,70401.0354E-0613殘差2063.ZT923.164014總計(jì)24312.G5041516Coefficients標(biāo)推誤差tStatFvaluieLower95%Uppsr95%17Inte-rcept-102160.7824-1.30580.2064-2.65360.610418S10.04000.01043.63750.00100.01S30.061819XVariable20.14S00.07081.8TBT0.0T49-0.01S30312420X
29、Varibl30.014S0.0330C.LT50。能加-0.19B70167721XVariable4-0.029200151-193E800&70-0.06060.0022上表是計(jì)算機(jī)輸出的結(jié)果。試寫出多元線性回歸模型,并進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn)概述表中,看到 RSquare=0.7976,AdjustedRSquare=0.7571 表示模型的擬合優(yōu)度很好。方差分析表中,對方程的顯著性檢驗(yàn) F 對應(yīng)的 sig=1.035E-06,小于 0.05,說明回歸方程有統(tǒng)計(jì)意義。Coefficients 是各個(gè)變量的系數(shù),由 P-value 值可以判定,只有變量 1 的 p-value 小于 0.05,說明
30、變量 1 與因變量 y 有顯著相關(guān)關(guān)系?;貧w模型:Y=0.04*XVariable1-1.0216.38、簡述 logistic 回歸的原理和適用條件。Logistic 回歸,是指因變量為二級計(jì)分或二類評定的回歸分析。因變量 Y 是一個(gè)二值變量自變量 X1,X2,XmP 表示在 m 個(gè)自變量作用下事件發(fā)生的概率。1P(y=VXi,X2,.Xm)=1e7*;XTT:-;xr適用條件:因變量只有兩個(gè)值,發(fā)生(是)或者不發(fā)生(不是)。自變量數(shù)據(jù)最好為多元正態(tài)分布,自變量間的共線性會導(dǎo)致估計(jì)偏差。實(shí)際上屬于判別分析,因擁有很差的判別效率而不常用。適用于流行病學(xué)資料的因素分析(驗(yàn)室中藥物的劑量-反應(yīng)關(guān)系
31、、臨床試驗(yàn)評價(jià)、病的預(yù)后因素分析。41、(匯總歸納)聚類分析基本原理:將個(gè)體(樣品)或者對象(變量)按相似程度(距離遠(yuǎn)近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強(qiáng)。目的在于使類間元素的同質(zhì)性最大化和類與類間元素的異質(zhì)性最大化。常用聚類方法:系統(tǒng)聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。注意事項(xiàng):1.系統(tǒng)聚類法可對變量或者記錄進(jìn)行分類,K-均值法只能對記錄進(jìn)行分類;2 .K-均值法要求分析人員事先知道樣品分為多少類;3 .對變量的多元正態(tài)性,方差齊性等要求較高。應(yīng)用領(lǐng)域:細(xì)分市場,消費(fèi)行為劃分,設(shè)計(jì)抽樣方案等判別分析基本原理:從已知的各種分類情況中總結(jié)規(guī)律(訓(xùn)練出判別函數(shù)),當(dāng)新樣品進(jìn)入時(shí),判斷其與判別函數(shù)之間的相似程度(概率最大,距離最近,離差最小等判別準(zhǔn)則)。常用判別方法:最大似然法,距離判別法,F(xiàn)isher 判別法,Bayes 判別法,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)校班班通管理制度
- 學(xué)生休閑室管理制度
- 學(xué)生科學(xué)生管理制度
- 宅急送薪酬管理制度
- 安全色標(biāo)志管理制度
- 安生產(chǎn)責(zé)任管理制度
- 安裝及維修管理制度
- 定制化服務(wù)管理制度
- 實(shí)訓(xùn)室考核管理制度
- 客服直播間管理制度
- 2025年6月14日萍鄉(xiāng)市事業(yè)單位面試真題及答案解析
- 2025年高考真題-語文(全國二卷) 含解析
- 2025年廬山市國有投資控股集團(tuán)有限公司招聘筆試沖刺題(帶答案解析)
- 生物基可降解地膜行業(yè)深度調(diào)研及發(fā)展項(xiàng)目商業(yè)計(jì)劃書
- 出租車租憑合同協(xié)議書
- GB/T 24217-2025洗油
- 2025年天津市西青區(qū)八年級會考模擬生物試卷(含答案)
- 寧波輔警考試題庫2024
- 紡紗工高級工職業(yè)鑒定試卷及答案
- 2025年中考地理真題試題(含解析)
- 2025年社區(qū)工作者考試試題及答案
評論
0/150
提交評論