多元統(tǒng)計分析案例具體操作_第1頁
多元統(tǒng)計分析案例具體操作_第2頁
多元統(tǒng)計分析案例具體操作_第3頁
多元統(tǒng)計分析案例具體操作_第4頁
多元統(tǒng)計分析案例具體操作_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、多元統(tǒng)計分析案例具體操作多元回歸分析高磷鋼的效率(Y)與高磷鋼的出鋼量(X1)及高 磷鋼中的FeO量(X2)有關,所測數(shù)據(jù)如下表,請 用線性回歸模型擬合上述數(shù)據(jù)。試驗序號出鋼量X1FeO 量 X2效率Y187.913.2822101.413.5843109.82080493.014.288.6588.016.481.56115.314.283.5756.914.9738103.41388910114.991.41080.312.9811196.514.67812110.615.386.513102.918.283.4利用SPS觥計軟件,其解答過程如下:擬建立回歸方程:Y=b0+b1*X1+b2

2、*XZ步驟如 下:(D操作過程在數(shù)據(jù)輸入之后,依次單擊“分析”一一“回 歸”一一“線性”,在彈出的“線性回歸”對話框 中,將出鋼量X1和Fe常量*皴為自變量,效率設為 因變量,回歸方法設為“進入”。如下圖:F片中出£L,題圖1.1(2)輸出結果如下:輸入/移去的變量模型輸入的變量移去的變量方法1FeO量 X2,出鋼量X1a.輸入模型匯總模型RR方調整R方標準估計的誤差Durbin-Watson1.689 a.475.3693.846481.858a.預測變量:(常量),F(xiàn)eO含量X2,出鋼量XI。b.因變量:效率丫Anovab模型平方和df均方FSig.1回歸133.598266.7

3、994.515.040 a殘差147.9541014.795總計281.55212a.預測變量:(常量),F(xiàn)eO含量X2,出鋼量XI。b.因變量:效率丫系數(shù)a模型非標準化系數(shù)標準系數(shù)B標準誤差試用版tSig.1(常量)75.1449.4887.920.000出鋼量X1.215.075.6852.889.016Fe* 量 X2-.843.548-.365-1.538.155輸入/移去的變量模型輸入的變量移去的變量方法1FeO量 X2,出 鋼量Xia.輸入模型匯總模型RR方調整R方標準估計的誤差Durbin-Watson1.689 a.475.3693.846481.858a.預測變量:(常量),

4、FeO含量X2,出鋼量XI。a.因變量:效率Y系數(shù)相關性模型零階偏部分1FeO 量 X2出鋼量X1-.189.592-.437.675-.352.662a.因變量:效率丫殘差統(tǒng)計量極小值極大值均值標準偏差N預測值74.841188.015683.14623.3366413殘差-5.627217.05607.000003.5113413標準預測值-2.4891.459.0001.00013標準殘差-1.4631.834.000.91313a.因變量:效率丫(3)結果分析回歸方程的回歸系數(shù):b0=75.144 , b1=0.215 , b2=-0.843擬合回歸方程:Y=0.215*X1-0.84

5、3*X2+75.1441)回歸方程的顯著性檢驗(F檢驗):檢驗假設:Ho: 口i =P2 = 1=Pm=0)Hi:各 P j(j=12 ,m)不全為0): =0.05SS=SS+SS戔,其中 FF(m, n-m-1)S& /mMS回F = SSU(n-m-i) MS 殘根據(jù)方差分析表(Anova) , MSI =66.799, MS 殘= 14.759,從而 F=4.515, F>R.05 (2,10)(Sig<0.05), 可知在顯著性水平 民=0.05 ,拒絕原假設自變量 和因變量之間存在顯著性的線性關系。2)回歸方程擬合優(yōu)度檢驗:2 s矗 S%R 二二 1 一55、

6、ss、R2=0.475,說明高磷鋼的效率變異的47.5%可由 其出鋼量和FeO勺含量的變化來解釋。3)對各自變量指明方程中的每一個自變量對Y的影響(即方差分析和決定系數(shù)檢驗整體)。A、10幅系數(shù)的顯著性檢驗(t檢驗): t j 二Sbjbj為偏回歸系數(shù)的估計值,Sbj是bj的標準誤。檢驗假設:H): 3 =。)L服從自由度為v=n-m-1的t分布。如 果|tj|表2,i)則在支=0.05水平上拒絕H)接受H)說 明Xj與丫有線性回歸關系。非標準化系數(shù)b1=0.215, b2=-0.843 ,對于bl, t1=2.889 ,|t1|>t 0.05/2 (10),拒絕原假設,說明在 給定的顯

7、著水平a =0.05下,X1對Y有顯著的影響; 對于 b2, t2=-1.538 ,t 0.05/2 (10) >|t2|> t 0.1/2 ( 10) 說明在給定的顯著水平a =0.05下,接受原假設,X2 對Y沒有顯著的影響。而在給定的顯著水平a =0.1下,拒絕原假設,X2對Y有顯著的影響。說明X1對方程的貢獻顯著,X2的貢獻不顯著。B、偏回歸平方和檢驗回歸方程中某一自變量X的偏回歸平方和表示 模型中含有其他m-1個自變量的條件下自變量對Y的 回歸貢獻,相當于從回歸方程中提出X后所引起的回 歸平方和的減少量,或在m-1個自變量的基礎上新增 加X引起的回歸平方和的增加量。匚SS

8、 (Xj)/1F jSSI / (n -m-1)SS(Xj)表示偏回歸平方和,其值愈大說明相應的自 變量愈重要。一般情況下,ml個自變量對Y的回歸平方和由重新建立的新方程得到,而不是簡單地把 EX從有m自變量的方程中剔出后算得。 b Anova模型平方和df均方FSig.1回歸98.622198.6225.930a.033殘差182.9301116.630總計281.55212a.預測變量:(常量),出鋼量XI。b.因變量:效率丫bAnova模型平方和df均方FSig.1回歸10.078110.078.408.536 a殘差271.4741124.679總計281.55212a.預測變量:(常

9、量),F(xiàn)eO含量X2。b.因變量:效率丫Anovab模型平方和df均方FSig.1回歸98.622198.6225.930.033 a殘差182.9301116.630總計281.55212a.預測變量:(常量),出鋼量XI。S& (X1) =SS (X1,X2) -SS回(X2) = 133.598-10.078=123.52SS (X2) =SS (X1,X2) -SS回(X1) =133.598-98.622=34.976Fi = 123.52/ (147.954/10 )=8.3485, F2=34.976/ (147.954/10 ) =2.335Fi>F2,同樣說明X

10、1對方程的貢獻大于X24)標準化回歸系數(shù)變量標準化是將原始數(shù)據(jù)減去相應變量的均 數(shù),然后再除以該變量的標準差。標準化回歸系數(shù) 無單位,用來比較各自變量對應變量的影響大小, |Bi|越大,Xi對Y的影響越大。此處,標準回歸系數(shù)B1=0.685,B2 =-0.365 , 舊1|>|B2,說明X1對Y的影響要比X2XtY的影響顯5)偏相關系數(shù)偏相關系數(shù)是在排除了其他變量的影響下計 算變量間的相關系數(shù)。假設我們需要計算X和Y之間 的相關性,Z代表其他所有的變量,X和Y的偏相關 系數(shù)可以認為是 期口 Z線性回歸得到的殘差 RXt/口Z線性回歸得到的殘差 Ry之間的簡單相關系數(shù),即 pearson相

11、關系數(shù)。P 1,2 = 0.675P 2,1 =-0.437(4)預測值試驗序號觀測值預測值預測值-觀測 值(預測值-觀測值)/觀測值*100%18282.91490.91491.11573170728485.56451.56451.862538081.8911.8912.36375488.6183.1684-5.4316-6.130474041581.580.2388-1.2612-1.547484663683.5187.96294.46295.34479041977374.81681.81682.488767123888186.416-1.584-1.8991.484.2983-7.101

12、7-7.769912473108181.53380.53380.659012346117883.58375.58377.1585897441286.5:86.0251-0.4749-0.5490173411383.481.9249-1.4751-1.7687050362、 聚類分析下表是2003年我國省會城市和計劃單列市的主 要經濟指標:人均GDPX1無)、人均工業(yè)產值X2(元)、 客運總量X3(萬人)、貨運總量X4 (萬噸)、地方財 政預算內收入X5 (億元)、固定資產投資總額X6 (億 元)、在崗職工占總人口比例 X7 (%、在崗職工人 均工資額X8(元)、城鄉(xiāng)居民年底儲蓄余額X9(億元)

13、。 試通過統(tǒng)計分析軟件進行系統(tǒng)聚類分析,并比較何 種方法與人們觀察到的實際情況較接近。城市X1X2X3X4X5X6X7X8X9北京31886331683052030671593200037.8253126441天 津264334373235073467920593418.8186481825石家莊15134131591184310008494169.5123061044太 原15752158312975152483319722.812679660呼和浩特1899111257350841552118213.514116255沈陽23268154466612146368155714.8149611

14、423大連2914527615110012108111140714.7175601310長春18630210456999108924629412.513870831哈爾濱148257561645895187642317.7124511154上海4658677083721263861899227421.0273056055南京2754743853167901480513679415.4221901134杭州3266749823213491681515071711.8246671466寧波3254347904249381379713955510.9236911060合肥10621117146034

15、4641362458.313901359福州2228121310968082506737611.815053876廈門5359093126444130557023838.619024397南昌142219205572844543121011.013913483濟南23437226345810143547642913.516027758青島2470535506146663055312054814.515335908鄭州16674140231070978476637312.7135381048武漢212781708311882166108062317.4137301286長/p>

16、609106316043410.016987705廣州48220554042975128859275108925.1288053727深圳19183834751910989679329187569.6310532199南寧8176339070165893361708.313171451???644214553132843304129916.514819284重慶71905076582903245016211876.5124401897成都17914928972793287989078811.9152741494貴陽11046103501851153184023115.812181345昆明16

17、215116015126123386034214.614255709西安1314089131141393926544615.9135051211蘭州1445917136220955812120318.013489468西寧706656052788203787610.114629175銀川1178711013214621271213421.913497193烏魯木齊22508171372188127544118026.116509420利用spss統(tǒng)計軟件,其解答過程如下:根據(jù)統(tǒng)計所得數(shù)據(jù),此處聚類為 幽聚類,即對樣本進行聚類分析,聚類方法選擇系統(tǒng)聚類法,其 基本思想是距離相近的樣品(或變量)先

18、聚成類, 距離相遠的后聚成類,過程一直進行下去,每個樣 品(或變量)總能聚到合適的類中。在進行系統(tǒng)聚 類之前,首先要定義類與類之間的距離,由類間距 離定義的不同產生不同的聚類方法:最短距離法、最長距離法、中間距離法、重心法等。此處,主要 運用最短距離法、重心法和最長距離法對樣本進行 聚類。以下用dj表示樣品Xd和Xj)之間的距離,當樣 品間的親疏關系采用相似系數(shù)G時,令d 2 =1 _ C 2 ijij以下用DU表示類G和G之間的距離。(一)利用Matlab做系統(tǒng)聚類分析,主要運行步驟:將統(tǒng)計數(shù)據(jù)表格導入到Matlab中,若數(shù)據(jù)集命 名為data,則進行如下運算:X=ZSCORE(data)

19、%標準化數(shù)據(jù)矩陣Y=pdist (X,' metric ' ) %計算數(shù)據(jù)集X中兩 兩元素的距離,metric表示使用特定的方法,有歐 式距離'euclid '、馬氏距離'mahal'、明可夫斯 基距離Minkowski '等。D=squareform(Y) % 將距離的輸出向量形式定 格為矩陣形式Z=linkage(Y, ' method' ) %創(chuàng)建逐級聚類樹) method表示用何種方法,默認值是歐式距離, 有complete -最長品巨離法; 'average -類平均距離;'centroid重心法

20、等。H,T=dendrogram (Z) %畫聚類樹形圖(二)不同聚類方法結果分析(1)最短距離法聚類分析類與類間距離定義:DS (p, q) =mindjk|j G G)kG G,等于G和Gq中最為鄰近的兩個樣品之間的距離。 利用最短距離法所得的Matlab聚類樹形圖如下圖所 示:U2517 5 32 ?433 3 1520 51 9 8 T 10 22 &2I6 29 7 4 35 1gl 知2 13 2 152327 23 1 1D24從聚類樹形圖可直觀的看出,當將35個樣品分 為兩類時,深圳(24)單獨作為第2類,其他城市屬 于第1類;當將35個樣品分為三類時,深圳(24)單

21、獨為第3類,上海(10)單獨為第2類,其他城市為 第1類。2)重心法聚類分析若樣品間采用歐式距離,設某步將G和G并為G, 它們各有np、nq和nr樣品)其重心用P、 q和r表示) 顯然r=1/nrnp p+nq q,某類G的重心為k,它與新 類G的距離為無&冷=(另一31便,一工)=優(yōu)編 %nr" ntin從聚類樹形圖可直觀的看出,當將35個樣品分 為兩類時,深圳(24)單獨作為第2類,其他城市屬 于第1類;當將35個樣品分為三類時,深圳(24)單 獨為第3類,北京(1)、上海(10)和廣州(23) 單獨為第2類,其他城市為第1類。結果同重心聚類 法相似,這種聚類與人們實際觀

22、察到的情況相接近。(3)最遠距離聚類法類與類間距離定義:Q (p, q) =maxdk|j G G,k GG,等于G和G中最遠的兩個樣品之間的距離。從聚類樹形圖可直觀的看出,當將35個樣品分 為兩類時,深圳(24)單獨作為第2類,其他城市屬 于第1類;當將35個樣品分為三類時,深圳(24)單 獨為第3類,北京(1)、上海(10)和廣州(23) 單獨為第2類,其他城市為第1類;當將35個樣品分 為四類時,深圳(24)單獨為第4類,北京(1)、 上海(10)和廣州(23)單獨為第3類,重慶(27) 和成都(28)為第2類,其他城市為第1類;這種聚 類與人們實際觀察到的情況相接近。3、 判別分析銀行

23、的貸款部門需要判別每個客戶的信用好 壞(是否履行還貸責任),以決定是否給予貸款。 可以根據(jù)貸款申請人的年齡(X1)、受教育程度 (X2)、現(xiàn)在所從事工作的年數(shù)(X3)、未變更住 址的年數(shù)(X4)、收入(X5)、負債收入比例(X6)、 信用卡債務(X7)、其他債務(X8)等來判別其信 用情況,下表是從某銀行的客戶資料中抽取的部 分數(shù)據(jù),(1)根據(jù)樣本資料分別用距離判別法、 貝葉斯判別法和費希爾判別法建立判別函數(shù)和判 別規(guī)則。(2 )某客戶的如上情況資料為(53,1,9,18,50,11.20, 2.02,3.58 ),對其進行信用好壞的判別。目前信 用好壞客戶序 列號X1X2X3X4X5X6X7

24、X8已履行 還貸任 務123172316.600.341.712341173598.001.812.913422723414.600.940.9443911954813.101.934.36535191345.000.401.30未履行 還貸任 務6371132415.101.801.827291131427.401.461.6583221167523.307.769.72928223236.400.191.2910261432710.502.470.361、Fisher和Bayes方法在SPS竽的應用判別分析是先根據(jù)已知類別的事物的性質(自 變量),建立函數(shù)式(自變量的線性組合,及判別 函數(shù)

25、),然后對未知類別的新鮮事物進行判斷以將 之歸入已知類別。主要的判別方法有:距離判別, Fisher判別,貝葉斯判別等。在SPS系統(tǒng)中,在判別分析使用時應注意以下 幾條:1、首先要對原始數(shù)據(jù)進行統(tǒng)計檢驗:在進行判別分析前,應首先檢驗各類的均值是 不是有差異(因為判別分析要求給定的樣本數(shù)據(jù)必 須是差異明顯的),如果檢驗后某兩個總體的差異 不顯著應將兩個總體合并為一個總體,再由剩下的 互不相同的總體重新建立判別函數(shù)。2、兩種判別方法對總體的數(shù)據(jù)的分布要求不 同:一般來說,F(xiàn)isher判別對數(shù)據(jù)分布沒有特殊的 要求)Bayes判別要求數(shù)據(jù)分布是多元正態(tài)分布)但 在實際操作過程中,要求并不嚴格。3、S

26、PS中的Fisher判別函數(shù)實為Bayes判別函 數(shù):在SPSSK選中判別分析下的“統(tǒng)計量”中的 “函數(shù)系數(shù)”中的Fisher項,在輸出結果的末尾, 給出的分類函數(shù)系數(shù)表下注明的Fisher的線性判 別式函數(shù)。但是,經驗證實為一般教課書中的 Bayes 線性判別函數(shù)。命名出現(xiàn)不一致的原因是,按判別 函數(shù)值最大的一組進行歸類這種思想是 Fisher提出 來的,因此SPSS! Fisher對Bayes方法進行了命名。 并且因為Bayes判別函數(shù)只有在各個總體的樣本的 協(xié)方差陣相同時才是線性的,因此在得到該判別函 數(shù)的系數(shù)時,對樣本的協(xié)方差的估計必須是在總體 協(xié)方差相等情況下的估計。此處,將已履行還

27、貸責任的一類的信用級別設 為1,未履行還貸責任的信用級別設為2,然后判斷 待判客戶的信用級別。2、Fisher判別法費希爾判別(或稱典型翔瓢X,y的建本y國想是投影 (或降維):用p維向量x= (x1)x2,xp )的少 數(shù)幾個線性組合(稱為判別式或典型變量)來代替原始的p個變量。(一)主要運行步驟(1)在SPS-口中選擇分析一一分類一一判 別,在調出的判別分析對話框中,將左邊的變量列 表中的“目前信用好壞(1,2) ”選入分組變量中, 將X1-X8變量選入自變量中,并選擇“一起輸入自變 量”單選按鈕,及使用所有自變量進行判別分析。(2)點擊定義范圍按鈕,定義分組變量的取值 范圍,此處分組變量

28、范圍為1到2,所以在最小值和 最大值中分別輸入1和2。(3)單擊統(tǒng)計量按鈕,指定輸出的描述統(tǒng)計量 和判別函數(shù)系數(shù)。在函數(shù)系數(shù)欄中選擇 Fisher判別 函數(shù)和非標準化,在描述性欄中選擇均值(對各組 的各變量作均數(shù)與標準差的描述),選中矩陣欄中 所有的項。(4)單擊分類按鈕,定義判別分組參數(shù)和選擇 輸出結果。在先驗概率欄中選擇所有組別的事前概 率值均假定相等,在輸出框中選擇個案結果(給出 每個觀察值的分類結果),在使用協(xié)方差矩陣欄中 選擇在組內(使用組內離差矩陣將觀察值分類)。(5)單擊保存按鈕,指定在數(shù)據(jù)文件中生成代 表判別分組結果和判別得分的新變量,生成新變量 的含義為,預測組成員:存放判別

29、樣品所屬組別的 值,保存在變量dis_1中;判別得分:存放Fisher判 別得分的值,有幾個典型判別函數(shù)就有幾個判別得 分;組成員概率:存放樣品屬于各組的貝葉斯后驗概率值。(二)輸出結果分析(1)組統(tǒng)計量信用等級有效的N (列表狀態(tài))均值標準差未加權的已加權的1X134.60007.2318755.000X21.2000.4472155.000X311.80005.7619455.000X46.80009.1760655.000X542.600011.2827355.000X67.46003.4304555.000X71.0840.7558055.000X82.24401.3962255.00

30、02X130.40004.2778555.000X21.4000.5477255.000X36.20005.4497755.000X43.20001.7888555.000X538.200021.9476755.000X612.54006.9031255.000X72.73602.9282155.000X82.96803.8164755.000合計 X132.50006.023101010.000X21.3000.483051010.000X39.00006.055301010.000X45.00006.514941010.000X540.400016.614591010.000X610.00

31、005.794631010.000X71.91002.196091010.000X82.60602.735981010.000上表為組別統(tǒng)計信息,顯示共有2個組,其中第一組 5例,第二組5例,分組給出各組中變量的平均數(shù)與 標準差。表中各類的均值存在明顯的差異。(2)匯聚的組內矩陣X1X2X3X4X5X6X7X8協(xié)方 差X135.30.8253.921.922.359.6682.6883.206X20.8250.25-0.5252.352.50.220.2920.471X33.9-0.52531.45-8.872.0512.7285.9549.046X421.92.35-8.843.713.80

32、.3032.3190.433X522.352.572.0513.8304.566.4133.27844.154X69.6680.2212.7280.30366.4129.71110.28713.864X72.6880.2925.9542.31933.27810.2874.5735.644X83.2060.4719.0460.43344.15413.8645.6448.257相關 性X110.2780.1170.5580.2160.2990.2120.188X20.2781-0.1870.7110.2870.0810.2730.328X30.117-0.1871-0.2370.7360.4160

33、.4960.561X40.5580.711-0.23710.120.0080.1640.023X50.2160.2870.7360.1210.6980.8920.881X60.2990.0810.4160.0080.69810.8830.885X70.2120.2730.4960.1640.8920.88310.918X80.1880.3280.5610.0230.8810.8850.9181上表為組內8個變量的相關性和協(xié)方差 (3)協(xié)方差矩陣信用等級X1X2X3X4X5X6X7X81X152.31.8511.941.933.33.082.6451.269X21.850.2-1.24.05-0

34、.4-0.715-0.036-0.326X311.9-1.233.2-17.852.917.044.0117.541X441.94.05-17.884.21.9-10.040.231-4.857X533.3-0.452.91.9127.318.7557.8059.687X63.08-0.71517.04-10.03518.75511.7681.9744.701X72.645-0.0364.0110.2317.8051.9740.5710.876X81.269-0.3267.541-4.8579.6874.7010.8761.9492X118.3-0.2-4.11.911.416.2552.73

35、25.144X2-0.20.30.150.655.41.1550.621.269X3-4.10.1529.70.291.28.4157.89610.551X41.90.650.23.225.710.644.4065.723X511.45.491.225.7481.7114.0758.75178.62X616.2551.1558.41510.64114.06547.65318.59923.028X72.7320.627.8964.40658.75118.5998.57410.411X85.1441.26910.5515.72378.6223.02810.41114.565合計X136.2780.

36、51023.667252.6670.4622.006X20.50.233-0.7781.8891.9780.4780.3510.459X310-0.77836.667-2.22270.8893.4112.7226.914X423.6671.889-2.22242.44416.667-4.8110.409-0.339X5251.97870.88916.667276.04452.82227.56138.363X62.6670.4783.411-4.81152.82233.57811.47513.346X70.4620.3512.7220.40927.56111.4754.8235.349X82.0

37、060.4596.914-0.33938.36313.3465.3497.486a.總的協(xié)方差矩陣的自由度為 9上表輸出的是組間的協(xié)方差矩陣(4)特征值和 Wilks的LambdaFisher的基本思想是投影,投影的重要性是和 特征值的貢獻率有關,特征值表說明得到的唯一的 一個Fisher判別函數(shù)的貢獻率為100%此外,在計 算中需要看關于個各類的有關變量的均值是否顯著 不同的檢驗結果)Wilks ' Lambd毓計量檢驗的零假 設是各組變量均值相等,Lambda近0表示組均值不 同,接近1表示組均值沒有不同。特征值函數(shù)特征值方差的%累積%正則相關性17.422 a100.0100.0

38、.939a.分析中使用了前1個典型判別式函數(shù)。Wilks 的 Lambda函數(shù)檢 驗Wilks 的 Lambda卡方dfSig.1.1198.5238.384(5)標準化判別系數(shù)和非標準化判別系數(shù) 標準化的典型判別函數(shù)是由標準化的自變量1過Fisher判別法得到的,所以要得到標準化的典型 判別得分,代入該函數(shù)的自變量必須是經過標準化 的;未標準化的典型判別函數(shù)系數(shù)由于可以將實測 的樣品觀測值直接代入求出判別得分,所以該系數(shù) 使用起來比標準化的系數(shù)要方便些。非標準化的典型判別函數(shù)系數(shù)函數(shù)1X1X2X3-.0326.687.173X4X5X6X7X8(常量)-.357.024.710.792-2.

39、383-10.794由上表可知,得到的一個費希爾判別函數(shù)為Y=-10.794-0.32X1+6.687X2+0.173X3-0.357X4+0.024X5+0.710X6+0.792X7-2.383X8結構矩陣函數(shù)1X3-.205X6.191X7.159X1-.145X4-.112X2.082X5-.052X8.052上表給出了按大小次序排列的各個變量與典型 判斷函數(shù)之間的相關性。由表可見, X3對典型判斷 函數(shù)影響最大,而X8X寸典型判斷函數(shù)的影響最小。(6)在組均值處評估的非標準化典型判別式函數(shù): 各類別重心在空間中的坐標位置,這樣,只要在前 面計算出各觀測值的具體坐標位置后,再計算它們

40、分別離各重心的距離就可以得知它們的分類了。組重心處的函數(shù)信用等 級函數(shù)112-2.4372.437(7)個案觀察結果在按照案例順序的統(tǒng)計量表中,針對每個樣品 給出了大部分的判別結果,其中包括:實際組、預 測組、貝葉斯判別法的后驗概率(P(G=g I D=d)、到質心 的平方的馬氏距離及Fisher判別法的典型判別函數(shù) 的判別得分。從表中可以看出待判樣品被判別為第 幾級。案例 數(shù)目實際 組最高組第二最高組P(D>d | G=g)預測組PdfP(G=g | D=d)到質心的平方Mahalanobis 距離組P(G=g | D=d)到質心的平方Mahalanobis 距展1110.773110

41、.0832026.6452110.485110.4882017.4313110.57110.3222029.6054110.867110.0282022.1515110.9931102023.846220.81110.0581021.4627220.03610.8384.4110.1627.6918220.841110.041025.7499220.487110.4831031.00710220.149112.0871039.91911未分 組的101136.15420118.509將待判樣本的各自變量值輸入到判別函數(shù):Y=-10.794-0.32X1+6.687X2+0.173X3-0.35

42、7X4+0.024X5+0.71可得到待判樣本到第一級質心的馬氏距離 D1=36.154,到第二D2=118.509,D1<D2, 因此待判樣本應歸類至第一級中。根據(jù)Fisher判別得到的分類結果如下表所示:信用等級預測組成員合計12初始計數(shù)15052055未分組的案例101%1100.0.0100.02.0100.0100.0未分組的案例100.0.0100.0a.已對初始分組案例中的 100.0% 個進行了正確分類。從這個表來看,我們的分類能夠100蜒把訓練 數(shù)據(jù)的每一個觀測值分到其本來的類。用從全部數(shù) 據(jù)得到的判別函數(shù)來判斷每一個點的結果(前面三 行為判斷結果的數(shù)目,而后三行為相應

43、的百分比)。 綜上:根據(jù)此客戶的情況資料,依據(jù) Fisher判別, 該客戶的信用等級被歸類為1級,也即表示該客戶能 夠履行還貸義務。3、Bayes判別法貝葉斯概率判別法是根據(jù)被判斷個案應當歸屬 于出現(xiàn)概率最大的總體或者歸屬于錯判概率最小的 總體的原則進行判別的。出現(xiàn)概率最大的總體指在 全部N個個案中,屬于各個不同總體的個案數(shù)分別 為:m、卷、市,則各自的概率可以簡單計算為: - n1- n2- n3P(G1)1、P(G2)2、P(G3)3.NNNP (G)為先驗概率。被判斷的個案屬于先驗概 率最大總體的概率應當高一些。先驗概率反映了樣 本分布的總體趨向特性。當不能確定一個個案屬于 若干個總體中

44、的哪一個時,歸屬大概率總體的概率 顯然會比歸屬小概率總體的概率高。組的先驗概率信用等級用于分析的案例先驗未加權的已加權的1.50055.0002.50055.000組的先驗概率信用等級用于分析的案例先驗未加權的已加權的1.50055.0002.50055.000合計1.0001010.000分類函數(shù)系數(shù)表信用等級12X1.340.184X294.070126.660X31.0331.874X4-4.943-6.681X52.9693.086X613.72317.182X7-10.994-7.133X8-37.504-49.116(常量)-118.693-171.296Fisher的線性判別式函數(shù)如上表所示,信用等級欄中的每一列表示樣品 判入相應列的貝葉斯判別函數(shù)系數(shù)。在本例中,各 級別的貝葉斯判別函數(shù)如下:第一級別:F1=0.34X1+94.07X2+1.033X3-4.943X4+2.969X5+13. 723X6-10.994X7-37.504X8-118.693第二級別:F1=0.184X1+126.66X2+1.847X3-6.681X4+3.086X5+ 17.182X6-7

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論