




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 金融市場(chǎng)的數(shù)據(jù)挖掘金融市場(chǎng)的數(shù)據(jù)挖掘 教材:教材: 數(shù)據(jù)采掘入門(mén)與應(yīng)用數(shù)據(jù)采掘入門(mén)與應(yīng)用 張堯庭編張堯庭編 中國(guó)統(tǒng)計(jì)出版社中國(guó)統(tǒng)計(jì)出版社 參考教材:參考教材: 1、數(shù)據(jù)挖掘、數(shù)據(jù)挖掘概念與技術(shù)概念與技術(shù) jiawei Han著,范明譯著,范明譯 機(jī)械工業(yè)出版社機(jī)械工業(yè)出版社 2、多元統(tǒng)計(jì)數(shù)據(jù)分析、多元統(tǒng)計(jì)數(shù)據(jù)分析理論、方法、實(shí)例理論、方法、實(shí)例 任若恩著任若恩著 國(guó)防工業(yè)出版社國(guó)防工業(yè)出版社 配套應(yīng)用軟件:配套應(yīng)用軟件: 1、Intelligent miner for data 2、SAS 第一章:概論第一章:概論 一、何為數(shù)據(jù)挖掘(一、何為數(shù)據(jù)挖掘(data mining) 現(xiàn)代信息社會(huì)的
2、特征:信息(數(shù)據(jù))泛濫、知識(shí)缺乏,現(xiàn)代信息社會(huì)的特征:信息(數(shù)據(jù))泛濫、知識(shí)缺乏,如何從海量數(shù)據(jù)(廣義的概念)中挖掘出決策有用信息?如何從海量數(shù)據(jù)(廣義的概念)中挖掘出決策有用信息? 數(shù)據(jù)挖掘是數(shù)據(jù)挖掘是結(jié)合現(xiàn)代數(shù)學(xué)、統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí)、人工智結(jié)合現(xiàn)代數(shù)學(xué)、統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)庫(kù)管理、計(jì)算機(jī)圖形學(xué)、軟件工程等各領(lǐng)域的技術(shù)能、數(shù)據(jù)庫(kù)管理、計(jì)算機(jī)圖形學(xué)、軟件工程等各領(lǐng)域的技術(shù)和知識(shí),和知識(shí),19901990年代在西方國(guó)家出現(xiàn)的一種高新技術(shù)年代在西方國(guó)家出現(xiàn)的一種高新技術(shù)從海從海量數(shù)據(jù)中挖掘出決策有用信息的技術(shù)。量數(shù)據(jù)中挖掘出決策有用信息的技術(shù)。 19901990年代末,在對(duì)年代末,在對(duì)1
3、00100名美國(guó)著名科學(xué)家的問(wèn)卷調(diào)查中,名美國(guó)著名科學(xué)家的問(wèn)卷調(diào)查中,數(shù)據(jù)挖掘被列為數(shù)據(jù)挖掘被列為2121世紀(jì)對(duì)人類(lèi)發(fā)展影響最大、最有前途的世紀(jì)對(duì)人類(lèi)發(fā)展影響最大、最有前途的1010大技術(shù)的第三位。大技術(shù)的第三位。 我國(guó)對(duì)數(shù)據(jù)挖掘技術(shù)的重視(開(kāi)發(fā)與應(yīng)用)我國(guó)對(duì)數(shù)據(jù)挖掘技術(shù)的重視(開(kāi)發(fā)與應(yīng)用) 1、863、963項(xiàng)目;項(xiàng)目; 2、國(guó)家及省重點(diǎn)科學(xué)領(lǐng)域;、國(guó)家及省重點(diǎn)科學(xué)領(lǐng)域; 3、國(guó)家統(tǒng)計(jì)局在全國(guó)組織數(shù)據(jù)挖掘培訓(xùn)(、國(guó)家統(tǒng)計(jì)局在全國(guó)組織數(shù)據(jù)挖掘培訓(xùn)(2000);); 4、企業(yè)特別是銀行對(duì)數(shù)據(jù)挖掘技術(shù)的重視;、企業(yè)特別是銀行對(duì)數(shù)據(jù)挖掘技術(shù)的重視; 5、人民大學(xué)數(shù)據(jù)挖掘研究與應(yīng)用中心。、人民大學(xué)數(shù)據(jù)
4、挖掘研究與應(yīng)用中心。 海量數(shù)據(jù)海量數(shù)據(jù)沙漠,隱含的知識(shí)沙漠,隱含的知識(shí)金子,金子, 數(shù)據(jù)挖掘數(shù)據(jù)挖掘從沙漠中挖掘金子的技術(shù)。從沙漠中挖掘金子的技術(shù)。 二、不同學(xué)科對(duì)數(shù)據(jù)挖掘技術(shù)的研究與開(kāi)發(fā)二、不同學(xué)科對(duì)數(shù)據(jù)挖掘技術(shù)的研究與開(kāi)發(fā) 1、理論研究、理論研究各種數(shù)據(jù)挖掘技術(shù)的理論基礎(chǔ)、各種數(shù)據(jù)挖掘技術(shù)的理論基礎(chǔ)、理論依據(jù)研究,從數(shù)學(xué)、統(tǒng)計(jì)學(xué)、人工智能、計(jì)算機(jī)理論依據(jù)研究,從數(shù)學(xué)、統(tǒng)計(jì)學(xué)、人工智能、計(jì)算機(jī)圖形學(xué)等不同領(lǐng)域;圖形學(xué)等不同領(lǐng)域; 2、挖掘技術(shù)研究,從統(tǒng)計(jì)學(xué)、人工智能、機(jī)器、挖掘技術(shù)研究,從統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)、計(jì)算機(jī)圖形學(xué)、軟件工程等領(lǐng)域;學(xué)習(xí)、計(jì)算機(jī)圖形學(xué)、軟件工程等領(lǐng)域; 3、數(shù)據(jù)
5、管理策略研究,從數(shù)據(jù)庫(kù)管理技術(shù)等領(lǐng)、數(shù)據(jù)管理策略研究,從數(shù)據(jù)庫(kù)管理技術(shù)等領(lǐng)域;域; 4、數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究,其中數(shù)據(jù)挖掘技、數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究,其中數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應(yīng)用是一個(gè)重要方面。術(shù)在金融領(lǐng)域的應(yīng)用是一個(gè)重要方面。三、幾種相對(duì)比較成熟的數(shù)據(jù)挖掘技術(shù)三、幾種相對(duì)比較成熟的數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)挖掘是一門(mén)新興的、正在不斷發(fā)展中的技數(shù)據(jù)挖掘是一門(mén)新興的、正在不斷發(fā)展中的技術(shù),近年來(lái),幾類(lèi)十分重要、且相對(duì)比較成熟的數(shù)術(shù),近年來(lái),幾類(lèi)十分重要、且相對(duì)比較成熟的數(shù)據(jù)挖掘技術(shù)是:據(jù)挖掘技術(shù)是: 1、分類(lèi)與預(yù)測(cè)、分類(lèi)與預(yù)測(cè) 2、特征化、比較與關(guān)聯(lián)規(guī)則挖掘、特征化、比較與關(guān)聯(lián)規(guī)則挖掘 3、聚類(lèi)分
6、析、聚類(lèi)分析 4、序列發(fā)現(xiàn)、序列發(fā)現(xiàn) 本課程主要內(nèi)容:幾類(lèi)數(shù)據(jù)挖掘技術(shù)的基本原本課程主要內(nèi)容:幾類(lèi)數(shù)據(jù)挖掘技術(shù)的基本原理、數(shù)據(jù)挖掘方法、及這些挖掘技術(shù)在金融領(lǐng)域的理、數(shù)據(jù)挖掘方法、及這些挖掘技術(shù)在金融領(lǐng)域的應(yīng)用。應(yīng)用。 第二章:分類(lèi)與預(yù)測(cè)第二章:分類(lèi)與預(yù)測(cè) 一、分類(lèi)與預(yù)測(cè)的概念一、分類(lèi)與預(yù)測(cè)的概念 1、分類(lèi)、分類(lèi) 已知離散的、有限的幾個(gè)類(lèi),判斷或預(yù)測(cè)樣本屬于那個(gè)類(lèi)。已知離散的、有限的幾個(gè)類(lèi),判斷或預(yù)測(cè)樣本屬于那個(gè)類(lèi)。 * 某人否具有某種疾病某人否具有某種疾病 * 上市公司是否會(huì)陷入財(cái)務(wù)困境、是否會(huì)被外資并購(gòu)上市公司是否會(huì)陷入財(cái)務(wù)困境、是否會(huì)被外資并購(gòu) * 借款人是否會(huì)違約借款人是否會(huì)違約 *
7、這個(gè)客戶(hù)是否為銀行的潛在優(yōu)質(zhì)客戶(hù)、是否會(huì)轉(zhuǎn)向其這個(gè)客戶(hù)是否為銀行的潛在優(yōu)質(zhì)客戶(hù)、是否會(huì)轉(zhuǎn)向其他銀行他銀行 用用y表示類(lèi)變量,表示類(lèi)變量,y取離散的幾個(gè)值,分類(lèi)就是判斷或預(yù)取離散的幾個(gè)值,分類(lèi)就是判斷或預(yù)測(cè)樣本的測(cè)樣本的y究竟取什么值究竟取什么值 2、預(yù)測(cè)預(yù)測(cè) 預(yù)測(cè)是指對(duì)連續(xù)性變量的取值進(jìn)行預(yù)測(cè),如:預(yù)測(cè)是指對(duì)連續(xù)性變量的取值進(jìn)行預(yù)測(cè),如: * 某個(gè)借款人的違約概率是多少某個(gè)借款人的違約概率是多少 * 銀行資產(chǎn)組合明天在銀行資產(chǎn)組合明天在99%99%置信度下的最大損失(置信度下的最大損失(VaRVaR)有有 多大多大 * 如果某開(kāi)放式基金因面臨巨額贖回申請(qǐng)而不得不大量拋如果某開(kāi)放式基金因面臨巨額
8、贖回申請(qǐng)而不得不大量拋售某種證券,這種證券的價(jià)格會(huì)下跌多少售某種證券,這種證券的價(jià)格會(huì)下跌多少 分類(lèi)分類(lèi)對(duì)離散型變量進(jìn)行預(yù)測(cè)對(duì)離散型變量進(jìn)行預(yù)測(cè) 預(yù)測(cè)預(yù)測(cè)對(duì)連續(xù)型變量進(jìn)行預(yù)測(cè)對(duì)連續(xù)型變量進(jìn)行預(yù)測(cè) 二、分類(lèi)案例教學(xué)二、分類(lèi)案例教學(xué) 上市公司財(cái)務(wù)困境預(yù)測(cè)模型構(gòu)建上市公司財(cái)務(wù)困境預(yù)測(cè)模型構(gòu)建 1、要求:要求: 將因財(cái)務(wù)狀況異常而被特別處理的將因財(cái)務(wù)狀況異常而被特別處理的STST公司界定為財(cái)務(wù)困公司界定為財(cái)務(wù)困境公司、非境公司、非STST公司界定為財(cái)務(wù)正常公司,利用上市公司的財(cái)公司界定為財(cái)務(wù)正常公司,利用上市公司的財(cái)務(wù)報(bào)表數(shù)據(jù),建立上市公司財(cái)務(wù)困境預(yù)測(cè)模型(提前一年預(yù)務(wù)報(bào)表數(shù)據(jù),建立上市公司財(cái)務(wù)困境預(yù)
9、測(cè)模型(提前一年預(yù)測(cè),即用第測(cè),即用第t-2t-2年的數(shù)據(jù)預(yù)測(cè)企業(yè)在第年的數(shù)據(jù)預(yù)測(cè)企業(yè)在第t t年是否會(huì)陷入財(cái)務(wù)困年是否會(huì)陷入財(cái)務(wù)困境)。境)。 分類(lèi)變量分類(lèi)變量y y的取值的取值 y=0 y=0 如果公司為財(cái)務(wù)困境公司如果公司為財(cái)務(wù)困境公司 y=1 y=1 如果公司為財(cái)務(wù)正常公司如果公司為財(cái)務(wù)正常公司 2、類(lèi)似案例、類(lèi)似案例: * 外資并購(gòu)目標(biāo)公司預(yù)測(cè)外資并購(gòu)目標(biāo)公司預(yù)測(cè) * 防防信用卡詐騙預(yù)警系統(tǒng)信用卡詐騙預(yù)警系統(tǒng) * 銀行客戶(hù)關(guān)系管理銀行客戶(hù)關(guān)系管理 * 稅務(wù)稽核稅務(wù)稽核 3 3、數(shù)據(jù)來(lái)源:、數(shù)據(jù)來(lái)源:CSMARCSMAR數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù) 1990-2004 1990-2004 資產(chǎn)負(fù)債表、
10、損益表,資產(chǎn)負(fù)債表、損益表, 1990-1997 1990-1997 財(cái)務(wù)狀況變動(dòng)表財(cái)務(wù)狀況變動(dòng)表 1998-2004 1998-2004 現(xiàn)金流量表現(xiàn)金流量表 4 4、報(bào)表變動(dòng)情況:、報(bào)表變動(dòng)情況: 1994 1994年合并會(huì)計(jì)報(bào)表年合并會(huì)計(jì)報(bào)表 1998 1998年資產(chǎn)減值準(zhǔn)備年資產(chǎn)減值準(zhǔn)備 5、研究所需數(shù)據(jù)、研究所需數(shù)據(jù) 、預(yù)測(cè)變量選取預(yù)測(cè)變量選取實(shí)踐經(jīng)驗(yàn)、其他文獻(xiàn)使用的預(yù)測(cè)實(shí)踐經(jīng)驗(yàn)、其他文獻(xiàn)使用的預(yù)測(cè)變量、采用技術(shù)手段(統(tǒng)計(jì)技術(shù)、數(shù)據(jù)挖掘技術(shù))選取預(yù)測(cè)變量、采用技術(shù)手段(統(tǒng)計(jì)技術(shù)、數(shù)據(jù)挖掘技術(shù))選取預(yù)測(cè)變量、在一定理論指導(dǎo)下構(gòu)造新的預(yù)測(cè)變量;變量、在一定理論指導(dǎo)下構(gòu)造新的預(yù)測(cè)變量; 、
11、樣本數(shù)據(jù)的結(jié)構(gòu)形式樣本數(shù)據(jù)的結(jié)構(gòu)形式 、采集樣本數(shù)據(jù)時(shí)應(yīng)注意的問(wèn)題采集樣本數(shù)據(jù)時(shí)應(yīng)注意的問(wèn)題 * 盡量采用跨年度數(shù)據(jù)盡量采用跨年度數(shù)據(jù) * 需要?jiǎng)h除的數(shù)據(jù)需要?jiǎng)h除的數(shù)據(jù) * 盡量不采用配對(duì)抽樣盡量不采用配對(duì)抽樣 、隨機(jī)構(gòu)造的訓(xùn)練樣本組與檢驗(yàn)樣本組(過(guò)度擬合現(xiàn)隨機(jī)構(gòu)造的訓(xùn)練樣本組與檢驗(yàn)樣本組(過(guò)度擬合現(xiàn)象)象) 、本案例的數(shù)據(jù)說(shuō)明(、本案例的數(shù)據(jù)說(shuō)明(sj0sj0): * 19951995年底前上市的公司;年底前上市的公司; * 刪除其他原因被特別處理的公司;刪除其他原因被特別處理的公司; * 數(shù)據(jù)跨期數(shù)據(jù)跨期1996-20011996-2001,分別預(yù)測(cè),分別預(yù)測(cè)1998-20031998-2
12、003; * 刪除在預(yù)測(cè)年度已陷入財(cái)務(wù)困境的公司;刪除在預(yù)測(cè)年度已陷入財(cái)務(wù)困境的公司; * 共有非共有非STST公司數(shù)據(jù)公司數(shù)據(jù)10081008個(gè),個(gè),STST公司數(shù)據(jù)公司數(shù)據(jù)111111個(gè);個(gè); * 采用的采用的6 6個(gè)預(yù)測(cè)變量為(第一種方法):個(gè)預(yù)測(cè)變量為(第一種方法): 總負(fù)債總負(fù)債/ /總資產(chǎn)、主營(yíng)業(yè)務(wù)收入總資產(chǎn)、主營(yíng)業(yè)務(wù)收入/ /總資產(chǎn)、總利潤(rùn)總資產(chǎn)、總利潤(rùn)/ /總資產(chǎn)、總資產(chǎn)、(貨幣資金(貨幣資金+ +短期投資凈額)短期投資凈額)/ /流動(dòng)資產(chǎn)、留存盈余流動(dòng)資產(chǎn)、留存盈余/ /總資產(chǎn)、總資產(chǎn)、總資產(chǎn)的自然對(duì)數(shù)。總資產(chǎn)的自然對(duì)數(shù)。 、隨機(jī)抽樣構(gòu)造訓(xùn)練樣本組、檢驗(yàn)樣本組的隨機(jī)抽樣構(gòu)造訓(xùn)
13、練樣本組、檢驗(yàn)樣本組的SAS方法:方法: * 將將EXCELEXCEL數(shù)據(jù)庫(kù)轉(zhuǎn)為數(shù)據(jù)庫(kù)轉(zhuǎn)為SASSAS數(shù)據(jù)庫(kù);數(shù)據(jù)庫(kù); * SAS隨機(jī)數(shù)函數(shù)隨機(jī)數(shù)函數(shù)uniform(seed),隨機(jī)種子數(shù)隨機(jī)種子數(shù)seed取奇數(shù),產(chǎn)生取奇數(shù),產(chǎn)生0,1區(qū)間上的一個(gè)隨機(jī)數(shù)區(qū)間上的一個(gè)隨機(jī)數(shù) * 隨機(jī)建立訓(xùn)練樣本組、檢驗(yàn)樣本組的隨機(jī)建立訓(xùn)練樣本組、檢驗(yàn)樣本組的SASSAS程序程序 # # data adata a; set set sasusersasuser.sj0; .sj0; k=uniform(15); k=uniform(15); run; run; # # 對(duì)已進(jìn)行對(duì)已進(jìn)行k k排序的數(shù)據(jù)庫(kù)排序的數(shù)據(jù)
14、庫(kù)a a data b; data b; set a; set a; m= m=intint(_n_/2);(_n_/2); run; run; (sj1sj1,sj2sj2) 二、構(gòu)造分類(lèi)預(yù)測(cè)模型的方法二、構(gòu)造分類(lèi)預(yù)測(cè)模型的方法 1 1、判別分析法判別分析法 、判別分析方法的統(tǒng)計(jì)學(xué)原理判別分析方法的統(tǒng)計(jì)學(xué)原理 假設(shè)有兩個(gè)總體假設(shè)有兩個(gè)總體財(cái)務(wù)困境公司與財(cái)務(wù)正常公司,每個(gè)財(cái)務(wù)困境公司與財(cái)務(wù)正常公司,每個(gè)總體都可以用一個(gè)六維隨機(jī)變量總體都可以用一個(gè)六維隨機(jī)變量 表示,不同的總表示,不同的總體分布不同。預(yù)測(cè)上市公司是否會(huì)陷入財(cái)務(wù)困境,就是判斷體分布不同。預(yù)測(cè)上市公司是否會(huì)陷入財(cái)務(wù)困境,就是判斷這個(gè)
15、公司所對(duì)應(yīng)的樣本屬于哪個(gè)總體。這個(gè)公司所對(duì)應(yīng)的樣本屬于哪個(gè)總體。 判別分析是利用距離(相似程度的體現(xiàn))來(lái)判斷樣本的歸判別分析是利用距離(相似程度的體現(xiàn))來(lái)判斷樣本的歸屬。較常用的距離度量是馬氏距離:屬。較常用的距離度量是馬氏距離: ,判別分,判別分析實(shí)際上是利用距離差:析實(shí)際上是利用距離差: 為判斷指標(biāo)來(lái)判斷樣本的為判斷指標(biāo)來(lái)判斷樣本的歸屬。歸屬。 由于馬氏距離為一個(gè)二次型,因此當(dāng)由于馬氏距離為一個(gè)二次型,因此當(dāng) 時(shí),距離差時(shí),距離差也會(huì)一個(gè)二次型,這樣在計(jì)算時(shí)較復(fù)雜,如果也會(huì)一個(gè)二次型,這樣在計(jì)算時(shí)較復(fù)雜,如果 ,且兩,且兩個(gè)總體均服從正態(tài)分布,則距離差為一個(gè)線(xiàn)性函數(shù)(線(xiàn)性判個(gè)總體均服從正態(tài)
16、分布,則距離差為一個(gè)線(xiàn)性函數(shù)(線(xiàn)性判別函數(shù)),可利用這個(gè)線(xiàn)性函數(shù)別函數(shù)),可利用這個(gè)線(xiàn)性函數(shù)建立預(yù)測(cè)規(guī)則。建立預(yù)測(cè)規(guī)則。 、判別分析的判別分析的SASSAS程序:程序: proc proc discrim discrim data=data=sasusersasuser.sj1;.sj1; class y; class y; run; run; 、SASSAS結(jié)果結(jié)果 對(duì)兩個(gè)距離的說(shuō)明。現(xiàn)在可以得到線(xiàn)行判別函數(shù)為:對(duì)兩個(gè)距離的說(shuō)明?,F(xiàn)在可以得到線(xiàn)行判別函數(shù)為: 、如何建立預(yù)測(cè)規(guī)則如何建立預(yù)測(cè)規(guī)則 * * 指標(biāo)的判斷:正指標(biāo)還是負(fù)指標(biāo)(正指標(biāo))。指標(biāo)的判斷:正指標(biāo)還是負(fù)指標(biāo)(正指標(biāo))。 * *
17、根據(jù)兩種誤判的損失估計(jì)確定合適的臨界值根據(jù)兩種誤判的損失估計(jì)確定合適的臨界值 現(xiàn)在根據(jù)使兩種誤判盡可能接近的方法,得到:現(xiàn)在根據(jù)使兩種誤判盡可能接近的方法,得到: 臨界值:臨界值:d = 1.2d = 1.2 、預(yù)測(cè)規(guī)則:預(yù)測(cè)規(guī)則: 對(duì)每個(gè)上市公司計(jì)算對(duì)應(yīng)的對(duì)每個(gè)上市公司計(jì)算對(duì)應(yīng)的d d,若若d d1.21.2,則則判斷其一年判斷其一年后不會(huì)陷入財(cái)務(wù)困境;若后不會(huì)陷入財(cái)務(wù)困境;若d d1.21.2,則判斷其一年后會(huì)陷入財(cái)則判斷其一年后會(huì)陷入財(cái)務(wù)困境。務(wù)困境。 、預(yù)測(cè)準(zhǔn)確率檢驗(yàn):預(yù)測(cè)準(zhǔn)確率檢驗(yàn): 訓(xùn)練樣本組訓(xùn)練樣本組 檢驗(yàn)樣本組檢驗(yàn)樣本組 STST公司:公司:49/56=87.5% 47/55
18、= 85.4% 49/56=87.5% 47/55 = 85.4% 非非STST公司公司: 442/504=87.7% 432/504 = 85.7%: 442/504=87.7% 432/504 = 85.7% 、討論、討論 * * 判別分析只能運(yùn)用于離散型因變量預(yù)測(cè),而不能運(yùn)用判別分析只能運(yùn)用于離散型因變量預(yù)測(cè),而不能運(yùn)用于連續(xù)型因變量預(yù)測(cè);于連續(xù)型因變量預(yù)測(cè); * * 建立線(xiàn)性判別準(zhǔn)則,需要較強(qiáng)的限制條件建立線(xiàn)性判別準(zhǔn)則,需要較強(qiáng)的限制條件正態(tài)正態(tài)分布與等協(xié)方差矩陣;分布與等協(xié)方差矩陣; * * 臨界值的確定需考慮不同誤判的損失函數(shù),考慮使臨界值的確定需考慮不同誤判的損失函數(shù),考慮使用者
19、的風(fēng)險(xiǎn)偏好;用者的風(fēng)險(xiǎn)偏好; * * 使用判別分析方法,需要事先確定預(yù)測(cè)變量。使用判別分析方法,需要事先確定預(yù)測(cè)變量。 * * 也可以建立另外形式的預(yù)測(cè)規(guī)則。也可以建立另外形式的預(yù)測(cè)規(guī)則。 練習(xí):交換練習(xí):交換sj1與與sj2的地位,建立預(yù)測(cè)規(guī)則,并進(jìn)行預(yù)的地位,建立預(yù)測(cè)規(guī)則,并進(jìn)行預(yù)測(cè)準(zhǔn)確率檢驗(yàn)?;蚪⑵渌麊?wèn)題的判別分析預(yù)測(cè)模型。測(cè)準(zhǔn)確率檢驗(yàn)?;蚪⑵渌麊?wèn)題的判別分析預(yù)測(cè)模型。 2、Logistic回歸預(yù)測(cè)回歸預(yù)測(cè) 、統(tǒng)計(jì)學(xué)原理統(tǒng)計(jì)學(xué)原理 計(jì)量經(jīng)濟(jì)學(xué)中,回歸模型具有預(yù)測(cè)功能,但現(xiàn)在的數(shù)據(jù)計(jì)量經(jīng)濟(jì)學(xué)中,回歸模型具有預(yù)測(cè)功能,但現(xiàn)在的數(shù)據(jù)結(jié)構(gòu)為:結(jié)構(gòu)為: ,因變量為離散變量(虛擬變,因變量為離散
20、變量(虛擬變量),一般的線(xiàn)性回歸模型不適用。量),一般的線(xiàn)性回歸模型不適用。 Logistic回歸模型實(shí)際上是概率預(yù)測(cè)模型,其原理如下:回歸模型實(shí)際上是概率預(yù)測(cè)模型,其原理如下: 建立如下形式的線(xiàn)性模型建立如下形式的線(xiàn)性模型: 則得到概率預(yù)測(cè)模型則得到概率預(yù)測(cè)模型 Logistic回歸模型為非線(xiàn)性模型,模型的參數(shù)估計(jì)不能回歸模型為非線(xiàn)性模型,模型的參數(shù)估計(jì)不能用最小二乘法,而采用極大似然估計(jì)法。用最小二乘法,而采用極大似然估計(jì)法。 、LogisticLogistic回歸的回歸的SASSAS程序程序 proc logistic descending data=proc logistic desc
21、ending data=sasusersasuser.Sj1.Sj1; model y = x1-x6; model y = x1-x6; run; run; 、SASSAS結(jié)果結(jié)果 、臨界值確定與預(yù)測(cè)規(guī)則臨界值確定與預(yù)測(cè)規(guī)則 臨界值臨界值:0.09,:0.09,預(yù)測(cè)規(guī)則預(yù)測(cè)規(guī)則: : P P0.09,0.09,一年后一年后上市公司將陷入財(cái)務(wù)困境上市公司將陷入財(cái)務(wù)困境; ;P P0.09,0.09,一年一年后后上市公司不會(huì)陷入財(cái)務(wù)困境上市公司不會(huì)陷入財(cái)務(wù)困境. . 、預(yù)測(cè)準(zhǔn)確率檢驗(yàn)預(yù)測(cè)準(zhǔn)確率檢驗(yàn) 訓(xùn)練樣本組訓(xùn)練樣本組 檢驗(yàn)樣本組檢驗(yàn)樣本組STST公司公司 46/56=82.1% 44/55=8
22、0% 46/56=82.1% 44/55=80% 非非STST公司公司 433/504=85.9% 425/504=84.3% 433/504=85.9% 425/504=84.3% 、討論討論 * * 模型可用于分類(lèi)預(yù)測(cè),也可用于概率預(yù)測(cè)(如違約率模型可用于分類(lèi)預(yù)測(cè),也可用于概率預(yù)測(cè)(如違約率預(yù)測(cè));預(yù)測(cè)); * * 構(gòu)建模型時(shí)應(yīng)該避免非隨機(jī)抽樣,否則模型參數(shù)估計(jì)構(gòu)建模型時(shí)應(yīng)該避免非隨機(jī)抽樣,否則模型參數(shù)估計(jì)會(huì)產(chǎn)生偏差,特別是在構(gòu)建概率預(yù)測(cè)模型時(shí);會(huì)產(chǎn)生偏差,特別是在構(gòu)建概率預(yù)測(cè)模型時(shí); * * 如果需要采用分層抽樣方法,則對(duì)參數(shù)估計(jì)方法應(yīng)進(jìn)如果需要采用分層抽樣方法,則對(duì)參數(shù)估計(jì)方法應(yīng)進(jìn)行調(diào)
23、整;行調(diào)整; * * 事先確定預(yù)測(cè)變量,否則的話(huà),可以采用逐步回歸法。事先確定預(yù)測(cè)變量,否則的話(huà),可以采用逐步回歸法。 、逐步回歸方法與預(yù)測(cè)變量選取逐步回歸方法與預(yù)測(cè)變量選取 預(yù)測(cè)變量選取是建立分類(lèi)預(yù)測(cè)模型的關(guān)鍵步驟。經(jīng)常的預(yù)測(cè)變量選取是建立分類(lèi)預(yù)測(cè)模型的關(guān)鍵步驟。經(jīng)常的情況是,知道預(yù)測(cè)變量的大致范圍,但不知哪些變量具有較情況是,知道預(yù)測(cè)變量的大致范圍,但不知哪些變量具有較大的信息含量。大的信息含量。 利用逐步回歸方法,可以在這個(gè)范圍內(nèi)挑選出較佳的構(gòu)利用逐步回歸方法,可以在這個(gè)范圍內(nèi)挑選出較佳的構(gòu)建建LogisticLogistic回歸模型的預(yù)測(cè)變量組?;貧w模型的預(yù)測(cè)變量組。 現(xiàn)在,另外選取了
24、現(xiàn)在,另外選取了1515個(gè)可能有用的預(yù)測(cè)指標(biāo)個(gè)可能有用的預(yù)測(cè)指標(biāo)y1-y15y1-y15,對(duì)對(duì)11191119家上市公司利用逐步回歸法建立預(yù)測(cè)模型。家上市公司利用逐步回歸法建立預(yù)測(cè)模型。 、逐步回歸的逐步回歸的SAS程序程序 proc logistic descending data=sasuser.sj00; model y=y1-y15 / selection=stepwise; run; 、SASSAS結(jié)果結(jié)果 構(gòu)建構(gòu)建LogisticLogistic回歸模型的變量為:回歸模型的變量為: y3y3、y4y4、y5y5、y6y6、y10y10、y11y11、y12y12、y13y13、y1
25、4y14; 、預(yù)測(cè)規(guī)則與預(yù)測(cè)準(zhǔn)確率預(yù)測(cè)規(guī)則與預(yù)測(cè)準(zhǔn)確率 預(yù)測(cè)規(guī)則:預(yù)測(cè)規(guī)則: P P0.09,0.09,一年后上市公司將陷入財(cái)務(wù)困境一年后上市公司將陷入財(cái)務(wù)困境; ;P P0.09,0.09,一一年后上市公司不會(huì)陷入財(cái)務(wù)困境。年后上市公司不會(huì)陷入財(cái)務(wù)困境。 預(yù)測(cè)準(zhǔn)確率預(yù)測(cè)準(zhǔn)確率 STST公司:公司: 92/111 = 82.9%; 92/111 = 82.9%; 非非STST公司:公司: 864/1008 = 85.71%. 864/1008 = 85.71%. 3、Probir回歸預(yù)測(cè)回歸預(yù)測(cè) 數(shù)據(jù)結(jié)構(gòu)為:數(shù)據(jù)結(jié)構(gòu)為: ,因變量為離散變量,因變量為離散變量(虛擬變量),一般的線(xiàn)性回歸模型不適
26、用(虛擬變量),一般的線(xiàn)性回歸模型不適用。 Probit建立如下形式的回歸模型:建立如下形式的回歸模型: Probit回歸同樣通過(guò)最大似然估計(jì)來(lái)估計(jì)模型參數(shù)?;貧w同樣通過(guò)最大似然估計(jì)來(lái)估計(jì)模型參數(shù)。 Probit回歸的回歸的SAS程序程序 proc probit data=sasuser.sj1; class y;(注意注意Logistic程序中沒(méi)有這一項(xiàng)程序中沒(méi)有這一項(xiàng)) model y=x1-x6; run;),(262221ttttyxxx)()|1(661100 xxxyPP 經(jīng)計(jì)算得到經(jīng)計(jì)算得到: 預(yù)測(cè)規(guī)則預(yù)測(cè)規(guī)則: P0.1一年后上市公司將陷入財(cái)務(wù)困境,或者就不會(huì)陷入一年后上市公司
27、將陷入財(cái)務(wù)困境,或者就不會(huì)陷入財(cái)務(wù)困境。財(cái)務(wù)困境。 預(yù)測(cè)準(zhǔn)確率:預(yù)測(cè)準(zhǔn)確率: 訓(xùn)練樣本組訓(xùn)練樣本組 檢驗(yàn)樣本組檢驗(yàn)樣本組 St公司:公司: 46/56=82.1 46/55=83.6 非非St公司公司: 428/504=84.9 419/504=83.1)()|1(145.1489.4571.811 310.28754.3454.6315.30654321zxyPPxxxxxxz 4、決策樹(shù)方法、決策樹(shù)方法 與前面討論的幾種分類(lèi)預(yù)測(cè)方法相比,決策樹(shù)方法是一與前面討論的幾種分類(lèi)預(yù)測(cè)方法相比,決策樹(shù)方法是一種近年來(lái)才出現(xiàn)的分類(lèi)預(yù)測(cè)方法,其基本原理如下。種近年來(lái)才出現(xiàn)的分類(lèi)預(yù)測(cè)方法,其基本原理如下。
28、 、熵與信息增量的概念熵與信息增量的概念 熵為一個(gè)統(tǒng)計(jì)學(xué)概念,設(shè)熵為一個(gè)統(tǒng)計(jì)學(xué)概念,設(shè)y y為一個(gè)狀態(tài)隨機(jī)變量,其熵的為一個(gè)狀態(tài)隨機(jī)變量,其熵的定義為:定義為: 在統(tǒng)計(jì)學(xué)中,熵是不確定性的度量,一個(gè)分類(lèi)隨機(jī)變量在統(tǒng)計(jì)學(xué)中,熵是不確定性的度量,一個(gè)分類(lèi)隨機(jī)變量的熵越小,其不確定性就越小,對(duì)其的預(yù)測(cè)就越準(zhǔn)確。從信的熵越小,其不確定性就越小,對(duì)其的預(yù)測(cè)就越準(zhǔn)確。從信息學(xué)的角度看,如果利用一個(gè)變量后,可以減少分類(lèi)變量的息學(xué)的角度看,如果利用一個(gè)變量后,可以減少分類(lèi)變量的熵,則該變量對(duì)分類(lèi)預(yù)測(cè)就具有信息價(jià)值,熵的減少量越大,熵,則該變量對(duì)分類(lèi)預(yù)測(cè)就具有信息價(jià)值,熵的減少量越大,該指標(biāo)用于預(yù)測(cè)的信息價(jià)值也
29、就越大。該指標(biāo)用于預(yù)測(cè)的信息價(jià)值也就越大。 iippyIppppyIlog)(loglog)(2211、信息增量的概念信息增量的概念 設(shè)設(shè)x x為某個(gè)指標(biāo),選取一個(gè)為某個(gè)指標(biāo),選取一個(gè) ,按照條件,按照條件 是否滿(mǎn)足,是否滿(mǎn)足,可以將樣本分為兩組,分別計(jì)算各組中可以將樣本分為兩組,分別計(jì)算各組中y y的熵的熵 ,指標(biāo),指標(biāo)x的信息增量定義為:的信息增量定義為: 其中,其中, 分別表示兩組樣本所占的比重。顯然,這樣計(jì)算的分別表示兩組樣本所占的比重。顯然,這樣計(jì)算的信息增量與信息增量與 的取法有關(guān),對(duì)每個(gè)指標(biāo),通過(guò)計(jì)算機(jī)搜索,的取法有關(guān),對(duì)每個(gè)指標(biāo),通過(guò)計(jì)算機(jī)搜索,可以找到一個(gè)最佳的可以找到一個(gè)最佳的 ,使其對(duì)應(yīng)的信息增量達(dá)到最大。,使其對(duì)應(yīng)的信息增量達(dá)到最大。 對(duì)每個(gè)指標(biāo),我們都可以計(jì)算其信息增量,這樣我們就知對(duì)每個(gè)指標(biāo),我們都可以計(jì)算其信息增量,這樣我們就知道哪個(gè)指標(biāo)對(duì)分類(lèi)預(yù)測(cè)的信息含量最大。道哪個(gè)指標(biāo)對(duì)分類(lèi)預(yù)測(cè)的信息含量最大。 0 x0 xx )(),(21yIyI)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 刑事辯護(hù)委托合同范本
- 養(yǎng)兔場(chǎng)招工合同范本
- 2025廣東省安全員《B證》考試題庫(kù)
- 協(xié)會(huì)聘用合同范本
- 醫(yī)藥公司之間合同范本
- 代加工醬料合同范本
- ps租房合同范本
- 價(jià)格透明合同范本
- 醫(yī)療資質(zhì)代辦合同范本
- 出售飯店柜機(jī)合同范本
- (2024年)污水處理設(shè)備培訓(xùn)方案
- 《生物質(zhì)熱電聯(lián)產(chǎn)工程設(shè)計(jì)規(guī)范》
- 中國(guó)十五冶招聘線(xiàn)上筆試測(cè)評(píng)題庫(kù)
- xx基層團(tuán)支部建設(shè)培訓(xùn)
- 中國(guó)結(jié)直腸癌診療規(guī)范(2023版)解讀
- 通用級(jí)聚苯乙烯簡(jiǎn)介介紹
- 關(guān)于某工廠減免部分利息的申請(qǐng)
- 《反竊電技術(shù)》課件
- 學(xué)生宿舍電路負(fù)荷和電線(xiàn)阻燃要求
- 1.1原子結(jié)構(gòu)-12課時(shí)課件高二化學(xué)人教版選擇性必修2
- 如何讓孩子積極參與家務(wù)勞動(dòng)
評(píng)論
0/150
提交評(píng)論