版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
金融行業(yè)數(shù)據(jù)挖掘技術(shù)一、 一、簡介“金融行業(yè)數(shù)據(jù)挖掘技術(shù)應用論壇”由中國電子信息產(chǎn)業(yè)發(fā)展研究院(CCID)和其旗下賽迪集團戰(zhàn)略數(shù)據(jù)資源管理中心主辦,北京賽迪數(shù)據(jù)有限公司負責具體承辦,2002年11月25日在北京新世紀飯店召開。二、 二、 會議紀要1.會議內(nèi)容1)數(shù)據(jù)挖掘技術(shù)與金融分析內(nèi)容■數(shù)據(jù)倉庫結(jié)構(gòu)與技術(shù)■數(shù)據(jù)挖掘技術(shù)■評分系統(tǒng)在金融決策中的應用■ ■數(shù)據(jù)挖掘用于評分系統(tǒng)主要觀點:(1) 數(shù)據(jù)倉庫是適合知識發(fā)現(xiàn)的過程的結(jié)構(gòu)。數(shù)據(jù)倉庫的處理過程是從“數(shù)據(jù)清理/整合——>數(shù)據(jù)倉庫——>數(shù)據(jù)選擇——>數(shù)據(jù)挖掘——>模式評價——>知識”不斷循環(huán)的過程(注:類似Fayyad96年提出的數(shù)據(jù)挖掘過程模型。(2) 將數(shù)據(jù)倉庫和挖掘的結(jié)構(gòu)劃分為四個層次:第一層是數(shù)據(jù)層,第二層是多維數(shù)據(jù)庫層MDDB,第三層是OLAP和OLAM,第四層是用戶界面(注:類似HanJiawei的OLAM體系結(jié)構(gòu))(3) 數(shù)據(jù)挖掘過程包括:數(shù)據(jù)選擇,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)挖掘,數(shù)據(jù)解釋。(4) 數(shù)據(jù)挖掘的方法:聯(lián)想,劃分,聚類,預測,順序模式,相似時間序列。(5) 數(shù)據(jù)挖掘的科學方法數(shù)學工具:統(tǒng)計學,決策樹,神經(jīng)網(wǎng)絡(luò),模糊邏輯,線性規(guī)劃。(6) 個人信用評分系統(tǒng)是將個人信用的歷史(六個月以上)經(jīng)過45至65個因素的刻劃后表述的決策模型。通常個人信用評分為350至850之間。每人從850分起,有壞帳記錄,即扣去不同比例的分數(shù)。經(jīng)過評分模型的分析,最后得到?jīng)Q策評分。(850為最好)(7) 評分因素:過去的付帳歷史、信用欠帳量、信用卡使用時間、新信用卡的申請、信用卡的類、信用卡交易情況、現(xiàn)金提取情況(8) 應用前景:銀行各類信貸風險分析,企業(yè)和個人信用風險分析2) 2)如何利用數(shù)據(jù)挖掘工具協(xié)助進行市場營銷內(nèi)容■數(shù)據(jù)挖掘的定義■IBM數(shù)據(jù)挖掘的解決方案■ 在金融行業(yè)的應用主要觀點:(1) (1) 強調(diào)了數(shù)據(jù)挖掘過程,首先必須明確需要解決的商業(yè)問題。(2) (2) IBM有從數(shù)據(jù)庫到最上層的挖掘工具的一整套商業(yè)智能解決方案。(3) (3) 在銀行應用的層次:信用評分,購物籃分析,區(qū)隔分析,交叉營銷/向上營銷,客戶流失,客戶價值。(4) (4) 講解了LiftChart圖的含義3) 3)數(shù)據(jù)挖掘在金融行業(yè)的應用趨勢分析內(nèi)容■數(shù)據(jù)管理技術(shù)的挑戰(zhàn)■結(jié)構(gòu)化數(shù)據(jù)挖掘應用■非結(jié)構(gòu)化數(shù)據(jù)挖掘應用■金融行業(yè)數(shù)據(jù)挖掘應用趨勢主要觀點:(1) (1) 八十年代初,銀行自動化建設(shè),九十年代初銀行網(wǎng)絡(luò)化建設(shè)階段,九五末期,數(shù)據(jù)大集中。(2) (2) 2002年上半年金融行業(yè)IT應用特點:數(shù)據(jù)大集中平穩(wěn)進行,“銀聯(lián)”改善信用卡環(huán)境,電視會議擴大應用,個人理財系統(tǒng)成為新焦點,農(nóng)信社信息化市場升溫,無線局域網(wǎng)開始應用。(3) (3) 結(jié)構(gòu)化挖掘原理:從現(xiàn)有業(yè)務(wù)系統(tǒng)中抽取數(shù)據(jù)(業(yè)務(wù)數(shù)據(jù)、客戶數(shù)據(jù)),建立深層次的分析體系(數(shù)據(jù)倉庫、數(shù)據(jù)集市、業(yè)務(wù)分析模型),以信息驅(qū)動業(yè)務(wù)的管理、新一代電子商務(wù)企業(yè)(市場觸覺敏感、以客戶為中心、以信息驅(qū)動)。(4) (4) 一個比喻:數(shù)據(jù)倉庫和數(shù)據(jù)挖掘好比一個大的廚師燒菜,開始需要選擇(5)(6(5)(6)(5)結(jié)構(gòu)化數(shù)據(jù)挖掘內(nèi)容:(6) 非結(jié)構(gòu)化數(shù)據(jù)挖掘的意義:企業(yè)戰(zhàn)略規(guī)劃的制定和戰(zhàn)術(shù)方案的實施離不開對于海量非結(jié)構(gòu)化數(shù)據(jù)的挖掘和現(xiàn)有知識的管理!(7) (7)非結(jié)構(gòu)化數(shù)據(jù)挖掘在企業(yè)競爭情報系統(tǒng)的應用,企業(yè)競爭情報系統(tǒng)將成為下一個數(shù)據(jù)挖掘應用的熱點。(8) 金融行業(yè)數(shù)據(jù)挖掘應用趨勢,在數(shù)據(jù)集中的平臺上,結(jié)合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)挖掘技術(shù),部署企業(yè)的商業(yè)智能、客戶關(guān)系管理、市場銷售分析、競爭對手分析、市場需求動向等。4)用友金融行業(yè)財務(wù)管理解決方案黃偉先生一上來演示了一個FLASH游戲,在多張不同花色的牌中,讓觀眾記住一張牌,說明他能夠知道所有人記住的是什么牌。然后,他抽去一張牌,再打開其他的牌,觀眾所記住的牌已經(jīng)都不在了。原因很簡單,他換去了所有牌的花色,造成一種錯覺。黃偉先生用這個游戲說明,錯覺往往帶來錯誤的決策,引申開來,數(shù)據(jù)挖掘需要有正確的數(shù)據(jù),才能進行深入的挖掘。介紹了用友集中式的財務(wù)管理解決方案,說明必須先收集這些重要的財務(wù)數(shù)據(jù),才能進行更深入的挖掘。5)CA數(shù)據(jù)管理技術(shù)行業(yè)應用解決方案講解了CA公司的情況,以及CA的商業(yè)智能解決方案,特出了CA自己研制的一種預測技術(shù)。6)透過數(shù)據(jù)挖掘改善客戶服務(wù)中心的管理講解了一些數(shù)據(jù)挖掘概念性的東西,并舉出了那個經(jīng)典的“啤酒-尿布”的案例。7)7)金融信用決策的技術(shù)突破——數(shù)據(jù)挖掘的應用■ 引言■ 信用周期一般介紹■ 信用決策的簡化流程■ 信用決策技術(shù)解析■ 信用決策技術(shù)的幾個例子■ 信用決策技術(shù)帶來的利益■ 中國運用信用技術(shù)的可行方案主要觀點:(1) (1) 抵押貸款有很多缺點,信用貸款都能彌補,所以信用貸款是好的,是趨勢。(2) (2) 信用周期(CreditLifeCycle):(3) (3)信用決策簡化流程(4) 傳統(tǒng)的決策制定中心是主觀制定決策(JUDGEMENT),主觀決策存在一些不足,數(shù)據(jù)挖掘給決策技術(shù)帶來了突破。數(shù)據(jù)挖掘是從廣義的角度講的,包括統(tǒng)計、機器學習、神經(jīng)網(wǎng)絡(luò)等等。(5) 預測解析(PredictiveAnalytics):信用評分技術(shù)(CreditScoring)0■ 內(nèi)在理解分析(ExploratoryAnalysis/KDD):模塊識別和相關(guān)性分析?!?決策建模(DecisionModeling):通過圖論方法建立模型,對于給定的一個或多個決策建立數(shù)學關(guān)系?!霾呗詢?yōu)化(StrategyOptimization):在給定的一些限制條件下,尋找改進利潤的最優(yōu)策略解。■ ■ 策略精調(diào)(StrategyRefinement):精調(diào)最優(yōu)策略解,使其穩(wěn)定可靠,易理解、易執(zhí)行。(6) (6)預測解析:針對不同的信用周期階段和不同的商業(yè)目標,建立模型■招商:依據(jù)風險的招商模型,申請模型,價值模型和響應模型。■立戶:風險(壞帳,破產(chǎn)等),離走和利潤定量等?!鲇脩艄芾恚悍謾n系統(tǒng),風險預測系統(tǒng),壞帳、破產(chǎn)預警系統(tǒng),債量預測模型,利潤預測模型,欺詐預測模型等。■收帳:前期收帳,后期收帳等?!隹傮w:損失預測,營利預測,最優(yōu)組合建立,階梯變壞率預測,等等。(7) (7) 內(nèi)在理解分析■一般理解分析:變量的相互關(guān)系。工具 因子分析、主成分分析、聚類分析、關(guān)聯(lián)規(guī)則等?!鎏厥饫斫夥治觯簩o定目標,尋找貢獻或影響的變量。工具一ISHER顯著性檢驗、參數(shù)估計、線性/非線性/LOGISTIC回歸、神經(jīng)網(wǎng)絡(luò)、決策樹等。(8) (8)決策建模:對于1個或幾個決策建立圖論模型。從而建立起他們之間的數(shù)學關(guān)系。如下圖所示:假設(shè),P、④、p分別記作利率、信用量、債務(wù),則R(收入)=F(X1,…,Xn,p,e,p)L(損失)=F’(X1,…,Xn,p,。,p)c(費用)=f’’(X1,…,Xn,p,。,「)最大利潤=R(收入)5?。?L(損失)me,’)-C(費用)皿譙,?。?9) (9) 優(yōu)化決策和決策精調(diào):(10) (10) 信用評數(shù)技術(shù):例子——對偶模型(11)(11)信用決策技術(shù)利益:減少壞帳;增加利潤;效率提升,開銷縮??;策略的公平性和一貫性得以保障。(12) (12) 中國的可行方案■ 逐步建立完整的數(shù)據(jù)庫■ 人員培訓(預測建模技術(shù),決策建模技術(shù),策略設(shè)計技術(shù))■ 逐步建立決策系統(tǒng)這篇演講是非常有價值的,所以我將其詳細的整理出來。無論對于研究數(shù)據(jù)挖掘或金融模型的學者/學生,還是從事實際項目設(shè)計的工程人員,都有非常高的參考價值。三、 三、結(jié)語在短短的三個半小時內(nèi),能夠組織這樣一個規(guī)模大、內(nèi)容豐富、偏重應用的論壇,賽迪是功不可沒的。一些可以探討的概念和思路:1.數(shù)據(jù)挖掘的定義在提到數(shù)據(jù)挖掘的時候,一些書或者文獻都要強調(diào)它與統(tǒng)計和OLAP的區(qū)別。我覺得應該從更廣義的概念上來理解數(shù)據(jù)挖掘,它是一門跨越多個學科的技術(shù),只要能夠從數(shù)據(jù)發(fā)現(xiàn)有意義的模式,都可以稱為數(shù)據(jù)挖掘。2.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的關(guān)系很多人一講數(shù)據(jù)挖掘,首先必須講數(shù)據(jù)倉庫。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的模式。大量的數(shù)據(jù)并不一定是來源于數(shù)據(jù)倉庫。因為,這樣會造成一種誤解,進行數(shù)據(jù)挖掘項目,一定要先建立數(shù)據(jù)倉庫。另一方面,數(shù)據(jù)倉庫的結(jié)構(gòu),其實并適合進行數(shù)據(jù)挖掘分析,因為我們都看到,大部分數(shù)據(jù)倉庫的結(jié)構(gòu)采用星型或雪花型數(shù)據(jù)模型,這些數(shù)據(jù)倉庫其實是為OLAP建立的,更適合進行OLAP的多維分析,而要從事數(shù)據(jù)挖掘項目還需要將數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)挖掘算法能夠識別的數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)倉庫為數(shù)據(jù)挖掘所做的,應該從數(shù)據(jù)整合和清洗的角度來理解。也就是說,數(shù)據(jù)倉庫將不同操作源的數(shù)據(jù)存放到一個集中的環(huán)境中,并且進行適當?shù)那逑春娃D(zhuǎn)換。這點上面李峻博士所舉的廚房的例子是一個貼切的比喻。數(shù)據(jù)挖掘所需要的數(shù)據(jù),能夠直接從數(shù)據(jù)倉庫獲得,但是獲得后還是需要進行轉(zhuǎn)換,如果沒有數(shù)據(jù)倉庫,就需要直接從操作型數(shù)據(jù)源中獲取,并且要進行ECTL(抽取、清洗、轉(zhuǎn)換、裝載)的操作。因此,沒有數(shù)據(jù)倉庫也是能夠進行數(shù)據(jù)挖掘項目,數(shù)據(jù)倉庫的結(jié)構(gòu)不是為數(shù)據(jù)挖掘設(shè)計的,它更適合OLAP操作。3. 國內(nèi)的數(shù)據(jù)挖掘項目現(xiàn)狀國內(nèi)的金融行業(yè)真正從事數(shù)據(jù)挖掘項目的不多,這從論壇的國內(nèi)報告能夠看出。報告的內(nèi)容主要還是“看——想一一說”的步驟。也就是說,看一些資料/文獻/書,再從目前的情況中展開聯(lián)想,最后將這些整理的想法形成方案,并報告(說)出來。我們非常希望,在以后的應用論壇上,能夠象林博士舉國外的信用決策的例子一樣,來講國內(nèi)的數(shù)據(jù)挖掘案例。從而作到“看——想一一做一一說”。4. 金融行業(yè)如何從事數(shù)據(jù)挖掘項目林博士的“中國信用決策的可行方案,,是比較貼切的,除了信用決策,對于其他已經(jīng)積累了很多業(yè)務(wù)數(shù)據(jù)的系統(tǒng),都可以參考。利用數(shù)據(jù)挖掘技術(shù),構(gòu)建決策系統(tǒng),使得決策來源于數(shù)據(jù),而不僅僅是主觀判斷(JUDGEMENT)。金融行業(yè)的數(shù)據(jù)挖掘研究,需要多方面的人員的共同參與,包括領(lǐng)域?qū)<摇?shù)據(jù)管理員、數(shù)據(jù)分析人員、業(yè)務(wù)分析人員、數(shù)據(jù)挖掘?qū)<?,形成一個團隊,從某一個實際的問題出發(fā),摸索適合自己企業(yè)的一套研究和開發(fā)方法,逐
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 復式公寓房屋買賣合同范例
- 磚廠銷售磚合同范例
- 購銷雙方合同范例
- 林場承包出售合同范例
- 三年級數(shù)學(上)計算題專項練習附答案
- 宣傳產(chǎn)品采購合同范例
- 2024至2030年鎢極氬弧焊不銹鋼焊絲項目投資價值分析報告
- 輔材倉庫配送合同范例
- 菜場租攤位合同范例
- 貨物采購中標后合同范例
- 《復雜網(wǎng)絡(luò)入門必讀》課件
- 傳感器基礎(chǔ)知識單選題100道及答案解析
- 總裁秘書勞動合同模板
- 2023級《中國特色社會主義》學習通超星期末考試答案章節(jié)答案2024年
- 瑞士萬通831KF卡爾費休水分測定儀干貨-庫侖法
- 廣東省肇慶市2023-2024學年高二上學期期末教學質(zhì)量檢測試題 化學 含解析
- 護理課件題目教學課件
- 國有企業(yè)重組整合研究-以A集團與B公司重組為例
- 2024年大學試題(法學)-知識產(chǎn)權(quán)法考試近5年真題集錦(頻考類試題)帶答案
- 2024北京海淀區(qū)高三二模語文試題及答案
- 2024年客運值班員(技師)職業(yè)鑒定理論考試題庫(含答案)
評論
0/150
提交評論