版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
異常點挖掘在證券業(yè)的應(yīng)用研究
內(nèi)容摘要:異常點挖掘是數(shù)據(jù)挖掘的一項功能,現(xiàn)有的文獻較多關(guān)注于算法及其改進方面,而對于異常點挖掘過程以及如何將異常點挖掘應(yīng)用于證券業(yè)缺乏深入研究。本文針對上述兩個問題展開探討,提出異常點挖掘的生命周期模型并給出該模型在證券業(yè)的應(yīng)用案例,為應(yīng)用的研究提供參考。
關(guān)鍵詞:證券業(yè)異常點數(shù)據(jù)挖掘應(yīng)用
證券業(yè)是一個數(shù)據(jù)密集型的行業(yè),經(jīng)過多年的發(fā)展,許多券商積累了海量的客戶數(shù)據(jù)。如何挖掘這些寶貴的數(shù)據(jù)資源以發(fā)現(xiàn)證券交易過程中隱含的不良操作,是數(shù)據(jù)挖掘在證券行業(yè)應(yīng)用的重要課題。對于異常點,Hawkwins認為:一個異常點是這樣一個測量值,它過分地偏離其他測量值,從而使人們對它產(chǎn)生懷疑,懷疑它是由不同的機理產(chǎn)生的。作為數(shù)據(jù)挖掘的一項功能,異常點挖掘受到眾多學(xué)者的重視,但大部分的研究重點均放在算法、算法優(yōu)化和改進等方面,而對異常點挖掘過程以及如何結(jié)合具體的問題域、行業(yè)背景知識進行挖掘則探討不多。
異常點有著較強主觀性,在進行異常點挖掘研究時應(yīng)定義特定的挖掘背景。在證券業(yè),異常點挖掘可以發(fā)現(xiàn)客戶數(shù)據(jù)中的異常點或者孤立點,而這些特殊數(shù)據(jù)恰恰包含了非正常的交易。當(dāng)然,并不是所有的異常點都是不良操作或者違規(guī)交易,其中,有一部分異常點可能是噪音數(shù)據(jù),有些則是真實的并且有利于券商的交易信息,例如,發(fā)現(xiàn)大客戶或者潛在的優(yōu)質(zhì)客戶等。基于此,本文將重點探討完整的異常點挖掘流程及其在證券業(yè)的應(yīng)用。
異常點挖掘的生命周期過程
異常點挖掘的生命周期應(yīng)該包括定義目標、選擇數(shù)據(jù)源、選擇挖掘算法、設(shè)置初始維及域值、計算驗證、迭代以及后期分析7個步驟。
定義挖掘目標。從數(shù)據(jù)挖掘的七個步驟來看,定義目標應(yīng)該是一張寬泛的、粗線條的需求定義列表,例如:對客戶交易記錄進行異常點挖掘,找到異常交易和可疑記錄;發(fā)現(xiàn)不同類型客戶分組中的特例,等等。
選擇數(shù)據(jù)源。異常點挖掘和數(shù)據(jù)挖掘的數(shù)據(jù)源一般來說是一致的,并在其基礎(chǔ)上根據(jù)挖掘目標進行選擇和預(yù)處理。此外,為了獲得更佳的挖掘效果,需要對進行異常點挖掘的數(shù)據(jù)源做預(yù)處理。大部分情況下,這類數(shù)據(jù)源的預(yù)處理將在任務(wù)開始時完成,并且可以直接運用到異常點挖掘中。
選擇算法。涉及異常點挖掘的算法較多,比較常用的有基于統(tǒng)計的算法、基于距離的算法、基于偏差的算法,每種算法都有不同的實現(xiàn)。在實踐中需要針對不同的挖掘目標,不同的數(shù)據(jù)源,不同的資源條件,對算法做出選擇和優(yōu)化。
維和初始參數(shù)的選擇。在異常點挖掘時,證券客戶不同的維組合得到的異常點可能完全不同。有些記錄在某些維度上的偏差較大,當(dāng)計算包括這些維度時,往往會覆蓋其他維對異常點判斷的影響,而不考慮這些維時,這些點并不表現(xiàn)得多么“異?!薄R虼?,需要單獨考察某些維度組合上的異常情況;同時,也需要在過濾掉那些過于“異?!钡木S度和記錄之后,考察其余維度上的異常情況。除了維度的選擇,在開始計算時,也要考慮域值的初始值設(shè)置。對于基于距離的異常點挖掘算法,鄰域閥值k的取值非常關(guān)鍵,尤其對于局部異常點挖掘,k的不同取值可能產(chǎn)生完全不同的結(jié)果。
計算并驗證異常點。挖掘算法的實現(xiàn)可以借助一些統(tǒng)計分析工具,例如SAS、SPSS等,或者是自己實現(xiàn)挖掘算法。相比計算,驗證異常點就要困難得多,首先必須保證算法的實現(xiàn)是正確的,其次即使使用一個可靠的程序進行挖掘時,仍然可能會有誤差和噪音干擾挖掘結(jié)果。一個辦法是通過迭代計算比較多次結(jié)果后剔除,而迭代是整個異常點挖掘過程的一個必須環(huán)節(jié);另一個辦法是觀察異常點數(shù)據(jù)的特征,當(dāng)數(shù)據(jù)是低維時可以使用散點圖觀察樣本分布,通過直觀比對挖掘得到的異常點位置來判斷有效性。
迭代計算。一次異常點挖掘的結(jié)果,并不意味著挖掘過程的結(jié)束,還需要調(diào)整維組合和域值之后迭代計算,得到更全面和系統(tǒng)的結(jié)論。例如,對于一個基于傭金和交易次數(shù)兩個維度組合得到的異常點,我們認為它是在維度組合[傭金,交易次數(shù)]上的異常點,而對于其他維度組合則不一定,或者還有更加“異?!钡臉颖军c存在。對于不同維度組合下的綜合考察可以幫助我們找到更加“合格”的異常點,迭代計算可以幫助我們完成這項任務(wù)。異常點的計算是一個動態(tài)的過程,從初始的維組合和參數(shù)設(shè)置開始,需要制定一個有條理的維組合選擇計劃,每次計算選擇不同的維組合進行計算,同時驗證所得的異常點是否有效,以決定域值和維的選擇。一旦對數(shù)據(jù)進行了若干輪挖掘并獲得輸出結(jié)果后,便可據(jù)此進行后期分析和目標檢驗。
后期分析。后期分析的主要任務(wù)是綜合之前的計算結(jié)果,結(jié)合挖掘目標和問題背景,解釋異常點產(chǎn)生的原因,指出需要采取的措施和方案建議等。為了對異常點做出合理解釋,需要結(jié)合行業(yè)知識和其他外部信息,包括專家知識、相關(guān)規(guī)范標準、行業(yè)平均水平等作為參考。因此,異常點挖掘結(jié)果應(yīng)該是一份全面描述挖掘過程,對結(jié)果進行綜合分析,并加入與目標相適應(yīng)的解決方案和建議。
應(yīng)用分析
定義挖掘目標。本案例以異常點挖掘生命周期模型為指導(dǎo),通過異常點挖掘,幫助券商發(fā)現(xiàn)客戶的異常交易行為。具體包括兩方面的作用:一方面作為客戶細分結(jié)果的驗證,找到每個客戶組群上的邊緣客戶,為聚類分析結(jié)果提供驗證和補充,另一方面,通過異常點挖掘標記出每個組交易異常的客戶。
客戶數(shù)據(jù)取自某證券公司營業(yè)部某年度的客戶交易數(shù)據(jù),涉及客戶21580人,客戶屬性經(jīng)處理后選取用戶ID、交易總量、傭金、交易次數(shù)、資金量、股票成交數(shù)、股票變動次數(shù)、資金變動次數(shù)、年齡、開戶時長,其中用戶ID、年齡和開戶時長未參與計算。
選擇數(shù)據(jù)源。聚類分析為異常點挖掘提供了數(shù)據(jù)預(yù)處理,使得挖掘能夠更加精確和高效。實際操作中,直接使用聚類獲得的結(jié)果作為異常點挖掘的客戶分組,記為C1、C2……C5。表1列出了聚類結(jié)果。由于C2、C3和C5樣本數(shù)量太小,異常點挖掘意義不大,故不參加計算。
選擇算法??紤]到數(shù)據(jù)源、軟硬件條件以及時間限制等因素,本案使用基于距離的算法進行異常點挖掘;在驗證異常點時,使用統(tǒng)計偏差監(jiān)測方法進行異常點檢驗。
維和初始參數(shù)的選擇。在本案中,通過對維組合和域值的設(shè)置、不斷進行迭代和嘗試,通過對結(jié)果的觀察,最后一次計算的維組合是[傭金、交易次數(shù)、股票變動次數(shù)、資金變動次數(shù)],其中傭金和交易次數(shù)是原始變量,而股票變動次數(shù)和資金變動次數(shù)是兩個復(fù)合變量,由聚類之前的數(shù)據(jù)預(yù)處理得到;對于域值k,根據(jù)試驗以及考慮到性能的代價,取k=15進行計算。
計算并驗證異常點。當(dāng)確定了挖掘目標、數(shù)據(jù)源、挖掘算法、初始維組合和域值之后,就可以進入計算和驗證過程。
迭代計算。最后,把不同維組合計算出的異常點進行綜合,可以得到該數(shù)據(jù)集所有的異常點。對于C4,最后綜合得到的異常點在各個維度上的取值。
后期分析。該階段需要對比計算結(jié)果和最初定義的挖掘目標,根據(jù)異常點的數(shù)據(jù)特性解釋其異常原因,并且總結(jié)出那些潛在的知識和規(guī)律。表2列出了C4群組中所有的異常點及其表現(xiàn),對比異常點和該維度上的均值可以得到一個簡單的分析結(jié)果。對于局部異常點,即表2中列出的客戶8224292、8216612和8223969,較難對其做出一個直觀合理的解釋,但在某些情況下,局部異常點恰恰是那些潛在的、被忽視的數(shù)據(jù)或者線索。例如8216612客戶,可以看到他的資金變動次數(shù)遠高于均值,而其他對應(yīng)的股票操作都接近均值,因此,不能排除其頻繁通過股市進行資本操作甚至是風(fēng)險或者非法操作,而這些需要券商作進一步的分析。通過對異常點的分析,券商可以深入了解這些客戶的交易行為特征,為開展精細化營銷提供科學(xué)依據(jù)。
綜上,異常點挖掘一直以來得到眾多學(xué)者的關(guān)注,但現(xiàn)有的研究過多關(guān)注算法及其優(yōu)化方面,而對其在具體行業(yè)的應(yīng)用探討不夠。本文在論述
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度寧波勞動合同模板:包含員工勞動合同變更條款
- 二零二五年度外匯借款合同風(fēng)險防范與應(yīng)對策略
- 2025年度個人一手房買賣合同社區(qū)配套服務(wù)范本2篇
- 二零二五年度培訓(xùn)協(xié)議與勞動合同整合方案協(xié)議
- 2025版電子政務(wù)項目勞務(wù)分包合同補充協(xié)議書范本3篇
- 2025年度智能家居床品定制采購合同3篇
- 二零二五年度樂器行業(yè)市場調(diào)研與咨詢服務(wù)合同
- 2025年節(jié)假日花卉租賃及促銷活動合同3篇
- 二零二五年度家庭財產(chǎn)分割與老人贍養(yǎng)責(zé)任合同
- 2025年度車輛抵押登記與汽車租賃及保險服務(wù)合同
- 2024年資格考試-對外漢語教師資格證筆試參考題庫含答案
- 軟件研發(fā)安全管理制度
- 三位數(shù)除以兩位數(shù)-豎式運算300題
- 寺院消防安全培訓(xùn)課件
- 比摩阻-管徑-流量計算公式
- GB/T 42430-2023血液、尿液中乙醇、甲醇、正丙醇、丙酮、異丙醇和正丁醇檢驗
- 五年級數(shù)學(xué)應(yīng)用題100道
- 西方經(jīng)濟學(xué)(第二版)完整整套課件(馬工程)
- 高三開學(xué)收心班會課件
- GB/T 33688-2017選煤磁選設(shè)備工藝效果評定方法
- 科技計劃項目申報培訓(xùn)
評論
0/150
提交評論