版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘技術(shù)簡介
演講人:鐘云飛
Email:2002年7月19日大綱
什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘的標(biāo)準(zhǔn)流程:CRISP-DM數(shù)據(jù)挖掘工具——SPSSClementine簡介第一部分:什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘都干了些什么?英國電信需要發(fā)布一種新的產(chǎn)品,需要通過直郵的方式向客戶推薦這種產(chǎn)品。。。。。。使直郵的回應(yīng)率提高了100%數(shù)據(jù)挖掘都干了些什么?GUS日用品零售商店需要準(zhǔn)確的預(yù)測未來的商品銷售量,降低庫存成本。。。。。。通過數(shù)據(jù)挖掘的方法使庫存成本比原來減少了3.8%數(shù)據(jù)挖掘都干了些什么?匯豐銀行需要對不斷增長的客戶群進(jìn)行分類,對每種產(chǎn)品找出最有價值的客戶。。。。。。營銷費用減少了30%數(shù)據(jù)挖掘都干了些什么?美國國防財務(wù)部需要從每年上百萬比的軍火交易中發(fā)現(xiàn)可能存在的欺詐現(xiàn)象。。。。。。發(fā)現(xiàn)可能存在欺詐的交易,進(jìn)行深入調(diào)查,節(jié)約了大量的調(diào)查成本數(shù)據(jù)挖掘都干了些什么?美國國內(nèi)稅務(wù)局需要提高對納稅人的服務(wù)水平。。。。。。合理安排稅務(wù)官的工作,為納稅人提供更迅捷、更準(zhǔn)確的服務(wù)通過數(shù)據(jù)挖掘您可以發(fā)現(xiàn)最有價值的客戶通過數(shù)據(jù)挖掘您可以使組合銷售更有效率通過數(shù)據(jù)挖掘您可以留住那些最有價值的客戶通過數(shù)據(jù)挖掘您可以用更小的成本發(fā)現(xiàn)欺詐現(xiàn)象通過采用自動或半自動的手段,在海量數(shù)據(jù)中發(fā)現(xiàn)有意義的行為和規(guī)則的探測和分析活動。數(shù)據(jù)挖掘能夠幫助你選擇正確瞄準(zhǔn)潛在目標(biāo),向現(xiàn)有的客戶提供額外的產(chǎn)品,識別那些準(zhǔn)備離開的好客戶。什么是數(shù)據(jù)挖掘電信:流失銀行:聚類(細(xì)分),交叉銷售百貨公司/超市:購物籃分析(關(guān)聯(lián)規(guī)則)保險:細(xì)分,交叉銷售,流失(原因分析)信用卡:欺詐探測,細(xì)分電子商務(wù):網(wǎng)站日志分析稅務(wù)部門:偷漏稅行為探測警察機關(guān):犯罪行為分析醫(yī)學(xué):醫(yī)療保健數(shù)據(jù)挖掘應(yīng)用領(lǐng)域數(shù)據(jù)挖掘效益分析(直郵)(BigBank&CreditCardCompany)目的:發(fā)現(xiàn)新客戶數(shù)據(jù)挖掘以前數(shù)據(jù)挖掘以后差別發(fā)信的數(shù)量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)響應(yīng)的數(shù)量10,0009,000(1,000)每個響應(yīng)的毛利$125$125$0總毛利$1,250,000$1,125,000($125,000)凈利潤$250,000$375,000$125,000建模的費用040,000$40,000最終的利潤$250,000$335,000$85,000第二部分:數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程——CRISP-DMCRISP-DM簡介
CRISP-DM是CRoss-IndustryStandardProcess-DataMining的縮寫由SPSS、NCR、Daimler-Benz在1996年制定CRISP是當(dāng)今數(shù)據(jù)挖掘業(yè)界通用流行的標(biāo)準(zhǔn)之一它強調(diào)數(shù)據(jù)挖掘在商業(yè)中的應(yīng)用,解決商業(yè)中存在的問題,而不是把數(shù)據(jù)挖掘局限在研究領(lǐng)域CRISP-DM
商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估模型發(fā)布商業(yè)理解(BusinessUnderstanding)找問題-確定商業(yè)目標(biāo)對現(xiàn)有資源的評估確定問題是否能夠通過數(shù)據(jù)挖掘來解決確定數(shù)據(jù)挖掘的目標(biāo)制定數(shù)據(jù)挖掘計劃數(shù)據(jù)理解(DataUnderstanding)確定數(shù)據(jù)挖掘所需要的數(shù)據(jù)對數(shù)據(jù)進(jìn)行描述數(shù)據(jù)的初步探索檢查數(shù)據(jù)的質(zhì)量Performtherest
onapowerful
server.把數(shù)據(jù)挖掘模型的結(jié)果送到相應(yīng)的管理人員手中Modelexport高度的擴展性保證對數(shù)據(jù)庫中大量的數(shù)據(jù)進(jìn)行挖掘高度的擴展性保證對數(shù)據(jù)庫中大量的數(shù)據(jù)進(jìn)行挖掘確定數(shù)據(jù)挖掘所需要的數(shù)據(jù)對整個數(shù)據(jù)挖掘過程的前面步驟進(jìn)行評估數(shù)據(jù)挖掘都干了些什么?電子商務(wù):網(wǎng)站日志分析數(shù)據(jù)挖掘技術(shù)簡介英國電信需要發(fā)布一種新的產(chǎn)品,需要通過直郵的方式向客戶推薦這種產(chǎn)品。通過數(shù)據(jù)挖掘的方法使庫存成本比原來減少了3.稅務(wù)部門:偷漏稅行為探測數(shù)據(jù)準(zhǔn)備(DataPreparation)
選擇數(shù)據(jù)清理數(shù)據(jù)對數(shù)據(jù)進(jìn)行重建調(diào)整數(shù)據(jù)格式使之適合建模建立模型(Modeling)對各個模型進(jìn)行評價選擇數(shù)據(jù)挖掘模型建立模型模型評估(Evaluation)評估數(shù)據(jù)挖掘的結(jié)果對整個數(shù)據(jù)挖掘過程的前面步驟進(jìn)行評估確定下一步怎么辦?是發(fā)布模型?還是對數(shù)據(jù)挖掘過程進(jìn)行進(jìn)一步的調(diào)整,產(chǎn)生新的模型模型發(fā)布(Deployment)把數(shù)據(jù)挖掘模型的結(jié)果送到相應(yīng)的管理人員手中對模型進(jìn)行日常的監(jiān)測和維護定期更新數(shù)據(jù)挖掘模型第三部分:數(shù)據(jù)挖掘工具—SPSSClementine簡介Makeadifferencewiththepredictivepowerofdatamining應(yīng)用Clementine達(dá)到你數(shù)據(jù)挖掘的目標(biāo)圖形化的界面、數(shù)據(jù)流的形式建立模型,保證了應(yīng)用Clementine進(jìn)行數(shù)據(jù)挖掘關(guān)注商業(yè)更甚于關(guān)注技術(shù)本身開放式的技術(shù)是更好的保護您的投資的保障高度的擴展性保證對數(shù)據(jù)庫中大量的數(shù)據(jù)進(jìn)行挖掘業(yè)界領(lǐng)先的發(fā)布技術(shù)使數(shù)據(jù)挖掘結(jié)果更好的傳遞到相應(yīng)管理人員手中把你的商業(yè)經(jīng)驗溶入數(shù)據(jù)挖掘過程是數(shù)據(jù)挖掘成功的關(guān)鍵Better
dataminingresults!InsightBusinessproblem?What
youknow豐富的數(shù)據(jù)挖掘算法Prediction
Neuralnet,C5.0Classification
Neuralnet,C5.0Segmentation
Kohonen,Kmeans,C5.0Association
Apriori,GRI,WebgraphSequence
CaprI,NeuralNet,Regression與SPSS及AnswerTree無縫集成提供更多的算法LogisticRegressionDiscriminantAnalysisFactorAnalysisManymore...C&RTCHAIDExhaustiveCHAIDQUEST使你在數(shù)據(jù)倉庫上的投資得到最大的回報SybaseDB2InformixOpenIngressOracleSQLServer+ODBCdriversforothers+ODBCsocketfornativedrivers開放的建模性能在Clementine中通過CEMI加入新的算法Clementine的系統(tǒng)結(jié)構(gòu)
1.Performmany
operationsin
thedatabase.2.Performtherest
onapowerful
server.3.Usetheclient
processorfor
viewingresults.ClementineServerdelivershugeperformancegainsGeneratinga
distributiongraph995secondswhenprocessedonthedesktop69secondswhenprocessedontheserver19secondswhenpushedbackintothedatabase
用更小的成本發(fā)現(xiàn)欺詐現(xiàn)象銀行:聚類(細(xì)分),交叉銷售69secondswhenprocessedontheserverClementineSolutionPublisher:
領(lǐng)先的模型發(fā)布技術(shù)通過數(shù)據(jù)挖掘的方法使庫存成本比原來減少了3.Modelbuilding模型評估(Evaluation)把數(shù)據(jù)挖掘模型的結(jié)果送到相應(yīng)的管理人員手中與SPSS及AnswerTree無縫集成提供更多的算法(BigBank&CreditCardCompany)把數(shù)據(jù)挖掘模型的結(jié)果送到相應(yīng)的管理人員手中數(shù)據(jù)挖掘技術(shù)簡介In-databaseprocessingdeliversbetterperformanceasdatasetsgetlarger定期更新數(shù)據(jù)挖掘模型稅務(wù)部門:偷漏稅行為探測In-databaseprocessingdeliversbetterperformanceasdatasetsgetlargerShedatabase電子商務(wù):網(wǎng)站日志分析Classification
Neuralnet,C5.Modelexport演講人:鐘云飛ExhaustiveCHAIDModelexport用更小的成本發(fā)現(xiàn)欺詐現(xiàn)象確定問題是否能夠通過數(shù)據(jù)挖掘來解決第三部分:數(shù)據(jù)挖掘工具圖形化的界面、數(shù)據(jù)流的形式建立模型,保證了應(yīng)用Clementine進(jìn)行數(shù)據(jù)挖掘關(guān)注商業(yè)更甚于關(guān)注技術(shù)本身DiscriminantAnalysisClementineServercuts
modelbuildingtimeupto90%Modelbuildingtimeneededforbuildingmodelsontheserverasapercentageoft
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大學(xué)開學(xué)典禮
- 愚人節(jié)活動策劃書(匯編15篇)
- 家用電器安全教育
- 高三化學(xué)一輪復(fù)習(xí)+專項強化訓(xùn)練-化學(xué)與環(huán)境保護
- 應(yīng)屆生面試自我介紹范文集合15篇
- 婚宴新娘致辭(資料15篇)
- 初級會計經(jīng)濟法基礎(chǔ)-2025初級會計《經(jīng)濟法基礎(chǔ)》模擬試卷242
- 2024年中國數(shù)字資產(chǎn)信貸融資行業(yè)市場發(fā)展趨勢預(yù)測報告-智研咨詢重磅發(fā)布
- 基于無約束優(yōu)化的路側(cè)雷視聯(lián)合外參標(biāo)定方法研究
- 金融行業(yè)人事招聘工作
- 2024-2025學(xué)年廣東省深圳市南山區(qū)監(jiān)測數(shù)學(xué)三年級第一學(xué)期期末學(xué)業(yè)水平測試試題含解析
- 2024年衛(wèi)生專業(yè)技術(shù)資格考試衛(wèi)生檢驗技術(shù)(初級(師)211)相關(guān)專業(yè)知識試題及答案指導(dǎo)
- 江蘇省南京鼓樓區(qū)2024年中考聯(lián)考英語試題含答案
- 15篇文章包含英語四級所有詞匯
- 王陽明心學(xué)完整版本
- 四年級上冊豎式計算300題及答案
- 課題研究實施方案 范例及課題研究方法及技術(shù)路線圖模板
- 牙髓炎中牙髓干細(xì)胞與神經(jīng)支配的相互作用
- 【2022屆高考英語讀后續(xù)寫】主題升華積累講義及高級句型積累
- 西方法律思想史ppt
- 世界古代史-對接選擇性必修 高考?xì)v史一輪復(fù)習(xí)
評論
0/150
提交評論