版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
尿布與啤酒與數據挖掘技術
2007年01月13日00:52:25來源:中國傳媒科技
原標題:數據挖掘技術
〃數據”的含義很廣,不僅指321、897這樣一些數字,還指〃abc〃、〃
李明〃、“96/10/11〃等符號、字符、日期形式的數據。我們討論的數據是指存
放在計算機系統(tǒng)中的任何東西,如:”數字〃、〃字符〃、〃聲音〃、〃圖像〃、〃照
片〃、……等等,甚至處理數據的計算機程序本身也作為計算機的〃數據〃。隨
著國民經濟與社會信息化的進展,人們在計算機系統(tǒng)中存放的數據量越來越
大。我們發(fā)現這些數據是人們工作、生活與其他行為的記錄,是企業(yè)與社會進
展的記錄,也是人與自然界本身的描述。這就是說在計算機系統(tǒng)中形成了龐大
的〃數據資源〃。因此,發(fā)現這些數據所含的規(guī)律也就是發(fā)現我們工作、生活與
社會進展中的規(guī)律,發(fā)現人與自然界的規(guī)律,就相當于在數據資源中發(fā)現金礦。
這就是數據資源的開發(fā)利用,是非常有價值的工作。而數據挖掘是目前最先進
的數據資源開發(fā)利用技術。
1、什么是數據挖掘
我們先來看一個數據挖掘的故事,〃尿布與啤酒〃的故事是關于數據
挖掘最經典與流傳最廣的故事。
總部位于美國阿肯色州的世界著名商業(yè)零售連鎖企業(yè)沃爾瑪(Wal
Mart)擁有世界上最大的數據倉庫系統(tǒng)。為了能夠準確熟悉顧客在其門店的購
買習慣,沃爾瑪利對其顧客的購物行為進行購物籃分析,想明白顧客經常一起
購買的商品有什么。沃爾瑪數據倉庫里集中了其各門店的全面原始交易數據。
在這些原始交易數據的基礎上,沃爾瑪利用NCR數據挖掘工具對這些數據進行
分析與挖掘。一個意外的發(fā)現是:〃跟尿布一起購買最多的商品竟是啤酒!〃
這是數據挖掘技術對歷史數據進行分析的結果,反映數據內在的規(guī)
律。那么這個結果符合現實情況嗎?是否是一個有用的知識?是否有利用價
值?
因此,沃爾瑪派出市場調查人員與分析師對這一數據挖掘結果進行
調查分析。通過大量實際調查與分析,揭示了一個隱藏在〃尿布與啤酒〃背后的
美國人的一種行為模式:在美國,一些年輕的父親下班后經常要到超市去買嬰
兒尿布,而他們中有30%?40%的人同時也為自己買一些啤酒。產生這一現象的
原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買
尿布后又隨手帶回了他們喜歡的啤酒。
既然尿布與啤酒一起被購買的機會很多,因此沃爾瑪就在其一個個
門店將尿布與啤酒并排擺放在一起,結果是尿布與啤酒的銷售量雙雙增長。
按常規(guī)思維,尿布與啤酒風馬牛不相及,若不是借助數據挖掘技術
對大量交易數據進行挖掘分析,沃爾瑪是不可能發(fā)現數據內在這一有價值的規(guī)
律的。
那么數據挖掘是什么樣的技術呢?
數據挖掘是從大量數據中尋找其規(guī)律的技術,要緊有數據準備、規(guī)
律尋找與規(guī)律表示三個步驟。數據準備是從各類數據源中選取與集成用于數據
挖掘的數據;規(guī)律尋找是用某種方法將數據中的規(guī)律找出來;規(guī)律表示是用盡
可能符合用戶習慣的方式(如可視化)將找出的規(guī)律表示出來。
但在具體實施數據挖掘應用時,還要有一個步驟就是結果評價。這
是由于數據算法尋找出來的是數據的規(guī)律,其中有些是人們感興趣的有用的,
還有一些可能是不感興趣的沒有用的。這就要對尋找出的規(guī)律進行評估。比如:
〃跟尿布一起購買最多的商品是啤酒〃這樣一條規(guī)律是否有用呢?這就需要市
場調查與評估工程師根據實際情況做出評估推斷。這是一個人工步驟,還難以
自動化。
數據挖掘在自身進展的過程中,汲取了數理統(tǒng)計、數據庫與人工智
能中的大量技術。
數據挖掘分為描述性與預測性兩類。描述性數據挖掘提供數據的通常規(guī)律;
預測性數據挖掘產生關于數據的預測。數據挖掘的要緊內容有:
關聯分析:尋找數據項之間感興趣的關聯關系。比如:我們能夠通
過對交易數據的分析可能得出〃86%買‘啤酒’的人同時也買‘尿布'〃這樣一條〃
啤酒〃與〃尿布〃之間的關聯規(guī)則。
演變分析?:描述時間序列數據隨時間變化的數據的規(guī)律或者趨勢,
并對其建模。包含時間序列趨勢分析、周期模式匹配等。比如:通過對交易數
據的演變分析,可能會得到〃89%情況股票X上漲一周左右后,股票Y會上漲〃
這樣一條序列知識。
聚類分析?:根據最大化類內的相似性、最小化類間的相似性的原則
將數據對象聚類或者分組,所形成的每個簇(聚類)能夠看作一個數據對象類,
用顯式或者隱式的方法描述它們。也就是我們常說的物以類聚人以群分。
分類分析:找出描述并區(qū)分數據類的模型(能夠是顯式或者隱式),
以便能夠使用模型預測給定數據所屬的數據類。比如:信用卡公司能夠將持卡
人的信譽度分類為:良好、普通與較差三類。分類分析通過對這些數據類的分
析給出一個信譽等級的顯式模型:〃信譽良好的持卡人是年收入在30000元到
50000元之間,年齡在30至45歲之間,居住面積達90M2左右的人〃。這樣關
于一個新的持卡人,就能夠根據他的特征預測其信譽度。
特殊分析:一個數據集中往往包含一些特別的數據,其行為與模式
與通常的數據不一致,這些數據稱之〃特殊對〃特殊〃數據的分析稱之〃特殊
分析〃。它在欺詐甄別、網絡入侵檢測等領域有著廣泛的應用。
2、數據挖掘與數理統(tǒng)計差異
數理統(tǒng)計與數據挖掘有著共同的目標:發(fā)現數據中的規(guī)律。同時,
有許多數據挖掘工作還用了數理統(tǒng)計的算法或者模型,還有,一些市場上所謂
的數據挖掘工具軟件卻是統(tǒng)計軟件或者是從統(tǒng)計軟件演變過來的。正由于如
此,二者就成了最混淆的概念。我們認為二者在做法上是有很大不一致的。
〃手工〃與〃計算機”
由于統(tǒng)計學基礎的建立在計算機的發(fā)明之前,因此許多統(tǒng)計學方法
是能夠手工實現的。關于很多統(tǒng)計學家來說,幾百個數據或者幾十個變量就已
經是很大的了。但這個〃大"關于現在計算機中GB級的交易記錄或者幾千萬個
客戶信息來說相差太遠了。很明顯,面對這么多的數據,設計”原則上能夠用
手工實現〃的統(tǒng)計方法與設計〃原則上有計算機數據倉庫支持〃的數據挖掘方法
是有很大不一致的,很多統(tǒng)計模型與算法在處理大數據量時可能就會失去意
義。這意味這計算機關于數據的分析與處理是關鍵的,而手工直接處理數據將
變得不可行。
〃用樣本推斷總體規(guī)律〃與〃直接找出總體的規(guī)律〃
用樣本推斷總體規(guī)律是統(tǒng)計學的核心方法之一,而數據挖掘由于使
用了計算機技術更關注對總體規(guī)律的分析。當然,數據挖掘也常常關注樣本。
比如我們的數據庫中有某廠歷年生產的1000萬臺電視機與對應1000
萬個客戶的全部信息。在這種情形下,用樣本構造某種模型或者某個估計值來
推斷1000萬臺電視機的使用情況就沒有價值了,我們能夠通過數據挖掘直接
找出總體的規(guī)律。
但在一些預測性分析中,數據挖掘也常常使用樣本。比如:對一個
新產品的廣告宣傳活動進行響應率分析。對1000萬人做該廣告,實際應該有
10萬人響應。但通過一個樣本分析發(fā)現:其中有三類人群對該廣告的響應率較
高。因此,就有針對性地對高響應率的100萬人做了該廣告,結果獲得了8萬
人的響應。
〃普遍規(guī)律〃與〃特定規(guī)律〃
統(tǒng)計學研究問題的結果常常會得到一個統(tǒng)計模型,而這個模型是普
遍適用的,而數據挖掘得到的是某個數據集的規(guī)律,常常不具有普遍意義。比
如:〃擲硬幣出現正反面的概率都是50%。但在某個賭場,一年中每天擲出硬幣,
其正面出現的次數在68293%之間,統(tǒng)計學中〃正反面出現的概率是50%〃的推
斷在這樣一個總體中就沒有價值了。
"模型〃與"實驗”
由于數學背景,統(tǒng)計學追求精確,建立一個模型并證明之,而不是
象數據挖掘那樣注重實驗。這并不意味著數據挖掘工作者不注重精確,而只是
說明假如精確的方法不能產生結果的話就會被放棄。比如:證券公司的一個業(yè)
務回歸模型可能會把保證金作為一個獨立的變量,由于通常認為大的保證金會
導致大的業(yè)務,因此花費高成本開設了大戶室。但事實上通過對一年來的交易
情況進行數據挖掘卻發(fā)現:交易頻度與贏利情況才是最重要的。
說明:盡管有上述的差異,很多時候我們仍然能夠這樣說:〃將很多
數理統(tǒng)計算法或者模型寫成計算機程序并能夠用于大規(guī)模數據分析就變成了
數據挖掘技術?!?/p>
3、數據挖掘技術研究
首先出現的術語是知識發(fā)現(KnowledgeDiscoveryinDatabase,
KDD)而不是數據挖掘。后來的有關學術會議也大都以KDD為名,個別使用〃數
據挖掘與知識發(fā)現〃,但在數據庫領域與工業(yè)界一直使用〃數據挖掘〃。在這一
節(jié),我們分別介紹數據挖掘研究、數據挖掘系統(tǒng)與數據挖掘應用的進展狀況,
同時在數據挖掘研究介紹中同時使用數據挖掘與知識發(fā)現術語。
知識發(fā)現(KDD)一詞首次出現在1989年8月舉行的第11屆國際聯合人工智
能學術會議上。隨著KDD在學術界與工業(yè)界的影響越來越大,國際KDD組委
會于1995年把專題討論會更名為國際會議,在加拿大蒙特利爾市召開了第一
屆KDD國際學術會議,以后每年召開一次。迄今為止,由美國人工智能協(xié)會
主辦的KDD國際研討會已經召開了7次(見表),規(guī)模由原先的專題討論會
進展到國際學術大會,人數由二三十人到七八百人,論文收錄比例從2X1到
6X1,研究重點也逐步從發(fā)現方法轉向系統(tǒng)應用,同時注重多種發(fā)現策略與技
術的集成,與多種學科之間的相互滲透。其他內容的專題會議也把數據挖掘
與知識發(fā)現列為議題之一,成為當前計算機科學界的一大熱點。
表:歷屆數據挖掘討論會議(備注:從95年更名為國際會議)
時間會議名稱會議地址收錄論文比例數參加會議人數
1989.8WorkshoponKDD-1989Detroit,Michigan,USA2:130
1991.7WorkshoponKDD-1991Anaheim,California,USA3.5:146
1993.7WorkshoponKDD-1993Washington,USA3:140
1994.7WorkshoponKDD-1994Seattle,Washington,USA
1995.8KDD-1995Montreal,Canada4.5:1340
1996.8KDD-1996Portland,Oregon,USA5:1450
1997.8KDD-1997California,USA6:1600
1998.8KDD-1998NewYork,USA247:68773
1999.8KDD-1999SanDiego,CA,USA280:27600+
2000.8KDD-2000Boston,MA,USA錄用50800+
2001.8KDD-2001SanFrancisco,CA,USA237:3113%900+
2002.7KDD-2002Edmonton,Alberta,Canada307:4414%
2003.8KDD-2003Washington,DC,USA298:4615%
2004.8KDD-2004Seattle,WA,USA384:5414%600-900
2005.8KDD-2005Chicago,Illinois,USA538:10119%600-900
2006.8KDD-2006Philadelphia,PA,USA531:12023%
2007.8KDD-2007SanJose,CA,USA
4、數據挖掘系統(tǒng)與產品
要緊的實驗系統(tǒng)有:加拿大SimonFraser大學”智能數據庫系統(tǒng)研
究室〃在97年研制并開發(fā)了數據挖掘系統(tǒng)DBMiner;新加坡國立大學計算機
學院的CBA與IAS;澳大利亞國立大學研制并開發(fā)了數據挖掘系統(tǒng)原型
Dmtools;英國Ulster大學對數據挖掘的應用做了許多研究,先后研制過
MIMIC^CERENA>NetModel等系統(tǒng);德國Dortmund大學在研的項目MiningMart;
美國卡內基梅隆大學自動學習與發(fā)現中心正在研制數據挖掘技術在制造業(yè)與
多媒體數據庫的應用。哥倫比亞大學正在研究入侵檢測系統(tǒng)IDS等等。
要緊的商業(yè)數據挖掘系統(tǒng)有:SPSS公司的Clementine、SAS公司的
EnterpriseMiner>IBM公司的IntelligentMiner>SGI公司的Mineset、
Sybase公司的WarehouseStudio、RuleQuestResearch公司的See5、還有
CoverStory>EXPLORA、KnowledgeDiscoveryWorkbench、DBMiner、Quest
等。
數據挖掘系統(tǒng)大致經歷了三個階段,它們是單算法挖掘工具、數據
挖掘算法工具集與數據挖掘解決方案。
單算法挖掘工具
在數據挖掘技術進展早期,研究人員開發(fā)出一種新型的數據挖掘算
法,就形成一個軟件。這類系統(tǒng)要求用戶對具體的算法與數據挖掘技術有相
當的熟悉,還要負責大量的數據預處理工作,如C4.5決策樹。
隨著數據量的增加,需要利用數據庫或者者數據倉庫技術進行管理,因此數
據挖掘系統(tǒng)與數據庫與數據倉庫結合是自然的進展?,F實領域的問題是多種
多樣的,一種或者少數數據挖掘算法難以解決,同時,挖掘的數據通常不符
合算法的要求,需要有數據清洗、轉換等數據預處理的配合,才能得出有價
值的模型。1995年左右軟件開發(fā)商開始提供稱之為〃工具集〃的第二代數據挖
掘系統(tǒng)[ShapiroOO]。要緊由于在應用中發(fā)現用戶需要多種類型的數據挖掘
算法,而且大部分精力都花費在數據清理與預處理階段。典型的系統(tǒng)有IBM
IntelligentMiner>SPSS的Clementine>SAS的EnterpriseMiner、SGI
的MineSet、OracleDarwin等。此類工具集的特點是提供多種數據挖掘算法
(通常有關聯規(guī)則、分類與聚類等),同時也包含數據的轉換與可視化。由
于此類工具并非面向特定的應用,能夠稱之為橫向的數據挖掘工具
(HorizontalDataMingTools)。
數據挖掘解決方案
5、數據挖掘技術的應用前景
2002年麻省理工學院的《科技評論》雜志提出未來5年對人類產生
重大影響的10大新興技術,〃數據挖掘〃位居第三。
數據挖掘應用領域非常廣闊先期將在數據積存比較充分的領域銀
行、證券、電信等領域到應用,以后將在各行各業(yè)各領域中獲得應用。只要
數據積存充分,就需要數據挖掘技術。
數據挖掘技術將被社會長期使用隨著信息化工作的深入進展,計算
機中積存的數據只會越來越多,人們會越來越重視對這些信息的挖掘利用,
因此對數據挖掘技術的需求也會越來越大。當然,數據挖掘技術本身會不斷
進展進步,該技術將被長期使用。
數據挖掘技術相對門檻較高掌握這門技術需要有數理統(tǒng)計學、數據
庫、人工智能等基礎,碩士研究生才可能有這樣的基礎,再通過努力學習才
可能較好地掌握這門技術,因此目前國內數據挖掘人才奇缺,從而造成了較
高的技術門檻。
下圖是數據挖掘技術應用開發(fā)的幾個層次。
我們僅僅以銀行為例來介紹一下數據挖掘技術的應用。近年來,在
金融信息化的框架下,銀行業(yè)的信息基礎建設不斷完善,網絡平臺建設逐步
邁向成熟。依托網絡平臺,國有商業(yè)銀行加快了實現數據大集中建設的步伐。
如工商銀行已經將該行系統(tǒng)內的所有的交易與管理集中在北京與上海兩個大
中心進行。
而接下來金融信息化面臨的任務就是:在數據大集中的基礎上,利
用數據挖掘技術建立起有效的數據集成、管理、利用機制,即建立商業(yè)銀行
數據挖掘軟件系統(tǒng),充分挖掘數據價值,為銀行科學化管理決策與進展新的
業(yè)務服務。2002年以來,商業(yè)銀行對數據挖掘技術需求的快速升溫,各商業(yè)
銀行相繼將數據挖掘應用列入近年實施計劃,充分說明了這一大趨勢。如交
通銀行已經在全行推廣應用使用數據挖掘技術的客戶分析系統(tǒng),并擬在其他
業(yè)務中應用數據挖掘技術。
風險管理:識別、防范與操縱銀行卡申辦與使用過程中的各類風險,
其業(yè)務流程包含客戶檔案的錄入與審核、資信評估與信用操縱、基礎數據分
析、為客戶提供分類服務、透支管理操縱、訴訟、預警等多個環(huán)節(jié)。
信用評分:信用評分為貸方提供了準確的,客觀的風險評估工具,它幫助
許多貸款人來決定這樣的一些問題?!偃缥医o這個人一項貸款或者者是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省南京市2024-2025學年高一上學期期末學情調研數學試卷(含答案)
- 2024-2025學年北京市順義區(qū)第二中學高三上學期12月月考數學試題(含答案)
- 2022高考英語完形填空和閱讀理解暑假選練(4)答案(外研版)
- 【名師伴你行】2021屆高考物理二輪復習專題提能專訓:16機械振動、機械波、光及光的波動性
- 項目管理試用期總結:回顧成長路上的收獲與挑戰(zhàn)
- 2022高考英語溫州市信息匹配、閱理自練及答案2
- 【KS5U原創(chuàng)】新課標2021年高一英語暑假作業(yè)7
- 四年級數學(簡便運算)計算題專項練習與答案
- 2021街道社區(qū)矯正工作匯報材料
- 云南省德宏州潞西市芒市中學2014-2021學年高中生物必修三教案-2.2通過激素調節(jié)
- 2025北京朝陽初二(上)期末數學真題試卷(含答案解析)
- 做賬實操-科學研究和技術服務業(yè)的賬務處理示例
- 2025年人教版歷史八上期末復習-全冊重難點知識
- 2024年國家安全員資格考試題庫及解析答案
- 山東省濱州市2023-2024學年高一上學期1月期末考試 政治 含答案
- 儀控技術手冊-自控專業(yè)工程設計用典型條件表
- 法務崗位招聘筆試題及解答(某大型國企)2025年
- 《慶澳門回歸盼祖國統(tǒng)一》主題班會教案
- 洗衣房工作人員崗位職責培訓
- 廣東省深圳市光明區(qū)2022-2023學年五年級上學期數學期末試卷(含答案)
- XX小區(qū)春節(jié)燈光布置方案
評論
0/150
提交評論