數(shù)據(jù)挖掘中分類技術(shù)應(yīng)用_第1頁
數(shù)據(jù)挖掘中分類技術(shù)應(yīng)用_第2頁
數(shù)據(jù)挖掘中分類技術(shù)應(yīng)用_第3頁
數(shù)據(jù)挖掘中分類技術(shù)應(yīng)用_第4頁
數(shù)據(jù)挖掘中分類技術(shù)應(yīng)用_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

分類技術(shù)在很多領(lǐng)域都有應(yīng)用,例如可以通過客戶分類構(gòu)造一個分類模型來對銀行貸款進行風(fēng)險評估;當(dāng)前的市場營銷中很重要的一個特點是強調(diào)客戶細(xì)分??蛻纛悇e分析的功能也在于此,采用數(shù)據(jù)挖掘中的分類技術(shù),可以將客戶分成不同的類別,比如呼叫中心設(shè)計時可以分為:呼叫頻繁的客戶、偶然大量呼叫的客戶、穩(wěn)定呼叫的客戶、其他,幫助呼叫中心尋找出這些不同種類客戶之間的特征,這樣的分類模型可以讓用戶了解不同行為類別客戶的分布特征;其他分類應(yīng)用如文獻檢索和搜索引擎中的自動文本分類技術(shù);安全領(lǐng)域有基于分類技術(shù)的入侵檢測等等。機器學(xué)習(xí)、專家系統(tǒng)、統(tǒng)計學(xué)和神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的研究人員已經(jīng)提出了許多具體的分類預(yù)測方法。下面對分類流程作個簡要描述:訓(xùn)練:訓(xùn)練集一>特征選取——>訓(xùn)?——>分類器分類:新樣本——>特征選取——>分類一>判決最初的數(shù)據(jù)挖掘分類應(yīng)用大多都是在這些方法及基于內(nèi)存基礎(chǔ)上所構(gòu)造的算法。目前數(shù)據(jù)挖掘方法都要求具有基于外存以處理大規(guī)模數(shù)據(jù)集合能力且具有可擴展能力神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是解決分類問題的一種行之有效的方法。神經(jīng)網(wǎng)絡(luò)是一組連接輸入/輸出單元的系統(tǒng),每個連接都與一個權(quán)值相對應(yīng),在將簡單的單元連接成較復(fù)雜的系統(tǒng)后,通過并行運算實現(xiàn)其功能,其中系統(tǒng)的知識存儲于網(wǎng)絡(luò)結(jié)構(gòu)和各單元之間的連接權(quán)中。在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值,達(dá)到對輸入樣本的正確分類。神經(jīng)網(wǎng)絡(luò)有對噪聲數(shù)據(jù)的高承受能力和對未經(jīng)訓(xùn)練數(shù)據(jù)的模式分類能力。神經(jīng)網(wǎng)

絡(luò)概括性強、分類精度高,可以實現(xiàn)有監(jiān)督和無監(jiān)督的分類任務(wù),所以神經(jīng)網(wǎng)絡(luò)在分類中應(yīng)用非常廣泛。在結(jié)構(gòu)上,可以把一個神經(jīng)網(wǎng)絡(luò)劃分為輸入層、輸出層和隱含層(見圖4)。網(wǎng)絡(luò)的每一個輸入節(jié)點對應(yīng)樣本一個特征,而輸出層節(jié)點數(shù)可以等于類別數(shù),也可以只有一個,(輸入層的每個節(jié)點對應(yīng)一個個的預(yù)測變量。輸出層的節(jié)點對應(yīng)目標(biāo)變量,可有多個)。在輸入層和輸出層之間是隱含層(對神經(jīng)網(wǎng)絡(luò)使用者來說不可見),隱含層的層數(shù)和每層節(jié)點的個數(shù)決定了神經(jīng)網(wǎng)絡(luò)的復(fù)雜度。圖4:一個神經(jīng)元幽絡(luò)隱含層圖4:一個神經(jīng)元幽絡(luò)除了輸入層的節(jié)點,神經(jīng)網(wǎng)絡(luò)的每個節(jié)點都與很多它前面的節(jié)點(稱為此節(jié)點的輸入節(jié)點)連接在一起,每個連接對應(yīng)一個權(quán)重Wxy,此節(jié)點的值就是通過它所有輸入節(jié)點的值與對應(yīng)連接權(quán)重乘積的和作為一個函數(shù)的輸入而得到,我們把這個函數(shù)稱為活動函數(shù)或擠壓函數(shù)。如圖5中節(jié)點4輸出到節(jié)點6的值可通過如下計算得到:

W14*節(jié)點1的值+W24*節(jié)點2的值神經(jīng)網(wǎng)絡(luò)的每個節(jié)點都可表示成預(yù)測變量(節(jié)點1,2)的值或值的組合(節(jié)點3-6)。注意節(jié)點6的值已經(jīng)不再是節(jié)點1、2的線性組合,因為數(shù)據(jù)在隱含層中傳遞時使用了活動函數(shù)。實際上如果沒有活動函數(shù)的話,神經(jīng)元網(wǎng)絡(luò)就等價于一個線性回歸函數(shù),如果此活動函數(shù)是某種特定的非線性函數(shù),那神經(jīng)網(wǎng)絡(luò)又等價于邏輯回歸。圖5:帶極重W時的神經(jīng)元網(wǎng)絡(luò)調(diào)整節(jié)點間連接的權(quán)重就是在建立(也稱訓(xùn)練)神經(jīng)網(wǎng)絡(luò)時要做的工作。最早的也是最基本的權(quán)重調(diào)整方法是錯誤回饋法,現(xiàn)在較新的有變化坡度法、類牛頓法、Levenberg-Marquardt法、和遺傳算法等。無論采用那種訓(xùn)練方法,都需要有一些參數(shù)來控制訓(xùn)練的過程,如防止訓(xùn)練過度和控制訓(xùn)練的速度。決定神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(或體系結(jié)構(gòu))的是隱含層及其所含節(jié)點的個數(shù),以及節(jié)點之間的連接方式。要從頭開始設(shè)計一個神經(jīng)網(wǎng)絡(luò),必須要決定隱含層和節(jié)點的數(shù)目,活動函數(shù)的形式,以及對權(quán)重做那些限制等,當(dāng)然如果采用成熟軟件工具的話,他會幫你決定這些事情。在諸多類型的神經(jīng)網(wǎng)絡(luò)中,最常用的是前向傳播式神經(jīng)網(wǎng)絡(luò),也就是我們前面圖示中所描繪的那種。我們下面詳細(xì)討論一下,為討論方便假定只含有一層隱含節(jié)點。可以認(rèn)為錯誤回饋式訓(xùn)練法是變化坡度法的簡化,其過程如下:前向傳播:數(shù)據(jù)從輸入到輸出的過程是一個從前向后的傳播過程,后一節(jié)點的值通過它前面相連的節(jié)點傳過來,然后把值按照各個連接權(quán)重的大小加權(quán)輸入活動函數(shù)再得到新的值,進一步傳播到下一個節(jié)點。回饋:當(dāng)節(jié)點的輸出值與我們預(yù)期的值不同,也就是發(fā)生錯誤時,神經(jīng)網(wǎng)絡(luò)就要“學(xué)習(xí)”(從錯誤中學(xué)習(xí))。我們可以把節(jié)點間連接的權(quán)重看成后一節(jié)點對前一節(jié)點的“信任”程度(他自己向下一節(jié)點的輸出更容易受他前面哪個節(jié)點輸入的影響)。學(xué)習(xí)的方法是采用懲罰的方法,過程如下:如果一節(jié)點輸出發(fā)生錯誤,那么看它的錯誤是受哪個(些)輸入節(jié)點的影響而造成的,是不是他最信任的節(jié)點(權(quán)重最高的節(jié)點)陷害了他(使他出錯),如果是則要降低對他的信任值(降低權(quán)重),懲罰他們,同時升高那些做出正確建議節(jié)點的信任值。對那些收到懲罰的節(jié)點來說,他也需要用同樣的方法來進一步懲罰它前面的節(jié)點。就這樣把懲罰一步步向前傳播直到輸入節(jié)點為止。對訓(xùn)練集中的每一條記錄都要重復(fù)這個步驟,用前向傳播得到輸出值,如果發(fā)生錯誤,則用回饋法進行學(xué)習(xí)。當(dāng)把訓(xùn)練集中的每一條記錄都運行過一遍之后,我們稱完成一個訓(xùn)練周期。要完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練可能需要很多個訓(xùn)練周期,經(jīng)常是幾百個。訓(xùn)練完成之后得到的神經(jīng)網(wǎng)絡(luò)就是在通過訓(xùn)練集發(fā)現(xiàn)的模型,描述了訓(xùn)練集中響應(yīng)變量受預(yù)測變量影響的變化規(guī)律。由于神經(jīng)網(wǎng)絡(luò)隱含層中的可變參數(shù)太多,如果訓(xùn)練時間足夠長的話,神經(jīng)網(wǎng)絡(luò)很可能把訓(xùn)練集的所有細(xì)節(jié)信息都“記”下來,而不是建立一個忽略細(xì)節(jié)只具有規(guī)律性的模型,我們稱這種情況為訓(xùn)練過度。顯然這種“模型”對訓(xùn)練集會有很高的準(zhǔn)確率,而一旦離開訓(xùn)練集應(yīng)用到其他數(shù)據(jù),很可能準(zhǔn)確度急劇下降。為了防止這種訓(xùn)練過度的情況,我們必須知道在什么時候要停止訓(xùn)練。在有些軟件實現(xiàn)中會在訓(xùn)練的同時用一個測試集來計算神經(jīng)網(wǎng)絡(luò)在此測試集上的正確率,一旦這個正確率不再升高甚至開始下降時,那么就認(rèn)為現(xiàn)在神經(jīng)網(wǎng)絡(luò)已經(jīng)達(dá)到做好的狀態(tài)了可以停止訓(xùn)練。圖6中的曲線可以幫我們理解為什么利用測試集能防止訓(xùn)練過度的出現(xiàn)。在圖中可以看到訓(xùn)練集和測試集的錯誤率在一開始都隨著訓(xùn)練周期的增加不斷降低,而測試集的錯誤率在達(dá)到一個谷底后反而開始上升,我們認(rèn)為這個開始上升的時刻就是應(yīng)該停止訓(xùn)練的時刻。訓(xùn)練集錯誤Q1的湖303仙5W訓(xùn)姮周罪訓(xùn)練集錯誤Q1的湖303仙5W訓(xùn)姮周罪測試集錯誤神經(jīng)元網(wǎng)絡(luò)和統(tǒng)計方法在本質(zhì)上有很多差別。神經(jīng)網(wǎng)絡(luò)的參數(shù)可以比統(tǒng)計方法多很多。如圖4中就有13個參數(shù)(9個權(quán)重和4個限制條件)。由于參數(shù)如此之多,參數(shù)通過各種各樣的組合方式來影響輸出結(jié)果,以至于很難對一個神經(jīng)網(wǎng)絡(luò)表示的模型做出直觀的解釋。實際上神經(jīng)網(wǎng)絡(luò)也正是當(dāng)作“黑盒”來用的,不用去管“盒子”里面是什么,只管用就行了。在大部分情況下,這種限制條件是可以接受的。比如銀行可能需要一個筆跡識別軟件,但他沒必要知道為什么這些線條組合在一起就是一個人的簽名,而另外一個相似的則不是。在很多復(fù)雜度很高的問題如化學(xué)試驗、機器人、金融市場的模擬、和語言圖像的識別,等領(lǐng)域神經(jīng)網(wǎng)絡(luò)都取得了很好的效果。神經(jīng)網(wǎng)絡(luò)分類算法的重點是構(gòu)造閾值邏輯單元,一個值邏輯單元是一個對象,它可以輸入一組加權(quán)系數(shù)的量,對它們進行求和,如果這個和達(dá)到或者超過了某個閾值,輸出一個量。如有輸入值X1,X2,...,Xn和它們的權(quán)系數(shù):W1,W2,...,Wn,求和計算出的Xi*Wi,產(chǎn)生了激發(fā)層a=(X1*W1)+(X2*W2)+...+(Xi*Wi)+.??+(Xn*Wn),其中Xi代表樣本的不同特征,Wi是實時特征評估模型中得到的權(quán)系數(shù)。對于單輸出型,網(wǎng)絡(luò)的每一個輸入節(jié)點對應(yīng)樣本一個特征,而輸出層節(jié)點只有一個,為每個類建立一個這樣的網(wǎng)絡(luò),對每一類進行分別訓(xùn)練,將屬于這一類的樣本的期望輸出設(shè)為1,而把屬于其他類的樣本的期望輸出設(shè)為0;在識別階段,將未知類別的樣本輸入到每一個網(wǎng)絡(luò),如果某個網(wǎng)絡(luò)的輸出接近1(或大于某個閾值,比如0.5)則判斷該樣本屬于這一類;如果有多個網(wǎng)絡(luò)的輸出均大于閾值,則或者將類別判斷為具有最大輸出的那一類,或者做出拒絕。神經(jīng)網(wǎng)絡(luò)的另一個優(yōu)點是很容易在并行計算機上實現(xiàn),可以把他的節(jié)點分配到不同的CPU上并行計算。在使用神經(jīng)網(wǎng)絡(luò)時有幾點需要注意:第一,神經(jīng)網(wǎng)絡(luò)很難解釋,目前還沒有能對神經(jīng)網(wǎng)絡(luò)做出顯而易見解釋的方法學(xué)。第二,神經(jīng)網(wǎng)絡(luò)會學(xué)習(xí)過度,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時一定要恰當(dāng)?shù)氖褂靡恍┠車?yán)格衡量神經(jīng)網(wǎng)絡(luò)的方法,如前面提到的測試集方法和交叉驗證法等。這主要是由于神經(jīng)網(wǎng)絡(luò)太靈活、可變參數(shù)太多,如果給足夠的時間,他幾乎可以“記住”任何事情。第三,除非問題非常簡單,訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)可能需要相當(dāng)可觀的時間才能完成。當(dāng)然,一旦神經(jīng)網(wǎng)絡(luò)建立好了,在用它做預(yù)測時運行時還是很快的。第四,建立神經(jīng)網(wǎng)絡(luò)需要做的數(shù)據(jù)準(zhǔn)備工作量很大。一個很有誤導(dǎo)性的神話就是不管用什么數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)都能很好的工作并做出準(zhǔn)確的預(yù)測。這是不確切的,要想得到準(zhǔn)確度高的模型必須認(rèn)真的進行數(shù)據(jù)清洗、整理、轉(zhuǎn)換、選擇等工作,對任何數(shù)據(jù)挖掘技術(shù)都是這樣,神經(jīng)網(wǎng)絡(luò)尤其注重這一點。比如神經(jīng)網(wǎng)絡(luò)要求所有的輸入變量都必須是0-1(或-1—+1)之間的實數(shù),因此像“地區(qū)”之類文本數(shù)據(jù)必須先做必要的處理之后才能用作神經(jīng)網(wǎng)絡(luò)的輸入。神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗風(fēng)險最小化原則的學(xué)習(xí)算法,有一些固有的缺陷,比如層數(shù)和神經(jīng)元個數(shù)難以確定,容易陷入局部極小,還有過學(xué)習(xí)現(xiàn)象,這些本身的缺陷在SVM算法、進化算法中可以得到很好的解決。在計算機科學(xué)中,進化算法實質(zhì)上是一種優(yōu)化處理過程;但這種過程與傳統(tǒng)的優(yōu)化方法不同,傳統(tǒng)的優(yōu)化方法都是用代價函數(shù)來衡量動作的行為,從而通過選擇一個好的動作使操作的對象得

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論