已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工神經網絡在數(shù)據挖掘中的潛在應用摘要:隨著存儲在文件,數(shù)據庫,和其他的庫中的數(shù)據量巨大,數(shù)據正在變得越來越重要,開發(fā)用于分析或解釋這些數(shù)據和用于提取有趣的知識的強有力的手段可以幫助決策。數(shù)據挖掘,也普遍被稱為數(shù)據庫中的知識發(fā)現(xiàn)(KDD),是指從數(shù)據庫中的數(shù)據中提取隱含的,先前未知的,潛在地有用的信息。因此,數(shù)據挖掘的過程就是從大型數(shù)據庫中自動提取隱藏的,預測的信息。數(shù)據挖掘,包括:提取,轉換和加載到數(shù)據倉庫系統(tǒng)的數(shù)據。神經網絡已經成功地廣泛的應用在監(jiān)督和無監(jiān)督的學習應用當中。神經網絡方法不常用于數(shù)據挖掘任務當中,因為它們可能會結構復雜,訓練時間長,結果的表示不易理解并且經常產生不可理解的模型。然而,神經網絡對嘈雜的高精度的數(shù)據具有高度的接受能力在數(shù)據挖掘中的應用是可取的。在本論文中,調查探索人工神經網絡在數(shù)據挖掘技術的應用,關鍵技術和實現(xiàn)基于神經網絡的數(shù)據挖掘研究方法。鑒于目前的行業(yè)狀態(tài),神經網絡作為一個工具盒在數(shù)據挖掘領域是非常有價值的一點。關鍵詞:數(shù)據挖掘;KDD;SOM;數(shù)據挖掘的過程一、引言數(shù)據挖掘,從大型數(shù)據庫中提取隱藏的預測性信息,是一個功能強大的具有巨大潛力的新技術在幫助公司集中重要的信息在他們的數(shù)據倉庫中。數(shù)據挖掘工具預測未來的趨勢和行為,允許企業(yè)作出主動的,知識驅動的決策。所提供的數(shù)據挖掘超越過去的事件進行回顧性工具的典型的決策支持系統(tǒng)提供了自動、前瞻性的分析。數(shù)據挖掘工具可以回答那些,傳統(tǒng)上耗費太多的時間來解決的業(yè)務問題。他們尋找隱藏的模式數(shù)據庫,尋找專家們可能由于超出在他們期望之外而錯過的預測信息。不同類型的數(shù)據挖掘工具,在市場上是可用的,每個都有自己的長處和弱點。內部審計人員需要了解數(shù)據挖掘工具的不同種類和推薦的工具,滿足組織電流檢測的需要。這應該在項目的生命周期中盡早考慮,甚至可行性研究。數(shù)據挖掘通常包括四類任務。分類:把這些數(shù)據整理到組。例如一個電子郵件程序會試圖將一封電子郵件分類為合法的或垃圾郵件。常見的算法包括決策樹學習,最近鄰,樸素貝葉斯分類和神經網絡算法。聚類:就像分類但這些組卻沒有被預定義,因此該算法會嘗試將類似的物品放在一起進行分組?;貧w:試圖找到一個以最小的誤差的數(shù)據函數(shù)模型。關聯(lián)規(guī)則的學習:變量之間的關系搜索。例如,超市會對將消費者的購買習慣的數(shù)據集合起來。利用關聯(lián)規(guī)則的學習,超市可以決定哪些產品經常一起購買和利用此信息實現(xiàn)營銷的目的。有時將這種方法稱為“市場分析”。人工神經網絡是一個基于人類大腦的松散的系統(tǒng)建?!,F(xiàn)場有許多名字,如聯(lián)結,并行分布處理,神經計算,自然智能系統(tǒng),機器學習算法,人工神經網絡。它必須考慮任何功能的依賴性。網絡發(fā)現(xiàn)(學習,模型)無需提示的依賴性。最初的數(shù)據挖掘應用中神經網絡不被使用是由于其結構復雜,訓練時間長,且操作性較差。而神經網絡是解決許多現(xiàn)實世界的問題的一個有力的技術。他們從經驗中學習,以提高其性能和適應變化的能力環(huán)境。此外,他們能夠處理不完備信息或嘈雜的數(shù)據,特別是在無法定義的規(guī)則或步驟導致一個問題的解決方案的情況下是非常有效的。二、數(shù)據挖掘技術數(shù)據挖掘技術可以在現(xiàn)有的軟件和硬件平臺迅速實施來提高現(xiàn)有信息資源的價值,并可以提供新的產品和系統(tǒng)集成,為他們帶來在線服務。當實現(xiàn)了高性能的客戶機/服務器或計算機的并行處理,數(shù)據挖掘工具可以分析海量數(shù)據庫來提供問題的答案,比如,“哪些客戶最有可能回復我的下一個郵件促銷,為什么?”如圖1所示,數(shù)據挖掘的過程包括三個主要階段:1數(shù)據預處理2應用數(shù)據挖掘技術3結果的解釋圖1:數(shù)據挖掘的一般過程本節(jié)介紹數(shù)據挖掘的基本技術。在數(shù)據挖掘中最常用的技術是:人工神經網絡:非線性預測模型,通過培訓和學習,類似于生物神經網絡的結構。決策樹:樹型結構,表示一組決定。這些決定產生數(shù)據集的分類規(guī)則。具體的決策樹方法包括分類與回歸樹(CART)和卡方自動交互檢測(CHAID)。遺傳算法:使用優(yōu)化技術如遺傳組合,突變,和一個基于自然選擇進化的概念設計。最近鄰法:一種將數(shù)據中每個記錄集合的技術結合K記錄類(S)最類似于它在歷史數(shù)據集基礎上。有時被稱為K-最近鄰技術。規(guī)則歸納:從基于統(tǒng)計意義的數(shù)據中提取有用的if-then規(guī)則。三、人工神經網絡在數(shù)據挖掘中的應用如在上一節(jié)討論的,我們可以在數(shù)據挖掘中使用各種技術。本節(jié)將重點放在人工神經網絡是如何適合解決數(shù)據挖掘問題的。有兩種主要神經網絡模型:監(jiān)督神經網絡,如多層感知器或徑向基函數(shù),和無監(jiān)督神經網絡如Kohonen特征圖等。有監(jiān)督的神經網絡使用培訓和測試數(shù)據建立一個模型。數(shù)據包括歷史數(shù)據集,它包含輸入變量,或數(shù)據域,對應輸出。訓練數(shù)據的神經網絡采用“學習”如何對已知量進行預測,并對測試數(shù)據用于驗證。目的是對給定的輸入變量利用神經網絡對任何記錄輸出預測。圖2:一個簡單的前饋神經網絡示例一個最簡單的前饋神經網絡(FFNN),如圖2,包括三層:輸入層,隱藏層和輸出層。在每一層有一個或多個處理單元(PES)。PES是模擬大腦中的神經元,這就是為什么它們經常被稱為神經元或節(jié)點。PE從外面的世界或者上一層接收輸入。在每一層的PE之間有一個與之相關的重量(參數(shù))聯(lián)系著他們。這一重量因子。信息只有在向前的方向通過網絡沒有反饋回路。為什么應用神經網絡高精度:神經網絡能夠逼近復雜的非線性映射。噪聲容限:神經網絡針對不完備,丟失了的和嘈雜的數(shù)據是非常靈活的。從之前的假設獨立:神經網絡可以用新鮮的數(shù)據更新,使它們可用于動態(tài)環(huán)境。隱藏節(jié)點,在有監(jiān)督的神經網絡可以被視為潛在變量。神經網絡可以在平行的硬件中實現(xiàn)。四、傳統(tǒng)方法的信息處理與神經網絡在這一部分中比較傳統(tǒng)的方法和神經網絡的信息處理。A)基礎:邏輯與大腦傳統(tǒng)方法:模擬和形式化人類推理和邏輯的過程。TA把大腦看作一個黑盒子。TA專注于元素是之間是如何彼此相關的,以及如何給機器一樣的功能。神經網絡:模擬大腦的智力功能。神經網絡專注于大腦的結構建模。神經網絡試圖建立一個系統(tǒng),功能就像大腦,因為它有一個類似于大腦的結構。B)處理技術:順序和并行傳統(tǒng)方法:TA的處理方法本質上是連續(xù)的。神經網絡:神經網絡處理方法本質上是平行的。在神經網絡系統(tǒng)中每個神經元與其他神經元功能平行。C)學習:靜態(tài)和動態(tài)以及外部與內部的傳統(tǒng)方法:學習是發(fā)生在系統(tǒng)外。在系統(tǒng)外部獲得知識,然后編碼到系統(tǒng)。神經網絡:學習是系統(tǒng)和它的設計的一個組成部分。知識作為神經元之間的連接強度被存儲,它是一個數(shù)據集學習這些權重時神經網絡的工作所展示出來的。D)推理方法:演繹與歸納傳統(tǒng)方法:本質是演繹。使用該系統(tǒng),包括一個演繹推理的過程,對于一個給定的情況下應用廣義的知識。神經網絡:本質是歸納。構建了它的數(shù)據的一種內在的知識基礎。它概括了從數(shù)據,這樣當它提出了一個新的數(shù)據集,它可以做出一個基于廣義內部知識的決策。E)知識表示:外顯與隱式傳統(tǒng)方法:它代表一個顯式的知識。規(guī)則和關系可以被檢查和修改。神經網絡:知識在神經元之間的互連強度的形成時被存儲。在系統(tǒng)中沒有一個可以拿起一塊計算機代碼或一個數(shù)值作為一個可識別的知識。五、基于神經網絡的數(shù)據挖掘A、基于自組織映射的數(shù)據挖掘(SOM)自組織映射(SOM)在可視化的高維度中被認為是非常有效的一種先進的可視化工具,各種功能包括數(shù)據之間的內在關系,復雜的數(shù)據。SOM的輸出強調數(shù)據的顯著特征和隨后導致類似的數(shù)據項群的自動生成。這種特殊的會議讓他們有資格成為潛在的候選人完成數(shù)據挖掘任務,包括分類和聚類的數(shù)據項?!皩W”的SOM可以作為重要的可視化的援助,因為它給出了一個完整的圖像數(shù)據;相似的數(shù)據項會自動組合在一起。自組織映射(SOM)已被證明在數(shù)據的可視化和探索領域內最強大的算法之一。應用領域包括各種領域的科學和技術,例如,復雜的工業(yè)過程,電信系統(tǒng),文件和圖像數(shù)據庫,甚至是金融領域中的應用。SOM映射到高維輸入向量的二維網格原型并且命令他們。對人類的翻譯來說,有序的原型向量更易于原來的數(shù)據可視化和探索。SOM已在各種軟件工具和庫廣泛實施。圖3:SOM神經網絡在數(shù)據挖掘中的應用如圖3,處理后的SOM用于提取數(shù)據定性或定量的信息。可視化和聚類提供定性信息,同時監(jiān)測定量的信息,從而得到系統(tǒng)的行為的深層理解。B、基于神經模糊的數(shù)據挖掘一個神經模糊系統(tǒng)是基于一個模糊系統(tǒng)的學習算法接受來自神經網絡理論。學習程序運行在本地信息,并在底層的模糊系統(tǒng)只造成局部修改。一個神經模糊系統(tǒng)可以被看作是一個三層前饋神經網絡。第一層是輸入變量,中間層是(隱藏的)模糊規(guī)則,第三層表示輸出變量。模糊集被編碼為(模糊)的連接權值。這是沒有必要的代表這樣一個模糊系統(tǒng)應用學習算法,它。然而,它可以方便的,因為它代表輸入的數(shù)據流處理模型內的學習。有時用五層建筑,在模糊集的第二和第四層的單位。一個神經模糊系統(tǒng)總是可以解釋為一個模糊規(guī)則系統(tǒng)。也可以創(chuàng)建系統(tǒng)的從零開始的訓練數(shù)據,它可能初始化它的先驗知識的模糊規(guī)則表??紤]到系統(tǒng)神經模糊系統(tǒng)的學習過程需要基本模糊語義性質。這個結果限制適用于系統(tǒng)參數(shù)的修改。神經網絡在分類上準確度高,預測和許多其他應用在文獻中提出。但這個系統(tǒng)是無法解釋的知識嵌入在訓練后的神經網絡是該技術的一個主要缺點。多關注被用來從訓練的神經網絡規(guī)則解決這個問題。圖4顯示了基于神經模糊系統(tǒng)的數(shù)據挖掘過程。第一步是由神經網絡構建系統(tǒng)建立神經網絡預測模型。子系統(tǒng)的機制像是一個專家系統(tǒng)外殼。第二步是從訓練的神經網絡中提取規(guī)則。神經網絡結構和權值空間用于我國的業(yè)務規(guī)則管理預測的規(guī)則提取機制。在第三步中隱藏的預測規(guī)則中提取的以前的步驟相結合,用神經網絡構建系統(tǒng)生成的形成一個描述性的神經網絡,動態(tài)神經網絡。大多數(shù)研究人員提取的if-then型關聯(lián)規(guī)則,因為相對其他的表示他們更能理解人類。圖4:使用描述性的神經網絡數(shù)據挖掘過程C、基于ART2的數(shù)據挖掘聚類分析是數(shù)據挖掘領域的一個重要的研究課題,它是數(shù)據挖掘的一個主要任務。自適應共振理論(ART)神經網絡是實現(xiàn)聚類的一種有效方法。但經典ART2網絡在數(shù)據聚類分析應用中的一些缺點和不足。經典ART2網絡在網絡訓練之前必須指定P警戒參數(shù);這個參數(shù)的配置對網絡的聚類結果有著直接的影響。經典ART2用“贏家通吃”的競爭規(guī)則,一般只考慮獲勝神經元的信息,而忽略在輸出層神經元的其他的有用信息。經典ART2網絡輸出本質上是一維結構在整個輸入模式空間無法體現(xiàn)整體關系。通過改進的ART2結構,考慮挖掘對象的幅度信息豐富,可減少警戒參數(shù)的要求和層次結構獲得的聚類結果。我們可以將在數(shù)據挖掘中的瀏覽模式的ART2神經網絡記錄在Web日志數(shù)據。D、基于反向傳播的數(shù)據挖掘在一些情況下,BP神經網絡可能是一個好主意:1大量的輸入/輸出數(shù)據是可用的,但是你不知道如何將它與輸出聯(lián)系起來。2這個問題似乎有壓倒性的復雜性,但是有一種明確的解決方案。3它很容易創(chuàng)建一批的正確行為的例子。輸出可以是“模糊”,或非數(shù)字。反向傳播算法可用于分類問題。六、結論與討論在本文中,我們回顧了在數(shù)據挖掘技術中如何運用人工神經網絡。神經網絡由于其自身良好的魯棒性,特征自組織自適應行,并行處理,分布式存儲和高度容錯性,適用于解決數(shù)據挖掘的問題。這個整體效益,人工神經網絡供應了一個強大的和令人興奮的工具,應用在數(shù)據挖掘領域內,來提高數(shù)據挖掘過程的能力。這樣一個提供了有價值的洞察力和智慧的組合工具的用來指定所有領域的規(guī)劃與決策。此外,粒子群優(yōu)化,蟻群算法可以與人工神經網絡結合,進一步提高人工神經網絡在數(shù)據挖掘方向的性能。七、參考文獻1 Data Mining: Concepts and Techniques Jiawei Han and Micheline Kamber, Morgan Kaufmann, 2001.2 Data Mining:Practical Machine Learning Ian H. Witten, Eibe Frank, Morgan Kaufmann, 20003 Fundamentals of Neural Networks,Laurene V. Fausett4 Xianjun Ni,Research of Data Mining Based on Neural NetworksWorld Academy of Science, Engineering and Technology 39 20085 David Hand, Principles of Data Mining M. Massachusetts Institute of Technology,20016 Feng Jiansheng. KDD and its applications, BaoGang techniques. 1999(3): 27-31.7 Wooldrldge M J. Agent-Based software engineering. IEEE Transactions on Software Engineering J. 1999,144 (1): 26-27.8 Lie Lu and Hong-Jiang Zhang, “Content analysis for audio classification and segmentation.”, IEEE Tra
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025糧油銷售合同范本
- 打字員的勞動合同書
- 印刷品訂貨合同格式
- 2025房屋商用租賃合同范本
- 2025農機社會化服務作業(yè)合同(合同版本)
- 醫(yī)療機構采購與供應合同
- 配音演員聘用合同范本
- 探索在線技能培訓的新模式
- 指點迷津筑夢未來主題班會
- 技術進口合同范本
- 六年級上冊數(shù)學書蘇教版答案
- 2023年全國中小學思政課教師網絡培訓研修總結心得體會
- CDE網站申請人之窗欄目介紹及用戶操作手冊
- 車班班長工作總結5篇
- 行業(yè)會計比較(第三版)PPT完整全套教學課件
- 值機業(yè)務與行李運輸實務(第3版)高職PPT完整全套教學課件
- 高考英語語法填空專項訓練(含解析)
- 42式太極劍劍譜及動作說明(吳阿敏)
- 部編版語文小學五年級下冊第一單元集體備課(教材解讀)
- 仁愛英語九年級下冊單詞表(中英文)
- 危險化學品企業(yè)安全生產標準化課件
評論
0/150
提交評論