




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 它融合了數據庫技術、機器學習和人工智能等多個學科。介紹了數據挖掘 技術的定義、任務類型和常用的數據挖掘方法,以及數據挖掘技術的實際 :數據挖掘;應用;任務;規(guī)則在計算機技術快速發(fā)展的時代,數據庫技術與計算機網絡也得到了普 遍的應用,從而人們利用計算機技術處理數據的能力也顯著增強,這就造 成了數據的迅速增加與數據分析方法滯后之間的矛盾也越來越明顯。人們 總是希望通過分析現有的數據,挖掘出海量的數據信息,以便更好地利用 這些數據。然而,目前已有的數據分析技術已經無法滿足人們對數據進行 深層次挖掘的需要,數據處理的效率也很低。數據量的快速增長對數據的 存儲、管理和分析提出了更高的要求,急需一種新的
2、技術,能夠智能化的 從大量的數據中提取出有用的信息,于是數據挖掘技術應運而生,并在各 隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的 信息和知識的過程。數據挖掘是近年來隨著數據庫技術和人工智能技術的 發(fā)展而出現的一種多學科交叉的全新信息技術,隨著計算機網絡的發(fā)展和 描述模式是對數據中存在的規(guī)律、規(guī)則作出一種描述,或者根據數據間的 相似性對數據進行分組,一般不能直接用于預測;預測模式能夠根據已有 對象的屬性、特征,建立不同的組類來描述事物。分類的目的是學會一個 分類函數或分類模型,該模型能把數據庫中的數據項映射到給定類別中的 某一個;聚類模式。聚類是把一組個體按照相似性歸成若干
3、類別,即 “物以類聚”。它的目的是使得屬于同一類別的個體之間的距離盡可能的 的個體間的距離盡可能的大。聚類方法包括統計方法、 機器學習方法、神經網絡方法和面向數據庫的方法;關聯規(guī)則。關聯規(guī) 量的取值之間存在某種規(guī)律性,就稱為關聯。數據關聯是數據庫中存在的 一類重要的、可被發(fā)現的知識。關聯可分為簡單關聯、時序關聯和因果關 聯。關聯分析的目的是找出數據庫中隱藏的關聯網。一般用支持度和可信 使得所挖掘的規(guī)則更符合需求;概念描述。概念描述就是對所選擇的數 據給出一個簡單明了的描述;提供對于兩個或兩個以上的數據進行比較的 結果。概念描述可以分為特征性描述和區(qū)別性描述兩種,特征性表述用來 自動預測趨勢和行
4、為。數據挖掘可以自動地在大量的數據庫中檢測出預 測性信息。預測的目的是從歷史數據紀錄中自動推導出對給定數據的推廣 描述,從而能對未來數據進行預測。比如市場預測問題,數據挖掘使利用 以前促銷的相關數據來尋找未來投資中回報最大的用戶,當然也能預測破 產以及判定對特定事件最可能做出反應的客戶群體;偏差檢測。偏差檢測即孤立點檢測,孤立點檢測是數據挖掘中一個重要方面,用來發(fā)現“小 相對于聚類而言),即數據集中與其它數據明顯不同的對象。數 偏差包括很多潛在的知識,如分類中的反常實例、不符合規(guī)則的特例、檢 最常用的數據挖掘技術有:神經網絡:指由大量神經元互連而成的 網絡,具有分布存儲、聯想記憶、大規(guī)模并行處
5、理、自組織、自學習、自 適應等功能。利用神經網絡可以完成分類、聚類、特征挖掘等多種數據挖 掘任務。神經網絡在實際生活中的應用主要有:電子領域中的集成電路芯 片設計、娛樂領域中的動畫設計、銀行業(yè)中的貸款評估器、國防領域中的 目標跟蹤等領域;決策樹:是用樹形結構來表示決策集合,這些決策集 合通過對數據集的分類產生規(guī)則。決策樹是一棵樹,樹的根節(jié)點是整個數 據集合空間,每個分節(jié)點是對一個單一變量的測試,該測試將數據集合空 間分割成兩個或更多塊。每個葉節(jié)點是屬于單一類別的記錄。首先,通過 訓練集生成決策樹,再通過測試集對決策樹進行修剪。決策樹的功能是預 言一個新的記錄屬于哪一類;遺傳算法:是一種新的優(yōu)化
6、技術,基于生 物進化的概念設計了基因組合、交叉、變異和自然選擇等過程來達到優(yōu)化 的目的。在應用中,需要把數據挖掘任務表達為一種搜索問題,從而發(fā)揮 可用作聚類、偏差分析等數據挖掘任務;規(guī)則推導:通過統計方法歸納 和提取有價值的“If-Then”規(guī)則。規(guī)則推導技術在數據挖掘中被廣泛使 采用上述技術的某些專門的分析工具已經發(fā)展了十多年,現在,這些 (1)在銀行業(yè)中的應用處理金融事務通常需要搜集和處理大量的數據,鑒于銀行在金融領域 的地位、工作性質、業(yè)務特點和激烈的市場競爭,使得銀行比其它領域對 信息化、電子化的需求更為迫切。利用數據挖掘技術可以幫助銀行產品開 (2)在零售業(yè)中的應用(3)在電信業(yè)中的應用國家對電信業(yè)的開放和新興計算與通信技術的發(fā)展,電信市 場得到了迅速的擴張并越發(fā)競爭激烈。因此,有必要利用數據挖掘技術來 幫助理解商業(yè)行為、確定電信模式、捕捉盜用行為、更好地利用資源和提 高服務質量。分析人員可以對呼叫源、呼叫目標、呼叫量和每天使用模式 等信息進行分析,還可以通過挖掘進行盜用模式分析和異常模式識別,從 (4)在生物學中的應用生物信息或基因數據挖掘對人類意義重大。例如,基因的組合千變萬 能否找出其中不同的地方,并對這些不同之處進行改變,使之成為正?;?因?這都需要數據挖掘技術的支持。數據挖掘在生物信息或基因的中的應 用和通常的數據挖掘相比,無論是在數據的復
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生產設備外包合同協議書
- 煤源銷售合同協議書
- 企業(yè)綠化合同協議書
- 2025年中國藍寶石襯底材料項目投資計劃書
- 2025年紀錄片項目可行性分析報告
- 解除投資合同協議書范本
- 廣東智能電子產品項目商業(yè)計劃書
- 公寓式酒店項目策劃書3
- 中國硼酸三甲酯項目創(chuàng)業(yè)計劃書
- 創(chuàng)新創(chuàng)業(yè)計劃書手辦
- DB32/T 4622.4-2023采供血過程風險管理第4部分:血液成分制備和供應風險控制規(guī)范
- 2025年供應鏈管理專業(yè)考試試題及答案
- 消防監(jiān)護人考試題及答案
- GB 35181-2025重大火災隱患判定規(guī)則
- 2025山東能源集團營銷貿易限公司招聘機關部分業(yè)務人員31人易考易錯模擬試題(共500題)試卷后附參考答案
- 2024年漳州市招聘中小學幼兒園教師真題
- 漢代文化課件圖片高清
- 2025河南中考:政治必背知識點
- 【四川卷】【高二】四川省成都市蓉城名校聯盟2023-2024學年高二下學期期末聯考數學試題
- 2025年中南出版?zhèn)髅郊瘓F湖南教育出版社分公司招聘筆試參考題庫含答案解析
- 艾滋病病人的心理護理
評論
0/150
提交評論