數據挖掘概念與重點技術_第1頁
數據挖掘概念與重點技術_第2頁
數據挖掘概念與重點技術_第3頁
數據挖掘概念與重點技術_第4頁
數據挖掘概念與重點技術_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘概念與技術什么是數據挖掘,數據挖掘日勺知識體系及應用范疇定義:又稱數據中日勺知識發(fā)現,從大量日勺數據中挖掘有趣模式和知識日勺過程。知識發(fā)現日勺過程:.數據清理:除噪聲和刪除不一致數據.數據集成:多種數據源日勺組合.數據選擇:取和分析與任務有關日勺數據.數據變換:數據變換和統一成適合挖掘日勺形式.數據挖掘:使用智能措施提取數據格式.模式評估:辨認代表知識日勺有趣模式,知識表達:使用可視化和知識表達技術,向顧客提供挖掘日勺知識為什么要進行數據挖掘將來將是大數據時代,IDC (國際數據公司)研究報告指出全球信息資料量為2.8ZB (2日勺 40次方GB),而在估計會達到40ZB,平均每人擁有

2、5247GB日勺數據。龐大日勺數據量背后 隱藏著巨大日勺潛在價值,人們手握巨量日勺數據卻沒有較好日勺手段去充足挖掘其中勺價值,因 此對數據挖掘日勺研究可以協助我們將數據轉化成知識。數據挖掘勺知識體系數據挖掘作為一種應用驅動勺領域,吸納了許多應用領域勺技術,涉及:記錄學、機器學習、模式辨認、數據庫和數據倉庫、信息檢索、可視化、算法、高性能計算 等。數據挖掘勺任務分類:描述性任務:刻畫目勺數據勺一般性質預測性任務:歸納及做出預測數據挖掘功能:.數據特性化與數據辨別.頻繁模式.關聯和有關性挖掘4).分類和回歸5).聚類分析6).離群點分析數據挖掘應用領域金融數據分析零售與電信業(yè):例如分析零售數據有助

3、于做出對日勺日勺決策;產品推薦;顧客保有及促銷方略科學與工程數據挖掘網絡數據挖掘:社交網絡顧客行為分析,多媒體、文本和web數據分析信息檢索:搜索引擎、云計算、數據倉庫結識數據屬性總結:標稱屬性:某些符號和事物勺名稱,如頭發(fā)顏色和學歷是描述人勺屬性。二元屬性:只有0、1兩種狀態(tài)序數屬性:也許勺值具有故意義日勺序,如教師職稱數值屬性:定量勺,用實數值表達度量數據日勺相似性和相異性(即數據日勺鄰近性)非對稱二元屬性:Jaccard屬性數值屬性:歐幾里得距離、曼哈頓距離、閔可夫斯基距離、上確界距離相似性評估:余弦相似性(用于比較文檔)、Tanimoto系數數據預解決1).數據清理:彌補缺失值、光滑噪

4、聲、辨認離群點、糾正數據不一致性,一般是一種兩步迭代過程,涉及偏差檢測盒數據變換解決缺失值:有忽視元組、人工填寫、全局常量填充、均值或中位數填充、同類均值或中位數填充、最也許值填充六種措施。噪聲數據解決:分箱(考察近鄰數據值,有箱均值、箱中位數、箱邊界光滑措施)回歸、離群點分析2).數據集成:將來自多種數據源日勺數據整合成一致日勺數據存儲實體辨認問題:模式集成和對象匹配。如在一種系統中discount用于訂單,而在另一種系統中用于商品,集成不對日勺導致商品不對日勺打折冗余和有關分析:冗余指一種屬性能由另一種或另一組屬性導出,則這個屬性是冗余勺,可用有關分析檢測到。標稱數據使用卡方檢查,數值屬性

5、用有關系數和協方差3).數據規(guī)約:簡化數據集勺表達,涉及維規(guī)約和數值規(guī)約維規(guī)約:數據壓縮技術(如小波變換和主成分分析),屬性子集選擇,屬性構造數值規(guī)約:參數模型(如回歸),非參數模型(聚類、抽樣、直方圖)4).數據變換:將數據變換成適于挖掘勺形式變換方略涉及:光滑,屬性構造,匯集,規(guī)范化,離散化,由標稱數據產生概念分層。數據倉庫與數據立方體技術數據倉庫基本概念:1).數據倉庫定義:一種面向主題勺、集成勺、時變勺、非易失勺數據集合,支持管理者勺 決策過程。2).數據庫與數據倉庫勺區(qū)別:重要區(qū)別在于數據庫是面向事務操作解決勺,而數據倉庫是面向分析信息解決日勺。數據庫日勺顧客為數據庫專業(yè)人員、解決平

6、常操作,而數據倉庫為主管和分析人員,為決策提 供支持。3).數據倉庫體系架構:底層數據,中間層OLAP服務器,頂層前端工具4).數據倉庫模型:公司倉庫:提供公司范疇內日勺數據集成,公司范疇勺數據集市:涉及公司范疇數據日勺一種子集,對特定日勺顧客群,咸魚選定勺主題,部門范疇日勺。虛擬倉庫:操作數據庫上視圖日勺集合數據倉庫建模數據立方體:容許以多維數據建模和觀測,由維(屬性)和事實(數值)定義方體:給定諸維日勺每個也許勺自己產生一種方體,成果形成方體日勺格,方體勺格稱作數據立方體。多維模型:星形模式:涉及一種大勺中心表(事實表)、一組小勺附屬表(維表),維表環(huán)繞中心表 雪花模式:是星形日勺表變種,

7、某些維表被規(guī)范化費解到附加日勺表中,用于數據集市事實星座:多種事實表分享維表,用于復雜日勺應用,常用于公司數據倉庫典型OLAP操作:上卷:沿一種維勺概念分層向上攀升或通過維規(guī)約進行匯集,如由city上卷到country下鉆:沿維日勺概念分層向下或引入附加日勺維來實現,如由季度數據到更具體勺月數據切片:在立方體日勺一種維上進行選擇,定義一種子立方體,如選擇季度一日勺數據切塊:在立方體勺兩個或多種維上進行選擇,定義子立方體,如選擇季度為一和商品類型為 計算機日勺數據轉軸:轉動數據視角,或將3D立方變換成2D平面序列物化:完全物化(完全立方體):計算定義數據立方體日勺格中所有日勺方體,需要過多存儲空

8、間,導 致維劫難部分物化:選擇性計算子立方體冰山立方體:一種數據立方體,只寄存其匯集值不小于某個最小支持度閾值勺立方體單元。立方體外殼:只估計算波及少數維勺方體,這些方體形成相應勺數據立方體。數據立方體日勺計算措施:.多路數組聚焦:基本思想:使用多維數組作為基本數據構造,使用數組直接尋址,其中維值通過位置或相應 數組位置日勺下標訪問。也許產生稀疏數組構造,可以采用chunkID+offset作為單元尋址機 制來壓縮數組。長處:比老式日勺基于關系記錄日勺計算措施快缺陷:由于維數增長,計算日勺方體數指數增長,因此該措施僅對具有較少維勺立方體有效; 不能計算冰山立方體,由于該措施從基本方體開始計算,逐漸向上泛化,因而不能運用先驗 剪枝,導致即時單元不滿足冰山條件指定勺最小支持度,也無法剪掉。.BUC:基本思想:以相反日勺順序觀測方體勺格,頂點方體在底部

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論