數(shù)據(jù)挖掘重點(diǎn)(最新版)_第1頁(yè)
數(shù)據(jù)挖掘重點(diǎn)(最新版)_第2頁(yè)
數(shù)據(jù)挖掘重點(diǎn)(最新版)_第3頁(yè)
數(shù)據(jù)挖掘重點(diǎn)(最新版)_第4頁(yè)
數(shù)據(jù)挖掘重點(diǎn)(最新版)_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)專心-專注-專業(yè)精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)題型:?jiǎn)雾?xiàng)選擇題(每小題1分,共10分) 2多項(xiàng)選擇題(每小題2分,共20分)3簡(jiǎn)答題(每小題15分,共30分) 4、算法實(shí)現(xiàn)(每小題20分,共40分)重點(diǎn)企業(yè)資源的要素組成企業(yè)資源包括如下要素。有形資源:(1) 人:人力資源。(2) 財(cái):資金資源。(3) 物:包括材料、設(shè)備和能源在內(nèi)的資源。無(wú)形資源:數(shù)據(jù)、信息和知識(shí)數(shù)據(jù)資源的要素組成數(shù)據(jù)資源由以下3 個(gè)要素組成 (1) 有用的數(shù)據(jù)。(2) 作為企業(yè)神經(jīng)系統(tǒng)的信息基礎(chǔ)設(shè)施(Information Infrastruct

2、ure),如計(jì)算機(jī)硬件、軟件以及網(wǎng)絡(luò)系統(tǒng)。(3) 人的因素,如系統(tǒng)人員和用戶。數(shù)據(jù)資源管理生命周期的各個(gè)過(guò)程(1) 數(shù)據(jù)獲?。捍_保能夠收集到必要的原始數(shù)據(jù)。(銷售小票、員工工資單)(2) 數(shù)據(jù)加工:將原始數(shù)據(jù)加工成為有用的信息。(統(tǒng)計(jì)報(bào)表、工作總結(jié))(3) 數(shù)據(jù)利用:確保能夠在適當(dāng)?shù)臅r(shí)間、以適當(dāng)?shù)男问降玫奖匾臄?shù)據(jù)和信息;從數(shù)據(jù)中發(fā)現(xiàn) 決策所需要的知識(shí)。(發(fā)展戰(zhàn)略、銷售計(jì)劃)(4) 數(shù)據(jù)報(bào)廢:在適當(dāng)?shù)臅r(shí)候廢棄過(guò)時(shí)的數(shù)據(jù), 并代之以及時(shí)、準(zhǔn)確的數(shù)據(jù)。數(shù)據(jù)資源管理的技術(shù)框架(1) 面向業(yè)務(wù)操作的數(shù)據(jù)資源管理:包括數(shù)據(jù)庫(kù)、事務(wù)處理系統(tǒng)(TPS)以及管理信息系統(tǒng)(MIS)。(2) 面向決策分析的數(shù)據(jù)資

3、源管理:包括數(shù)據(jù)倉(cāng)庫(kù)以及與之緊密相關(guān)決策支持系統(tǒng)(DSS)。(3) 知識(shí)資源的管理和利用:包括知識(shí)庫(kù)以及基于知識(shí)的系統(tǒng)。數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵特征數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征一面向主題 面向主題(subject-oriented),數(shù)據(jù)倉(cāng)庫(kù)顯著區(qū)別于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的一個(gè)特征數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征二數(shù)據(jù)集成數(shù)據(jù)倉(cāng)庫(kù)的集成性(integrated):是指根據(jù)決策分析的要求, 將分散于各處的源數(shù)據(jù)進(jìn)行抽取、篩選、清理、綜合等工作, 使數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)具有集成性。數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征三隨時(shí)間而變化 數(shù)據(jù)倉(cāng)庫(kù)是從歷史的角度提供信息數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征四數(shù)據(jù)不易丟失商務(wù)智能的四大部分包含:商務(wù)分析、OLAP、數(shù)據(jù)挖掘和

4、數(shù)據(jù)倉(cāng)庫(kù)四大部分多維數(shù)據(jù)模型的存儲(chǔ)形式在多維數(shù)據(jù)模型中,數(shù)據(jù)以數(shù)據(jù)立方體(data cube) 的形式存在數(shù)據(jù)立方體允許以多維數(shù)據(jù)建模和觀察。它由維和事實(shí)定義維是關(guān)于一個(gè)組織想要記錄的視角或觀點(diǎn)。每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱為維表。多維數(shù)據(jù)模型圍繞中心主題組織,該主題用事實(shí)表表示事實(shí)表包括事實(shí)的名稱或度量以及每個(gè)相關(guān)維表的關(guān)鍵字事實(shí)指的是一些數(shù)字度量數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的關(guān)鍵步驟數(shù)據(jù)源數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)源是指存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)源,數(shù)據(jù)倉(cāng)庫(kù)在使用過(guò)程中所涉及的數(shù)據(jù) 來(lái)源,主要包括:業(yè)務(wù)數(shù)據(jù)歷史數(shù)據(jù)辦公數(shù)據(jù) Web數(shù)據(jù)外部數(shù)據(jù) 數(shù)據(jù)源元數(shù)據(jù)2、數(shù)據(jù)準(zhǔn)備數(shù)據(jù)的標(biāo)準(zhǔn)化處理數(shù)據(jù)的過(guò)濾與匹配數(shù)據(jù)的凈化處理標(biāo)明

5、數(shù)據(jù)的時(shí)間戳確認(rèn)數(shù)據(jù)質(zhì)量元數(shù)據(jù)抽取和創(chuàng)建3、數(shù)據(jù)重整數(shù)據(jù)的集成與分解數(shù)據(jù)的概括與聚集數(shù)據(jù)的預(yù)算與推導(dǎo)數(shù)據(jù)的翻譯與格式化數(shù)據(jù)的轉(zhuǎn)換與映射4、數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的建模數(shù)據(jù)的概括數(shù)據(jù)的聚集數(shù)據(jù)的調(diào)整與確認(rèn)建立結(jié)構(gòu)化查詢5、建立數(shù)據(jù)集市知識(shí)挖據(jù)庫(kù)6、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存取與使用數(shù)據(jù)倉(cāng)庫(kù)的概念模型數(shù)據(jù)倉(cāng)庫(kù)概念模型的設(shè)計(jì)是給出一個(gè)數(shù)據(jù)倉(cāng)庫(kù)的粗略 藍(lán)本,以此為設(shè)計(jì)圖紙來(lái)確認(rèn)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)者是否 已經(jīng)正確地了解數(shù)據(jù)倉(cāng)庫(kù)最終用戶的決策信息需求。 在概念模型的設(shè)計(jì)中,必須將注意力集中在對(duì)商務(wù)的 理解上,要保證管理者的所有決策信息需要都被歸納 進(jìn)概念模型。在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的概念模型時(shí),可以采用在業(yè)務(wù)數(shù)據(jù) 處理系統(tǒng)中經(jīng)常

6、應(yīng)用的實(shí)體聯(lián)系模型:E-R圖數(shù)據(jù)倉(cāng)庫(kù)的粒度模型在蔡博 課件3的 第97-103頁(yè)元數(shù)據(jù)元數(shù)據(jù)描述了數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)和環(huán)境, 即關(guān)于數(shù)據(jù)的數(shù)據(jù) (data about data)。它描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、碼、索引等項(xiàng)內(nèi)容。傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)字典是一種元數(shù)據(jù), 但在數(shù)據(jù)倉(cāng)庫(kù)中, 元數(shù)據(jù)的內(nèi)容比數(shù)據(jù)庫(kù)中的數(shù)據(jù)字典更豐富、更復(fù)雜OLAP 與 OLTP 的對(duì)比OLAP 是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的, 其最終數(shù)據(jù)來(lái)源與OLTP 一樣均來(lái)自底層的數(shù)據(jù)庫(kù)系統(tǒng), 但由于二者面對(duì)的用戶不同, OLTP 面對(duì)的是操作人員和低層管理人員, OLAP 面對(duì)的是決策人員和高層管理人員, 因而數(shù)據(jù)的特點(diǎn)與處理也明顯不同。用戶和系統(tǒng)

7、的面向性面 向顧客(事務(wù))VS. 面向市場(chǎng)(分析)數(shù)據(jù)內(nèi)容 當(dāng)前的、詳細(xì)的數(shù)據(jù)VS. 歷史的、匯總的數(shù)據(jù)數(shù)據(jù)庫(kù)設(shè)計(jì) 實(shí)體聯(lián)系模型(ER)和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì)VS. 星型/雪花模型和面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì)數(shù)據(jù)視圖 當(dāng)前的、企業(yè)內(nèi)部的數(shù)據(jù)VS. 經(jīng)過(guò)演化的、集成的數(shù)據(jù)訪問(wèn)模式 事務(wù)操作VS. 只讀查詢(但很多是復(fù)雜的查詢)任務(wù)單位 簡(jiǎn)短的事務(wù)VS. 復(fù)雜的查詢?cè)L問(wèn)數(shù)據(jù)量 數(shù)十個(gè)VS. 數(shù)百萬(wàn)個(gè)用戶數(shù) 數(shù)千個(gè)VS. 數(shù)百個(gè)數(shù)據(jù)庫(kù)規(guī)模 100M-數(shù)GB VS. 100GB-數(shù)TB設(shè)計(jì)優(yōu)先性 高性能、高可用性VS. 高靈活性、端點(diǎn)用戶自治度量 事務(wù)吞吐量VS. 查詢吞吐量、響應(yīng)時(shí)間OLTPOLAP數(shù)據(jù)庫(kù)

8、數(shù)據(jù)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)經(jīng)常營(yíng)更新不更新, 但周期性刷新一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大對(duì)響應(yīng)時(shí)間要求高響應(yīng)時(shí)間合理用戶數(shù)量大用戶數(shù)據(jù)相對(duì)較少面向操作人員,支持日常操作面向決策人員,支持管理需要面向應(yīng)用, 事務(wù)驅(qū)動(dòng)面向分析, 分析驅(qū)動(dòng)多維分析的基本分析動(dòng)作切片(Slice) 、切塊(Dice) 、旋轉(zhuǎn)(Pivoting)1、切片(Slice)定義1 在多維數(shù)組的某一維上選定一組成員的動(dòng)作稱為切片,即在多維數(shù)組 (維1, 維2, , 維n, 變量) 中選一維,即維i,并取其一維成員(設(shè)為“維成員Vi” ),所得的多維數(shù)組的子集(維1, , 維成員Vi,

9、, 維n, 變量) 稱為在維i 上的一個(gè)切片。定義2 選定多維數(shù)組的一個(gè)二維子集的動(dòng)作叫作切片,即選定多維數(shù)組 (維1, 維2, , 維n, 變量)中的兩個(gè)維:維 i 和維j, 在這兩個(gè)維上取某一區(qū)間或任意維成員,而將其余的維都取定一個(gè)維成員,則得到的就是多維數(shù)組在維i 和維j 上一個(gè)二維子集,稱這個(gè)二維子集為多維數(shù)組在維i 和維j 上的一個(gè)切片,表示為:(維i,維j,變量)。2、切塊(Dice)定義1 在多維數(shù)組的某一維上選定某一區(qū)間的維成員的動(dòng)作稱為切塊,即限制多維數(shù)組的某一維的取值區(qū)間。顯然,當(dāng)這一區(qū)間只取一個(gè)維成員時(shí),即得到一個(gè)切片 (切片的定義1)。定義2 選定多維數(shù)組的一個(gè)三維子集

10、的動(dòng)作稱為切塊。即選定多維數(shù)組(維1, 維2, , 維n, 變量)中的三個(gè)維:維 i、維j 和維r,在這三個(gè)維上取某一區(qū)間或任意的維成員, 而將其余的維都取定一個(gè)維成員, 則得到的就是多維數(shù)組在維 i、維j 和維r上一個(gè)三維子集, 稱該三維子集為多維數(shù)組在維 i、維j 和維r上的一個(gè)切塊, 表示為:(維i,維j, 維r, 變量)。3、旋轉(zhuǎn)(Pivoting)旋轉(zhuǎn)即是改變一個(gè)報(bào)告或頁(yè)面顯示的維方向。4、下鉆/上探下鉆(drill down):從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。例如,用戶分析 “各地區(qū)、城市的銷售情況”時(shí),可以對(duì)某一個(gè)城市、某一年度的銷售額,可以繼續(xù)細(xì)分為 各個(gè)季度的銷售

11、額。通過(guò)下鉆的功能,使用 戶對(duì)數(shù)據(jù)能更深入了解,更容易發(fā)現(xiàn)問(wèn)題, 做出正確的決策上探(roll up):是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少 維數(shù);是指自動(dòng)生成匯總行的分析方法。通 過(guò)向?qū)У姆绞?,用戶可以定義分析因素的匯 總行,例如對(duì)于各地區(qū)各年度的銷售情況, 可以生成地區(qū)與年度的合計(jì)行,也可以生成 地區(qū)或者年度的合計(jì)行。Codd 關(guān)于 OLAP 產(chǎn)品的十二條評(píng)價(jià)準(zhǔn)則(少了第十二條)準(zhǔn)則1 OLAP 模型必須提供多維概念視圖準(zhǔn)則2 透明性準(zhǔn)則準(zhǔn)則3 存取能力準(zhǔn)則準(zhǔn)則4 穩(wěn)定的報(bào)表性能準(zhǔn)則5 客戶客/服務(wù)器體系結(jié)構(gòu)準(zhǔn)則6 維的等同性準(zhǔn)則準(zhǔn)則7 動(dòng)態(tài)的稀疏矩陣處理準(zhǔn)則準(zhǔn)則

12、8 多用戶支持能力準(zhǔn)則準(zhǔn)則9 非受限的跨維操作準(zhǔn)則10 直觀的數(shù)據(jù)操縱準(zhǔn)則11 靈活的報(bào)表生成知識(shí)發(fā)現(xiàn)KDD的過(guò)程數(shù)據(jù)挖掘工具與傳統(tǒng)數(shù)據(jù)分析工具的比較數(shù)據(jù)挖掘技術(shù)的分類(1)、根據(jù)數(shù)據(jù)挖掘任務(wù),可以分為關(guān)聯(lián)規(guī)則挖掘、數(shù)據(jù)分類規(guī)則挖掘、聚類規(guī)則挖掘、依賴性 分析和依賴性模型發(fā)現(xiàn),以及概念描述、偏差分 析、趨勢(shì)分析和模式分析等;(2)、根據(jù)所挖掘的數(shù)據(jù)庫(kù)對(duì)象來(lái)看,可以分為關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο笮蛿?shù)據(jù)庫(kù)、空間型數(shù)據(jù) 庫(kù)、時(shí)間型數(shù)據(jù)庫(kù)、多媒體型數(shù)據(jù)庫(kù)和異構(gòu)型數(shù) 據(jù)庫(kù)等;(3)、按挖掘方法分類:包括統(tǒng)計(jì)方法,機(jī)器學(xué)習(xí)方法,神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法(4)其它分法:經(jīng)常將數(shù)據(jù)挖掘技術(shù)分為統(tǒng)計(jì)分析類、知識(shí)發(fā)現(xiàn)

13、 類和其他類型的數(shù)據(jù)挖掘技術(shù)三大類。有時(shí)也將數(shù)據(jù)挖掘技術(shù)分為預(yù)測(cè)模式和知識(shí)性模 式的驗(yàn)證驅(qū)動(dòng)(Verification-driven)和發(fā)現(xiàn)驅(qū)動(dòng)(Discovery-driven)兩大類。數(shù)據(jù)挖掘系統(tǒng)的組成數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其它信息庫(kù):它表示數(shù)據(jù)挖掘?qū)ο笫怯梢粋€(gè)(或組)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)表單或其它信息數(shù)據(jù)庫(kù)組成。通常需 要使用數(shù)據(jù)清洗和數(shù)據(jù)集成操作,對(duì)這些數(shù)據(jù)對(duì)象進(jìn)行初步的處理;數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器:這類服務(wù)器負(fù)責(zé)根據(jù)用戶的數(shù)據(jù)挖掘請(qǐng)求,讀取相關(guān)的數(shù)據(jù);知識(shí)庫(kù):此處存放數(shù)據(jù)挖掘所需要的領(lǐng)域知識(shí),這些知識(shí)將用于指導(dǎo)數(shù)據(jù)挖掘的搜索過(guò)程,或者用于幫助對(duì)挖掘結(jié)果的評(píng)估。挖掘算法中所使 用的用戶定

14、義的閾值就是最簡(jiǎn)單的領(lǐng)域知識(shí);數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘系統(tǒng)的最基本部件,它通常包含一組挖掘功能模塊,以便完成定性歸納、關(guān)聯(lián)分析、分類歸納、進(jìn)化計(jì)算和偏 差分析等挖掘功能模式評(píng)估模塊:該模塊可根據(jù)趣味標(biāo)準(zhǔn)(interesting measure ),協(xié)助數(shù)據(jù)挖掘模塊聚焦挖掘更有意義的模式知識(shí)。當(dāng)然該模塊能否與數(shù)據(jù)挖掘模塊有機(jī)結(jié)合,與數(shù)據(jù)挖掘 模塊所使用的具體挖掘算法有關(guān)。顯然若數(shù)據(jù)挖掘算法能夠 與知識(shí)評(píng)估方法有機(jī)結(jié)合將有助提高其數(shù)據(jù)挖掘的效率;可視化用戶界面:該模塊幫助用戶與數(shù)據(jù)挖掘系統(tǒng)本身進(jìn)行溝通交流。一方面用戶通過(guò)該模塊將自己的挖掘要求或任 務(wù)提交給挖掘系統(tǒng),以及提供挖掘搜索所需要的相關(guān)知

15、識(shí); 另一方面系統(tǒng)通過(guò)該模塊向用戶展示或解釋數(shù)據(jù)挖掘的結(jié)果 或中間結(jié)果;此外該模塊也可以幫助用戶瀏覽數(shù)據(jù)對(duì)象內(nèi)容 與數(shù)據(jù)定義模式、評(píng)估所挖掘出的模式知識(shí),以及以多種形 式展示挖掘出的模式知識(shí)。數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘是一個(gè)反復(fù)迭代的人機(jī)交互處理過(guò)程。 該過(guò)程需要經(jīng)歷多個(gè)步驟,并且很多決策需要由 用戶提供。從宏觀上看,數(shù)據(jù)挖掘過(guò)程主要由三個(gè)部分組 成,即數(shù)據(jù)整理、數(shù)據(jù)挖掘和結(jié)果的解釋評(píng)估。(1)定義商業(yè)問(wèn)題(2)建立數(shù)據(jù)挖掘庫(kù)(3)分析數(shù)據(jù)(4)準(zhǔn)備數(shù)據(jù)(5)建立模型(6)評(píng)價(jià)和解釋(7)實(shí)施數(shù)據(jù)預(yù)處理的主要方法數(shù)據(jù)清洗(數(shù)據(jù)清理) 填寫空缺的值,平滑噪聲數(shù)據(jù),識(shí)別、刪除孤立點(diǎn),解決 不一致性數(shù)據(jù)

16、集成 集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或文件數(shù)據(jù)變換 規(guī)范化和聚集數(shù)據(jù)歸約(消減) 得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相 近的結(jié)果包括:數(shù)據(jù)聚合、消減維數(shù)、壓縮數(shù)據(jù)、數(shù)據(jù)塊消減等。數(shù)據(jù)離散化 數(shù)據(jù)歸約的一部分,通過(guò)概念分層和數(shù)據(jù)的離散化來(lái)規(guī)約 數(shù)據(jù),對(duì)數(shù)字型數(shù)據(jù)特別重要Clementine中常用的建模節(jié)點(diǎn)神經(jīng)網(wǎng)絡(luò)、C5.0、C&RT、QUEST、CHAID、Kohonen、KMeans、TwoStep、Apriori、GRI、Carma、序列、主成份/因子分析、特征選擇、回歸、Logistic算法:關(guān)聯(lián)規(guī)則(Apriori算法)Apriori算法是最有影響的關(guān)聯(lián)規(guī)則挖掘算法之一。它的中

17、心思想是首先通過(guò)對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行掃描,找出支持 度不小于最小支持度的所有項(xiàng)目,即頻繁1 - 項(xiàng)集. 接下來(lái)的工作是循環(huán)的,每次循環(huán)分2步進(jìn)行: 1)連接,對(duì)頻繁k - 項(xiàng)集中的項(xiàng)進(jìn)行連接. 2)減枝,在減枝這一步主要根據(jù)一個(gè)頻繁項(xiàng)目集的任何一個(gè)子集都應(yīng)該是頻繁的這一思想對(duì)連接后的項(xiàng)目集進(jìn) 行篩選,刪除那些子集不是頻繁集的項(xiàng)目集,得出候選( k + 1) -項(xiàng)集.即對(duì)數(shù)據(jù)庫(kù)進(jìn)行掃描, 計(jì)算候選項(xiàng)的支持度,從候選集中刪除支持度小于最小支持度的候選項(xiàng), 進(jìn)而得出頻繁( k + 1) -項(xiàng)集. 循環(huán)的終止條件是頻繁k - 項(xiàng)集為空, 也就是說(shuō)再也找不出相關(guān)聯(lián)的項(xiàng)目了.連接: 用Lk-1 自連接得到Ck

18、 修剪: 一個(gè)k-項(xiàng)集,如果他的一個(gè)k-1項(xiàng)集(他的子集)不是頻繁的,那他本身也不可能是頻繁的。偽代碼:Ck : Candidate itemset of size kLk : frequent itemset of size kL1 = frequent items;for (k = 1; Lk !=; k+) do beginCk+1 = candidates generated from Lk ;for eachtransaction t in database doincrement the count of all candidates in Ck+1that are contained in tLk+1 = candidates in Ck+1 with min_supportendreturn k Lk ;Apriori算法由連接和剪枝兩個(gè)步驟組成。連接:為了找Lk,通過(guò)Lk-1與自己連接產(chǎn)生候選k-項(xiàng)集的集合,該候選k項(xiàng)集記為Ck。Lk-1中的兩個(gè)元素L1和L2可以執(zhí)行連接操作的條件是Ck是Lk的超集,即它的成員可能不是頻繁的,但是所有頻繁的k-項(xiàng)集都在Ck中(為什么?)。因此可以通過(guò)掃描數(shù)據(jù)庫(kù),通過(guò)計(jì)算每個(gè)k-項(xiàng)集的支持度來(lái)得到Lk 。為了減少計(jì)算量,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論