




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、關(guān)系分析:高級概念,第7章關(guān)系分析:高級概念,關(guān)系分析處理事務(wù)數(shù)據(jù),rules discovered : diaper-beer,分類屬性處理,有關(guān)internet用戶特征的有趣信息:在線購物=隱私=是,對于很多應(yīng)用程序,對稱二進制屬性表7-1中顯示的互聯(lián)網(wǎng)調(diào)查數(shù)據(jù)包括性別、家庭計算機、網(wǎng)絡(luò)聊天、網(wǎng)上購物和隱私等對稱二進制屬性。還包括文化程度和公稱屬性,例如注釋。分類屬性處理,公稱屬性和對稱二進制屬性必須轉(zhuǎn)換為“項目”,以便使用現(xiàn)有關(guān)聯(lián)規(guī)則挖掘算法提取這些模式。這種類型的變更可以通過為每個不同的屬性-值對創(chuàng)建新條目來實現(xiàn)。例如,表示屬性文化水平可以替換為文化水平=大學文化水平=研究生文化水平=
2、高中相似,對稱二進制屬性性別可以替換為一對二進制項目(性別=男性,性別=女性)。處理分類屬性和在二元化數(shù)據(jù)中使用相關(guān)性分析時,請考慮以下問題:(1)某些屬性值可能不會經(jīng)常使用,因為它們會成為頻繁模式的一部分。范例:注記名稱。解決方法:將相關(guān)屬性值分組以形成幾個類別。例如,每個州的名稱可以由相應(yīng)的地理區(qū)域代替。例如:分別替換為中西部、太平洋西北部、西南部和東部海岸。處理分類屬性和使用輔助數(shù)據(jù)的相關(guān)分析時,請考慮以下問題:(2)某些屬性值的頻率可能遠高于其他屬性。例如,假設(shè)85%的被調(diào)查者擁有家庭計算機。如果為數(shù)據(jù)中經(jīng)常出現(xiàn)的每個屬性值創(chuàng)建兩階段條目,則可能會產(chǎn)生很多重復模式。家庭計算機=是,在線
3、購物=注重隱私=是解決方法:使用處理具有廣泛支持功能的極惡數(shù)據(jù)集的技術(shù)。處理分類屬性和使用輔助數(shù)據(jù)的相關(guān)分析時,請考慮以下問題:(3)計算時間可能會增加,尤其是經(jīng)常生成新生成的條目時。因為將生成更多的候選集。解決方法:不要創(chuàng)建包含具有相同屬性的多個項目的候選集。例如,您無需創(chuàng)建候選集(如州=X,州=Y),因為此集支持0度。連續(xù)屬性處理,internet調(diào)查數(shù)據(jù)還可以包含連續(xù)屬性,如表7-3所示。連續(xù)屬性挖掘?qū)晔杖氤^120k的用戶屬于45-60年齡組”或“擁有3個以上電子郵件帳戶,每周使用互聯(lián)網(wǎng)超過15個小時的用戶一般關(guān)注隱私”的:連續(xù)屬性的關(guān)聯(lián)規(guī)則稱為數(shù)量關(guān)聯(lián)規(guī)則(quantiativ
4、e association rule)。連續(xù)數(shù)據(jù)的相關(guān)分析方法:基于離散化的方法非基于統(tǒng)計的方法,基于離散化的方法,離散化是處理連續(xù)屬性最常用的方法。此方法將連續(xù)屬性的相鄰值分組,形成有限區(qū)間。例如:年齡屬性可以分為12、16、20、20、24)、56、60等部分。離散化技術(shù):等寬、等頻率、群集表7-4顯示了離散化和二元化后的互聯(lián)網(wǎng)調(diào)查數(shù)據(jù)。屬性分隔的核心是分割每個屬性的宗地數(shù)目和寬度。但是很難確定正確的間隔。支持閾值=5%,置信度閾值=65%。在表中,您可以介紹年齡和在線聊天的隱式強有力的規(guī)則。16,24)聯(lián)機聊天=是(s=8.8%,c=81.5%) 44,60)聯(lián)機聊天=否(s=16.8%
5、,c=70%)間隔寬度對關(guān)聯(lián)分析結(jié)果的影響。(1)間隔太大,可能會因可靠性不足而失去一些規(guī)則。例如,當區(qū)間寬度為24歲時,上述兩條規(guī)則為16,36。在線聊天=是(s=30%,57.7%) 36,60)在線聊天=否(s=28%,58.3%),區(qū)間寬度對關(guān)聯(lián)分析結(jié)果的影響(2)間隔太窄,可能會因缺乏支持而失去一些規(guī)則。(。例如,區(qū)間寬度為4歲時,上述兩個規(guī)則為16,20。線上交談=是(s=4.4%,84.6%)線上交談=是(s=4.4%,78.6%) (3)區(qū)段寬度為8歲時,上述兩條規(guī)則為44,52)線上交談=否例如,在表7-6所示的文本文檔中查找單詞的關(guān)聯(lián)。在文本挖掘中,分析人員對搜索詞之間的關(guān)
6、聯(lián)性(如數(shù)據(jù)和挖掘)更感興趣。不是單詞頻率間隔(例如數(shù)據(jù):1,4,挖掘:2,3)之間的關(guān)聯(lián)。一種方法是將數(shù)據(jù)轉(zhuǎn)換為0/1矩陣。其中,如果規(guī)格化字數(shù)超過了閾值t,則值為1,否則為0。該方法的缺點是很難確定閾值。另一種方法是使用min-apriori方法。S (word 1,word 2)=min (0.3,0.6) min (0.1,0.2) min (0.4,0.2) min (0.2,0)=隨著包含單詞的文檔數(shù)量的增加,單調(diào)地增加。處理概念分層,即在一個特定域中定義的各種實體或概念的多層組織。概念分層可以用直接非循環(huán)圖表示。概念分層的主要優(yōu)點(1)對AC適配器等分層子項的支持可能不足,但作為
7、概念分層的父節(jié)點(例如便攜式附件),支持程度較高。(2)在較低級別找到的規(guī)則往往過于專門化,可能不如較高級別的規(guī)則有趣。(例如,脫脂吳優(yōu)普通面包、脫脂吳優(yōu)白面包等太特別了),實現(xiàn)概念分層的方法每個事務(wù)t都被它的擴展事務(wù)t取代。其中,t包含t的所有項目及其祖先。對于交易DVD,普通面包可以使用現(xiàn)有算法(如DVD、普通面包、家用電器、電子產(chǎn)品、面包、食品和擴展數(shù)據(jù)庫的Apriori)在多個概念層中查找規(guī)則。概念分層的主要缺點(1)較高級別的項目比較低級的項目支持度高。(2)概念分層的引入增加了關(guān)聯(lián)分析的計算時間。(3)概念分層的引入可能產(chǎn)生冗余規(guī)則。規(guī)則X Y是重復的,并且具有更通用的規(guī)則X Y,
8、其中X是X的父代成員,Y是Y的父代成員,兩個規(guī)則具有非常相似的置信度。例如,面包吳優(yōu)、白面包脫脂吳優(yōu)、麥片圖案和購物車數(shù)據(jù)通常包含有關(guān)產(chǎn)品購買時間的信息。利用這些信息,可以將顧客一定時間內(nèi)的購物結(jié)合成交易序列。但是,到目前為止所描述的關(guān)聯(lián)模式的概念忽略數(shù)據(jù)的序列信息,僅強調(diào)并發(fā)關(guān)系。序列信息對于確定動態(tài)系統(tǒng)的鄭在玹特性或預(yù)測特定事件未來的發(fā)生可能非常有價值。序列模式、按時間順序?qū)εc對象a相關(guān)的所有事件進行排序時,可以將a的序列、sequence database :通常將序列記錄為元素的已排序列表,以s=記錄。其中每個EJ是一個或多個事件的集合族ej=i1、I2、ik。sequence、e1e
9、2、e1e3、e2、E3 E4、E2、element (transaction)、event(),序列模式搜索,d是否支持包含一個或多個數(shù)據(jù)序列的數(shù)據(jù)集:序列s是包含s的所有數(shù)據(jù)序列所占的百分比。如果序列s的支持大于或等于用戶指定的閾值minsup,則s為序列模式(或頻繁的序列)。7.1序列模式搜索定義:搜索指定序列數(shù)據(jù)庫d和用戶指定的最小支持閾值minsup,序列模式搜索操作是查找支持大于或等于minsup的所有序列。是,minsup=50% examples of frequent subsequence s :s=60% s=60% s=80% s=80% s=80%以下兩個項目之一在項
10、目集中至少出現(xiàn)一次,但由于一個事件可能在序列中出現(xiàn)多次,因此生成了更多候選項:給定兩個要素i1和I2,僅生成一個候選項2-要素集i1和I2,但是您可以生成多個候選項2-系列(例如,)。順序在序列中很重要,但在項目集中不重要。例如,1,2和2,1表示同一組項目,而和徐璐對應(yīng)于不同的序列,因此必須單獨創(chuàng)建。先驗原理建立了序列數(shù)據(jù)。包含特定k系列的所有數(shù)據(jù)系列必須包含該k系列的所有(k-1)系列。序列模式發(fā)現(xiàn)的類Apriori算法,候選生成,一對頻繁(k-1)-序列組合,生成候選k-序列?,F(xiàn)有的Apriori算法僅在當前k-1項相同的情況下合并一對頻繁的k-項集,以避免重復候選項。類似的方法可以用于
11、序列。例子是通過合并獲得的。事件3和事件4屬于第二個序列的其他元素,因此在合并的序列中也屬于其他元素。合并獲得。事件3和事件4屬于第二個序列的相同元素,因此4合并到第一個序列的最后一個元素中。候選修剪候選k序列被修剪(k-1)-至少有一個序列不經(jīng)常使用。例如,假設(shè)候選人4-序列。我們必須經(jīng)常檢查是否是3-序列。因為這些都不頻繁,所以可以刪除候選者。支持度計數(shù)支持度計數(shù)中,算法列出屬于特定數(shù)據(jù)序列的所有候選k序列。計數(shù)允許算法識別頻繁的k序列,丟棄支持數(shù)量低于最小支持閾值minsup的候選。圖7-6,時間限制約束、模式中的事件和元素強制執(zhí)行時間限制約束。例如:學生a:學生b:感興趣的模式意味著注
12、冊數(shù)據(jù)挖掘課程的學生必須首先參加數(shù)據(jù)庫系統(tǒng)和統(tǒng)計科目。兩個學生都不是同時選擇了統(tǒng)計和數(shù)據(jù)庫系統(tǒng),但很明顯這種模式得到了支持。相比之下,10年前修過統(tǒng)計課程的學生不能認為支持這門課程的間隔太長。圖7-7顯示了適用于模式的一些時間限制約束。最大范圍約束、最大范圍約束指定整個序列中允許的事件的最晚時間和最早發(fā)生時間的最大時間差異。下表假定最大時間范圍maxspan=3,并包含指定數(shù)據(jù)序列支持和不支持的序列模式。通常,maxspan越長,在數(shù)據(jù)序列中檢測模式的可能性就越大。但是,如果maxspan很長,捕獲不真實的圖案可能會包含過時的事件。最大跨度約束影響序列模式搜索算法的支持數(shù)量。應(yīng)用最長持續(xù)時間約
13、束后,某些數(shù)據(jù)序列不再支持候選模式。最小和最大時間間隔約束,時間限制約束也可以通過限制序列中兩個連續(xù)元素之間的時間差異來指定。如果最大時差(maxgap)為一周,則元素的事件必須在之前元素的事件發(fā)生后一周內(nèi)出現(xiàn)。如果最小時差(mingap)為0,則元素的事件必須在之前元素的事件發(fā)生后出現(xiàn)。maxgap=3,mingap=1,下表顯示了陣列通過或不通過最大間距和最小間距約束的示例。與最大跨度類似,某些數(shù)據(jù)序列在具有最小間隔和最大間隔約束時不再支持候選模式,因此,這些約束會影響序列模式搜索算法的支持數(shù)量。使用最大間隙約束可能會違反先驗原理。要說明這一點,請考慮圖7-5中的數(shù)據(jù)集。沒有最小或最大間隙
14、約束時,和的支撐度均為60%。但是,如果mingap=0,maxgap=1,則的支持級別下降到40%,的支持級別仍然為60%。這違反先驗原則。例如,minsup=50% examples of frequent subsequence s :s=60% s=60% s=80% s=80% s=80% s(2)s從至少具有兩個事件的任意eiw中刪除一個事件,然后由w獲得。(3)s是t的相鄰子序列,t是w的相鄰子序列。7.3修訂版的先驗原理定義k-序列頻繁,相應(yīng)的相鄰(k-1)-子序列也必須頻繁。在候選修剪階段,不需要檢查所有k序列,因為其中的一些可能違反最大間距約束。例如,如果maxgap=1,
15、則無需檢查候選子序列是否頻繁,因為元素2,3和5之間的時間差異大于一個小時單位。應(yīng)只調(diào)查相鄰的子序列,包括、和。窗口大小約束,最后,元素SJ的事件不必同時出現(xiàn)。在序列模式的任何元素中,都可以定義窗口大小閾值(ws),該閾值指定事件最晚發(fā)生的時間和最早發(fā)生的時間之間的最大允許時間差。如果窗口大小為零,則模式相同元素的所有事件必須同時出現(xiàn)。以下示例使用ws=2、mingap=0、maxgap=3、maxspan=、子圖形模式將關(guān)聯(lián)分析方法應(yīng)用于比項目集和序列復雜得多的圖元。例如,化學化合物、3-D蛋白質(zhì)結(jié)構(gòu)、網(wǎng)絡(luò)拓撲和樹結(jié)構(gòu)的XML文檔??梢杂脠D形表示建模這些圖元。對這種類型數(shù)據(jù)進行數(shù)據(jù)挖掘的任務(wù)是在圖集中發(fā)現(xiàn)一組公共子結(jié)構(gòu)。這種操作稱為頻繁子圖挖掘、圖和子圖,定義了具有7.5支持度的圖的集合族(如圖7-10所示),子圖g的支持程度定義為包含該圖像的所有圖的百分比。7.2考慮了5個圖G1 G5,如圖7-10所示。右上角的圖G1是G1、G3、G4、G5的子圖形,因此s(g1)=4/5=80%。同樣,G2是G1、G2和G3的子項,因此s(g2)=60%。而s(G3)=40%。因為G3是G1和G3的子圖形。頻繁子圖形挖掘,7.6頻繁子圖形挖掘定義給定圖形的集合和支持閾值minsup,頻繁子圖形挖掘
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年P(guān)S黑片項目投資價值分析報告
- 展廳驗收方案(3篇)
- 安全生產(chǎn)管理六要素
- 2025年江蘇省蘇豪控股集團有限公司校園招聘筆試備考試題及答案詳解(必刷)
- 安全生產(chǎn)節(jié)能降耗心得體會
- 水路維護方案模板(3篇)
- 車輛應(yīng)急預(yù)案方案(3篇)
- 公司貨物及運輸工具安全管理制度
- 超級寵物考試題及答案
- 常用體位考試題及答案
- 配電室巡檢培訓
- 輸電線路施工培訓
- 《電子料基礎(chǔ)知識》課件
- 采購合規(guī)培訓
- 手表鑒定培訓課件
- 黨建標準化建設(shè)培訓
- 石油勘探合同三篇
- 中日醫(yī)療日語
- 臨時停車場設(shè)施建設(shè)方案
- AQL抽樣標準培訓教材
- 天津市2023-2024學年七年級上學期期末考試數(shù)學試題(含答案)
評論
0/150
提交評論