數(shù)據(jù)挖掘課后習(xí)題_第1頁
數(shù)據(jù)挖掘課后習(xí)題_第2頁
數(shù)據(jù)挖掘課后習(xí)題_第3頁
數(shù)據(jù)挖掘課后習(xí)題_第4頁
數(shù)據(jù)挖掘課后習(xí)題_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、精品文檔(實(shí)驗(yàn)項(xiàng)目)DBLP數(shù)據(jù)集包括100萬篇發(fā)表在計(jì)算機(jī)科學(xué)會(huì)議和雜志上的論文項(xiàng)。在這些項(xiàng)中,很多作者都有合著關(guān)系。(a)提出一種方法,JS掘密切相關(guān)的(即,經(jīng)常一起合寫文章)合著者關(guān)系。解決問題的大致過程:1. DBLP數(shù)據(jù)集是一個(gè)XML文件,先對(duì)XML文件解析,得到一個(gè)超過1G的TXT 文件,處理文件數(shù)據(jù)格式,并截取前 20000行數(shù)據(jù),格式如下圖:fLllcr,%CiatkEr 就*上知 LdnerLdzatidiSj Slde PettovSlci,力nw弓.osspt 白.Kcng, f.yli 墳眼3 Jur;也 Ksj.erid*oii List, test 笈Hi羽uiir

2、 1忙山 Korea,也riig 儂二口打:占£口上口上占?D-lLlhg 比已也 ChfiE-Tje Tsair Yaz-Nn Chen, Ku-,Chlifl <3ituF tJlu二-Llarg L. 士人叫-日的 Tsa Kjau-R-i WaH Yli-比匕叫 Ckou, C-utc-Yi Li, ifei- UfiKaDdru Niculesai-Hiulr CUudLi Perlidij Ctzegori Swluscz* Vllus dindbnuir Ym Liif Pn 皿yille. Doog Ku)g,Jiig XiH> Jluyin .iiiji

3、ji iie, Viit iria ?.kjvar地占;比 州 _ Jtcpli*;1i;ang Liatg, Eric Sie41f Valery k. retnisiia, Jiddhai:k Pal, :a:b SpoelstraMldUBl趾UHf TtfyzlierTsduelle Guyuru Vint-.nt Launi Mm Ml電 Guinn DftcrJ David wgelJiitrm 必:虹匚士roil,融:式士叫 皿* Cirss udLifg一力把其叫汽,品加上明口白二irn 匕上船1% d;;二口虹. z配.空emd ;邇iLciael .'atrir,

4、Ar.irtas TscAtr阿belt Busa-RiE% 3】虹!i 奮g】Sung-Yi Lfit Eai-tki 二3立 E匕叫-T非 Chen, iMung-肥i±n 二h:明,"JiLSi-Sung Rrngf Cht Jiii 也iwit, Yi-Kii=ng Kt, Tsung-Ting R5 Hng. rJkladimr Hi如lin, Seofirej J- McLdcfclJti歐加 獨(dú)配小Tianqi 曰能,物tUji甘七 Li明tng fang猶口1,g明 丸2.使用FP-Tree算法,設(shè)置支持度為3,得到的滿足條件的頻繁項(xiàng)集如下圖:Hans-Pe

5、ter Kriegel null null Erich Schubert 3CTalal Mahmud Jeffrey Nichols i7ohn 0T Donovan 3Vai Tannen Todd J. Grumu3Wei Han Ling Liu Wei Ting 3Guido Hoerkatte Thortis Neumann COOL 4Marees也:艮二茅Gg莽Wer Fan Haixun Wang 3 _ ' a.aIves Plvel Calado Yuxin Chen 3Qcnzalc Navarro Antonio Faiga3Evunarift Terzi K

6、un Liu3Ran Kohavi Dan Sorauerfield3Jiliang Tang Xia Hu 3Confl Yu Siherr. Aner-Yahia javtarr Das Senjuti Basu Roy3David A. Ge口smma門 Ophir Friad&r Abdur Chowdhuz/ Staves M* BeitzelQifan Wang Luo Si Zhiwei Zhang3Mana Lui3a Spxno K Seljuk Candan Yan Qi 00023Xueqi Cheng Bin Wanj 3Ophir Frieder null &

7、#163;ric C, Jensen 7null Alan J. Demers 5Minlie Huang Weichang Li3Wei Wang 0010 Jlong Yang3Gusfei Jiang Kenj i Yosbihira 3Giuseppe Rizzo 0002 Ja茅工ui呂 Redondo- Garcftla3Wenfei Fan Shuai Ma 3kick N, Choudhary ¥i Cheng Dtniel Hanbo tfen-Syan Li iSang-Pi二 Ms二ung Oliver PdWynne Hsu Bing Liu 0301 Vis

8、ing Ma 6 Jian-Tao Sun Dou She Matthew O. Ward Di Yancf33_HacigBr.'.JSsMatthew o. Hird D二 YangYun Chi Shenghuo Zhu HakanHiroyuJcl KitQawa Toshiynkri Magasa 3Fei Wang Wenwu Zhu 00013OjLmg He Xiaoming Li Hongfei Yaji3Hozigyv好 Sha G。工 Hon 5gTEnine Yilnei Evangelc3 Kanoulas63. Sudarahan 0001 Arvind J

9、iulaeri 3Jfenfei Fan Floris Geeits5Cavrlee Michelle ¥ Zhou 3 Cclm O'Ricrdan Gabriella Pasi A Ni Nang COO 9 Jideng dien 3Caetano Tzaina Jr * Rofcson Le nard.0 Ferreira CcrdeiroEclle L, Taeng Xiaodan 5ong Ming-Iiag 5on 3 H - V. Jgadisti Dive ah Srivastava La k:s V. S. LaEmurananK5i-We Sorrier

10、 Manfred HauswiTth. Reman SchiLidu 3Ning Liu null Bstitu Zhang 3Maicc Czristti Weigua Fan Ed'Waid A. Pcx. Yu_xin. CThen 3Enhong Chen Huanhxian Cao5Chri3tor?icr R茅 Ce Zhan?3Shinichi Hon5hira Takeshi TofcuyaicaqJun Yan Lei Ji7David Maier David Scott Warren42cra* 0E土皂壯白中2。 Vladari Radflsavlj*vie 3S

11、fvfel Tec Xiaokui Kia口6說明:以上結(jié)果只是一部分,由于數(shù)據(jù)集很龐大,限于篇幅,不便全部展示(b)根據(jù)挖掘結(jié)果和本章討論的模式評(píng)估度量,討論哪種度量可能比其他度量更令人信服地揭示緊密合作模式關(guān)于作者A(Dimitris Papadias)和作者B(Yufei Tao)的2>2的相依表(顯示期望 值)Yufei Tao非(Yufei Tao )和DimitrisPapadias26(0.0045)60(86)86非(DimitrisPapadias)59(84.9955)1609994(1609968)1610053和85161005416101391 .使用提升度的相

12、關(guān)分析P(A) = 86/1610139 = 5.28e -5P(B) = 85/1610139 = 5.28e -5P(A,B) = 26/1610139 = 1.61e -5提 升度為 P(A,B)/(P(A)>P(B)=1.61e -5/(5.28e-5 >5.28e-5)=57752 .使用I進(jìn)行相關(guān)分析X = (26-0.0045 ) 2/0.0045 + (60-86) 2/86 + (59-84.9955 ) 2/84.9955+ (1609994-1609968) 2/1609968 = 1502383 .全置信度P(A|B) = 26/85 = 0.306P(B|

13、A) = 26/86 = 0.302all_conf(A,B) = minP(A|B),P(B|A) = 0.3024 .最大置信度max_conf(A,B) = maxP(A|B),P(B|A) = 0.3065 . KulczynskiKulc(A,B) = 1/2 *(P(A|B)+P(B|A) = 0.3046 .余弦Cosine(A,B) =P(A|B) >P(B|A) = 0.304比較6種模式評(píng)估度量:上述6種模式評(píng)估中,提升度和 。的計(jì)算受零事務(wù)的影響很大,在上面的 例子中,AB表示零事務(wù)的個(gè)數(shù)。一般,零事務(wù)的個(gè)數(shù)可能大大超過個(gè)體購買的 個(gè)數(shù),因?yàn)椋珹和B發(fā)表過的論文相對(duì)

14、于整個(gè)數(shù)據(jù)庫中的論文總數(shù),是很小的一 部分。其他四個(gè)度量很好地消除了 AB的所h由于上述例子中P(A|B)和P(B|A) 近似相等,導(dǎo)致四種評(píng)估度量(全置信度,最大置信度,Kulczynski ,余弦)結(jié)果 3歡在下載精品文檔也近似相等,但如果P(A|B)和P(B|A)相差很大,例如P(A|B)>>P(B|A),則根 據(jù)全置信度的結(jié)果,得出的結(jié)論可能是負(fù)相關(guān),根據(jù)最大置信度的結(jié)果,得出的 結(jié)論卻是正相關(guān),而根據(jù) Kulczynski和余弦的結(jié)果,則兩者被視為中性。(c)基于以上研究,開發(fā)一種方法,它能粗略地預(yù)估導(dǎo)師和學(xué)生的關(guān)系,以及這種指導(dǎo)的周期1 .根據(jù)經(jīng)驗(yàn),我們知道,學(xué)生發(fā)表的論文上往往會(huì)署導(dǎo)師的名字,而導(dǎo)師的論 文上卻不一定有學(xué)生的署名,或者說導(dǎo)師發(fā)表過的論文要遠(yuǎn)比學(xué)生多,我們可以設(shè)置兩個(gè)參數(shù)30和5,例如,作者A和B滿足頻繁項(xiàng)集的要求,并且 A發(fā)表過 的論文不小于30篇,B發(fā)表過的論文不超過5篇,則我們可以認(rèn)定A為導(dǎo)師,B 為學(xué)生。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論