




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
經(jīng)典數(shù)據(jù)流聚類算法CluStream概要報(bào)告人:高賀慶時(shí)間:2012-9-23背景隨著計(jì)算機(jī)軟硬件的不斷升級(jí),人們獲取數(shù)據(jù)能力越來(lái)越高。在電信、金融、天氣預(yù)報(bào)、網(wǎng)絡(luò)入侵檢測(cè)、傳感器網(wǎng)絡(luò)等領(lǐng)域出現(xiàn)了一種不同于傳統(tǒng)靜態(tài)數(shù)據(jù)的流數(shù)據(jù)。這種數(shù)據(jù)流有自己的特點(diǎn)。數(shù)據(jù)流特點(diǎn)1、數(shù)據(jù)實(shí)時(shí)達(dá)到2、數(shù)據(jù)到達(dá)次序獨(dú)立,不受系統(tǒng)控制3、數(shù)據(jù)量是巨大的,不能預(yù)知其大小4、單次掃描,數(shù)據(jù)一經(jīng)處理,除非特意保存,否則不能再次被處理數(shù)據(jù)流聚類聚類是數(shù)據(jù)挖掘中一類重要的問(wèn)題,在許多領(lǐng)域有其應(yīng)用之處。聚類定義:給定一個(gè)有許多數(shù)據(jù)元素組成的集合,我們將其分為不同的組(類、簇),使得組內(nèi)的元素盡可能的相似,不同組之間的元素盡可能的不同。由于數(shù)據(jù)流的特點(diǎn),對(duì)它的聚類算法提出了新的要求。數(shù)據(jù)流聚類算法要求1、壓縮的表達(dá)(概要數(shù)據(jù))2、迅速、增量地處理新到達(dá)的數(shù)據(jù)3、快速、清晰地識(shí)別離群點(diǎn)CluStream概要C.C.Aggarwal等人在2003年提出了該著名的經(jīng)典數(shù)據(jù)流聚類框架。它引入了簇和時(shí)間幀結(jié)構(gòu)兩個(gè)主要的概念,將數(shù)據(jù)流聚類過(guò)程分為在線部分(微聚類)和離線部分(宏聚類)。在線部分實(shí)時(shí)處理新到達(dá)的數(shù)據(jù),并周期性的存儲(chǔ)統(tǒng)計(jì)結(jié)果;離線部分就利用這些統(tǒng)計(jì)結(jié)果結(jié)合用戶輸入得到聚類結(jié)果。CluStream的影響CluStream兩階段框架是一個(gè)著名的框架,后續(xù)有許多算法在其基礎(chǔ)上進(jìn)行各方面的改進(jìn)。它的在線部分可以實(shí)時(shí)處理較快速度的流數(shù)據(jù),并得到統(tǒng)計(jì)結(jié)果。離線部分結(jié)合用戶輸入的參數(shù)可以近似得到過(guò)去某些時(shí)候的聚類結(jié)果。CLuStream算法的核心概念微簇(Micro-clusters)時(shí)間衰減結(jié)構(gòu)(PyramidalTimeFrame)數(shù)據(jù)流一種形式化描述數(shù)據(jù)流計(jì)算模型界標(biāo)模型滑動(dòng)窗口模型衰減模型微簇(Micro-clusters)CluStream以微簇的形式維護(hù)關(guān)于數(shù)據(jù)位置的統(tǒng)計(jì)信息。這些微簇被定義成簇特征向量在時(shí)間上的擴(kuò)展。這些微簇額外增加的時(shí)間屬性很自然將其應(yīng)用于解決數(shù)據(jù)流問(wèn)題。在上述數(shù)據(jù)流定義下,微簇是一個(gè)2d+3(d是數(shù)據(jù)維度)的元組時(shí)間幀結(jié)構(gòu)(PyramidalTimeFrame)上述微簇需要在某些時(shí)刻維護(hù)和存儲(chǔ)到磁盤以供離線階段查詢。由于數(shù)據(jù)量巨大,不可能將所有時(shí)刻的微簇信息都存儲(chǔ)到磁盤(這部分信息叫做快照),因此引入時(shí)間幀結(jié)構(gòu)。它將時(shí)間軸劃分成不同粒度的時(shí)刻,結(jié)果是離現(xiàn)在的越近粒度越細(xì),反之越粗。T=55的時(shí)間軸劃分這種時(shí)間幀結(jié)構(gòu)的一些好處。 1.能滿足用戶對(duì)最近數(shù)據(jù)感興趣的需求; 2.運(yùn)行100年的數(shù)據(jù)流僅僅需要存儲(chǔ)大概95個(gè)快照,這能滿足有限內(nèi)存的需求。在線部分(微簇維護(hù))初始化簇
首先在磁盤上存儲(chǔ)最初始的initNumber個(gè)數(shù)據(jù)點(diǎn),然后采用標(biāo)準(zhǔn)的k-means算法形成q個(gè)微簇:M1、M2…Mq。在線處理
對(duì)于以后達(dá)到的每一個(gè)數(shù)據(jù)點(diǎn)Xik,要么被上述的某個(gè)微簇吸收,要么放進(jìn)它自己的簇中。首先計(jì)算Xik與q個(gè)微簇中的每一個(gè)的距離(實(shí)際上是其中心)。將其放到離它最近的那個(gè)簇Mp中。
特殊撐情況1.哥Xi漲k雖頭然離克Mp映最近置,但疤是X俗ik減卻在度Mp腹的邊涉界外脖;2.由于姓數(shù)據(jù)琴流的壩演化朱,X解ik彎可能穿是一談個(gè)新燈簇的司開端閑。處理抄方法為落養(yǎng)在邊辜界外說(shuō)的數(shù)犧據(jù)點(diǎn)桃創(chuàng)建參一個(gè)衛(wèi)帶獨(dú)滲有標(biāo)句志id的新匆簇,慶這需超要減押少一搞個(gè)其厘他已米經(jīng)存江在的煌簇。狀這可順以通速過(guò)刪陰除一蠢個(gè)最廊早的莊簇或久者合諸并兩乳個(gè)最宇早的淹簇來(lái)懲實(shí)現(xiàn)麻。如何飲安全拾刪除逗?估計(jì)趕每一話個(gè)簇威中最柴后m江個(gè)達(dá)受到的徒數(shù)據(jù)芬點(diǎn)的逝平均熔時(shí)間咐戳,破然后黨刪除亂帶有膀最小線時(shí)間峽戳的菊值(保時(shí)間征越早畏值越刃小且笛小于挽用戶刺定義貿(mào)的閾峰值)瓦的那榨個(gè)簇茫。這鋸種方怠法只旦增加應(yīng)了存罷儲(chǔ)每肺個(gè)簇喇中最住后m丘個(gè)點(diǎn)與的數(shù)浙據(jù)的抓信息義(時(shí)歉間戳岔)。何時(shí)背合并刺?有些壺情況超下,為不能陶合并輝任何既兩個(gè)刺微簇鳥。這隊(duì)種情炎況是命發(fā)生桌在當(dāng)蒸所有偶上述抓計(jì)算許的時(shí)返間值袍都大齒于那發(fā)個(gè)閾意值,愉此時(shí)吊需要倉(cāng)合并帳某兩司個(gè)靠李的最析近的留微簇肅。此碑時(shí)用攜它們劍原來(lái)績(jī)的i析d一勵(lì)起標(biāo)詠志這姥個(gè)新坐的微忠簇。同時(shí)監(jiān),需透要存果儲(chǔ)金百字塔檔時(shí)間仍結(jié)構(gòu)襖對(duì)應(yīng)坦時(shí)刻揭的微券簇(襪實(shí)際偽上指悉的是居微簇崗的特際征向態(tài)量值沖)到蓋磁盤零。離線防部分馬(宏矛簇創(chuàng)貪建)用戶吐在該忠部分衰可以毀在不猾同時(shí)斑間幅忠度內(nèi)雄發(fā)現(xiàn)編簇??歼@部粉分所唉用的鎮(zhèn)數(shù)據(jù)唇是在遍線部愁分形月成的塔統(tǒng)計(jì)利信息過(guò),這飛可以傲滿足誘內(nèi)存便有限伙的需角求。督用戶槳提供晶兩個(gè)僑參數(shù)趙h和向k,涉h是鍛時(shí)間黃幅度如,k和是預(yù)膛定義版的需我要形彈成的逐簇的虜數(shù)目戚。k-盟me鄉(xiāng)豐an伙s羞算法基本前步驟1.從皂n個(gè)袖數(shù)據(jù)域?qū)ο蠛我馑膺x擇追k孤個(gè)寨對(duì)象史作為究初始坑聚類峰中心列;2.根據(jù)叨每個(gè)哨聚類墨對(duì)象塌的均仰值(現(xiàn)中心翅對(duì)象六),叮計(jì)算煩每個(gè)獻(xiàn)對(duì)象村與這宏些中賣心對(duì)褲象的晉距離筆;并欺根據(jù)蕩最小斷距離片重新鴿對(duì)相蝴應(yīng)對(duì)岸象進(jìn)益行劃賊分;3.重新僑計(jì)算廈每個(gè)裝(有進(jìn)變化善)聚概類的民均值央(中數(shù)心對(duì)端象)籮;4.計(jì)算壯標(biāo)準(zhǔn)啦測(cè)度鄙函數(shù)漫,當(dāng)謙滿足舌一定揉條件潤(rùn),如紹函數(shù)廟收斂齡時(shí),嶺則算選法終且止;展如果務(wù)條件差不滿組足則貼回到講步驟2。離線謙部分呆算法該部畜分采載用改蔥進(jìn)的躬k-醋me筍an郊s算劣法(1揀)初喘始階引段不在跌隨機(jī)畏的選耍取種參子,臘而是魯選擇婆可能憐被劃兆分到堤給定清簇的檢種子損,這輩些種坐子其匙實(shí)是數(shù)對(duì)應(yīng)錄微簇戰(zhàn)的中高心。(2零)劃芝分階手段一個(gè)丹種子綁到一賭個(gè)“兼?zhèn)螖?shù)見(jiàn)據(jù)點(diǎn)裳”(嚴(yán)也就消是微愁簇)邪的距扒離就孟等于帶它到拼“偽噸數(shù)據(jù)顧點(diǎn)”除中心防的距頃離。(3扣)調(diào)況整階雕段一個(gè)澡給定石劃分啟的新跳種子離被定梳義成止那個(gè)訊劃分達(dá)中帶燭權(quán)重斥的微員簇中診心。簇演目化分賢析Cl游uS爐tr萌ea繪m可榮以進(jìn)貼行演曬化分憂析演化餐分析就是深分析船數(shù)據(jù)違流在撿過(guò)去譜一段勇時(shí)間誓內(nèi)潛覽在的趁一些紅變化燒。比債如在聽(tīng)入侵趴檢測(cè)邁系統(tǒng)饑檢測(cè)什到在刺某一辮時(shí)間覽段收牲到某政種類鵲型的肺攻擊土。實(shí)驗(yàn)襯評(píng)估一、者數(shù)據(jù)骨集合辜選擇二、貌評(píng)估名手段數(shù)據(jù)醒集人工抄數(shù)據(jù)歷集和清真實(shí)呈數(shù)據(jù)暢集。由人低工數(shù)療據(jù)集郊相關(guān)紫屬性帆容易托被控陷制,殊用它渾來(lái)評(píng)俗估算窮法在羞不同羽緯度斗和不園同聚亂類數(shù)政目上富的性犁能。用真發(fā)實(shí)數(shù)庭據(jù)集莊來(lái)評(píng)雄估算伴法的煙有效嗓性以附及在嚇評(píng)估基其是旱否能暢發(fā)現(xiàn)久數(shù)據(jù)蠻流潛解在的乞演化袋特性柱。評(píng)估蛾手段SS極Q:望評(píng)估校聚類已質(zhì)量運(yùn)行委時(shí)間捉:評(píng)其估算咱法效也率靈敏擋度:繩對(duì)參電數(shù)的害敏感暈程度Cl赤uS跟tr伸ea旺m算慘法優(yōu)棒缺點(diǎn)優(yōu)點(diǎn)劃:提出敞了兩禽階段筑聚類輩框架并,算瀉法能取適應(yīng)路數(shù)據(jù)柜流快處速、題有序悲無(wú)限歷、單絡(luò)遍掃禿描的架特點(diǎn)桑。能政夠發(fā)束掘數(shù)潤(rùn)據(jù)流悼潛在牽的演客化特帥性。缺點(diǎn)章:1、灣不能蘿發(fā)現(xiàn)超任意宣形狀憑的簇彩;2、劑不能悶很好丹地識(shí)水別離侍群點(diǎn)雷;3、禿對(duì)高活維數(shù)窗據(jù)聚黑類質(zhì)橫量下躲降;后續(xù)隊(duì)研究基于浴兩層棗次的師數(shù)據(jù)惜路聚戒類解決權(quán)高維促問(wèn)題謀的數(shù)韻據(jù)流陽(yáng)聚類尤(H森PS蔽tr抹ea幸m)基于年滑動(dòng)集窗口談的數(shù)第據(jù)流瓶聚類惹(C陶l(shuí)u漠-W擠in凳)基于攏密度鳥的數(shù)吩據(jù)流旋聚類番(A向Cl膽uS灘tr詠ea爭(zhēng)m、道De鏡nS為tr惰ea具m及歉改進(jìn)失)基于熟網(wǎng)格灶的數(shù)脅據(jù)流暫聚類詠(D叢-S略tr昌ea昆m及打改進(jìn)凈)采用占樹索貸引的野網(wǎng)格臂數(shù)據(jù)彼流聚窮類(棟CD套-S庫(kù)tr現(xiàn)ea歌m、籃TD企CA?。┗趧偡中涡尉S度款的數(shù)扣據(jù)路倘聚類攤(F珠Cl會(huì)uS概tr細(xì)ea岔m)參考茅文獻(xiàn)【1但】B我.陽(yáng)Ba獸bc壩oc植k讀et交a畫l.崖M私od配el奴s悶an怨d漂Is碼su預(yù)es后i重n觀Da散ta棕S辣tr太ea納m吵Sy煌st誓em寄s,常A撇CM限P濁OD鉛S撓Co臟nf貝er臉en縫ce河,棕20梁02豪.【2仿】B鍬ar湊ba乓rá奏D監(jiān).R甩eq秩ui同re哪me湊nt談s簡(jiǎn)fo蕩r秘cl炊us個(gè)te敵ri繞ng中d飯at沃a鹿st錄re倆am齒s.誤AC饑M漫SI贏GK芝DD鑼E革xp醬lo感ra籮ti亞on費(fèi)s墓Ne往ws癥le質(zhì)tt竹er廚,2許00嚼3,廁3(娘2)固:2摩3-駁27技.【3華】L舊ia產(chǎn)da告n輛O'界Ca城ll棒ag征ha態(tài)n頓et增a研l(wèi).捕S贊tr鼓ea宿m-導(dǎo)Da奪ta亭A躲lg銜or漲it棒hm術(shù)s閑Fo痛r柳Hi玻gh槳-Q層ua困li貸ty麻C象lu票st因er昏in虧g,親P鞭r(nóng)o綁ce盲ed上in重gs假o克f閑th響e散18枯th舌I鈴nt鴿er農(nóng)na項(xiàng)ti詳on凈al關(guān)C該on烘fe激re妻nc添e兇on輪D蕩at臉a慨En床gi啄ne販er迅in秘g姜(I苗CD攔E'澇02沈),斬20火02誤.【4界】C梨.末C.民A敘gg憑ar卸wa押l,硬J盲.薪Ha狠n,烈J莫.逢Wa瞇ng拜,辰P.扯Y頑u.貴A喬F惰ra店me愁wo熔rk館f貫or屑C敵lu鬧st擱er提in降g秧Ev態(tài)ol側(cè)vi蟻ng智D跡at符a輝St吐re撞am冷s.多V歲LD樓B挑Co位nf肝er挨en椅ce祥,射20擁03暗.【5娛】S焦un爹H隨L,關(guān)Yu儲(chǔ)G忙,B洋an介Y滴B,少Zh這ao鋤F潮X,溫Wa雖ng叼D剝L.濫CD燦S-槐Tr糕ee炭:A剛n望ef殘fe市ct眠iv撇e有in揉de鄙x暫fo借r聲cl槍us阻te俘ri糊ng岔a臟rb炎it希ra從ry音s更ha額pe鋪s勞in逮d懼at須a雞st明re皇am菠s.析In貴:P叉ro敏c.償of速t徐he摧1似5t任h缸In許t'混l促Wo沖rk橋sh雀op狼o涂n咸Re梨se垮ar胸ch敘I段ss初ue佳s喬in斧D龜at蠶a奏En矛gi爛ne士er饞in罵g:吧St屋re仍am葡D具at置a岸Mi混ni葡ng允a獵nd獲A全pp喝li娛ca雀ti仆on磨s意(R強(qiáng)ID餃E—志SD孤MA搶20覽05灑).醬Wa烈sh斗in東gt赤on順:I軟EE頭E蕩Co由mp敵ut描er呢S綁oc鄰ie隱ty籠,2束00離5.哲81貢-8臨8.(孫閘煥良歇,趙簡(jiǎn)法信厚,鮑甩玉斌掘等.屠CD插_S億tr鍵ea替m—軟—種荷基于芽空間各劃分烏的流都數(shù)據(jù)梳密度喘聚類吹算法描.計(jì)濃算機(jī)愧研究誤與發(fā)眨展,惑20泄04吐,1蠅0.轉(zhuǎn))【6犬】C拉.C條.A隆gg挺ar我wa短l,怠H濟(jì)an斜J攻,W災(zāi)an菠g麥J,辰et恭a凡1.貼A聲Fr初am旋ew民or脹k縱fo臟r歸Pr采oj木ec坦te憂d倦Cl律us肌te禾ri碧ng凱o段f務(wù)Hi座gh刑D肉im妨en皇si笑on斯al弓D配at淚a犧St史re萬(wàn)am籠s[炮c]車.P籌ro蔑c熄of篇t過(guò)he販3齡0t棍h步VL郵DB匯C崖on鞏fe賊re訴nc睡e,央20墻04隙:8討52吐-8駝63氧.【7訊】Z嘆hu櫻W疊ei蝴-H雄en侍g,比Y營(yíng)in趁J揪ia價(jià)n,汗X彩ie流Y笑i-守Hu揮an炭g.產(chǎn)A脈rb葵it妖ra刊ry譜s尖ha剩pe鍛c心lu腫st廚er毛a漁lg瞧or吃it宰hm痕f叔or團(tuán)c袍lu支st抽er張in評(píng)g親da遷ta當(dāng)s汗tr蠟ea訪m.蘭J干ou調(diào)rn奴al戶o披f朝So像ft膝wa箏re凝,掙20器06純,辨17癢(3學(xué)):奸3莫79覆-3罩87惰.(朱老蔚恒居,囑印鑒桑,謙謝益舒煌.凍基銹于數(shù)領(lǐng)據(jù)流偏的任貧意形井狀聚鳴類算布法.套軟機(jī)件學(xué)綢報(bào),林20偵06綁,寸17寧(3隔):它3歡79棕-3躁87恒.)【8撞】C注ao窗F順en伸g,毛E股st延er芒y間M,裂Q獸ia方n筐We優(yōu)in旨in踏g,逢e企t甜a1喇.展De歉ns陡it綁y-隱ba醫(yī)se溪d對(duì)Cl隸us恢te酒ri冊(cè)ng雹o廁ve高r插an穿E粉vo仇lv呢in割g病Da飾ta冰S飯tr親ea仆m拔wi簡(jiǎn)th碗N寫oi飾se眉[C樸].畝Pr盼oc窮.漆of俗t蜓he賤2反00睜6淹SI邪AM拳C羊on削fe閥re卷nc學(xué)e霜on芝D旺at影a少M(fèi)i襖ni僑ng灶.連Be孫th格es蘆da院,駐US伶A:襖[獸s.扒n向.]雖,唉20吃06旱.【9球】C違he燃n鞋Yi類xi海n,碑L纏i夠Tu松.凍De摟ns車it橋y-表
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)前教育中的幼兒園教育環(huán)境建設(shè)與管理考核試卷
- 海洋氣候?qū)0肚治g影響考核試卷
- 自行車騎行健康風(fēng)險(xiǎn)評(píng)估考核試卷
- 石膏在石膏裝飾品設(shè)計(jì)中的創(chuàng)意應(yīng)用考核試卷
- 紙制品行業(yè)品牌營(yíng)銷策略與市場(chǎng)推廣考核試卷
- 服務(wù)機(jī)器人的社交禮儀訓(xùn)練考核試卷
- 稻谷加工技術(shù)創(chuàng)新與產(chǎn)業(yè)競(jìng)爭(zhēng)力提升考核試卷
- 智能家居廣告媒體資源采購(gòu)與市場(chǎng)推廣協(xié)議
- 抖音火花支付實(shí)名認(rèn)證及安全使用協(xié)議
- 氣凝膠保溫管道施工與建筑節(jié)能效果評(píng)價(jià)及認(rèn)證合同
- (市質(zhì)檢)莆田市2025屆高中畢業(yè)班第四次教學(xué)質(zhì)量檢測(cè)試卷語(yǔ)文試卷(含答案解析)
- 瓷磚空鼓裝修合同協(xié)議
- 中職生職業(yè)生涯課件
- 煙臺(tái)2025年煙臺(tái)市蓬萊區(qū)“蓬選”考選90人筆試歷年參考題庫(kù)附帶答案詳解
- 2025年浙江省生態(tài)環(huán)境廳所屬事業(yè)單位招聘考試備考題庫(kù)
- 入團(tuán)考試測(cè)試題及答案
- 【語(yǔ)文試卷+答案 】上海市崇明區(qū)2025屆高三第二學(xué)期第二次模擬考試(崇明二模)
- 化妝品公司生產(chǎn)部獎(jiǎng)懲管理制度
- 2025年湘教版初中地理七年級(jí)下冊(cè)重點(diǎn)知識(shí)點(diǎn)梳理與歸納
- 勞務(wù)公司與公司合作協(xié)議書
- qw-zl03潔凈室區(qū)環(huán)境監(jiān)測(cè)作業(yè)指導(dǎo)書
評(píng)論
0/150
提交評(píng)論