版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
復(fù)雜網(wǎng)絡(luò)聚類方法研究吉林大學(xué)知識工程教研室吉林大學(xué)計算機學(xué)院1復(fù)雜網(wǎng)絡(luò)聚類方法研究吉林大學(xué)知識工程教研室1目錄1.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義
2.復(fù)雜網(wǎng)絡(luò)聚類方法的研究現(xiàn)狀及分析
3.復(fù)雜網(wǎng)絡(luò)聚類所面臨的問題
4.我們的工作
5.復(fù)雜網(wǎng)絡(luò)vs時空數(shù)據(jù)挖掘
2目錄1.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義21.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義
現(xiàn)實世界中的諸多系統(tǒng)都以網(wǎng)絡(luò)形式存在,如社會系統(tǒng)中的人際關(guān)系網(wǎng)、科學(xué)家協(xié)作網(wǎng)和流行病傳播網(wǎng),生態(tài)系統(tǒng)中的神經(jīng)元網(wǎng)、基因調(diào)控網(wǎng)和蛋白質(zhì)交互網(wǎng),科技系統(tǒng)中的因特網(wǎng)、萬維網(wǎng)、通信網(wǎng)、交通網(wǎng)等。由于這些網(wǎng)絡(luò)所對應(yīng)的系統(tǒng)具有很高的復(fù)雜性,因此被統(tǒng)稱為“復(fù)雜網(wǎng)絡(luò)(complexnetwork)”。31.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義現(xiàn)實世界中的諸多系統(tǒng)都社會網(wǎng)絡(luò)(SocialNetworks)科學(xué)家協(xié)作網(wǎng)移動電話網(wǎng)絡(luò)《圣經(jīng)》對應(yīng)的社會網(wǎng)絡(luò)4社會網(wǎng)絡(luò)(SocialNetworks)科學(xué)家協(xié)作網(wǎng)移動電生物網(wǎng)絡(luò)(BiologicalNetworks)食物鏈網(wǎng)絡(luò)新陳代謝系統(tǒng)網(wǎng)絡(luò)蛋白質(zhì)交互網(wǎng)絡(luò)5生物網(wǎng)絡(luò)(BiologicalNetworks)食物鏈網(wǎng)絡(luò)科技網(wǎng)絡(luò)(TechnologicalNetworks)6科技網(wǎng)絡(luò)(TechnologicalNetworks)6O(101)O(103)O(108)…復(fù)雜網(wǎng)絡(luò)分析具有重要研究意義…對于小規(guī)模網(wǎng)絡(luò),我們可以通過肉眼觀測其形態(tài)、特征,但是對于(超)大規(guī)模復(fù)雜網(wǎng)絡(luò),我們將很難通過肉眼深入理解和預(yù)測網(wǎng)絡(luò)的結(jié)構(gòu)、行為和功能,需要借助各種復(fù)雜網(wǎng)絡(luò)分析方法。7O(101)O(103)O(108)…復(fù)雜1.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義
復(fù)雜網(wǎng)絡(luò)已成為當(dāng)前最重要的多學(xué)科交叉研究領(lǐng)域之一。小世界性、無標度性、網(wǎng)絡(luò)模體和網(wǎng)絡(luò)簇結(jié)構(gòu)是迄今為止發(fā)現(xiàn)的最普遍和最重要的復(fù)雜網(wǎng)絡(luò)拓撲結(jié)構(gòu)屬性。81.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義復(fù)雜網(wǎng)絡(luò)已成為當(dāng)前最重SmallWorld(Nature1998)小世界網(wǎng)絡(luò):具有較小的平均路徑長度,同時具有較大的聚類系數(shù)。平均長度:網(wǎng)絡(luò)中任意兩點間最短路徑長度的平均值。聚類系數(shù):節(jié)點的任意兩個鄰居節(jié)點仍互為鄰居的平均概率9SmallWorld(Nature1998)小世界網(wǎng)絡(luò)Scale-freenetwork(Science1999)無標度性:網(wǎng)絡(luò)的度分布呈現(xiàn)出冪率分布(powerlaw),而不是隨機網(wǎng)絡(luò)的泊松分布:
P(K)~K-a10Scale-freenetwork(Science19DegreedistributionPoissondistributionPower-lawdistribution11DegreedistributionPoissondisNetworkMotif(Science1999)NetworkMotif:在統(tǒng)計意義上,網(wǎng)絡(luò)中頻繁出現(xiàn)的子圖模式。(某些子圖在現(xiàn)實網(wǎng)絡(luò)中出現(xiàn)的概率明顯高于這些子圖在隨機網(wǎng)絡(luò)中出現(xiàn)的概率)。12NetworkMotif(Science1999)NeNetworkCommunityStructure(Science2002,Nature2005,2007)網(wǎng)絡(luò)簇結(jié)構(gòu)(networkcommunitystructure)具有同簇節(jié)點相互連接密集、異簇節(jié)點相互連接稀疏的特點。13NetworkCommunityStructure(S1.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義復(fù)雜網(wǎng)絡(luò)聚類方法的研究對分析復(fù)雜網(wǎng)絡(luò)的拓撲結(jié)構(gòu)、理解復(fù)雜網(wǎng)絡(luò)的功能、發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)中的隱藏規(guī)律和預(yù)測復(fù)雜網(wǎng)絡(luò)的行為不僅有十分重要的理論意義,而且有廣泛的應(yīng)用前景。目前已被應(yīng)用于:恐怖組織識別與組織結(jié)構(gòu)管理等社會網(wǎng)絡(luò)分析,圍繞新陳代謝、蛋白質(zhì)交互、未知蛋白質(zhì)功能預(yù)測、基因調(diào)控和主控基因識別等問題的多種生物網(wǎng)絡(luò)分析,Web社區(qū)挖掘與Web文檔聚類,搜索引擎,空間數(shù)據(jù)聚類,圖像分割,以及關(guān)系數(shù)據(jù)分析等眾多領(lǐng)域。Nature2005141.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義復(fù)雜網(wǎng)絡(luò)聚類方法的研究對應(yīng)用例子1–聚類分析Gaussiansimilarityfunction(高斯相似度函數(shù)):15應(yīng)用例子1–聚類分析Gaussiansimilarity應(yīng)用例子2社會網(wǎng)絡(luò)、語義網(wǎng)絡(luò)、生物網(wǎng)絡(luò)分析(Nature2005)科學(xué)家合作網(wǎng):每個節(jié)點表示一個科學(xué)家,連接表示科學(xué)家之間的合作緊密程度。語義網(wǎng)絡(luò):每個節(jié)點表示一個英文單詞,連接表示詞在某個語境下共同出現(xiàn)的頻率。16應(yīng)用例子2社會網(wǎng)絡(luò)、語義網(wǎng)絡(luò)、生物網(wǎng)絡(luò)分析(Natur聚類基因網(wǎng)絡(luò)Nature200317聚類基因網(wǎng)絡(luò)Nature200317聚類新陳代謝網(wǎng)絡(luò)Nature200518聚類新陳代謝網(wǎng)絡(luò)Nature200518聚類蛋白質(zhì)網(wǎng)絡(luò)(Nature2005)(芽殖酵母菌)的蛋白質(zhì)交互網(wǎng)絡(luò)19聚類蛋白質(zhì)網(wǎng)絡(luò)(Nature2005)(芽殖酵母菌)的蛋動態(tài)社會網(wǎng)絡(luò)簇結(jié)構(gòu)分析(Nature2007)該研究結(jié)果發(fā)現(xiàn)了維持社會結(jié)構(gòu)穩(wěn)定性的兩個基本原則:對于大規(guī)模社會機構(gòu),其成分的動態(tài)變化利于維護該機構(gòu)的穩(wěn)定性;相反的,對于小規(guī)模機構(gòu),其成分的固定不變利于維護該機構(gòu)的穩(wěn)定性。20動態(tài)社會網(wǎng)絡(luò)簇結(jié)構(gòu)分析(Nature2007)該研究結(jié)果基于網(wǎng)絡(luò)簇結(jié)構(gòu)分析的鏈接預(yù)測(Nature2008)該研究提出了一種廣義的隨機網(wǎng)絡(luò)模型(相對于經(jīng)典的ER隨機網(wǎng)絡(luò)模型):(1)具有更強的表達能力,既能刻畫assortative網(wǎng)絡(luò)又能刻畫disassortative網(wǎng)絡(luò);(2)對于給定的網(wǎng)絡(luò),該模型能夠精確的預(yù)測出網(wǎng)絡(luò)中的未知鏈接或缺失鏈接,并能剔除網(wǎng)絡(luò)中存在的噪音鏈接。21基于網(wǎng)絡(luò)簇結(jié)構(gòu)分析的鏈接預(yù)測(Nature2008)該研1.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義(續(xù))復(fù)雜網(wǎng)絡(luò)聚類方法已成為圖論、復(fù)雜網(wǎng)絡(luò)、數(shù)據(jù)挖掘等理論的重要組成部分和相關(guān)課程的核心內(nèi)容。如康奈爾大學(xué)計算機系開設(shè)了《TheStructureofInformationNetworks》課程,麻省理工電子工程和計算機系開設(shè)了《NetworksandDynamics》課程。
由于復(fù)雜網(wǎng)絡(luò)聚類研究具有重要的理論意義和應(yīng)用價值,它不僅成為計算機領(lǐng)域中最具挑戰(zhàn)性的基礎(chǔ)性研究課題之一,也吸引了來自物理、數(shù)學(xué)、生物、社會學(xué)和復(fù)雜性科學(xué)等眾多領(lǐng)域的研究者,掀起了一股研究熱潮。從2002年至今,新的方法層出不窮,新的應(yīng)用領(lǐng)域不斷被拓展,不同領(lǐng)域的權(quán)威國際雜志和多個重要國際學(xué)術(shù)會議多次報道這方面的研究工作。
221.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義(續(xù))復(fù)雜網(wǎng)絡(luò)聚類方法已2.復(fù)雜網(wǎng)絡(luò)聚類方法的研究現(xiàn)狀及分析
2.1復(fù)雜網(wǎng)絡(luò)聚類方法的分類2.2基于優(yōu)化的復(fù)雜網(wǎng)絡(luò)聚類算法2.3啟發(fā)式復(fù)雜網(wǎng)絡(luò)聚類算法2.4其它網(wǎng)絡(luò)聚類算法232.復(fù)雜網(wǎng)絡(luò)聚類方法的研究現(xiàn)狀及分析2.1復(fù)雜網(wǎng)絡(luò)聚類方2.1復(fù)雜網(wǎng)絡(luò)聚類方法的分類
基于優(yōu)化的方法將復(fù)雜網(wǎng)絡(luò)聚類問題轉(zhuǎn)化為優(yōu)化問題,通過最優(yōu)化預(yù)定義的目標函數(shù)來計算復(fù)雜網(wǎng)絡(luò)的簇結(jié)構(gòu)。
啟發(fā)式方法將復(fù)雜網(wǎng)絡(luò)聚類問題轉(zhuǎn)化為預(yù)定義啟發(fā)式規(guī)則的設(shè)計問題。除以上兩類方法之外,還存在其它類型的復(fù)雜網(wǎng)絡(luò)聚類方法。242.1復(fù)雜網(wǎng)絡(luò)聚類方法的分類242.1復(fù)雜網(wǎng)絡(luò)聚類方法的分類252.1復(fù)雜網(wǎng)絡(luò)聚類方法的分類252.2基于優(yōu)化的復(fù)雜網(wǎng)絡(luò)聚類方法2.2.1譜方法2.2.2基于局部搜索的復(fù)雜網(wǎng)絡(luò)聚類方法2.2.3其它基于優(yōu)化方法的復(fù)雜網(wǎng)絡(luò)聚類方法262.2基于優(yōu)化的復(fù)雜網(wǎng)絡(luò)聚類方法2.2.1譜方法262.2.1譜方法(SpectralMethod)譜方法采用二次型優(yōu)化技術(shù)最小化預(yù)定義的“截函數(shù)”。當(dāng)一個網(wǎng)絡(luò)被劃分成兩個子網(wǎng)絡(luò)時,“截”指子網(wǎng)間的連接密度。具有最小“截”的劃分被認為是最優(yōu)的網(wǎng)絡(luò)劃分。譜方法具有嚴密的數(shù)學(xué)理論,已發(fā)展成數(shù)據(jù)聚類的一種重要方法(稱為譜聚類法),被廣泛應(yīng)用于圖分割和空間點聚類等領(lǐng)域。針對復(fù)雜網(wǎng)絡(luò)聚類,譜方法的主要不足是:1)需要借助先驗知識定義遞歸終止條件,即譜方法不具備自動識別網(wǎng)絡(luò)簇總數(shù)的能力;2)現(xiàn)實世界中的復(fù)雜網(wǎng)絡(luò)往往包含多個網(wǎng)絡(luò)簇,而譜方法的遞歸二分策略不能保證得到網(wǎng)絡(luò)劃分是最優(yōu)的多網(wǎng)絡(luò)簇結(jié)構(gòu)。272.2.1譜方法(SpectralMethod)譜方法1970年,針對圖分割問題克寧漢-林(B.W.Kernighan和S.Lin)提出了KL算法,該算法也可用于復(fù)雜網(wǎng)絡(luò)聚類。KL算法簡介
KL的優(yōu)化目標是:
極小化簇間連接數(shù)目與簇內(nèi)連接數(shù)目之差的絕對值;KL算法的不足:
找到的解往往是局部最優(yōu)而不是全局最優(yōu)解。
KL對初始解非常敏感,它需要先驗知識。
KL算法的時間復(fù)雜性:
O(tn2),t表示算法終止時的迭代次數(shù),n表示網(wǎng)絡(luò)節(jié)點個數(shù)。
Kernighan-Lin算法(《BellSystemTechnicalJournal》,1970)281970年,針對圖分割問題克寧漢-林(B.W.Kernig2004年,紐曼(M.E.J.Newman)提出了基于局部搜索的快速復(fù)雜網(wǎng)絡(luò)聚類算法FN.算法FN簡介
FN的優(yōu)化目標:極大化紐曼與格萬(M.E.J.Newman和M.Girvan)于同年提出的網(wǎng)絡(luò)模塊性評價函數(shù):Q函數(shù).Q函數(shù)定義為簇內(nèi)的實際連接數(shù)目與隨機連接下簇內(nèi)的期望連接數(shù)目之差,用來定量地刻畫網(wǎng)絡(luò)簇結(jié)構(gòu)的優(yōu)劣.Q值越大則網(wǎng)絡(luò)簇結(jié)構(gòu)越好。
FN算法的時間復(fù)雜性:
是O(m
n),m和n分別表示網(wǎng)絡(luò)的連接數(shù)和節(jié)點數(shù)
快速Newman算法(《PhysicalRev.E》,2004)292004年,紐曼(M.E.J.Newman)提出了基于局部2005年,吉莫熱與阿麥拉爾(R.Guimera和L.A.N.Amaral)采用與算法FN相同的優(yōu)化目標函數(shù),提出了基于模擬退火算法(SA)的復(fù)雜網(wǎng)絡(luò)聚類算法GA,并應(yīng)用到新陳代謝網(wǎng)絡(luò)分析中?!禢ature》2005年2月刊報道了該項研究工作。算法GA的優(yōu)缺點
GA采用模擬退火控制策略,因此GA具有跳過局部最優(yōu)解、找到全局最優(yōu)解的能力,因而具有很好的聚類精度。GA的效率取決于算法SA的效率,而后者通常收斂很緩慢。GA對輸入?yún)?shù)非常敏感,不同的參數(shù)設(shè)置往往導(dǎo)致不同的聚類結(jié)果。Guimera-Amaral算法(《Nature》,2005)302005年,吉莫熱與阿麥拉爾(R.Guimera和L.A啟發(fā)式復(fù)雜網(wǎng)絡(luò)聚類算法的共同特點是:
基于某些直觀假設(shè)來設(shè)計啟發(fā)式算法,對大部分網(wǎng)絡(luò)來說,它們能快速找到最優(yōu)解或近似最優(yōu)解,但無法從理論上嚴格保證它們對任何輸入網(wǎng)絡(luò)都能在令人滿意的時間內(nèi)找到令人滿意的解。本報告介紹幾個典型的啟發(fā)式復(fù)雜網(wǎng)絡(luò)聚類算法:算法GN(Girvan-Newman) 算法HITS(HyperlinkInducedTopicSearch)算法CPM(CliquePercolationMethod)算法FEC(FindingandExtractingCommunities)2.3啟發(fā)式復(fù)雜網(wǎng)絡(luò)聚類方法31啟發(fā)式復(fù)雜網(wǎng)絡(luò)聚類算法的共同特點是:
基于某些直觀假設(shè)來設(shè)計2.3.2GN算法(PNAS,2002)2002年,格萬和紐曼(M.Girvan和M.E.J.Newman)提出了基于反復(fù)識別和刪除簇間連接策略的復(fù)雜網(wǎng)絡(luò)聚類算法GN.
GN算法的缺點
GN的最大缺點是計算速度慢,邊介數(shù)計算的開銷過大O(mn),GN具有很高的時間復(fù)雜性O(shè)(m2n),只適合處理中小規(guī)模的網(wǎng)絡(luò)(包含幾百個節(jié)點的網(wǎng)絡(luò))。
GN算法的意義
在復(fù)雜網(wǎng)絡(luò)聚類研究中,GN算法占有十分重要的地位(該文被引用超過1000次),格萬和紐曼工作的重要意義在于:他們首次發(fā)現(xiàn)了復(fù)雜網(wǎng)絡(luò)中普遍存在的網(wǎng)絡(luò)簇結(jié)構(gòu),啟發(fā)了其他研究者對這個問題的深入研究,掀起了復(fù)雜網(wǎng)絡(luò)聚類的研究熱潮。322.3.2GN算法(PNAS,2002)20022.3.4HITS算法(JournalofACM,1999)
1999年,針對基于鏈接的網(wǎng)頁排名問題,克萊因博格(Kleinberg)等人提出了著名的HITS算法,該算法也可用于基于內(nèi)容的網(wǎng)頁聚類。HITS算法基于的基本假設(shè)
根據(jù)鏈接關(guān)系,WWW中存在權(quán)威(authority)和中心(hub)兩種基本類型
的頁面,權(quán)威頁面傾向于被多個中心頁面引用,而中心頁面傾向于引用
多個權(quán)威頁面?;跈?quán)威--中心頁面間相互指向的鏈接關(guān)系,HITS算法通過計算
WWW子圖(由查詢得到的子圖經(jīng)過擴充而成)對應(yīng)的某個特殊矩陣的主特征向量來發(fā)現(xiàn)隱藏在WWW中的全部由權(quán)威--中心頁面構(gòu)成的網(wǎng)絡(luò)簇結(jié)構(gòu)。該算法與Google的PageRank算法齊名,被包括Altavista在內(nèi)的多個搜索引擎所采用。
332.3.4HITS算法(JournalofAC
目前,絕大多數(shù)算法不考慮重疊網(wǎng)絡(luò)簇結(jié)構(gòu)。但在許多應(yīng)用中,重疊網(wǎng)絡(luò)簇結(jié)構(gòu)更具有實際意義。如在語義網(wǎng)中,多義詞允許同時出現(xiàn)在多個表示不同詞義的網(wǎng)絡(luò)簇中.2005年,帕拉(G.Palla)等在《Nature》上發(fā)表文章,首次提出了能識別重疊網(wǎng)絡(luò)簇結(jié)構(gòu)的CPM算法.CPM簡介CPM的基本假設(shè)
網(wǎng)絡(luò)簇由多個相鄰的k-團(k-clique)組成,兩個相鄰的k-團至少共享k-1個節(jié)點,每個k-團唯一的屬于某個網(wǎng)絡(luò)簇,但屬于不同網(wǎng)絡(luò)簇的k-團可能會共享某些節(jié)點。CPM的缺點
1)實際應(yīng)用中參數(shù)k難以確定,選取不同的k值會得到不同的網(wǎng)絡(luò)簇結(jié)構(gòu)。
2)計算網(wǎng)絡(luò)中的全部k-團非常耗時,CPM非常慢,其時間復(fù)雜性近似為指數(shù)階。2.3.6CPM算法(Nature,2005)34目前,絕大多數(shù)算法不考慮重疊網(wǎng)絡(luò)簇結(jié)構(gòu)。但在許多應(yīng)用中,重2.3.7FEC算法(TKDE,2007)符號網(wǎng)絡(luò)(signednetwork)是指包含正、負兩種關(guān)系的二維復(fù)雜網(wǎng)絡(luò),是對一般復(fù)雜網(wǎng)絡(luò)描述能力的一種推廣。符號網(wǎng)絡(luò)廣泛存在于社會、生物等多種復(fù)雜系統(tǒng)中。符號網(wǎng)絡(luò)簇結(jié)構(gòu)具有簇內(nèi)正關(guān)系稠密、同時簇間負關(guān)系稠密的特點.2007年,我們針對符號網(wǎng)絡(luò)聚類問題,提出了基于馬爾科夫隨機游走模型的啟發(fā)式符號網(wǎng)絡(luò)聚類算法FEC.FEC算法簡介FEC的基本假設(shè)
從任意給定的簇出發(fā),網(wǎng)絡(luò)中的Markov隨機游走過程達到起始簇內(nèi)節(jié)點的期望概率將大于達到起始簇外節(jié)點的期望概率。網(wǎng)絡(luò)簇識別
基于該啟發(fā)規(guī)則,F(xiàn)EC先算出在給定時刻Markov隨機游走過程到達所有節(jié)點的期望轉(zhuǎn)移概率分布,進而根據(jù)該分布的局部一致性(同簇節(jié)點具有近似相同的期望轉(zhuǎn)移概率分布)識別出所有的網(wǎng)絡(luò)簇。FEC算法之優(yōu)缺點
1)是第一個綜合考慮兩種分簇標準(連接密度和連接符號)的復(fù)雜網(wǎng)絡(luò)聚類算法。2)FEC在效率和識別精度都表現(xiàn)了更好的性能,尤其適于處理噪聲高和網(wǎng)絡(luò)簇結(jié)構(gòu)不明顯的復(fù)雜網(wǎng)絡(luò)。3)隨機游走的步長會影響算法的聚類結(jié)果,盡管實驗表明對某些網(wǎng)絡(luò),聚類結(jié)果對該參數(shù)并不敏感,但如何針對不同網(wǎng)絡(luò)計算出最優(yōu)步長仍是一個未被解決的理論問題。352.3.7FEC算法(TKDE,2007)符號網(wǎng)絡(luò)(3復(fù)雜網(wǎng)絡(luò)聚類所面臨的問題
第一,我們還沒有從客觀上認清網(wǎng)絡(luò)簇結(jié)構(gòu)的本質(zhì)含義。1.網(wǎng)絡(luò)簇結(jié)構(gòu)是怎么形成的?2.它與網(wǎng)絡(luò)的其它復(fù)雜現(xiàn)象有什么必然聯(lián)系?3.它與網(wǎng)絡(luò)自身的哪些內(nèi)在屬性有關(guān)?因此,現(xiàn)階段我們不得不通過觀察有簇網(wǎng)絡(luò)所展示出的“外在”現(xiàn)象去理解網(wǎng)絡(luò)簇概念,借助“主觀”定義的目標函數(shù)或啟發(fā)式規(guī)則去刻畫和計算網(wǎng)絡(luò)簇結(jié)構(gòu)。能否從網(wǎng)絡(luò)的“內(nèi)在”屬性出發(fā),給出一種“客觀”的理論模型去理解、刻畫和計算復(fù)雜網(wǎng)絡(luò)簇結(jié)構(gòu)。363復(fù)雜網(wǎng)絡(luò)聚類所面臨的問題第一,我們還沒有從客觀上認清網(wǎng)3復(fù)雜網(wǎng)絡(luò)聚類所面臨的問題第二,不能同時滿足計算速度快、聚類精度高(即抗噪聲能力強)、免參數(shù)(即不依賴先驗知識、對參數(shù)不敏感)等基本要求。識別精度高的方法往往具有很高時間復(fù)雜性(>O(n2)),而快速的識別方法往往以犧牲精度為代價并且需要較多的參數(shù)和先驗知識。如何設(shè)計出快速、高精度和免參數(shù)的復(fù)雜網(wǎng)絡(luò)聚類方法仍是當(dāng)前最期待解決的問題之一。373復(fù)雜網(wǎng)絡(luò)聚類所面臨的問題第二,不能同時滿足計算速度快、聚3復(fù)雜網(wǎng)絡(luò)聚類所面臨的問題第三,除以上未解決的理論問題之外,隨著應(yīng)用領(lǐng)域的拓展、網(wǎng)絡(luò)聚類問題的多樣化,現(xiàn)有復(fù)雜網(wǎng)絡(luò)聚類方法已難以勝任,需要針對特殊類型的復(fù)雜網(wǎng)絡(luò)研究新型的復(fù)雜網(wǎng)絡(luò)聚類方法。(1)動態(tài)復(fù)雜網(wǎng)絡(luò)聚類方法(2)高維復(fù)雜網(wǎng)絡(luò)聚類方法(3)分布式復(fù)雜網(wǎng)絡(luò)聚類方法以上類型的復(fù)雜網(wǎng)絡(luò)聚類方法具有廣泛的應(yīng)用領(lǐng)域,因此如何針對特殊類型的復(fù)雜網(wǎng)絡(luò)設(shè)計出新型的復(fù)雜網(wǎng)絡(luò)聚類方法也是當(dāng)前面臨的主要問題之一。
383復(fù)雜網(wǎng)絡(luò)聚類所面臨的問題第三,除以上未解決的理論問題之外4.前期的一些工作
DetectcommunitiesfromdecentralizednetworksBYang,JLiu,DLiu.Anautonomy-orientedcomputingapproachtocommunityminingindistributedanddynamicnetworks.AutonomousAgentsandMulti-AgentSystems(JAAMAS),2010.
DetectwebcommunitiesBYang,JLiu.
DiscoveringGlobalNetworkCommunitiesBasedonLocalCentralities.ACMTransactionsontheWeb(TWEB),2008.DetectcommunitiesfromsignednetworksBYang,WKCheung,JLiu.CommunityMiningfromSignedSocialNetworks.IEEETransactionsonKnowledgeandDataEngineering(TKDE),2007.DetectcommunitiesfromdynamicnetworksBYang,DLiu.Force-basedIncrementalAlgorithmforMiningCommunityStructureinDynamicNetwork.JournalofComputerScienceandTechnology(JCST),2006.394.前期的一些工作Detectcommunities正在開展的一些工作
Spectralanalysisforcommunitystructures
NSFCproject(2009-2011)&NLPROpenProject(2009-2010)NovelspectralmodelandmethodSpectralanalysisfordirectednetworksSpectralanalysisforassortative/disassortativenetworksStatisticalrelationallearningforgraphmining
NSFCproject(2010-2012)
CombineinferenceandlearningfornetworkeddataLinkpredictionCollectiveclassification40正在開展的一些工作Spectralanalysisf時空數(shù)據(jù)挖掘隨著GPS、RS和GIS等技術(shù)的應(yīng)用和發(fā)展,使時空數(shù)據(jù)的膨脹速度遠遠超出了常規(guī)的事務(wù)型數(shù)據(jù),“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象在時空數(shù)據(jù)中尤為嚴重。Geo-spatialdataBiomedicalDataClimateDataSensorNetworks
41時空數(shù)據(jù)挖掘隨著GPS、RS和GIS等技術(shù)的應(yīng)用和發(fā)展,使特點和應(yīng)用除了具有海量、高維、高噪聲和非線性等一般數(shù)據(jù)特征外,時空數(shù)據(jù)還包含了拓撲、距離、尺度、形狀和時間等多種特殊信息,并按復(fù)雜的多維空間索引結(jié)構(gòu)進行組織,在數(shù)據(jù)分析過程中還需借助空間推理、拓撲分析、幾何計算和時空語義分析等方法。時空數(shù)據(jù)挖掘方法對于有效處理海量時空數(shù)據(jù)、提高時空數(shù)據(jù)分析的自動化和智能化水平具有重要意義,在遙感、GIS、實時導(dǎo)航、決策支持、交通控制、環(huán)境監(jiān)測、醫(yī)療圖像處理、案件偵破、道路交通、機器人等許多涉及時空數(shù)據(jù)的領(lǐng)域中都有廣泛應(yīng)用。42特點和應(yīng)用除了具有海量、高維、高噪聲和非線性等一般數(shù)據(jù)特征外應(yīng)用成果SKICAT系統(tǒng)已經(jīng)發(fā)現(xiàn)了16個新的極其遙遠的類星體;POSS系統(tǒng)將天空圖像中的星體對象分類準確性從75%提高到94%;MagellanStudy系統(tǒng)通過分析啟明星表面的大約30000幅高分辨率雷達圖像,識別了火山;CONQUEST系統(tǒng)基于內(nèi)容的空間和時間查詢,發(fā)現(xiàn)了大氣層中臭氧洞形成的樣本知識。43應(yīng)用成果SKICAT系統(tǒng)已經(jīng)發(fā)現(xiàn)了16個新的極其遙遠的類星時空數(shù)據(jù)挖掘vs復(fù)雜網(wǎng)絡(luò)1.時空數(shù)據(jù)網(wǎng)隨著時空數(shù)據(jù)的日益積累,時空數(shù)據(jù)已經(jīng)形成一個以時空數(shù)據(jù)實體為節(jié)點,時空數(shù)據(jù)實體與實體之間的關(guān)聯(lián)關(guān)系為邊的復(fù)雜網(wǎng)絡(luò),并以其自身的規(guī)律進行演化和發(fā)展。研究時空數(shù)據(jù)網(wǎng)絡(luò)自身的演化規(guī)律,建立時空數(shù)據(jù)網(wǎng)絡(luò)的預(yù)測模型,有利于時空數(shù)據(jù)挖掘。為了分析時空數(shù)據(jù)網(wǎng)絡(luò),可以將一些相關(guān)的復(fù)雜網(wǎng)絡(luò)模型引入到時空數(shù)據(jù)網(wǎng)絡(luò)當(dāng)中。2.特征空間vs相似度空間“高維”是基于特征空間數(shù)據(jù)挖掘方法所面臨的主要困難。基于相似度空間的復(fù)雜網(wǎng)絡(luò)分析是一個很有前景的“高維”數(shù)據(jù)分析方法。將特征空間變換為等價的相似度空間后,高維時空數(shù)據(jù)挖掘問題就轉(zhuǎn)換為復(fù)雜網(wǎng)絡(luò)分析問題。復(fù)雜網(wǎng)絡(luò)聚類是最主要的復(fù)雜網(wǎng)絡(luò)分析方法之一,可用于空間數(shù)據(jù)聚類和空間模式識別等多種空間數(shù)據(jù)分析。3.探索其它結(jié)合點?44時空數(shù)據(jù)挖掘vs復(fù)雜網(wǎng)絡(luò)44Shi等提出規(guī)范譜方法,有效地解決了圖像分割和多維空間模式識別問題,該方法成為譜圖分析的主要方法,并被廣泛引用.
J.Shi,J.Malik,“NormalizedCutsandImageSegmentation”,IEEETans.onpatternanalysisandmachineIntelligent,2000Harel等針對空間數(shù)據(jù)聚類問題,提出了基于隨機游走的網(wǎng)絡(luò)聚類方法,與基于特征空間的聚類方法相比,他們的方法能有效處理復(fù)雜空間模式聚類問題.
D.Harel,Y.Koren.“ClusteringSpatialDataUsingRandomWalks”,InProceedingsofthe7thACMSIGKDDinternationalConferenceonKnowledgeDiscoveryandDataMining,2001
Shiga等提出了特征空間和相似度空間相結(jié)合的混合空間聚類方法,結(jié)合譜圖分析方法和復(fù)雜網(wǎng)絡(luò)分析方法,提出了向量網(wǎng)絡(luò)聚類算法。實驗表明,與基于特征空間的聚類方法相比,他們的方法能有效處理噪聲數(shù)據(jù),在一定程度上提高了高維空間數(shù)據(jù)的聚類精度
M.Shiga,I.Takigawa,H.Mamitsuka,“ASpectralClusteringApproachtoOptimallyCombiningNumericalVectorswithaModularNetwork”,InProceedingsofthe13thACMSIGKDDinternationalConferenceonKnowledgeDiscoveryandDataMining,20074545謝謝!46謝謝!46復(fù)雜網(wǎng)絡(luò)聚類方法研究吉林大學(xué)知識工程教研室吉林大學(xué)計算機學(xué)院47復(fù)雜網(wǎng)絡(luò)聚類方法研究吉林大學(xué)知識工程教研室1目錄1.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義
2.復(fù)雜網(wǎng)絡(luò)聚類方法的研究現(xiàn)狀及分析
3.復(fù)雜網(wǎng)絡(luò)聚類所面臨的問題
4.我們的工作
5.復(fù)雜網(wǎng)絡(luò)vs時空數(shù)據(jù)挖掘
48目錄1.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義21.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義
現(xiàn)實世界中的諸多系統(tǒng)都以網(wǎng)絡(luò)形式存在,如社會系統(tǒng)中的人際關(guān)系網(wǎng)、科學(xué)家協(xié)作網(wǎng)和流行病傳播網(wǎng),生態(tài)系統(tǒng)中的神經(jīng)元網(wǎng)、基因調(diào)控網(wǎng)和蛋白質(zhì)交互網(wǎng),科技系統(tǒng)中的因特網(wǎng)、萬維網(wǎng)、通信網(wǎng)、交通網(wǎng)等。由于這些網(wǎng)絡(luò)所對應(yīng)的系統(tǒng)具有很高的復(fù)雜性,因此被統(tǒng)稱為“復(fù)雜網(wǎng)絡(luò)(complexnetwork)”。491.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義現(xiàn)實世界中的諸多系統(tǒng)都社會網(wǎng)絡(luò)(SocialNetworks)科學(xué)家協(xié)作網(wǎng)移動電話網(wǎng)絡(luò)《圣經(jīng)》對應(yīng)的社會網(wǎng)絡(luò)50社會網(wǎng)絡(luò)(SocialNetworks)科學(xué)家協(xié)作網(wǎng)移動電生物網(wǎng)絡(luò)(BiologicalNetworks)食物鏈網(wǎng)絡(luò)新陳代謝系統(tǒng)網(wǎng)絡(luò)蛋白質(zhì)交互網(wǎng)絡(luò)51生物網(wǎng)絡(luò)(BiologicalNetworks)食物鏈網(wǎng)絡(luò)科技網(wǎng)絡(luò)(TechnologicalNetworks)52科技網(wǎng)絡(luò)(TechnologicalNetworks)6O(101)O(103)O(108)…復(fù)雜網(wǎng)絡(luò)分析具有重要研究意義…對于小規(guī)模網(wǎng)絡(luò),我們可以通過肉眼觀測其形態(tài)、特征,但是對于(超)大規(guī)模復(fù)雜網(wǎng)絡(luò),我們將很難通過肉眼深入理解和預(yù)測網(wǎng)絡(luò)的結(jié)構(gòu)、行為和功能,需要借助各種復(fù)雜網(wǎng)絡(luò)分析方法。53O(101)O(103)O(108)…復(fù)雜1.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義
復(fù)雜網(wǎng)絡(luò)已成為當(dāng)前最重要的多學(xué)科交叉研究領(lǐng)域之一。小世界性、無標度性、網(wǎng)絡(luò)模體和網(wǎng)絡(luò)簇結(jié)構(gòu)是迄今為止發(fā)現(xiàn)的最普遍和最重要的復(fù)雜網(wǎng)絡(luò)拓撲結(jié)構(gòu)屬性。541.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義復(fù)雜網(wǎng)絡(luò)已成為當(dāng)前最重SmallWorld(Nature1998)小世界網(wǎng)絡(luò):具有較小的平均路徑長度,同時具有較大的聚類系數(shù)。平均長度:網(wǎng)絡(luò)中任意兩點間最短路徑長度的平均值。聚類系數(shù):節(jié)點的任意兩個鄰居節(jié)點仍互為鄰居的平均概率55SmallWorld(Nature1998)小世界網(wǎng)絡(luò)Scale-freenetwork(Science1999)無標度性:網(wǎng)絡(luò)的度分布呈現(xiàn)出冪率分布(powerlaw),而不是隨機網(wǎng)絡(luò)的泊松分布:
P(K)~K-a56Scale-freenetwork(Science19DegreedistributionPoissondistributionPower-lawdistribution57DegreedistributionPoissondisNetworkMotif(Science1999)NetworkMotif:在統(tǒng)計意義上,網(wǎng)絡(luò)中頻繁出現(xiàn)的子圖模式。(某些子圖在現(xiàn)實網(wǎng)絡(luò)中出現(xiàn)的概率明顯高于這些子圖在隨機網(wǎng)絡(luò)中出現(xiàn)的概率)。58NetworkMotif(Science1999)NeNetworkCommunityStructure(Science2002,Nature2005,2007)網(wǎng)絡(luò)簇結(jié)構(gòu)(networkcommunitystructure)具有同簇節(jié)點相互連接密集、異簇節(jié)點相互連接稀疏的特點。59NetworkCommunityStructure(S1.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義復(fù)雜網(wǎng)絡(luò)聚類方法的研究對分析復(fù)雜網(wǎng)絡(luò)的拓撲結(jié)構(gòu)、理解復(fù)雜網(wǎng)絡(luò)的功能、發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)中的隱藏規(guī)律和預(yù)測復(fù)雜網(wǎng)絡(luò)的行為不僅有十分重要的理論意義,而且有廣泛的應(yīng)用前景。目前已被應(yīng)用于:恐怖組織識別與組織結(jié)構(gòu)管理等社會網(wǎng)絡(luò)分析,圍繞新陳代謝、蛋白質(zhì)交互、未知蛋白質(zhì)功能預(yù)測、基因調(diào)控和主控基因識別等問題的多種生物網(wǎng)絡(luò)分析,Web社區(qū)挖掘與Web文檔聚類,搜索引擎,空間數(shù)據(jù)聚類,圖像分割,以及關(guān)系數(shù)據(jù)分析等眾多領(lǐng)域。Nature2005601.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義復(fù)雜網(wǎng)絡(luò)聚類方法的研究對應(yīng)用例子1–聚類分析Gaussiansimilarityfunction(高斯相似度函數(shù)):61應(yīng)用例子1–聚類分析Gaussiansimilarity應(yīng)用例子2社會網(wǎng)絡(luò)、語義網(wǎng)絡(luò)、生物網(wǎng)絡(luò)分析(Nature2005)科學(xué)家合作網(wǎng):每個節(jié)點表示一個科學(xué)家,連接表示科學(xué)家之間的合作緊密程度。語義網(wǎng)絡(luò):每個節(jié)點表示一個英文單詞,連接表示詞在某個語境下共同出現(xiàn)的頻率。62應(yīng)用例子2社會網(wǎng)絡(luò)、語義網(wǎng)絡(luò)、生物網(wǎng)絡(luò)分析(Natur聚類基因網(wǎng)絡(luò)Nature200363聚類基因網(wǎng)絡(luò)Nature200317聚類新陳代謝網(wǎng)絡(luò)Nature200564聚類新陳代謝網(wǎng)絡(luò)Nature200518聚類蛋白質(zhì)網(wǎng)絡(luò)(Nature2005)(芽殖酵母菌)的蛋白質(zhì)交互網(wǎng)絡(luò)65聚類蛋白質(zhì)網(wǎng)絡(luò)(Nature2005)(芽殖酵母菌)的蛋動態(tài)社會網(wǎng)絡(luò)簇結(jié)構(gòu)分析(Nature2007)該研究結(jié)果發(fā)現(xiàn)了維持社會結(jié)構(gòu)穩(wěn)定性的兩個基本原則:對于大規(guī)模社會機構(gòu),其成分的動態(tài)變化利于維護該機構(gòu)的穩(wěn)定性;相反的,對于小規(guī)模機構(gòu),其成分的固定不變利于維護該機構(gòu)的穩(wěn)定性。66動態(tài)社會網(wǎng)絡(luò)簇結(jié)構(gòu)分析(Nature2007)該研究結(jié)果基于網(wǎng)絡(luò)簇結(jié)構(gòu)分析的鏈接預(yù)測(Nature2008)該研究提出了一種廣義的隨機網(wǎng)絡(luò)模型(相對于經(jīng)典的ER隨機網(wǎng)絡(luò)模型):(1)具有更強的表達能力,既能刻畫assortative網(wǎng)絡(luò)又能刻畫disassortative網(wǎng)絡(luò);(2)對于給定的網(wǎng)絡(luò),該模型能夠精確的預(yù)測出網(wǎng)絡(luò)中的未知鏈接或缺失鏈接,并能剔除網(wǎng)絡(luò)中存在的噪音鏈接。67基于網(wǎng)絡(luò)簇結(jié)構(gòu)分析的鏈接預(yù)測(Nature2008)該研1.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義(續(xù))復(fù)雜網(wǎng)絡(luò)聚類方法已成為圖論、復(fù)雜網(wǎng)絡(luò)、數(shù)據(jù)挖掘等理論的重要組成部分和相關(guān)課程的核心內(nèi)容。如康奈爾大學(xué)計算機系開設(shè)了《TheStructureofInformationNetworks》課程,麻省理工電子工程和計算機系開設(shè)了《NetworksandDynamics》課程。
由于復(fù)雜網(wǎng)絡(luò)聚類研究具有重要的理論意義和應(yīng)用價值,它不僅成為計算機領(lǐng)域中最具挑戰(zhàn)性的基礎(chǔ)性研究課題之一,也吸引了來自物理、數(shù)學(xué)、生物、社會學(xué)和復(fù)雜性科學(xué)等眾多領(lǐng)域的研究者,掀起了一股研究熱潮。從2002年至今,新的方法層出不窮,新的應(yīng)用領(lǐng)域不斷被拓展,不同領(lǐng)域的權(quán)威國際雜志和多個重要國際學(xué)術(shù)會議多次報道這方面的研究工作。
681.復(fù)雜網(wǎng)絡(luò)聚類方法的研究背景及意義(續(xù))復(fù)雜網(wǎng)絡(luò)聚類方法已2.復(fù)雜網(wǎng)絡(luò)聚類方法的研究現(xiàn)狀及分析
2.1復(fù)雜網(wǎng)絡(luò)聚類方法的分類2.2基于優(yōu)化的復(fù)雜網(wǎng)絡(luò)聚類算法2.3啟發(fā)式復(fù)雜網(wǎng)絡(luò)聚類算法2.4其它網(wǎng)絡(luò)聚類算法692.復(fù)雜網(wǎng)絡(luò)聚類方法的研究現(xiàn)狀及分析2.1復(fù)雜網(wǎng)絡(luò)聚類方2.1復(fù)雜網(wǎng)絡(luò)聚類方法的分類
基于優(yōu)化的方法將復(fù)雜網(wǎng)絡(luò)聚類問題轉(zhuǎn)化為優(yōu)化問題,通過最優(yōu)化預(yù)定義的目標函數(shù)來計算復(fù)雜網(wǎng)絡(luò)的簇結(jié)構(gòu)。
啟發(fā)式方法將復(fù)雜網(wǎng)絡(luò)聚類問題轉(zhuǎn)化為預(yù)定義啟發(fā)式規(guī)則的設(shè)計問題。除以上兩類方法之外,還存在其它類型的復(fù)雜網(wǎng)絡(luò)聚類方法。702.1復(fù)雜網(wǎng)絡(luò)聚類方法的分類242.1復(fù)雜網(wǎng)絡(luò)聚類方法的分類712.1復(fù)雜網(wǎng)絡(luò)聚類方法的分類252.2基于優(yōu)化的復(fù)雜網(wǎng)絡(luò)聚類方法2.2.1譜方法2.2.2基于局部搜索的復(fù)雜網(wǎng)絡(luò)聚類方法2.2.3其它基于優(yōu)化方法的復(fù)雜網(wǎng)絡(luò)聚類方法722.2基于優(yōu)化的復(fù)雜網(wǎng)絡(luò)聚類方法2.2.1譜方法262.2.1譜方法(SpectralMethod)譜方法采用二次型優(yōu)化技術(shù)最小化預(yù)定義的“截函數(shù)”。當(dāng)一個網(wǎng)絡(luò)被劃分成兩個子網(wǎng)絡(luò)時,“截”指子網(wǎng)間的連接密度。具有最小“截”的劃分被認為是最優(yōu)的網(wǎng)絡(luò)劃分。譜方法具有嚴密的數(shù)學(xué)理論,已發(fā)展成數(shù)據(jù)聚類的一種重要方法(稱為譜聚類法),被廣泛應(yīng)用于圖分割和空間點聚類等領(lǐng)域。針對復(fù)雜網(wǎng)絡(luò)聚類,譜方法的主要不足是:1)需要借助先驗知識定義遞歸終止條件,即譜方法不具備自動識別網(wǎng)絡(luò)簇總數(shù)的能力;2)現(xiàn)實世界中的復(fù)雜網(wǎng)絡(luò)往往包含多個網(wǎng)絡(luò)簇,而譜方法的遞歸二分策略不能保證得到網(wǎng)絡(luò)劃分是最優(yōu)的多網(wǎng)絡(luò)簇結(jié)構(gòu)。732.2.1譜方法(SpectralMethod)譜方法1970年,針對圖分割問題克寧漢-林(B.W.Kernighan和S.Lin)提出了KL算法,該算法也可用于復(fù)雜網(wǎng)絡(luò)聚類。KL算法簡介
KL的優(yōu)化目標是:
極小化簇間連接數(shù)目與簇內(nèi)連接數(shù)目之差的絕對值;KL算法的不足:
找到的解往往是局部最優(yōu)而不是全局最優(yōu)解。
KL對初始解非常敏感,它需要先驗知識。
KL算法的時間復(fù)雜性:
O(tn2),t表示算法終止時的迭代次數(shù),n表示網(wǎng)絡(luò)節(jié)點個數(shù)。
Kernighan-Lin算法(《BellSystemTechnicalJournal》,1970)741970年,針對圖分割問題克寧漢-林(B.W.Kernig2004年,紐曼(M.E.J.Newman)提出了基于局部搜索的快速復(fù)雜網(wǎng)絡(luò)聚類算法FN.算法FN簡介
FN的優(yōu)化目標:極大化紐曼與格萬(M.E.J.Newman和M.Girvan)于同年提出的網(wǎng)絡(luò)模塊性評價函數(shù):Q函數(shù).Q函數(shù)定義為簇內(nèi)的實際連接數(shù)目與隨機連接下簇內(nèi)的期望連接數(shù)目之差,用來定量地刻畫網(wǎng)絡(luò)簇結(jié)構(gòu)的優(yōu)劣.Q值越大則網(wǎng)絡(luò)簇結(jié)構(gòu)越好。
FN算法的時間復(fù)雜性:
是O(m
n),m和n分別表示網(wǎng)絡(luò)的連接數(shù)和節(jié)點數(shù)
快速Newman算法(《PhysicalRev.E》,2004)752004年,紐曼(M.E.J.Newman)提出了基于局部2005年,吉莫熱與阿麥拉爾(R.Guimera和L.A.N.Amaral)采用與算法FN相同的優(yōu)化目標函數(shù),提出了基于模擬退火算法(SA)的復(fù)雜網(wǎng)絡(luò)聚類算法GA,并應(yīng)用到新陳代謝網(wǎng)絡(luò)分析中?!禢ature》2005年2月刊報道了該項研究工作。算法GA的優(yōu)缺點
GA采用模擬退火控制策略,因此GA具有跳過局部最優(yōu)解、找到全局最優(yōu)解的能力,因而具有很好的聚類精度。GA的效率取決于算法SA的效率,而后者通常收斂很緩慢。GA對輸入?yún)?shù)非常敏感,不同的參數(shù)設(shè)置往往導(dǎo)致不同的聚類結(jié)果。Guimera-Amaral算法(《Nature》,2005)762005年,吉莫熱與阿麥拉爾(R.Guimera和L.A啟發(fā)式復(fù)雜網(wǎng)絡(luò)聚類算法的共同特點是:
基于某些直觀假設(shè)來設(shè)計啟發(fā)式算法,對大部分網(wǎng)絡(luò)來說,它們能快速找到最優(yōu)解或近似最優(yōu)解,但無法從理論上嚴格保證它們對任何輸入網(wǎng)絡(luò)都能在令人滿意的時間內(nèi)找到令人滿意的解。本報告介紹幾個典型的啟發(fā)式復(fù)雜網(wǎng)絡(luò)聚類算法:算法GN(Girvan-Newman) 算法HITS(HyperlinkInducedTopicSearch)算法CPM(CliquePercolationMethod)算法FEC(FindingandExtractingCommunities)2.3啟發(fā)式復(fù)雜網(wǎng)絡(luò)聚類方法77啟發(fā)式復(fù)雜網(wǎng)絡(luò)聚類算法的共同特點是:
基于某些直觀假設(shè)來設(shè)計2.3.2GN算法(PNAS,2002)2002年,格萬和紐曼(M.Girvan和M.E.J.Newman)提出了基于反復(fù)識別和刪除簇間連接策略的復(fù)雜網(wǎng)絡(luò)聚類算法GN.
GN算法的缺點
GN的最大缺點是計算速度慢,邊介數(shù)計算的開銷過大O(mn),GN具有很高的時間復(fù)雜性O(shè)(m2n),只適合處理中小規(guī)模的網(wǎng)絡(luò)(包含幾百個節(jié)點的網(wǎng)絡(luò))。
GN算法的意義
在復(fù)雜網(wǎng)絡(luò)聚類研究中,GN算法占有十分重要的地位(該文被引用超過1000次),格萬和紐曼工作的重要意義在于:他們首次發(fā)現(xiàn)了復(fù)雜網(wǎng)絡(luò)中普遍存在的網(wǎng)絡(luò)簇結(jié)構(gòu),啟發(fā)了其他研究者對這個問題的深入研究,掀起了復(fù)雜網(wǎng)絡(luò)聚類的研究熱潮。782.3.2GN算法(PNAS,2002)20022.3.4HITS算法(JournalofACM,1999)
1999年,針對基于鏈接的網(wǎng)頁排名問題,克萊因博格(Kleinberg)等人提出了著名的HITS算法,該算法也可用于基于內(nèi)容的網(wǎng)頁聚類。HITS算法基于的基本假設(shè)
根據(jù)鏈接關(guān)系,WWW中存在權(quán)威(authority)和中心(hub)兩種基本類型
的頁面,權(quán)威頁面傾向于被多個中心頁面引用,而中心頁面傾向于引用
多個權(quán)威頁面?;跈?quán)威--中心頁面間相互指向的鏈接關(guān)系,HITS算法通過計算
WWW子圖(由查詢得到的子圖經(jīng)過擴充而成)對應(yīng)的某個特殊矩陣的主特征向量來發(fā)現(xiàn)隱藏在WWW中的全部由權(quán)威--中心頁面構(gòu)成的網(wǎng)絡(luò)簇結(jié)構(gòu)。該算法與Google的PageRank算法齊名,被包括Altavista在內(nèi)的多個搜索引擎所采用。
792.3.4HITS算法(JournalofAC
目前,絕大多數(shù)算法不考慮重疊網(wǎng)絡(luò)簇結(jié)構(gòu)。但在許多應(yīng)用中,重疊網(wǎng)絡(luò)簇結(jié)構(gòu)更具有實際意義。如在語義網(wǎng)中,多義詞允許同時出現(xiàn)在多個表示不同詞義的網(wǎng)絡(luò)簇中.2005年,帕拉(G.Palla)等在《Nature》上發(fā)表文章,首次提出了能識別重疊網(wǎng)絡(luò)簇結(jié)構(gòu)的CPM算法.CPM簡介CPM的基本假設(shè)
網(wǎng)絡(luò)簇由多個相鄰的k-團(k-clique)組成,兩個相鄰的k-團至少共享k-1個節(jié)點,每個k-團唯一的屬于某個網(wǎng)絡(luò)簇,但屬于不同網(wǎng)絡(luò)簇的k-團可能會共享某些節(jié)點。CPM的缺點
1)實際應(yīng)用中參數(shù)k難以確定,選取不同的k值會得到不同的網(wǎng)絡(luò)簇結(jié)構(gòu)。
2)計算網(wǎng)絡(luò)中的全部k-團非常耗時,CPM非常慢,其時間復(fù)雜性近似為指數(shù)階。2.3.6CPM算法(Nature,2005)80目前,絕大多數(shù)算法不考慮重疊網(wǎng)絡(luò)簇結(jié)構(gòu)。但在許多應(yīng)用中,重2.3.7FEC算法(TKDE,2007)符號網(wǎng)絡(luò)(signednetwork)是指包含正、負兩種關(guān)系的二維復(fù)雜網(wǎng)絡(luò),是對一般復(fù)雜網(wǎng)絡(luò)描述能力的一種推廣。符號網(wǎng)絡(luò)廣泛存在于社會、生物等多種復(fù)雜系統(tǒng)中。符號網(wǎng)絡(luò)簇結(jié)構(gòu)具有簇內(nèi)正關(guān)系稠密、同時簇間負關(guān)系稠密的特點.2007年,我們針對符號網(wǎng)絡(luò)聚類問題,提出了基于馬爾科夫隨機游走模型的啟發(fā)式符號網(wǎng)絡(luò)聚類算法FEC.FEC算法簡介FEC的基本假設(shè)
從任意給定的簇出發(fā),網(wǎng)絡(luò)中的Markov隨機游走過程達到起始簇內(nèi)節(jié)點的期望概率將大于達到起始簇外節(jié)點的期望概率。網(wǎng)絡(luò)簇識別
基于該啟發(fā)規(guī)則,F(xiàn)EC先算出在給定時刻Markov隨機游走過程到達所有節(jié)點的期望轉(zhuǎn)移概率分布,進而根據(jù)該分布的局部一致性(同簇節(jié)點具有近似相同的期望轉(zhuǎn)移概率分布)識別出所有的網(wǎng)絡(luò)簇。FEC算法之優(yōu)缺點
1)是第一個綜合考慮兩種分簇標準(連接密度和連接符號)的復(fù)雜網(wǎng)絡(luò)聚類算法。2)FEC在效率和識別精度都表現(xiàn)了更好的性能,尤其適于處理噪聲高和網(wǎng)絡(luò)簇結(jié)構(gòu)不明顯的復(fù)雜網(wǎng)絡(luò)。3)隨機游走的步長會影響算法的聚類結(jié)果,盡管實驗表明對某些網(wǎng)絡(luò),聚類結(jié)果對該參數(shù)并不敏感,但如何針對不同網(wǎng)絡(luò)計算出最優(yōu)步長仍是一個未被解決的理論問題。812.3.7FEC算法(TKDE,2007)符號網(wǎng)絡(luò)(3復(fù)雜網(wǎng)絡(luò)聚類所面臨的問題
第一,我們還沒有從客觀上認清網(wǎng)絡(luò)簇結(jié)構(gòu)的本質(zhì)含義。1.網(wǎng)絡(luò)簇結(jié)構(gòu)是怎么形成的?2.它與網(wǎng)絡(luò)的其它復(fù)雜現(xiàn)象有什么必然聯(lián)系?3.它與網(wǎng)絡(luò)自身的哪些內(nèi)在屬性有關(guān)?因此,現(xiàn)階段我們不得不通過觀察有簇網(wǎng)絡(luò)所展示出的“外在”現(xiàn)象去理解網(wǎng)絡(luò)簇概念,借助“主觀”定義的目標函數(shù)或啟發(fā)式規(guī)則去刻畫和計算網(wǎng)絡(luò)簇結(jié)構(gòu)。能否從網(wǎng)絡(luò)的“內(nèi)在”屬性出發(fā),給出一種“客觀”的理論模型去理解、刻畫和計算復(fù)雜網(wǎng)絡(luò)簇結(jié)構(gòu)。823復(fù)雜網(wǎng)絡(luò)聚類所面臨的問題第一,我們還沒有從客觀上認清網(wǎng)3復(fù)雜網(wǎng)絡(luò)聚類所面臨的問題第二,不能同時滿足計算速度快、聚類精度高(即抗噪聲能力強)、免參數(shù)(即不依賴先驗知識、對參數(shù)不敏感)等基本要求。識別精度高的方法往往具有很高時間復(fù)雜性(>O(n2)),而快速的識別方法往往以犧牲精度為代價并且需要較多的參數(shù)和先驗知識。如何設(shè)計出快速、高精度和免參數(shù)的復(fù)雜網(wǎng)絡(luò)聚類方法仍是當(dāng)前最期待解決的問題之一。833復(fù)雜網(wǎng)絡(luò)聚類所面臨的問題第二,不能同時滿足計算速度快、聚3復(fù)雜網(wǎng)絡(luò)聚類所面臨的問題第三,除以上未解決的理論問題之外,隨著應(yīng)用領(lǐng)域的拓展、網(wǎng)絡(luò)聚類問題的多樣化,現(xiàn)有復(fù)雜網(wǎng)絡(luò)聚類方法已難以勝任,需要針對特殊類型的復(fù)雜網(wǎng)絡(luò)研究新型的復(fù)雜網(wǎng)絡(luò)聚類方法。(1)動態(tài)復(fù)雜網(wǎng)絡(luò)聚類方法(2)高維復(fù)雜網(wǎng)絡(luò)聚類方法(3)分布式復(fù)雜網(wǎng)絡(luò)聚類方法以上類型的復(fù)雜網(wǎng)絡(luò)聚類方法具有廣泛的應(yīng)用領(lǐng)域,因此如何針對特殊類型的復(fù)雜網(wǎng)絡(luò)設(shè)計出新型的復(fù)雜網(wǎng)絡(luò)聚類方法也是當(dāng)前面臨的主要問題之一。
843復(fù)雜網(wǎng)絡(luò)聚類所面臨的問題第三,除以上未解決的理論問題之外4.前期的一些工作
DetectcommunitiesfromdecentralizednetworksBYang,JLiu,DLiu.Anautonomy-orientedcomputingapproachtocommunityminingindistributedanddynamicnetworks.AutonomousAgentsandMulti-AgentSystems(JAAMAS),2010.
DetectwebcommunitiesBYang,JLiu.
DiscoveringGlobalNetworkCommunitiesBasedonLocalCentralities.ACMTransactionsontheWeb(TWEB),2008.DetectcommunitiesfromsignednetworksBYang,WKCheung,JLiu.CommunityMiningfromSignedSocialNetworks.IEEETransactionsonKnowledgeandDataEngineering(TKDE),2007.DetectcommunitiesfromdynamicnetworksBYang,DLiu.Force-basedIncrementalAlgorithmforMiningCommunityStructureinDynamicNetwork.JournalofComputerScienceandTechnology(JCST),2006.854.前期的一些工作Detectcommunities正在開展的一些工作
Spectralanalysisforcommu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《家裝知識講座》課件
- 《癲癇本科》課件
- 《家族式增員》課件
- 單位管理制度合并選集【人員管理篇】
- 單位管理制度范例選集人事管理篇十篇
- 《投資經(jīng)濟學(xué)》課程教學(xué)大綱
- 《現(xiàn)代經(jīng)濟學(xué)》課程教學(xué)大綱1
- 《小學(xué)分數(shù)教學(xué)》課件
- 《電子元件基礎(chǔ)知識》課件
- 《企業(yè)環(huán)保管理》課件
- 第3章智能網(wǎng)聯(lián)汽車高精度地圖與定位技術(shù)
- 2018年國家公務(wù)員行測考試真題-省級(含答案)
- 2024中華人民共和國學(xué)前教育法學(xué)習(xí)解讀課件
- 計量經(jīng)濟學(xué)復(fù)習(xí)資料-概念和問答
- 2024年廣東省公務(wù)員錄用考試《行測》真題及答案解析
- 2024年秋新人教PEP版3年級上冊英語教學(xué)課件 Unit 4 第4課時 Part B Let's talk
- 2024新版(外研版三起孫有中)三年級英語上冊單詞帶音標
- 期末試卷(試題)-2024-2025學(xué)年三年級上冊數(shù)學(xué)蘇教版
- 2023年員工手冊范本(適用于公司全體員工手冊)
- 2025屆安徽省合肥市一六八中高二數(shù)學(xué)第一學(xué)期期末經(jīng)典試題含解析
- 自來水廠考試題庫單選題100道及答案解析
評論
0/150
提交評論