版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、Scalable Similarity Search for SimRankScalable Similarity Search for SimRank論文方向:相似度評價算法論文級別:SIGMOD會議,CCF推薦A類基于SimRank模型的可擴展相似性搜索目 錄論文背景簡介SimRank論文主要工作總結(jié)123SimRank什么是SimRank1SimRank 是一種基于圖的拓撲結(jié)構(gòu)信息來衡量任意兩個對象間相似程度兩個對象間相似程度的模型,該模型由 MIT 實驗室的 Glen Jeh 和 Jennifer Widom教授在2002年首先提出。SimRank相似度的核心思想為:如果兩個對象和被其
2、相似的對象所引用(即它們有相似的入鄰邊結(jié)構(gòu)),那么這兩個對象也相似。SimRank模型定義SimRank2SimRank 模型定義兩個頁面的相似度是基于如下遞歸的公式:網(wǎng)頁排名協(xié)同過濾近似查詢網(wǎng)絡(luò)圖聚類SimRankSimRank的應(yīng)用3論文主要工作論文摘要1由Jeh和Widom教授提出的SimRank模型提供了一個很好的相似性指數(shù),并且已經(jīng)成功應(yīng)用于許多提到的應(yīng)用之中。迄今為止,盡管已經(jīng)提出了很多算法來計算SimRank,但是沒一個算法能夠擴展到一個具有十億數(shù)量級的圖之中來。由此項事實激勵我們考慮以下的SimRank相似性搜索問題:給定一個查詢節(jié)點u,查找對于u來說擁有最高SimRank指數(shù)
3、的前k個節(jié)點v,該指數(shù)可表述為s(u,v)。我們提出了一個高效且可擴展的計算SimRank搜索問題的算法。在十億級別邊的圖中,該算法可以在 幾秒之內(nèi)計算出給定節(jié)點u的的top-20相似性節(jié)點。論文主要工作四大要素2 線性遞歸表達式s(u, v) = euDev +c(Peu)DPev +c2(P2eu)DP2ev + 兩個上界值xy max xew xy |x| |y| SimRank指數(shù)的距離衰減特性 蒙特卡羅模擬論文主要工作SimRank線性遞歸公式變換3論文主要工作top-k相似性搜索算法4預(yù)處理構(gòu)建原圖的二分圖,由蒙特卡羅模擬確定二分圖的邊。第一次篩選出候選節(jié)點。計算兩個相似度界限。查
4、詢由兩個相似度界限剪除冗余節(jié)點。運用適應(yīng)性選樣加速篩選節(jié)點,一次設(shè)置隨機游走的次數(shù)較少,第二次篩選出候選點后進行二次精確計算SimRank值,選出前K個點??偨Y(jié)論文的創(chuàng)新點 提出SimRank的線性遞歸表達式,結(jié)合蒙特卡羅模擬方法、距離的衰減特性、適應(yīng)性選樣技術(shù)使得搜索的時間復(fù)雜度獨立于圖的規(guī)模,空間復(fù)雜度控制在可接受范圍。 根據(jù)實際需要,進一步簡化算法為top-k相似性搜索,為實際運用提供指導(dǎo)。 由于算法獨立于圖的規(guī)模的特性,方便進行并行計算。使得計算超大規(guī)模的圖的SimRank值成為可能。首次擴展到十億級別的超大規(guī)模網(wǎng)絡(luò)結(jié)構(gòu)中來??偨Y(jié)論文不足之處與其他可行工作 未能建立蒙特卡羅步數(shù)、衰減系數(shù)與精度的關(guān)系的數(shù)學(xué)分析模型 算法的預(yù)處理步驟是建立二分圖,能否找到空間復(fù)雜度更優(yōu)的替代數(shù)據(jù)結(jié)構(gòu)完成篩選點的步驟,這樣就可以擴展到更大的圖 算法的核心是基于線性遞歸表達式的,而論文的實驗數(shù)據(jù)都是大規(guī)模的稀疏圖,若是稠密圖,精度會有較大影響 節(jié)點間的相似度不僅與它們之間的鏈接有關(guān)還與其中的內(nèi)容有關(guān),當(dāng)把節(jié)點間的內(nèi)容也放進相似度評價后,如何把本文的線性遞歸表達式與內(nèi)容評價融合起來是一個值得研究的問題總結(jié)體會 SimR
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專項幕墻安裝2024協(xié)議范本版
- 組織行為分析與應(yīng)用
- 專業(yè)舞臺燈光購銷協(xié)議一
- 專業(yè)維修服務(wù)協(xié)議樣本2024版B版
- 2025年度場監(jiān)督管理局委托執(zhí)法事項責(zé)任書4篇
- 2025年度廠房設(shè)備租賃及維護管理合同范本4篇
- 2024版小區(qū)公共服務(wù)設(shè)施施工協(xié)議樣本一
- 2024版特定企業(yè)融資咨詢與服務(wù)協(xié)議版
- 2025年度戶外廣告場地租賃終止協(xié)議書4篇
- 專用肥料國內(nèi)運輸合同標(biāo)準(zhǔn)文本2024版版
- 2024年08月云南省農(nóng)村信用社秋季校園招考750名工作人員筆試歷年參考題庫附帶答案詳解
- 防詐騙安全知識培訓(xùn)課件
- 心肺復(fù)蘇課件2024
- 2024年股東股權(quán)繼承轉(zhuǎn)讓協(xié)議3篇
- 2024-2025學(xué)年江蘇省南京市高二上冊期末數(shù)學(xué)檢測試卷(含解析)
- 四川省名校2025屆高三第二次模擬考試英語試卷含解析
- 《城鎮(zhèn)燃氣領(lǐng)域重大隱患判定指導(dǎo)手冊》專題培訓(xùn)
- 湖南財政經(jīng)濟學(xué)院專升本管理學(xué)真題
- 考研有機化學(xué)重點
- 全國身份證前六位、區(qū)號、郵編-編碼大全
- 《GPU體系結(jié)構(gòu)》課件2
評論
0/150
提交評論