基于LDA主題模型的標簽推薦方法研究_第1頁
基于LDA主題模型的標簽推薦方法研究_第2頁
基于LDA主題模型的標簽推薦方法研究_第3頁
基于LDA主題模型的標簽推薦方法研究_第4頁
基于LDA主題模型的標簽推薦方法研究_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于LDA主題模型的標簽推薦方法研究〔摘要〕針對現(xiàn)有的標簽推薦方法存在的推薦準確率不高與效果不理想等問題,本文提出了基于LDA主題模型的社會化標簽推薦方法。該方法利用LDA主題建模技術將傳統(tǒng)的基于對象間關系的推薦方法擴展到交融對象間關系與資源內容特征的統(tǒng)一推薦。實驗結果說明,該方法獲得了理想的預期效果,可以顯著進步標簽推薦的質量與效果?!碴P鍵詞〕標簽推薦;LDA主題模型;推薦方法DOI:10.3969/j.issn.1008-0821.2022.02.010〔中圖分類號〕G203〔文獻標識碼〕A〔文章編號〕1008-0821〔2022〕02-0053-04〔Abstract〕ThispaperproposesasocialtaggingremendationmethodbasedonLDAtopicmodeltosolvetheproblemsofaccuracyandeffectinexistingtaggingremendationmethod.ThismethodextendsthetraditionaltaggingremendationmethodbasedontherelationofobjectstobineanalysisoftherelationofobjectsandthecontentofresourcebyusingofLDAmodelingtechnology.Theexperimentresultshowsthatthismethodsgetsagoodexpectantperformanceanddramaticallyimprovethequalityandefficiencyoftaggingremendation.〔Keywords〕taggingremendation;LDAtopicmodel;remendationmethod標簽作為Web2.0時代信息分類與索引的重要組織方式,其主要原因在于Web2.0強調以用戶為中心、用戶參與的互聯(lián)網開放式架構理念,網絡信息的產生、發(fā)布從傳統(tǒng)的網站管理者轉移到普通的網絡用戶身上;但由于普通用戶對專業(yè)的信息分類體系缺乏理解,基于傳統(tǒng)的固定分類體系的信息組織方法難以適應Web2.0時代的信息發(fā)布與組織形式。標簽系統(tǒng)作為傳統(tǒng)分類方法的替代,其隨意、靈敏、無等級劃分的特征使得用戶可以很容易利用該系統(tǒng)進展Web2.0上的信息分類與組織,成為Web2.0時代網絡信息的重要組織方式[1]。隨著社會化標注系統(tǒng)的快速開展,用戶在使用這類系統(tǒng)進展資源標注時,通常會選擇其他用戶或自己已使用過的標簽進展資源推薦,而由于社會化標簽創(chuàng)立的隨意性和個性化,難以保證標簽的準確性和可用性,且隨著用戶數(shù)量和資源規(guī)模的增長,標簽數(shù)量也隨之增多,致使標簽系統(tǒng)中存在大量模糊的、可信度低的標簽。為解決這些問題,目前的研究主要集中在標簽推薦領域,即利用高效的標簽推薦方法提升資源所附帶標簽的質量[2]?,F(xiàn)有的標簽推薦方法主要分為3類:〔1〕基于資源內容的標簽推薦方法?;谫Y源內容的標簽推薦方法從標注資源所具備的屬性特征出發(fā),通過提取描繪資源內容的關鍵詞作為標簽推薦的根據(jù)。由于該方法在處理過程中僅僅利用了資源本身的信息,沒有兼顧相似資源、鄰居用戶等信息,無法發(fā)揮標簽的社會化特性,在實際運用過程中的準確率與效率并不理想[3]?!?〕基于協(xié)同過濾的標簽推薦方法?;趨f(xié)同過濾的標簽推薦方法利用協(xié)同過濾技術獲取相似資源、鄰居用戶等標簽信息,實現(xiàn)對目的資源的推薦,如Hotho等[4]提出的FolkRank方法利用社會化標注系統(tǒng)中用戶、標簽、資源三者之間存在的關聯(lián)信息對標簽進展排序,根據(jù)排序結果進展協(xié)同推薦;Mishne[5]提出的AutoTag方法利用相似度計算獲取與目的資源內容相似的資源,并將相似資源的標簽進展聚類、排序,根據(jù)排序結果實現(xiàn)協(xié)同推薦。這類方法的關鍵是準確獲取相似資源的標簽信息,然后從已有的標簽庫中查找到相似標簽進展推薦,故該方法的推薦效果會受到候選標簽庫規(guī)模、標簽相似度計算方法準確度的影響[6]。〔3〕基于標簽語義的標簽推薦方法。基于標簽語義的標簽推薦方法利用用戶、標簽、資源三者之間蘊含的語義關系獲取推薦標簽所需的知識并運用到推薦任務中,進步標簽推薦的準確性與推薦效果,如Adrian[7]提出的ConTag方法將本體思想運用到標簽推薦之中,通過將用戶、標簽、資源三者之間的關系表達成RDF格式進展文檔主題建模,實現(xiàn)基于語義主題的標簽推薦;Marchetti等[8]提出的Semkey方法將語義網與協(xié)同過濾技術相結合進展基于語義協(xié)作的標簽推薦。這些標簽推薦方法在一定程度上進步了標簽推薦的準確性與效率,改善了社會化標簽系統(tǒng)的質量和效果。但這些方法主要利用對象間關系進展標簽推薦,忽略了資源本身的特征信息,當用戶、標簽、資源之間的關系比擬稀疏時,會嚴重制約標簽推薦的準確度與效果。針對這些問題,本文研究和設計了一種基于LDA〔LatentDirichletAllocation,LDA〕主題模型的標簽推薦方法。該方法綜合考慮用戶、標簽、資源之間的潛在關系及資源內容特性,利用LDA主題模型將用戶、標簽、資源及資源內容進展關聯(lián),實現(xiàn)標簽系統(tǒng)中對象間關系與資源內容的交融分析與綜合推薦。1LDA主題模型原理LDA主題模型是一個以“文檔-主題-關鍵詞〞為層次構造、通過參加Dirichlet先驗分布來解決PLSA主題模型中存在的過擬合現(xiàn)象的三層貝葉斯概率模型,其根本思想是[9]假設任何文本都可以表示成一系列主題的混合分布,記為P〔z〕;同時任意主題都是關鍵詞列表中所有單詞的概率分布,記為P〔wz〕,那么一個文本中每個關鍵詞的概念分布為:P〔wi〕=∑kj=1P〔wizi=j〕P〔zi=j〕LDA主題模型認為文檔是假設干關鍵詞的集合,在構建主題模型過程中不考慮任何語法或詞語出現(xiàn)的順序關系,利用該模型產生文檔的貝葉斯網絡圖如圖1所示。圖1中,隨機變量θ表示目的文檔中的主題分布向量,隱含變量z表示目的文檔分配在每個關鍵詞上的N維主題向量,用來表達文檔與關鍵詞之間的潛在關系,w表示目的文檔中關鍵詞的向量表示,α、β分別表示文檔和關鍵詞滿足相應的Dirichlet分布時的參數(shù)。利用LDA模型進展文檔主題建模時的核心問題是估計隱含變量的概率分布情況,即獲取目的文檔中隱含主題分布和各隱含主題的關鍵詞分布,其處理過程描繪如下:〔1〕獲取文檔d中每個主題發(fā)生的概率θd,即抽取服從Dirichlet〔α〕分布的θd值,其中α是Dirichlet分布的參數(shù);〔2〕獲取文檔d中每個關鍵詞wi的抽樣主題zi,即從θd的多項式分布中抽取滿足條件的zi:P〔ziα〕;〔3〕獲取文檔d中所有關鍵詞的向量表示wi,即從zj的多項式分布中抽取滿足條件的wi:P〔wizj,β〕。上述處理過程中,β主要用來描繪特定主題條件下生成的某個關鍵詞的概率,是以主題數(shù)目K和特征關鍵詞V組成的二維向量空間為表現(xiàn)形式,即β=K×V,且βij=P〔wj=1zi=1〕。對于給定的語料庫D,LDA主題建模過程就是通過z和θ的值獲取使得P〔Dα,β〕極大化時參數(shù)α和β的值,通過這些參數(shù)值得到文檔的主題分布情況以及所有關鍵詞所屬的主題類別。由于z和θ均為潛在變量,通過直接計算是無法得到的,常用的方法是通過吉布斯抽樣、變分貝葉斯、最大似然估計等方法進展參數(shù)估計[10]。2基于LDA主題模型的標簽推薦方法將LDA主題模型運用到社會化標簽推薦方法中的典型研究包括Harvey等[11]提出的基于LDA主題建模的TTM方法,該方法將標簽系統(tǒng)中的用戶、標簽、資源分別構建相應的主題模型,使其可以估計用戶與資源的主題分布情況以及標簽關鍵詞的主題分布;Subram等[12]將資源的相似性視為依條件概率的隨機過程,并將其融入到標簽主題的建模中,在此根底上提出了基于RegularizedLDA主題建模的標簽推薦方法,驗證了LDA主題模型在標簽推薦方面具有很好的可擴展性。本文在這些研究的根底上,將LDA主題模型融入社會化標簽推薦方法之中,研究和設計了基于LDA主題模型的社會化標簽推薦方法。本文方法與這些已有方法的區(qū)別主要表達在本文方法將社會化標注系統(tǒng)中的用戶、標簽、資源及資源內容特征進展交融分析,構建統(tǒng)一的LDA主題模型,使標簽推薦從傳統(tǒng)的分析對象間關系擴展到交融關系與資源內容特征的綜合分析,實現(xiàn)基于關系與內容特征的主題建模與推薦,該方法的貝葉斯網絡圖如圖2所示。圖2中,D表示文檔資源的總數(shù),N表示文檔資源中資源內容特征關鍵詞的總數(shù),M表示資源標簽中關鍵詞的總數(shù),K表示所有文檔資源中包含的主題總數(shù),L表示所有標簽中包含的主題總數(shù)。利用該模型進展主題建模的過程如下:〔1〕針對任意文檔資源di,抽取服從Dirichlet〔α〕分布的θci和θti,其中,θci表示文檔資源di中主題為k的概率,主要針對文檔資源本身內容特征獲取主題;θti表示文檔資源di的標簽中關鍵詞的主題為l的概率,主要針對文檔資源標簽中的關鍵詞獲取主題;〔2〕針對文檔資源本身內容特征,選取服從Dirichlet〔β〕分布的δk,其中,δk表示對于給定的主題k,所能得到的所有資源特征關鍵詞的概率;針對文檔資源標簽中的關鍵詞,選擇服從Dirichlet〔β〕分布的φl,其中,φl表示對于給定的主題l,所能得到的所有標簽關鍵詞的概率;〔3〕針對文檔資源di中的所有內容特征關鍵詞,根據(jù)抽取的θci得到相應的主題zc,再根據(jù)δzc選擇主題詞wc;針對文檔資源di標簽中的所有標簽關鍵詞,根據(jù)抽取的θti得到相應的主題zt,再根據(jù)φzt選擇主題詞wt。針對上述過程中出現(xiàn)的參數(shù),本文采用吉布斯抽樣方法[13]進展參數(shù)學習,并通過將文檔資源內容和資源標簽進展分割成獨立的文檔單元實現(xiàn)參數(shù)估計,相應的參數(shù)估計方法為:上述公式中各變量的含義如表1所示:3實驗與結果分析本文采用比照實驗法來檢驗所提出的基于LDA主題模型的標簽推薦方法的準確性與效果。3.1實驗數(shù)據(jù)來源實驗數(shù)據(jù)選自美國Minnesota大學計算機科學與工程學院的GroupLens工程組搜集的MovieLens10M100K數(shù)據(jù)集[14]。該數(shù)據(jù)集含有movies.dat、ratings.dat、tags.dat3個文件,其中,movies.dat文件主要存儲電影的編號ID、名稱Title和類別Genres信息,ragings.dat文件主要存儲用戶對電影的評分Rating和評分時間Timestamp信息,tags.dat文件主要存儲用戶對電影標記的標簽Tag和標記時間Timestamp信息。3.2實驗環(huán)境與測評指標實驗環(huán)境為處理器為Inter〔R〕Core〔TM〕4CPU44002.0GHz,內存4G,硬盤500G,操作系統(tǒng)為Windows7,編程語言為Java〔JDK1.6.2〕。實驗測評指標選擇標簽推薦領域常用的推薦準確率〔Precision,P〕、推薦召回率〔Recall,R〕、F1值,其計算方法為:P=TPTP+FP,R=TPTP+FN,F(xiàn)1=2PRP+R其中,TP表示推薦結果與人工評價都認為應該具有的標簽數(shù)量,F(xiàn)P表示推薦結果具有但人工評價認為不該具有的標簽數(shù)量,F(xiàn)N表示推薦結果沒有但人工評價認為應該具有的標簽數(shù)量。3.3實驗過程與結果本文選擇標簽推薦領域常用的FolkRank方法、Hosvd-Direct方法、TTM方法作為參照方法進展比照實驗。實驗結果如表2所示。3.4實驗結果分析通過上述實驗結果可以看出,本文提出的基于LDA主題模型的標簽推薦方法在推薦準確率、推薦召回率、F1值等測評指標上的結果值明顯優(yōu)于現(xiàn)有的標簽推薦方法,可以在實際運用過程中提供更好的標簽推薦效勞。其主要原因在于本文方法綜合運用用戶、標簽、資源及資源內容特征進展統(tǒng)一主題建模,可以在傳統(tǒng)的基于對象關系分析的推薦方法的根底上融入資源內容特征,實現(xiàn)基于對象關系和內容特征的綜合推薦,故可以獲得比傳統(tǒng)推薦方法更好的實驗效果。通過將每個主題下的標簽按照概率進展降序排列,同時記錄各主題下的標簽集,可以得到該主題的直觀標簽表示,表3給出了其中5個主題的前8個推薦標簽。4完畢語標簽是Web2.0時代信息分類與組織的重要方式,是以用戶為中心、用戶參與創(chuàng)立互聯(lián)網內容的主要表現(xiàn)形式。本文針對現(xiàn)有的標簽推薦方法存在的推薦準確性不高和推薦效果不理想等問題,提出了基于LDA主題模型的社會化標簽推薦方法。該方法利用LDA主題建模技術將社會化標注系統(tǒng)中的用戶、標簽、資源及資源內容特征進展統(tǒng)一主題建模,將傳統(tǒng)的基于對象間關系的推薦擴展到基于對象間關系和資源內容特征的綜合推薦。通過在真實的測試數(shù)據(jù)集上進展實驗后說明,交融對象間關系與資源內容特征的推薦方法明顯優(yōu)于現(xiàn)有的標簽推薦方法,可以顯著地進步標簽推薦的質量和效果。參考文獻[1]張斌,張引,高克寧,等.交融關系與內容分析的社會標簽推薦[J].軟件學報,2022,23〔3〕:476-488.[2]SeitlingerP,KowaldD,TrattnerC,etal.Remendingtagswithamodelofhumancategorization[C].Proceedingsofthe22ndACMinternationalconferenceonConferenceoninformationknowledgemanagement.ACM,2022:2381-2386.[3]王海雷,俞學寧.基于隨機游走算法的社會化標簽的用戶推薦[J].計算機工程與設計,2022,34〔7〕:2388-2391.[4]HothoA,JaschkeR,SchmitzC.InformationRetrievalinFolksomomies:SearchandRanking[M].Berlin:Springer,2022:411-426.[5]MishneG.AutoTag:ACollaborativeApproachtoAutomatedTagAssignmentforWeblogPosts[C].Proceedingsofthe15thInternationalConferenceonWorldWideWeb,2022:953-954.[6]趙亞楠,董晶,董佳梁.基于社會化標注的博客標簽推薦方法[J].計算機工程與設計,2022,33〔12〕:4609-4613.[7]AdrianB,SauermannL,Roth-BerghoferT.Contag:ASemanticTagRemendationSystem[J].JournalofUniversityputerScience,2022,36〔7〕:297-304.[8]MarchettiA,TesconoM,RonzanoF.SemKey:ASemanitcCollaborativeTaggingSystem[C].Proceedingsofthe16thInternationalConferenceonWorldWideWeb,2022:8-12.[9]BleiDM,NgAY,JordanMI.LatentD

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論