




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、碩士學(xué)位論文MASTERS DISSERTATION論文題目基于非負(fù)矩陣分解的魯棒推薦算法研究作者姓名陸園麗學(xué)科專業(yè)計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師張付志教授2015年5月中圖分類號(hào):TP391.4UDC: 004學(xué)校代碼:10216密級(jí):公開(kāi)工學(xué)碩士學(xué)位論文基于非負(fù)矩陣分解的魯棒推薦算法研究碩士研究生:陸園麗張付志教授申請(qǐng)學(xué)位工學(xué)碩士學(xué)科專業(yè)計(jì)算機(jī)應(yīng)用技術(shù)所在單位信息科學(xué)與工程學(xué)院2015年5月授予學(xué)位單位:燕山大學(xué)A Dissertation in Computer Application TechnologyRESEARCH ON RECOMMENDATIONALGORITHM BASED ON
2、NONNEGATIVE MATRIXFACTORIZATIONBy Lu YuanliSupervisor: Professor Zhang FuzhiYanshan University燕山大學(xué)碩士學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:此處所提交的碩士學(xué)位論文基于非負(fù)矩陣分解的魯棒推薦算 法研究,是本人在導(dǎo)師指導(dǎo)下,在燕山大學(xué)攻讀碩士學(xué)位期間獨(dú)立進(jìn)行研究工作所 取得的成果。論文中除已注明部分外不包含他人巳發(fā)表或撰寫過(guò)的研究成果。對(duì)本 文的研究工作做出重要貢獻(xiàn)的個(gè)人和集體,均巳在文中以明確方式注明。本聲明的 法律結(jié)果將完全由本人承擔(dān)。作者簽字:日期: 年 月曰燕山大學(xué)碩士學(xué)位論文使用授權(quán)書基于非負(fù)矩
3、陣分解的魯棒推薦算法研究系本人在燕山大學(xué)攻讀碩士學(xué)位期 間在導(dǎo)師指導(dǎo)下完成的碩士學(xué)位論文。本論文的研究成果歸燕山大學(xué)所有,本論文 的研究?jī)?nèi)容不得以其它單位的名義發(fā)表。本人完全了解燕山大學(xué)關(guān)于保存、使用學(xué) 位論文的規(guī)定,同意學(xué)校保留并向有關(guān)部門送交論文的復(fù)印件和電子版本,允許論 文被查閱和借閱。本人授權(quán)燕山大學(xué),可以采用影印、縮印或其它復(fù)制手段保存論 文,可以公布論文的全部或部分內(nèi)容。保密口,在 年解密后適用本授權(quán)書。本學(xué)位論文屬于不保密。(請(qǐng)?jiān)谝陨舷鄳?yīng)方框內(nèi)打“”)作者簽名:日期: 年 月曰導(dǎo)師簽名:日期:年 月曰摘要協(xié)同過(guò)濾推薦技術(shù)面對(duì)惡意用戶向系統(tǒng)中注入虛假概貌來(lái)控制推薦結(jié)果的托攻 擊表現(xiàn)
4、出了脆弱性。雖然已有的研究已經(jīng)提出來(lái)了一些基于矩陣分解的魯棒推薦算 法,但是這些算法仍然表現(xiàn)出來(lái)面對(duì)托攻擊時(shí)的脆弱性和推薦精度較低的問(wèn)題。針 對(duì)上述問(wèn)題,本文在已有研究的基礎(chǔ)上,從損失函數(shù)的構(gòu)造、用戶特征的提取、異 常值檢測(cè)等方面對(duì)魯棒協(xié)同過(guò)濾算法進(jìn)行了深入研究,旨在研究推薦精度高、魯棒 性好的魯棒協(xié)同過(guò)濾推薦算法。主要貢獻(xiàn)包括:第一,提出一種基于非負(fù)矩陣分解的協(xié)同過(guò)濾推薦算法。首先,基于Ri范數(shù)構(gòu) 造魯棒正則化損失函數(shù),利用其沒(méi)有平方項(xiàng)的特點(diǎn),降低了托攻擊對(duì)參數(shù)估計(jì)的影 響。其次,在引入非負(fù)矩陣分解的迭代更新策略基礎(chǔ)上,提出用戶、項(xiàng)目特征矩陣 的迭代優(yōu)化方法,從而保證了預(yù)測(cè)評(píng)分的準(zhǔn)確性和非負(fù)
5、性。再次,構(gòu)造相應(yīng)的魯棒 協(xié)同過(guò)濾算法,并給出了算法的穩(wěn)定性分析,在理論上證明了推薦算法的穩(wěn)定性。第二,提出一種基于信息嫡和非負(fù)矩陣分解的魯棒推薦算法。首先,基于信息 嫡衡量信息價(jià)值的理論,提出了異常值過(guò)濾方法,減小了攻擊概貌對(duì)參數(shù)估計(jì)的影 響。其次,利用Ri范數(shù)構(gòu)造正則項(xiàng),從而得到更加魯棒的正則化損失函數(shù),進(jìn)一步 保證了推薦算法的魯棒性。再次,根據(jù)非負(fù)矩陣分解的迭代策略,構(gòu)造了保證評(píng)分 非負(fù)的隨機(jī)梯度下降的迭代策略,從而得到了準(zhǔn)確且預(yù)測(cè)非負(fù)的推薦算法。第三,設(shè)計(jì)相應(yīng)的魯棒協(xié)同過(guò)濾算法,并在MovieLens數(shù)據(jù)集上驗(yàn)證算法的有效 性并與現(xiàn)有的基于矩陣分解的魯棒協(xié)同過(guò)濾算法進(jìn)行比較。關(guān)鍵詞:托
6、攻擊;魯棒協(xié)同過(guò)濾;Ri范數(shù);損失函數(shù);非負(fù)矩陣分解;信息嫡;正 則化AbstractCollaborative filtering systems are vulnerable to shilling attacks or profile injection attacks in which malicious users can manipulate the systems5 recommendation output by inserting fake profiles. While some robust collaborative filtering methods based on
7、 matrix factorization have been proposed, they suffer from low robustness and recommendation accuracy in the presence of shilling attacks. To solve these problems, on the basis of existing researches, make some depth study of robust recommendation from the construction of loss function, the feature
8、extraction of users, the detection of outliers.Firstly, we propose a robust collaborative filtering recommendation algorithm based on nonnegative matrix factorization. We introduce R -norm to construct a robust regularized loss function which can reduce the influence of shilling attacks on parameter
9、 estimation. Then we propose an iterative optimization method of feature matrices based on the iterative updating algorithm of nonnegative matrix factorization, which guarantees that the predicted ratings are accurate and nonnegative. Finally, we devise a robust collaborative filtering algorithm, an
10、d make an analysis on the stability of the algorithm, which proved the stability of the recommendation algorithm in theory.Secondly, we propose a robust collaborative recommendation algorithm based on entropy of information and nonnegative matrix factorization. Based on the theory of that entropy of
11、 information can measure the value of information, we construct the filtering method of outliers. Then, we construct the regularization item by R-norm, so that the robust regularized loss is obtained and the robustness of the recommendation algorithm is ensured. Finally, applying the principle of NM
12、F to manipulate the learning-rate, we propose an efficient iterative stochastic gradient descent strategy, thus an efficient and accurate recommendation algorithm using which the rating is nonnegative.Finally, we develop the robust collaborative recommendation algorithms and conduct experiments on t
13、he MovieLens dataset to demonstrate its effectiveness, and compared with the traditional robust collaborative recommendation algorithm based on matrix factorization.Keywords: shilling attacks; robust collaborative recommendation; R -norm; loss function; nonnegative matrix factorization; entropy of i
14、nformation; the regularization item-in -目錄 TOC o 1-5 h z HYPERLINK l bookmark16 o Current Document 摘要I HYPERLINK l bookmark19 o Current Document AbstractII HYPERLINK l bookmark33 o Current Document 第1章緒論1 HYPERLINK l bookmark36 o Current Document 1.1研究背景和意義11.2國(guó)內(nèi)外研究現(xiàn)狀31.2.1攻擊檢測(cè)算法的研究現(xiàn)狀3 HYPERLINK l b
15、ookmark43 o Current Document 1.2.2魯棒協(xié)同過(guò)濾的研究現(xiàn)狀3 HYPERLINK l bookmark46 o Current Document 1.3主要研究?jī)?nèi)容4 HYPERLINK l bookmark51 o Current Document 1.4本文組織結(jié)構(gòu)5 HYPERLINK l bookmark60 o Current Document 第2章 基于矩陣分解的魯棒推薦算法和相關(guān)理論知識(shí)7 HYPERLINK l bookmark63 o Current Document 2.1傳統(tǒng)的基于矩陣分解的協(xié)同過(guò)濾模型7 HYPERLINK l book
16、mark66 o Current Document 2.2非負(fù)矩陣分解算法8 HYPERLINK l bookmark69 o Current Document 2.3攻擊模型9 HYPERLINK l bookmark72 o Current Document 2.4符號(hào)描述10 HYPERLINK l bookmark75 o Current Document 2.5本章小結(jié)11 HYPERLINK l bookmark78 o Current Document 第3章 基于非負(fù)矩陣分解的魯棒推薦算法12 HYPERLINK l bookmark81 o Current Document
17、3.1引言12 HYPERLINK l bookmark84 o Current Document 3.2魯棒損失函數(shù)12 HYPERLINK l bookmark90 o Current Document 3.3魯棒正則化損失函數(shù)13 HYPERLINK l bookmark114 o Current Document RCF-NMF 算法描述15 HYPERLINK l bookmark120 o Current Document RCF-NMF算法的時(shí)間復(fù)雜度分析17 HYPERLINK l bookmark123 o Current Document 3.6推薦算法穩(wěn)定性分析17 HY
18、PERLINK l bookmark135 o Current Document 3.7推薦算法魯棒性分析19 HYPERLINK l bookmark157 o Current Document 3.8 本章小結(jié)20 HYPERLINK l bookmark160 o Current Document 第4章 基于信息炳的魯棒非負(fù)矩陣推薦算法21 HYPERLINK l bookmark163 o Current Document 4.1引言214.2基于信息嫡理論的檢測(cè)算法214.2.1背景知識(shí)21 HYPERLINK l bookmark170 o Current Document 4.
19、2.2基于信息炳的異常值過(guò)濾22 HYPERLINK l bookmark173 o Current Document 4.2.3基于信息嫡異常值檢測(cè)的算法描述234.3改進(jìn)的正則化損失函數(shù)234.3.1魯棒正則化損失函數(shù)21 HYPERLINK l bookmark186 o Current Document 4.3.2基于魯棒正則化損失函數(shù)的評(píng)分預(yù)測(cè)算法描述22 HYPERLINK l bookmark192 o Current Document 4.4 IE-RNMF算法的時(shí)間復(fù)雜度分析28 HYPERLINK l bookmark195 o Current Document 4.5本章
20、小結(jié)28 HYPERLINK l bookmark198 o Current Document 第5章實(shí)驗(yàn)與評(píng)價(jià)30 HYPERLINK l bookmark201 o Current Document 5.1實(shí)驗(yàn)數(shù)據(jù)30 HYPERLINK l bookmark204 o Current Document 5.2實(shí)驗(yàn)環(huán)境30 HYPERLINK l bookmark207 o Current Document 5.3實(shí)驗(yàn)設(shè)置31 HYPERLINK l bookmark210 o Current Document 5.4評(píng)價(jià)指標(biāo)31 HYPERLINK l bookmark216 o Cur
21、rent Document 5.5基于非負(fù)矩陣分解的魯棒推薦算法對(duì)比實(shí)驗(yàn)及結(jié)果分析325.5.1對(duì)比算法簡(jiǎn)介32 HYPERLINK l bookmark222 o Current Document RCF- NMF 參數(shù)選取32 HYPERLINK l bookmark226 o Current Document RCF-NMF準(zhǔn)確性比較33 HYPERLINK l bookmark230 o Current Document RCF-NMF魯棒性比較355.6基于信息嫡理論的魯棒協(xié)同過(guò)濾算法性能分析37IE-RNMF對(duì)比算法簡(jiǎn)介37 HYPERLINK l bookmark240 o Cu
22、rrent Document IE-RNMF準(zhǔn)確性比較37 HYPERLINK l bookmark244 o Current Document IE- RNMF魯棒性比較39 HYPERLINK l bookmark248 o Current Document 5.7本章小結(jié)41 HYPERLINK l bookmark251 o Current Document 結(jié)論42 HYPERLINK l bookmark260 o Current Document 參考文獻(xiàn)44 HYPERLINK l bookmark307 o Current Document 攻讀碩士學(xué)位期間承擔(dān)的科研任務(wù)與主
23、要成果48 HYPERLINK l bookmark312 o Current Document 致謝49作者簡(jiǎn)介50第1章緒論隨著互聯(lián)網(wǎng)和電子商務(wù)的蓬勃發(fā)展,人們逐漸步入了信息過(guò)載時(shí)代,而且信息 量逐漸增多,用戶和商家如何在信息的海洋里發(fā)現(xiàn)自己感興趣和有用的信息越來(lái)越 困難,這使得推薦系統(tǒng)受到了廣泛的關(guān)注,同時(shí)無(wú)疑促進(jìn)了推薦系統(tǒng)的發(fā)展。在商 務(wù)網(wǎng)站中,不乏一些商家等利用特殊的手段引導(dǎo)用戶選擇其商品,從而給自己帶來(lái) 更多的利益而損失了用戶的利益。這無(wú)疑推動(dòng)了魯棒推薦系統(tǒng)的進(jìn)步,使得魯棒推 薦算法具有更好的實(shí)用價(jià)值。協(xié)同過(guò)濾技術(shù)是眾多推薦方法中最流行的技術(shù)之一, 它能有效的解決人們面對(duì)信息過(guò)載所
24、帶來(lái)的一系列問(wèn)題,其被廣泛應(yīng)用在商務(wù)網(wǎng)站 _h (如Amazon, eBay, Netflix)來(lái)幫助他們的用戶決定購(gòu)買自己所需的商品。1.1研究背景和意義推薦系統(tǒng)是根據(jù)用戶的興趣特點(diǎn)和購(gòu)買行為,向用戶推薦其感興趣的信息和商 品。協(xié)同過(guò)濾是個(gè)性化推薦的重要技術(shù)之一,其是根據(jù)用戶概貌所挖掘出來(lái)的用戶 興趣及關(guān)系網(wǎng)絡(luò)的信息將用戶最可能喜好的商品推薦給他,那么由此可知,協(xié)同過(guò) 濾算法的推薦質(zhì)量主要取決于用戶概貌所涵蓋的信息。這種推薦方式存在安全缺陷。 由于網(wǎng)絡(luò)的開(kāi)放性和推薦系統(tǒng)自身的開(kāi)放性,惡意用戶可以通過(guò)提供的虛假信息扭 曲推薦事實(shí),以有利于自己的利益。這種通過(guò)注入虛假用戶概貌信息來(lái)試圖改變推 薦
25、結(jié)果的攻擊被稱為用戶概貌注入攻擊或者托攻擊,其中虛假的概貌被稱為攻擊概 貌,真實(shí)的用戶概貌成為真實(shí)概貌。根據(jù)攻擊目的的不同,托攻擊可以被分為推攻 擊和核攻擊,分別提高和降低對(duì)目標(biāo)項(xiàng)目的評(píng)分。例如對(duì)目標(biāo)項(xiàng)目給出最高的評(píng)分 來(lái)干擾推薦系統(tǒng)的推薦過(guò)程從而使推薦系統(tǒng)對(duì)目標(biāo)用戶作出的推薦偏向于惡意用戶 的利益,而不是用戶所真正喜好的,這樣的惡意用戶的行為即是托攻擊中的推攻擊, 這樣的系統(tǒng)所帶來(lái)的利益將會(huì)嚴(yán)重的偏向于攻擊用戶,而推薦系統(tǒng)的目的是挖掘用 戶的喜好偏向于用戶的利益。同時(shí),已有的研究表明,托攻擊根據(jù)其構(gòu)建攻擊模型 的目的和方法的不同,其攻擊類型主要包括:均值攻擊、隨機(jī)攻擊、流行攻擊等。 由協(xié)同過(guò)
26、濾算法的理念可知,攻擊概貌的存在使得推薦算法利用用戶概貌挖掘的預(yù) 測(cè)信息將會(huì)與真實(shí)的推薦結(jié)果之間產(chǎn)生偏差,而最終失去推薦系統(tǒng)的實(shí)用價(jià)值甚至 做出錯(cuò)誤的推薦。那么,在存在托攻擊的條件下,怎么確保推薦系統(tǒng)的可信賴性成 為一關(guān)鍵的問(wèn)題。為抑制托攻擊對(duì)推薦系統(tǒng)的影響,一種方法是在推薦系統(tǒng)形成之前進(jìn)行攻擊檢 測(cè),使得惡意用戶的概貌不再參加到推薦系統(tǒng)的構(gòu)造過(guò)程,從而達(dá)到保證推薦系統(tǒng) 可信賴性的目的。目前,攻擊檢測(cè)領(lǐng)域已經(jīng)有很多有效的攻擊檢測(cè)算法。另一種方 法是構(gòu)造魯棒推薦算法,通過(guò)提高推薦算法內(nèi)在的魯棒性來(lái)抵抗惡意攻擊。魯棒性, 即健壯性,指當(dāng)系統(tǒng)中存在惡意用戶時(shí)推薦系統(tǒng)仍能給出準(zhǔn)確的結(jié)果,正常工作, 而
27、不受異常信息的干擾。當(dāng)前已經(jīng)有很多魯棒推薦算法被提出,分別從不同的角度 構(gòu)造推薦算法從而保證推薦算法的魯棒性,如主成分分析、概率矩陣分解、魯棒統(tǒng) 計(jì)等方法。協(xié)同過(guò)濾技術(shù)主要包括基于內(nèi)容的協(xié)同過(guò)濾和基于模型的協(xié)同過(guò)濾。而基于內(nèi) 容的方法又分為基于用戶的協(xié)同過(guò)濾和基于項(xiàng)目的協(xié)同過(guò)濾,這兩種方法主要是通 過(guò)融合鄰居用或者鄰居項(xiàng)目的評(píng)分對(duì)目標(biāo)用戶的喜好進(jìn)行預(yù)測(cè),其中鄰居用戶(或 項(xiàng)目)的選取是基于相似度的度量方法。已有的研究表明,基于內(nèi)容的協(xié)同過(guò)濾可 以通過(guò)構(gòu)造特殊的的相似度的度量公式來(lái)選取鄰居用戶,達(dá)到抵抗攻擊概貌的影響。 基于模型的方法通過(guò)挖掘用戶及項(xiàng)目的信息構(gòu)造推薦模型,利用已知的信息進(jìn)行模 型
28、的訓(xùn)練從而獲得一個(gè)最優(yōu)的推薦模型,然后利用訓(xùn)練所得的模型對(duì)目標(biāo)用戶進(jìn)行 推薦,例如基于矩陣分解的協(xié)同過(guò)濾模型利用已知的用戶評(píng)分訓(xùn)練用戶特征矩陣和 項(xiàng)目特征矩陣,最終利用訓(xùn)練得到的特征矩陣進(jìn)行結(jié)果的預(yù)測(cè)?;谀P偷姆椒ò?括基于矩陣分解的協(xié)同過(guò)濾推薦算法和基于概率推薦算法等。研究發(fā)現(xiàn),基于模型 的協(xié)同過(guò)濾推薦算法可以利用魯棒估計(jì)量和結(jié)合其他方法等使得推薦系統(tǒng)本身具有 較高魯棒性?;诰仃嚪纸獾膮f(xié)同過(guò)濾算法作為一種非常流行、擴(kuò)展性較好且魯棒性較高的 算法,在電子商務(wù)中得到廣泛的應(yīng)用。研究者從不同角度提高了基于矩陣分解的推 薦算法的魯棒性。本課題旨在構(gòu)造存在攻擊概貌時(shí)能夠做出正確推薦的魯棒協(xié)同過(guò) 濾
29、算法,首先,利用范數(shù)的性質(zhì)構(gòu)造魯棒的損失函數(shù),從源頭出發(fā)抑制攻擊概貌的 影響,并依據(jù)非負(fù)矩陣分解的理論構(gòu)造準(zhǔn)確的迭代策略,并且得出非負(fù)的預(yù)測(cè)結(jié)果, 同時(shí),對(duì)所構(gòu)造的推薦算法進(jìn)行了穩(wěn)定性和魯棒性分析,在理論上證明了所構(gòu)造的 算法具有較好的穩(wěn)定性和魯棒性。其次,本課題基于信息炳的理論提出了過(guò)濾攻擊 概貌的方法,進(jìn)一步解決了基于矩陣分解算法魯棒性不高的問(wèn)題,從另一個(gè)角度提 高了推薦算法的魯棒性,再此基礎(chǔ)上,利用范數(shù)的性質(zhì)構(gòu)造正則項(xiàng),防止推薦算法 過(guò)擬合的同時(shí)進(jìn)一步提高了推薦算法的魯棒性。本課題從不同角度解決了推薦算法 的魯棒性不高的問(wèn)題,并且把信息論的相關(guān)理論引入推薦系統(tǒng)中,使得信息領(lǐng)域與 推薦系統(tǒng)
30、領(lǐng)域相結(jié)合,進(jìn)一步了深化對(duì)魯棒的協(xié)同過(guò)濾算法的研究,另一方面,由 于其保證了評(píng)分的非負(fù)性,具有更好的現(xiàn)實(shí)意義,應(yīng)用于推薦系統(tǒng)領(lǐng)域具有較好的 實(shí)用性。1.2國(guó)內(nèi)外研究現(xiàn)狀1.2.1攻擊檢測(cè)算法的研究現(xiàn)狀為了在運(yùn)行協(xié)同過(guò)濾算法之前進(jìn)行攻擊檢測(cè)并過(guò)濾出攻擊概貌,現(xiàn)有研究采用 多種方法進(jìn)行了探討和研究。Chirita4等通過(guò)分析攻擊概貌的評(píng)分形式提出了一系列 統(tǒng)計(jì)指標(biāo)來(lái)檢測(cè)托攻擊。在文獻(xiàn)5、文獻(xiàn)6、文獻(xiàn)7中,三種有監(jiān)督的分類方法被 用來(lái)進(jìn)行攻擊檢測(cè)。當(dāng)考慮更多的特征時(shí),這些分類器在多種填充規(guī)模和攻擊規(guī)模 下均表現(xiàn)出了比Chirita等提出的方法更好的攻擊檢測(cè)性能。文獻(xiàn)8中提出了基于主 成分分析的攻擊檢
31、測(cè)算法,該算法利用攻擊概貌之間較高的關(guān)聯(lián)性從真實(shí)概貌中區(qū) 分出攻擊概貌。文獻(xiàn)9提出了無(wú)監(jiān)督的方法來(lái)區(qū)別出攻擊概貌,該算法對(duì)于隨機(jī)攻 擊和均值攻擊具有較好的攻擊檢測(cè)效果。一種基于屬性特征的聚類方法在文獻(xiàn)10 中被提出,用來(lái)區(qū)分攻擊概貌。該算法利用攻擊概貌的一系列屬性將用戶概貌聚為 兩類,其中較小的一類被認(rèn)為是攻擊概貌。文獻(xiàn)11基于奈曼皮爾遜檢測(cè)理論提出了 一種攻擊概貌檢測(cè)模型,該模型被認(rèn)為對(duì)于一般攻擊的檢測(cè)非常有效。1.2.2魯棒協(xié)同過(guò)濾的研究現(xiàn)狀在托攻擊存在的情況下,能夠抵抗攻擊的魯棒協(xié)同過(guò)濾算法得到了廣泛的研究。 為了降低攻擊概貌對(duì)評(píng)分預(yù)測(cè)的影響,Ortega等人提出的一種魯棒的相似度計(jì)算
32、方法,基于帕累托占優(yōu)機(jī)制選取目標(biāo)用戶的相似鄰居集,降低了在目標(biāo)用戶的鄰居 集中出現(xiàn)攻擊概貌的概率,提高了相似度計(jì)算的可信性。Chen等人提出基于概率 潛在語(yǔ)義分析模型(PLSA),通過(guò)計(jì)算不同潛在變量前提下用戶的條件概率,挖掘 用戶和項(xiàng)目之間的隱藏的依賴關(guān)系,從而過(guò)濾掉大部分攻擊概貌。李聰?shù)热薎提出 了元信息增強(qiáng)變分貝葉斯矩陣分解方法,從而構(gòu)造了一種基于概率矩陣分解的魯棒 推薦模型,將用戶的嫌疑性及項(xiàng)類屬等一些元信息與貝葉斯概率矩陣分解模型相融 合,從而達(dá)到了弱化評(píng)分噪聲所帶來(lái)的負(fù)面影響的目的。O,Mahony等人海局提出 了智能選取鄰居和轉(zhuǎn)換相似度的方法,文獻(xiàn)18中提出了基于關(guān)鍵規(guī)則挖掘的協(xié)
33、同過(guò) 濾推薦算法,該算法利用Apriori算法產(chǎn)生相似項(xiàng)目群之間的關(guān)聯(lián)規(guī)則,并利用關(guān)聯(lián) 規(guī)則里具有最高信任值的項(xiàng)目對(duì)目標(biāo)用戶進(jìn)行推薦。M估計(jì)法在文獻(xiàn)19中被用來(lái)構(gòu) 造魯棒的矩陣因式分解算法(MMF),該算法被證實(shí)是對(duì)一般的攻擊具有較好的魯棒 性。文獻(xiàn)20利用PCA-VarSelect算法檢測(cè)并標(biāo)識(shí)可疑用戶,該魯棒算法利用奇異值 分解的方法分解評(píng)分矩陣同時(shí)對(duì)標(biāo)識(shí)的可疑用戶做特殊處理。文獻(xiàn)21中提出了一種 基于截?cái)嘧钚《?LTS)估計(jì)量的矩陣分解模型,與基于M-估計(jì)量的推薦方法相 比,基于LTS的矩陣分解模型具有更好的魯棒性。LTS方法要消減掉殘差較大的一 部分,使得部分真實(shí)用戶的信息也可能被舍
34、棄,這就導(dǎo)致了精度的損失。盡管已有的研究已經(jīng)從不同方面提出了一系列的基于矩陣分解的魯棒協(xié)同過(guò)濾 算法,但是這些算法仍存在一些局限性。一方面,由于基于矩陣分解的推薦算法利 用用戶和項(xiàng)目特征來(lái)預(yù)測(cè)目標(biāo)用戶對(duì)目標(biāo)項(xiàng)目的評(píng)分預(yù)測(cè),所以在托攻擊下,基于 矩陣分解模型的參數(shù)估計(jì)容易受到影響,而且其傳統(tǒng)的損失函數(shù)中包含平方項(xiàng),這 樣進(jìn)一步擴(kuò)大了攻擊概貌的影響,從而產(chǎn)生較大的估計(jì)誤差。此外,利用基于矩陣 分解的算法在不進(jìn)行特殊限制的情況下,用戶特征矩陣、項(xiàng)目特征矩陣中的元素可 能為負(fù)值,利用這樣的推薦模型做出的預(yù)測(cè)可能導(dǎo)致預(yù)測(cè)的評(píng)分值為負(fù)數(shù),然而負(fù) 數(shù)的評(píng)分值對(duì)于推薦系統(tǒng)是沒(méi)有意義的。另一方面,基于矩陣分解的
35、推薦模型為保 證推薦算法的魯棒性往往需要過(guò)濾掉一些異常值,而過(guò)濾掉的這些數(shù)據(jù)里包含了一 定數(shù)量的真實(shí)用戶,這樣造成了一定的精度損失而且損失一般比較明顯,而且在評(píng) 分極度稀疏的情況下,為排除異常值所選取的方法將會(huì)存在參數(shù)選取,距離選取等 問(wèn)題。1.3主要研究?jī)?nèi)容目前,研究人員已經(jīng)提出了很多基于矩陣分解的協(xié)同過(guò)濾推薦算法,但是仍然 存在著不足之處。針對(duì)已有的基于矩陣分解的魯棒協(xié)同過(guò)濾推薦算法中存在的缺陷 和不足,本文旨在研究穩(wěn)定性好、推薦精度高、魯棒性好的協(xié)同過(guò)濾推薦算法,從 損失函數(shù)、參數(shù)估計(jì)、特征選取、攻擊概貌的過(guò)濾等幾方面展開(kāi)研究,構(gòu)造魯棒的 損失函數(shù)和保證評(píng)分非負(fù)的迭代策略,同時(shí)在保證推薦
36、精度的情況下進(jìn)行惡意用戶 的過(guò)濾。結(jié)合矩陣分析、信息嫡等理論,主要研究?jī)?nèi)容為基于非負(fù)矩陣分解的魯棒 推薦算法,具體如下基于非負(fù)矩陣分解的魯棒協(xié)同過(guò)濾推薦算法依據(jù)范數(shù)的魯棒性和評(píng)分的非負(fù)性,提出了一種基于非負(fù)矩陣分解的協(xié)同過(guò)濾 算法。首先,基于Ri范數(shù),研究魯棒損失函數(shù)的構(gòu)建方法;其次,基于正則化理論, 研究防止過(guò)擬合的魯棒損失函數(shù);進(jìn)而,基于非負(fù)矩陣分解,研究保證用戶、項(xiàng)目 特征矩陣元素非負(fù)的迭代更新策略;最后,基于概率統(tǒng)計(jì)中大數(shù)定律的理論,對(duì)算 法進(jìn)行穩(wěn)定性分析和魯棒性分析?;谛畔⒌绽碚摰聂敯舴秦?fù)矩陣推薦算法依據(jù)信息嫡的信息領(lǐng)域及數(shù)學(xué)領(lǐng)域的理論,并依據(jù)評(píng)分非負(fù)性和魯棒范數(shù)的理 論,研究魯棒
37、的基于非負(fù)矩陣分解的推薦算法。首先,基于信息嫡理論,研究惡意 用戶檢測(cè)并排除異常信息的方法,將異常值分離出來(lái);然后,基于R1范數(shù),研究魯 棒的正則項(xiàng)的構(gòu)造方法,從而構(gòu)造更加魯棒的損失函數(shù);最后,基于非負(fù)矩陣分解 算法的迭代更新策略,研究基于魯棒正則化損失函數(shù)的用戶、項(xiàng)目特征矩陣迭代更 新策略。1.4本文組織結(jié)構(gòu)本論文共分5章,從第2章起各章具體組織結(jié)構(gòu)如下第2章介紹傳統(tǒng)的基于矩陣分解的協(xié)同過(guò)濾算法、非負(fù)矩陣分解算法和攻擊模 型。首先,對(duì)基于矩陣分解的協(xié)同過(guò)濾算法進(jìn)行介紹;其次,對(duì)非負(fù)矩陣分解算法 進(jìn)行了簡(jiǎn)單的介紹和描述;再次,對(duì)攻擊模型進(jìn)行了簡(jiǎn)要的介紹和描述,以有利于 對(duì)魯棒算法構(gòu)建過(guò)程的理解
38、;最后,對(duì)本文中所用的符號(hào)進(jìn)行了簡(jiǎn)單的描述,方便 在之后的論述中應(yīng)用。第3章提出一種基于非負(fù)矩陣分解的魯棒協(xié)同過(guò)濾推薦算法。首先,對(duì)Ri范數(shù) 進(jìn)行簡(jiǎn)單介紹,并基于范數(shù)構(gòu)建魯棒的損失函數(shù);其次,根據(jù)正則化理論,構(gòu)造 能夠防止過(guò)擬合的正則化魯棒損失函數(shù);再次,依據(jù)非負(fù)矩陣分解理論,構(gòu)造保證 評(píng)分非負(fù)的特征矩陣迭代更新策略;最后,給出基于非負(fù)矩陣分解的魯棒協(xié)同過(guò)濾 算法的穩(wěn)定性分析。第4章提出一種基于信息嫡理論的魯棒非負(fù)矩陣推薦算法。首先,對(duì)信息炳進(jìn)行 簡(jiǎn)要的介紹,緊接著研究基于信息嫡理論的攻擊概貌過(guò)濾方法;然后,基于Ri范數(shù), 構(gòu)造魯棒的正則項(xiàng),形成了更加魯棒的正則化損失函數(shù);在此基礎(chǔ)上,基于非負(fù)
39、矩 陣分解的迭代更新理論,研究基于魯棒正則化損失函數(shù)的推薦模型的迭代策略;最 后給出相應(yīng)的魯棒協(xié)同過(guò)濾推薦算法。第5章為實(shí)驗(yàn)與評(píng)價(jià)。首先,對(duì)實(shí)驗(yàn)環(huán)境、實(shí)驗(yàn)設(shè)置以及數(shù)據(jù)集進(jìn)行了簡(jiǎn)單的 介紹;其次,對(duì)對(duì)比算法進(jìn)行了簡(jiǎn)單介紹;然后,對(duì)本文提出的基于非負(fù)矩陣分解 的魯棒協(xié)同過(guò)濾算法進(jìn)行了參數(shù)選取的說(shuō)明,同時(shí)與已有的較為流行的魯棒協(xié)同過(guò) 濾推薦算法進(jìn)行了實(shí)驗(yàn)對(duì)比和分析,最后對(duì)本文提出了基于信息嫡的魯棒非負(fù)矩陣 推薦算法與已有的魯棒推薦算法進(jìn)行實(shí)驗(yàn)對(duì)比和分析,同時(shí)還與基于非負(fù)矩陣分解 的魯棒協(xié)同過(guò)濾算法進(jìn)行了實(shí)驗(yàn)結(jié)果的對(duì)比和分析。最后是本文的結(jié)論部分。此部分總結(jié)了本文的研究成果同時(shí)對(duì)未來(lái)工作進(jìn)行了 展望和
40、分析。第2章基于矩陣分解的魯棒推薦算法和相關(guān)理論知識(shí)基于模型的協(xié)同過(guò)濾基于已有的用戶喜好信息,訓(xùn)練出一個(gè)預(yù)測(cè)用戶喜好的模 型,利用訓(xùn)練好的模型在以后用戶進(jìn)入系統(tǒng)時(shí)可以對(duì)用戶作出推薦。基于模型的協(xié) 同過(guò)濾算法依據(jù)其構(gòu)造模型的方法不同分為基于矩陣分解的協(xié)同過(guò)濾和基于概率的 協(xié)同過(guò)濾等。而基于矩陣分解的推薦算法是協(xié)同過(guò)濾技術(shù)中一種常見(jiàn)并廣泛應(yīng)用的 方法,由于其具有較好的擴(kuò)展性和推薦精度受到更多的青睞。2.1傳統(tǒng)的基于矩陣分解的協(xié)同過(guò)濾模型矩陣分解模型將用戶、項(xiàng)目映射到一個(gè)/維的聯(lián)合潛在特征空間,利用該空間 上用戶因子和項(xiàng)目因子實(shí)現(xiàn)當(dāng)前用戶喜好的預(yù)測(cè),其表達(dá)式為:r=(/p。其中,r (mxn的實(shí)矩陣
41、)為預(yù)測(cè)評(píng)分矩陣,P =(P1,P2,P)C:I為用戶特征矩陣,Q = (q】,q2,q“)eEl -為項(xiàng)目特征矩陣。假設(shè)矩陣R表示用戶項(xiàng)目評(píng)分矩陣,U為 個(gè)用戶的集合,I為個(gè)項(xiàng)目的集合,元素垢為用戶對(duì)項(xiàng)目,的評(píng)分。那么,利 用用戶祖的特征向量和項(xiàng)目z的特征向量就可以實(shí)現(xiàn)用戶對(duì)項(xiàng)目7評(píng)分預(yù)測(cè),預(yù)測(cè)評(píng) 分九的預(yù)測(cè)值定義為(2-1)式。qp(2-1)矩陣分解模型中的參數(shù)估計(jì)就是尋找一個(gè)低秩矩陣R來(lái)最大程度的逼近評(píng)分矩 陣R,即最小化矩陣R與R之間的損失函數(shù)。不失一般性,將損失函數(shù)定義為 (R,R)o通過(guò)最小化損失函數(shù)乙得到用戶、項(xiàng)目特征矩陣,公式為(2-2)式。(P, Q= arg R *(2-2
42、)為了學(xué)習(xí)用戶、項(xiàng)目特征向量(Pu和),在評(píng)分矩陣低秩逼近中通常采用平方 誤差函數(shù)即Frobenius范數(shù)作為損失函數(shù)其形式為(2-3)式。/m(2-3在(2-3)式中,下為訓(xùn)練集中用戶-項(xiàng)目的集合。進(jìn)一步根據(jù)公式(2-3)采用適當(dāng)?shù)淖钚』椒ǎㄈ珉S機(jī)梯度下降法等方法),實(shí)現(xiàn) 對(duì)于用戶、項(xiàng)目特征矩陣的優(yōu)化求解。求解的過(guò)程即通過(guò)不斷地迭代訓(xùn)練得到用于 評(píng)分預(yù)測(cè)的用戶特征矩陣和項(xiàng)目特征矩陣。在基于矩陣分解的推薦算法發(fā)展過(guò)程中,研究人員將其與概率理論、魯棒參數(shù) 估計(jì)理論、以及基于內(nèi)容的方法相結(jié)合,從推薦系統(tǒng)本身出發(fā),提高系統(tǒng)內(nèi)在的魯 棒性質(zhì),從而解決了推薦系統(tǒng)準(zhǔn)確性、穩(wěn)定性和魯棒性的不同方面的問(wèn)題,
43、這種解 決方法避免了推薦精度的過(guò)多損失。由于基于矩陣分解的協(xié)同過(guò)濾主要是依據(jù)其評(píng)分?jǐn)?shù)據(jù)挖掘用戶特征和項(xiàng)目特 征,最終利用該兩種特征進(jìn)行預(yù)測(cè),當(dāng)推薦系統(tǒng)中存在攻擊時(shí),惡意用戶將會(huì)參加 到模型的訓(xùn)練過(guò)程,這樣所挖掘的用戶特征中將包含惡意用戶所提供的信息,那么 用戶特征矩陣P將會(huì)包含惡意用戶帶來(lái)的惡意信息,從而造成依據(jù)其估計(jì)的預(yù)測(cè)評(píng) 分將會(huì)產(chǎn)生偏差從而偏向惡意用戶帶來(lái)的趨勢(shì)。另一個(gè)容易受到攻擊概貌影響的原 因是損失函數(shù)的選擇,平方項(xiàng)能夠擴(kuò)大誤差,增強(qiáng)對(duì)平方值影響的效果。為了降低 惡意用戶的影響,一方面基于矩陣分解的魯棒推薦算法,通常依據(jù)魯棒統(tǒng)計(jì)的理論, 利用魯棒估計(jì)量來(lái)保證基于矩陣分解算法的魯棒性和
44、準(zhǔn)確性;另一方面,采用聚類 技術(shù)將惡意用戶歸為一類并將其剔除,再利用魯棒估計(jì)量進(jìn)行估計(jì)時(shí)惡意用戶將不 再參加模型的訓(xùn)練過(guò)程,從而達(dá)到魯棒估計(jì)的目的,最終給出準(zhǔn)確的預(yù)測(cè)評(píng)分。基 于矩陣分解的方法并沒(méi)有考慮到評(píng)分?jǐn)?shù)據(jù)等其他一些數(shù)據(jù)集其中全為正數(shù)而不包括 任何負(fù)數(shù)的問(wèn)題。當(dāng)利用其進(jìn)行推薦時(shí),可能會(huì)產(chǎn)生負(fù)數(shù)的推薦結(jié)果,使得推薦系 統(tǒng)產(chǎn)生異常,從而失去其實(shí)用意義。2.2非負(fù)矩陣分解算法非負(fù)矩陣分解(NMF) m23是一種有效的降維方法,將一個(gè)非負(fù)矩陣近似分解 為兩個(gè)低秩的非負(fù)矩陣因子。利用其非負(fù)性和有效降為低秩矩陣的特點(diǎn),非負(fù)矩陣 分解方法被廣泛應(yīng)用于圖像處理領(lǐng)域。NMF方法的求解過(guò)程可以通過(guò)下面來(lái)描述
45、。巳知n個(gè)非負(fù)的m維向量構(gòu)成的非 負(fù)矩陣VeD 和矩陣分解的秩尸vmin機(jī), NMF試圖尋找兩個(gè)低秩非負(fù)矩陣 WeQ 和HeQ 使得V幻WH。與一般的矩陣分解不同,非負(fù)矩陣分解對(duì)衡量V 和WH之間相似程度的損失函數(shù)在保證W和H非負(fù)性的條件下進(jìn)行優(yōu)化處理,從而 實(shí)現(xiàn)近似矩陣分解V幻1WH同時(shí)保證分解后的兩個(gè)低秩矩陣的所有元素均為非負(fù) 數(shù)。非負(fù)矩陣分解的方法也通常選擇最小二乘損失函數(shù)來(lái)實(shí)現(xiàn)優(yōu)化I,表示為(2-4) 式。 TOC o 1-5 h z 以 W,H)=|V-WUp& = 眼官M(fèi)normq岫葺奇妃,norm。和hdn虹=o因此,迭代公式最終簡(jiǎn)化為公式(3-15)和(3-16)。(3-16)
46、(3-15)均5做而做3.4 RCF-NMF算法描述基于上面的描述,RCF-NMF的算法描述如下:初始化特征矩陣W, H,構(gòu)造基于虬范數(shù)的魯棒正則化損失函數(shù),zJRr)。利用基于非負(fù)矩陣分解算法提出的迭代更新策略獲得特征矩陣W, Ho利用rm = w“h, 1計(jì)算預(yù)測(cè)評(píng)分九o算法 3.1: RCF-NMF輸入:用戶項(xiàng)目評(píng)分矩陣R,聯(lián)合特征空間維度/;正則因子,和扁輸出:目標(biāo)用戶U對(duì)目標(biāo)項(xiàng)目i的預(yù)測(cè)評(píng)分&。1: Initialize the feature matrices W, H.2: repeat3: for each g k do4:5:6:-07:for each u&Ul do8:s
47、umsum+ gj9:end for10:norm_Ci sqrt(sum)11:for =1 to f do12:成 -如爪 +知 x心 /norm_el3:訛機(jī)沙 0,于是得到 知-|鳳20,也就是說(shuō),|Z槌風(fēng)。對(duì)于一個(gè)用戶項(xiàng)目評(píng)分矩陣來(lái)說(shuō),由于當(dāng)(京)時(shí),匡(x)l=%,那么很明 顯的可以得到時(shí)(X)Lqg(X)|。同理,當(dāng)(W,z) T時(shí),E(X)L=0,也就是 IB(x)h=|B(x)|。于是,那么用戶項(xiàng)目矩陣x滿足 k(x)Lh(RMSE倒/nA o峪VJTj定理3.1存在一個(gè)常數(shù)C,在概率不小于1-2e-”的條件下,(3-19)在(3-19)中,A:NmaxjR;|。證明:由于訓(xùn)
48、練集T為隨機(jī)均勻取樣且矩陣R*滿足Hoeffding不等式,依據(jù)文獻(xiàn)29, 得到公式(3-20) o1心枳小-Rl -矗略乳(咿)(3-20) 在(3-20)中,C為絕對(duì)常數(shù),陣max,,K|。由等式(3-17)的評(píng)價(jià)指標(biāo)的公式可得那么由不等式(3-19)所定義的差值函數(shù)可知如心枳JR一心仞+矗同由推論可知RMSE-修*-昧+仞+擊回由于R*是目標(biāo)不等式(3-8)的最優(yōu)解,可以得到RMSE源E 扁 +&)+,+-=吼mn111依據(jù)所定義的差值函數(shù)不等式可知,函限制I網(wǎng)疽地由于推論對(duì)于任意的矩陣Z都滿足,那么對(duì)于誤差矩陣也滿足該條件,那么可以得到RMSE的范圍。證畢。當(dāng)園日 )時(shí),公式(3-18
49、)中不等式右端的最后一項(xiàng)將趨近于零,于是RMSE的變化情況基本上受E中元素值影響,也就是說(shuō)RMSE是穩(wěn)定的。由此可知,NMF-CF算法是穩(wěn)定的,也就是說(shuō),根據(jù)本文提出基于虬范數(shù)的損失函數(shù)求得最優(yōu)解接近于真實(shí)值。通過(guò)上述分析可知,通過(guò)理論證明,本文所提出的推薦算法是穩(wěn)定的,與傳統(tǒng) 的基于矩陣分解的協(xié)同過(guò)濾算法相類似,呈現(xiàn)出基本相同的穩(wěn)定性。通過(guò)對(duì)比分析 可知,本章所提出的方法更進(jìn)一步縮小了 RMSE的范圍,從而更能說(shuō)明其穩(wěn)定性。3.7推薦算法魯棒性分析為方便說(shuō)明,將加入攻擊后的評(píng)分矩陣重新排序得到-人-A,Rel 為真實(shí)用戶的評(píng)分矩陣,AgQ 為所有惡意用戶的評(píng)分矩陣。本文用A,表示惡意用戶對(duì)
50、填充項(xiàng)目(filler item)的正常的評(píng)分,用A表示惡意用戶對(duì)目標(biāo)項(xiàng)目(target item)的評(píng) 分。由于推薦算法是對(duì)誠(chéng)實(shí)用戶的評(píng)分進(jìn)行預(yù)測(cè),所以判斷算法穩(wěn)定性的正常評(píng)分R*-RA*-A-f 矩陣為,惡意評(píng)分項(xiàng)為。于是,優(yōu)化估計(jì)導(dǎo)致的誤差矩陣為Z =推論3.2假設(shè)惡意用戶攻擊項(xiàng)目的最大數(shù)目為s.,而且定理中所有的條件均得 到滿足,那么存在常數(shù)Q,使得RMSE2ksm帶京1(+久)尸1。新7+久)4(3-21)在公式(3-21)中,上ZmaxjRj。證明:當(dāng) max,j|Rj 時(shí)1=1 y j=ilsin(c nain ax | na,kl 以力必展皿爪V i=l j=li=l 11-由
51、定理3.1可知PMSE a_ _|a_ + CkylT lmnI=駝 nax1(+510g(+G)YI1(+%10g(+a)Y通過(guò)對(duì)于均方根誤差的分析可知,本章所提出的方法在一定范圍內(nèi)是魯棒的, 當(dāng)攻擊規(guī)模在一定限度內(nèi)時(shí),算法的均方根誤差基本上趨于零。但是當(dāng)攻擊概貌規(guī) 模很大時(shí),其數(shù)據(jù)將不能夠被忽略,算法的魯棒性將會(huì)受到一定的影響,推薦的準(zhǔn) 確性將降低。從傳統(tǒng)的基于矩陣分解的協(xié)同過(guò)濾算法分析可知,傳統(tǒng)的協(xié)同過(guò)濾推 薦也存在同樣的問(wèn)題和趨勢(shì)。由此可知,本章的算法具有較好的魯棒性和實(shí)用性。3.8本章小結(jié)魯棒性,是協(xié)同過(guò)濾推薦算法的一個(gè)非常重要的性質(zhì),對(duì)于其實(shí)際應(yīng)用具有很 重要的意義,如何提高推薦系
52、統(tǒng)的魯棒性,是當(dāng)前一個(gè)很重要的研究課題。本章利 用消除平方項(xiàng)的魯棒損失函數(shù)降低攻擊概貌的影響,保證了推薦算法的魯棒性;基 于Frobenius范數(shù)構(gòu)造正則化的損失函數(shù),防止在迭代優(yōu)化過(guò)程中過(guò)擬合現(xiàn)象的發(fā)生; 基于在非負(fù)矩陣分解的方法基礎(chǔ)上,提出了保證評(píng)分非負(fù)的準(zhǔn)確的用戶、項(xiàng)目特征 矩陣的迭代優(yōu)化方法,提高推薦效率、降低算法復(fù)雜度的同時(shí)保證了評(píng)分的非負(fù)性; 最后,本文給出了 NMF-CF算法算法的穩(wěn)定性和魯棒性的理論證明和分析,并給出 了相應(yīng)的推薦算法。第4章基于信息炳的魯棒非負(fù)矩陣推薦算法4.1引言當(dāng)前已有的算法為提高算法抵抗攻擊的能力,在訓(xùn)練模型前首先進(jìn)行了攻擊檢 測(cè),并將其去除不再參加到模
53、型的訓(xùn)練過(guò)程中,從而降低了惡意用戶的影響。然而, 已有的算法在異常值過(guò)濾時(shí),通常采用基于距離、基于密度等聚類算法,但是由于 評(píng)分?jǐn)?shù)據(jù)是極度稀疏的評(píng)分?jǐn)?shù)據(jù)集,所以距離參數(shù)的選取,數(shù)據(jù)分布的界定以及基 于密度的方法的時(shí)間復(fù)雜度都是較難解決的問(wèn)題。這樣在面對(duì)極度稀疏的評(píng)分?jǐn)?shù)據(jù) 集時(shí),異常值聚類過(guò)程中參數(shù)等一些界定將會(huì)是一個(gè)比較突出的問(wèn)題。另一方法, 在參數(shù)訓(xùn)練的過(guò)程中,為防止過(guò)擬合的正則項(xiàng),通常采用Frobenius-范數(shù)作為其正則 項(xiàng),這樣由于平方項(xiàng)的存在,當(dāng)推薦系統(tǒng)中存在攻擊概貌時(shí),推薦算法容易受到攻 擊概貌的較明顯的干擾。針對(duì)上述問(wèn)題本文提出了基于信息炳的魯棒非負(fù)矩陣推薦算法(IE-RNMF)
54、o首 先,基于信息論中的信息嫡理論,構(gòu)造基于信息嫡的檢測(cè)方法來(lái)進(jìn)行異常值的過(guò)濾, 提高了攻擊概貌過(guò)濾時(shí)的效率,降低了算法的復(fù)雜度。當(dāng)數(shù)據(jù)集極度稀疏時(shí),相對(duì) 于傳統(tǒng)的異常值過(guò)濾技術(shù),該算法顯示出更好的優(yōu)勢(shì)。其次,本文選擇魯棒的范數(shù) 作為正則項(xiàng),構(gòu)造了魯棒的正則化損失函數(shù),從而在防止過(guò)擬合的同時(shí)提高了推薦 算法的魯棒性,達(dá)到更進(jìn)一步提高算法的魯棒性。再次,依據(jù)非負(fù)矩陣分解的迭代 理論,設(shè)計(jì)保證評(píng)分非負(fù)的訓(xùn)練特征矩陣的迭代策略。最后,構(gòu)造相應(yīng)的魯棒的推 薦算法。4.2基于信息炳理論的檢測(cè)算法4.2.1背景知識(shí)信息嫡是評(píng)價(jià)不確定性的一種度量,隨著信息技術(shù)的迅速發(fā)展和數(shù)學(xué)理論的不 斷發(fā)展,被廣泛應(yīng)用在評(píng)
55、價(jià)系統(tǒng)、特征選擇、圖像處理等領(lǐng)域。信息論中,信源所發(fā)出的符號(hào)是不確定,但是可以根據(jù)符號(hào)出現(xiàn)的概率來(lái)判斷 其不確定性,那么概率越大,其不確定性越小。信息嫡的提出就是為了描述信源的 不確定度,其概念是c. E.香農(nóng)從熱力學(xué)中表示分子狀態(tài)混亂程度的物理量熱嫡借 用來(lái)的。不確定性函數(shù)f是概率P的單調(diào)遞降函數(shù)并且滿足可加性,表達(dá)式為(4-1) 式。/(/?) = lo- = -log?(4-1)P在信源中的不確定性考慮的不是某一單個(gè)符號(hào)發(fā)生的不確定性,而是要考慮這 個(gè)信源所有可能發(fā)生情況的平均不確定性。若信源符號(hào)有n種取值:UnUiU,對(duì) 應(yīng)概率為:Pi.p.R,且各種符號(hào)的出現(xiàn)彼此獨(dú)立。這時(shí),信源的平
56、均不確定性應(yīng) 當(dāng)為單個(gè)符號(hào)不確定性一logD的統(tǒng)計(jì)平均值(E),可稱為信息炳,其公式(4-2)o(U)=司一1 o 翁=一1 o 前(4-2)1=1那么,對(duì)于隨機(jī)變量x的信息嫡的計(jì)算公式(4-3)所示。H(x)=Elo 但,1 /亦)=一(婦1。fe血.=L2, .(4-3)公式(4-3)中,x表示隨機(jī)變量,與之相對(duì)應(yīng)的是所有可能輸出的集合,定義為符 號(hào)集,隨機(jī)變量的輸出用x表示。(X)表示輸出概率函數(shù)。變量的不確定性越大, 嫡也就越大。從數(shù)學(xué)角度分析可知,信息嫡通常可以被理解為某種特定信息出現(xiàn)的概率。從 信息傳播的角度來(lái)看,信息嫡通常可以表示某種信息的價(jià)值。協(xié)同過(guò)濾算法的理念 是通過(guò)挖掘用戶
57、概貌的信息對(duì)用戶的喜好進(jìn)行預(yù)測(cè),那么從信息傳播的角度可以認(rèn) 為,協(xié)同過(guò)濾推薦的過(guò)程就是用戶特征信息的傳播,其傳播的過(guò)程就是模型訓(xùn)練的 過(guò)程,傳播的結(jié)果就是對(duì)評(píng)分的預(yù)測(cè)的影響。那么,用戶概貌有關(guān)的信息嫡就可以 理解為在模型訓(xùn)練過(guò)程中的價(jià)值。4.2.2基于信息炳的異常值過(guò)濾由第1章和第2章中對(duì)攻擊模型的介紹可知,根據(jù)惡意用戶的評(píng)分?jǐn)?shù)據(jù)的特點(diǎn) 我們可以將過(guò)濾出,從而抑制其對(duì)模型訓(xùn)練過(guò)程的干擾。惡意用戶針對(duì)于目標(biāo)用戶 做出較大或較小的評(píng)分,而對(duì)于非目標(biāo)用戶其評(píng)分與正常用戶相同,由此可以得到 惡意用戶的評(píng)分所帶來(lái)的信息價(jià)值具有其特殊性,另一方面,由于惡意用戶對(duì)目標(biāo) 用戶的特殊評(píng)分,從而在評(píng)分?jǐn)?shù)據(jù)中也表現(xiàn)
58、出不同的概率分布。那么通過(guò)分析目標(biāo) 用戶的信息炳,該用戶的評(píng)分差值將不被選擇作為參數(shù)訓(xùn)練的過(guò)程,也就是說(shuō)我們 可以判定其為異常值。已有的研究表明,依據(jù)用戶評(píng)分?jǐn)?shù)據(jù)的特點(diǎn)和概率分布,我們可以發(fā)現(xiàn)正常用 戶對(duì)于某一個(gè)項(xiàng)目的評(píng)分值會(huì)在該項(xiàng)目的平均評(píng)分值上下浮動(dòng)的特點(diǎn),所以我們選 取每一個(gè)項(xiàng)目的所有評(píng)分的平均值作為信息嫡中概率計(jì)算的標(biāo)準(zhǔn)。任意一個(gè)項(xiàng)目1的評(píng)分平均值亍為云=聲阿|,其中今*為項(xiàng)目i的所有評(píng)分的總和。于是,可以得到任意一個(gè)用戶J對(duì)項(xiàng)目i的評(píng)分的差值為=勺目。那么,由信息嫡的定義和其在數(shù)學(xué)領(lǐng)域、信息論中的應(yīng)用可知,利用評(píng)分差值 在所有差值中出現(xiàn)的概率,對(duì)于任意一個(gè)用戶j的信息嫡為公式(4-4
59、)所示。H廣-Sg(24)(4-4)公式(4-4)中,p少為7七在所有評(píng)分差值中出現(xiàn)的頻率。那么,由于惡意用戶對(duì)目標(biāo)項(xiàng)目給予較高的評(píng)分,展現(xiàn)出特殊性,利用惡意用 戶所攜帶的信息價(jià)值的特殊性和其評(píng)分差值出現(xiàn)的概率,依據(jù)各個(gè)用戶的信息嫡我 們可以推斷出惡意用戶,從而在評(píng)分預(yù)測(cè)的過(guò)程中,判定為惡意用戶的相關(guān)數(shù)據(jù)將 不會(huì)參與到參數(shù)訓(xùn)練的過(guò)程。4.2.3基于信息炳異常值檢測(cè)的算法描述根據(jù)4.2.2節(jié)描述的算法思想,現(xiàn)將基于信息嫡的惡意用戶檢測(cè)描述如下:算法41基于信息嫡的異常值檢測(cè)輸入:用戶項(xiàng)目評(píng)分矩陣R。輸出:用戶u的信息嫡乩。1: for each (u, z) e x do2:coimt_ i =
60、 count _ i+13:sum_ i = sum_ i+4:ravgt siim_ H count_ i5:for each j g do6:if rJt =rul7:coimt_ ui = count _ ui +18:end9:pHl - coimt_uil coimt_i10:乩 - p“*log2 即11: end for12: end for4.3改進(jìn)的正則化損失函數(shù)4.3.1魯棒正則化損失函數(shù)第3章提出了基于R范數(shù)的魯棒損失函數(shù)損失函數(shù),而且進(jìn)行了魯棒性的驗(yàn)證。由第3章可知,基于R1范數(shù)的魯棒損失函數(shù)為(4-5)式。(4-5)碩r)=|r-虬廣家回K由于& =嗎九,公式(4-5
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 辦公家具購(gòu)買合同書
- 消防器材維修合同
- 養(yǎng)殖場(chǎng)轉(zhuǎn)讓協(xié)議
- 汽車后市場(chǎng)汽車配件供應(yīng)鏈管理方案
- 有機(jī)肥購(gòu)買合同書
- 婚慶策劃服務(wù)合同及免責(zé)條款
- 西北農(nóng)業(yè)大學(xué)合作協(xié)議
- 工會(huì)興趣小組活動(dòng)方案
- 調(diào)研報(bào)告委托協(xié)議
- 建設(shè)工程施工總價(jià)合同
- 彼得圣吉:第五項(xiàng)修煉課件
- 施工進(jìn)度計(jì)劃-報(bào)審表本
- 基于單片機(jī)的老人跌倒報(bào)警裝置獲獎(jiǎng)科研報(bào)告
- 呼吸機(jī)及管路的管理課件
- 色素性皮膚病
- 《社會(huì)主義市場(chǎng)經(jīng)濟(jì)理論(第三版)》第二章社會(huì)主義市場(chǎng)經(jīng)濟(jì)改革論
- 統(tǒng)計(jì)學(xué)主要計(jì)算公式21098
- 無(wú)損檢測(cè)射線檢測(cè)工藝規(guī)程
- DB15T 1193-2017 城市供水行業(yè)反恐怖防范要求
- anthone溫控儀說(shuō)明書LU920
- 童年創(chuàng)傷問(wèn)卷(CTQ-含評(píng)分說(shuō)明)
評(píng)論
0/150
提交評(píng)論