![個(gè)性化推薦的十大挑戰(zhàn)_第1頁(yè)](http://file4.renrendoc.com/view/f922bdd158dcf56b9b8fbe6371afaeea/f922bdd158dcf56b9b8fbe6371afaeea1.gif)
![個(gè)性化推薦的十大挑戰(zhàn)_第2頁(yè)](http://file4.renrendoc.com/view/f922bdd158dcf56b9b8fbe6371afaeea/f922bdd158dcf56b9b8fbe6371afaeea2.gif)
![個(gè)性化推薦的十大挑戰(zhàn)_第3頁(yè)](http://file4.renrendoc.com/view/f922bdd158dcf56b9b8fbe6371afaeea/f922bdd158dcf56b9b8fbe6371afaeea3.gif)
![個(gè)性化推薦的十大挑戰(zhàn)_第4頁(yè)](http://file4.renrendoc.com/view/f922bdd158dcf56b9b8fbe6371afaeea/f922bdd158dcf56b9b8fbe6371afaeea4.gif)
![個(gè)性化推薦的十大挑戰(zhàn)_第5頁(yè)](http://file4.renrendoc.com/view/f922bdd158dcf56b9b8fbe6371afaeea/f922bdd158dcf56b9b8fbe6371afaeea5.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、個(gè)性化推薦的十大挑戰(zhàn)來(lái)源程序員雜志 作者周濤摘要:個(gè)性化推薦很多讀者都聽(tīng)說(shuō)過(guò),但真正它是什么,可能大多數(shù)人都說(shuō)不上來(lái)或者并不 真正了解,而對(duì)于其發(fā)展現(xiàn)狀和前景,大家也沒(méi)有一個(gè)統(tǒng)一的認(rèn)識(shí)。本文很詳盡地介紹了個(gè) 性化推薦的;理論概念,并深入分析了其面臨的10大挑戰(zhàn)。個(gè)性化推薦經(jīng)常被人誤解為細(xì)分市場(chǎng)和精準(zhǔn)營(yíng)銷(xiāo)這兩個(gè)概念。雖然它們之間有一些聯(lián)系,但 實(shí)質(zhì)上卻相差甚遠(yuǎn)。本文不僅清楚地講述了個(gè)性化推薦技術(shù),更列出了其所面臨的十大挑戰(zhàn)。很多人都知道個(gè)性化推薦,卻有不少認(rèn)識(shí)上的誤區(qū)。有的人認(rèn)為個(gè)性化推薦就是細(xì)分市場(chǎng)和 精準(zhǔn)營(yíng)銷(xiāo),但實(shí)際上細(xì)分市場(chǎng)和精準(zhǔn)營(yíng)銷(xiāo)往往是把潛在的用戶(hù)分成很多群體,這與基于全體 的統(tǒng)計(jì)相比
2、固然有了長(zhǎng)足的進(jìn)步,但距離為每一個(gè)用戶(hù)量身定做的信息服務(wù)”還有很大的差 距,只有做個(gè)性化才能實(shí)現(xiàn)亞馬遜CEO Jeff Bezos的夢(mèng)想“如果我有100萬(wàn)個(gè)用戶(hù),我就 為他們做100萬(wàn)個(gè)亞馬遜網(wǎng)站”。所以,市場(chǎng)細(xì)分只是初級(jí)階段,而個(gè)性化推薦則是市場(chǎng)細(xì)分的極致。還有人認(rèn)為個(gè)性化推薦 等同于協(xié)同過(guò)濾,這可能是因?yàn)閰f(xié)同過(guò)濾出現(xiàn)得比較早并且比較容易被大眾理解,但實(shí)際上 協(xié)同過(guò)濾只不過(guò)是眾多個(gè)性化推薦技術(shù)中的一個(gè)早期成員,遠(yuǎn)不能代表個(gè)性化推薦技術(shù)。隨著個(gè)性化的商業(yè)應(yīng)用延展到用戶(hù)生活信息流的方方面面,個(gè)性化推薦技術(shù)也在日新月異不 斷發(fā)展,類(lèi)似于協(xié)同過(guò)濾這樣的早期技術(shù)已經(jīng)不能滿(mǎn)足新環(huán)境下的要求,無(wú)法解決新出
3、現(xiàn)的 問(wèn)題。令人興奮的是,過(guò)去十年中,我們見(jiàn)證了無(wú)數(shù)頂尖級(jí)專(zhuān)家與學(xué)者投身于推薦方法與技 術(shù)的創(chuàng)新中。今天,還些人認(rèn)為個(gè)性化推薦技術(shù)的研究已經(jīng)進(jìn)入了很成熟階段,沒(méi)有什么特 別激動(dòng)人心的問(wèn)題和成果。事實(shí)卻恰恰相反,現(xiàn)在個(gè)性化推薦技術(shù)面臨很大的挑戰(zhàn),我們之 前只看到了個(gè)性化推薦技術(shù)難題這座冰山所露出的一角。本文將列出個(gè)性化推薦技術(shù)所面臨的十個(gè)挑戰(zhàn)(僅代表個(gè)人觀點(diǎn)),其中有一些是很多年前 就認(rèn)識(shí)到但一直沒(méi)有得到解決的長(zhǎng)期問(wèn)題。事實(shí)上,有些挑戰(zhàn)是不可能完全解決的,只能提 出改良方案,還有一些是在最近研究中提出來(lái)的焦點(diǎn)問(wèn)題。數(shù)據(jù)稀疏性問(wèn)題現(xiàn)在推薦系統(tǒng)規(guī)模越來(lái)越大,用戶(hù)和商品(包括音樂(lè)、網(wǎng)頁(yè)、文獻(xiàn)等物品)數(shù)
4、目動(dòng)輒百千萬(wàn) 計(jì),而且用戶(hù)之間選擇的重疊非常少。如果以用戶(hù)和商品之間已有的選擇關(guān)系占所有可能存 在的選擇關(guān)系的比例來(lái)衡量系統(tǒng)的稀疏性,那么我們平時(shí)研究最多的MovieLens數(shù)據(jù)集的 稀疏度是 4.5%,Netflix 是 1.2%,Bibsonomy 是 0.35%,Delicious 是 0.046%,這些其實(shí) 是非常密的數(shù)據(jù)。想想淘寶上號(hào)稱(chēng)有8億商品,平均而言一個(gè)用戶(hù)能瀏覽800件嗎?估計(jì)不能,因此稀疏度 應(yīng)該在百萬(wàn)分之一或以下的量級(jí)。數(shù)據(jù)非常稀疏,使得絕大部分基于關(guān)聯(lián)分析的算法(如協(xié) 同過(guò)濾)效果都不好。本質(zhì)上,這個(gè)問(wèn)題是無(wú)法完全克服的。解決這個(gè)問(wèn)題的辦法很多,例 如可以通過(guò)擴(kuò)散的算法
5、,從原來(lái)的一階關(guān)聯(lián)(兩個(gè)用戶(hù)有多少相似打分或者共同購(gòu)買(mǎi)的商品) 到二階甚至更高階的關(guān)聯(lián)(假設(shè)關(guān)聯(lián)性或者說(shuō)相似性本身是可以傳播的),也可以添加一些 默認(rèn)的打分,從而提高相似性的分辨率。一般而言,數(shù)據(jù)規(guī)模越大就越稀疏?,F(xiàn)在認(rèn)為能夠 處理稀疏數(shù)據(jù)的算法(如擴(kuò)散、迭代尋優(yōu)、轉(zhuǎn)移相似性等)更有價(jià)值。冷啟動(dòng)問(wèn)題因?yàn)樾掠脩?hù)罕有可以利用的行為信息,所以很難給出精確的推薦。反過(guò)來(lái),由于新商品被選 擇次數(shù)很少,也難以找到合適的辦法推薦給用戶(hù)。一種辦法是利用文本信息進(jìn)行輔助推薦, 或者通過(guò)注冊(cè)和詢(xún)問(wèn)得知一些用戶(hù)的屬性信息,比如年齡、居住城市、受教育程度、性別和 職業(yè)等。最近廣泛應(yīng)用的標(biāo)簽系統(tǒng)提供了解決冷啟動(dòng)問(wèn)題的可
6、能方案,因?yàn)闃?biāo)簽既可以看作是商品內(nèi) 容的萃取,同時(shí)也反映了用戶(hù)的個(gè)性化喜好。以桃姐這部電影為例,有的人打的標(biāo)簽是 “倫理”,有的人打的標(biāo)簽是劉德華”,兩個(gè)人看的電影一樣,但興趣點(diǎn)可能不盡相同。當(dāng)然, 利用標(biāo)簽也只能是提高有少量行為的用戶(hù)的推薦準(zhǔn)確性,對(duì)于純粹的冷啟動(dòng)用戶(hù),沒(méi)有任何 幫助,因?yàn)檫@些人還沒(méi)有打過(guò)任何標(biāo)簽。有趣的是,最近的研究顯示,新用戶(hù)更容易選擇特別流行的商品。無(wú)論如何,這都是一個(gè)好 消息,說(shuō)明使用熱銷(xiāo)榜也能獲得不錯(cuò)的結(jié)果。冷啟動(dòng)問(wèn)題還可以通過(guò)多維數(shù)據(jù)的交叉推薦部 分解決,其精確度和多樣性又遠(yuǎn)勝于熱銷(xiāo)榜,這一點(diǎn)后面會(huì)進(jìn)一步介紹。大數(shù)據(jù)處理與增量計(jì)算問(wèn)題因?yàn)閿?shù)據(jù)很稀疏,大部分?jǐn)?shù)據(jù)都擁
7、有百千萬(wàn)計(jì)的用戶(hù)和商品,所以如何快速高效地處理這些 數(shù)據(jù)成為迫在眉睫的問(wèn)題。而算法時(shí)間和空間上的復(fù)雜性,尤其是前者,得到了空前重視。 一個(gè)高效的算法,要么復(fù)雜性很低,要么能夠很好地并行化,要么兩者兼具。局部擴(kuò)散算法 在這兩個(gè)方面都具有明顯優(yōu)勢(shì)。另一種解決方法是設(shè)計(jì)增量算法。也就是說(shuō),當(dāng)產(chǎn)生新用戶(hù)、新商品和新的連接關(guān)系時(shí),算 法的結(jié)果不需要在整個(gè)數(shù)據(jù)集上重新進(jìn)行計(jì)算,而只需考慮所增加節(jié)點(diǎn)和連邊局部的信息, 對(duì)原有的結(jié)果進(jìn)行微擾,快速得到新結(jié)果。一般而言,隨著加入的信息量的增多,這種算法 的誤差會(huì)積累變大,最終每過(guò)一段時(shí)間還是需要利用全局?jǐn)?shù)據(jù)重新進(jìn)行計(jì)算。一個(gè)特別困難的挑戰(zhàn)是如何設(shè)計(jì)一種能夠保證其
8、誤差不會(huì)累積的算法,也就是說(shuō)其結(jié)果與利 用全部數(shù)據(jù)重新計(jì)算的結(jié)果之間的差異不會(huì)單調(diào)上升。我們把這種算法叫做自適應(yīng)算法,它 是增量算法的一個(gè)加強(qiáng)版本,其設(shè)計(jì)要求和難度更高?,F(xiàn)在業(yè)界已經(jīng)在應(yīng)用增量算法。例如,百分點(diǎn)科技推薦引擎中的若干算法都采用了增量技術(shù), 使得用戶(hù)每次瀏覽收藏或者購(gòu)買(mǎi)商品后其推薦列表立刻得到更新。當(dāng)然,只是該引擎的部分 算法實(shí)現(xiàn)了增量技術(shù),沒(méi)有達(dá)到所有算法都能夠自適應(yīng)學(xué)習(xí)的程度,還有很長(zhǎng)的路要走。多樣性與精確性的兩難困境如果要給用戶(hù)推薦他喜歡的商品,最“保險(xiǎn)”的方式就是給他特別流行或者得分特別高的商 品,因?yàn)檫@些商品有更可能被喜歡(至少Bezos會(huì)這么想),往壞了說(shuō),也很難特別被
9、討 厭。但這種推薦產(chǎn)生的用戶(hù)體驗(yàn)并不一定好,因?yàn)橛脩?hù)很可能已經(jīng)知道這些熱銷(xiāo)或流行的產(chǎn) 品,所以得到的信息量很少,并且用戶(hù)不會(huì)認(rèn)為這是一種“個(gè)性化”推薦。事實(shí)上,Mcnee等人已經(jīng)警告大家,盲目崇拜精確性指標(biāo)可能會(huì)傷害推薦系統(tǒng),因?yàn)檫@樣 可能會(huì)導(dǎo)致用戶(hù)得到一些信息量為0的“精準(zhǔn)推薦”并且視野變得越來(lái)越狹窄。讓用戶(hù)視野變 得狹窄是協(xié)同過(guò)濾算法的一個(gè)主要缺陷。與此同時(shí),應(yīng)用個(gè)性化推薦技術(shù)的商家,也希望推 薦中有更多的品類(lèi)出現(xiàn),從而激發(fā)用戶(hù)新的購(gòu)物需求。遺憾的是,推薦多樣的商品和新穎的商品與推薦的精確性之間存在矛盾,因?yàn)榍罢唢L(fēng)險(xiǎn)很大 推薦一個(gè)沒(méi)人看過(guò)或者打分較低的東西,很可能被用戶(hù)憎惡,從而效果更差。
10、很多時(shí)候, 這是一個(gè)兩難的問(wèn)題,只能通過(guò)犧牲多樣性來(lái)提高精確性,或者犧牲精確性來(lái)提高多樣性。 一種可行之策是直接對(duì)推薦列表進(jìn)行處理,從而提升其多樣性。這種方法固然在應(yīng)用上是有 效的,但沒(méi)有任何理論的基礎(chǔ)和優(yōu)美性可言,只能算一種實(shí)用的招數(shù)。我們發(fā)現(xiàn),精巧混合精確性高和多樣性好的兩種算法,可以同時(shí)提高算法的多樣性和精確性, 不需要犧牲任何一方。遺憾的是,我們還沒(méi)有辦法就這個(gè)結(jié)果提供清晰的解讀和深刻的見(jiàn)解。 多樣性和精確性之間錯(cuò)綜復(fù)雜的關(guān)系和隱匿其后的競(jìng)爭(zhēng),到目前為止還是一個(gè)很棘手的難 題。推薦系統(tǒng)的脆弱性問(wèn)題推薦系統(tǒng)在電子商務(wù)領(lǐng)域能帶來(lái)重大的經(jīng)濟(jì)利益的驅(qū)動(dòng),導(dǎo)致一些心懷不軌的用戶(hù)會(huì)提供一 些虛假或
11、惡意的行為,故意增加或者壓制某些商品被推薦的可能性。因此,一個(gè)算法能否在 一定程度上保持對(duì)惡意攻擊的魯棒性,成為需要認(rèn)真考慮的一個(gè)特征。以最簡(jiǎn)單的關(guān)聯(lián)規(guī)則 挖掘算法為例,Apriori算法的魯棒性就遠(yuǎn)勝于k近鄰算法。已有一些技術(shù)專(zhuān)門(mén)用來(lái)提高推薦系統(tǒng)面對(duì)惡意攻擊的魯棒性。比如,通過(guò)分析對(duì)比真實(shí)用戶(hù) 和疑似惡意用戶(hù)之間打分行為模式的差異,提前對(duì)惡意行為進(jìn)行判斷,從而阻止其進(jìn)入系統(tǒng) 或?qū)阂庥脩?hù)的影響力降至最低??傮w來(lái)說(shuō),這方面的研究相對(duì)較少,系統(tǒng)性的分析還很缺乏,反而是攻擊策略層出不窮,有 種“道高一尺,魔高一丈”的感覺(jué)。Burke等人2011年的研究報(bào)告“Robust Collaborative
12、 Recommendation中就分析了 4大種類(lèi)、8種不同的攻擊策略。用戶(hù)行為模式的挖掘和利用深入挖掘用戶(hù)的行為模式有望提高推薦的效果或在更復(fù)雜的場(chǎng)景下進(jìn)行推薦。比如,新用戶(hù) 和老用戶(hù)具有很不一樣的選擇模式:通常,新用戶(hù)傾向于選擇熱門(mén)商品,而老用戶(hù)對(duì)小眾商 品關(guān)注更多;新用戶(hù)所選擇的商品相似度更高,老用戶(hù)所選擇的商品多樣性較高。有些混合算法可以通過(guò)一個(gè)參數(shù)調(diào)節(jié)推薦結(jié)果的多樣性和熱門(mén)程度。在這種情況下,就可以 考慮為不同用戶(hù)賦予不同參數(shù)(從算法結(jié)果的個(gè)性化到算法本身的個(gè)性化),甚至允許用戶(hù) 自己移動(dòng)一個(gè)滑鈕調(diào)節(jié)這個(gè)參數(shù)一當(dāng)用戶(hù)想看熱門(mén)產(chǎn)品時(shí),算法提供熱門(mén)推薦;當(dāng)用戶(hù)想找 點(diǎn)很酷的產(chǎn)品時(shí),算法也
13、可以提供冷門(mén)推薦。用戶(hù)行為的時(shí)空統(tǒng)計(jì)特性也可以用于提高推 薦或者設(shè)計(jì)針對(duì)特定場(chǎng)景的應(yīng)用。用戶(hù)的選擇可能同時(shí)蘊(yùn)含了長(zhǎng)期的興趣和短期的興趣,通過(guò)將這兩種效應(yīng)分離出來(lái),可以明 顯提高推薦的精確度。事實(shí)上,假設(shè)用戶(hù)興趣隨時(shí)間按照指數(shù)遞減,也能夠得到改進(jìn)的推薦 效果?,F(xiàn)在用手機(jī)上網(wǎng)已經(jīng)越來(lái)越普及,與此同時(shí),嵌入GPS的手機(jī)越來(lái)越多,因此,基于位置 的服務(wù)成為一個(gè)受到學(xué)術(shù)界和業(yè)界廣泛關(guān)注的問(wèn)題。基于位置信息的推薦可能會(huì)成為個(gè)性化 推薦的一個(gè)研究熱點(diǎn)和重要的應(yīng)用場(chǎng)景,而解決這個(gè)問(wèn)題需要能夠?qū)τ脩?hù)的移動(dòng)模式有深入 理解(包括預(yù)測(cè)用戶(hù)的移動(dòng)軌跡和判斷用戶(hù)在當(dāng)前位置是否有可能進(jìn)行餐飲購(gòu)物活動(dòng)等), 同時(shí)還要有定量
14、的辦法定義用戶(hù)之間以及地點(diǎn)之間的相似性。另外,不同用戶(hù)打分的模式也 很不一樣,用戶(hù)針對(duì)不同商品的行為模式也不一樣(想象一下在網(wǎng)上下載一首歌和團(tuán)購(gòu)房 子時(shí)的區(qū)別),這些都可以用來(lái)提高推薦的效果。推薦系統(tǒng)效果評(píng)估推薦系統(tǒng)的概念已經(jīng)提出幾十年了,但怎樣評(píng)價(jià)推薦系統(tǒng),仍然是一個(gè)很大的問(wèn)題。常見(jiàn)的 評(píng)估指標(biāo)可以分為四大類(lèi),分別是準(zhǔn)確度、多樣性、新穎性和覆蓋率。每一類(lèi)還有不同的指 標(biāo)。比如,準(zhǔn)確度指標(biāo)還可分為四大類(lèi),分別是預(yù)測(cè)評(píng)分準(zhǔn)確度、預(yù)測(cè)評(píng)分關(guān)聯(lián)、分類(lèi)準(zhǔn)確 度和排序準(zhǔn)確度。以分類(lèi)準(zhǔn)確度為例,又包括準(zhǔn)確率、召回率、準(zhǔn)確率提高率、召回率提 高率、F1指標(biāo)和AUC值。朱郁筱和呂琳媛撰寫(xiě)的推薦系統(tǒng)評(píng)價(jià)綜述一文
15、幾乎總結(jié)了文獻(xiàn)中曾經(jīng)出現(xiàn)過(guò)的所有推薦 系統(tǒng)指標(biāo),這些指標(biāo)都是基于數(shù)據(jù)本身的指標(biāo),可以認(rèn)為是第一層次。實(shí)際上,在真實(shí)應(yīng)用 時(shí),更為重要的是另外兩個(gè)層次的評(píng)價(jià)。第二個(gè)層次是商業(yè)應(yīng)用上的關(guān)鍵表現(xiàn)指標(biāo),如受推 薦影響的轉(zhuǎn)化率、購(gòu)買(mǎi)率、客單價(jià)、購(gòu)買(mǎi)品類(lèi)數(shù)等。第三個(gè)層次是用戶(hù)真實(shí)的體驗(yàn)。絕大部分研究只針對(duì)第一個(gè)層次的評(píng)價(jià)指標(biāo),而業(yè)界真正感興趣的是第二個(gè)層次的評(píng)價(jià)(比 如,到底是哪個(gè)指標(biāo)或者哪些指標(biāo)組合的結(jié)果能夠提高用戶(hù)購(gòu)買(mǎi)的客單價(jià)),而第三個(gè)層次 最難,沒(méi)人能知道,只能通過(guò)第二層次來(lái)估計(jì)。因此,如何建立第一層次和第二層次指標(biāo)之 間的關(guān)系,就成為了關(guān)鍵。這一步打通了,理論和應(yīng)用之間的屏障就通一大半了。用戶(hù)界
16、面與用戶(hù)體驗(yàn)與其說(shuō),這是一個(gè)學(xué)術(shù)性質(zhì)的問(wèn)題,不如說(shuō)是真實(shí)應(yīng)用的問(wèn)題。十年前就有學(xué)者指出,推薦 結(jié)果的可解釋性,對(duì)于用戶(hù)體驗(yàn)有至關(guān)重要的影響一用戶(hù)希望知道這個(gè)推薦是怎么來(lái)的。在 這個(gè)意義上,協(xié)同過(guò)濾有明顯的優(yōu)勢(shì)?;谏唐返膮f(xié)同過(guò)濾,亞馬遜在發(fā)送推薦的電子郵件時(shí)會(huì)告訴用戶(hù)之所以向其推薦某書(shū),是 因?yàn)橛脩?hù)以前購(gòu)買(mǎi)過(guò)某些書(shū)。相對(duì)地,矩陣分解或者集成學(xué)習(xí)算法就很難向用戶(hù)解釋推薦結(jié) 果的起源。用戶(hù)更喜歡來(lái)自朋友的推薦而不是系統(tǒng)的推薦,這一點(diǎn)在后面還會(huì)詳細(xì)提到。另外,推薦列表往往含有很多項(xiàng),這些推薦項(xiàng)最好能夠分成很多類(lèi)別,不同類(lèi)別往往來(lái)自于 不同的推薦方法。比如,看過(guò)還看過(guò)(瀏覽過(guò)本商品的客戶(hù)還瀏覽過(guò)的商品
17、)、買(mǎi)過(guò)還買(mǎi)過(guò) (購(gòu)買(mǎi)過(guò)本商品的客戶(hù)還購(gòu)買(mǎi)過(guò)的商品)、看過(guò)最終購(gòu)買(mǎi)(瀏覽過(guò)本商品的客戶(hù)最終購(gòu)買(mǎi)的 商品)、個(gè)性化熱銷(xiāo)榜(個(gè)性化流行品推薦)和猜你喜歡(個(gè)性化冷門(mén)商品推薦)等。當(dāng)然,如何更好呈現(xiàn)推薦,是一個(gè)很難建立理論模型和進(jìn)行量化的問(wèn)題。對(duì)于不同的被推薦 品而言,用戶(hù)界面設(shè)計(jì)的準(zhǔn)則也可能大不相同。比如,在首頁(yè)、類(lèi)目頁(yè)、具體商品頁(yè)、購(gòu)物 車(chē)頁(yè)都應(yīng)該分別放置哪些推薦欄?不同的推薦欄放在頁(yè)面的什么位置能夠優(yōu)化用戶(hù)體驗(yàn)? 什么情況下應(yīng)該讓用戶(hù)自己選擇推薦的個(gè)性化程度?基于用戶(hù)行為的實(shí)證研究可以回答一 部分問(wèn)題,同時(shí)需要建立一個(gè)可以進(jìn)行A/B測(cè)試的系統(tǒng),或可積累重要的實(shí)驗(yàn)數(shù)據(jù)。多維數(shù)據(jù)的交叉利用 目前網(wǎng)
18、絡(luò)科學(xué)研究一個(gè)廣受關(guān)注的概念是具有相互作用的網(wǎng)絡(luò)的結(jié)構(gòu)和動(dòng)力學(xué)。網(wǎng)絡(luò)與網(wǎng)絡(luò) 之間的相互作用大體可以分成三類(lèi)。第一類(lèi)是依存關(guān)系。比如,電力網(wǎng)絡(luò)和Internet,如果 發(fā)生了大規(guī)模停電事故,當(dāng)?shù)氐淖灾飨到y(tǒng)和路由器也會(huì)受到影響,導(dǎo)致網(wǎng)絡(luò)局部中斷。第二 類(lèi)是合作關(guān)系,比如人的一次出行,可以看作航空網(wǎng)絡(luò)、鐵路網(wǎng)絡(luò)和公路網(wǎng)絡(luò)的一次合作。 第三類(lèi)是交疊關(guān)系,主要針對(duì)社會(huì)網(wǎng)絡(luò),這也是我們最關(guān)注的。幾乎我們每一個(gè)人都參與了不止一個(gè)大型的社會(huì)網(wǎng)絡(luò),既有新浪微博的賬號(hào),又是人人網(wǎng)的 注冊(cè)用戶(hù),還是手機(jī)用戶(hù),那么你已經(jīng)同時(shí)在三個(gè)巨大的社會(huì)網(wǎng)絡(luò)中了。與此同時(shí),你可能 還經(jīng)常在淘寶、京東、麥包包、1號(hào)店、庫(kù)巴網(wǎng)等網(wǎng)站上
19、進(jìn)行網(wǎng)購(gòu),那么你就成為了一張 巨大的用戶(hù)-商品圖中的一員。想象如果能夠把這些網(wǎng)絡(luò)數(shù)據(jù)整合起來(lái),特別是知道每個(gè)節(jié)點(diǎn)身份的對(duì)應(yīng)關(guān)系(不需要知道 真實(shí)身份,只需要知道不同網(wǎng)絡(luò)中存在的一些節(jié)點(diǎn)是同一個(gè)人),那么其中定會(huì)有特別巨大 的社會(huì)經(jīng)濟(jì)價(jià)值。舉個(gè)例子,你可能已經(jīng)在新浪微博上關(guān)注了很多數(shù)據(jù)挖掘達(dá)人的微博,并 且分享了很多算法學(xué)習(xí)的心得和問(wèn)題。而當(dāng)你第一次上當(dāng)當(dāng)網(wǎng)購(gòu)書(shū)時(shí),主頁(yè)向你推薦數(shù)據(jù)挖 掘的最新專(zhuān)著并附有折扣,你會(huì)心動(dòng)嗎?交疊社會(huì)關(guān)系中的數(shù)據(jù)挖掘,或稱(chēng)多維數(shù)據(jù)挖掘, 是真正解決系統(tǒng)內(nèi)部冷啟動(dòng)問(wèn)題的終極法寶一只要用戶(hù)在系統(tǒng)外部的其他系統(tǒng)有過(guò)活動(dòng)。單純從個(gè)性化商品推薦來(lái)講,可以利用用戶(hù)在其他電商網(wǎng)站的
20、瀏覽購(gòu)買(mǎi)歷史來(lái)提高在目標(biāo)電 商推薦的精確度一當(dāng)然,每一個(gè)電商既是付出者,也是獲利者??傮w而言,大家能夠通過(guò)提 高用戶(hù)體驗(yàn)和點(diǎn)擊深度實(shí)現(xiàn)共贏。與此同時(shí),可以利用微博和其他社會(huì)網(wǎng)絡(luò)的活動(dòng)提高商品 推薦的精度,還可以反過(guò)來(lái)利用商品瀏覽歷史提高微博關(guān)注對(duì)象推薦的精度。推薦一個(gè)經(jīng)常 購(gòu)買(mǎi)專(zhuān)業(yè)羽毛球和瀏覽各種專(zhuān)業(yè)羽毛球設(shè)備的用戶(hù)關(guān)注羽毛球的專(zhuān)業(yè)選手和業(yè)余教練的成 功率應(yīng)該很高,而且不會(huì)陷入“總在一個(gè)圈子里面來(lái)回推薦”的毛病中。從機(jī)器學(xué)習(xí)的角度, 楊強(qiáng)等人提出的“遷移學(xué)習(xí)”算法有望用來(lái)解決這種跨鄰域的推薦。我們分析了百分點(diǎn)科技服務(wù)客戶(hù)的真實(shí)數(shù)據(jù),發(fā)現(xiàn)有相當(dāng)比例的用戶(hù)都具有交叉購(gòu)物的習(xí)慣 (在多個(gè)獨(dú)立B2C電
21、商有瀏覽和購(gòu)買(mǎi)行為)。即便只考慮兩個(gè)點(diǎn),例如利用麥包包的瀏覽 購(gòu)買(mǎi)數(shù)據(jù)為拍鞋網(wǎng)的用戶(hù)進(jìn)行個(gè)性化推薦(這些用戶(hù)是在拍鞋網(wǎng)上沒(méi)有任何歷史記錄的新用 戶(hù),但在麥包包上有瀏覽購(gòu)買(mǎi)行為),就可以明顯提高推薦的準(zhǔn)確度(比完全冷啟動(dòng)的隨機(jī) 推薦高數(shù)十倍)。而如果利用3家或以上的外部電商的數(shù)據(jù),其推薦的精確度可以明顯高 于熱銷(xiāo)榜(注意,熱銷(xiāo)榜一點(diǎn)個(gè)性化都沒(méi)有),特別在團(tuán)購(gòu)類(lèi)網(wǎng)站上表現(xiàn)非常好。雖然針對(duì)多維數(shù)據(jù)挖掘的研究剛起步,但我們完全可以相信這在學(xué)術(shù)和應(yīng)用上都將是一個(gè)焦 點(diǎn)和難點(diǎn)。社會(huì)推薦 很早以前,研究人員就發(fā)現(xiàn),用戶(hù)更喜歡來(lái)自朋友的推薦而不是被系統(tǒng)算出來(lái)的推薦”。社 會(huì)影響力被認(rèn)為比歷史行為的相似性更加重要。例如通過(guò)社會(huì)關(guān)系的分析,可以大幅度提高 從科研文獻(xiàn)到網(wǎng)購(gòu)商品推薦的精確度。來(lái)自朋友的社會(huì)推薦有兩方面效果:一是增加銷(xiāo)售(含 下載、閱讀.),二是在銷(xiāo)售后提高用戶(hù)的評(píng)價(jià)。社會(huì)推薦的效果也不完全是正面的,譬如Leskovec等人在論文“The Dynamics of Viral Marketing ”中舉了一個(gè)反例:朋友推薦對(duì)書(shū)的銷(xiāo)售增長(zhǎng)幾乎沒(méi)有幫助,有時(shí)會(huì)起到負(fù)面作用。在社會(huì)推薦方面,國(guó)內(nèi)做得最出色的是豆瓣網(wǎng),其朋友推薦被接受被高度評(píng)價(jià)的比例非常高。 最近有證據(jù)顯示,朋友推薦也是淘寶商品銷(xiāo)售一個(gè)非常重要的驅(qū)動(dòng)力量。社會(huì)推薦方向存在的挑戰(zhàn)主要可以分為三類(lèi):一是如何利用社
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 宣傳物料印刷合同范本3篇
- 《數(shù)據(jù)安全法》考試參考題庫(kù)100題(含答案)
- 2025年梧州職業(yè)學(xué)院高職單招職業(yè)技能測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
- 全球‘最優(yōu)旅行小鎮(zhèn)’課件展示:探索與發(fā)現(xiàn)鄉(xiāng)村之美
- 2025科學(xué)儀器行業(yè)未來(lái)發(fā)展趨勢(shì)與機(jī)會(huì)
- 中班區(qū)角創(chuàng)意活動(dòng)方案五篇
- 養(yǎng)老行業(yè)的未來(lái):2025年發(fā)展趨勢(shì)與市場(chǎng)展望
- 借款簡(jiǎn)單的合同范本
- 旅游規(guī)劃服務(wù)合同
- 反擔(dān)保合同以及借款擔(dān)保合同范文
- 北師大版三年級(jí)數(shù)學(xué)(上冊(cè))看圖列式計(jì)算(完整版)
- 診所規(guī)章制度匯編全套
- 2024年云南省中考英語(yǔ)題庫(kù)【歷年真題+章節(jié)題庫(kù)+模擬試題】
- 麻醉藥品、精神藥品月檢查記錄表
- 演示文稿國(guó)庫(kù)集中支付總流程圖
- 浙江省寧波市海曙區(qū)2022學(xué)年第一學(xué)期九年級(jí)期末測(cè)試科學(xué)試題卷(含答案和答題卡)
- 為了自由呼吸的教育
- 高考英語(yǔ)詞匯3500電子版
- 建院新聞社成立策劃書(shū)
- GB/T 19675.2-2005管法蘭用金屬?zèng)_齒板柔性石墨復(fù)合墊片技術(shù)條件
- 運(yùn)動(dòng)技能學(xué)習(xí)與控制課件第十三章動(dòng)作技能的保持和遷移
評(píng)論
0/150
提交評(píng)論