R語言數(shù)據(jù)挖掘_第1頁
R語言數(shù)據(jù)挖掘_第2頁
R語言數(shù)據(jù)挖掘_第3頁
R語言數(shù)據(jù)挖掘_第4頁
R語言數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、R語言數(shù)據(jù)挖掘論文題目:數(shù)據(jù)挖掘?qū)崙?zhàn)之網(wǎng)站智能推薦服務(wù)指導(dǎo)老師:張敏小組成員:周犬義王寧數(shù)據(jù)挖掘?qū)崙?zhàn)之網(wǎng)站智能推薦服務(wù)一、背景與挖掘目標(biāo)伴隨著計(jì)算機(jī)技術(shù)、通信技術(shù)的日益成熟和廣泛應(yīng)用,互聯(lián)網(wǎng)自90年代初開始得到迅猛發(fā)展,至今雖然只有短短幾十年的時(shí)間,但它已經(jīng)發(fā)展成為現(xiàn)今信息時(shí)代人類生活中不可或缺的重要組成部分,并成為全球范圍內(nèi)傳播信息的主要渠道。隨之而來的是互聯(lián)網(wǎng)上信息資源越來越豐富,人們要在浩如煙海的“混亂的”互聯(lián)網(wǎng)信息世界中找到自己真正感興趣信息卻存在很大的困難,具體表現(xiàn)在:用戶不知道如何貼切表達(dá)真正想要的網(wǎng)上資源的需求,也不知道如何去更準(zhǔn)確有效地尋找,即所謂的“信息迷失”問題;和對(duì)收到的

2、或已經(jīng)下載的大量無關(guān)的信息難以消化,即所謂的“信息過載”問題。雖然我們可以借助于搜索引擎來檢索Web上的信息,但仍不能滿足不同背景、不同目的和不同時(shí)期的查詢要求,因?yàn)榇蠖鄶?shù)搜索引擎缺少主動(dòng)性,沒有考慮用戶的興趣偏好和用戶的不同,無法有效地解決信息過載和信息迷失的問題。為了適應(yīng)用戶不斷增長的信息需求,有效地解決信息過載和信息迷失給人們帶來的種種問題,研究人員紛紛從人工智能中尋找突破口。在許多探索性研究中,個(gè)性化推薦服務(wù)作為一種嶄新的智能信息服務(wù)方式,應(yīng)用前景廣泛,十分引人注目。與搜索引擎不同,推薦系統(tǒng)并不需要用戶提供明確的需求,而是通過分析用戶的歷史行為,根據(jù)用戶的行為主動(dòng)推薦能夠滿足他們興趣和

3、需求的信息。因此,對(duì)于用戶而言推薦系統(tǒng)和搜索引擎是兩個(gè)互補(bǔ)的工具。搜索引擎滿足有明確目的的用戶需求,而推薦系統(tǒng)能夠幫助用戶發(fā)現(xiàn)感興趣的內(nèi)容。因此,在電子商務(wù)領(lǐng)域中推薦技術(shù)可以起到以下作用:第一,幫助用戶發(fā)現(xiàn)其感興趣的物品,節(jié)省用戶時(shí)間、提升用戶體驗(yàn);第二,提高用戶對(duì)電子商務(wù)網(wǎng)站的忠誠度,如果推薦系統(tǒng)能夠準(zhǔn)確地發(fā)現(xiàn)用戶的興趣點(diǎn),并將合適的資源推薦給用戶,用戶就會(huì)對(duì)該電子商務(wù)網(wǎng)站產(chǎn)生依賴,從而建立穩(wěn)定的企業(yè)忠實(shí)顧客群,提高用戶滿意度。本案例研究的對(duì)象是泰迪智能科技有限公司的泰迪杯競賽網(wǎng)站,泰迪科技是一家專業(yè)從事大數(shù)據(jù)挖掘應(yīng)用研發(fā)、咨詢和培訓(xùn)服務(wù)的高科技企業(yè)。泰迪杯競賽網(wǎng)致力于為用戶提供豐富的泰迪杯

4、競賽信息、數(shù)據(jù)挖掘培訓(xùn)咨詢服務(wù),并為參賽者提供了往屆優(yōu)秀作品作為參考,為高校提供了豐富的教學(xué)資源,如:案例教程、教學(xué)視頻、教學(xué)書籍、建模工具等。隨著網(wǎng)站量增大,其數(shù)據(jù)信息量也在大幅度增長。用戶在面對(duì)大量信息時(shí)無法及時(shí)從中獲取自己需要的信息,對(duì)信息的使用效率越來越低。這種瀏覽大量無關(guān)信息的過程,造成了用戶需要花費(fèi)大量的時(shí)間才能找到自己需要的信息。為了能更好地滿足用戶需求,依據(jù)其網(wǎng)站海量的數(shù)據(jù),研究用戶的興趣偏好,分析用戶的需求和行為,發(fā)現(xiàn)用戶的興趣點(diǎn)。引導(dǎo)用戶發(fā)現(xiàn)自己的信息需求,將網(wǎng)頁精準(zhǔn)地推薦給所需用戶,幫助用戶發(fā)現(xiàn)他們感興趣但很難發(fā)現(xiàn)的網(wǎng)頁信息。為了能夠更好的滿足用戶需求,依據(jù)其網(wǎng)站海量的數(shù)

5、據(jù),研究用戶的興趣偏好,分析用戶的需求和行為,發(fā)現(xiàn)用戶的興趣點(diǎn),從而引導(dǎo)用戶發(fā)現(xiàn)自己的信息需求。行為記錄idconteni1:_page_|:-atlfu1lurl!1招zytjinstipdaorgzytj-i口*1jhtnl2XAz?tJlnctitxlHLorzytj.iridki.JiLiiluseridsessicnitipcauntryareaMDE軀;四,HI);可靠若iLor&thirdtipdaindex,jhtmliWEFtjinitipcinorg.Tn加工jhtnl必其甌出1L2優(yōu)MCD痢衿;E2I機(jī)器.2:北京由聯(lián)逋月*fit強(qiáng)通InternetChrcrn7(Lnd

6、cFs45.Ol241,山武于5X?1-*8NAzytjins工ipdm.(電sytj;inckirjhtnl9667JXij66tlixliiioriJi-p-667Jtilul此mAFM:EU乳羽一2澗南谷迎髭謾*mFEM(21L阻2:同商曾媼ftHQlhmktiup眥45rOi24&TiA(fo*a曲LH24frllndcffls7!7110酶3j詰efitipdiD.org小卯棚工jht文MCDAFt口;比以登一工M雨有北:超避thrame此Oi如事NiMhu;111w/lipdm.or瑞崎陽工為U機(jī)的;廣樂父電工區(qū)Gumm50.0.2&6lind&ts-lb12758nolice/i

7、ipdiaorg.noti/758BjhmlMUMMH06匕/四一21f東省再民國Ohro欣抑.U.敝jltn(Jo*S7113*58nolice/*tipdaorg.Mtice.T5LjhtmlHNAinHlpdiTLorjjm-iniJex.jhtnlMW14T70312La.19.Z廣東省廣秀琪區(qū)1皿皿NAD9MF煙12注四鼻廣東安廣41國國VindcnrM-0-366小力M需5:?卜15M/ti訥tQ敏18758mLliudMiuur*nd1k75機(jī)hudXAXD6J6MI322.3.M籃附期匚匕.二L.河北省電電信河北省雷電侑ChrotoeChiuu45,0.2-151Lfidavs

8、45.0.24frTlndowb-K-117Mind3Lindexjhtnl.U1的卜K二州,*:詞甫百知事迪fhraw4A.D124&lindan18KAirtjimtlpdorgirtjindex-jhuilJ(ijimndodniertJntj相改xhxnlSACDWFI氾力曲目m:河南三9兀西SACDftFETt21&.28,2:間市省現(xiàn)裁通ChiwwChraw!-L0.2將北niion4S.0i2JiMM5-ht卜872MjMtipdoi”g/j曜”羽士jhtnl21XAstpj-inifipdnLqfkitpj-jhimlCAFIX;已注:2亂方可南省”襄通琳

9、祝如跖ULLSO。:北京巾ftHChraocInternet46.CU邦in*r,7無力和樣7fXPT普琳J(rèn)&ieimtipdnLurgjs?ein的治JhUilM睥時(shí)F畫工l&11割廣東咎廣小珠區(qū):Chrww6Q.266Tindoiri-1原始數(shù)據(jù):利用read.csv函數(shù)把原始數(shù)據(jù)導(dǎo)入R語言RStudio中,整理數(shù)據(jù)進(jìn)行下一步的處理。當(dāng)用戶訪問網(wǎng)站頁面時(shí),系統(tǒng)會(huì)記錄用戶訪問網(wǎng)站的日志,其訪問的數(shù)據(jù)記錄了訪問序號(hào)、內(nèi)容id、訪問內(nèi)容、用戶id、ip等多項(xiàng)屬性的記錄,并針對(duì)其中的各個(gè)屬性進(jìn)行說明,如表2-2所示。表2-2訪問記錄屬性表屬性名稱屬性說明屬性名稱屬性說明id訪問序號(hào)browser_

10、type瀏覽器類型content_id內(nèi)容idbrowser_version瀏覽器版本page_path網(wǎng)址platform_type平臺(tái)類型username用戶名稱platform_series平臺(tái)系列userid用戶idplatform_version平臺(tái)版本sessionid一次瀏覽標(biāo)識(shí)data_time訪問時(shí)間ipip地址mobile_type手機(jī)類型country國家agent代理商area區(qū)域uniqueVisitorID唯一瀏覽ID依據(jù)所提供的原始數(shù)據(jù),確定挖掘目標(biāo)如下:挖掘目標(biāo):1、借助大量用戶的訪問記錄,發(fā)現(xiàn)用戶的訪問行為習(xí)慣,對(duì)不同需求的用戶進(jìn)行相關(guān)服務(wù)頁面的推薦;2、根據(jù)

11、用戶訪問內(nèi)容、訪問次數(shù)等屬性特征,深入了解用戶對(duì)訪問網(wǎng)站的行為和目的及關(guān)心的內(nèi)容二、推薦系統(tǒng)架構(gòu)總體流程數(shù)據(jù)拴君口糧處理用戶西問已忐故期探宓分由建模四性西結(jié)果&反饋i根建呻橫里評(píng)價(jià)主要步驟:1 .從系統(tǒng)中獲取用戶訪問網(wǎng)站的原始記錄。2 .以用戶訪問jhtml后綴的網(wǎng)頁為關(guān)鍵條件,對(duì)數(shù)據(jù)進(jìn)行處理。3 .對(duì)數(shù)據(jù)進(jìn)行多維度分析,用戶訪問時(shí)間,用戶訪問內(nèi)容,流失用戶分析以及用戶分群等分析。4 .對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包含數(shù)據(jù)去重,數(shù)據(jù)刪選,數(shù)據(jù)分類等處理過程。5 .對(duì)比多種推薦算法進(jìn)行推薦,通過模型評(píng)價(jià),得到比較好的智能推薦模型。通過模型對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),獲得推薦結(jié)果數(shù)據(jù)抽?。?.網(wǎng)頁類型分析從去掉.j

12、html的網(wǎng)址中針對(duì)用戶的瀏覽習(xí)慣,對(duì)教學(xué)資源、競賽、企業(yè)合作、新聞合作進(jìn)行分類提取分析,其中教學(xué)資源、競賽、企業(yè)合作、新聞合作分別占總數(shù)的百分比為29.50%、34.50%9.70%、25.40%,這樣讓我們更深入地去了解用戶需要什么,進(jìn)而為下一步的推薦提升一定的需要。2 .臟數(shù)據(jù)探索臟數(shù)據(jù)探索一:在記錄中,存在一部分這樣的用戶,他們沒有點(diǎn)擊具體的網(wǎng)頁(.jhtml形式的),點(diǎn)擊的大部分是目錄網(wǎng)頁,總共有12091條記錄,應(yīng)刪掉這部分。臟數(shù)據(jù)探索二:對(duì)數(shù)據(jù)中存在部分翻頁網(wǎng)址,大量的用戶基本只會(huì)選擇瀏覽了25頁后,如果沒有搜索到想要的內(nèi)容,直接就放棄此次的搜索,很少會(huì)選擇瀏覽完全部內(nèi)容,因?yàn)檫@

13、部分網(wǎng)頁存在首頁,故對(duì)數(shù)據(jù)處理應(yīng)刪除翻頁部分。3 .點(diǎn)擊次數(shù)分析點(diǎn)擊次數(shù)用戶數(shù)用戶百分比記錄百分比1236939.745.36296416.174.3634707.883.1943906.541.8052654.443.0062023.392.7471682.812.667次以上113319.0180.08分析:1 .瀏覽一次的用戶占所有用戶39施右,記錄數(shù)占5溢右;瀏覽七次以上的用戶占所有用戶的80%fc右,其中40%勺用戶,為網(wǎng)址提供了大約90%勺瀏覽量2 .對(duì)點(diǎn)擊次數(shù)最大值進(jìn)行分析,其大多是關(guān)于“Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)一圖書配套資料下載”的總共2075次。4 .網(wǎng)頁點(diǎn)擊數(shù)排名1t

14、/zytj/index.jhtml2469教學(xué)資源2/yxzp/index.jhtml2123競賽3/ts/661.jhtml2075教學(xué)資源4/notice/757.jhtml1378新聞公告5/stpj/index.jhtml1296競賽6/qk/729.jhtml1072競賽7/ts/654.jhtml934教學(xué)資源8/jszz/index.jhtml900競賽9/ts/785.jhtml838教學(xué)資源10/ts

15、/578.jhtml831教學(xué)資源11/xtxm/index.jhtml749企業(yè)合作12/notices/index.jhtml709新聞公告13/notice/758.jhtml661新聞公告14/sj/638.jhtml648新聞公告15/ts/index.jhtml645教學(xué)資源16/sj/789.jhtml569新聞公告17/sm/736.jhtml513競賽18/ts/655.jhtml505教學(xué)資源19/ts/747.j

16、html487教學(xué)資源20/cgal/index.jhtml467競賽分析:表中可以看出,點(diǎn)擊次數(shù)排名前20名中,“教學(xué)資源”類占了大部分,其次是“競賽”類,然后是“新聞公告”類。5 .同網(wǎng)頁翻頁的點(diǎn)擊數(shù)網(wǎng)址點(diǎn)擊數(shù)比率/yxzp//yxzp/index_2./yxzp/index_3./yxzp/index_4./yxzp/index_5./y

17、xzp/index_6./stpj//stpj/index_2./stpj/index_3.jhtml530.041分析:同一網(wǎng)頁中登錄次數(shù)最多大部分都是從主頁搜索引擎直接收索到的網(wǎng)頁??闪私獾接脩暨M(jìn)行同網(wǎng)頁翻頁的比例相對(duì)較少,會(huì)出現(xiàn)用戶衰減的情況。1、如果網(wǎng)頁需要翻的頁數(shù)太多,大量的用戶基本只會(huì)選擇瀏覽了2-6頁后,沒有搜索到想要的內(nèi)容,直接就放棄此次的搜索,很少會(huì)選擇瀏覽完全部內(nèi)容。2、通過搜索入口,直接找到需要的幫助,就不需要對(duì)網(wǎng)址進(jìn)行翻頁處理。3、如果翻頁

18、情況比較小,可以建議設(shè)置全頁顯示,知識(shí)頁面無此功6 .數(shù)據(jù)處理流程、除麻sJ廠灣主翻J一力、逼網(wǎng)履三、數(shù)據(jù)預(yù)處理1 .數(shù)據(jù)清洗,針對(duì)上述歸納的臟數(shù)據(jù)類型,對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。刪除數(shù)據(jù)類型刪除數(shù)據(jù)記錄原始數(shù)據(jù)記錄百分比翻頁1277609912.093%亂碼錯(cuò)誤網(wǎng)址5609910.0081%網(wǎng)站主頁2527609914.143%無.html120916099119.8%重復(fù)網(wǎng)貝165906099127.2%2 .數(shù)據(jù)選擇,選擇記錄中.jhtml后綴的記錄,并對(duì)其進(jìn)行手動(dòng)分類處理。zytj、yxsp、jmgj、information、tsasdf、dsjkf、jiao、jmg、tts、sjfxs

19、、sjsdf790628.63%教學(xué)資源jszz、stpj、yxzp、cgal、firsttipdm、secondtipdm、thirdtipdm、fourthtipdm、jingsa、kjxm、qk、sdfasf、sm、td954434.56%克賽qyal、xtxm、wjxq、zxns、zzszl314511.38%企業(yè)合作news、notice、notices、sj786928.50%新聞合作3 .數(shù)據(jù)集成:四、統(tǒng)計(jì)分析選取知識(shí)內(nèi)容中的教學(xué)資源類型進(jìn)行分析網(wǎng)址內(nèi)容點(diǎn)擊次數(shù)/ts/661.jhtmlPython數(shù)據(jù)分析與挖掘?qū)崙?zhàn)一圖書配套資料下載2075/

20、ts/654.jhtmlR語言分析與挖掘?qū)崙?zhàn)一圖書配套資料下載934/ts/785.jhtml賈圓圓一數(shù)據(jù)挖掘克賽平臺(tái)838/ts/578.jhtmlMatlab分析與挖掘?qū)崙?zhàn)一圖書配套資料下載831/ts/655.jhtmlHadoop分析與挖掘?qū)崙?zhàn)一圖書配套資料下載505對(duì)其中的點(diǎn)擊次數(shù)與網(wǎng)頁進(jìn)行分析。點(diǎn)擊次數(shù)網(wǎng)貝個(gè)數(shù)(87)網(wǎng)貝白分比記錄數(shù)(2075)記錄百分比11011.5%100.48%244.6%80.39%333.45%90.43%420757080.46%204898.70%分析:通過教學(xué)資源網(wǎng)頁類型網(wǎng)頁點(diǎn)擊排名和網(wǎng)頁個(gè)數(shù)點(diǎn)

21、擊次數(shù)可以看出,人們對(duì)數(shù)據(jù)挖掘類比較感興趣,從網(wǎng)頁點(diǎn)擊個(gè)數(shù)我們可以看出,點(diǎn)擊4次以上的網(wǎng)頁個(gè)數(shù)占了80溢右,瀏覽量卻占了98%因此我們可以考慮,按點(diǎn)擊行為進(jìn)行分類,分析構(gòu)建模型算法。四、模型構(gòu)建與檢驗(yàn)由于用戶訪問網(wǎng)站的數(shù)據(jù)記錄很大,如果對(duì)數(shù)據(jù)不進(jìn)行分類處理,對(duì)所有記錄直接采用推薦系統(tǒng)進(jìn)行推薦,這樣會(huì)存在以下問題:?數(shù)據(jù)量太大意味著物品數(shù)與用戶數(shù)很多,在模型構(gòu)建用戶與物品的稀疏矩陣時(shí),出現(xiàn)設(shè)備內(nèi)存空間不夠的情況,并且模型計(jì)算需要消耗大量的時(shí)間。?用戶區(qū)別很大,不同的用戶關(guān)注信息不一樣,因此即使能夠得到推薦結(jié)果,其推薦效果也會(huì)不好。?分析思路用戶分類網(wǎng)址分類基于項(xiàng)目的協(xié)同過濾性能:UserCF適用

22、于用戶較少的場(chǎng)合,否則計(jì)算用戶相似度矩陣的代價(jià)很大;而ItemCF正好相反,適用于項(xiàng)目數(shù)明顯小于用戶數(shù)的情況實(shí)時(shí)性:UserCF用戶有新行為,不一定造成推薦結(jié)果的立即變化;ItemCF正好相反,一定會(huì)導(dǎo)致推薦結(jié)果的實(shí)時(shí)變化長尾物品豐富,用戶個(gè)性化需求強(qiáng)烈的領(lǐng)域推薦理由:與UserCF相比,ItemCF利用用戶的歷史行為給用戶做推薦解釋,更容易讓用戶信服算法流程:關(guān)聯(lián)規(guī)則是從事務(wù)數(shù)據(jù)庫,關(guān)系數(shù)據(jù)庫和其他信息存儲(chǔ)中大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性。更確切的說,關(guān)聯(lián)規(guī)則通過量化的數(shù)字描述物品甲的出現(xiàn)對(duì)物品乙的出現(xiàn)有多大的影響。車戶ACDE1C110a11Q2Q1_0_1Q1

23、0311111104010%_110a11QE000i010710000W5Q10iQ測(cè)試集、gBCDEB0.57C口,0.17D0.二口0.M0.2E0,60.60.330.H物品舊似庫64計(jì)菖興趣國推薦結(jié)果1:教學(xué)資源網(wǎng)頁類型(部分如下)$8//ts/661./ts/785.jhtml2. /ts/654.jhtml3. /ts/655.jhtml4. /ts/755./ts/578.jhtml$

24、0/ts/661./ts/785./sm/736./notice/760./notice/757./jmgj/568./ts/646./jmgj/569./jmgj/574./jmgj/575.jhtml.$5/ts/785.jhtml1.tipdm

25、.org/ts/661./ts/786./ts/755./ts/654./ts/747.jhtml結(jié)果反饋1模型評(píng)價(jià):準(zhǔn)確率與召回率(Precision&Recall)Precision就是檢索出來的條目中(網(wǎng)頁)有多少是準(zhǔn)確的Recall就是所有準(zhǔn)確的條目有多少被檢索出來了O-Qg-raiKJamilwwpopularitem推薦結(jié)果2:黨賽網(wǎng)頁類型(部分如下)用戶點(diǎn)擊網(wǎng)推薦網(wǎng)/td/374./td/723.jhtmlt

26、/sm/736.jhtml$46/zxns/716./td/465./td/378./qk/729./ts/661./fourthtipdm/774.jhtml$0/ts/661./fourthtipdm/778./sm/736./fourthtipdm/777.jhtmltipdm.

27、org/notice/760./qk/729./td/723./td/723./td/465.jhtml$94/sm/736./td/374./td/378./qk/729.jhtmlrandomHemspopularitemsrterr-teasedCF.6LI.推薦結(jié)果3:企業(yè)合作網(wǎng)頁類型(部分如下用戶點(diǎn)擊網(wǎng)推薦網(wǎng)$46/

28、td/723./zxns/716./zxns/773./wjxq/724./wjxq/660./wjxq/516./zxns/782.jhtml$61/xtxm//xtxm/index_2./wjxq/728./zxns/773./wjxq/725.jhtmltipd

29、/zxns/782./zxns/716.jhtml$26/fourthtipdm/779./fourthtipdm/778./secondtipdm/493./zzszl/718./kjxm/552./wjxq/725./wjxq/724./wjxq/660./zxns/780.jhtmltipd

30、/wjxq/516.jhtml結(jié)果反饋模型檢驗(yàn)3raraoniiitemspapularitemsrleirri-tiasdCFgon3口匚。不一量d推薦結(jié)果4:新聞公告網(wǎng)頁類型(部分如下)用戶點(diǎn)擊網(wǎng)推薦網(wǎng)$0/ts/661./ts/785./sm/736./notice/760./notice/757./fourthtipdm/775./jmgj/576.jhtmltipdm.o

31、rg/notice/765./notice/787./notice/769./notice/758./notice/743.jhtml$8/sj/789./notice/758./notice/757./notice/661./notice/758./notice/561.jhtml$

32、01/notice/757./notice/758./notice/769./notice/760./sj/789./news/465.jhtmlrauMurnilwrispopiJartlemsC-F0s90.Q名一030五、結(jié)果分析從推薦結(jié)果和模型檢驗(yàn)上得出,不同的用戶對(duì)網(wǎng)址點(diǎn)擊的次數(shù)有一定的關(guān)聯(lián)規(guī)則,更確切的說,就是通過量化的數(shù)字描述物品甲的出現(xiàn)對(duì)物品乙的出現(xiàn)有多大的影響,進(jìn)而真正的了解用戶,從而對(duì)用戶進(jìn)行推薦。從模型的檢驗(yàn)上看,我

33、們用了三種檢驗(yàn)方法,即隨機(jī)推薦檢驗(yàn)、熱點(diǎn)推薦檢驗(yàn)、舊CF推薦檢驗(yàn),從檢驗(yàn)圖形上可以得出熱點(diǎn)推薦對(duì)用戶的召回率和精確度更明顯,即隨著推薦個(gè)數(shù)的增加,用戶被召回的可能性就越低,而針對(duì)這個(gè)問題我們更應(yīng)該深入的去了解用戶,給用戶推薦他們真正想要的結(jié)果。六、模型應(yīng)用當(dāng)前,隨著互聯(lián)網(wǎng)對(duì)人們生活影響的不斷增大,每天有數(shù)以億計(jì)的用戶行為數(shù)據(jù)被網(wǎng)站記錄。這些數(shù)據(jù)以隱性信息的方式反映人們的行為習(xí)慣、興趣愛好、性格特征,甚至是政治主張。網(wǎng)民每天都在告訴我們,他們到底需要什么。而這也正反映了用戶的需求,可以說誰能讀出用戶的需求,誰就能更好地迎合用戶,獲取更多的流量,其網(wǎng)站的用戶體驗(yàn)也就越好。通過用戶使用網(wǎng)站時(shí)留下的數(shù)

34、據(jù)來讀出用戶需求、習(xí)慣、愛好。了解到用戶真正需要什么,所以在對(duì)于日后的網(wǎng)頁推薦過程中,建議根據(jù)不同類型的網(wǎng)頁運(yùn)用不同的算法進(jìn)行推薦,即分類推薦,以達(dá)到最好的推薦效果。這不但會(huì)更好的為用戶提供網(wǎng)頁推薦服務(wù),而且會(huì)加大用戶對(duì)該公司網(wǎng)頁的點(diǎn)擊量,并在很大程度上方便用戶查找想要的內(nèi)容。附錄:data-read.csv(C:UsersAdministratorDesktoptipdm.initdata.csv,stringsAsFactors=F)#導(dǎo)入原始數(shù)據(jù)#采用匹配的方法找出那些帶有.jhtml或.htm形式的網(wǎng)址nf2-datagrep(.jhtml|.htm,data,fullurl),#去除

35、帶網(wǎng)站主頁、亂碼類臟數(shù)據(jù)網(wǎng)址ind1-nf2-grep(_d+|/index.jhtml|.*%.*|/sj/6.jhtml,nf2,fullurl),info-ind1,c(ip,fullurl)#從去除臟數(shù)據(jù)的數(shù)據(jù)中提取出ip、fullurl兩列l(wèi)ibrary(plyr)library(recommenderlab)library(registry)#篩選教學(xué)資源類網(wǎng)頁ff-infogrep(zytj|yxsp|jmgj|information|ts|asdf|dsjkf|jiao|jmg|tts|sjfxs|sjsdf,info,fullurl),#篩選競賽類網(wǎng)頁ff1-infogrep(jszz|stpj|yxzp|cgal|firsttipdm|secondtipdm|thirdtipdm|fourthtipdm|jingsa|kjxm|qk|sdfasf|sm|td,info,fullur門),#ff2-infogrep(qyal|xtxm|wjxq|zxns|zzszl,info,fullur門),#ff3-infogrep(news

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論