版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于情境偏好挖掘的用戶構(gòu)1從1991年TimBerners-Lee發(fā)明了網(wǎng)(WorldWideWeb)開始,到20年后的2011年,互聯(lián)網(wǎng)真正了一個(gè)新的里程碑,進(jìn)入了“大數(shù)據(jù)2008ITME(IEEEInternationalSymposiumonITinMedicineandEducation)至今,用數(shù)據(jù)挖掘技術(shù)構(gòu)建用戶為企業(yè)與用戶提供了更為精準(zhǔn)的用戶信息全貌,更便于更清楚了解用戶本身。這一技術(shù)科度地揭示信息資源的屬性,同立更精確的用戶。2現(xiàn)階段國(guó)內(nèi)外有兩種構(gòu)建用戶的大致方法直接直接通過查詢端口讓用戶進(jìn)行偏好選擇從而構(gòu)建用戶利用現(xiàn)有列出的各種詳細(xì)分類供用戶進(jìn)行選擇,大體分類形式有:類型、語種、藝術(shù)家、年代,各形式內(nèi)包含數(shù)種小。間接捕捉用戶的隱藏偏好項(xiàng)并應(yīng)用偏好挖掘的算法從而構(gòu)建用戶。1)排序?qū)W習(xí)名,,居住城市等等。則代表這一個(gè)個(gè)實(shí)體,來進(jìn)行排序排序?qū)W習(xí)問題在于發(fā)現(xiàn)將用戶個(gè)人信息和他們排列(對(duì)象現(xiàn)階段方法有:用于訓(xùn)練一組二進(jìn)制分類器的排序方2)對(duì)象排序?qū)W習(xí)法且對(duì)偏好對(duì)象的預(yù)測(cè)是與這個(gè)獨(dú)特的用戶所關(guān)的。3事務(wù)數(shù)據(jù)庫(kù)情境偏好規(guī)則事務(wù)數(shù)據(jù)庫(kù)情境偏好規(guī)則個(gè)人用戶偏好樣本集偏好數(shù)據(jù)庫(kù)用用 1.以豆瓣中的用戶為例。如圖1所示,從豆瓣用戶個(gè)人主頁(yè)上爬取該用戶看過的信息作為事務(wù)數(shù)據(jù)庫(kù)D,在事務(wù)數(shù)據(jù)庫(kù)中分析得出偏好數(shù)據(jù)庫(kù)P;從這套數(shù)據(jù)庫(kù)P中抽取一組作為情境偏好規(guī)則π,通過這一規(guī)則將所有的個(gè)人用戶偏好抽取出來作為樣本;通過情景偏好挖掘算法從這批樣本S中建立用戶Π。4用網(wǎng)絡(luò)爬蟲技術(shù)爬取用戶相關(guān)信從事務(wù)數(shù)據(jù)庫(kù)D中抓取出偏好數(shù)據(jù)庫(kù)偏好規(guī)則挖掘的算用戶構(gòu)建算5網(wǎng)絡(luò)爬蟲技術(shù)工作流爬塊超則作為圖中的邊,通過某網(wǎng)頁(yè)的超得到其他網(wǎng)頁(yè)的地址,從而可以收集過程也是如此。綜上,Spider收集網(wǎng)頁(yè)的過程如下:從初始URL集合獲爬塊2.網(wǎng)頁(yè)數(shù)據(jù)抓網(wǎng)頁(yè)收集器通過一個(gè)URL來獲取該URL對(duì)應(yīng)的網(wǎng)頁(yè)數(shù)據(jù),其實(shí)現(xiàn)主要JavaURLConnectionURL對(duì)應(yīng)頁(yè)面的網(wǎng)絡(luò)連接,然后通過I/O流其中的數(shù)據(jù),BufferedReader提供數(shù)據(jù)的緩沖區(qū)提高數(shù)據(jù)的效率以及其下定義的readLine()行函數(shù)。網(wǎng)頁(yè)處后續(xù)處理的原始數(shù)據(jù);另一種是被分析之后,抽取其中的URL連接,放入U(xiǎn)RL池等待對(duì)應(yīng)網(wǎng)頁(yè)的收集。種數(shù)據(jù)格式,該格式從天網(wǎng)的格式簡(jiǎn)化而來:一條記錄由數(shù)據(jù)頭、數(shù)據(jù)、空行組成,順序?yàn)椋侯^部+空行++URL的提取分為兩步,第一步是URL識(shí)別,第二步再進(jìn)行URL的整理,分兩步走主要是因?yàn)橛行┑氖遣捎孟鄬?duì)路徑,如果不整理會(huì)產(chǎn)生錯(cuò)誤。URL的識(shí)別主要是通過正則表達(dá)式來匹配,過程首先設(shè)定一個(gè)字符串作為匹配的字符串模式,然后在Pattern中編譯后即可使用Matcher類來進(jìn)行相URL的整理,即對(duì)之前獲得的整個(gè)頁(yè)面中URL很容易的獲得當(dāng)前網(wǎng)頁(yè)的URL,所以,相對(duì)只需要在當(dāng)前網(wǎng)頁(yè)的URL上添加相對(duì)的字段即可組成完整的URL,從而完成整合。另一方面,在頁(yè)面中包含的全面URL中,有一些網(wǎng)頁(yè)比如網(wǎng)頁(yè)是不想爬取的,或者不重要的,這里主要針對(duì)于頁(yè)面中的進(jìn)行一個(gè)簡(jiǎn)單處理。一般的連接都 從而抓取出用戶看過的單中的關(guān)鍵字作為(這里只取5個(gè)。如“英語”、“·”“動(dòng)作”、“范·迪塞爾、“”偏好數(shù)據(jù)庫(kù)的獲事務(wù)數(shù)據(jù)庫(kù)事務(wù)數(shù)據(jù)庫(kù)ACDABDABCECDAB偏好數(shù)據(jù)庫(kù)表1中的關(guān)系表D表示豆瓣上一個(gè)用戶主頁(yè)上發(fā)布的信息記錄。,,,,E分別代表了上節(jié)爬取出的英語、·“動(dòng)作、范·迪塞爾、“。每一個(gè)??(??=12345代表了每次用戶發(fā)布一個(gè)新看過的中的集合I,這些被稱為事務(wù)。假設(shè)用戶主頁(yè)上發(fā)布的中,符合標(biāo)簽集1的有十個(gè),符合集3的有5個(gè)。由此暗中表明了,對(duì)于與集3相關(guān)的,該用戶對(duì)與集1有關(guān)的更感,正如關(guān)系表p中展示的第一對(duì)數(shù)據(jù)<t1,3。我們注意到,1和3集都包含著(英語)和(動(dòng)作。而在同時(shí)包含A和C的1與3之間,用戶偏愛于包含(范·迪塞爾)的1,而不是包含(·)的3。由此,可以得到以下的情境自覺偏好規(guī)律:在兩部語種為英語的動(dòng)作片中,該用戶更加喜歡由范·迪塞爾演出的,而不是·演出的。A和C則構(gòu)成了這個(gè)規(guī)律的情境與設(shè)定。我們可以發(fā)現(xiàn),一些事務(wù)對(duì)(比如12>)p偏好規(guī)則的挖設(shè)定IX是項(xiàng)目I的集合(X?。項(xiàng)目集的語言對(duì)應(yīng)關(guān)系為L(zhǎng)=2??。一個(gè)事務(wù)數(shù)據(jù)庫(kù)DL中的多重項(xiàng)目集。每一個(gè)項(xiàng)目集,經(jīng)常被稱為事務(wù),是一個(gè)數(shù)據(jù)庫(kù)的。上文中的表格一闡述了一個(gè)由t1,t2,t3,t4,t5A,B,C,D,E項(xiàng)目來描述事務(wù)的事務(wù)數(shù)據(jù)庫(kù)D一個(gè)偏好數(shù)據(jù)庫(kù)P?DD是一對(duì)事務(wù)的集合,其代表了來自數(shù)據(jù)庫(kù)D中一個(gè)用戶偏好樣本。直觀的來說,一個(gè)用戶偏好?t,???∈??中的t(根據(jù)用戶的反饋),u5p1p5的用戶偏好集。用戶偏好數(shù)據(jù)庫(kù)和事務(wù)數(shù)據(jù)庫(kù)的關(guān)系遵循下圖[3.偏3.其中p不具有傳遞性,因?yàn)槠脭?shù)據(jù)庫(kù)經(jīng)常是由不確定的用戶反饋所建立的。本文主要目標(biāo)是從一個(gè)用戶提供的偏好數(shù)據(jù)庫(kù)中抽取其用戶。一個(gè)用戶是由一些含有特殊性質(zhì)的偏好規(guī)律所規(guī)定的。本質(zhì)上來說,一個(gè)情境好規(guī)律??+>???ΙX表明在情境X的情況下,項(xiàng)目??+比項(xiàng)目???用戶構(gòu)建算NN是否選擇了一個(gè)最佳情境偏好規(guī)則N是否移除了不必要的情境偏好規(guī)YYY用 圖4.用戶構(gòu)如圖4所示,建立用戶時(shí),會(huì)反迭代由情境偏好挖掘算法得到的情境偏好規(guī)則集合S中的主要原理,這個(gè)動(dòng)作會(huì)一直持續(xù)直到數(shù)據(jù)庫(kù)中所有的用戶6對(duì)豆瓣網(wǎng)中的一個(gè)用戶數(shù)據(jù)的預(yù)處理,這直接影響后續(xù)分析效果偏好規(guī)則。用戶構(gòu)建問題:用戶是從用戶之前已提供的偏好樣本中指7序各階段名起止日1確定,制定基本方案,寫出開2014.12.1--22015.3.1--32015.3.12--42015.5.1--52015.5.15--RamanathanK,GiraudiJ,GuptaA.CreatingHierarchicalUserProfilesUsingWikipedia[EB/OL].(2008-10-06).[2010-11-22]. AuYeungCM,GibbinsN,ShadboltN.AStudyofUserProfileGenerationfromFolksonomies[EB/OL].(2008-04-25).[2010-10-15].GodoyD,AmandiA.HybridContentandTag-basedProfilesformendationinCollaborativeTaggingSystems[EB/OL].[2010-10-13].ZhangY,FengB.Tag-basedUserModelingUsingFormalConceptysis[C].In:Proceedingsofthe8thIEEEInternationalC
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年福建貨運(yùn)從業(yè)資格證考試試題及答案解析
- 2025年鄂州貨運(yùn)準(zhǔn)駕證模擬考試
- 2025年畢節(jié)貨運(yùn)從業(yè)資格證模擬考試題下載
- 2025年貴港從業(yè)資格證應(yīng)用能力考些啥
- 茶藝師聘用合同范本
- 地?zé)岚l(fā)電架電施工合同
- 互聯(lián)網(wǎng)產(chǎn)品運(yùn)營(yíng)專員勞動(dòng)合同
- 融資合作法律風(fēng)險(xiǎn)評(píng)估
- 宗教建筑承包協(xié)議
- 市政工程承諾函模板
- 2024-2025學(xué)年上海市虹口區(qū)高三一模地理試卷(含答案)
- 企業(yè)管理制度-薪酬管理制度
- 4.1.1陸地水體間的相互關(guān)系課件高中地理湘教版(2019)選擇性必修一
- 【MOOC】大學(xué)生心理學(xué)-中央財(cái)經(jīng)大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 外墻真石漆施工方案
- 計(jì)劃崗位培訓(xùn)課件
- 中藥涂擦治療
- IATF16949體系推行計(jì)劃(任務(wù)清晰版)
- 2024年軍事理論知識(shí)全冊(cè)復(fù)習(xí)題庫(kù)及答案
- 2021年高考數(shù)學(xué)試卷(上海)(春考)(解析卷)
- 石橫鎮(zhèn)衛(wèi)生院康復(fù)科建設(shè)方案
評(píng)論
0/150
提交評(píng)論