設(shè)計(jì)模板開題報(bào)告

上傳人：環(huán)*** IP屬地：四川上傳時(shí)間：2023-03-17 格式：DOCX 頁(yè)數(shù)：10 大小：227.13KB 積分：6 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩5頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于情境偏好挖掘的用戶構(gòu)1從1991年TimBerners-Lee發(fā)明了網(wǎng)（WorldWideWeb）開始，到20年后的2011年，互聯(lián)網(wǎng)真正了一個(gè)新的里程碑，進(jìn)入了“大數(shù)據(jù)2008ITME（IEEEInternationalSymposiumonITinMedicineandEducation）至今，用數(shù)據(jù)挖掘技術(shù)構(gòu)建用戶為企業(yè)與用戶提供了更為精準(zhǔn)的用戶信息全貌，更便于更清楚了解用戶本身。這一技術(shù)科度地揭示信息資源的屬性，同立更精確的用戶。2現(xiàn)階段國(guó)內(nèi)外有兩種構(gòu)建用戶的大致方法直接直接通過查詢端口讓用戶進(jìn)行偏好選擇從而構(gòu)建用戶利用現(xiàn)有列出的各種詳細(xì)分類供用戶進(jìn)行選擇，大體分類形式有：類型、語種、藝術(shù)家、年代，各形式內(nèi)包含數(shù)種小。間接捕捉用戶的隱藏偏好項(xiàng)并應(yīng)用偏好挖掘的算法從而構(gòu)建用戶。1)排序?qū)W習(xí)名，，居住城市等等。則代表這一個(gè)個(gè)實(shí)體，來進(jìn)行排序排序?qū)W習(xí)問題在于發(fā)現(xiàn)將用戶個(gè)人信息和他們排列（對(duì)象現(xiàn)階段方法有：用于訓(xùn)練一組二進(jìn)制分類器的排序方2)對(duì)象排序?qū)W習(xí)法且對(duì)偏好對(duì)象的預(yù)測(cè)是與這個(gè)獨(dú)特的用戶所關(guān)的。3事務(wù)數(shù)據(jù)庫(kù)情境偏好規(guī)則事務(wù)數(shù)據(jù)庫(kù)情境偏好規(guī)則個(gè)人用戶偏好樣本集偏好數(shù)據(jù)庫(kù)用用 1.以豆瓣中的用戶為例。如圖1所示，從豆瓣用戶個(gè)人主頁(yè)上爬取該用戶看過的信息作為事務(wù)數(shù)據(jù)庫(kù)D，在事務(wù)數(shù)據(jù)庫(kù)中分析得出偏好數(shù)據(jù)庫(kù)P；從這套數(shù)據(jù)庫(kù)P中抽取一組作為情境偏好規(guī)則π，通過這一規(guī)則將所有的個(gè)人用戶偏好抽取出來作為樣本；通過情景偏好挖掘算法從這批樣本S中建立用戶Π。4用網(wǎng)絡(luò)爬蟲技術(shù)爬取用戶相關(guān)信從事務(wù)數(shù)據(jù)庫(kù)D中抓取出偏好數(shù)據(jù)庫(kù)偏好規(guī)則挖掘的算用戶構(gòu)建算5網(wǎng)絡(luò)爬蟲技術(shù)工作流爬塊超則作為圖中的邊，通過某網(wǎng)頁(yè)的超得到其他網(wǎng)頁(yè)的地址，從而可以收集過程也是如此。綜上，Spider收集網(wǎng)頁(yè)的過程如下：從初始URL集合獲爬塊2.網(wǎng)頁(yè)數(shù)據(jù)抓網(wǎng)頁(yè)收集器通過一個(gè)URL來獲取該URL對(duì)應(yīng)的網(wǎng)頁(yè)數(shù)據(jù)，其實(shí)現(xiàn)主要JavaURLConnectionURL對(duì)應(yīng)頁(yè)面的網(wǎng)絡(luò)連接，然后通過I/O流其中的數(shù)據(jù)，BufferedReader提供數(shù)據(jù)的緩沖區(qū)提高數(shù)據(jù)的效率以及其下定義的readLine()行函數(shù)。網(wǎng)頁(yè)處后續(xù)處理的原始數(shù)據(jù)；另一種是被分析之后，抽取其中的URL連接，放入U(xiǎn)RL池等待對(duì)應(yīng)網(wǎng)頁(yè)的收集。種數(shù)據(jù)格式，該格式從天網(wǎng)的格式簡(jiǎn)化而來：一條記錄由數(shù)據(jù)頭、數(shù)據(jù)、空行組成，順序?yàn)椋侯^部+空行++URL的提取分為兩步，第一步是URL識(shí)別，第二步再進(jìn)行URL的整理，分兩步走主要是因?yàn)橛行┑氖遣捎孟鄬?duì)路徑，如果不整理會(huì)產(chǎn)生錯(cuò)誤。URL的識(shí)別主要是通過正則表達(dá)式來匹配，過程首先設(shè)定一個(gè)字符串作為匹配的字符串模式，然后在Pattern中編譯后即可使用Matcher類來進(jìn)行相URL的整理，即對(duì)之前獲得的整個(gè)頁(yè)面中URL很容易的獲得當(dāng)前網(wǎng)頁(yè)的URL，所以，相對(duì)只需要在當(dāng)前網(wǎng)頁(yè)的URL上添加相對(duì)的字段即可組成完整的URL，從而完成整合。另一方面，在頁(yè)面中包含的全面URL中，有一些網(wǎng)頁(yè)比如網(wǎng)頁(yè)是不想爬取的，或者不重要的，這里主要針對(duì)于頁(yè)面中的進(jìn)行一個(gè)簡(jiǎn)單處理。一般的連接都從而抓取出用戶看過的單中的關(guān)鍵字作為（這里只取5個(gè)。如“英語”、“·”“動(dòng)作”、“范·迪塞爾、“”偏好數(shù)據(jù)庫(kù)的獲事務(wù)數(shù)據(jù)庫(kù)事務(wù)數(shù)據(jù)庫(kù)ACDABDABCECDAB偏好數(shù)據(jù)庫(kù)表1中的關(guān)系表D表示豆瓣上一個(gè)用戶主頁(yè)上發(fā)布的信息記錄。,,,,E分別代表了上節(jié)爬取出的英語、·“動(dòng)作、范·迪塞爾、“。每一個(gè)??(??=12345代表了每次用戶發(fā)布一個(gè)新看過的中的集合I，這些被稱為事務(wù)。假設(shè)用戶主頁(yè)上發(fā)布的中，符合標(biāo)簽集1的有十個(gè)，符合集3的有5個(gè)。由此暗中表明了，對(duì)于與集3相關(guān)的，該用戶對(duì)與集1有關(guān)的更感，正如關(guān)系表p中展示的第一對(duì)數(shù)據(jù)<t1,3。我們注意到，1和3集都包含著（英語）和（動(dòng)作。而在同時(shí)包含A和C的1與3之間，用戶偏愛于包含(范·迪塞爾)的1，而不是包含（·）的3。由此，可以得到以下的情境自覺偏好規(guī)律：在兩部語種為英語的動(dòng)作片中，該用戶更加喜歡由范·迪塞爾演出的，而不是·演出的。A和C則構(gòu)成了這個(gè)規(guī)律的情境與設(shè)定。我們可以發(fā)現(xiàn)，一些事務(wù)對(duì)(比如12>)p偏好規(guī)則的挖設(shè)定IX是項(xiàng)目I的集合（X?。項(xiàng)目集的語言對(duì)應(yīng)關(guān)系為L(zhǎng)=2??。一個(gè)事務(wù)數(shù)據(jù)庫(kù)DL中的多重項(xiàng)目集。每一個(gè)項(xiàng)目集，經(jīng)常被稱為事務(wù)，是一個(gè)數(shù)據(jù)庫(kù)的。上文中的表格一闡述了一個(gè)由t1,t2,t3,t4,t5A,B,C,D,E項(xiàng)目來描述事務(wù)的事務(wù)數(shù)據(jù)庫(kù)D一個(gè)偏好數(shù)據(jù)庫(kù)P?DD是一對(duì)事務(wù)的集合，其代表了來自數(shù)據(jù)庫(kù)D中一個(gè)用戶偏好樣本。直觀的來說，一個(gè)用戶偏好?t,???∈??中的t（根據(jù)用戶的反饋）,u5p1p5的用戶偏好集。用戶偏好數(shù)據(jù)庫(kù)和事務(wù)數(shù)據(jù)庫(kù)的關(guān)系遵循下圖[3.偏3.其中p不具有傳遞性，因?yàn)槠脭?shù)據(jù)庫(kù)經(jīng)常是由不確定的用戶反饋所建立的。本文主要目標(biāo)是從一個(gè)用戶提供的偏好數(shù)據(jù)庫(kù)中抽取其用戶。一個(gè)用戶是由一些含有特殊性質(zhì)的偏好規(guī)律所規(guī)定的。本質(zhì)上來說，一個(gè)情境好規(guī)律??+>???ΙX表明在情境X的情況下，項(xiàng)目??+比項(xiàng)目???用戶構(gòu)建算NN是否選擇了一個(gè)最佳情境偏好規(guī)則N是否移除了不必要的情境偏好規(guī)YYY用圖4.用戶構(gòu)如圖4所示，建立用戶時(shí)，會(huì)反迭代由情境偏好挖掘算法得到的情境偏好規(guī)則集合S中的主要原理，這個(gè)動(dòng)作會(huì)一直持續(xù)直到數(shù)據(jù)庫(kù)中所有的用戶6對(duì)豆瓣網(wǎng)中的一個(gè)用戶數(shù)據(jù)的預(yù)處理，這直接影響后續(xù)分析效果偏好規(guī)則。用戶構(gòu)建問題：用戶是從用戶之前已提供的偏好樣本中指7序各階段名起止日1確定，制定基本方案，寫出開2014.12.1--22015.3.1--32015.3.12--42015.5.1--52015.5.15--RamanathanK,GiraudiJ,GuptaA.CreatingHierarchicalUserProfilesUsingWikipedia[EB/OL].(2008-10-06).[2010-11-22]. AuYeungCM,GibbinsN,ShadboltN.AStudyofUserProfileGenerationfromFolksonomies[EB/OL].(2008-04-25).[2010-10-15].GodoyD,AmandiA.HybridContentandTag-basedProfilesformendationinCollaborativeTaggingSystems[EB/OL].[2010-10-13].ZhangY,FengB.Tag-basedUserModelingUsingFormalConceptysis[C].In:Proceedingsofthe8thIEEEInternationalC

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

設(shè)計(jì)模板開題報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

設(shè)計(jì)模板開題報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔