




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、劉 均 電信學院系統(tǒng)結(jié)構(gòu)與網(wǎng)絡(luò)研究所,WEB MINING日志挖掘,主要內(nèi)容,Web Usage Mining的定義 Web Usage Mining的分類 Web Usage Mining的應(yīng)用 Web Usage Mining的方法 預(yù)處理方法 挖掘方法,Web Usage Mining 定義,WUM的定義,Application of data mining techniques to discover usage patterns from web log data,WUM的定義,通過根據(jù)Web日志記錄的挖掘,發(fā)現(xiàn)用戶訪問Web頁面的模式,以期改進站點的性能和組織結(jié)構(gòu),提高Web用戶查
2、找信息的質(zhì)量和效率;并通過統(tǒng)計和關(guān)聯(lián)的分析找出特定用戶與特定地域、特定時間、特定頁面等要素之間的內(nèi)在聯(lián)系,為用戶提供個性化的服務(wù)。,Web Usage Mining 分類,Web Usage Mining的分類,WUM在Web Mining中的位置 從挖掘的目標:公共的、個體的 從挖掘數(shù)據(jù)的類型 從挖掘的數(shù)據(jù)源:客戶端、代理、WEB服務(wù)器,Web Mining 分類,Web Usage Mining,Web Structure Mining,Web Content Mining,Web Page Content Mining,Search Result Mining,Web Usage Min
3、ing,General Access Pattern Tracking Web Log Mining Uses KDD techniques to understand general access patterns and trends. Can shed light on better structure and grouping of resource providers.,Customized Usage Tracking,Web Usage Mining,Web Usage Mining,General Access Pattern Tracking,Customized Usage
4、 Tracking Analyzes access patterns of each user at a time. Web site restructures itself automatically by learning from user access patterns.,Web Structure Mining,Web Content Mining,Web Page Content Mining,Search Result Mining,Data available,Server logs Error logs Cookie logs Query data,Data Sources,
5、W3C Extended Log File Format,WUM Server logs,123.456.78.9 - - 24/Oct/1999:19:13:44 0400 “GET /Images/tagline.gif HTTP/1.0” 200 1449 “Mozilla/4.51 en (Win98;I)”,Proxy Log,0 - - 23/Jan/1998:11:21:33 +0100 GET TCP_DONE 21495 4 - - 23/Jan/1998:11:21:52 +0100 GET http:/www.panda.c
6、z/simpsons/simpicon.zip TCP_MISS 0 4 - - 23/Jan/1998:11:21:54 +0100 GET http:/www.panda.cz/simpsons/pict/nuclearplant.gif TCP_DONE 2726 0 - - 23/Jan/1998:11:22:10 +0100 GET 1/campus/graphics/2girls.jpg TCP_DONE 33371 4 - - 23/Jan/1998:11:22:40 +01
7、00 GET http:/www.panda.cz/simpsons/pict/school.gif TCP_DONE 3184 4 - - 23/Jan/1998:11:28:41 +0100 GET http:/www.panda.cz/simpsons/pict/simpcity.jpg TCP_DONE 80729 4 - - 23/Jan/1998:11:35:30 +0100 GET http:/www.panda.cz/simpsons/simpicon.zip TCP_DONE 131322 4 - - 2
8、3/Jan/1998:11:37:54 +0100 GET http:/www.panda.cz/simpsons/simpicon.zip TCP_HIT 131322,Web Usage Mining 應(yīng)用,Web Usage Mining的應(yīng)用,Market research Site design,Web Usage Mining的應(yīng)用,System Improvement 1). Site Improvement,根據(jù)實際用戶的瀏覽情況,調(diào)整網(wǎng)站的網(wǎng)頁的連接結(jié)構(gòu)和內(nèi)容,更好的服務(wù)用戶,極端:Adaptive web sites,Web Usage Mining的應(yīng)用,System I
9、mprovement 2). Caching it only indicates the use of a page as a localized navigational nexus for that particular user. The similarity sim(t,s) as the normalized cosine of the angle between the two vectors. K-means algorithm is used to obtain transaction clusters.,The Recommendation Process,The recom
10、mendation engine is the online component of the system based on usage mining. The task of the recommendation engine is to compute a recommendation set(potentially useful links based on the users navigational activity through the site) for the current session. Consider factors: The matching criteria for each cluster or frequent itemset to the current active
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)用設(shè)備捐贈管理辦法
- 供暖供水考核管理辦法
- 新質(zhì)生產(chǎn)力對電商創(chuàng)新生態(tài)系統(tǒng)的影響及發(fā)展策略
- 小學描寫人物作文寫作指導(dǎo)
- 綠色教育校本課程開發(fā)與實施
- 施工方案:道路與地坪拆除工程
- 智能預(yù)測系統(tǒng)在化纖生產(chǎn)中的應(yīng)用-洞察及研究
- 培訓(xùn)機構(gòu)聘用管理辦法
- 探索和完善科研過程中的容錯機制以促進創(chuàng)新活力的策略研究
- 供暖企業(yè)熱源管理辦法
- 2025年天津市中考語文試卷(含標準答案)
- 保險品質(zhì)管理制度
- 2025年遼寧高考地理試卷真題答案詳解講評課件(黑龍江吉林內(nèi)蒙古適用)
- 全國中小學教師職業(yè)道德知識競賽80題及答案
- 2023CSCO食管癌診療指南
- 2024年四川省資中縣事業(yè)單位公開招聘教師崗筆試題帶答案
- 成人女性壓力性尿失禁護理干預(yù)護理團標解讀
- 某律師事務(wù)所內(nèi)部規(guī)章管理制度大全
- GB 29743.2-2025機動車冷卻液第2部分:電動汽車冷卻液
- 急性右心衰的治療與護理
- 制約理論(TOC)驅(qū)動制造業(yè)突破性增長
評論
0/150
提交評論