




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、劉 均 電信學院系統(tǒng)結(jié)構(gòu)與網(wǎng)絡(luò)研究所,WEB MINING日志挖掘,主要內(nèi)容,Web Usage Mining的定義 Web Usage Mining的分類 Web Usage Mining的應(yīng)用 Web Usage Mining的方法 預(yù)處理方法 挖掘方法,Web Usage Mining 定義,WUM的定義,Application of data mining techniques to discover usage patterns from web log data,WUM的定義,通過根據(jù)Web日志記錄的挖掘,發(fā)現(xiàn)用戶訪問Web頁面的模式,以期改進站點的性能和組織結(jié)構(gòu),提高Web用戶查
2、找信息的質(zhì)量和效率;并通過統(tǒng)計和關(guān)聯(lián)的分析找出特定用戶與特定地域、特定時間、特定頁面等要素之間的內(nèi)在聯(lián)系,為用戶提供個性化的服務(wù)。,Web Usage Mining 分類,Web Usage Mining的分類,WUM在Web Mining中的位置 從挖掘的目標:公共的、個體的 從挖掘數(shù)據(jù)的類型 從挖掘的數(shù)據(jù)源:客戶端、代理、WEB服務(wù)器,Web Mining 分類,Web Usage Mining,Web Structure Mining,Web Content Mining,Web Page Content Mining,Search Result Mining,Web Usage Min
3、ing,General Access Pattern Tracking Web Log Mining Uses KDD techniques to understand general access patterns and trends. Can shed light on better structure and grouping of resource providers.,Customized Usage Tracking,Web Usage Mining,Web Usage Mining,General Access Pattern Tracking,Customized Usage
4、 Tracking Analyzes access patterns of each user at a time. Web site restructures itself automatically by learning from user access patterns.,Web Structure Mining,Web Content Mining,Web Page Content Mining,Search Result Mining,Data available,Server logs Error logs Cookie logs Query data,Data Sources,
5、W3C Extended Log File Format,WUM Server logs,123.456.78.9 - - 24/Oct/1999:19:13:44 0400 “GET /Images/tagline.gif HTTP/1.0” 200 1449 “Mozilla/4.51 en (Win98;I)”,Proxy Log,0 - - 23/Jan/1998:11:21:33 +0100 GET TCP_DONE 21495 4 - - 23/Jan/1998:11:21:52 +0100 GET http:/www.panda.c
6、z/simpsons/simpicon.zip TCP_MISS 0 4 - - 23/Jan/1998:11:21:54 +0100 GET http:/www.panda.cz/simpsons/pict/nuclearplant.gif TCP_DONE 2726 0 - - 23/Jan/1998:11:22:10 +0100 GET 1/campus/graphics/2girls.jpg TCP_DONE 33371 4 - - 23/Jan/1998:11:22:40 +01
7、00 GET http:/www.panda.cz/simpsons/pict/school.gif TCP_DONE 3184 4 - - 23/Jan/1998:11:28:41 +0100 GET http:/www.panda.cz/simpsons/pict/simpcity.jpg TCP_DONE 80729 4 - - 23/Jan/1998:11:35:30 +0100 GET http:/www.panda.cz/simpsons/simpicon.zip TCP_DONE 131322 4 - - 2
8、3/Jan/1998:11:37:54 +0100 GET http:/www.panda.cz/simpsons/simpicon.zip TCP_HIT 131322,Web Usage Mining 應(yīng)用,Web Usage Mining的應(yīng)用,Market research Site design,Web Usage Mining的應(yīng)用,System Improvement 1). Site Improvement,根據(jù)實際用戶的瀏覽情況,調(diào)整網(wǎng)站的網(wǎng)頁的連接結(jié)構(gòu)和內(nèi)容,更好的服務(wù)用戶,極端:Adaptive web sites,Web Usage Mining的應(yīng)用,System I
9、mprovement 2). Caching it only indicates the use of a page as a localized navigational nexus for that particular user. The similarity sim(t,s) as the normalized cosine of the angle between the two vectors. K-means algorithm is used to obtain transaction clusters.,The Recommendation Process,The recom
10、mendation engine is the online component of the system based on usage mining. The task of the recommendation engine is to compute a recommendation set(potentially useful links based on the users navigational activity through the site) for the current session. Consider factors: The matching criteria for each cluster or frequent itemset to the current active
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園教室色彩搭配與裝修方案
- 2025年公安院校聯(lián)考公安專業(yè)知識模擬題(附答案)
- 高效能源轉(zhuǎn)型:農(nóng)林廢棄物摻燒發(fā)電的可行性研究
- 2025至2030中國自行車設(shè)備行業(yè)市場占有率及投資前景評估規(guī)劃報告
- 2025至2030中國自動肽合成設(shè)備行業(yè)市場占有率及投資前景評估規(guī)劃報告
- 2025至2030中國自動地板研磨機行業(yè)產(chǎn)業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 2025至2030中國自動化醫(yī)院病床行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 半命題作文《-讓愛長久》寫作指導(dǎo)及范文
- 2025至2030中國腦深部刺激行業(yè)產(chǎn)業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 資源循環(huán)利用視角下的風機葉片回收產(chǎn)業(yè)發(fā)展規(guī)劃
- 成人女性壓力性尿失禁護理干預(yù)護理團標解讀
- 某律師事務(wù)所內(nèi)部規(guī)章管理制度大全
- GB 29743.2-2025機動車冷卻液第2部分:電動汽車冷卻液
- 六西格瑪試題及答案
- 急性右心衰的治療與護理
- 制約理論(TOC)驅(qū)動制造業(yè)突破性增長
- 社交媒體情感分析方法-全面剖析
- 2024年遼寧省文體旅集團所屬企業(yè)招聘筆試真題
- 湖南省2024年普通高等學校對口升學旅游專業(yè)
- 氨甲環(huán)酸用藥護理
- 《教育心理學》教材
評論
0/150
提交評論