




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、電子商務和數(shù)據(jù)挖掘、基于WEB日志的用戶訪問模式挖掘以及電子商務和數(shù)據(jù)挖掘完美結合。電子商務中成功的數(shù)據(jù)挖掘得益于電子商務提供大量數(shù)據(jù)的事實。如果一個電子商務網(wǎng)站平均每小時銷售五件商品,其平均月點擊率為160萬次。豐富的記錄信息和良好的網(wǎng)站設計將有助于獲得豐富的信息和干凈的數(shù)據(jù)。所有從電子商務網(wǎng)站收集的都是電子數(shù)據(jù),不需要人工輸入或從歷史系統(tǒng)中集成。研究成果可以很容易地轉(zhuǎn)化為電子商務,許多知識發(fā)現(xiàn)可以直接應用。投資回報很容易衡量。電子商務為數(shù)據(jù)挖掘提供了海量數(shù)據(jù),“點擊流”將產(chǎn)生大量電子商務挖掘的數(shù)據(jù)。2000年,每天訪問的頁面數(shù)為10億。如此大量的訪問將產(chǎn)生巨大的網(wǎng)絡日志(記錄頁面訪問的情況
2、),每小時產(chǎn)生的網(wǎng)絡日志量將達到10GB!即使是一個小的電子商務網(wǎng)站也會在一段時間內(nèi)產(chǎn)生大量數(shù)據(jù)挖掘所需的數(shù)據(jù)。如果你的網(wǎng)站在一個小時內(nèi)銷售5個商品,一個月內(nèi)會有多少頁面被訪問:5個商品,24小時30天/%2(轉(zhuǎn)化率,表示訪問者中買東西的人的比例)9個頁面(平均9個頁面購買一個商品)=1,600,000個頁面,這是豐富的。如果你的電子商務網(wǎng)站設計良好,你將能夠獲得各種商業(yè)或用戶訪問信息:商品和商品屬性, 商品分類信息(在同時顯示多種商品時非常有用)、促銷信息、訪問信息(如訪問次數(shù))、客戶數(shù)量信息(可通過登錄/注冊獲得)、“干凈數(shù)據(jù)”,信息直接從網(wǎng)站中提取,不需要與歷史系統(tǒng)集成,避免了許多錯誤。
3、 與數(shù)據(jù)挖掘相關的數(shù)據(jù)可以通過良好的站點設計直接獲得,而不是對要使用的數(shù)據(jù)進行分析、計算和預處理。直接采集的電子數(shù)據(jù)可靠,不需要人工輸入數(shù)據(jù),避免了許多錯誤。通過良好的站點設計,對數(shù)據(jù)采樣粒度的良好控制粒度是在客戶級別或會話級別控制的,而不是在頁面級別控制的,這是一個有趣的“生日現(xiàn)象”。一家銀行發(fā)現(xiàn)其5%的客戶出生在同一天(同一年同一個月的同一天)!為什么?如何解釋?研究成果易于轉(zhuǎn)化,歷史上在數(shù)據(jù)挖掘研究中有許多知識發(fā)現(xiàn),但這些知識發(fā)現(xiàn)很少在實際商業(yè)應用中產(chǎn)生任何影響。應用這些發(fā)現(xiàn)的知識可能意味著進行復雜的系統(tǒng)改變、過程改變或改變?nèi)藗兊墓ぷ髁晳T,這在現(xiàn)實中是非常困難的。在電子商務中,許多知識發(fā)
4、現(xiàn)可以直接應用于改變網(wǎng)站的設計(改變布局,進行個性化設計等)。)并開始有針對性的促銷。根據(jù)廣告效果的統(tǒng)計數(shù)據(jù),改變廣告策略可以很容易地提供捆綁銷售,而且投資收益也很容易衡量。如何使用數(shù)據(jù)挖掘結果來衡量創(chuàng)新帶來的收入?在傳統(tǒng)業(yè)務中,衡量投資收入需要長期的衡量和觀察。帕科昂德希爾在購物的科學一書中提到,一家超市每年花14000小時觀看視頻,以衡量其促銷策略帶來的投資收益。在電子商務中,很容易衡量創(chuàng)新的投資收益,銷售變化報告可以自動生成客戶對電子郵件和電子調(diào)查的反饋,這些反饋可以在幾天內(nèi)獲得,而不是等待幾個月。電子商務甚至整個互聯(lián)網(wǎng)都是傳統(tǒng)商業(yè)的理想實驗室。電子商務網(wǎng)站的Web數(shù)據(jù)挖掘。電子商務網(wǎng)站
5、上常用的數(shù)據(jù)挖掘技術是網(wǎng)絡數(shù)據(jù)挖掘。我們能在電子商務網(wǎng)站上挖掘什么?網(wǎng)頁內(nèi)容挖掘(網(wǎng)頁內(nèi)容挖掘)網(wǎng)頁結構挖掘使用網(wǎng)頁使用挖掘和網(wǎng)頁內(nèi)容挖掘來挖掘網(wǎng)頁內(nèi)容并從網(wǎng)頁數(shù)據(jù)中發(fā)現(xiàn)信息。從數(shù)百萬個網(wǎng)站和在線數(shù)據(jù)庫中自動搜索和獲取信息和資料;雖然人們可以通過從互聯(lián)網(wǎng)上直接抓取和索引并實現(xiàn)檢索服務來獲取資源,但是大量的“隱藏”信息只能通過內(nèi)容挖掘來自動挖掘。網(wǎng)頁結構挖掘就是挖掘網(wǎng)頁之間的結構。在整個網(wǎng)絡空間中,有用的知識不僅包含在頁面的內(nèi)容中,也包含在頁面的結構中。Web結構挖掘主要針對頁面的超鏈接結構。如果有更多的超鏈接指向它,那么頁面是重要的,并且發(fā)現(xiàn)的知識可以用來改進搜索路徑。與網(wǎng)頁內(nèi)容挖掘和網(wǎng)頁結構
6、挖掘不同,網(wǎng)頁使用挖掘的挖掘?qū)ο笫怯脩襞c網(wǎng)絡交互過程中提取的二手數(shù)據(jù),主要是用戶訪問網(wǎng)頁時留在網(wǎng)頁日志中的信息和其他交互信息。日志信息包括訪問日期、時間、用戶IP地址、服務器IP地址、方法、請求的URL資源、服務器響應狀態(tài)、用戶代理、發(fā)送字節(jié)等。網(wǎng)絡使用挖掘是挖掘系統(tǒng)日志信息和用戶注冊數(shù)據(jù),尋找有用的模式和知識。網(wǎng)站使用挖掘的作用,通過將網(wǎng)站使用挖掘數(shù)據(jù)挖掘技術應用于電子商務網(wǎng)站,可以提高網(wǎng)站質(zhì)量,改善網(wǎng)站緩存,緩解網(wǎng)絡流量,提高性能。在電子商務中,還可以獲取采購過程的大量細節(jié),這為更深入的分析提供了可能性。典型日志文件片段-01/Aug/19953:00:01336038-0400“獲取/航
7、天飛機/任務/STS-71/圖像/圖像”第2項:查看者的電子郵件地址或其他唯一標識符。今天,我們很少有機會在日志記錄的第二項中看到電子郵件地址,因此上面標有-的字段為空,而網(wǎng)絡日志(2),典型日志文件片段-01/aug/1995 :00:01:38-0400“獲取/穿梭/任務/STS-71/圖像/圖像”。第三項:記錄查看者在驗證期間提供的信息項目4:請求時間;第5項:告訴我們服務器收到了什么樣的請求。該信息的典型格式是“方法資源協(xié)議”,即“方法資源協(xié)議”;這是網(wǎng)絡日志中最有用的信息。在上面的例子中,方法是GET RESOURCE,它指的是瀏覽器從服務器請求的文檔,或者URL協(xié)議通常是HTTP后
8、跟版本號。網(wǎng)絡日志(3),典型日志文件片段-01/aug/19953:00:01336038-0400“獲取/穿梭/任務/STS-71/圖像/圖像”。大多數(shù)情況下,該值為200,這意味著服務器已經(jīng)成功響應了瀏覽器的請求,一切正常。第七項:發(fā)送到客戶端的總字節(jié)數(shù)。網(wǎng)站使用挖掘的基本過程,網(wǎng)站使用挖掘主要是通過系統(tǒng)日志信息、錯誤日志cookies的基本實現(xiàn)過程進行網(wǎng)站使用挖掘、預處理、模式發(fā)現(xiàn)、預處理,這使得挖掘過程更有效、更容易清理數(shù)據(jù)。其目的是刪除日志文件中一些與數(shù)據(jù)分析和挖掘無關的項目。例如,刪除用戶請求方法中未獲得的記錄;用戶標識日志文件僅記錄主機或代理服務器的IP地址。為了識別用戶,需要
9、Cookie技術和一些啟發(fā)式規(guī)則來幫助識別他們。路徑補充確認網(wǎng)頁日志中是否缺少重要的頁面訪問記錄;事件識別事件識別與要挖掘什么樣的知識有關,用戶會話根據(jù)挖掘活動的特定需求被定義為事件。模式發(fā)現(xiàn),通過將各種數(shù)據(jù)挖掘功能和算法應用于預處理數(shù)據(jù)來挖掘有用模式和規(guī)則的過程。網(wǎng)絡使用挖掘中使用的網(wǎng)絡日志分析和用戶行為模式挖掘方法包括:關聯(lián)分析分類和預測聚類分析序列模式統(tǒng)計分析,以及網(wǎng)絡使用挖掘關聯(lián)分析(1),它是通過分析訪問網(wǎng)頁的用戶之間的潛在關系總結出來的規(guī)則;例如,當80%的用戶訪問網(wǎng)頁/公司/產(chǎn)品2時,他們也會訪問/公司/產(chǎn)品2;常用算法有Apriori算法或其變體算法、頻繁模式樹(FP- tre
10、e)算法等??捎糜谕诰虮辉L問頁面中頻繁訪問的頁面集,例如,通過,a=b=c a=b=d,a=b,a=b=e=f,網(wǎng)頁使用挖掘關聯(lián)分析(2),通過關聯(lián)分析挖掘的頻繁項集(頁面集)可用于預取可能被請求的頁面,從而減少等待時間。對于頻繁項集(頁面集)A,B,當用戶訪問A時,頁面B被調(diào)用到緩存中,從而改善網(wǎng)絡緩存,緩解網(wǎng)絡流量,提高性能,促進在線商務。對于頻繁項集A,B,如果它們分別代表兩個產(chǎn)品的頁面,這是可以解釋的,我們可以利用這一點在電子商務實踐中給出更有效的促銷策略或廣告策略。網(wǎng)絡使用挖掘分類和預測功能可用于提取描述重要數(shù)據(jù)類別的模型,并使用模型預測來確定未知數(shù)據(jù)的類別標簽,從而預測未來的數(shù)據(jù)趨
11、勢。常用算法:決策歸納樹、貝葉斯分類、k近鄰分類等應用:用戶可以根據(jù)其個人數(shù)據(jù)或其特定的訪問模式分類到特定的類別。用戶的分類(例如,對電子產(chǎn)品感興趣的用戶)可以根據(jù)他們對某些產(chǎn)品的訪問、他們的購物或他們對購物車的放棄來確定,并且相應的促銷策略可以用于相應的分類。網(wǎng)絡使用挖掘聚類分析(1),聚類:將一組對象分組為由相似對象組成的多個類的過程。(與分類的區(qū)別?常用的聚類算法有:劃分法、層次法、基于密度法等。在網(wǎng)站使用挖掘應用程序中有兩種聚類。頁面聚類將與內(nèi)容相關的頁面分類到一個網(wǎng)頁組中,這對于在線搜索引擎和在互聯(lián)網(wǎng)上提供幫助非常有用。用戶聚類對具有相似訪問特征的用戶進行分類,在電子商務市場細分和為
12、用戶提供個性化服務方面發(fā)揮著重要作用。網(wǎng)絡使用挖掘聚類分析(2),聚類分析可以有利于相似的用戶,從而動態(tài)地定制瀏覽內(nèi)容或為用戶提供瀏覽建議。例如,采購推薦系統(tǒng)或動態(tài)促銷系統(tǒng)的功能有:1)方便用戶查詢和瀏覽;2)增強廣告的作用;3)促進網(wǎng)上銷售;4)提高用戶忠誠度;(1)通過計算出現(xiàn)率、平均值和中位數(shù),獲得用戶訪問網(wǎng)站的基本信息。它還可以提供有限的低級錯誤分析,例如檢測未授權的入口點和找出最常見和不變的網(wǎng)址。它可用于計算客戶訪問頁面的次數(shù)、停留時間等。并獲得訪問量最大的頁面(或產(chǎn)品、網(wǎng)址等。)。網(wǎng)站使用挖掘統(tǒng)計分析(1),常用的電子商務網(wǎng)站用戶訪問統(tǒng)計(摘錄),平均用戶訪問8-10頁,在網(wǎng)站上花費5分鐘。每個頁面平均花費35秒,購物用戶訪問50個頁面,在網(wǎng)站上花費30分鐘。網(wǎng)頁使用挖掘序列模式試圖找出網(wǎng)頁按時間順序出現(xiàn)的固有模式,可以用來分析用戶的瀏覽趨勢,即一組數(shù)據(jù)項出現(xiàn)在另一組數(shù)據(jù)項之后,從而形成一組按時間順序排列的會話來預測未來的訪問模式,這將有助于為特殊的用戶組安排特定的內(nèi)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公寓按揭貸款管理辦法
- 青椒計劃項目實施效果評估與個人貢獻總結報告
- 豎爐氫冶金工藝在低碳環(huán)保鋼鐵生產(chǎn)中的應用探索
- 標桿企業(yè)指標管理辦法
- 理財教育大眾化傳播模式與內(nèi)容創(chuàng)新研究
- 全基因組關聯(lián)分析在小麥抗旱性狀研究中的應用
- 《公共圖書館法》分析:結構特點、生成邏輯與優(yōu)化策略
- 廚房高檔原料管理辦法
- 橋梁安全等級劃分標準
- 發(fā)票管理辦法追訴時限
- 保安培訓課程表(完整版)咨詢培訓
- 《飛機電子顯示器顯示符號》
- 贏利:未來10年的經(jīng)營能力
- 光伏支架風荷載分析
- 頭等大事:脫發(fā)青年自救指南
- 馬拉色菌相關疾病診療指南(2022年版)
- 哈雷之約:基于指數(shù)成分股調(diào)整的選股策略
- 湖北省隨州市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會明細及行政區(qū)劃代碼
- 磁流體密封課件
- T∕CCIA 001-2022 面向網(wǎng)絡安全保險的風險評估指引
- 高處作業(yè)審批表
評論
0/150
提交評論