數(shù)據(jù)挖掘系列講座九、電子商務與數(shù)據(jù)挖掘資料_第1頁
數(shù)據(jù)挖掘系列講座九、電子商務與數(shù)據(jù)挖掘資料_第2頁
數(shù)據(jù)挖掘系列講座九、電子商務與數(shù)據(jù)挖掘資料_第3頁
數(shù)據(jù)挖掘系列講座九、電子商務與數(shù)據(jù)挖掘資料_第4頁
數(shù)據(jù)挖掘系列講座九、電子商務與數(shù)據(jù)挖掘資料_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘套件第9課,通過電子商務和數(shù)據(jù)挖掘、基于web日志的用戶訪問模式挖掘、電子商務和數(shù)據(jù)挖掘的完美結(jié)合,電子商務中成功的數(shù)據(jù)挖掘在電子商務中提供了大量數(shù)據(jù)。電子商務網(wǎng)站平均一小時銷售5件商品,每月平均點擊次數(shù)為160萬次。豐富的記錄信息豐富的網(wǎng)站設計將幫助您獲得豐富的信息。干凈的數(shù)據(jù)是在電子商務站點收集的所有電子數(shù)據(jù)。不需要手動輸入,也不需要在歷史系統(tǒng)中將集成的研究結(jié)果輕松轉(zhuǎn)換為電子商務。許多知識發(fā)現(xiàn)可以方便地直接測量應用程序投資回報,電子商務為數(shù)據(jù)挖掘提供大量數(shù)據(jù),而點擊流為電子商務挖掘生成大量數(shù)據(jù)Yahoo!2000年,每天訪問10億頁將生成大量web日志(訪問歷史頁面),每小時生成1

2、0GB的web日志!即使是小型電子商務站點,也可以在短時間內(nèi)生成執(zhí)行數(shù)據(jù)挖掘所需的大量數(shù)據(jù)計算。如果站點一小時銷售5個項目,則一個月訪問多少頁:5個24小時30天/%2(訪問過程中表示買東西者百分比的轉(zhuǎn)換率)9頁(平均買一個項目9頁)=1,600,000頁,豐富的記錄信息,如果電子商務站點設計良好,則各種業(yè)務或用戶可以訪問的信息也就是說,商品和商品的屬性商品的分類信息(如果同時顯示多種商品,對信息進行分類將非常有用)促銷信息(例如訪問次數(shù))關(guān)于客戶金額的信息(通過登錄/注冊可用)、干凈的數(shù)據(jù)、信息直接網(wǎng)站無需從提取歷史系統(tǒng)集成,通過許多防止錯誤的好站點設計用于分析、計算、預處理控制數(shù)據(jù)采樣的良

3、好粒度控制是客戶級別或會話級別,而不是頁面級別,有趣的“生日現(xiàn)象”,一家銀行通過客戶數(shù)據(jù)統(tǒng)計發(fā)現(xiàn),5%的客戶在同一天出生(同一年同一月的同一天)! 怎么了?如何解釋?研究結(jié)果很容易轉(zhuǎn)換,有很多關(guān)于歷史數(shù)據(jù)挖掘研究的知識發(fā)現(xiàn),但這些知識發(fā)現(xiàn)在實際業(yè)務應用中影響不大,應用這些發(fā)現(xiàn)的知識可能意味著復雜的系統(tǒng)更改、過程更改或人們的工作習慣更改,這在現(xiàn)實中是很困難的。在電子商務中,直接應用站點設計更改(布局更改、個性化設計等)開始目標促銷的大量知識發(fā)現(xiàn)。根據(jù)關(guān)于廣告效果的統(tǒng)計數(shù)據(jù)更改廣告策略,可以方便地提供捆綁銷售,投資收益易于衡量,使用數(shù)據(jù)挖掘結(jié)果進行創(chuàng)新帶來的收益如何衡量?Paco Underhil

4、l在購物的科學一本書中提到,在傳統(tǒng)企業(yè)中,測量投資回報需要長期的測量和觀察,一家超市一年用14000小時看錄像帶來測量他們的促銷策略帶來的投資回報。在電子商務中衡量創(chuàng)新性投資收益是很容易的銷售變化。此報告可以在幾天內(nèi)自動生成,使客戶對電子郵件和電子調(diào)查的反饋不需要等待幾個月的電子商務,甚至整個internet成為傳統(tǒng)業(yè)務的理想實驗室。電子商務網(wǎng)站的web數(shù)據(jù)挖掘,通常在一個電子商務網(wǎng)站上使用的數(shù)據(jù)挖掘技術(shù)是web數(shù)據(jù)挖掘。在電子商務網(wǎng)站上能發(fā)掘什么?Web Content Mining(內(nèi)容挖掘)結(jié)構(gòu)挖掘(Web Structure Mining)使用挖掘(Web usage mining)、

5、Web內(nèi)容管理、Web頁面內(nèi)容挖掘,以及從Web數(shù)據(jù)中檢索信息。自動從眾多網(wǎng)站和在線數(shù)據(jù)庫中檢索和獲取信息和資料。可以直接在internet上編制索引,通過搜索服務獲取資源,但是大量“隱藏”的信息只能通過內(nèi)容挖掘自動挖掘。web structure mining和Web structure mining是對網(wǎng)頁之間結(jié)構(gòu)的挖掘。在整個web空間中有用的知識不僅包括頁面的內(nèi)容,還包括頁面的結(jié)構(gòu)。web結(jié)構(gòu)挖掘主要針對頁面的超鏈接結(jié)構(gòu),如果有更多超鏈接,則該頁面很重要,會發(fā)現(xiàn)可用于改進搜索路徑等的知識。與、Web Usage Mining、Web Content Mining和Web Structu

6、re Mining不同,Web Usage Mining中的挖掘?qū)ο笫窃谟脩艉途W(wǎng)絡交互過程中提取的二手數(shù)據(jù),該數(shù)據(jù)主要是用戶訪問Web時在Web日志中留下的信息和一些其他交互信息。日志信息包括訪問日期、時間、用戶IP地址、服務器IP地址、方法、請求的URL資源、服務器響應狀態(tài)、用戶代理和傳輸字節(jié)。Web Usage Mining是挖掘系統(tǒng)日志信息和用戶的注冊數(shù)據(jù)等,尋找有用的模式和知識。Web Usage Mining的作用,通過在電子商務網(wǎng)站上應用Web Usage Mining數(shù)據(jù)挖掘技術(shù)提高站點的質(zhì)量,改善Web緩存,緩解網(wǎng)絡流量,提高性能,捕獲電子商務中許多采購流程的詳細信息,提供更深

7、入分析的可能性,Web日志(1),典型的日志文件片段-01第一:遠程主機的地址,即訪問站點的人員。第二:瀏覽器的電子郵件地址或其它唯一標識符。今天,我們很少有機會在日志的第二個條目中查看電子郵件地址-,標志字段為空,web日志(2),典型日志文件片段-01/aug/19953360333300:338-0400 get/對于不需要用戶身份驗證的網(wǎng)站,此字段為空-;第四項:請求時間;項目5:告訴服務器收到了什么請求。此信息的一般格式是方法資源協(xié)議,即方法資源協(xié)議。這是web日志中最有用的信息,在上面的示例中,METHOD是GET RESOURCE向服務器請求的文檔,或者URL協(xié)議通常為HTTP,

8、后跟版本號。web日志(3),典型日志文件片段-01/aug/1995:33:03:338-0400 get/shuttle/missions/STS-STS它告訴我們請求是否成功,或者發(fā)生了什么錯誤。在大多數(shù)情況下,此值為200,表示服務器已成功響應瀏覽器的請求,并且一切正常。項目7:傳送至從屬端的位元組總數(shù)。,Web Usage Mining的基本過程主要是刪除與數(shù)據(jù)分析、挖掘無關(guān)的日志文件中的一些條目,以便通過分析、預處理、預處理系統(tǒng)日志信息的數(shù)據(jù)挖掘Web服務器日志錯誤代碼Web Usage Mining的基本實現(xiàn)過程預處理模式搜索模式來使挖掘過程更有效、更容易地清除數(shù)據(jù)。例如:從用戶

9、請求方法中刪除非GET記錄。用戶標識日志文件只是主機或代理服務器的IP地址,需要cookie技術(shù)和一些靈感規(guī)則來標識用戶。路徑補充檢查web日志中是否缺少重要的頁面訪問記錄。事件標識事件標識是指與挖掘的知識相關(guān),定義用戶會話以滿足挖掘活動的特定需求的事件。將多種數(shù)據(jù)挖掘的功能和算法應用于模式發(fā)現(xiàn)預處理的數(shù)據(jù),從而挖掘有用的模式和規(guī)則的過程。Web Usage Mining中使用的Web日志分析和用戶行為模式挖掘方法包括:關(guān)聯(lián)分析分類和預測聚類分析序列模式統(tǒng)計分析、Web usage mining 關(guān)聯(lián)分析(1),以及分析和匯總用戶訪問Web頁面的潛在關(guān)聯(lián)的規(guī)則。80%的用戶訪問web頁/com

10、pany/product1時,/company/product 2也將訪問。常用算法Apriori算法或相應的變形算法、常用模式樹(FP-tree)算法等,在訪問頁中挖掘經(jīng)常訪問的頁面集,a=b=c a=b=d,a=b,a=b=b=e=e 對于頻繁項目集(頁面集)A,B,當用戶訪問A時,將頁面B導入到緩存中,以提高Web緩存、緩解網(wǎng)絡流量、提高性能在線業(yè)務增強常用項目集A,B,如果兩個產(chǎn)品的每個頁面之間存在關(guān)聯(lián),則進行Web Usage Mining分類和預測,分類一般算法:應用程序決策,如歸納樹、貝葉斯分類、k最近鄰分類:可以根據(jù)用戶的個人信息或特定訪問模式分組到特定類別。根據(jù)用戶對特定類型

11、產(chǎn)品的訪問權(quán)限或如何處置購物車,您可以確定用戶的分類(對e.g .電子產(chǎn)品感興趣的用戶),并使用適用于該分類的促銷策略。Web Usage Mining群集分析(1);群集:將對象集合分組到構(gòu)成類似對象的多個類中的過程。(與分類的區(qū)別?)公共群集算法:分割方法、分層方法、基于密度的方法等。Web Usage Mining應用程序包含兩個群集:頁面群集對于將與內(nèi)容相關(guān)的頁面分組到一組網(wǎng)頁中,以及提供聯(lián)機搜索引擎和internet幫助非常有用。用戶群集可以對具有相似訪問特性的用戶進行分組,并在電子商務的市場細分和向用戶提供個性化服務方面發(fā)揮巨大作用。通過Web Usage Mining群集分析(2

12、)、群集分析,您可以首選類似的用戶,動態(tài)自定義用戶正在查看的內(nèi)容或提供有關(guān)導航的建議。例如:推薦系統(tǒng)或動態(tài)促銷系統(tǒng)購買職責:1)促進用戶查看和查看2)提高廣告功能3)促進在線銷售4)提高用戶忠誠度,分析web使用情況mining 統(tǒng)計(1),統(tǒng)計分析發(fā)生率,查找平均值,查找平均值等,最常訪問的網(wǎng)頁,以及還提供了有限級別的錯誤分析功能,例如檢測未授權(quán)的入口點和查找最常見的未更改的URL??蛻粼L問一個頁面的次數(shù)、停留時間、訪問次數(shù)最多的頁面(或產(chǎn)品、URL等)、Web Usage Mining統(tǒng)計分析(1)、常用電子商務網(wǎng)站用戶訪問數(shù)據(jù)統(tǒng)計(摘錄)平均一個用戶訪問8-10頁的次數(shù)5,Web Usage Mining序列模式-如果要查找按時間順序顯示頁面的默認模式序列模式,可以使用該模式進行用戶的導航趨勢分析。也就是說,一組數(shù)據(jù)項后會出現(xiàn)另一組數(shù)據(jù)項,因此,您可以配置按時間順序排列的會話集,以幫助為特定用戶組保留特

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論