數(shù)據(jù)挖掘系列講座九、電子商務(wù)與數(shù)據(jù)挖掘資料_第1頁(yè)
數(shù)據(jù)挖掘系列講座九、電子商務(wù)與數(shù)據(jù)挖掘資料_第2頁(yè)
數(shù)據(jù)挖掘系列講座九、電子商務(wù)與數(shù)據(jù)挖掘資料_第3頁(yè)
數(shù)據(jù)挖掘系列講座九、電子商務(wù)與數(shù)據(jù)挖掘資料_第4頁(yè)
數(shù)據(jù)挖掘系列講座九、電子商務(wù)與數(shù)據(jù)挖掘資料_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘套件第9課,通過(guò)電子商務(wù)和數(shù)據(jù)挖掘、基于web日志的用戶(hù)訪問(wèn)模式挖掘、電子商務(wù)和數(shù)據(jù)挖掘的完美結(jié)合,電子商務(wù)中成功的數(shù)據(jù)挖掘在電子商務(wù)中提供了大量數(shù)據(jù)。電子商務(wù)網(wǎng)站平均一小時(shí)銷(xiāo)售5件商品,每月平均點(diǎn)擊次數(shù)為160萬(wàn)次。豐富的記錄信息豐富的網(wǎng)站設(shè)計(jì)將幫助您獲得豐富的信息。干凈的數(shù)據(jù)是在電子商務(wù)站點(diǎn)收集的所有電子數(shù)據(jù)。不需要手動(dòng)輸入,也不需要在歷史系統(tǒng)中將集成的研究結(jié)果輕松轉(zhuǎn)換為電子商務(wù)。許多知識(shí)發(fā)現(xiàn)可以方便地直接測(cè)量應(yīng)用程序投資回報(bào),電子商務(wù)為數(shù)據(jù)挖掘提供大量數(shù)據(jù),而點(diǎn)擊流為電子商務(wù)挖掘生成大量數(shù)據(jù)Yahoo!2000年,每天訪問(wèn)10億頁(yè)將生成大量web日志(訪問(wèn)歷史頁(yè)面),每小時(shí)生成1

2、0GB的web日志!即使是小型電子商務(wù)站點(diǎn),也可以在短時(shí)間內(nèi)生成執(zhí)行數(shù)據(jù)挖掘所需的大量數(shù)據(jù)計(jì)算。如果站點(diǎn)一小時(shí)銷(xiāo)售5個(gè)項(xiàng)目,則一個(gè)月訪問(wèn)多少頁(yè):5個(gè)24小時(shí)30天/%2(訪問(wèn)過(guò)程中表示買(mǎi)東西者百分比的轉(zhuǎn)換率)9頁(yè)(平均買(mǎi)一個(gè)項(xiàng)目9頁(yè))=1,600,000頁(yè),豐富的記錄信息,如果電子商務(wù)站點(diǎn)設(shè)計(jì)良好,則各種業(yè)務(wù)或用戶(hù)可以訪問(wèn)的信息也就是說(shuō),商品和商品的屬性商品的分類(lèi)信息(如果同時(shí)顯示多種商品,對(duì)信息進(jìn)行分類(lèi)將非常有用)促銷(xiāo)信息(例如訪問(wèn)次數(shù))關(guān)于客戶(hù)金額的信息(通過(guò)登錄/注冊(cè)可用)、干凈的數(shù)據(jù)、信息直接網(wǎng)站無(wú)需從提取歷史系統(tǒng)集成,通過(guò)許多防止錯(cuò)誤的好站點(diǎn)設(shè)計(jì)用于分析、計(jì)算、預(yù)處理控制數(shù)據(jù)采樣的良

3、好粒度控制是客戶(hù)級(jí)別或會(huì)話級(jí)別,而不是頁(yè)面級(jí)別,有趣的“生日現(xiàn)象”,一家銀行通過(guò)客戶(hù)數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn),5%的客戶(hù)在同一天出生(同一年同一月的同一天)! 怎么了?如何解釋?zhuān)垦芯拷Y(jié)果很容易轉(zhuǎn)換,有很多關(guān)于歷史數(shù)據(jù)挖掘研究的知識(shí)發(fā)現(xiàn),但這些知識(shí)發(fā)現(xiàn)在實(shí)際業(yè)務(wù)應(yīng)用中影響不大,應(yīng)用這些發(fā)現(xiàn)的知識(shí)可能意味著復(fù)雜的系統(tǒng)更改、過(guò)程更改或人們的工作習(xí)慣更改,這在現(xiàn)實(shí)中是很困難的。在電子商務(wù)中,直接應(yīng)用站點(diǎn)設(shè)計(jì)更改(布局更改、個(gè)性化設(shè)計(jì)等)開(kāi)始目標(biāo)促銷(xiāo)的大量知識(shí)發(fā)現(xiàn)。根據(jù)關(guān)于廣告效果的統(tǒng)計(jì)數(shù)據(jù)更改廣告策略,可以方便地提供捆綁銷(xiāo)售,投資收益易于衡量,使用數(shù)據(jù)挖掘結(jié)果進(jìn)行創(chuàng)新帶來(lái)的收益如何衡量?Paco Underhil

4、l在購(gòu)物的科學(xué)一本書(shū)中提到,在傳統(tǒng)企業(yè)中,測(cè)量投資回報(bào)需要長(zhǎng)期的測(cè)量和觀察,一家超市一年用14000小時(shí)看錄像帶來(lái)測(cè)量他們的促銷(xiāo)策略帶來(lái)的投資回報(bào)。在電子商務(wù)中衡量創(chuàng)新性投資收益是很容易的銷(xiāo)售變化。此報(bào)告可以在幾天內(nèi)自動(dòng)生成,使客戶(hù)對(duì)電子郵件和電子調(diào)查的反饋不需要等待幾個(gè)月的電子商務(wù),甚至整個(gè)internet成為傳統(tǒng)業(yè)務(wù)的理想實(shí)驗(yàn)室。電子商務(wù)網(wǎng)站的web數(shù)據(jù)挖掘,通常在一個(gè)電子商務(wù)網(wǎng)站上使用的數(shù)據(jù)挖掘技術(shù)是web數(shù)據(jù)挖掘。在電子商務(wù)網(wǎng)站上能發(fā)掘什么?Web Content Mining(內(nèi)容挖掘)結(jié)構(gòu)挖掘(Web Structure Mining)使用挖掘(Web usage mining)、

5、Web內(nèi)容管理、Web頁(yè)面內(nèi)容挖掘,以及從Web數(shù)據(jù)中檢索信息。自動(dòng)從眾多網(wǎng)站和在線數(shù)據(jù)庫(kù)中檢索和獲取信息和資料??梢灾苯釉趇nternet上編制索引,通過(guò)搜索服務(wù)獲取資源,但是大量“隱藏”的信息只能通過(guò)內(nèi)容挖掘自動(dòng)挖掘。web structure mining和Web structure mining是對(duì)網(wǎng)頁(yè)之間結(jié)構(gòu)的挖掘。在整個(gè)web空間中有用的知識(shí)不僅包括頁(yè)面的內(nèi)容,還包括頁(yè)面的結(jié)構(gòu)。web結(jié)構(gòu)挖掘主要針對(duì)頁(yè)面的超鏈接結(jié)構(gòu),如果有更多超鏈接,則該頁(yè)面很重要,會(huì)發(fā)現(xiàn)可用于改進(jìn)搜索路徑等的知識(shí)。與、Web Usage Mining、Web Content Mining和Web Structu

6、re Mining不同,Web Usage Mining中的挖掘?qū)ο笫窃谟脩?hù)和網(wǎng)絡(luò)交互過(guò)程中提取的二手?jǐn)?shù)據(jù),該數(shù)據(jù)主要是用戶(hù)訪問(wèn)Web時(shí)在Web日志中留下的信息和一些其他交互信息。日志信息包括訪問(wèn)日期、時(shí)間、用戶(hù)IP地址、服務(wù)器IP地址、方法、請(qǐng)求的URL資源、服務(wù)器響應(yīng)狀態(tài)、用戶(hù)代理和傳輸字節(jié)。Web Usage Mining是挖掘系統(tǒng)日志信息和用戶(hù)的注冊(cè)數(shù)據(jù)等,尋找有用的模式和知識(shí)。Web Usage Mining的作用,通過(guò)在電子商務(wù)網(wǎng)站上應(yīng)用Web Usage Mining數(shù)據(jù)挖掘技術(shù)提高站點(diǎn)的質(zhì)量,改善Web緩存,緩解網(wǎng)絡(luò)流量,提高性能,捕獲電子商務(wù)中許多采購(gòu)流程的詳細(xì)信息,提供更深

7、入分析的可能性,Web日志(1),典型的日志文件片段-01第一:遠(yuǎn)程主機(jī)的地址,即訪問(wèn)站點(diǎn)的人員。第二:瀏覽器的電子郵件地址或其它唯一標(biāo)識(shí)符。今天,我們很少有機(jī)會(huì)在日志的第二個(gè)條目中查看電子郵件地址-,標(biāo)志字段為空,web日志(2),典型日志文件片段-01/aug/19953360333300:338-0400 get/對(duì)于不需要用戶(hù)身份驗(yàn)證的網(wǎng)站,此字段為空-;第四項(xiàng):請(qǐng)求時(shí)間;項(xiàng)目5:告訴服務(wù)器收到了什么請(qǐng)求。此信息的一般格式是方法資源協(xié)議,即方法資源協(xié)議。這是web日志中最有用的信息,在上面的示例中,METHOD是GET RESOURCE向服務(wù)器請(qǐng)求的文檔,或者URL協(xié)議通常為HTTP,

8、后跟版本號(hào)。web日志(3),典型日志文件片段-01/aug/1995:33:03:338-0400 get/shuttle/missions/STS-STS它告訴我們請(qǐng)求是否成功,或者發(fā)生了什么錯(cuò)誤。在大多數(shù)情況下,此值為200,表示服務(wù)器已成功響應(yīng)瀏覽器的請(qǐng)求,并且一切正常。項(xiàng)目7:傳送至從屬端的位元組總數(shù)。,Web Usage Mining的基本過(guò)程主要是刪除與數(shù)據(jù)分析、挖掘無(wú)關(guān)的日志文件中的一些條目,以便通過(guò)分析、預(yù)處理、預(yù)處理系統(tǒng)日志信息的數(shù)據(jù)挖掘Web服務(wù)器日志錯(cuò)誤代碼Web Usage Mining的基本實(shí)現(xiàn)過(guò)程預(yù)處理模式搜索模式來(lái)使挖掘過(guò)程更有效、更容易地清除數(shù)據(jù)。例如:從用戶(hù)

9、請(qǐng)求方法中刪除非GET記錄。用戶(hù)標(biāo)識(shí)日志文件只是主機(jī)或代理服務(wù)器的IP地址,需要cookie技術(shù)和一些靈感規(guī)則來(lái)標(biāo)識(shí)用戶(hù)。路徑補(bǔ)充檢查web日志中是否缺少重要的頁(yè)面訪問(wèn)記錄。事件標(biāo)識(shí)事件標(biāo)識(shí)是指與挖掘的知識(shí)相關(guān),定義用戶(hù)會(huì)話以滿(mǎn)足挖掘活動(dòng)的特定需求的事件。將多種數(shù)據(jù)挖掘的功能和算法應(yīng)用于模式發(fā)現(xiàn)預(yù)處理的數(shù)據(jù),從而挖掘有用的模式和規(guī)則的過(guò)程。Web Usage Mining中使用的Web日志分析和用戶(hù)行為模式挖掘方法包括:關(guān)聯(lián)分析分類(lèi)和預(yù)測(cè)聚類(lèi)分析序列模式統(tǒng)計(jì)分析、Web usage mining 關(guān)聯(lián)分析(1),以及分析和匯總用戶(hù)訪問(wèn)Web頁(yè)面的潛在關(guān)聯(lián)的規(guī)則。80%的用戶(hù)訪問(wèn)web頁(yè)/com

10、pany/product1時(shí),/company/product 2也將訪問(wèn)。常用算法Apriori算法或相應(yīng)的變形算法、常用模式樹(shù)(FP-tree)算法等,在訪問(wèn)頁(yè)中挖掘經(jīng)常訪問(wèn)的頁(yè)面集,a=b=c a=b=d,a=b,a=b=b=e=e 對(duì)于頻繁項(xiàng)目集(頁(yè)面集)A,B,當(dāng)用戶(hù)訪問(wèn)A時(shí),將頁(yè)面B導(dǎo)入到緩存中,以提高Web緩存、緩解網(wǎng)絡(luò)流量、提高性能在線業(yè)務(wù)增強(qiáng)常用項(xiàng)目集A,B,如果兩個(gè)產(chǎn)品的每個(gè)頁(yè)面之間存在關(guān)聯(lián),則進(jìn)行Web Usage Mining分類(lèi)和預(yù)測(cè),分類(lèi)一般算法:應(yīng)用程序決策,如歸納樹(shù)、貝葉斯分類(lèi)、k最近鄰分類(lèi):可以根據(jù)用戶(hù)的個(gè)人信息或特定訪問(wèn)模式分組到特定類(lèi)別。根據(jù)用戶(hù)對(duì)特定類(lèi)型

11、產(chǎn)品的訪問(wèn)權(quán)限或如何處置購(gòu)物車(chē),您可以確定用戶(hù)的分類(lèi)(對(duì)e.g .電子產(chǎn)品感興趣的用戶(hù)),并使用適用于該分類(lèi)的促銷(xiāo)策略。Web Usage Mining群集分析(1);群集:將對(duì)象集合分組到構(gòu)成類(lèi)似對(duì)象的多個(gè)類(lèi)中的過(guò)程。(與分類(lèi)的區(qū)別?)公共群集算法:分割方法、分層方法、基于密度的方法等。Web Usage Mining應(yīng)用程序包含兩個(gè)群集:頁(yè)面群集對(duì)于將與內(nèi)容相關(guān)的頁(yè)面分組到一組網(wǎng)頁(yè)中,以及提供聯(lián)機(jī)搜索引擎和internet幫助非常有用。用戶(hù)群集可以對(duì)具有相似訪問(wèn)特性的用戶(hù)進(jìn)行分組,并在電子商務(wù)的市場(chǎng)細(xì)分和向用戶(hù)提供個(gè)性化服務(wù)方面發(fā)揮巨大作用。通過(guò)Web Usage Mining群集分析(2

12、)、群集分析,您可以首選類(lèi)似的用戶(hù),動(dòng)態(tài)自定義用戶(hù)正在查看的內(nèi)容或提供有關(guān)導(dǎo)航的建議。例如:推薦系統(tǒng)或動(dòng)態(tài)促銷(xiāo)系統(tǒng)購(gòu)買(mǎi)職責(zé):1)促進(jìn)用戶(hù)查看和查看2)提高廣告功能3)促進(jìn)在線銷(xiāo)售4)提高用戶(hù)忠誠(chéng)度,分析web使用情況mining 統(tǒng)計(jì)(1),統(tǒng)計(jì)分析發(fā)生率,查找平均值,查找平均值等,最常訪問(wèn)的網(wǎng)頁(yè),以及還提供了有限級(jí)別的錯(cuò)誤分析功能,例如檢測(cè)未授權(quán)的入口點(diǎn)和查找最常見(jiàn)的未更改的URL??蛻?hù)訪問(wèn)一個(gè)頁(yè)面的次數(shù)、停留時(shí)間、訪問(wèn)次數(shù)最多的頁(yè)面(或產(chǎn)品、URL等)、Web Usage Mining統(tǒng)計(jì)分析(1)、常用電子商務(wù)網(wǎng)站用戶(hù)訪問(wèn)數(shù)據(jù)統(tǒng)計(jì)(摘錄)平均一個(gè)用戶(hù)訪問(wèn)8-10頁(yè)的次數(shù)5,Web Usage Mining序列模式-如果要查找按時(shí)間順序顯示頁(yè)面的默認(rèn)模式序列模式,可以使用該模式進(jìn)行用戶(hù)的導(dǎo)航趨勢(shì)分析。也就是說(shuō),一組數(shù)據(jù)項(xiàng)后會(huì)出現(xiàn)另一組數(shù)據(jù)項(xiàng),因此,您可以配置按時(shí)間順序排列的會(huì)話集,以幫助為特定用戶(hù)組保留特

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論