版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、電子商務(wù)平臺(tái)中的 Web數(shù)據(jù)挖掘應(yīng)用探討摘 要:隨著In ternet的高速發(fā)展和快速普及,各種信息知識(shí)可以在網(wǎng) 絡(luò)上獲得,由于In ternet是全球性的信息服務(wù)中心,可以從中取得的 數(shù)據(jù)量難以計(jì)算,特別是電子商務(wù)平臺(tái)上的客戶信息量的巨大,難以從中獲取有價(jià)值的信息,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。介紹了Web數(shù)據(jù)挖掘定義,闡述了其在電子商務(wù)平臺(tái)上的應(yīng)用。關(guān)鍵詞:Web數(shù)據(jù)挖掘;電子商務(wù)平臺(tái)Web數(shù)據(jù)挖掘概述Web數(shù)據(jù)挖掘定義Web數(shù)據(jù)挖掘是指使用數(shù)據(jù)挖掘技術(shù)從 Web文檔及Web服務(wù)中 自動(dòng)發(fā)現(xiàn)并提取人們感興趣的信息。 Web挖掘是一項(xiàng)綜合技術(shù),覆蓋 了多個(gè)研究領(lǐng)域,包括 Web技術(shù)、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘
2、、計(jì)算機(jī)語(yǔ)言 學(xué)、信息獲取、統(tǒng)計(jì)學(xué)以及人工智能等。Web數(shù)據(jù)挖掘不同于傳統(tǒng)的 數(shù)據(jù)挖掘。Web數(shù)據(jù)挖掘的研究對(duì)象是以半結(jié)構(gòu)化或非結(jié)構(gòu)化文檔為 中心的Web,這些數(shù)據(jù)沒(méi)有統(tǒng)一的模式,不像傳統(tǒng)數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化 表格,數(shù)據(jù)的內(nèi)容和表示互相交織,數(shù)據(jù)內(nèi)容基本上沒(méi)有語(yǔ)義信息進(jìn) 行描述,僅僅依靠HTML語(yǔ)法對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)上的描述。Web數(shù)據(jù)挖掘分類根據(jù)不同的作用與應(yīng)用對(duì)象的不同,可以把Web數(shù)據(jù)挖掘分為3 種類型:HTML標(biāo)記的Web文檔數(shù)據(jù)、Web文檔內(nèi)的連接的結(jié)構(gòu)數(shù) 據(jù)和用戶訪問(wèn)數(shù)據(jù)如服務(wù)器的log日志信息。Web內(nèi)容挖掘(Web Content Mining):是指對(duì) Web上大量文檔集合的“內(nèi)容”
3、進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析以及利用Web文檔進(jìn)行趨勢(shì)預(yù)測(cè)等,是從 Web文檔內(nèi)容或其描述中抽取知識(shí)的過(guò) 程。Web上的數(shù)據(jù)既有文本數(shù)據(jù),也有聲音、圖像、圖形、視頻等多 媒體數(shù)據(jù);既有無(wú)結(jié)構(gòu)的自由文本,也有用 HTML標(biāo)記的半結(jié)構(gòu)數(shù) 據(jù)和來(lái)自數(shù)據(jù)庫(kù)的結(jié)構(gòu)化數(shù)據(jù)。Web內(nèi)容挖掘可分為Web文本挖掘 和Web多媒體挖掘,針對(duì)的對(duì)象分別是 Web文本信息和Web多媒體 信息。Web結(jié)構(gòu)挖掘(Web Structure Mining):由于超文本文檔間的關(guān)聯(lián)關(guān)系,使得 WWW不僅可以揭示文檔中所包含的信息,同時(shí) 也可以揭示文檔間的關(guān)聯(lián)關(guān)系所代表的信息。利用這些信息可以對(duì)頁(yè)面進(jìn)行排序,來(lái)發(fā)現(xiàn)重要的頁(yè)面
4、。挖掘 Web結(jié)構(gòu)的目的是發(fā)現(xiàn)頁(yè)面 的結(jié)構(gòu)和Web結(jié)構(gòu),在此基礎(chǔ)上對(duì)頁(yè)面進(jìn)行分類和聚類從而找到權(quán) 威頁(yè)面。Web使用挖掘(Web Usage Mining):主要通過(guò)分析用戶訪問(wèn)Web的記錄了解用戶的興趣和習(xí)慣,對(duì)用戶行為進(jìn)行預(yù)測(cè),以便 提供個(gè)性化的產(chǎn)品信息和服務(wù)。挖掘的數(shù)據(jù)是用戶與Web交互過(guò)程中留下的用戶訪問(wèn)過(guò)程的數(shù)據(jù)。Web使用記錄數(shù)據(jù)除了服務(wù)器的日志 記錄外還包括代理服務(wù)器日志、游覽器端日志、注冊(cè)信息、用戶會(huì)話 信息、交易信息、Cookie中的信息、用戶查詢、鼠標(biāo)點(diǎn)擊流等一切用 戶與站點(diǎn)之間可能的交互記錄。Web數(shù)據(jù)挖掘的過(guò)程2.1 Web資源搜集利用抓取網(wǎng)頁(yè)的工具爬蟲(chóng)(crawler
5、)和蜘蛛(spider)從Web或電 子商務(wù)網(wǎng)站上收集頁(yè)面信息。游覽頁(yè)面是用戶請(qǐng)求的頁(yè)面,一個(gè)頁(yè)面 中包括幾個(gè)框架、圖片和腳本。2.2預(yù)處理所謂數(shù)據(jù)預(yù)處理就是從原始數(shù)據(jù)集中除去那些與挖掘無(wú)關(guān),甚至有可能影響挖掘效果的數(shù)據(jù),同時(shí)也要對(duì)數(shù)據(jù)的屬性進(jìn)行必要的刪 除,只留下與挖掘相關(guān)的數(shù)據(jù)屬性。2.3特征抽取特征抽取對(duì) Web文本內(nèi)容的過(guò)濾和分類、聚類、自動(dòng)摘要以 及用戶興趣模式發(fā)現(xiàn)、知識(shí)發(fā)現(xiàn)等具有重要作用。2.4模式發(fā)現(xiàn)自動(dòng)地發(fā)現(xiàn)模式,Web挖掘所產(chǎn)生的知識(shí)模式,既可以是對(duì)哥 哥文檔含義的概括,也可以是有關(guān)整個(gè)文檔集合的結(jié)構(gòu)或趨勢(shì)描述。2.5模式評(píng)價(jià)最后對(duì)挖掘出的模式進(jìn)行質(zhì)量評(píng)價(jià),若評(píng)價(jià)的結(jié)果滿足一
6、定的 要求,則存儲(chǔ)這一知識(shí)模式,否則返回到前面的某一步驟,分析改進(jìn) 后,進(jìn)行新一輪的挖掘。Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù)平臺(tái)3.1路徑分析技術(shù)路經(jīng)分析是一種找尋頻繁訪問(wèn)路徑的方法,它通過(guò)對(duì)Web服務(wù)器的日志文件中客戶訪問(wèn)站點(diǎn)訪問(wèn)次數(shù)的分析,挖掘出頻繁訪問(wèn)路 徑。簡(jiǎn)而言之,就是簡(jiǎn)化路徑,消除一些不必要的頁(yè)面,使用戶快速 需找到相應(yīng)的商品。在很多情況下,中間頁(yè)面會(huì)降低消費(fèi)者的興趣, 同時(shí)增加了網(wǎng)站的維護(hù)成本,路經(jīng)分析就是對(duì)網(wǎng)站頁(yè)面之間的關(guān)系及 超鏈接之間聯(lián)系的分析,判斷網(wǎng)站中最頻繁訪問(wèn)的路徑,刪除其他沒(méi) 有價(jià)值的頁(yè)面。3.2關(guān)聯(lián)規(guī)則關(guān)聯(lián)分析(Association Analysis)就是從大量的
7、數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的聯(lián)系、相關(guān)關(guān)系或因果結(jié)構(gòu),以及項(xiàng)集的頻繁模式。關(guān)聯(lián) 分析用于了解顧客的購(gòu)買(mǎi)習(xí)慣和偏好,決定市場(chǎng)商品的擺放和產(chǎn)品的 捆綁銷售策略;如淘寶網(wǎng)上運(yùn)動(dòng)服裝頁(yè)面上會(huì)有大量的關(guān)于運(yùn)動(dòng)鞋和 襪子以及相關(guān)產(chǎn)品的圖片鏈接;女性雜志書(shū)籍頁(yè)面中,會(huì)有不同的相 關(guān)圖書(shū),顧客可能會(huì)一起購(gòu)買(mǎi)等等。利用關(guān)聯(lián)分析還可以發(fā)現(xiàn)什么商 品組合,客戶多半會(huì)一起購(gòu)買(mǎi),從而可以向客戶提出推薦或把相關(guān)的 商品的鏈接放在一起,進(jìn)而提高銷售量。優(yōu)化網(wǎng)站結(jié)構(gòu)關(guān)聯(lián)分析的目 的就是為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系, 找到客戶對(duì)網(wǎng)站上各種 文件之間訪問(wèn)的相互聯(lián)系??梢愿玫亟M織站點(diǎn),減少用戶過(guò)濾信息 的負(fù)擔(dān),并可以根據(jù)客戶當(dāng)前
8、的購(gòu)買(mǎi)行為給客戶提供推薦,挖掘群體用戶訪問(wèn)頁(yè)面之間的關(guān)聯(lián),進(jìn)而改進(jìn)電子商務(wù)網(wǎng)站的設(shè)計(jì)。3.3序列模式序列模式是用某時(shí)間點(diǎn)發(fā)現(xiàn)的產(chǎn)品購(gòu)買(mǎi)或其他行為模式來(lái)預(yù)測(cè)將來(lái)顧客購(gòu)買(mǎi)產(chǎn)品或服務(wù)類別的概率;例如,根據(jù)前一段時(shí)間里, 電子商務(wù)網(wǎng)站的銷售情況來(lái)預(yù)測(cè)下一個(gè)階段的銷售情況。當(dāng)客戶在網(wǎng)上購(gòu)買(mǎi)了羽毛球拍時(shí),那么顧客會(huì)在后續(xù)的時(shí)間里會(huì)不斷的購(gòu)買(mǎi)羽 毛球,以及相應(yīng)的運(yùn)動(dòng)用品。序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間 的前后或因果關(guān)系。在電子商務(wù)數(shù)據(jù)挖掘中,應(yīng)用序列模式分析技術(shù) 便于電子商務(wù)企業(yè)預(yù)測(cè)客戶的行為對(duì)客戶提供個(gè)性化服務(wù)。當(dāng)訪問(wèn)者鏈接到電子商務(wù)網(wǎng)站,網(wǎng)站管理員可以找出這個(gè)訪問(wèn)者的訪問(wèn)序列模 式,將他可能要訪問(wèn)但
9、還未訪問(wèn)的頁(yè)面放在顯眼的位置。3.4分類分類用于預(yù)測(cè)哪些人會(huì)對(duì)郵寄廣告和產(chǎn)品目錄、 贈(zèng)券促銷手段 有反應(yīng),還可用于顧客類別劃分、破產(chǎn)預(yù)測(cè)等。對(duì)于商業(yè)網(wǎng)站,根據(jù) 訪問(wèn)網(wǎng)站的客戶信息和用戶的訪問(wèn)模式得出訪問(wèn)網(wǎng)站的用戶特征。對(duì)用戶分類后,知道各類客戶的特點(diǎn)愛(ài)好,就可以發(fā)現(xiàn)未來(lái)的潛在客戶 并開(kāi)展有針對(duì)性的商務(wù)活動(dòng),提供人性化的信息服務(wù)。同時(shí),也可以 對(duì)新的客戶進(jìn)行分析,分類,發(fā)現(xiàn)新的客戶屬于哪一個(gè)類別,進(jìn)而有 針對(duì)性的開(kāi)展商務(wù)活動(dòng)。3.5聚類分析聚類用于市場(chǎng)細(xì)分,將顧客按其行為或特征模式的相似性劃分 為若干細(xì)分市場(chǎng),以采取有針對(duì)性的營(yíng)銷策略;可以從服務(wù)器訪問(wèn)信 息數(shù)據(jù)中找出具有相似特性的客戶組,即把有
10、相似特性的用戶信息數(shù) 據(jù)合并到一起。在電子商務(wù)平臺(tái)上為用戶提供個(gè)性化服務(wù), 將需求和 愛(ài)好類似的用戶歸為一類,從而動(dòng)態(tài)地為客戶定制商品的內(nèi)容或提供瀏覽建議,同時(shí)有利于提高廣告的效果,促進(jìn)網(wǎng)上銷售和提高用戶忠 誠(chéng)度等。4電子商務(wù)中的Web挖掘的作用4.1發(fā)現(xiàn)潛在客戶和提高客戶滿意度通過(guò)挖掘相關(guān)的 Web日志,發(fā)現(xiàn)用戶訪問(wèn) Web頁(yè)面的模式;通 過(guò)分析日志的規(guī)律,可以識(shí)別用戶的忠誠(chéng)度、喜好和滿意度,可以挖 掘潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。4.2優(yōu)化網(wǎng)站結(jié)構(gòu)Web挖掘有利于合理建造網(wǎng)站及合理設(shè)計(jì)服務(wù)器, 如輔助改進(jìn)分布式網(wǎng)絡(luò)系統(tǒng)的設(shè)計(jì)性能,在有高度相關(guān)的網(wǎng)站間提供快速有效的訪 問(wèn)通道;幫助更好地組
11、織設(shè)計(jì) Web主頁(yè);幫助改善市場(chǎng)營(yíng)銷決策, 如把廣告放在適當(dāng)?shù)?Web頁(yè)上或更好地理解客戶的興趣,這樣的知 識(shí)將有助于商家制定促銷策略。4.3個(gè)性化服務(wù),智能商務(wù)針對(duì)單個(gè)用戶的使用記錄對(duì)該用戶進(jìn)行建模, 結(jié)合該用戶基本信 息分析其使用習(xí)慣、個(gè)人喜好,目的是在電子商務(wù)環(huán)境下為該用戶提 供與眾不同的個(gè)性化服務(wù)。根據(jù)客戶所訪問(wèn)的商品頁(yè)面內(nèi)容,提供大 量同類商品的鏈接頁(yè)面進(jìn)行對(duì)比選擇,滿足客戶的不同需求。5結(jié)束語(yǔ)電子商務(wù)平臺(tái)就像一個(gè)可以收集海量客戶信息的數(shù)據(jù)庫(kù),應(yīng)用Web數(shù)據(jù)挖掘技術(shù),分析其規(guī)律,探討其模式,為商業(yè)決策提供有力 的支持和保證。作為實(shí)用工具,還需要進(jìn)一步地分析完善。Web數(shù)據(jù) 挖掘在電子商務(wù)平臺(tái)上有著不可估量的發(fā)展前景,能夠指導(dǎo)網(wǎng)商進(jìn)行合理的、科學(xué)地建設(shè)網(wǎng)站,提供個(gè)性化的服務(wù)和增強(qiáng)市場(chǎng)競(jìng)爭(zhēng)力。參考文獻(xiàn)::1夏火松.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)(第 2版)M 北京: 科學(xué)出版社,2009.:2洪濤.電子商務(wù)盈利
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- TZJCFO 0002-2024 數(shù)據(jù)資產(chǎn)財(cái)務(wù)登記業(yè)務(wù)指南
- 2017年中國(guó)共產(chǎn)黨執(zhí)政歷史和人民的選擇
- 超級(jí)經(jīng)典21個(gè)哲理啟示寓言故事
- 《講課腦血管病》課件
- 江蘇省連云港市灌云縣2025屆高考數(shù)學(xué)倒計(jì)時(shí)模擬卷含解析
- 北京市朝陽(yáng)區(qū)市級(jí)名校2025屆高考英語(yǔ)四模試卷含解析
- 2025屆遼寧省普通高中學(xué)高考臨考沖刺語(yǔ)文試卷含解析
- 山東省寧陽(yáng)市2025屆高考沖刺押題(最后一卷)英語(yǔ)試卷含解析
- 廣東珠海二中、斗門(mén)一中2025屆高三考前熱身語(yǔ)文試卷含解析
- 新疆阿克蘇地區(qū)沙雅縣第二中學(xué)2025屆高考數(shù)學(xué)一模試卷含解析
- 介紹北京英文
- GB/T 27800-2011靜密封橡膠制品使用壽命的快速預(yù)測(cè)方法
- 醫(yī)生、護(hù)士工作服技術(shù)參數(shù)要求
- GB 29518-2013柴油發(fā)動(dòng)機(jī)氮氧化物還原劑尿素水溶液(AUS 32)
- 《經(jīng)濟(jì)學(xué)基礎(chǔ)》試題庫(kù)(附答案)
- 中學(xué)生法制教育主題班會(huì)課件《預(yù)防未成年人犯罪》
- 雙氧水工藝培訓(xùn)課件
- 醫(yī)師臨床三基訓(xùn)練綜合試卷
- 激光雷達(dá)測(cè)風(fēng)技術(shù)完整版課件
- 2023年江蘇省環(huán)保集團(tuán)有限公司校園招聘筆試題庫(kù)及答案解析
- 繪畫(huà)心理測(cè)試與治療課件
評(píng)論
0/150
提交評(píng)論