![Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用論文_第1頁(yè)](http://file4.renrendoc.com/view/66aaab9c8cf8a885864fb14267735d4b/66aaab9c8cf8a885864fb14267735d4b1.gif)
![Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用論文_第2頁(yè)](http://file4.renrendoc.com/view/66aaab9c8cf8a885864fb14267735d4b/66aaab9c8cf8a885864fb14267735d4b2.gif)
![Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用論文_第3頁(yè)](http://file4.renrendoc.com/view/66aaab9c8cf8a885864fb14267735d4b/66aaab9c8cf8a885864fb14267735d4b3.gif)
![Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用論文_第4頁(yè)](http://file4.renrendoc.com/view/66aaab9c8cf8a885864fb14267735d4b/66aaab9c8cf8a885864fb14267735d4b4.gif)
![Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用論文_第5頁(yè)](http://file4.renrendoc.com/view/66aaab9c8cf8a885864fb14267735d4b/66aaab9c8cf8a885864fb14267735d4b5.gif)
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Web 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用論文電子商務(wù)的迅猛開(kāi)展產(chǎn)生了海量的Web數(shù)據(jù),從電子商務(wù)的大 數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的知識(shí)和信息,是電子商務(wù)安康開(kāi)展的需 要。在電子商務(wù)中應(yīng)用Web數(shù)據(jù)挖掘技術(shù),可實(shí)現(xiàn)從電子商務(wù)的 Web文檔和Web活動(dòng)中抽取出隱藏的有用模式。本文通過(guò)介紹Web 數(shù)據(jù)挖掘技術(shù),分析其在電子商務(wù)中的挖掘流程,對(duì)其在電子商務(wù) 中的具體應(yīng)用進(jìn)行了探討。我國(guó)電子商務(wù)交易量增長(zhǎng)迅猛,電子商務(wù)平臺(tái)和網(wǎng)站越來(lái)越 多,數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng)。面對(duì)海量的 Web 數(shù)據(jù),對(duì)企業(yè)而言,構(gòu) 建良好的客戶管理關(guān)系,吸引新客戶留住老客戶,發(fā)現(xiàn)顧客潛在的 購(gòu)置興趣等都成為了企業(yè)要關(guān)注的問(wèn)題。對(duì)用戶而言,如
2、何從爆炸式的大數(shù)據(jù)中發(fā)現(xiàn)與自己相關(guān)的信息 存在一定的難度。數(shù)據(jù)挖掘技術(shù)是一種從大量的、不完全的、有噪 聲的、隨機(jī)的、模糊的數(shù)據(jù)中提取隱含在其中的人們事先不知道 的,但又具有潛在價(jià)值的信息和知識(shí)的技術(shù)1-2。在電子商務(wù)中應(yīng) 用數(shù)據(jù)挖掘技術(shù),從已有的信息數(shù)據(jù)中挖掘出潛在的有用的信息, 已成為人們關(guān)注和研究的熱點(diǎn)。Web數(shù)據(jù)挖掘是將傳統(tǒng)的數(shù)據(jù)挖掘思想和技術(shù)應(yīng)用于Web環(huán)境 中,從Web文檔集和Web活動(dòng)中抽取出感興趣、潛在的、有用的模 式和知識(shí)的過(guò)程。Web數(shù)據(jù)挖掘根據(jù)Web信息不同可以分為Web內(nèi) 容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘三個(gè)方面。Web 內(nèi)容挖掘是從文檔內(nèi)容或其描述中直接抽取有用信
3、息的過(guò) 程,通過(guò)對(duì)文本內(nèi)容的檢索,獲取和提煉知識(shí)和信息。用于Web內(nèi)容挖掘的數(shù)據(jù)既有無(wú)結(jié)構(gòu)的自由文本,也有網(wǎng)民留 言、帖子、中文微博等半結(jié)構(gòu)化的信息和于數(shù)據(jù)庫(kù)的結(jié)構(gòu)數(shù)據(jù)。所 以Web內(nèi)容挖掘需要從Web頁(yè)面及后臺(tái)數(shù)據(jù)庫(kù)中開(kāi)展挖掘任務(wù),從 大量元數(shù)據(jù)、文本、視頻、音頻等網(wǎng)絡(luò)數(shù)據(jù)集中找到特定的信息 2。Web結(jié)構(gòu)挖掘是從Web組織結(jié)構(gòu)和鏈接中推導(dǎo)知識(shí),對(duì)頁(yè)面進(jìn) 行分類(lèi)、聚類(lèi),提高檢索效率和找出權(quán)威頁(yè)面,目的是發(fā)現(xiàn)頁(yè)面的 內(nèi)部結(jié)構(gòu)和文檔間的結(jié)構(gòu),利用這些結(jié)構(gòu)蘊(yùn)含的信息幫助發(fā)現(xiàn)有用 的知識(shí)和模式。超鏈接是Web頁(yè)面的根本元素,經(jīng)??梢岳贸溄訉?duì)Web結(jié) 構(gòu)進(jìn)行挖掘。進(jìn)行Web結(jié)構(gòu)挖掘的常用算法有計(jì)算
4、頁(yè)面權(quán)威的 PageRank算法、基于網(wǎng)頁(yè)分析的HITS算法等。Web使用挖掘是從效勞器端記錄的用戶訪問(wèn)日志或用戶的瀏覽 信息中獲取數(shù)據(jù),通過(guò)分析這些數(shù)據(jù)抽取出隱藏在這些數(shù)據(jù)后面的 用戶模式,進(jìn)行預(yù)測(cè)性分析。通過(guò)Web使用挖掘,可以發(fā)現(xiàn)隱藏的 與用戶訪問(wèn)行為相關(guān)的規(guī)律,如頻繁訪問(wèn)路徑、相似用戶群和相似 的Web頁(yè)面等3。2.1 Web數(shù)據(jù)挖掘過(guò)程在電子商務(wù)環(huán)境下,Web數(shù)據(jù)挖掘過(guò)程要經(jīng)歷以下幾步,它是 不斷反復(fù)修正的過(guò)程,直至得到準(zhǔn)確的知識(shí),如圖1所示。 確定挖掘任務(wù),建立挖掘模型。構(gòu)建模型的任務(wù)主要是將數(shù) 據(jù)進(jìn)行規(guī)格化處理,使用不同的算法、調(diào)整參數(shù)來(lái)優(yōu)化挖掘任務(wù), 數(shù)據(jù)挖掘技術(shù)本身就是一個(gè)不
5、斷反復(fù)、不斷迭代的過(guò)程,通過(guò)屢次 的循環(huán)構(gòu)造才能得出更好的評(píng)估模型2。 數(shù)據(jù)源:電子商務(wù)網(wǎng)站每天都會(huì)產(chǎn)生海量的交易數(shù)據(jù)和用戶 訪問(wèn)記錄,提供的數(shù)據(jù)數(shù)量和質(zhì)量都會(huì)影響到挖掘的結(jié)果。由于 Web的結(jié)構(gòu)大體為客戶端一代理效勞器-Web效勞4,所以Web的 數(shù)據(jù)源主要有Web效勞器上的Web日志文件、從代理效勞器端收集 信息及其從Web頁(yè)面中提取數(shù)據(jù)等。 數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理的目的是提高挖掘效率,提供有效 的挖掘數(shù)據(jù),使得結(jié)果更合理。Web文檔的數(shù)據(jù)很多都是半結(jié)構(gòu)或 非結(jié)構(gòu)化的,很難對(duì)采集的Web數(shù)據(jù)直接進(jìn)行處理。采集的Web數(shù) 據(jù)需根據(jù)挖掘主題選擇相關(guān)的數(shù)據(jù)項(xiàng),經(jīng)過(guò)初步的篩選,縮小數(shù)據(jù) 處理范圍。
6、另外,Web數(shù)據(jù)具有不完全性、冗余性和模糊性等特 性,通過(guò)補(bǔ)全不完全項(xiàng)、去除冗余項(xiàng)、處理模糊項(xiàng)等,去掉無(wú)用、 不合理的數(shù)據(jù),最后生成標(biāo)準(zhǔn)的數(shù)據(jù)集。 模式發(fā)現(xiàn):根據(jù)挖掘需求選擇適宜的Web挖掘算法和工具, 實(shí)現(xiàn)從數(shù)據(jù)集發(fā)現(xiàn)潛在的、有用的知識(shí)和模型。常用的Web挖掘算 法有:路徑分析用來(lái)發(fā)現(xiàn)Web站點(diǎn)中最經(jīng)常被訪問(wèn)的路徑;關(guān)聯(lián)規(guī)那 么用于關(guān)聯(lián)知識(shí)的發(fā)現(xiàn),了解網(wǎng)頁(yè)之間的關(guān)系;序列模式可以挖掘出 交易集之間有時(shí)間序列關(guān)系的模式;運(yùn)用分類(lèi)和聚類(lèi)算法對(duì)數(shù)據(jù)進(jìn)行 分組等Web挖掘。 模式分析:對(duì)于發(fā)現(xiàn)的模式進(jìn)行驗(yàn)證、解釋、說(shuō)明,獲取對(duì) 決策支持有用的信息。根據(jù)模式分析的反應(yīng),如果沒(méi)有得到適宜的 結(jié)果,重復(fù)上
7、述步驟,重新挖掘知識(shí),直至得到滿意的結(jié)果。 結(jié)果可視化:Web數(shù)據(jù)挖掘的意義不是獲取龐大的數(shù)據(jù)信 息,而是要將獲取的知識(shí)或者模型采取用戶可理解的方式展現(xiàn)給用 戶,這意味著要將分析結(jié)果可視化。數(shù)據(jù)可視化主要是借助于圖形 化手段,依據(jù)數(shù)據(jù)本身及其內(nèi)在的模式和關(guān)系,清晰有效地傳達(dá)與 溝通信息。2.2 Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用在電子商務(wù)中,從技術(shù)角度,可以提 供優(yōu)化網(wǎng)站結(jié)構(gòu)和頁(yè)面的策略;從商家角度,可以增加穿插銷(xiāo)售量, 盡可能將瀏覽者變?yōu)橄M(fèi)者;從用戶角度,為用戶提供了個(gè)性化效 勞。以下是Web數(shù)據(jù)挖掘在電子商務(wù)中的具體應(yīng)用。 改良站點(diǎn)的訪問(wèn)效率。通過(guò)對(duì)Web結(jié)構(gòu)和We
8、b日志的分析, 對(duì)Web頁(yè)面之間的組織關(guān)系、引用關(guān)系和超鏈接關(guān)系的分析,可以 挖掘用戶網(wǎng)頁(yè)瀏覽行為模式、頁(yè)面瀏覽情況等,對(duì)頁(yè)面的重要性進(jìn) 行評(píng)估,有助于商家重新調(diào)整頁(yè)面結(jié)構(gòu)和頁(yè)面布局,改良Web站點(diǎn) 設(shè)計(jì),提升訪問(wèn)效率,吸引更多用戶。 提供個(gè)性化效勞。電子商務(wù)的快速開(kāi)展,為用戶提供了更多 的選擇,同時(shí),面對(duì)電商網(wǎng)站眾多的商品和越來(lái)越復(fù)雜的網(wǎng)站結(jié) 構(gòu),如何能快速查找到自己感興趣的商品是一個(gè)費(fèi)時(shí)費(fèi)力的問(wèn)題。 個(gè)性化效勞是電子商務(wù)網(wǎng)站爭(zhēng)取更多用戶、防止用戶流失以及實(shí)現(xiàn) 市場(chǎng)目標(biāo)的重要手段。協(xié)同過(guò)濾算法是目前使用最多、應(yīng)用最成熟 的一種推薦技術(shù)5。在電子商務(wù)中,運(yùn)用協(xié)同過(guò)濾等推薦算法,構(gòu) 建基于Web
9、電子商務(wù)的個(gè)性化推薦系統(tǒng),可以制定不同的個(gè)性化營(yíng) 銷(xiāo)策略。 商品推薦效勞。運(yùn)用聚類(lèi)、分類(lèi)、關(guān)聯(lián)規(guī)那么等數(shù)據(jù)挖掘技 術(shù),可以從用戶的訪問(wèn)數(shù)據(jù)中發(fā)現(xiàn)商品之間的聯(lián)系,挖掘用戶感興 趣的商品。比方通過(guò)用戶購(gòu)置商品A,推導(dǎo)出商品B也是用戶感興 趣的商品。通過(guò)基于Web電子商務(wù)的智能推薦系統(tǒng),客戶可以在較 短時(shí)間內(nèi)購(gòu)置到滿意的商品,同時(shí)增加商家的穿插銷(xiāo)售量。 識(shí)別電子商務(wù)潛在客戶。通過(guò)對(duì)Web已有的老客戶數(shù)據(jù)的公 共屬性、類(lèi)別關(guān)鍵屬性及其屬性間的相互關(guān)系進(jìn)行分析,建立分類(lèi) 模型。對(duì)于一個(gè)新的用戶,根據(jù)已建立的分類(lèi)模型,對(duì)新用戶進(jìn)行 正確的分類(lèi),根據(jù)類(lèi)別判斷用戶是否潛在客戶。 理解客戶意圖。通過(guò)分析用戶的瀏覽路徑等多個(gè)數(shù)據(jù)源,運(yùn) 用路徑游歷模式等發(fā)現(xiàn)算法,發(fā)現(xiàn)被頻繁訪問(wèn)的路徑,從而發(fā)現(xiàn)用 戶的真實(shí)訪問(wèn)意圖。Web挖掘能夠在海量的大數(shù)據(jù)中尋找出潛在的有用
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度國(guó)際勞務(wù)輸出合同管理與勞動(dòng)權(quán)益保障
- 2025年度廣州科技創(chuàng)新園區(qū)建設(shè)工程施工合同參考范本
- 2025年度城市更新改造工程監(jiān)理服務(wù)合同
- 長(zhǎng)春2024年吉林長(zhǎng)春市市直事業(yè)單位招聘13人筆試歷年參考題庫(kù)附帶答案詳解
- 貴州2025年貴州省殘疾人聯(lián)合會(huì)直屬事業(yè)單位招聘13人筆試歷年參考題庫(kù)附帶答案詳解
- 西雙版納2025年云南西雙版納州婦幼保健院第一批非在編護(hù)理人員招聘筆試歷年參考題庫(kù)附帶答案詳解
- 舟山浙江舟山岱山縣司法局招聘編外工作人員(二)筆試歷年參考題庫(kù)附帶答案詳解
- 綏化2025年黑龍江肇東市急需緊缺高中教師招聘6人筆試歷年參考題庫(kù)附帶答案詳解
- 湖北2025年湖北醫(yī)藥學(xué)院專項(xiàng)招聘90人筆試歷年參考題庫(kù)附帶答案詳解
- 河南2025年河南財(cái)政金融學(xué)院招聘高層次人才筆試歷年參考題庫(kù)附帶答案詳解
- 安全教育培訓(xùn)記錄表(春節(jié)節(jié)后)
- 水稻葉齡診斷栽培技術(shù)課件
- 經(jīng)纖支鏡氣道球囊擴(kuò)張術(shù)課件
- 汽車(chē)尾氣污染與治理汽車(chē)尾氣污染課件
- 河南神火興隆礦業(yè)有限責(zé)任公司泉店煤礦礦產(chǎn)資源開(kāi)采與生態(tài)修復(fù)方案
- 對(duì)外漢語(yǔ)教學(xué)論
- 《十萬(wàn)個(gè)為什么》推進(jìn)課(小學(xué)課件)
- 全國(guó)主要城市的月日均總輻照量和年日均總輻照量
- 會(huì)計(jì)公司員工手冊(cè)
- GB/T 13404-2008管法蘭用非金屬聚四氟乙烯包覆墊片
- 任職宣布大會(huì)上的講話(集團(tuán)公司任命子公司領(lǐng)導(dǎo)班子成員)
評(píng)論
0/150
提交評(píng)論