



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、一種基于粗糙集的小型電子商務(wù)挖掘模型摘 要 已有的數(shù)據(jù)挖掘模型大多是針對大型商務(wù)網(wǎng)站設(shè)計的,成本高,技術(shù)復(fù)雜,難于實現(xiàn)。本文針對為數(shù)眾多的小型電子商務(wù)網(wǎng)站,將粗糙集與數(shù)據(jù)挖掘結(jié)合起來,建立了一個切實可行的參考模型,該模型能夠有效地、自主地挖掘電子商務(wù)網(wǎng)站的運營狀況和潛在的經(jīng)濟規(guī)律,從而為小型電子商務(wù)運營者提供決策參考。 關(guān)鍵詞 數(shù)據(jù)挖掘;粗糙集;小型電子商務(wù) 一、 引 言 數(shù)據(jù)挖掘應(yīng)用于小型電子商務(wù),可發(fā)現(xiàn)客戶新的購買傾向,設(shè)計投資戰(zhàn)略,在會計系統(tǒng)中探測未經(jīng)認可的開支,增加銷售業(yè)務(wù)等,其目標為揭示小型電子商務(wù)網(wǎng)站的運營狀況以及潛在的經(jīng)濟活動。然而,為數(shù)眾多的中小電子商務(wù)網(wǎng)站由于自身規(guī)模小、商業(yè)
2、伙伴多、客戶雜而多、產(chǎn)品周期短、可利用資金少等特點,很難實現(xiàn)針對大型商務(wù)網(wǎng)站設(shè)計的數(shù)據(jù)挖掘模型。故建立一個適合于小型電子商務(wù)網(wǎng)站的切實可行的數(shù)據(jù)挖掘模型非常必要。 通常, 一個簡單的小型電子商務(wù)系統(tǒng)包括以下幾個基本功能: 1. 客戶注冊。客戶通過該功能提交相應(yīng)的客戶信息??蛻粢话憧煞譃閮深悾浩胀蛻艉蜁T客戶。他們享有不同的權(quán)限,通常會員客戶將享受一些優(yōu)惠的價格、被邀請參加一些網(wǎng)站舉辦的活動等。 2. 客戶登錄。主要進行客戶身份認證,以確保是合法的客戶。 3. 在線商品瀏覽??蛻艨闪私馍唐返脑敿毲闆r。商品陳列如現(xiàn)實中超市的貨架一樣。好的分類以及好的擺放次序都將影響銷售業(yè)務(wù)。 4. 購物車。實現(xiàn)
3、超市購物車的功能??蛻粢贿厼g覽網(wǎng)站一邊將欲購買的商品放入購物車。 5. 生成訂單(購物單)。當客戶選好商品后,系統(tǒng)按照客戶購物車中的商品生成購物單。 6. 訂單確認。網(wǎng)站按照訂單,計算出本次購買的購買清單和總金額后,讓客戶確認是否真的購買。 7. 在線支付。當客戶確認訂單后,可通過信用卡在線支付,支付成功后系統(tǒng)生成一份永久訂單,并提交給訂單處理系統(tǒng)。 8. 成交確認。當客戶成功實現(xiàn)支付后,站點向客戶發(fā)送E-mail以確認交易成功。 以上是電子商務(wù)的基本功能,除此之外,更需要一個高效、安全的數(shù)據(jù)挖掘工具, 挖掘潛在的、深層次的經(jīng)濟活動,為網(wǎng)站決策者提供各種分析數(shù)據(jù)和參考決策,如自動生成日報表、月
4、報表等統(tǒng)計報表,以及客戶行為變化、商品銷售預(yù)測等。 電子商務(wù)環(huán)境下,供應(yīng)商、倉儲物流伙伴、客戶之間要進行物流、信息流和資金流等經(jīng)濟活動, 數(shù)據(jù)挖掘可對物流數(shù)據(jù)、信息流數(shù)據(jù)、資金流數(shù)據(jù)進行綜合挖掘。 二、 基于粗糙集的小型電子商務(wù)挖掘模型 數(shù)據(jù)挖掘的一般過程包括:數(shù)據(jù)采集、數(shù)據(jù)清洗、挖掘算法確定、數(shù)據(jù)挖掘、模式解釋及知識評價。從理論研究到應(yīng)用實現(xiàn),涉及的技術(shù)主要有分類技術(shù)、聚類技術(shù)、粗糙集技術(shù)、統(tǒng)計技術(shù)和關(guān)聯(lián)規(guī)則技術(shù)等。 粗糙集技術(shù)是處理知識的有效方法,已在眾多領(lǐng)域得到廣泛的應(yīng)用。這里,結(jié)合粗糙集,建立如圖1所示的挖掘模型。從圖1中看到,采用的主要技術(shù)是粗糙集技術(shù)。以下對其中的關(guān)鍵步驟作進一步的
5、分析。 三、 小型電子商務(wù)網(wǎng)站的數(shù)據(jù)采集 數(shù)據(jù)采集是數(shù)據(jù)挖掘的基礎(chǔ)。電子商務(wù)網(wǎng)站的數(shù)據(jù)分布在服務(wù)器端、代理端和客戶端。理論上講,應(yīng)采集到所有三處的數(shù)據(jù),才能得到最完整的數(shù)據(jù)。但在實際中,由于實際情況的限制,幾乎是不可能實現(xiàn)的。具體分析如下: 1. 服務(wù)器端數(shù)據(jù)采集。在服務(wù)器端客戶的行為可以被TCP/IP包監(jiān)測器跟蹤,以提取客戶的請求信息。服務(wù)器主要以Web日志的形式記錄客戶每一次的網(wǎng)頁請求信息。主要包括:客戶標識、遠程IP、請求日期和時間等,并且可以記錄COOKIES和查詢參數(shù)來描述各個不同客戶的行為。其優(yōu)點是:能夠?qū)崟r采集數(shù)據(jù);來自不同服務(wù)器的數(shù)據(jù)能被整合到唯一的日志中。服務(wù)器端數(shù)據(jù)采集的缺
6、點是:如果客戶使用本地CACHE和代理(Proxy),則Web服務(wù)器僅能獲取代理信息,而得不到客戶的真正信息;同樣, Web環(huán)境中有各種CACHE,Web日志記錄可能不準確。這些都將導(dǎo)致信息的不完整以及信息量的不足。 2. 代理端數(shù)據(jù)采集。許多網(wǎng)絡(luò)服務(wù)商通過CACHE為客戶提高導(dǎo)航速度,它通過海量的Web Servers來采集客戶數(shù)據(jù)。代理不僅可以采集多個客戶的行為,還可以采集多個網(wǎng)站的行為。代理端數(shù)據(jù)采集適合有大量靜態(tài)頁面的網(wǎng)站。 代理端數(shù)據(jù)采集的缺點是:多個客戶使用同一個代理服務(wù)器的環(huán)境下,如何標識某個客戶,如何識別屬于該客戶的會話和使用記錄,此問題在很大程度上影響挖掘質(zhì)量。 3. 客戶端
7、數(shù)據(jù)采集??蛻舳送ㄟ^JavaScript、Java Applets或修改過的瀏覽器記錄數(shù)據(jù)。但JavaScript不能記錄客戶所有的行為,而Java Applets可以記錄客戶的所有行為,但效率低。 客戶端數(shù)據(jù)采集的缺點是:客戶可能會在瀏覽器設(shè)置中關(guān)閉JavaScript、Java Applets功能;涉及客戶的個人隱私信息,需要客戶配合。 綜上所述,對于電子商務(wù)網(wǎng)站而言,盡管有多種數(shù)據(jù)采集源,但實現(xiàn)起來比較困難,而且所得數(shù)據(jù)是很不完整的。 基于以上分析,在建立電子商務(wù)網(wǎng)站時,除客戶注冊表、商品表等表外,應(yīng)在服務(wù)器端維持兩個基本表:客戶行為表和商業(yè)行為表。客戶行為表記錄客戶的行為,如:登錄、查
8、詢、添加商品到購物車、瀏覽等行為。商業(yè)行為表記錄客戶的實際購物情況,如所購商品、數(shù)量、日期等。 表的基本結(jié)構(gòu)包含如下一些基本字段: 客戶行為表:Customer No, Customer Type, Date, Login Time, Exit Time, Home, Browse, Search, Login, Pay, Register, Add to Cart, Select 其中,Customer Type為客戶類別:0-普通客戶,1-會員客戶。 商業(yè)行為表:Customer No, Merchandises, Number, Date, Time 可見,上述兩個表格記錄了挖掘所需的基
9、本數(shù)據(jù),使得數(shù)據(jù)采集更易于完成。 四、 粗糙集數(shù)據(jù)清洗 利用粗糙集的約簡算法對數(shù)據(jù)進行清洗。主要是計算知識的約簡、核、上近似及下近似(正域)。以決策規(guī)則為例。表1是某電子商店的購物記錄, P,Q,R,S代表4種商品;Customer No. 為客戶號。是:表示購買了某商品;否:表示沒有購買某商品。 以下對表1進行粗糙集數(shù)據(jù)清洗。 根據(jù)粗糙集理論,論域U=t1,t2,t3,t4,t5,t6,t7,t8,條件屬性集C=P,Q,R,決策屬性集D=S。容易計算: U關(guān)于等價關(guān)系C的劃分U/C=X1,X2,X3,X4,X5,其中,X1=t1,X2=t2,t3,X3=t4,X4=t5,t7,X5=t6,t
10、8。 U關(guān)于等價關(guān)系D的劃分U/D=Y1,Y2,其中,Y1=t2,t3,t6,t7,t8,Y2=t1,t4,t5。 類似地,U/P=t1,t2,t3,t4,t5,t6,t7,t8,U/Q=t1,t2,t3,t4,t6,t8,t5,t7,U/R=t2,t3,t5,t6,t7,t8,t1,t4,U/P,Q=t1,t2,t3,t4,t6,t8,t5,t7,U/P,R=t1,t2,t3,t4,t5,t6,t7,t8,U/Q,R=t1,t4,t2,t3,t6,t8,t5,t7 以下計算正域: posC(D)= t1,t2,t3,t4,t6,t8 pos(C-P)(D)= t1,t4,t2,t3,t6,t
11、8=posC(D) pos(C-Q)(D)= t1,t2,t3,t4posC(D) pos(C-R)(D)=posC(D) pos(C-P, Q)(D)= t1,t4posC(D) pos(C-P,R)(D)=posC(D) pos(C-Q,R)(D)=posC(D) 因此,C的D約簡為Q,R。故表1經(jīng)過粗糙集數(shù)據(jù)清洗后得到表2。 五、 決策規(guī)則的提取 定義決策規(guī)則為: rij:des(Xi) des(Yj),XiYj?準。其中,des()為對等價類的描述。 定義規(guī)則rij的確定性因子(Xi,Yj)=| XiYj |/| Xi |。顯然,0(Xi,Yj)1。 當(Xi,Yj)=1時,rij是確
12、定的;當0(Xi,Yj)1時,rij是不確定的。 這樣,可得以下確定性規(guī)則: r12:(購買Q)且(不購買R) (不購買S) r21:(購買Q)且(購買R) (購買S) r32:(購買Q)且(不購買R) (不購買S) r51:(購買Q)且(購買R) (購買S) 不確定性規(guī)則為: r41:(不購買Q)且(購買R) (購買S),(X4,Y1)=0.5 r42:(不購買Q)且(購買R) (不購買S),(X4,Y2)=0.5 六、 模式解釋及知識評價 經(jīng)過挖掘可得到大量的模式和規(guī)則,需對規(guī)則作進一步的篩選、合并。上述例子經(jīng)合并后最終得到兩條確定性規(guī)則: 1(購買Q)且(購買R) (購買S) 2(購買Q)且(不購買R) (不購買S) 基于上述規(guī)則,可作決策:在電子商店中,可將商品P,Q,R按順序相鄰擺放在一起??商岣咪N售。 對于不確定規(guī)則,可作參考或直接刪除均可。 七、 結(jié)束語 通過以上分析,所建立的基于粗糙集的小型電子商務(wù)挖掘模型是有效、可行的。已經(jīng)提出很多可行的粗糙集算法,在實現(xiàn)挖掘時可參考。上述只舉出決
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025 ADIDAS 員工聘用合同 (銷售代表)
- 2025設(shè)備租賃合同樣本模板
- 《閉環(huán)系統(tǒng)特性分析》課件
- 《癲癇發(fā)作機制》課件
- 2025年中廣(舟山)有線信息網(wǎng)絡(luò)有限公司招聘筆試參考題庫附帶答案詳解
- 2025年福建順昌國有資產(chǎn)投資控股有限公司招聘筆試參考題庫附帶答案詳解
- 2025年浙江臺州市金投創(chuàng)躍股權(quán)投資有限公司招聘筆試參考題庫含答案解析
- 2025年福建榕發(fā)置地有限公司福州晉安分公司招聘筆試參考題庫含答案解析
- 小學語文《觀潮》教案設(shè)計
- 2025云浮市羅定市滿塘鎮(zhèn)社區(qū)工作者考試真題
- 水磨鉆專項方水磨鉆專項方案
- 我愛刷牙幼兒課件
- 職高英語高一試題及答案
- 2024-2025年第二學期一年級語文教學進度表
- 3.1《百合花》課件 統(tǒng)編版高一語文必修上冊
- 會展營銷學知到智慧樹章節(jié)測試課后答案2024年秋上海旅游高等專科學校
- 主動脈球囊反搏術(shù)(IABP)護理
- 《關(guān)于加強中小學地方課程和校本課程建設(shè)與管理的意見》專題培訓
- 2025年中考物理押題猜想卷(蘇州卷)(全解全析)
- 《半導(dǎo)體行業(yè)發(fā)展歷程》課件
- 新能源開發(fā)知識培訓課件
評論
0/150
提交評論