




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、中山大摩折華學(xué)院本科生畢業(yè)論文(設(shè)計(jì))題 目:電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究學(xué) 系:信息科學(xué)系專 業(yè):計(jì)算機(jī)科學(xué)與技術(shù)學(xué)生姓名:學(xué) 號(hào):指導(dǎo)教師:副教授(職稱)年四月表一 本科畢業(yè)論文(設(shè)計(jì))開題報(bào)告論文(設(shè)計(jì))題目:屯子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究(簡述選題的目的、思路、方法、相關(guān)支持條件及進(jìn)度安排等)目的:隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,電子商務(wù)系統(tǒng)在為用戶提供越 來越多選擇的同時(shí),其結(jié)構(gòu)也變得更加復(fù)雜,用戶經(jīng)常會(huì)迷失在大量的商甜信 息空間中,無法順利找到口己需要的商品。電子商務(wù)推薦系統(tǒng)(recommender system)直接與用戶交互,模擬商店銷售人員向用戶提供商品推薦,幫助用戶 找到他
2、們真正所需購買的商品。近年來雖然電了商務(wù)推薦系統(tǒng)在理論和實(shí)踐中 都得到了很大的發(fā)展,然而屯子商務(wù)推薦系統(tǒng)仍面臨著一系列挑戰(zhàn)。針對(duì)屯子 商務(wù)推薦系統(tǒng)廿前所面臨的主要問題,木文對(duì)電子商務(wù)推薦系統(tǒng)中推薦算法和 推薦系統(tǒng)體系結(jié)構(gòu)等關(guān)鍵技術(shù)進(jìn)行探討。思路:首先,了解課題的研究背景、研究意思以及課題的國內(nèi)外現(xiàn)狀;其次,查找相關(guān)資料,以明確電子商務(wù)推薦系統(tǒng)的基本定義、推薦系 統(tǒng)體系結(jié)構(gòu)、推薦系統(tǒng)相關(guān)技術(shù)和其基礎(chǔ)理論;最后,深入了解電子商務(wù)推薦系統(tǒng)中關(guān)鍵技術(shù)的推薦算法,如關(guān)聯(lián)規(guī) 則推薦算法和協(xié)同過濾推薦算法,并了解評(píng)價(jià)推薦系統(tǒng)兩個(gè)重要要素。方法:通過閱讀大量的與電子商務(wù)推薦系統(tǒng)或電子商務(wù)推薦算法相關(guān)的論文、
3、期刊、書籍,充實(shí)其實(shí)對(duì)這領(lǐng)域的了解和認(rèn)識(shí),最后通過口身對(duì)其的認(rèn)識(shí)完成 論文。相關(guān)支持條件:在圖書館查詢相關(guān)資料,同時(shí)利用校園網(wǎng)提供的各種網(wǎng)絡(luò)數(shù) 據(jù)庫資源以及利用google學(xué)術(shù)搜索引擎等進(jìn)行論文檢索。進(jìn)步安排:第一階段(10月一12月):收集大量資料,準(zhǔn)備論文所需材料; 第二階段(1月2月):撰寫論文,并完成論文體系結(jié)構(gòu); 第三階段(3月一4月):歸納總結(jié),修改并完善論文。學(xué)生簽名:年11月15日電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究論文摘要隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,人類已進(jìn)入信息社會(huì)和網(wǎng)絡(luò)經(jīng)濟(jì)時(shí)代,電 子商務(wù)系統(tǒng)在為用戶提供越來越多選擇的同時(shí),其結(jié)構(gòu)也變得更加復(fù)雜,用戶經(jīng)常迷失在大 量的商品信
4、息空間中,無法順利找到自己需要的商品。電子商務(wù)推薦系統(tǒng)直接與用戶交互, 模擬商店銷售人員向用戶提供商品推薦,幫助用戶找到他們真正需要購買的商品,從而順利 完成購買過程。在日趨澈烈的競爭環(huán)境下,電子商務(wù)系統(tǒng)能有效保留用戶、防止用戶流失, 提高電子商務(wù)系統(tǒng)的銷售。近年來,電子商務(wù)推薦系統(tǒng)在理論和實(shí)踐中都得到了很大發(fā)展,但是隨著電子商務(wù)系統(tǒng) 規(guī)模的進(jìn)一步擴(kuò)大,電子商務(wù)推薦系統(tǒng)也面臨一系列挑戰(zhàn)。針對(duì)這一系列挑戰(zhàn),本文對(duì)電子 商務(wù)推薦系統(tǒng)的關(guān)鍵技術(shù)進(jìn)行有益的探討和研究。本文主要的工作包括:首先,對(duì)推薦系統(tǒng)的研究背景、研究意思和當(dāng)前推薦系統(tǒng)的國內(nèi)外現(xiàn)狀進(jìn)行系統(tǒng)綜述介 紹。其次,對(duì)推薦系統(tǒng)的相關(guān)技術(shù)和系統(tǒng)結(jié)
5、構(gòu)進(jìn)行了研究。推薦系統(tǒng)中主要的相關(guān)技術(shù)包括 信息過濾、信息檢索、數(shù)據(jù)挖掘技術(shù)和協(xié)同過濾技術(shù)。而對(duì)于系統(tǒng)架構(gòu)主要分為輸入、處理 和輸出三部分,各個(gè)部分都擔(dān)任著推薦系統(tǒng)的重要角色,這方面的分析為后面的工作提供了 理論基礎(chǔ)。最后,對(duì)推薦算法中兩個(gè)關(guān)鍵算法技術(shù)進(jìn)行探討分析,包括關(guān)聯(lián)規(guī)則推薦算法和協(xié)同過 濾推薦算法。通過對(duì)目前電子商務(wù)推薦算法面臨的主要挑戰(zhàn)提出,希望通過這些研究為后續(xù) 新方法的提出給予一些指導(dǎo),并對(duì)改善關(guān)鍵技術(shù)的展望。關(guān)鍵字電子商務(wù);推薦系統(tǒng);數(shù)據(jù)挖掘abstractwith the popularization of internet and development of e-comm
6、erce, human being s have been into information society and the internet economy era, in the meanwhile e-commerce system offered more and more choices for the consumers, the structure of ecommerce web site became more and more complex. this situation made it hard for consumers to find the products th
7、ey wanted. to solve this issue, recommendation systems were proposed to suggest products and to provide consumers with information to help them decide which products to purchase. in the increasingly fierce competitive environment, recommendation systems can enhance e-commerce sales by converting bro
8、wsers into buyers, increasing cross-sell and building loyalty to prevent user losing.in recent years, e-commerce recommendation system, both in theory and practice has been great progress. but with the further expansion of the scale of e-commerce systems, e-commerce recommendation system also faced
9、a series of challenges. challenge for this series, this recommendation system on a key e-commerce technologies useful to explore and study in this paper, mainly include:firstly, this article will introduce on the recommendation system in the background, meaning and the current recommendation system
10、systematic review status at home and abroadsecondly, this article will study the related technologies and system architecture on the recommendation system. these related technologies, including information filtering, information retrieval, data mining and collaborative filtering technology. the syst
11、em architecture consists of input, processing and output, all parts of the recommendation system play important role in recommendation system. and this analysis provides a theoretical basis for the work.finally, this article will study two key algorithm of recommendation algorithm, which are associa
12、tion rules and collaborative filtering recommendation algorithm through on the current e-commerce recommendation algorithm presenting major challenges, hopes to provide some of the new method propose guidance to follow up research, and the prospect improving of key technologies-keywords e-commerce;
13、recommendation systems; data miningil錄第1章緒論11.1課題研究背景11.2課題研究意義21.3課題研究的國內(nèi)外現(xiàn)狀21.4本文結(jié)構(gòu)3第2章電子商務(wù)推薦系統(tǒng)相關(guān)技術(shù)32.1信息檢索和信息過濾32.1.1信息檢索32. 12信息過濾42.2數(shù)據(jù)挖掘技術(shù)52.2.1數(shù)據(jù)挖掘過程72.2.2數(shù)據(jù)挖掘知識(shí)分類和數(shù)據(jù)挖掘方法82.2.3數(shù)據(jù)挖掘與推薦系統(tǒng)92.3協(xié)同過濾技術(shù)10第3章 電子商務(wù)推薦系統(tǒng)基礎(chǔ)理論133. 1電子商務(wù)推薦系統(tǒng)133.2電子商務(wù)推薦系統(tǒng)的輸入和輸出143.2. 1電子商務(wù)推薦系統(tǒng)的輸入153.2.2電子商務(wù)推薦系統(tǒng)的輸岀163.3電子商務(wù)推
14、薦系統(tǒng)分類17第4章電子商務(wù)推薦算法204.1電子商務(wù)推薦系統(tǒng)算法概述204.2關(guān)聯(lián)規(guī)則推薦算法214.2. 1關(guān)聯(lián)規(guī)則挖掘224.2.1關(guān)聯(lián)規(guī)則推薦算法244.3協(xié)同過濾推薦算法254. 3. 1 user-based協(xié)同過濾推薦算法254. 3. 2 item-based協(xié)同過濾推薦算法294.4電子商務(wù)推薦算法面臨的主要挑戰(zhàn)32第5章 推薦系統(tǒng)評(píng)價(jià)要素335. 1 平均絕對(duì)誤差mae335.2 稀疏度33第6章結(jié)論與展望34參考文獻(xiàn):35致謝39第1章緒論1.1課題研究背景隨著電子商務(wù)規(guī)模的進(jìn)一步擴(kuò)人,為用戶提供越來越多選擇的同時(shí),其結(jié)構(gòu) 也變得更加復(fù)雜。一方而,用戶而對(duì)大量的商品信息束
15、手無策,用戶經(jīng)常會(huì)迷失 在大量的商品信息空間中,無法順利找到口己需要的商品;另一方面,商家也失 去了與消費(fèi)者的聯(lián)系。隨著電子商務(wù)應(yīng)用的領(lǐng)域越來越廣,對(duì)電子商務(wù)研究越來 越深入,人工智能、web技術(shù)與商業(yè)模型的集成研究逐步得到了重視。其中在 b2c方面,推薦系統(tǒng)(recommender system)成為研究和應(yīng)用的一個(gè)重點(diǎn)。在 海量的商品信息屮,推薦系統(tǒng)模擬商店銷售人員向用戶提供商品推薦,幫助用戶 找到所需商品,從而順利完成購買過程,因此可以有效保留用戶,提高電子商務(wù) 系統(tǒng)的銷售;商家也可以通過推薦系統(tǒng)保持與客戶的聯(lián)系,重建客戶關(guān)鍵。一方面,電子商務(wù)系統(tǒng)需要推薦系統(tǒng)的大力支持幫助用戶找到所需商
16、品;另 一方面,電子商務(wù)系統(tǒng)口身的特點(diǎn)也有利于推薦系統(tǒng)的順利實(shí)施。主要原因包括1 :1)豐富的數(shù)據(jù):電子商務(wù)環(huán)境收集的各種數(shù)據(jù)比較豐富,如用戶注冊(cè)數(shù)據(jù)、 用戶交易數(shù)據(jù)、用戶評(píng)分?jǐn)?shù)據(jù)、用戶購物籃信息、用戶瀏覽數(shù)據(jù)等。豐富的數(shù)據(jù) 為建立多種推薦模型,產(chǎn)生高質(zhì)量的推薦提供了可能。2)電子化的數(shù)據(jù)收集:電子商務(wù)環(huán)境中的各種數(shù)據(jù)通過電子化方式收集, 減少了手工方式收集數(shù)據(jù)可能岀現(xiàn)的人工誤差,噪音數(shù)據(jù)大大減少,各種數(shù)據(jù)的 可信度比校高,數(shù)據(jù)預(yù)處理比校簡單。3)易于對(duì)推薦效果進(jìn)行評(píng)估:在電子商務(wù)中實(shí)施推薦系統(tǒng)的投資回報(bào)率易 于通過屯子商務(wù)web站點(diǎn)訪問量的增加、電子商務(wù)系統(tǒng)銷售額的増加等指標(biāo)直 接進(jìn)行評(píng)佔(zhàn)。
17、推薦系統(tǒng)具有良好的發(fā)展方向和應(yīng)用前景。推薦系統(tǒng)在幫助了客戶的同時(shí)也 提高了顧客對(duì)商務(wù)活動(dòng)的滿意度,換來對(duì)商務(wù)網(wǎng)站的進(jìn)一步支持。因此,近年來 推薦系統(tǒng)在電子商務(wù)的應(yīng)用越來越多,幾乎所有人型的電子商務(wù)系統(tǒng),如 amazon> ebay、當(dāng)當(dāng)網(wǎng)等,都不同程度的使用了各種形式的推薦系統(tǒng)。各種提 供個(gè)性化服務(wù)的web站點(diǎn)也需要推薦系統(tǒng)的大力支持。在日趨激烈的競爭環(huán)境 下,電子商務(wù)推薦系統(tǒng)能有效保留用戶,提高電子商務(wù)系統(tǒng)的銷售。成功的電子 商務(wù)推薦系統(tǒng)會(huì)產(chǎn)生巨大的經(jīng)濟(jì)效益。電子商務(wù)推薦系統(tǒng)在理論和實(shí)踐屮都得到 了很人發(fā)展。但是隨著電子商務(wù)系統(tǒng)的進(jìn)一步發(fā)展,電子商務(wù)推薦系統(tǒng)也面臨一 系列挑戰(zhàn)。針對(duì)電子
18、商務(wù)推薦系統(tǒng)面臨的主要挑戰(zhàn),本文將對(duì)電子商務(wù)推薦系統(tǒng) 中的核心技術(shù)進(jìn)行了有益的探索和研究。1.2課題研究意義推薦算法是推薦系統(tǒng)的核心,良好的推薦算法能夠及時(shí)準(zhǔn)確地計(jì)算出符合用 戶需求的商品,為客戶提供良好的購物體驗(yàn)。木文對(duì)日前應(yīng)用最廣泛的協(xié)同過濾 推薦算法進(jìn)行研究,并嘗試對(duì)其進(jìn)行改進(jìn),使推薦結(jié)果的實(shí)時(shí)性更好,推薦質(zhì)量 更高。靈活智能的推薦系統(tǒng)能夠根據(jù)不同的推薦策略進(jìn)行推薦,滿足客戶不同的需 要。本文對(duì)目前電子商務(wù)推薦系統(tǒng)的體系結(jié)構(gòu)進(jìn)行了研究,提出的基于 multi-agent的柔性電子商務(wù)推薦系統(tǒng),使推薦系統(tǒng)更加智能、動(dòng)和靈活。論文研究具有重耍的理論意義和廣闊的應(yīng)用前景。1.3課題研究的國內(nèi)外
19、現(xiàn)狀隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,推薦系統(tǒng)逐漸成為電子商務(wù)it技術(shù) 的一個(gè)重要研究內(nèi)容,得到了越來越多研究者的關(guān)注。美國計(jì)算機(jī)學(xué)會(huì)acm從 1999年開始每年召開一次電子商務(wù)的研討會(huì),其中關(guān)于電子商務(wù)推薦系統(tǒng)的研 究文章占據(jù)了很大比覓。從1999年開始此協(xié)會(huì)的數(shù)據(jù)挖掘特別興趣組sigkdd 小組設(shè)立webkdd討論組,主題集屮在屯子商務(wù)屮的web挖掘技術(shù)和推薦系 統(tǒng)技術(shù),而acm下面的信息檢索特別興趣組sigir在召開的第24屆研究和發(fā) 展會(huì)議上,開始專門把推薦系統(tǒng)作為一個(gè)討論主題。第7屆國際人工智能聯(lián)合會(huì) 議 ijcaf01 則把 e-business & the intelli
20、gent web 作為一個(gè)獨(dú)立的研討小纟fl。99 年召開的人機(jī)界面會(huì)議chf99專門設(shè)立推薦系統(tǒng)特別興趣組。同時(shí),第十五屆 人工智能會(huì)議aaal98、第一屆知識(shí)管理應(yīng)用會(huì)議pakm、96年協(xié)同工作會(huì)議 cscw96等也紛紛開始將電子商務(wù)推薦系統(tǒng)作為研究主題。經(jīng)過多年的努力,國內(nèi)外在電子商務(wù)推薦技術(shù)和系統(tǒng)的研究方面已取得較多 的理論和應(yīng)用成果。1.4本文結(jié)構(gòu)第一章探討了電子商務(wù)推薦系統(tǒng)提出的背景及其研究意義,介紹了推薦系統(tǒng) 的研究現(xiàn)狀,給岀木論文的整體纟n.織結(jié)構(gòu)。第二章介紹了電了商務(wù)推薦系統(tǒng)相關(guān)的技術(shù),探討信息檢索、信息過濾、數(shù) 據(jù)挖掘技術(shù)以及協(xié)同過濾等相關(guān)技術(shù)。第三章探討了電子商務(wù)推薦系統(tǒng)
21、的基礎(chǔ)理論,包括具定義、系統(tǒng)的輸入和輸 岀、分類、目前采用的各種推薦策略和相關(guān)實(shí)例。第四章分析了電子商務(wù)推薦算法在整個(gè)推薦系統(tǒng)屮的重要地位,給出了電子 商務(wù)推薦算法的分類原則及其分類,然后對(duì)關(guān)聯(lián)規(guī)則推薦算法和i辦同過濾推薦這 兩種關(guān)鍵的屯子商務(wù)推薦算法進(jìn)行了深入介紹。在協(xié)同過濾算法中,首先對(duì)協(xié)同 過濾算法所使用的用戶數(shù)據(jù)的收集做了簡耍的描述,然后詳細(xì)介紹了 use.based 協(xié)同過濾算法,itembased協(xié)同過濾算法。第五章闡述了評(píng)價(jià)推薦系統(tǒng)的兩個(gè)重要因素,包括平均絕對(duì)值誤差mae和 稀疏度。第六章總結(jié)全文,并提出對(duì)電了商務(wù)推薦系統(tǒng)中關(guān)鍵技術(shù)的展望。第2章電子商務(wù)推薦系統(tǒng)相關(guān)技術(shù)2.1信息
22、檢索和信息過濾推薦系統(tǒng)的關(guān)鍵技術(shù)主要包括信息檢索(ir, information retrieval)技術(shù)和 信息過濾(if, information filtering)技術(shù)。信息檢索是在靜態(tài)信息源中搜索用 戶短期的信息需求的過程;而信息過濾是對(duì)動(dòng)態(tài)信息進(jìn)行篩選,著重排除不希望 得到的信息,帶有即時(shí)性。雖然實(shí)現(xiàn)技術(shù)及其相似,但兩者所完成任務(wù)完全不同 41。2.1.1信息檢索信息檢索技術(shù)一般是指根據(jù)用戶需求,從大規(guī)模的相對(duì)靜止的數(shù)據(jù)庫中檢索 用戶需要的信息,主要滿足用戶瞬時(shí)的信息需求。信息檢索技術(shù)主要用于相對(duì)靜 止的信息存儲(chǔ)領(lǐng)域。例如,當(dāng)用戶在數(shù)字圖書館中進(jìn)行檢索時(shí),用戶提交關(guān)鍵字 反映了用戶
23、當(dāng)前的信息需求,數(shù)字圖書館屮的搜索引擎根據(jù)預(yù)先建立好的內(nèi)容檢 索,檢索出用戶需要的信息。信息檢索的研究內(nèi)容主要包括索引技術(shù)和查詢技術(shù)。索引技術(shù)是對(duì)資源內(nèi)容 進(jìn)行分析,從而將資源內(nèi)容表示為計(jì)算機(jī)可處理的數(shù)據(jù)結(jié)構(gòu)的過程。查詢技術(shù)根 據(jù)用戶需求,查詢用戶需要的資源信息。英研究內(nèi)容主要包括查詢語言設(shè)計(jì)研究、 可視化查詢接口研究、用戶請(qǐng)求與資源信息的匹配研究等。在很多情況下,索引 技術(shù)與查詢技術(shù)是重疊的,查詢技術(shù)依賴資源信息所采用的索引結(jié)構(gòu)。信息檢索系統(tǒng)的界面主要包括兩種形式。傳統(tǒng)的信息檢索系統(tǒng)主要使用關(guān)鍵 字查詢接口,用戶根據(jù)自己的信息需求輸入一到兩個(gè)關(guān)鍵字,信息檢索系統(tǒng)根據(jù) 用戶提交的關(guān)鍵字進(jìn)行查詢
24、,然后向用戶返回檢索結(jié)果。忖前,越來越多的信息 檢索系統(tǒng)提供動(dòng)態(tài)查詢接口。信息檢索系統(tǒng)動(dòng)態(tài)查詢接口向用戶提供一系列的信 息主題供用戶選擇,然后根據(jù)用戶的選擇向用戶提供下一層的信息主題,這樣一 直進(jìn)行下去,直到用戶檢索到口己需要的信息為止。這種不斷與用戶進(jìn)行交互的 動(dòng)態(tài)查詢接口使得用戶能更容易的檢索到所需信息。信息檢索技術(shù)是實(shí)現(xiàn)推薦系統(tǒng)的關(guān)鍵技術(shù)。推薦系統(tǒng)根據(jù)用戶需求,搜索產(chǎn) 品類別數(shù)據(jù)庫,然后返回用戶需要的信息。其搜索過程可以實(shí)時(shí)進(jìn)行,也可以定 期周期執(zhí)行。同時(shí),推薦系統(tǒng)提供的推薦界面既可以基于傳統(tǒng)的關(guān)鍵字查詢,也 可以基于動(dòng)態(tài)查詢接口。前者的例子如a中的關(guān)鍵字查詢,后者的例 子如 中的 ad
25、visor 推薦。2.1.2信息過濾信息過濾技術(shù)一般用戶用戶需求相對(duì)不變,但信息動(dòng)態(tài)呢更新比較頻繁的情 況。信息過濾系統(tǒng)主要面對(duì)的是半結(jié)構(gòu)化和菲結(jié)構(gòu)化的數(shù)據(jù),它為用戶的長期信 息需求提供信息過濾服務(wù)1。用戶的興趣模型可用用戶檔案文件的形式表示。 信息過濾系統(tǒng)將動(dòng)態(tài)信息與用戶檔案文件進(jìn)行匹配,根據(jù)匹配結(jié)果返回用戶需要 的信息。信息過濾與信息檢索的區(qū)別主要包扌舌:1)信息過濾面向用戶長期的信息需求,而信息檢索技術(shù)面向的是用戶短期的、實(shí)時(shí)的查詢。2) 信息過濾用檔案文件表示用戶的信息需求特征,而信息檢索技術(shù)是用關(guān) 鍵詞表達(dá)用戶的查詢請(qǐng)求。3) 信息過濾中用戶需求相對(duì)不便,但用戶訪問的是動(dòng)態(tài)數(shù)據(jù)流,是
26、從動(dòng)態(tài) 數(shù)據(jù)流中選擇數(shù)據(jù);信息檢索技術(shù)訪問是相對(duì)靜止的數(shù)據(jù),但用戶需求卻具有瞬 時(shí)性。表2-1信息檢索和信息過濾的區(qū)別信息檢索信息過濾信息源相對(duì)靜態(tài)的結(jié)構(gòu)化數(shù)據(jù)動(dòng)態(tài)的無結(jié)構(gòu)或半結(jié)構(gòu)數(shù)據(jù)需求表示檢索詞興趣模板丨1標(biāo)選擇相關(guān)信息過濾掉不相關(guān)的信息用戶特點(diǎn)大范圍多用戶的短期使用小范圍少用戶的長期使用郵件系統(tǒng)信息過濾和新聞組信息服務(wù)是信息過濾技術(shù)的典型應(yīng)用。在新聞組 信息服務(wù)中,用戶輸入自己感興趣的一組關(guān)鍵詞,新聞組信息服務(wù)通過關(guān)鍵詞建 立用戶檔案。當(dāng)新聞組中加入新信息時(shí),信息過濾系統(tǒng)對(duì)新信息進(jìn)行過濾,將滿 足用戶需求的新信息反饋給用戶。新聞紐信息服務(wù)也可以分析用戶訂閱的信息£1 動(dòng)抽取關(guān)鍵
27、詞,簡歷用戶檔案,然后通過信息過濾系統(tǒng)將用戶感興趣的新信息反 饋給用戶。信息過濾技術(shù)也是實(shí)現(xiàn)推薦系統(tǒng)的關(guān)鍵技術(shù)。例如,a提供的eyes 推薦就是一個(gè)典型的基于關(guān)鍵詞檢索的信息過濾系統(tǒng)。用戶輸入基于作者、標(biāo)題、 主題、isbn和岀版日期的關(guān)鍵詞,eyes推薦根據(jù)用戶輸入的關(guān)鍵詞,建立用戶 檔案。當(dāng)產(chǎn)品h錄中加入新書時(shí),eyes推薦根據(jù)用戶輸入的關(guān)鍵詞和新書提供 的相關(guān)信息,選擇用戶感興趣的新書作為推薦結(jié)杲,通過e-mail的方式推薦給 用戶。2. 2數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘(datamining),也叫數(shù)據(jù)庫發(fā)現(xiàn)知識(shí)(kdd, knowledge discovery in database),就是從
28、數(shù)據(jù)庫中提取隱含的、先前未知的、潛在有用的知識(shí)或信息模 式的決策支持方法。數(shù)據(jù)挖掘是20世紀(jì)90年代初針對(duì)“數(shù)據(jù)爆炸,知識(shí)貧乏”這 一問題而岀現(xiàn)的一種新技術(shù),是處理海量信息的有效手段。同傳統(tǒng)的統(tǒng)計(jì)分析技 術(shù)相比,數(shù)據(jù)挖掘的主耍特點(diǎn)是系統(tǒng)的主動(dòng)性。傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)具有確切性, 是正向思維卩首先由用戶設(shè)定一個(gè)前提,然后證實(shí)或否定它,是用戶發(fā)揮主動(dòng)性; 而數(shù)據(jù)挖掘技術(shù)具有探索性,是一 種逆向思維,即由系統(tǒng)發(fā)現(xiàn)一合適的前提,再證 實(shí)或否定,是系統(tǒng)在發(fā)揮主動(dòng)性。自從kdd 一詞首次出現(xiàn)在1989年8月舉行的第11屆國家聯(lián)合人工智能學(xué) 術(shù)會(huì)議上。1995年在加拿大蒙特利爾市召開的第一屆kdd國際學(xué)術(shù)會(huì)議
29、。隨著 研究的深入,數(shù)據(jù)挖掘技術(shù)研究組建成為計(jì)算機(jī)領(lǐng)域的一個(gè)熱門課題,得到了越 來越多研究者的關(guān)注。許多數(shù)據(jù)挖掘?qū)n}會(huì)議紛紛涌現(xiàn),如 pakdd,pkdd,dlsm-dataming 等。冃前,數(shù)據(jù)挖掘技術(shù)在理論和應(yīng)用上都已經(jīng)得到了巨大的發(fā)展。數(shù)據(jù)挖掘能 夠從關(guān)系數(shù)據(jù)、文本數(shù)據(jù)、多媒體數(shù)據(jù)、時(shí)間序列、空間數(shù)據(jù)、異質(zhì)數(shù)據(jù)等多種 數(shù)據(jù)源中挖掘知識(shí)。數(shù)據(jù)挖掘采用的技術(shù)包括數(shù)據(jù)庫、數(shù)據(jù)倉庫和olap、純i-、 機(jī)器學(xué)習(xí)、可視化、神經(jīng)元網(wǎng)絡(luò)等不同領(lǐng)域的技術(shù),如圖2.1所示。數(shù)據(jù)挖掘技 術(shù)面向應(yīng)用領(lǐng)域,它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且,要對(duì)數(shù) 據(jù)進(jìn)行微觀、中觀、乃至宏觀的統(tǒng)計(jì)、分析、綜合和推
30、理,以指定實(shí)際問題的求 解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來的活動(dòng)進(jìn)行預(yù)測。 數(shù)據(jù)挖掘技術(shù)在金融、保險(xiǎn)、電信、人型超市等積累有人量數(shù)據(jù)的電子商務(wù)行業(yè) 有著廣泛的應(yīng)用,如信用分析、風(fēng)險(xiǎn)分析、欺詐檢驗(yàn)、用戶聚類分析、消費(fèi)者習(xí) 慣分析等。圖2.1典型數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)2.2.1數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱 含的、事先未知的潛在有用信息,提取的知識(shí)表示為概念(concepts).規(guī)則(rules) 規(guī)律(regularities)模式(patterns)等形式42。從更廣泛的角度來說:數(shù)據(jù)挖 掘意味著在一些事實(shí)或者觀察數(shù)據(jù)的集合中尋找模
31、式的決策支持過程。是利用各 種工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系即知識(shí)的過程,是提高決策科學(xué)性的 有利工具。一般來說,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的 實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其屮的,人們事先不知道的,但乂潛在有用的信息 和知識(shí)的過程。數(shù)據(jù)挖掘是一個(gè)過程的工程,一般有三個(gè)主耍的階段組成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù) 挖掘、結(jié)構(gòu)表達(dá)和解禪。也可以粗略分為:建立h標(biāo)數(shù)據(jù)集、數(shù)據(jù)清理和預(yù)處理、 選擇特定的數(shù)據(jù)挖掘算法、結(jié)果的解釋和評(píng)估以及知識(shí)驗(yàn)證及應(yīng)用等兒個(gè)過程。 如圖2.2所示。(1) 建立日標(biāo)數(shù)據(jù)集確定數(shù)據(jù)對(duì)彖,清晰地定義出業(yè)務(wù)問題,一方面明確實(shí)際工作對(duì)數(shù)據(jù)挖掘的 要求,另一方面通
32、過對(duì)各種學(xué)習(xí)算法的對(duì)比而確定可用的學(xué)習(xí)算法。(2) 數(shù)據(jù)清理和預(yù)處理數(shù)據(jù)的質(zhì)量影響著挖掘的結(jié)果,因?yàn)橐M(jìn)行數(shù)據(jù)清理和預(yù)處理。一般包括消 除噪聲和無關(guān)數(shù)據(jù)、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、考慮時(shí)間順序,完成數(shù) 據(jù)類型轉(zhuǎn)換等。(3) 選擇特定的數(shù)據(jù)挖掘算法并執(zhí)行算法首先根據(jù)對(duì)問題的泄義明確挖掘的任務(wù)或h的,如分類、聚類、關(guān)聯(lián)規(guī)則現(xiàn) 或序列模式發(fā)現(xiàn)等。確定挖掘任務(wù)后,進(jìn)行算法的選擇。選擇實(shí)現(xiàn)算法要考慮兩 個(gè)因素:一是數(shù)據(jù)特點(diǎn)各異,需要用與z相關(guān)的算法來挖掘;二是考慮用戶或?qū)?際運(yùn)行系統(tǒng)的要求,有的用戶希望獲取描述型的容易理解的知識(shí),而有的用戶只 是獲取預(yù)測準(zhǔn)確度盡可能高的預(yù)測型知識(shí)。(4) 結(jié)果解釋
33、和評(píng)估數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,可能存在冗余或無關(guān)的模式,需要將其剔除。 也可能模式不滿足用戶要求,需要整個(gè)發(fā)現(xiàn)過程刨退到前一個(gè)階段。另外,數(shù)據(jù) 挖掘是面向最終用戶的,需要對(duì)發(fā)現(xiàn)的模式進(jìn)行可視化,或者將結(jié)果轉(zhuǎn)換為用戶 易懂的表示方式。(5) 知識(shí)驗(yàn)證及應(yīng)用將以上步驟挖掘出的知識(shí)與運(yùn)行系統(tǒng)結(jié)合,發(fā)揮知識(shí)的作用或證明知識(shí),用 預(yù)先可信的知識(shí)檢查和解決知識(shí)中可能存在的矛盾。2.2.2數(shù)據(jù)挖掘知識(shí)分類和數(shù)據(jù)挖掘方法數(shù)據(jù)中隱藏的知識(shí)有各種各樣的形式,這些知識(shí)實(shí)際上是大量數(shù)據(jù)之間的某 種關(guān)系。大致說來,數(shù)據(jù)挖掘屮的知識(shí)可以分為如下兒類43:1) 分類(classification):將數(shù)據(jù)劃分到事先定義
34、好的類別中去。2) 回歸(regression):將數(shù)據(jù)項(xiàng)映射到若干預(yù)定義的變量上。3) 聚類(clustering):將數(shù)據(jù)劃分到兒個(gè)聚類z中去。4) 概括(summarization):為數(shù)據(jù)的一個(gè)子集給出一個(gè)簡潔的描述。5) 依賴性模型(dependency modeling):描述變量之間的相互依賴性。6) 鏈接分析(link analysis):判斷數(shù)據(jù)庫或數(shù)據(jù)倉庫屮字段z間存在的關(guān) 系。如關(guān)聯(lián)規(guī)則。7) 序列分析(sequence analysis):構(gòu)造順序模型,發(fā)現(xiàn)數(shù)據(jù)z間在時(shí)間上 的和關(guān)性。數(shù)據(jù)挖掘是一個(gè)多學(xué)科領(lǐng)域,其采用的技術(shù)來e各個(gè)不同的領(lǐng)域,主要的數(shù) 據(jù)挖掘方法包括:1
35、)統(tǒng)計(jì)分析方法:利用統(tǒng)計(jì)學(xué)和概率論對(duì)關(guān)系屮各個(gè)屬性進(jìn)行統(tǒng)計(jì)分析, 找出它們z間存在的關(guān)聯(lián)。2)人工神經(jīng)網(wǎng)絡(luò):模仿生物神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練進(jìn)行學(xué)習(xí)的非線性預(yù)測模 型,可以完成分類,聚類等多種數(shù)據(jù)挖掘任務(wù)。3)決策樹:用樹型結(jié)構(gòu)表示決策集合,決策集合通過對(duì)數(shù)據(jù)集分析產(chǎn)生。 典型的決策數(shù)方法如分類回歸樹,主要用于分類挖掘。4)遺傳算法:一種新的優(yōu)化技術(shù),基于生物進(jìn)化的概念設(shè)計(jì)了一系列過程 來達(dá)到優(yōu)化的目的,包括基因組合,交又,變異和口然選擇。5)粗糙集:粗糙集是一種處理模糊和不確定性問題的新型數(shù)學(xué)工具,粗糙 集可以用于數(shù)據(jù)挖掘中的數(shù)據(jù)簡化、關(guān)聯(lián)規(guī)則挖掘等。6)模糊邏輯:模糊邏輯融合了模糊集合二值邏輯概
36、念。在數(shù)據(jù)挖掘中,模 糊邏輯可以用來進(jìn)行證據(jù)合成、置信度計(jì)算等。7)最近鄰技術(shù):這種技術(shù)通過k個(gè)最相似的歷史紀(jì)錄的組合來辨別新的紀(jì) 錄。可以用于聚類分析、偏差分析等。8)規(guī)則歸納:通過統(tǒng)計(jì)方法歸納,提取有價(jià)值的if-then規(guī)則,可用于關(guān) 聯(lián)規(guī)則挖掘等。9)可視化:采用直觀的圖形方式將信息模式、數(shù)據(jù)關(guān)聯(lián)或趨勢呈現(xiàn)給決策 者,決策者可以通過可視化技術(shù)交互式分析數(shù)據(jù)關(guān)系。2.2.3數(shù)據(jù)挖掘與推薦系統(tǒng)電了商務(wù)推薦系統(tǒng)(recommendation systems for e-commerce)的正式定義 由resnick和vari an在1997年給出的,“電了商務(wù)個(gè)性化推薦系統(tǒng)是利用電了商 務(wù)網(wǎng)站
37、向用戶提供產(chǎn)品信息和相關(guān)建議,幫助用戶決定購買什么產(chǎn)品,通過模擬 銷售人員幫助用戶完成購物過程的系統(tǒng)雹 這個(gè)定義現(xiàn)在已經(jīng)被廠乏的引用。推 薦系統(tǒng)的使用者是用戶,推薦的對(duì)象是項(xiàng)目。項(xiàng)目是推薦系統(tǒng)提供給用戶的產(chǎn)品 或服務(wù),也即最終的推薦內(nèi)容。電子商務(wù)推薦系統(tǒng)是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù)領(lǐng)域的范例44隨著電 子商務(wù)的應(yīng)用,數(shù)據(jù)庫中可以收集到人量的用戶數(shù)據(jù),如用戶交易數(shù)據(jù),用戶注 冊(cè)數(shù)據(jù)、用戶評(píng)分評(píng)價(jià)數(shù)據(jù)、用戶投票數(shù)據(jù)等;同時(shí),web服務(wù)器中也保存著用 戶訪問電子商務(wù)系統(tǒng)的日志數(shù)據(jù)、用戶購物籃信息等,這些數(shù)據(jù)屮蘊(yùn)含著豐富的 知識(shí),基丁數(shù)據(jù)挖掘的推薦系統(tǒng)通過數(shù)據(jù)挖掘技術(shù)對(duì)用戶行為和用戶屬性進(jìn)行學(xué) 習(xí),
38、從中獲取有價(jià)值的知識(shí),根據(jù)得到的知識(shí)產(chǎn)生推薦45o基于數(shù)據(jù)挖掘的推薦系統(tǒng)根據(jù)數(shù)據(jù)挖掘技術(shù)建立用戶檔案44o用戶檔案的 建立可以基于對(duì)用戶長期行為的分析,如用戶的瀏覽記錄、購買歷史、性別、職 業(yè)、收入、年齡等。也可以基于用戶的當(dāng)前行為,如用戶當(dāng)前的會(huì)話行為、當(dāng)前 購物籃信息、當(dāng)前瀏覽商品等。電子商務(wù)推薦系統(tǒng)中的數(shù)據(jù)挖掘主要包括關(guān)聯(lián)規(guī)則挖掘和分類挖掘兩類 46。須關(guān)規(guī)則挖掘是數(shù)據(jù)挖掘屮的一個(gè)重耍研究內(nèi)容4647o在電子商務(wù)領(lǐng)域, 關(guān)聯(lián)規(guī)則挖掘根據(jù)銷售數(shù)據(jù)發(fā)現(xiàn)不同商品在銷售過程屮的相關(guān)性。關(guān)聯(lián)規(guī)則挖掘 在電子商務(wù)推薦系統(tǒng)中的應(yīng)用主要包括定點(diǎn)廣告投放和商品推薦。所謂定點(diǎn)廣告 投放,就是通過關(guān)聯(lián)規(guī)則挖掘
39、,將特定廣告投放給可能感興趣的用戶?;£P(guān)聯(lián) 規(guī)則的商品推薦根據(jù)生成的關(guān)聯(lián)規(guī)則模型和用戶的購買行為產(chǎn)生推薦結(jié)果。分類 挖掘模型根據(jù)用戶的輸入信息將之劃分為相應(yīng)類別,基于分類挖掘的推薦系統(tǒng)根 據(jù)用戶輸入信息和項(xiàng)的特征信息,預(yù)測是否向用戶推薦該項(xiàng)。分類挖掘通過對(duì)訓(xùn) 練集進(jìn)行學(xué)習(xí),訓(xùn)練出對(duì)應(yīng)的分類器,然后利用該分類器對(duì)新用戶進(jìn)行分類。當(dāng) 訓(xùn)練集發(fā)生變化時(shí),需要重新進(jìn)行訓(xùn)練以得到新的分類器。分類挖掘模型可以通 過多種機(jī)器學(xué)習(xí)方法實(shí)現(xiàn),如聚類4849、bayesian網(wǎng)絡(luò)50、神經(jīng)網(wǎng)絡(luò)等51。2.3協(xié)同過濾技術(shù)基丁內(nèi)容的過濾(content-based filtering)根據(jù)信息的內(nèi)容特性進(jìn)行過濾,
40、將信息流和用戶檔案文件進(jìn)行匹配,基于匹配程序確定該信息流對(duì)用戶是否有價(jià) 值。例如infoscope利用基丁規(guī)則的agent分析用戶的使用風(fēng)格、監(jiān)測信息的 內(nèi)容特征、判斷其是否是用戶感興趣的,并向用戶提供建議?;趦?nèi)容的推薦技 術(shù)可以用圖2.3更形象化的描述。用戶a的興趣資源概貌p用戶a圖2.3基于內(nèi)容的過濾示意圖基于內(nèi)容的過濾方法主要存在如下不足52:1) 特征提取的能力有限:通常只能對(duì)資源進(jìn)行比較簡單的特征提取,在一 些特定領(lǐng)域如圖形、圖像、視頻、咅樂等媒體,h前還沒有有效的特征提取方法。 即使文本資源,其特征提取方法也只能反映資源的內(nèi)容,但是難以提取資源的質(zhì) 量、風(fēng)格等信息。2) 推薦的資
41、源過于狹窄:系統(tǒng)盡可能向用戶推薦最符合用戶檔案的信息, 因此,推薦將局限于跟用戶以前瀏覽的資料類似的信息。協(xié)同過濾(cf, collaborative filtering)可以有效解決基于內(nèi)容的過濾存在的 問題53。在協(xié)同過濾中,用戶通過相互協(xié)作來選擇信息,它依據(jù)其他用戶對(duì)信 息作出的評(píng)價(jià)來挑選信息。協(xié)作方常常是用戶所信任的朋友、同事等,依據(jù)他們 的判斷向用戶推薦信息。協(xié)同過濾方法對(duì)用戶的行為進(jìn)行分析,并不關(guān)心信息的 實(shí)際內(nèi)容。自動(dòng)化協(xié)同過濾系統(tǒng)通過收集用戶對(duì)信息的評(píng)價(jià),搜索具有相同興趣 喜好的用戶,然后根據(jù)具有相同興趣喜好的用戶對(duì)信息的評(píng)價(jià)產(chǎn)生推薦結(jié)果。協(xié) 同推薦技術(shù)可以用圖2.4形象化的表
42、示。用戶a的興趣用戶b的興趣概貌概貌&用戶a7/i用戶b圖2.4 i辦同推薦技術(shù)示意圖和基于內(nèi)容的過濾方法和比,協(xié)同過濾具有如下優(yōu)點(diǎn)5253:1)適合于過濾難以分析內(nèi)容的資源:協(xié)同過濾不關(guān)心資源的具體內(nèi)容,因 此,在難以分析資源內(nèi)容的情況下,如圖形、圖像、視頻、音樂等,協(xié)同過濾是 很好的選擇。2)新奇的推薦:協(xié)同過濾可以發(fā)現(xiàn)內(nèi)容上完全不相似的資源,用戶對(duì)推薦 信息的內(nèi)容事先是預(yù)料不到的。協(xié)同過濾推薦是當(dāng)前最成功的推薦技術(shù)。最近鄰協(xié)同過濾根據(jù)評(píng)分相似的最 近鄰居的評(píng)分?jǐn)?shù)據(jù)向目標(biāo)用戶產(chǎn)生推薦。由于最近鄰居對(duì)項(xiàng)(電子商務(wù)屮的商品, 電影,咅樂等)的評(píng)分與h標(biāo)用戶非常和似,因此廿標(biāo)用戶對(duì)未評(píng)分
43、項(xiàng)的評(píng)分可 以通過最近鄰居對(duì)項(xiàng)評(píng)分的加權(quán)平均值逼近54 o協(xié)同過濾推薦通過用戶對(duì)項(xiàng)的評(píng)分信息產(chǎn)生推薦,用戶對(duì)項(xiàng)的評(píng)分信息可以 通過隱式和顯式兩種方式得到。隱式方式通過用戶瀏覽或購買過的商品推斷用戶 興趣愛好。顯式方式則讓用戶直接輸入用戶對(duì)商品的數(shù)字評(píng)分和文木評(píng)價(jià)信息協(xié) 同過濾推薦系統(tǒng)通過用戶對(duì)項(xiàng)的評(píng)分信息,建立用戶檔案,然后使用不同的推薦 機(jī)制提供推薦服務(wù)。最簡單的協(xié)同過濾系統(tǒng)計(jì)算所有用戶對(duì)項(xiàng)的平均評(píng)分,選擇平均評(píng)分最高的 前n個(gè)項(xiàng)作為推薦結(jié)果推薦給用戶。這種推薦機(jī)制根據(jù)所有的用戶評(píng)分信息產(chǎn) 生推薦,所有用戶在同一時(shí)間得到的推薦都是相同的,因此這種推薦方法乂稱為 非個(gè)性化推薦。tapestry
44、是最早提岀的個(gè)性化血同過濾推薦系統(tǒng)。用戶需耍明確指岀與自己 興趣愛好相似的其他用戶,推薦系統(tǒng)根據(jù)指定的其他用戶對(duì)商品的評(píng)價(jià)信息產(chǎn)生 推薦結(jié)果。與之類似,mai館等人提出的個(gè)性化協(xié)同過濾推薦系統(tǒng)允許用戶向自 己熟悉的用戶群體主動(dòng)提供推薦信息。在上述協(xié)同過濾推薦系統(tǒng)中,用戶z間必 須了解對(duì)方的興趣愛好,因此一般只適用于用戶數(shù)量比較小的場合。隨著電子商務(wù)系統(tǒng)的發(fā)展,用戶和項(xiàng)的數(shù)量逐漸擴(kuò)大,與z相適應(yīng),研究考 提出了自動(dòng)個(gè)性化協(xié)同過濾推薦系統(tǒng)。在自動(dòng)個(gè)性化協(xié)同過濾推薦系統(tǒng)小,系統(tǒng) 自動(dòng)識(shí)別用戶的最近鄰居,根據(jù)最近鄰居對(duì)項(xiàng)的評(píng)價(jià)產(chǎn)生推薦。grouplens是最早提出的的自動(dòng)個(gè)性化協(xié)同過濾推薦系統(tǒng),用于從
45、人量的新 聞中搜索用戶感興趣的新聞列表。movielens 口動(dòng)個(gè)性化協(xié)同過濾推薦系統(tǒng)用于 產(chǎn)生電影推薦。video自動(dòng)個(gè)性化協(xié)同過濾推薦系統(tǒng)和ringo 口動(dòng)個(gè)性化協(xié)同過 濾推薦系統(tǒng)分別用于推薦電影和音樂唱片。video推薦系統(tǒng)證明,相對(duì)于基于電 影評(píng)論的推薦而言,使用協(xié)同過濾推薦技術(shù)可以人人提高推薦系統(tǒng)的推薦質(zhì)量。 phoak系統(tǒng)使用用戶隱式評(píng)分產(chǎn)生推薦,phoak系統(tǒng)根據(jù)新聞貼的發(fā)表和閱 讀情況分析出每個(gè)新聞組中最受用戶歡迎的站點(diǎn)。研究表明這種技術(shù)可以有效識(shí) 別站點(diǎn)的受歡迎程度?;趨f(xié)同過濾的推薦系統(tǒng)在電子商務(wù)系統(tǒng)中非常流行。mycdnow采用基 于隱式評(píng)分和顯式評(píng)分的混合評(píng)分模式提供c
46、d唱片推薦。在mycdnow推薦 屮,當(dāng)用戶對(duì)推薦系統(tǒng)請(qǐng)求推薦時(shí),推薦系統(tǒng)自動(dòng)搜索用戶的最近鄰居,然后根 據(jù)最近鄰居的評(píng)分信息向用戶提供六個(gè)推薦結(jié)果。第3章電子商務(wù)推薦系統(tǒng)基礎(chǔ)理論3.1電子商務(wù)推薦系統(tǒng)電子商務(wù)系統(tǒng)通過互聯(lián)網(wǎng)建立虛擬的網(wǎng)上商店,但這些虛擬的網(wǎng)上商店并沒 有配備相應(yīng)的銷售人員來引導(dǎo)用戶購物。隨著電子商務(wù)系統(tǒng)規(guī)模的不斷擴(kuò)人,商 品越來越多,這一方而讓用戶有了更大的選擇空間,另一方而也增加了用戶購買 所需商晶的難度,用戶在找到自己需要的商品之前,必須瀏覽大量的無關(guān)信息為 了解決上述信息過載問題,有效的知道用戶在電子商務(wù)系統(tǒng)中方便的購物,人們 提出了推薦系統(tǒng)技術(shù)。電子商務(wù)推薦系統(tǒng)直接與
47、用戶交互,模擬商店銷售人員向用戶提供商品推 薦,幫助用戶找到所需商品,從而順利完成購買過程。電子商務(wù)推薦系統(tǒng)產(chǎn)生的 推薦可以基于屯子商務(wù)系統(tǒng)的銷售排行,可以基于用戶以前的購買行為,也可以 基于用戶表現(xiàn)出來的興趣愛好等。電子商務(wù)不僅為用戶提供了便利的交易方式和 廣泛的選擇,同時(shí)也為商家提供了更加深入了解用戶需求和購物行為特征的可能 性。推薦系統(tǒng)作為電子謝務(wù)屮的重耍應(yīng)用技術(shù)z-,為電子商務(wù)系統(tǒng)實(shí)現(xiàn)“一對(duì) 一營銷”提供了可能31o電子商務(wù)推薦系統(tǒng)(recommendation systems for e-commerce)正式的定義 是1997年resnick&varhm給出的,“電子商務(wù)個(gè)
48、性化推薦系統(tǒng)是利用電子商務(wù) 網(wǎng)站向用戶提供產(chǎn)品信息和相關(guān)建議,幫助用戶決定購買什么產(chǎn)品,通過模擬銷 售人員幫助用戶完成購物過程的系統(tǒng)32”,同時(shí)還指出其作用主要表現(xiàn)在三個(gè) 方面: 將電子商務(wù)網(wǎng)站的瀏覽者轉(zhuǎn)變?yōu)橘徺I者(converting browsers into buyers); 捉高電孑商網(wǎng)站的交叉銷能力(cross-sell); 提高客戶對(duì)電子商務(wù)網(wǎng)站的忠誠度(building loyalty)o目前,推薦系統(tǒng) 已廣泛運(yùn)用到各行業(yè)中,推薦對(duì)彖包括書籍、音像、網(wǎng)頁、文章和新聞等。研究 表明,屯子商務(wù)的銷售行業(yè)使用個(gè)性化推薦系統(tǒng)后,銷售額能提高2%8%33, 尤其在書籍屯影、cd咅像、口用百
49、貨等產(chǎn)晶相對(duì)較為低廉冃商品種類繁多、用 戶使用個(gè)性化推薦系統(tǒng)程度高的行業(yè),推薦系統(tǒng)能大大提高企業(yè)的銷售額。3.2電子商務(wù)推薦系統(tǒng)的輸入和輸出從總體的層次結(jié)構(gòu)看,整個(gè)電子商務(wù)推薦系統(tǒng)的組成主要可以分為三個(gè)模 塊:輸入功能(he input functional)模塊、推薦方法(the recommendation method) 模塊、輸岀功能(the output functional)模塊,如圖25所示。其中,推薦 方法模塊是個(gè)性化推薦技術(shù)的集屮體現(xiàn),決定著推薦系統(tǒng)的性能優(yōu)劣,本文將于第三章詳細(xì)論述。圖3.1電子商務(wù)推薦系統(tǒng)結(jié)構(gòu)圖3.2. 1電子商務(wù)推薦系統(tǒng)的輸入不同類型的電子閣務(wù)推薦系統(tǒng),
50、其輸入信息也不和同。不同電子商務(wù)推薦系 統(tǒng)根據(jù)不同的輸入信息產(chǎn)生不同類型的推薦。電子商務(wù)推薦系統(tǒng)的輸入可以是用 戶當(dāng)前的行為,也可以是用戶訪問過程屮的歷史行為。在大型的電子商務(wù)系統(tǒng)屮, 為了產(chǎn)生高質(zhì)量的推薦,推薦系統(tǒng)可能需耍多種類型的輸入信息。電子商務(wù)推薦系統(tǒng)的輸入包括多種形式,主要包括34:1) 隱式瀏覽輸入:將用戶訪問電子商務(wù)web站點(diǎn)的瀏覽行為作為推薦系統(tǒng) 的輸入,用戶的瀏覽行為與訪問一般的web站點(diǎn)沒有區(qū)別。并不知道電子商務(wù) 推薦系統(tǒng)的存在。用戶當(dāng)前正在瀏覽的商品、用戶購物籃屮選擇的商品、用戶的 瀏覽路徑等都可以作為作為隱式瀏覽輸入信息。例如:amazon可以根據(jù)用戶當(dāng) 前瀏覽的圖書項(xiàng)
51、向用戶推薦相關(guān)內(nèi)容的書籍。2) 顯式瀏覽輸入(explicit navigation):也是將用戶的瀏覽行為作為電子商務(wù) 推薦系統(tǒng)的輸入,但與隱式瀏覽輸入不同,用戶的顯式瀏覽輸入是有目的的向電 子商務(wù)推薦系統(tǒng)提供自己的興趣愛好。例如,電子商務(wù)系統(tǒng)提供一系列熱門商品 供用戶選擇,用戶只選擇瀏覽自己感興趣的商品列表,電子商務(wù)根據(jù)用戶的瀏覽 行為向用戶提供個(gè)性化的推薦服務(wù)。例如moviefinder的toplo給用戶提供了一 個(gè)超鏈接列表,它包含了編輯推薦的10種產(chǎn)品。3) 關(guān)鍵字/商品屬性輸入(keywords and item attributes):用戶在搜索引擎中 輸入關(guān)鍵字作為推薦系統(tǒng)的輸
52、入,或者將用戶當(dāng)前正在瀏覽的商品類別作為推薦 系統(tǒng)的輸入。這種類型的輸入不同于用戶隨意的瀏覽行為,用戶輸入的口的就是 在電子商務(wù)系統(tǒng)中搜索自己需要的商品。4)用戶評(píng)分(rating)輸入:將用戶對(duì)商品的數(shù)值評(píng)分?jǐn)?shù)據(jù)作為推薦系統(tǒng)的 輸入。電子謝務(wù)推薦系統(tǒng)列出一系列商品讓用戶評(píng)分,用戶的評(píng)分可以是一個(gè)數(shù) 值,數(shù)值大小表示用戶對(duì)商品的喜好程度,也可以是一個(gè)布爾值,0代表不喜歡, 1代表喜歡。用戶提供的評(píng)分?jǐn)?shù)據(jù)使得屯子商務(wù)推薦系統(tǒng)可以為用戶提供個(gè)性化 的推薦服務(wù)。5)用戶文本(text)評(píng)價(jià)輸入:用戶對(duì)已經(jīng)購買的商品或口己熟悉的商品以 文本的形式進(jìn)行個(gè)人評(píng)價(jià),推薦系統(tǒng)本身并不能判斷這些評(píng)價(jià)的好壞。其他
53、用戶 瀏覽該商品時(shí),可以看到用戶對(duì)商品的文本評(píng)價(jià)信息。6)編輯推薦輸入(purchase history):將領(lǐng)域?qū)<覍?duì)特定商品的評(píng)價(jià)作為推 薦系統(tǒng)的輸入,領(lǐng)域?qū)<覍?duì)商品的性能特點(diǎn)進(jìn)行全面詳細(xì)的介紹,用戶通過專家 的專業(yè)介紹,可以對(duì)口己并不熟悉的商品加深認(rèn)識(shí),從而決定是否購買該商甜。7)用戶購買歷史輸入:推薦系統(tǒng)將用戶的購買歷史作為隱式評(píng)分?jǐn)?shù)據(jù)。一旦 用戶購買了特定商品,則認(rèn)為用戶喜歡該商品。推薦系統(tǒng)根據(jù)用戶的購買歷史產(chǎn) 生相應(yīng)的推薦。但是用戶購買了某件商品并不代表用戶喜歡該商品,所以在精確 的推薦系統(tǒng)屮,用戶可以對(duì)購買的商品進(jìn)行重新評(píng)分,從而使推薦系統(tǒng)產(chǎn)生更精 確的推薦。3.2.2電子商務(wù)推
54、薦系統(tǒng)的輸出不同類型的電子商務(wù)推薦系統(tǒng),其輸出也各不相同。人型電子商務(wù)系統(tǒng)可以 同時(shí)向用戶產(chǎn)生多種不同形式的輸出。電子商務(wù)推薦系統(tǒng)的輸出形式主耍包括34:1)相關(guān)商品輸出:推薦系統(tǒng)根據(jù)用戶表現(xiàn)出來的行為特征或電子商務(wù)系統(tǒng) 的俏售悄況向用戶產(chǎn)生商品推薦,這種方式是電子商務(wù)推薦系統(tǒng)中最為普遍的一 種輸出。相關(guān)商品輸出可以基于簡單的銷售排行向用戶推薦熱門商品;也可以基 于對(duì)用戶的行為特征進(jìn)行深入分析,發(fā)現(xiàn)用戶的購買行為模式,從而產(chǎn)生個(gè)性化 的推薦。2)個(gè)體文本評(píng)價(jià)輸出:電子商務(wù)推薦系統(tǒng)向忖標(biāo)用戶提供其他用戶對(duì)商品 的文本評(píng)價(jià)信息個(gè)體文本評(píng)價(jià)一般是非個(gè)性化的,對(duì)每個(gè)項(xiàng)而言,所有用戶得到 的個(gè)體文木評(píng)價(jià)
55、均相同。3)個(gè)體評(píng)分輸出:向目標(biāo)用戶提供其他用戶對(duì)商品的數(shù)值評(píng)分信息。個(gè)體 評(píng)分輸出沒有大量的文本描述信息,因此更加簡潔明了。個(gè)體評(píng)分輸出比較適合 于個(gè)體數(shù)值評(píng)分?jǐn)?shù)據(jù)比較少的場合。4)平均數(shù)值評(píng)分輸出:電子商務(wù)推薦系統(tǒng)向用戶童工其他用戶對(duì)商品數(shù)值 評(píng)分信息的平均值。這種輸出形式具有簡潔明了的優(yōu)點(diǎn),用戶可以立即獲得對(duì)該 商品的總體評(píng)價(jià)。5)電子郵件輸出:電子商務(wù)推薦系統(tǒng)通過電子郵件的形式向用戶提供商品 的最新信息。這種輸出形式可以吸引用戶再次訪問電子商務(wù)系統(tǒng),從而達(dá)到保留 用戶,防止用戶流失的目的。6)編輯輸出推薦:向用戶提供領(lǐng)域?qū)<覍?duì)商品的專業(yè)介紹,用戶通過專家 的專業(yè)介紹可以對(duì)口己并不熟悉的
56、商品加深認(rèn)識(shí),了解商品的性能特點(diǎn),從而決 定是否購買該商品。3. 3電子商務(wù)推薦系統(tǒng)分類從不同的角度出發(fā),電子商務(wù)推薦系統(tǒng)可以有不同的分類,下面給出電子商 務(wù)推薦系統(tǒng)的兒種分類方式:(1)按照用戶是否需要注冊(cè),分為對(duì)注冊(cè)用戶的推薦和對(duì)非注冊(cè)用戶的推 薦35。1)對(duì)于非注冊(cè)用戶采用協(xié)作過濾的方法。根據(jù)當(dāng)前非注冊(cè)用戶的訪問狀態(tài), 把用戶歸類。在用戶所屬的類里,權(quán)值較高的物品(頁面)代表是這一類用戶普 遍感興趣的。在這一類用戶屮權(quán)值較高和已經(jīng)購買該物品(瀏覽過的頁面)的用 戶對(duì)它的平均評(píng)價(jià)值也高的物品(頁而),就是系統(tǒng)推薦給用戶的對(duì)彖。2)對(duì)于注冊(cè)用戶則根據(jù)用戶的當(dāng)前購買狀態(tài)和購買歷史向用戶做推薦。
57、站 點(diǎn)上的物品存在一定的關(guān)聯(lián)相似關(guān)系。根據(jù)這個(gè)關(guān)系,系統(tǒng)就可以對(duì)當(dāng)前注冊(cè)用 戶已經(jīng)購買的物品來確定推薦。此外,如果某些物品購買時(shí)間距離當(dāng)前購買時(shí)間 久遠(yuǎn),則基于這類物品推薦的可能性降低3637o3)無論是注冊(cè)用戶述是非注冊(cè)用戶,系統(tǒng)根據(jù)他們請(qǐng)求的最新頁而屮所涉 及到的物品和物品之間存在的關(guān)聯(lián)相似關(guān)系,尋找可以推薦的物品。如果某個(gè)物 品在當(dāng)前用戶請(qǐng)求的最新頁面中的權(quán)值高,那么和這個(gè)物品有極高的相似關(guān)聯(lián)關(guān) 系的物品可以作為推薦的對(duì)象。(2)電子商務(wù)推薦系統(tǒng)以用戶為屮心,為用戶提供服務(wù),可以根據(jù)用戶獲 得推薦系統(tǒng)推薦的白動(dòng)化程度和持久性程度對(duì)電子商務(wù)推薦系統(tǒng)進(jìn)行分類 3538391。自動(dòng)化程度,按照用戶為了得到推薦系統(tǒng)的推薦是否需要顯式的 輸入信息,自動(dòng)化程度分為自動(dòng)化方式和手工方式。持久性程度,電子商務(wù)推 薦系統(tǒng)產(chǎn)生推薦是基于用戶當(dāng)前的單個(gè)會(huì)話還是基于用戶的多個(gè)會(huì)話。根據(jù)用戶獲得推薦的自動(dòng)化程度和持久性程度,可以將將電子商務(wù)推薦系統(tǒng) 分為非個(gè)性化電子商務(wù)推薦系統(tǒng),基于屈性的電子商務(wù)推薦系統(tǒng),商品相關(guān)性推 薦系統(tǒng)和用戶相關(guān)性推薦系統(tǒng)。1)非個(gè)性化電子商務(wù)推薦系統(tǒng),向當(dāng)前用戶提
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- T-ZZB 3624-2024 1000kV交流架空輸電線路金具
- T-ZHCA 031-2024 淋洗類化妝品溫和性評(píng)價(jià) 重建表皮模型組織活力法
- 二零二五年度房屋代管及租戶租賃合同終止通知協(xié)議
- 二零二五年度公共設(shè)施配套拆遷房產(chǎn)分割及公益基金合同
- 2025年度門面轉(zhuǎn)讓及獨(dú)家代理權(quán)合同
- 二零二五年度合資公司股權(quán)合作協(xié)議書
- 2025年度網(wǎng)絡(luò)安全責(zé)任方合作協(xié)議范本(適用于互聯(lián)網(wǎng)企業(yè))
- 二零二五年度車輛抵押抵貨款金融創(chuàng)新服務(wù)協(xié)議
- 二零二五年度銷售團(tuán)隊(duì)市場分析聘用協(xié)議
- 二零二五年度農(nóng)村房屋租賃與農(nóng)村社區(qū)文化活動(dòng)合作協(xié)議
- 第07講 兩個(gè)基本計(jì)數(shù)原理(七大題型)(解析版)
- 武漢大學(xué)高等工程數(shù)學(xué)課件
- 加油站自動(dòng)化控制系統(tǒng)
- 健康教育知識(shí)講座高血壓
- BLM(含樣例)教學(xué)課件
- 企業(yè)數(shù)字化轉(zhuǎn)型之路燈塔工廠專題報(bào)告
- 低溫恒溫槽日常維護(hù)保養(yǎng)
- 市政道路工程城市道路施工組織設(shè)計(jì)
- 動(dòng)物免疫接種技術(shù)課件
- 最全食堂菜譜、-公司食堂菜譜大全、-大鍋菜:522道菜+35道湯
- 線下庭審申請(qǐng)書
評(píng)論
0/150
提交評(píng)論