




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
《Python金融數(shù)據(jù)挖掘》高等教育出版第八章關(guān)聯(lián)規(guī)則算法【知識框架圖】關(guān)聯(lián)規(guī)則算法應(yīng)用場景與研究意義支持度與置信度概念項(xiàng)目集格空間定理算法流程與實(shí)現(xiàn)目錄Contents第一節(jié)Apriori算法原理第二節(jié)Python代碼實(shí)現(xiàn)第三節(jié)案例:信用卡推薦本章學(xué)習(xí)目標(biāo)了解關(guān)聯(lián)規(guī)則算法的研究對象、意義和應(yīng)用場景。掌握支持度與置信度的概念及計(jì)算方法。掌握關(guān)聯(lián)規(guī)則算法的項(xiàng)目空間集裁剪方法。掌握Apriori算法的原理和實(shí)現(xiàn)方法。需求背景關(guān)聯(lián)規(guī)則(AssociationRules,AR)分析用于挖掘大規(guī)模數(shù)據(jù)集中有價(jià)值、有意義的聯(lián)系,是數(shù)據(jù)挖掘領(lǐng)域的十大算法之一。關(guān)聯(lián)規(guī)則分析在購物籃數(shù)據(jù)分析、商品推薦營銷、電子商務(wù)推廣、生物信息學(xué)研究、醫(yī)療診斷咨詢和航空電信等行業(yè)中都得到了廣泛應(yīng)用。01Apriori算法原理關(guān)聯(lián)規(guī)則(AssociationRules,AR)分析用于挖掘大規(guī)模數(shù)據(jù)集中有價(jià)值、有意義的聯(lián)系,是數(shù)據(jù)挖掘領(lǐng)域的十大算法之一。關(guān)聯(lián)規(guī)則分析在購物籃數(shù)據(jù)分析、商品推薦營銷、電子商務(wù)推廣、生物信息學(xué)研究、醫(yī)療診斷咨詢和航空電信等行業(yè)中都得到了廣泛應(yīng)用。關(guān)聯(lián)規(guī)則分析概念最早是1993年由Agrawal,Imielinski和Swami提出的,其主要研究目的是通過分析超市顧客購買行為的規(guī)律,發(fā)現(xiàn)連帶購買商品,進(jìn)而以此為依據(jù)來改善貨架擺放方案(該分析稱為購物籃分析)。Agrawal從數(shù)學(xué)及計(jì)算機(jī)算法角度出發(fā),提出了商品關(guān)聯(lián)關(guān)系的計(jì)算方法——Apriori算法。沃爾瑪從上個(gè)世紀(jì)90年代嘗試將Apriori算法引入到POS機(jī)數(shù)據(jù)分析中,獲得了顯著的業(yè)績增長。啤酒與尿布關(guān)于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的應(yīng)用,有一個(gè)流傳甚廣的案例:“啤酒與尿布”的故事。這個(gè)故事產(chǎn)生于20世紀(jì)90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時(shí)發(fā)現(xiàn)了一個(gè)令人難于理解的現(xiàn)象:“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品會經(jīng)常出現(xiàn)在同一個(gè)購物籃中。這種獨(dú)特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時(shí),往往會順便為自己購買啤酒,這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個(gè)購物籃的現(xiàn)象。如果這個(gè)年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店,直到可以一次同時(shí)買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨(dú)特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時(shí)找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品,而不是一件,從而獲得了更好的商品銷售收入,這就是“啤酒與尿布”故事的由來。Apriori算法基本原理中的幾個(gè)重要概念:事務(wù)與項(xiàng)集關(guān)聯(lián)規(guī)則支持度和置信度最小支持度和最小置信度Apriori算法原理事務(wù)與項(xiàng)集關(guān)聯(lián)規(guī)則分析研究的對象是事務(wù),事務(wù)可以理解為一種商業(yè)行為。例如,超市顧客的購買行為是一種包含很多個(gè)商品購買的事務(wù);網(wǎng)民的頁面瀏覽行為是一種包含很多個(gè)頁面訪問的事務(wù);一份保險(xiǎn)公司的汽車保單是一種涵蓋了若干個(gè)不同險(xiǎn)種的事務(wù)。事務(wù)由序號和項(xiàng)集組成。序號是確定一個(gè)事務(wù)的唯一標(biāo)識。項(xiàng)目可以是一種商品、一個(gè)網(wǎng)頁鏈接和一個(gè)險(xiǎn)種。若干個(gè)項(xiàng)目的集合簡稱項(xiàng)集(itemset),若項(xiàng)集包含k個(gè)項(xiàng)目,則稱該項(xiàng)集為k-項(xiàng)集。例子:某個(gè)用于銷售理財(cái)產(chǎn)品的APP當(dāng)前有5項(xiàng)保險(xiǎn)產(chǎn)品在售,為了分析顧客是否對這5項(xiàng)產(chǎn)品存在著關(guān)聯(lián)購買的行為,網(wǎng)站數(shù)據(jù)分析師抽取了9位顧客的購買記錄(這里為了簡化算法分析,選取的記錄數(shù)遠(yuǎn)遠(yuǎn)低于真實(shí)場景),對他們的購買項(xiàng)目進(jìn)行了統(tǒng)計(jì)。為了便于處理,使用數(shù)字代替{1:開X存、2:飛X寶、3:新X利、4:友X盈、5:安X盈}。得到理財(cái)產(chǎn)品購買記錄清單如表8-1所示。顧客序號購買理財(cái)產(chǎn)品清單A1,2,5B2,4C2,3D1,2,4E1,3F2,3G1,3H1,2,3,5I1,2,3表8?1理財(cái)產(chǎn)品購買事務(wù)列表上表匯集了9個(gè)顧客的購買行為,每次購買行為稱之為事務(wù),分別用A,B,C,D,E,F(xiàn),G,H,I表示。第一個(gè)事務(wù)A顧客一次性購買了3個(gè)產(chǎn)品,其項(xiàng)集為:{1:開X存、2:飛X寶、5:安X盈},是個(gè)3-項(xiàng)集。本例中包含:5個(gè)2-項(xiàng)集3個(gè)3-項(xiàng)集1個(gè)4-項(xiàng)集2.關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則研究的是事務(wù)集合內(nèi)部的項(xiàng)集與項(xiàng)集之間的關(guān)系,這種關(guān)系有要有兩種表現(xiàn)形式。頻繁項(xiàng)集(FrequencyItemSets):經(jīng)常同時(shí)出現(xiàn)的一些項(xiàng)目的集合。關(guān)聯(lián)規(guī)則(AssociationRules):項(xiàng)目集合A與項(xiàng)目集合B之間相互依存性和關(guān)聯(lián)性。如果存在A→B的蘊(yùn)涵式,意味著兩種項(xiàng)目之間存在很強(qiáng)的某種聯(lián)系。例子:對于頻繁項(xiàng)集的研究來說,就是要找出在上述商品集合{開X存、飛X寶、新X利、友X盈、安X盈}中,找出那些“頻繁”出現(xiàn)的子集組合。在表81中,我們經(jīng)過觀察可以發(fā)現(xiàn):產(chǎn)品組合{1、3}在顧客E、G、H和I的購買清單中都出現(xiàn)了。也就意味著,買了產(chǎn)品“開X存”的消費(fèi)者,很有可能會購買產(chǎn)品“新X利”,反之亦然(就相當(dāng)于出門買尿布的爸爸,會順手給自己買啤酒)。作為APP運(yùn)營者,有理由相信,如果把{1、3}作為一個(gè)優(yōu)惠套裝,應(yīng)該可以刺激兩者的銷量?!邦l繁項(xiàng)集”組合的項(xiàng)與項(xiàng)之間,存在著購買意向的“關(guān)聯(lián)”。3.支持度和置信度在進(jìn)行算法分析之前,我們先了解兩個(gè)重要的概念:支持度(Support)和置信度(Confidence)。支持度衡量規(guī)則在數(shù)據(jù)庫中出現(xiàn)的頻率,置信度衡量規(guī)則的強(qiáng)弱程度。4.最小支持度和最小置信度最小支持度是用戶定義的衡量支持度的一個(gè)閾值,表示項(xiàng)目集在統(tǒng)計(jì)意義上的最低重要性。最小置信度是用戶定義的衡量置信度的一個(gè)閾值,表示關(guān)聯(lián)規(guī)則的最低可靠性。同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī)則稱作強(qiáng)規(guī)則。通俗地講,就是要達(dá)到一定的門檻,我們才將這種現(xiàn)象納入考慮范圍。5.Apriori算法原理關(guān)聯(lián)規(guī)則算法的基本流程如下:找出所有出現(xiàn)過的產(chǎn)品項(xiàng)(候選單項(xiàng)集);將這些產(chǎn)品項(xiàng)的所有可能組合列出來(候選單項(xiàng)集,若干候選單項(xiàng)集組合形成的候選2-項(xiàng)集、3-項(xiàng)集……);在顧客的購買清單中,逐一對這些組合進(jìn)行匹配(候選項(xiàng)集是否是某位顧客購買清單項(xiàng)中的子集,如果是,該候選項(xiàng)集的支持度加1;將大于事先設(shè)置好的支持度閾值的候選項(xiàng)集列出,計(jì)算其置信度。項(xiàng)目集格空間理論的內(nèi)容主要包括兩條定理:定理1:頻繁項(xiàng)目集的所有子集仍是頻繁項(xiàng)目集。定理2:非頻繁項(xiàng)目集的所有超集是非頻繁項(xiàng)目集。具體到表8-1例子的問題,可以理解為:如果候選項(xiàng)集{1、3}滿足最小支持度要求,那么它的兩個(gè)子集{1}、{3}一定滿足最小支持度要求。另一方面,如果候選項(xiàng)集{1、3}不滿足最小支持度要求,那么把{1、3}作為子集的候選項(xiàng)集肯定也不滿足最小支持度要求,這些候選項(xiàng)集就不用再做進(jìn)一步搜索匹配了。借助項(xiàng)目集格空間理論,可以顯著減少待搜索匹配的候選項(xiàng)集。關(guān)聯(lián)規(guī)則挖掘算法流程圖:02Python代碼實(shí)現(xiàn)【例8-1】逐步采用Python實(shí)現(xiàn)理財(cái)產(chǎn)品購買的關(guān)聯(lián)規(guī)則挖掘算法。根據(jù)以上分析,針對表8-1的理財(cái)產(chǎn)品購買例子,為了方便程序?qū)崿F(xiàn),我們將商品用數(shù)字來代替:{1:開X存、2:飛X寶、3:新X利、4:友X盈、5:安X盈}。例8-1續(xù)設(shè)計(jì)了createC1函數(shù)。該函數(shù)接收事務(wù)集數(shù)據(jù),從中提取出所有的單項(xiàng),返回的結(jié)果是這些單項(xiàng)構(gòu)成的集合。對于Python來說,list列表是一個(gè)可變集合,為了對這些單項(xiàng)列表進(jìn)行進(jìn)一步的組合和查詢操作,需要將它轉(zhuǎn)變?yōu)橐粋€(gè)凍結(jié)(不可變)集合,因此,在函數(shù)的末尾進(jìn)行了映射和轉(zhuǎn)換:list(map(frozenset,C))。第14-15行加入輸出語句,輸出的是從事務(wù)集中取出的單項(xiàng)集列表,其中每一個(gè)元素都是凍結(jié)的set集合。例8-1續(xù)這里設(shè)計(jì)了aprioriGen函數(shù),它用于從k-1項(xiàng)集中生成候選k項(xiàng)集。20-21行調(diào)用該函數(shù),以In[2]:中生成的單項(xiàng)集C1為基礎(chǔ),生成并輸出候選2-項(xiàng)集。通過該表傳入的參數(shù)Ck和k,可以依次在1-項(xiàng)集基礎(chǔ)上生成候選2-項(xiàng)集,在2-項(xiàng)集基礎(chǔ)上生成候選3-項(xiàng)集,……輸出Out: [frozenset({1,2}),frozenset({1,3}),frozenset({1,4}),frozenset({1,5}),frozenset({2,3}),frozenset({2,4}),frozenset({2,5}),frozenset({3,4}),frozenset({3,5}),frozenset({4,5})]例8-1續(xù)輸出Out: [[frozenset({3}),frozenset({4}),frozenset({5}),frozenset({2}),frozenset({1})],[frozenset({1,3}),frozenset({2,3}),frozenset({2,4}),frozenset({1,2}),frozenset({1,5}),frozenset({2,5})],[frozenset({1,2,3}),frozenset({1,2,5})],[]]{frozenset({1}):0.6666666666666666,frozenset({2}):0.7777777777777778,frozenset({5}):0.2222222222222222,frozenset({4}):0.2222222222222222,frozenset({3}):0.6666666666666666,frozenset({2,5}):0.2222222222222222,frozenset({1,5}):0.2222222222222222,frozenset({1,2}):0.4444444444444444,frozenset({2,4}):0.2222222222222222,frozenset({2,3}):0.4444444444444444,frozenset({1,4}):0.1111111111111111,frozenset({1,3}):0.4444444444444444,frozenset({3,5}):0.1111111111111111,frozenset({1,2,5}):0.2222222222222222,frozenset({1,2,3}):0.2222222222222222,frozenset({1,3,5}):0.1111111111111111,frozenset({2,3,5}):0.1111111111111111,frozenset({1,2,3,5}):0.1111111111111111}第13行檢查當(dāng)前頻繁k-1項(xiàng)集非空時(shí),循環(huán)執(zhí)行以下語句。第14行通過k-1項(xiàng)集生成候選k-項(xiàng)集;第15行檢查生成的候選k-項(xiàng)集是否滿足最小支持度要求;第17行記錄滿足最小支持度的k-項(xiàng)集(候選k-項(xiàng)集由第15行篩選而來)的支持度數(shù)據(jù);第19行將k項(xiàng)集添加到頻繁項(xiàng)集中;第21行k自增1。25-27行輸出了所有滿足最小支持度0.22要求的頻繁項(xiàng)集列表L1和所有項(xiàng)集的支持度數(shù)據(jù)字典suD2。03案例:信用卡推薦【例8-2】某機(jī)構(gòu)對50個(gè)客戶持有信用卡的情況進(jìn)行了調(diào)查,得到的結(jié)果如表8-2所示:IDgsnyzgjsjtyczs100011011001100021110110100030010011100040000101100050000110100060101100100071001110100081011110100090001001……100501010111其中ID列為客戶識別號,表頭的gs、ny等代表了不同的發(fā)卡行,單元格中的1代表該ID客戶持有該行發(fā)行的信用卡,0則代表未持有。請根據(jù)以上數(shù)據(jù)找出頻繁項(xiàng)集與關(guān)聯(lián)規(guī)則,從而協(xié)助制訂合適的信用卡促銷方案。首先對數(shù)據(jù)文件進(jìn)行預(yù)處理,使之能夠滿足apriori函數(shù)和generateRules函數(shù)的輸入?yún)?shù)要求。首先定義val2colindex函數(shù),用于將原來excel文件中的1轉(zhuǎn)換為發(fā)卡行名縮寫;0值保留,以便在后續(xù)處理中從列表中刪除。loadExcel函數(shù)將excel文件中的數(shù)據(jù)讀入Pandas的DataFrame數(shù)據(jù)對象pd1,使用lambda函數(shù)完成值1的轉(zhuǎn)換,隨后將pd1的每一行轉(zhuǎn)化為列表,將其中的ID和0刪去,并將這些列表依次追加到二維列表data2Dlist中,將其作為結(jié)果返回。程序如下:輸出結(jié)果:繼續(xù):繼續(xù):將apriori函數(shù)返回的兩個(gè)值作為參數(shù)進(jìn)一步傳遞給generateRules(如In[9]:所示),便能得到關(guān)聯(lián)規(guī)則及其置信度。本章小結(jié)本章主要介紹了Apriori算法的基本概念,通過頻繁項(xiàng)集、最小支持度和最小置信度等要素進(jìn)行關(guān)聯(lián)規(guī)則分析,并結(jié)合理財(cái)購買例子詳細(xì)闡述了Python程序的實(shí)現(xiàn)。除了Apriori,關(guān)聯(lián)規(guī)則還有其他的算法,有興趣的讀者可以閱讀參考文獻(xiàn)。重要概念1.關(guān)聯(lián)規(guī)則2.k-項(xiàng)集3.頻繁項(xiàng)集4.支持度與最小支持度5.置信度與最小置信度復(fù)習(xí)思考題1.醫(yī)院禮品店已完成5項(xiàng)交易,購買記錄清單如表8-3所示,請使用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則分析。交易序號購買禮品清單使用數(shù)字代替1鮮花、慰問卡、蘇打水
2毛線玩具熊、鮮花、氣球、糖果
3慰問卡、糖果、鮮花
4毛線玩具熊、氣球、蘇打水
5鮮花、慰問卡、蘇打水
表8-3某醫(yī)院禮品店購買清單復(fù)習(xí)思考題問題:(1)使用數(shù)字代替商品完成第
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 租賃商場場地合同
- 公司員工激勵(lì)演講稿
- 養(yǎng)老護(hù)理行業(yè)老年人照護(hù)需求評估
- 肉羊養(yǎng)殖購銷合同
- 生物醫(yī)藥領(lǐng)域新藥研發(fā)投資合同
- 有關(guān)個(gè)人向公司借款協(xié)議書
- 城市道路施工安全管理規(guī)定
- 好品質(zhì)故事解讀
- 電影制作公司演員拍攝安全協(xié)議
- 2025年漢語拼音yw助力企業(yè)營銷策略分析
- (高清版)JTG 3363-2019 公路橋涵地基與基礎(chǔ)設(shè)計(jì)規(guī)范
- 周志華-機(jī)器學(xué)習(xí)-Chap01緒論-課件
- 中石油加油站管理標(biāo)準(zhǔn)規(guī)范管理部分
- 高中雷雨完整省公開課金獎(jiǎng)全國賽課一等獎(jiǎng)微課獲獎(jiǎng)?wù)n件
- 施工現(xiàn)場安全標(biāo)準(zhǔn)化施工手冊(匯編)
- 《串珠》教案-2024鮮版
- 藥物超敏反應(yīng)綜合征并人類免疫缺陷病毒感染1例及文獻(xiàn)復(fù)習(xí)
- 經(jīng)濟(jì)數(shù)學(xué)(高等職業(yè))全套教學(xué)課件
- 口腔種植學(xué)試題
- 網(wǎng)絡(luò)傳播概論(彭蘭第5版) 課件全套 第1-8章 網(wǎng)絡(luò)媒介的演變-網(wǎng)絡(luò)傳播中的“數(shù)字鴻溝”
- 口服止痛藥物健康宣教
評論
0/150
提交評論