




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第4章電子商務(wù)數(shù)據(jù)處理4.1數(shù)據(jù)處理與預(yù)處理4.2電子商務(wù)數(shù)據(jù)清理4.3電子商務(wù)數(shù)據(jù)集成4.4電子商務(wù)數(shù)據(jù)變換4.5電子商務(wù)數(shù)據(jù)規(guī)約【章節(jié)目標(biāo)及學(xué)習(xí)難點(diǎn)】章節(jié)目標(biāo)1.了解數(shù)據(jù)處理與預(yù)處理的主要內(nèi)容2.了解數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約的主要內(nèi)容4.掌握Excel進(jìn)行缺失、重復(fù)數(shù)據(jù)、分類匯總的處理方法5.掌握PowerQuery進(jìn)行數(shù)據(jù)處理的方法6.掌握決策樹ID3算法的實(shí)際運(yùn)用學(xué)習(xí)難點(diǎn)1.決策樹ID3算法方法的實(shí)際應(yīng)用【案例導(dǎo)入】數(shù)據(jù)預(yù)處理方法在網(wǎng)絡(luò)社區(qū)數(shù)據(jù)分析中的應(yīng)用據(jù)統(tǒng)計(jì)發(fā)現(xiàn),數(shù)據(jù)預(yù)處理的工作量占據(jù)整個(gè)數(shù)據(jù)挖掘工作的60%,由此可見,數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中扮演著舉足輕重的角色。例如,哈啰單車騎行數(shù)據(jù)在經(jīng)過(guò)數(shù)據(jù)預(yù)處理前,用戶編號(hào)、單車編號(hào)、單車類型是一些冗余的屬性,對(duì)分析目標(biāo)而言沒有任何意義。騎行時(shí)長(zhǎng)是對(duì)分析目標(biāo)起關(guān)鍵作用的屬性,但該列中有若干個(gè)空缺。用戶編號(hào)城市單車編號(hào)單車類型騎行時(shí)長(zhǎng)MU_00004北京MB_00001經(jīng)典0.5MU_00234上海MB_00431輕騎1.1MU_00087深圳MB_00876經(jīng)典1.0MU_00067廣州MB_00078輕騎
MU_00065上海MB_00034輕騎1.5MU_09870北京MB_00021經(jīng)典0.6MU_00864北京MB_00090經(jīng)典
MU_00984廣州MB_00045經(jīng)典1.5MU_00043深圳MB_00064輕騎0.8MU_00821廣州MB_00286輕騎
【案例導(dǎo)入】數(shù)據(jù)預(yù)處理方法在網(wǎng)絡(luò)社區(qū)數(shù)據(jù)分析中的應(yīng)用經(jīng)過(guò)預(yù)處理后,城市和騎行時(shí)長(zhǎng)列的數(shù)據(jù)比較完整,也根據(jù)城市名稱進(jìn)行了歸類,方便用戶快速地得出各城市用戶的平均騎行時(shí)長(zhǎng)。城市騎行時(shí)長(zhǎng)(時(shí))城市騎行時(shí)長(zhǎng)(時(shí))北京0.5深圳1.0北京0.6深圳0.8北京0.5廣州0.5上海1.1廣州1.5上海1.5廣州0.5顯而易見,若使用預(yù)處理前的哈啰單車騎行數(shù)據(jù)對(duì)各城市用戶的平均騎行時(shí)長(zhǎng)進(jìn)行分析,會(huì)導(dǎo)致分析結(jié)果存在一些偏差,相反地,使用預(yù)處理后的哈啰單車數(shù)據(jù)進(jìn)行分析,會(huì)得到一個(gè)較為準(zhǔn)確的分析結(jié)果。拓展思考1.數(shù)據(jù)預(yù)處理的目的是什么?2.哈啰單車騎行數(shù)據(jù)還有哪些有價(jià)值的數(shù)據(jù)指標(biāo)?第1節(jié)數(shù)據(jù)處理與預(yù)處理4.1.1數(shù)據(jù)處理4.1.2數(shù)據(jù)預(yù)處理數(shù)據(jù)處理的基本目的是從大量的、雜亂無(wú)章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對(duì)于某些特定的人們來(lái)說(shuō)是有價(jià)值、有意義的數(shù)據(jù)。數(shù)據(jù)處理的過(guò)程大致分為數(shù)據(jù)的準(zhǔn)備、處理和輸出3個(gè)階段。在數(shù)據(jù)準(zhǔn)備階段從各個(gè)渠道獲取到數(shù)據(jù),錄入到某個(gè)數(shù)據(jù)處理軟件中,這個(gè)階段也可以稱為數(shù)據(jù)的錄入階段。數(shù)據(jù)錄入以后,就要由計(jì)算機(jī)對(duì)數(shù)據(jù)進(jìn)行處理。最后輸出的是各種文字和數(shù)字的表格和報(bào)表。4.1.1數(shù)據(jù)處理數(shù)據(jù)處理主要包括8個(gè)方面:4.1.1數(shù)據(jù)處理①數(shù)據(jù)采集:采集所需的信息。②數(shù)據(jù)轉(zhuǎn)換:把信息轉(zhuǎn)換成機(jī)器能夠接收的形式。③數(shù)據(jù)分組:指定編碼,按有關(guān)信息進(jìn)行有效的分組。④數(shù)據(jù)組織:整理數(shù)據(jù)或用某些方法安排數(shù)據(jù),以便進(jìn)行處理。⑤數(shù)據(jù)計(jì)算:進(jìn)行各種算術(shù)和邏輯運(yùn)算,以便得到進(jìn)一步的信息。⑥數(shù)據(jù)存儲(chǔ):將原始數(shù)據(jù)或計(jì)算的結(jié)果保存起來(lái),供以后使用。⑦數(shù)據(jù)檢索:按用戶的要求找出有用的信息。⑧數(shù)據(jù)排序:把數(shù)據(jù)按一定要求排成次序。數(shù)據(jù)預(yù)處理指在主要的處理以前對(duì)數(shù)據(jù)進(jìn)行的一些處理。數(shù)據(jù)預(yù)處理有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等方法。4.1.2數(shù)據(jù)預(yù)處理4.1.2數(shù)據(jù)預(yù)處理1、數(shù)據(jù)質(zhì)量問題數(shù)據(jù)質(zhì)量問題主要表現(xiàn)為非完整性、不一致性、有噪聲和冗余性等方面。其中非完整性指數(shù)據(jù)屬性值遺漏或不確定;不一致性指數(shù)據(jù)的來(lái)源和定義標(biāo)準(zhǔn)的不同,導(dǎo)致數(shù)據(jù)的內(nèi)涵不一致,例如同一屬性的命名、單位、字長(zhǎng)卻不相同;有噪聲是數(shù)據(jù)中存在異常(偏離期望值;冗余性是數(shù)據(jù)記錄或?qū)傩缘闹貜?fù)。4.1.2數(shù)據(jù)預(yù)處理問題臟數(shù)據(jù)描述未經(jīng)校正的數(shù)據(jù)輸入錯(cuò)誤身份證號(hào)=“41038119990927”身份證號(hào)用字符型來(lái)存儲(chǔ),正確的身份證號(hào)被錯(cuò)誤地輸入為“41038119990927”未經(jīng)約束造成的數(shù)據(jù)錯(cuò)誤出生日期=“1999-14-27”月份大于12,日期錯(cuò)誤,可以通過(guò)約束來(lái)保證其正確性數(shù)據(jù)冗余不一致客戶1為:身份證號(hào)姓名=張潔;客戶2為:身份證號(hào)姓名=張潔客戶1和客戶2分別存儲(chǔ)在不同的表格中,實(shí)際上是一個(gè)客戶,卻產(chǎn)生了不同的姓名特殊事件造成的有關(guān)信息不準(zhǔn)確某一客戶有兩條交易記錄:記錄1,購(gòu)買日期=2023-1-1.購(gòu)買產(chǎn)品=“A”“B”、單價(jià)=1680、數(shù)量=2;記錄2,購(gòu)買日期=2023-1-6.購(gòu)買產(chǎn)品=“A”“B”、單價(jià)=-1680、數(shù)量=2客戶在購(gòu)買A產(chǎn)品后,又退掉了,因此應(yīng)該把這兩條記錄在要分析的數(shù)據(jù)表中刪除,如果用這樣的數(shù)據(jù)做產(chǎn)品關(guān)聯(lián)分析就可能產(chǎn)生錯(cuò)誤的結(jié)果4.1.2數(shù)據(jù)預(yù)處理2、數(shù)據(jù)預(yù)處理內(nèi)容數(shù)據(jù)預(yù)處理指對(duì)收集的數(shù)據(jù)進(jìn)行分類或分組前所做的審核、篩選和排序等必要的處理。4.1.2數(shù)據(jù)預(yù)處理(1)數(shù)據(jù)審核數(shù)據(jù)審核的內(nèi)容主要包括以下四個(gè)方面:①準(zhǔn)確性審核,主要是從數(shù)據(jù)的真實(shí)性與精確性角度檢查資料,其審核的重點(diǎn)是檢查調(diào)查過(guò)程中所發(fā)生的誤差。②適用性審核,主要是根據(jù)數(shù)據(jù)的用途,檢查數(shù)據(jù)解釋說(shuō)明問題的程度。具體包括數(shù)據(jù)與調(diào)查主題、與目標(biāo)總體的界定、與調(diào)查項(xiàng)目的解釋等是否匹配。③及時(shí)性審核,主要是檢查數(shù)據(jù)是否按照規(guī)定時(shí)間報(bào)送,如未按規(guī)定時(shí)間報(bào)送,就需要檢查未及時(shí)報(bào)送的原因。④一致性審核,主要是檢查數(shù)據(jù)在不同地區(qū)、不同時(shí)間段是否一致。4.1.2數(shù)據(jù)預(yù)處理(2)數(shù)據(jù)篩選數(shù)據(jù)篩選包括兩方面的內(nèi)容:一是將某些不符合要求的數(shù)據(jù)或有明顯錯(cuò)誤的數(shù)據(jù)予以剔除;二是將符合某種特定條件的數(shù)據(jù)篩選出來(lái),對(duì)不符合特定條件的數(shù)據(jù)予以剔除。4.1.2數(shù)據(jù)預(yù)處理(3)數(shù)據(jù)排序數(shù)據(jù)排序是按照一定順序?qū)?shù)據(jù)排列,以便于研究者通過(guò)瀏覽數(shù)據(jù)發(fā)現(xiàn)一些明顯的特征或趨勢(shì),找到解決問題的線索。除此之外,排序還有助于對(duì)數(shù)據(jù)檢查糾錯(cuò),為重新歸類或分組等提供依據(jù)。第2節(jié)電子商務(wù)數(shù)據(jù)清理4.2.1數(shù)據(jù)缺失值處理4.2.2重復(fù)值處理4.2.3錯(cuò)誤值處理4.2電子商務(wù)數(shù)據(jù)清理數(shù)據(jù)清理是通過(guò)填寫缺失的值、去除冗余數(shù)據(jù)、識(shí)別或刪除離群點(diǎn)、光滑噪聲數(shù)據(jù)和解決不一致數(shù)據(jù)等方法來(lái)清理數(shù)據(jù),從而達(dá)到數(shù)據(jù)格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)清除、錯(cuò)誤糾正和重復(fù)數(shù)據(jù)清除的目的。4.2.1數(shù)據(jù)缺失值處理數(shù)據(jù)缺失值處理(1)刪除對(duì)于缺失情況很嚴(yán)重的數(shù)據(jù)字段(缺失比例在80%以上)或缺失值的數(shù)據(jù)記錄數(shù)量相對(duì)較少(缺失比例小于20%),一般采用直接刪除該數(shù)據(jù)字段的方式進(jìn)行處理。但當(dāng)存在丟失重要數(shù)據(jù)風(fēng)險(xiǎn)時(shí),不應(yīng)該將數(shù)據(jù)丟失,而是通過(guò)創(chuàng)建一個(gè)新的、相關(guān)的,具有布爾值的屬性進(jìn)行替代,比如缺少值用True替代,正常用False替代。4.2.1數(shù)據(jù)缺失值處理(2)填充填充丟失的數(shù)據(jù)是最常見的方法。該方法主要用于定性屬性,最有效的方式是估計(jì)一個(gè)值,可以使用以下幾種方法:①如果缺失值為數(shù)值型數(shù)據(jù),數(shù)據(jù)分布近似正態(tài)分布,可以使用均值進(jìn)行填充。②如果缺失值為數(shù)值型數(shù)據(jù),數(shù)據(jù)分布偏態(tài)分布時(shí),可以使用中位數(shù)進(jìn)行填充。比如某客戶的年收入值缺失,就可以用所有客戶的年平均收入來(lái)代替。③如果缺失值為字符型數(shù)據(jù),則使用眾數(shù)進(jìn)行填充。④對(duì)于數(shù)據(jù)中的空值有特殊含義的,可以單獨(dú)歸為一類數(shù)據(jù)。⑤為模型填充,比如通過(guò)回歸分析、決策樹等方法,將缺失的數(shù)據(jù)作為目標(biāo)進(jìn)行預(yù)測(cè),得到最為可能的填充值。4.2.1數(shù)據(jù)缺失值處理【案例分析】電商企業(yè)進(jìn)貨單缺失值處理某電商企業(yè)在2023年1月的進(jìn)貨單,其中包含商品名稱、來(lái)源、類型、單價(jià)、數(shù)量、總計(jì)費(fèi)用、上次進(jìn)貨量等字段數(shù)據(jù),現(xiàn)進(jìn)行數(shù)據(jù)分析時(shí)發(fā)現(xiàn)“上次進(jìn)貨量”字段數(shù)據(jù)存在缺失,現(xiàn)要求將缺失的數(shù)據(jù)全部填充為“0”。商品名稱來(lái)源類型單價(jià)數(shù)量總計(jì)費(fèi)用上次進(jìn)貨量銷售情況無(wú)線鼠標(biāo)中國(guó)電子產(chǎn)品251025041藍(lán)牙耳機(jī)美國(guó)電子產(chǎn)品26751335
0電動(dòng)牙刷德國(guó)電子產(chǎn)品112161792
6電熱水壺中國(guó)生活用品230492082熨斗中國(guó)生活用品120224062垃圾桶中國(guó)生活用品158120142時(shí)尚T恤中國(guó)服裝120101200202短褲美國(guó)服裝569504
8發(fā)卡印度服裝819152
1鋼筆美國(guó)學(xué)習(xí)用品42625224寫字本新加坡學(xué)習(xí)用品271027061修改液中國(guó)學(xué)習(xí)用品1210120234.2.1數(shù)據(jù)缺失值處理1.選定G列,選擇【開始】-【查找和選擇】-【定位條件】,打開定位條件功能;設(shè)置定位條件為“空值”,單擊【確定】4.2.1數(shù)據(jù)缺失值處理2.直接輸入“0”,CTRL+ENTER確定4.2.2重復(fù)值處理重復(fù)值處理在數(shù)據(jù)集成的過(guò)程中,由于數(shù)據(jù)輸入錯(cuò)誤、非標(biāo)準(zhǔn)的縮寫、或者不同數(shù)據(jù)源記錄的差異等原因?qū)е聰?shù)據(jù)中可能包含同一實(shí)體的重復(fù)記錄。缺少值是數(shù)據(jù)的缺乏,而重復(fù)記錄則是數(shù)據(jù)的過(guò)剩。重復(fù)數(shù)據(jù)刪除技術(shù)是一種預(yù)處理技術(shù),其目標(biāo)是識(shí)別和刪除數(shù)據(jù)集中重復(fù)的記錄。4.2.2重復(fù)值處理【案例分析】電商企業(yè)多類型進(jìn)貨產(chǎn)品處理在某電商企業(yè)在2023年1月的進(jìn)貨單中,現(xiàn)需要統(tǒng)計(jì)進(jìn)貨的產(chǎn)品類型有多少種。下面使用“高級(jí)篩選”法和“函數(shù)法”分別對(duì)產(chǎn)品類型進(jìn)行數(shù)量統(tǒng)計(jì)。商品名稱來(lái)源類型單價(jià)數(shù)量總計(jì)費(fèi)用上次進(jìn)貨量銷售情況無(wú)線鼠標(biāo)中國(guó)電子產(chǎn)品251025041藍(lán)牙耳機(jī)美國(guó)電子產(chǎn)品2675133500電動(dòng)牙刷德國(guó)電子產(chǎn)品11216179206電熱水壺中國(guó)生活用品230492082熨斗中國(guó)生活用品120224062垃圾桶中國(guó)生活用品158120142時(shí)尚T恤中國(guó)服裝120101200202短褲美國(guó)服裝56950408發(fā)卡印度服裝81915201鋼筆美國(guó)學(xué)習(xí)用品42625224寫字本新加坡學(xué)習(xí)用品271027061修改液中國(guó)學(xué)習(xí)用品1210120234.2.2重復(fù)值處理1.高級(jí)篩選法選擇【數(shù)據(jù)】-【排序篩選】-【高級(jí)】功能,直接進(jìn)入“高級(jí)篩選”設(shè)置界面。進(jìn)行高級(jí)篩選設(shè)置,其中在進(jìn)行列表區(qū)域選擇時(shí),一定要從該列的列標(biāo)題,即第一行開始選擇,如果未選擇非列標(biāo)題行,則顯示的結(jié)果中第一行內(nèi)容為選擇區(qū)域的第一行內(nèi)容,即對(duì)結(jié)果的準(zhǔn)確性造成影響,設(shè)置完成后,單擊【確定】4.2.2重復(fù)值處理2.函數(shù)法使用COUNTIF函數(shù)識(shí)別出重復(fù)項(xiàng),并計(jì)算非重復(fù)項(xiàng)的數(shù)量。在J1單元格輸入“類型出現(xiàn)次數(shù)”標(biāo)題,在K1單元格輸入“類型數(shù)量”標(biāo)題。選擇J2單元格,輸入公式“=COUNTIF($C$2:C2,C2)”,單擊ENTER。選擇J2單元格,使用公式快速方式進(jìn)行向下填充,得出所有商品類型出現(xiàn)的次數(shù)。選擇K2單元格,輸入公式“=COUNTIF(J2:J13,”1“)”,計(jì)算所有類型出現(xiàn)次數(shù)為1的數(shù)量。4.2.3錯(cuò)誤值處理錯(cuò)誤值處理錯(cuò)誤值或異常值的存在會(huì)對(duì)分析結(jié)果(平均值與標(biāo)準(zhǔn)差)產(chǎn)生重要影響,異常值的檢驗(yàn)與正確處理是保證原始數(shù)據(jù)可靠性的前提。異常值的檢測(cè)可以有多種方法,如聚類方法、統(tǒng)計(jì)方法等?!景咐治觥渴褂肊xcel能夠控制和檢查數(shù)據(jù)統(tǒng)計(jì)中存在的錯(cuò)誤假設(shè)在源數(shù)據(jù)表中存在一列“銷售情況”,0表示銷售一般,1表示銷售良好,2表示銷售極好,其他所有數(shù)據(jù)均為錯(cuò)誤數(shù)據(jù)。第一步:選中H列,選擇數(shù)據(jù)-數(shù)據(jù)驗(yàn)證4.2.3錯(cuò)誤值處理第二步:在彈出的對(duì)話框中進(jìn)行設(shè)置第三步:選擇數(shù)據(jù)驗(yàn)證-圈釋無(wú)效數(shù)據(jù)4.2.3錯(cuò)誤值處理第3節(jié)電子商務(wù)數(shù)據(jù)集成4.3.1數(shù)據(jù)集成概述4.3.2數(shù)據(jù)集成應(yīng)用1、數(shù)據(jù)集成問題數(shù)據(jù)集成的過(guò)程中可能遇到命名沖突、屬性類型沖突和屬性值等問題。(1)命名沖突主要指同一個(gè)屬性在不同的數(shù)據(jù)源中采用了不同的名字。比如有一個(gè)電子商務(wù)企業(yè)在北京和上海設(shè)兩家公司,在北京分公司內(nèi)部員工表中的身份信息用員工身份證號(hào)來(lái)表示,而在上海的分公司數(shù)據(jù)中,內(nèi)部員工表中的身份信息用員工ID字段來(lái)表示,盡管這兩個(gè)字段項(xiàng)都表示相同的含義,但命名卻不相同,從而產(chǎn)生命名沖突。4.3.1數(shù)據(jù)集成概述(2)屬性類型沖突以郵編字段項(xiàng)為例,雖然郵編是以數(shù)字形式來(lái)表示的,但不能用于任何計(jì)算,其可能會(huì)被定義為數(shù)值型,也可能會(huì)被定義為字符型,從而產(chǎn)生屬性類型沖突。4.3.1數(shù)據(jù)集成概述(3)屬性值沖突屬性值沖突主要有兩種形式。一種是字段名稱相同,屬性值的表示形式不同。比如以性別字段項(xiàng)為例,有的數(shù)據(jù)源中會(huì)用“男”表示男性,用“女”表示女性,而有的會(huì)用“M”表示男性,“F”表示女性。另一種是字段名稱相同,屬性值的表示形式也相同,但取值范圍不同。比如兩個(gè)數(shù)據(jù)源中都有消費(fèi)金額這個(gè)字段項(xiàng),但第一個(gè)數(shù)據(jù)源中的消費(fèi)金額是客戶一個(gè)月的消費(fèi)金額,而第二個(gè)數(shù)據(jù)源中的消費(fèi)金額是客戶一個(gè)季度的消費(fèi)金額,本質(zhì)上這兩個(gè)數(shù)據(jù)源的消費(fèi)金額這個(gè)字段項(xiàng)的值所表示的含義就有很大差異。4.3.1數(shù)據(jù)集成概述4.3.1數(shù)據(jù)集成概述2、數(shù)據(jù)集成架構(gòu)數(shù)據(jù)集成的主要過(guò)程有數(shù)據(jù)抽?。‥xtract)、數(shù)據(jù)轉(zhuǎn)換(Transform)和數(shù)據(jù)加載(Load),這個(gè)過(guò)程是負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取到臨時(shí)中間層進(jìn)行轉(zhuǎn)換、集成等處理,最后加載列數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的基礎(chǔ)。4.3.1數(shù)據(jù)集成概述根據(jù)轉(zhuǎn)換發(fā)生的順序和位置,數(shù)據(jù)集成可以分為ETL和ELT兩種架構(gòu)。ETL的過(guò)程為提取-轉(zhuǎn)換-加載,在數(shù)據(jù)源抽取后首先進(jìn)行轉(zhuǎn)換,然后將轉(zhuǎn)換的結(jié)果寫入目的地。ELT的過(guò)程則是提取-加載-變換,在抽取后將結(jié)果先寫入目的地,然后利用數(shù)據(jù)庫(kù)的聚合分析能力或者外部計(jì)算框架。4.3.2數(shù)據(jù)集成應(yīng)用PowerQuery是一個(gè)數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)準(zhǔn)備引擎,可以執(zhí)行提取、轉(zhuǎn)換和加載數(shù)據(jù)處理。PowerQuery中的轉(zhuǎn)換引擎包括許多預(yù)生成的轉(zhuǎn)換函數(shù),這些函數(shù)可通過(guò)編輯器的圖形界面使用。這些轉(zhuǎn)換可以像刪除列或篩選行一樣簡(jiǎn)單,也可以像使用第一行作為表標(biāo)題一樣常見。還有高級(jí)轉(zhuǎn)換選項(xiàng),例如合并、追加、分組依據(jù)、透視和逆透視。通過(guò)選擇菜單中的轉(zhuǎn)換選項(xiàng),然后應(yīng)用該轉(zhuǎn)換所需的選項(xiàng),可以實(shí)現(xiàn)所有這些轉(zhuǎn)換。4.3.2數(shù)據(jù)集成應(yīng)用【案例分析】電商企業(yè)人員職務(wù)信息處理某電商企業(yè),有三個(gè)部門人員信息表,分別是產(chǎn)品部、客服部和運(yùn)營(yíng)部的人員的職務(wù)信息,包含員工編號(hào)、姓名、性別和職務(wù),現(xiàn)需要對(duì)三個(gè)部門的職務(wù)信息表合成一張表。員工編號(hào)姓名性別職務(wù)CP001小溪女主管CP002王曦女市場(chǎng)CP003李章男產(chǎn)品設(shè)計(jì)CP004張俊超男產(chǎn)品設(shè)計(jì)CP005李亮亮男產(chǎn)品設(shè)計(jì)CP006張朝新男市場(chǎng)員工編號(hào)姓名性別職務(wù)KF001李曉女主管KF002梁秋佳女客服KF003李佳琪女客服KF004張燕子女客服KF005張曉楠女客服KF006李貝女客服KF007趙倩女客服員工編號(hào)姓名性別職務(wù)YY001張黎剛男主管YY002林曉曉女運(yùn)營(yíng)YY003李軍男運(yùn)營(yíng)YY004張穎女運(yùn)營(yíng)YY005趙麗華女運(yùn)營(yíng)助手4.3.2數(shù)據(jù)集成應(yīng)用【案例分析】電商企業(yè)人員職務(wù)信息處理①新建工作表,打開PowerQuery編輯器,分別建立“運(yùn)營(yíng)部”、“產(chǎn)品部”和“客服部”三個(gè)查詢,并分別導(dǎo)入相應(yīng)的數(shù)據(jù)源。4.3.2數(shù)據(jù)集成應(yīng)用②添加自定義列。在每個(gè)查詢中添加自定義列,將列名修改為部門,內(nèi)容填充為各自對(duì)應(yīng)的部門名稱。③新建追加查詢。將“運(yùn)營(yíng)部”、“產(chǎn)品部”和“客服部”三個(gè)查詢追加到新的查詢中,并刪除重復(fù)的項(xiàng)。④關(guān)閉PowerQuery編輯器,將數(shù)據(jù)上載至Excel表格中。第4節(jié)電子商務(wù)數(shù)據(jù)變換4.4.1數(shù)據(jù)變換方法4.4.2數(shù)據(jù)分類匯總4.4.1數(shù)據(jù)變換方法數(shù)據(jù)變換指根據(jù)要解決問題的具體要求進(jìn)行數(shù)據(jù)的轉(zhuǎn)換或格式的統(tǒng)一,將數(shù)據(jù)轉(zhuǎn)換成適合于數(shù)據(jù)分析的形式。常見的數(shù)據(jù)變換有光滑、聚集、概化、規(guī)范化和屬性構(gòu)造等幾種方法。4.4.1數(shù)據(jù)變換方法1、平滑數(shù)據(jù)光滑主要是通過(guò)分箱、聚類、回歸等方法來(lái)去除數(shù)據(jù)中的噪聲。在一定誤差允許的情況下,通過(guò)一個(gè)數(shù)值來(lái)代表一個(gè)區(qū)域范圍來(lái)減少噪聲。其中,分箱方法主要是通過(guò)考察數(shù)據(jù)周圍的值來(lái)平滑數(shù)據(jù)的值,以期去掉數(shù)據(jù)中的噪聲,可以按箱平均值對(duì)數(shù)據(jù)進(jìn)行平滑處理,也可以按箱邊界值對(duì)數(shù)據(jù)進(jìn)行平滑處理。4.4.1數(shù)據(jù)變換方法【案例分析】假如一組商品銷售數(shù)量的數(shù)據(jù)如下(已按由小到大的順序排列):4,5,9,14,15,18,22,25,26,28,29,33按等深的方法把數(shù)據(jù)分成等深(深度為4,即每個(gè)箱子里4個(gè)數(shù)據(jù))的三個(gè)箱子,則采用各種分箱方法獲得的結(jié)果如表所示:數(shù)據(jù)劃分為等深箱按箱平均值平滑后的數(shù)據(jù)按箱邊界平滑后的數(shù)據(jù)箱子1:4,5,9,14箱子2:15,18,22,25箱子3:26,28,29,33箱子1:8,8,8,8箱子2:20,20,20,20箱子3:29,29,29,29箱子1:4,4,4,14箱子2:15,15,25,25箱子3:26,26,26,334.4.1數(shù)據(jù)變換方法如果用箱的邊界值平滑,就要確定兩個(gè)邊界,然后依次計(jì)算除邊界值外的其他值與兩個(gè)邊界的距離,與之距離最小的邊界確定為平滑邊界值。具體如下計(jì)算:箱1:|5-4|=1;|14-5|=9;故選4為平滑邊界值;|9-4|=5;|14-9|=5;故可選4,也可選14為平滑邊界值,本處選擇4。箱2:|18-15|=3;|25-18|=7;故選15作平滑邊界值;|22-15|=7;|25-22|=3;故選25作平滑邊界值。箱3:|28-26|=2;|33-28|=5;故選26作平滑邊界值;|29-26|=3;|33-29|=4;故選26作平滑邊界值。4.4.1數(shù)據(jù)變換方法2、聚集聚集一般是采用統(tǒng)計(jì)的方法對(duì)數(shù)據(jù)進(jìn)行匯總或聚類。如將月銷售數(shù)據(jù)聚集為季度銷售數(shù)據(jù)等。3、概化用較高層次的概念來(lái)替代較低層次的概念,從而降低數(shù)據(jù)復(fù)雜度。如地理維度中的城市,可以概化為較高層次的概念,如省、國(guó)家等。4.4.1數(shù)據(jù)變換方法4、規(guī)范化將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間,如0.0~1.0,稱為規(guī)范化。數(shù)據(jù)規(guī)范化、標(biāo)準(zhǔn)化的目的是將數(shù)據(jù)轉(zhuǎn)化為無(wú)量綱的純數(shù)據(jù),便于不同單位或量級(jí)的指標(biāo)進(jìn)行比較或加權(quán)。比較常用的數(shù)據(jù)規(guī)范化方法有以下兩種。(1)最小-最大規(guī)范化該方法的主要思想是通過(guò)線性變換的方式把原始數(shù)據(jù)值轉(zhuǎn)換成一定區(qū)間上的數(shù)值,但轉(zhuǎn)換后的數(shù)據(jù)值仍保持原始數(shù)據(jù)值之間的關(guān)系。假定MinX、MaxX分別是屬性X上的最小值和最大值,現(xiàn)要將屬性X的值映射到區(qū)間[a,b]上,對(duì)于給定的屬性X的某個(gè)值Y,就可以采用如下的方法來(lái)進(jìn)行轉(zhuǎn)換,設(shè)Y值被規(guī)范化后的值為NewY,則:
4.4.1數(shù)據(jù)變換方法(2)零-均值規(guī)范化該方法的主要思想是屬性X規(guī)范化后的值取決于屬性X取值的均值和標(biāo)準(zhǔn)差。若A是屬性X上的一個(gè)取值,可用公式進(jìn)行零-均值規(guī)范化,得到規(guī)范化后的值A(chǔ)′。
4.4.1數(shù)據(jù)變換方法4.4.1數(shù)據(jù)變換方法【案例分析】對(duì)一組商品銷售數(shù)量的數(shù)據(jù)分別采用最小-最大規(guī)范化處理讓其區(qū)間落在[0,1]上、零-均值規(guī)范化,其結(jié)果如表所示原始數(shù)據(jù)4,5,9,14,15,18,22,25,26,28,29,33最小值,最大值4,33平均值、標(biāo)準(zhǔn)差19,9.695最小-最大規(guī)范化0.000,0.034,0.172,0.345,0.379,0.483,0.621,0.724,0.759,0.828,0.862,1.000零-均值規(guī)范化-1.547,-1.444,-1.031,-0.516,-0.413,-0.103,0.309,0.619,0.722,0.928,1.031,1.4444.4.1數(shù)據(jù)變換方法5、屬性構(gòu)造人們可以通過(guò)已有屬性構(gòu)造數(shù)據(jù)分析需要的新屬性。數(shù)據(jù)分析工作往往都是圍繞特定主題進(jìn)行的,所以有時(shí)需要構(gòu)造一些原始數(shù)據(jù)庫(kù)中沒有的屬性。如有的數(shù)據(jù)庫(kù)中沒有顧客某次購(gòu)買的商品所帶給企業(yè)利潤(rùn)的數(shù)據(jù),但在相關(guān)數(shù)據(jù)庫(kù)中可以找到該商品的進(jìn)價(jià)和銷售價(jià)格,這樣就可以根據(jù)這兩個(gè)屬性構(gòu)造一個(gè)新的利潤(rùn)屬性,通過(guò)這個(gè)新屬性了解顧客購(gòu)買該商品帶給企業(yè)的利潤(rùn)。這種屬性構(gòu)造特性對(duì)數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)是很有價(jià)值的。4.4.2數(shù)據(jù)分類匯總要?jiǎng)?chuàng)建分類匯總,首先要對(duì)數(shù)據(jù)進(jìn)行排序,然后以排序的字段為匯總依據(jù),進(jìn)行求和、求平均值以及求最大值等各種匯總操作?!景咐治觥侩娚唐髽I(yè)堅(jiān)果產(chǎn)品銷售總額分類匯總某電商企業(yè)2023年1月份的堅(jiān)果銷售情況表,需要對(duì)產(chǎn)品的銷量總額進(jìn)行匯總,包含對(duì)“亞馬遜”和“速賣通”的銷量總額單獨(dú)匯總。堅(jiān)果銷售情況銷售人員銷售日期產(chǎn)品易趣亞馬遜速賣通合計(jì)銷量評(píng)定客服-粉紅貓1月1日核桃¥808.00¥484.85¥944.00¥2,236.85優(yōu)客服-櫻桃貓1月1日板栗¥690.32¥451.30¥543.00¥1,684.62良客服-櫻桃貓1月1日松仁¥120.35¥125.30¥123.20¥368.85差客服-粉紅貓1月1日腰果仁¥505.00¥303.03¥530.00¥1,338.03良客服-招財(cái)貓1月3日榛子¥603.30¥361.64¥703.00¥1,667.94良客服-招財(cái)貓1月3日杏仁¥230.00¥135.39¥3,140.00¥3,505.39優(yōu)客服-粉紅貓1月3日開心果¥563.58¥120.21¥653.00¥1,336.79良客服-古怪貓1月3日夏威夷果¥859.30¥540.60¥523.00¥1,922.90良客服-古怪貓1月9日葵花子¥300.00¥503.60¥351.00¥1,154.60良客服-櫻桃貓1月9日花生¥500.00¥303.03¥590.00¥1,393.03良客服-櫻桃貓1月9日巴旦木¥383.53¥200.30¥443.60¥1,027.43良客服-粉紅貓1月9日核桃¥525.00¥310.18¥125.30¥960.48差客服-古怪貓1月9日板栗¥390.00¥243.82¥253.50¥887.32差客服-古怪貓1月9日松仁¥630.00¥383.82¥125.53¥1,139.35良客服-櫻桃貓1月13日腰果仁¥240.00¥145.36¥173.50¥558.86差客服-櫻桃貓1月13日榛子¥840.00¥501.09¥953.00¥2,294.09優(yōu)客服-粉紅貓1月13日杏仁¥521.00¥312.18¥125.36¥958.54差客服-古怪貓1月13日開心果¥125.00¥120.00¥122.30¥367.30差客服-古怪貓1月13日夏威夷果¥423.30¥202.00¥536.00¥1,161.30良客服-櫻桃貓1月13日葵花子¥630.00¥220.00¥145.00¥995.00差客服-櫻桃貓1月13日花生¥125.00¥692.00¥180.36¥997.36差客服-粉紅貓1月13日巴旦木¥315.00¥196.91¥372.30¥884.21差4.4.2數(shù)據(jù)分類匯總1.選擇“產(chǎn)品”列某數(shù)據(jù),單擊【開始】-【排序和篩選】-【降序】功能,則以“產(chǎn)品”列的產(chǎn)品,按照名稱首字母降序排列。4.4.2數(shù)據(jù)分類匯總2.單擊【數(shù)據(jù)】-【分級(jí)顯示】-【分類匯總】功能,彈出“分類匯總”設(shè)置框,設(shè)置分類匯總參數(shù),“分類字段”為“產(chǎn)品”、“亞馬遜”和“速賣通”,“匯總方式”為“求和”,“選定匯總項(xiàng)”為“合計(jì)”,其分類匯總結(jié)果如下圖所示。第5節(jié)電子商務(wù)數(shù)據(jù)規(guī)約4.5.1數(shù)據(jù)規(guī)約概述4.5.2數(shù)據(jù)規(guī)約ID3算法4.5.1數(shù)據(jù)規(guī)約概述數(shù)據(jù)規(guī)約是為了降低在海量數(shù)據(jù)上進(jìn)行數(shù)據(jù)分析的難度和復(fù)雜度而進(jìn)行的一項(xiàng)工作。它的核心思想是在不破壞數(shù)據(jù)原有完整性的基礎(chǔ)上選取小樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,但要求從小樣本數(shù)據(jù)進(jìn)行分析得到的效果和從大樣本數(shù)據(jù)進(jìn)行分析得到的結(jié)果是相同的。4.5.1數(shù)據(jù)規(guī)約概述1.屬性規(guī)約屬性規(guī)約是通過(guò)屬性合并或刪除不相關(guān)的屬性來(lái)降低數(shù)據(jù)的維度。屬性規(guī)約的目標(biāo)是找到最小的屬性集,這樣丟棄那些不相關(guān)的屬性不會(huì)對(duì)數(shù)據(jù)的效用產(chǎn)生太大影響,并且可以降低數(shù)據(jù)分析的成本。例如,企業(yè)銷售數(shù)據(jù)中的客戶聯(lián)系電話與客戶的購(gòu)買行為無(wú)關(guān),因此該屬性項(xiàng)就可以被刪除。屬性規(guī)約的方法很多,例如決策樹、主成分分析等。2.數(shù)值規(guī)約數(shù)值規(guī)約指用較小的數(shù)據(jù)表示形式去替換原數(shù)據(jù),包括有參數(shù)方法和無(wú)參數(shù)方法兩類。有參數(shù)方法指使用一個(gè)模型去估計(jì)數(shù)據(jù),這樣就可以只存放模型參數(shù)代替存放實(shí)際數(shù)據(jù),如回歸模型和線性模型。對(duì)于無(wú)參數(shù)方法就需要存放實(shí)際數(shù)據(jù),如直方圖、聚類、抽樣和數(shù)據(jù)立方體等。4.5.1數(shù)據(jù)規(guī)約概述3.數(shù)據(jù)壓縮數(shù)據(jù)壓縮指在不丟失信息的前提下,縮減數(shù)據(jù)量以減少存儲(chǔ)空間,提高其傳輸、存儲(chǔ)和處理效率的一種技術(shù)方法。數(shù)據(jù)壓縮包括有損壓縮和無(wú)損壓縮。無(wú)損壓縮指壓縮后的數(shù)據(jù)經(jīng)重構(gòu)后與原來(lái)的數(shù)據(jù)完全相同。有損壓縮指壓縮后的數(shù)據(jù)經(jīng)重構(gòu)后與原來(lái)的數(shù)據(jù)有所不同,但不影響人對(duì)原始資料所表達(dá)信息的理解。4.概念分層概念分層是用高層次概念替換低層次概念,得出的數(shù)值可以大大降低數(shù)據(jù)分析的復(fù)雜度。4.5.2數(shù)據(jù)規(guī)約ID3算法ID3算法是由J.RossQuinlan在1986年提出一種基于決策樹的分類算法。該算法建立的決策樹具有規(guī)模比較小、查詢速度快等優(yōu)點(diǎn)。ID3算法用信息增益作為屬性選擇度量,信息增益值越大,不確定性越小。因此,ID3算法總是選擇具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測(cè)試屬性。根據(jù)“信息增益越大的屬性對(duì)訓(xùn)練集的分類越有利”的原則來(lái)選取信息增益最大的屬性作為“最佳”分裂點(diǎn)。以自頂向下遞歸的分而治之方式構(gòu)造決策樹。ID3算法描述ID3算法用信息增益(InformationGain)作為屬性選擇度量。信息增益值越大,不確定性越小。因此,ID3算法總是選擇具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測(cè)試屬性。根據(jù)“信息增益越大的屬性對(duì)訓(xùn)練集的分類越有利”的原則來(lái)選取信息增益最大的屬性作為“最佳”分裂點(diǎn)。以自頂向下遞歸的分而治之方式構(gòu)造決策樹。4.5.2數(shù)據(jù)規(guī)約ID3算法(1)劃分前的熵信息熵(簡(jiǎn)稱為熵Entropy)表示信源的不確定性,熵越大,把它搞清楚所需要的信息量也就越大。信息熵定義:假設(shè)訓(xùn)練樣本集S包含n個(gè)樣本,這些樣本分別屬于m個(gè)類,其中第i個(gè)類在S中出現(xiàn)的比例為pi,那么S的信息熵為:從信息熵的計(jì)算公式可以看出,訓(xùn)練集在樣本類別方面越模糊越雜亂無(wú)序,它的熵值就越高;反之,則熵值越低。
4.5.2數(shù)據(jù)規(guī)約ID3算法(2)劃分后的熵假設(shè)屬性A把集合S劃分成V個(gè)子集,所包含的樣本數(shù)為ni,如果A作為測(cè)試屬性,那么劃分后的熵就是:ni/n充當(dāng)?shù)趇個(gè)子集的權(quán),它表示任意樣本屬于Si的概率。熵值越小,劃分的純度越高。用屬性A把訓(xùn)練樣本集分組后,樣本集的熵將會(huì)降低,因?yàn)檫@是一個(gè)從無(wú)序向有序的轉(zhuǎn)變過(guò)程。
4.5.2數(shù)據(jù)規(guī)約ID3算法(3)信息增益信息增益定義為分裂前的信息熵與分裂后的信息熵之間的差。簡(jiǎn)單的說(shuō),信息增益是針對(duì)屬性而言的,沒有這個(gè)屬性時(shí)樣本所具有的信息量與有這個(gè)屬性時(shí)的信息量的差值就是這個(gè)屬性給樣本所帶來(lái)的信息量。因此,應(yīng)選擇信息增益最大的屬性作為結(jié)點(diǎn)并分支。
4.5.2數(shù)據(jù)規(guī)約ID3算法ID3算法步驟(每次選信息增益最大的屬性)對(duì)當(dāng)前例子集合,計(jì)算各屬性的信息增益選擇信息增益最大的屬性Ai在Ai處取相同值的例子歸于同一個(gè)子集,Ai取幾個(gè)值就得幾個(gè)子集依次對(duì)每種取值情況下的子集,遞歸調(diào)用建樹算法,即返回步驟1中若子集的目標(biāo)屬性相同,則分支為葉子節(jié)點(diǎn),并標(biāo)上標(biāo)簽,然后返回調(diào)用處4.5.2數(shù)據(jù)規(guī)約ID3算法4.5.2數(shù)據(jù)規(guī)約ID3算法【案例分析】電商企業(yè)客戶屬性分類分析某電商企業(yè)某段時(shí)間內(nèi)客戶的購(gòu)買記錄如表所示,那么從客戶的年齡范圍、收入水平、會(huì)員性別和會(huì)員等級(jí)等四個(gè)方面的客戶屬性對(duì)客戶是否購(gòu)買產(chǎn)品進(jìn)行判斷,哪個(gè)屬性最具有區(qū)分度?序號(hào)年齡范圍收入水平會(huì)員性
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)字圖書館建設(shè)的策略及實(shí)施路徑
- 深化新農(nóng)科建設(shè)的策略及實(shí)施路徑
- 鋁合金項(xiàng)目可行性研究報(bào)告(范文模板)
- 關(guān)于成立碳纖維制品公司可行性研究報(bào)告
- 公路應(yīng)急儲(chǔ)備中心建設(shè)方案
- 六年級(jí)家長(zhǎng)會(huì)多媒體課件
- 六年級(jí)下期家長(zhǎng)會(huì)課件
- 2025-2030甜玉米行業(yè)市場(chǎng)發(fā)展分析及前景趨勢(shì)與投資戰(zhàn)略研究報(bào)告
- 2025-2030港口物流行業(yè)市場(chǎng)發(fā)展分析及前景趨勢(shì)與投融資發(fā)展機(jī)會(huì)研究報(bào)告
- 2025-2030最佳廚房垃圾桶行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2024年湖南高考政治真題及答案
- 項(xiàng)目管理與工程經(jīng)濟(jì)決策知到智慧樹章節(jié)測(cè)試課后答案2024年秋哈爾濱工程大學(xué)
- 常見皮膚病診療規(guī)范
- 【MOOC】生命的教育-浙江大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 高三英語(yǔ)一輪復(fù)習(xí):節(jié)日主題的詞匯復(fù)習(xí) 課件
- 無(wú)創(chuàng)機(jī)械通氣護(hù)理要點(diǎn)
- 七下道法【選擇題】專練50題
- 2024年北京第二次高中學(xué)業(yè)水平合格信息技術(shù)試卷試(含答案詳解)
- 職業(yè)壓力管理學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 人力資源管理:基于創(chuàng)新創(chuàng)業(yè)視角學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 安全環(huán)保職業(yè)健康法律法規(guī)清單2024年
評(píng)論
0/150
提交評(píng)論