版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
干貨分享:數(shù)據(jù)挖掘淺談編輯導(dǎo)讀:數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。本文作者圍繞數(shù)據(jù)挖掘展開分析,希望對你有幫助。豆豆和花花開了一家鮮花店。豆豆跟花花說:“情人節(jié)快到了,咱店都需要準(zhǔn)備哪類情人節(jié)花束?每類花束需要準(zhǔn)備多少?……”花花回答道,“根據(jù)顧客分類,大致分為自信示愛、甜蜜上心、星河摯愛等共8類。前三類去年賣地特別好,今年需要提供比上年多30%的花束……”。豆豆說:“鮮花的保質(zhì)期特別短,所以,多購買的鮮花只能從30%降至10%,既可以控制成本,又可以積攢口碑……”在上面案例中,花花制定采購方案首先進(jìn)行顧客分類,在數(shù)據(jù)挖掘領(lǐng)域,可以使用無監(jiān)督模型(例如k-means),也可以使用分類模型(例如KNN、決策樹、邏輯回歸等)將用戶分群?;ɑA(yù)估“今年需要提供比上一年高30%的花束”,在數(shù)據(jù)挖掘領(lǐng)域,可以使用回歸模型進(jìn)行預(yù)測。接下來,筆者就跟你淺談一下數(shù)據(jù)挖掘。01機器學(xué)習(xí)與數(shù)據(jù)挖掘的區(qū)別與聯(lián)系1.1概念首先,我們對機器學(xué)習(xí)和數(shù)據(jù)挖掘的定義做一下總結(jié):數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。換句話說,數(shù)據(jù)挖掘試圖從海量數(shù)據(jù)中找到有用的信息。機器學(xué)習(xí)是一類從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測的算法。也就是說,機器學(xué)習(xí)就是將現(xiàn)實生活中的問題抽象成數(shù)學(xué)模型,利用數(shù)學(xué)方法對這個數(shù)學(xué)模型進(jìn)行求解,從而解決現(xiàn)實生活中的問題。1.2聯(lián)系與區(qū)別1.2.1聯(lián)系數(shù)據(jù)挖掘受到很多學(xué)科領(lǐng)域的影響,其中包括數(shù)據(jù)庫、機器學(xué)習(xí)、統(tǒng)計學(xué)、領(lǐng)域知識及模式識別等領(lǐng)域。簡而言之,對于數(shù)據(jù)挖掘,數(shù)據(jù)庫提供數(shù)據(jù)存儲技術(shù),機器學(xué)習(xí)和統(tǒng)計學(xué)提供數(shù)據(jù)分析技術(shù)。統(tǒng)計學(xué)經(jīng)常忽視實際的效用醉心于理論的優(yōu)美,因此,統(tǒng)計學(xué)提供的大部分技術(shù)都要在機器學(xué)習(xí)領(lǐng)域進(jìn)一步研究,變成機器學(xué)習(xí)算法后才能進(jìn)入數(shù)據(jù)挖掘領(lǐng)域。從這方面來講,統(tǒng)計學(xué)主要是通過機器學(xué)習(xí)來對數(shù)據(jù)挖掘發(fā)揮影響,而機器學(xué)習(xí)和數(shù)據(jù)庫則是數(shù)據(jù)挖掘的兩大支撐。簡言之,機器學(xué)習(xí)為數(shù)據(jù)挖掘提供解決實際問題的方法,數(shù)據(jù)挖掘中算法的成功應(yīng)用,說明了機器學(xué)習(xí)對算法的研究具有實際運用價值。1.2.2區(qū)別從數(shù)據(jù)分析來講,大多數(shù)數(shù)據(jù)挖掘技術(shù)都是來自于機器學(xué)習(xí),但是機器學(xué)習(xí)研究不把海量數(shù)據(jù)作為處理對象,因此,數(shù)據(jù)挖掘需要對算法進(jìn)行改造,使得算法性能和空間占用達(dá)到實用的地步。同時,數(shù)據(jù)挖掘還有自身獨特的內(nèi)容——關(guān)聯(lián)分析。至于,數(shù)據(jù)挖掘和模式識別,從概念上區(qū)分,數(shù)據(jù)挖掘重在發(fā)現(xiàn)知識,模式識別重在認(rèn)識事物。簡言之,機器學(xué)習(xí)注重相關(guān)機器學(xué)習(xí)算法的理論研究和算法提升,更偏向理論和學(xué)術(shù);數(shù)據(jù)挖掘注重運用算法或者其他某種模式解決實際問題,更偏向?qū)嵺`和運用。02機器學(xué)習(xí)的分類機器學(xué)習(xí)的方法是基于數(shù)據(jù)產(chǎn)生的“模型”的算法,也稱為“學(xué)習(xí)算法”。機器學(xué)習(xí)方法包括有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。2.1有監(jiān)督學(xué)習(xí)有監(jiān)督學(xué)習(xí)指對數(shù)據(jù)的若干特征與標(biāo)簽之間的關(guān)聯(lián)性進(jìn)行建模的過程。它的主要目標(biāo)是從有標(biāo)簽的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)模型,以便對未知或未來的數(shù)據(jù)做出預(yù)測。以用戶是否會復(fù)購鮮花為例,可以采用監(jiān)督學(xué)習(xí)算法在打過標(biāo)簽的(正確標(biāo)識是與否)數(shù)據(jù)上訓(xùn)練模型,然后用該模型來預(yù)測新用戶是否屬于粘性用戶。標(biāo)簽為離散值的監(jiān)督學(xué)習(xí)任務(wù)稱為「分類任務(wù)」,例如上述的用戶是否會復(fù)購鮮花示例。常用的分類模型包括KNN、決策樹、邏輯回歸等。標(biāo)簽為連續(xù)值的監(jiān)督學(xué)習(xí)任務(wù)稱為「回歸任務(wù)」,例如根據(jù)歷史數(shù)據(jù)預(yù)測未來的銷售額。常用的回歸模型為線性回歸、非線性回歸和嶺回歸等。注意:機器學(xué)習(xí)領(lǐng)域的預(yù)測變量通常稱為特征,而響應(yīng)變量通常稱為目標(biāo)變量或標(biāo)簽。2.2無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)指對不帶任何標(biāo)簽的數(shù)據(jù)特征進(jìn)行建模,通常被看成是一種“讓數(shù)據(jù)自己介紹自己”的過程。也就是說,用無監(jiān)督學(xué)習(xí),可以在沒有目標(biāo)變量或獎勵函數(shù)的指導(dǎo)下,探索數(shù)據(jù)結(jié)構(gòu)來提取有意義的信息。這類模型包括「聚類任務(wù)」和「降維任務(wù)」。其中,聚類算法可以將數(shù)據(jù)分成不同的組別,而降維算法追求用更簡潔的方式表現(xiàn)數(shù)據(jù)。2.3半監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)方法介于有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間,通常在數(shù)據(jù)不完整時使用。2.4強化學(xué)習(xí)強化學(xué)習(xí)不同于監(jiān)督學(xué)習(xí),它將學(xué)習(xí)看作是試探評價過程,以“試錯”的方式進(jìn)行學(xué)習(xí),并與環(huán)境交互已獲得獎懲指導(dǎo)行為,以其作為評價。也就是說,強調(diào)如何基于環(huán)境而行動,以取得最大化的預(yù)期利益。此時,系統(tǒng)靠自身的狀態(tài)和動作進(jìn)行學(xué)習(xí),從而改進(jìn)行動方案以適應(yīng)環(huán)境。03數(shù)據(jù)挖掘建模過程從數(shù)據(jù)本身來考慮,數(shù)據(jù)挖掘建模過程通常需要有理解商業(yè)、理解數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、建模型、評估模型和部署模型6個步驟。3.1理解商業(yè)理解商業(yè)算是數(shù)據(jù)挖掘中最重要的一部分,在這個階段我們需要明確商業(yè)目標(biāo)、評估商業(yè)環(huán)境、確定挖掘目標(biāo)以及產(chǎn)生一個項目計劃。簡單地說,就是針對不同的業(yè)務(wù)場景,需要明白挖掘的目標(biāo)是什么,需要達(dá)到什么樣的效果。用大白話講,就是你到底想干啥。仍以鮮花店為例,為了提高銷售額,店員可以幫助客戶快速找到他感興趣的花束,同時在保證用戶體驗的情況下,為其附加一個可接受的小飾品,比如花瓶、零食、香水等。3.2理解數(shù)據(jù)數(shù)據(jù)是挖掘過程的“原材料”,在數(shù)據(jù)理解過程中我們需要了解都有哪些數(shù)據(jù),這些數(shù)據(jù)的特征是什么,可以通過對數(shù)據(jù)進(jìn)行描述分析得到數(shù)據(jù)的特點。其中,了解有哪些數(shù)據(jù)尤為重要,其決定了后期工作進(jìn)展的順利程度。比如和花店有關(guān)的數(shù)據(jù):1)鮮花數(shù)據(jù):鮮花名稱、鮮花品類、采購時間、采購數(shù)量、采購金額等。2)經(jīng)營數(shù)據(jù):經(jīng)營時間、預(yù)定時間、預(yù)定品類、預(yù)定人數(shù)等。3)其他數(shù)據(jù):是否為節(jié)假日、用戶口碑、競爭對手動向、天氣情況等。3.3準(zhǔn)備數(shù)據(jù)在數(shù)據(jù)準(zhǔn)備階段我們需要對數(shù)據(jù)作出清洗、重建、合并等操作。選出要進(jìn)行分析的數(shù)據(jù),并對不符合模型輸入要求的數(shù)據(jù)進(jìn)行規(guī)范化操作。主要是為建模準(zhǔn)備數(shù)據(jù),可以從數(shù)據(jù)預(yù)處理、特征提取、特征選擇等幾方面出發(fā),整理如下:1)缺失值:由于個人隱私或設(shè)備故障導(dǎo)致某些觀測值在某些緯度上的漏缺,通常稱為缺失值。缺失值存在可能會導(dǎo)致模型結(jié)果的錯誤,所以針對缺失值可以考慮刪除、眾數(shù)或均值填充等解決。2)異常值:由于遠(yuǎn)離正常樣本的觀測點,它們的存在同樣會對模型的準(zhǔn)確型造成影響??梢酝ㄟ^象限圖或3sigma(正態(tài)分布)進(jìn)行判斷,如果是,可以考慮刪除或單獨處理。3)量綱不一致:模型容易受到不同量綱的影響,因此需要通過標(biāo)準(zhǔn)化方法(通常采用歸一化、Normalization之類的方法)將數(shù)據(jù)進(jìn)行轉(zhuǎn)換。4)維度災(zāi)難:當(dāng)數(shù)據(jù)集中包含上百乃至上千萬的變量時,往往會提高模型的復(fù)雜度,從而影響模型的運行效率,所以需要采用方差分析、相關(guān)分析、主成分分析等手段實現(xiàn)降維。3.4建模型一般情況下,預(yù)處理將占整個數(shù)據(jù)挖掘流程80%左右的時間。在保證數(shù)據(jù)“干凈”的前提下,需要選出合適的模型。以下是常用的機器算法。1)分類模型:KNN、決策樹、邏輯回歸等。2)回歸模型:線性回歸、嶺回歸、支持向量回歸等。3)無監(jiān)督模型:k-means等。數(shù)據(jù)挖掘中大部分模型都不是專為解決某個問題而特制的,模型之間相互不排斥。不能說一個問題只能采用某個模型,其他的都不能用。通常來說,針對某個數(shù)據(jù)分析項目,并不存在所謂的最好的模型,在最終決定選擇哪種模型之前,各種模型都嘗試一下,然后再選取一個較好的。各種模型在不同的環(huán)境中,優(yōu)劣會有所不同。3.5評估模型評估階段主要是對建模結(jié)果進(jìn)行評估,目的是選出最佳的模型,讓這個模型能夠更好地反映數(shù)據(jù)的真實性。并不是每一次建模都能符合我們的目標(biāo),對效果較差的結(jié)果分析原因,偶爾也會返回前面的步驟對挖掘過程重新定義。比如,對于決策樹或者邏輯回歸,即使在訓(xùn)練集中表現(xiàn)良好,但在測試集中結(jié)果較差,說明該模型存在過擬合。3.6模型部署建立的模型需要解決實際的問題,它還包括了監(jiān)督、產(chǎn)生報表和重新評估模型等過程。很多時候建模一般使用spss、python、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二四年度智能化煤場租賃經(jīng)營合同3篇
- 職業(yè)技術(shù)學(xué)院教學(xué)診斷與改進(jìn)學(xué)習(xí)手冊
- 產(chǎn)褥期母嬰的護(hù)理主講人趙國璽
- 二零二五年度土地承包經(jīng)營權(quán)抵押合同范本編制
- 2025年度農(nóng)家院農(nóng)產(chǎn)品銷售合作租賃合同范本4篇
- 課題申報參考:明清近代文人圈層化及思想傾向、審美感知研究
- 2025年度個人與公司租賃保證金合同3篇
- 二零二五年度工器具庫存管理及采購合同3篇
- 二零二五年度高端住宅內(nèi)墻涂料個性化定制合同4篇
- 江蘇省啟東市匯龍中學(xué)2013屆高三高考考前輔導(dǎo)語文試題(含答案)
- 發(fā)電機停電故障應(yīng)急預(yù)案
- 接電的施工方案
- 常用藥物作用及副作用課件
- 幼兒阿拉伯?dāng)?shù)字描紅(0-100)打印版
- 社會組織等級評估報告模板
- GB/T 12173-2008礦用一般型電氣設(shè)備
- 2023年1月浙江高考英語聽力試題及答案(含MP3+錄音原文)
- 新媒體研究方法教學(xué)ppt課件(完整版)
- 2020新版?zhèn)€人征信報告模板
- 東芝空調(diào)維修故障代碼匯總
- 工藝管道儀表流程圖(共68頁).ppt
評論
0/150
提交評論