版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、說(shuō)實(shí)話,建模期間學(xué)到的知識(shí)量比較大,但是不深入,建模期間時(shí)間緊張,也是效率優(yōu)先, 掘(Data Mining)是通過(guò)分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、 規(guī)律尋找和規(guī)律表示 3 個(gè)步驟。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類(lèi)分析、分類(lèi)分析、異常 分析、特異群組分析和演變分析等。 來(lái)自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息 引和查詢(xún)處理支持。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。 分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要??吹贸鰜?lái)該方法與遺傳算法的聯(lián)系,完全可以考慮在兩者之間建立一些聯(lián)
2、系11)數(shù)據(jù)挖掘能做以下七種不同事情數(shù)據(jù)挖掘 估計(jì)(Estimation) 預(yù)測(cè)(Prediction) 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules) 聚類(lèi)(Clustering) 描述和可視化(Description and Visualization)(Text, Web ,圖形圖像,視頻,音頻等)(分析方法):22)數(shù)據(jù)挖掘分類(lèi)以上七種數(shù)據(jù)挖掘的分析方法可以分為兩類(lèi):直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘 解成數(shù)據(jù)庫(kù)中表的屬性,即列)進(jìn)行描述。 分類(lèi)、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后四種屬于間接數(shù)據(jù)挖掘3)各種分析方法的簡(jiǎn)介分類(lèi) (Classif
3、ication ) 首先從數(shù)據(jù)中選出已經(jīng)分好類(lèi)的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類(lèi)的技術(shù),建立分類(lèi)模型,對(duì)于沒(méi)有分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi)。 a. 信用卡申請(qǐng)者,分類(lèi)為低、中、高風(fēng)險(xiǎn)b. 故障診斷:中國(guó)寶鋼集團(tuán)與上海天律信息技術(shù)有限公司合作,采用數(shù)據(jù)挖掘技術(shù)對(duì)鋼材 估計(jì)(Estimation ) 估計(jì)與分類(lèi)類(lèi)似,不同之處在于,分類(lèi)描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類(lèi)數(shù)據(jù)挖掘的類(lèi)別是確定數(shù)目的,估值的量是不確定的。a. 根據(jù)購(gòu)買(mǎi)模式,估計(jì)一個(gè)家庭的孩子個(gè)數(shù)b. 根據(jù)購(gòu)買(mǎi)模式,估計(jì)一個(gè)家庭的收入 續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進(jìn)行分類(lèi)。例如:銀行對(duì)家庭貸款業(yè)務(wù),運(yùn)用估值,給各個(gè)
4、客戶(hù)記分(Score 01)。然后,根據(jù)閾值,將貸款級(jí)別分類(lèi)。 預(yù)測(cè)(Prediction) 對(duì)未知變 量的預(yù)言。從這種意義上說(shuō),預(yù)言其實(shí)沒(méi)有必要分為一個(gè)單獨(dú)的類(lèi)。預(yù)言其目的 是對(duì)未來(lái)未知變量的預(yù)測(cè),這種預(yù)測(cè)是需要時(shí)間來(lái)驗(yàn)證的,即必須經(jīng)過(guò)一定時(shí)間后, 才知道預(yù)言準(zhǔn)確性是多少。 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules) 決定哪些事情將一起發(fā)生。b. 客戶(hù)在購(gòu)買(mǎi) A 后,隔一段時(shí)間,會(huì)購(gòu)買(mǎi) B (序列分析) 聚類(lèi)(Clustering) 義好的類(lèi),不需要訓(xùn)練集。a. 一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病 整個(gè)客戶(hù)做聚集,將客戶(hù)分組在
5、各自的聚集里,然后對(duì)每個(gè)不同的聚集,回答問(wèn)題,可能效 果更好。 描述和可視化(Description and Visualization)是對(duì)數(shù)據(jù)挖掘結(jié)果的數(shù)數(shù)據(jù)挖掘的步驟會(huì)隨不同領(lǐng)域的應(yīng)用而有所變化,每一種數(shù)據(jù)挖掘技術(shù)也會(huì)有各自的特性和 使用步驟,針對(duì)不同問(wèn)題和需求所制定的數(shù)據(jù)挖掘過(guò)程也會(huì)存在差異。此 外,數(shù)據(jù)的完整在各不同領(lǐng)在各不同領(lǐng)域中的運(yùn)用、規(guī)劃,以及流程的差異性,即使 同一產(chǎn)業(yè),也會(huì)因?yàn)榉治黾夹g(shù)和 如此一來(lái),不僅可以較容易地跨領(lǐng)域應(yīng) 用,也可以結(jié)合不同的專(zhuān)業(yè)知識(shí),發(fā)揮數(shù)據(jù)挖掘的 如下: 理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源(understanding)。 獲取相關(guān)知識(shí)與技術(shù)(acquisition)
6、。 整合與檢查數(shù)據(jù)(integration and checking)。 去除錯(cuò)誤或不一致的數(shù)據(jù)(data cleaning)。 建立模型和假設(shè)(model and hypothesis development)。 實(shí)際數(shù)據(jù)挖掘工作(data mining)。 測(cè)試和驗(yàn)證挖掘結(jié)果(testing and verification)。 解釋和應(yīng)用(interpretation and use)。 套數(shù)據(jù)挖 掘的過(guò)程中,有80%的時(shí)間和精力是花費(fèi)在數(shù)據(jù)預(yù)處理階段,其中包括數(shù)據(jù)的凈 化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合,以及數(shù)據(jù)表的鏈接??梢?jiàn),在進(jìn)行數(shù)據(jù)挖掘技術(shù)的 分析之 前,還有許多準(zhǔn)備工作要完成。 編輯本
7、段數(shù)據(jù)挖掘在行業(yè)中的應(yīng)用電信行業(yè) 價(jià)格競(jìng)爭(zhēng) 中國(guó)電信業(yè)改革的加速推進(jìn)形成了新的競(jìng)爭(zhēng)態(tài)勢(shì),移動(dòng)運(yùn)營(yíng) 市場(chǎng)的競(jìng)爭(zhēng)廣度和強(qiáng)度將進(jìn)一 爭(zhēng)、獲取持續(xù)增長(zhǎng)的新引擎。 隨著國(guó)內(nèi)三足鼎立全業(yè)務(wù)競(jìng)爭(zhēng)態(tài)勢(shì)和 3G 牌照發(fā)放,各運(yùn)營(yíng)商為集團(tuán)客戶(hù)提供融合的信息化解決方案 將是大勢(shì)所趨,而移動(dòng)信息化將成為全面進(jìn) 入信息化服務(wù)領(lǐng)域的先導(dǎo)力量。傳統(tǒng)移動(dòng)運(yùn)營(yíng)商因此面臨著從傳統(tǒng)個(gè)人業(yè)務(wù)轉(zhuǎn)向同時(shí)拓展集 團(tuán)客戶(hù)信息化業(yè)務(wù)領(lǐng)域的挑 戰(zhàn)。如何應(yīng)對(duì)來(lái)自?xún)?nèi)外部的挑戰(zhàn),迅速以移動(dòng)信息化業(yè)務(wù)作為 拓展集團(tuán)客戶(hù)信息化市場(chǎng)的過(guò)程中所面 臨的外部挑戰(zhàn)主要來(lái)自三個(gè)方面,即市場(chǎng)需求不成 熟,技術(shù)與業(yè)務(wù)融合,全業(yè)務(wù)的競(jìng)爭(zhēng)。同時(shí),運(yùn)營(yíng)商在自身發(fā)展上也存在諸
8、多問(wèn)題,例如目 標(biāo)市場(chǎng)細(xì)分不清晰,信 息化需求挖掘與評(píng)估不足;產(chǎn)品規(guī)劃和管理難以滿(mǎn)足客戶(hù)信息化需 求;渠道較為單一,無(wú)法有效覆蓋客戶(hù);對(duì)合作伙伴吸引力較弱,尚未形成共贏的價(jià)值鏈;數(shù)數(shù)據(jù)挖掘十大經(jīng)典算法1 。C4.5:是機(jī)器學(xué)習(xí)算法中的一種分類(lèi)決策樹(shù)算法,其核心算法是ID3 算法。 2. K-means 算法:是一種聚類(lèi)算法。 3.SVM:一種監(jiān)督式學(xué)習(xí)方法,廣泛運(yùn)用于統(tǒng)計(jì)分類(lèi)以及回歸分析中 4.Apriori :是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。 7. Adaboost:是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類(lèi)器然后把弱 分類(lèi)器*起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類(lèi)器。
9、 8.KNN:是一個(gè)理論上比較成熟的的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)方法之一。9.Naive Bayes:在眾多分類(lèi)方法中,應(yīng)用最廣泛的有決策樹(shù)模型和樸素貝葉斯( Naive 10.Cart:分類(lèi)與回歸樹(shù),在分類(lèi)樹(shù)下面有兩個(gè)關(guān)鍵的思想,第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法,第二個(gè)是用驗(yàn)證數(shù)據(jù)進(jìn)行減枝?;緟⒖紩?shū) 簡(jiǎn)單推薦最負(fù)盛名的數(shù)據(jù)挖掘著作,但版本較老,對(duì)讀者的計(jì)算機(jī)尤其是數(shù)據(jù)庫(kù)背景要求較高。 應(yīng)用到各自的領(lǐng)域”。覆蓋了多學(xué)科應(yīng)用實(shí)例,對(duì)讀者數(shù)學(xué)和計(jì)算機(jī)背景要求較低。海書(shū)局Yuchun Lee et al. (1998), Solving Data Mining Problems Throug
10、h Pattern Recognition , ISBN 0-13-095083-1Oded Maimon and Mark Last (2000), Knowledge Discovery and Data Mining - The Info-Fuzzy Network (IFN) Methodology, Kluwer Academic Publishers. ISBN 0-7923-6647-6Sholom Weiss and Nitin Indurkhya(1998). Predictive Data Mining. Morgan Kaufman. ISBN 1-55860-403-0Ian Witten and Eibe Fran
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 衣服銷(xiāo)售員工作心得-文檔
- 2025地坪、圍墻工程合同
- 2025圖書(shū)委托出版合同
- 2025項(xiàng)目合同書(shū)參考式樣
- 2025年度生物科技合伙人合作協(xié)議3篇
- 2025年度年度辦公用房租賃合同(含家具配備)
- 二零二五年度生態(tài)保護(hù)項(xiàng)目經(jīng)理委托協(xié)議3篇
- 二零二五年度農(nóng)業(yè)種植與農(nóng)業(yè)知識(shí)產(chǎn)權(quán)保護(hù)合作協(xié)議3篇
- 2025年度商業(yè)綜合體個(gè)人租賃合同3篇
- 2025年度上市公司股份收購(gòu)及轉(zhuǎn)讓協(xié)議書(shū)范本3篇
- fsQCA方法與案例分析
- 中國(guó)火鍋文化課件
- 礦產(chǎn)貿(mào)易風(fēng)險(xiǎn)管控
- 湖南省湘西自治州四校2025屆高二數(shù)學(xué)第一學(xué)期期末質(zhì)量檢測(cè)試題含解析
- 期末 (試題) -2024-2025學(xué)年川教版(三起)英語(yǔ)五年級(jí)上冊(cè)
- 2025屆四川省新高考八省適應(yīng)性聯(lián)考模擬演練 生物試卷(含答案)
- 安全生產(chǎn)方案及保證措施
- 非物質(zhì)文化遺產(chǎn)主題班會(huì)之英歌舞課件
- 柯橋區(qū)五年級(jí)上學(xué)期語(yǔ)文期末學(xué)業(yè)評(píng)價(jià)測(cè)試試卷
- 中國(guó)礦業(yè)大學(xué)《自然辯證法》2022-2023學(xué)年期末試卷
- TCWAN 0105-2024 攪拌摩擦焊接機(jī)器人系統(tǒng)技術(shù)條件
評(píng)論
0/150
提交評(píng)論