數(shù)據(jù)挖掘入門教程是什么

上傳人：7*** IP屬地：湖北上傳時(shí)間：2022-02-18 格式：DOC 頁(yè)數(shù)：8 大?。?84.50KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩3頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘入門教程是什么近幾年,大數(shù)據(jù)被炒得火熱,一大批“不明覺厲”的朋友蜂擁而至,希望能進(jìn)入這個(gè)行業(yè)大撈一把, 但眾多撞破頭也沒(méi)擠進(jìn)去。根本原因就是根本沒(méi)有理解什么是數(shù)據(jù)挖掘, 理解數(shù)據(jù)挖掘的相關(guān)概念, 所以, 今天小編就為大家講幾點(diǎn)數(shù) 據(jù)挖掘的入門必知的概念。1、 DataMining 和統(tǒng)計(jì)分析有什么不同?硬要去區(qū)分 DataMining 和 Statistics 的差異其實(shí)是沒(méi)有太大意義的。一般將之定義為 DataMining 技術(shù)的 CART 、 CHAID 或模糊計(jì)算等等理論方法,也都是由統(tǒng)計(jì)學(xué)者根據(jù)統(tǒng)計(jì)理論所發(fā)展衍生, 換另一個(gè)角度看, DataMining 有相當(dāng)大

2、的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。但是為什么 DataMining 的出現(xiàn)會(huì)引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計(jì)分析而言, DataMining 有下列幾項(xiàng)特性:處理大量實(shí)際數(shù)據(jù)更強(qiáng)勢(shì), 且無(wú)須太專業(yè)的統(tǒng)計(jì)背景去使用 DataMining 的工具;數(shù)據(jù)分析趨勢(shì)為從大型數(shù)據(jù)庫(kù)抓取所需數(shù)據(jù)并使用專屬計(jì)算機(jī)分析軟件, DataMining 的工具更符合企業(yè)需求;純就理論的基礎(chǔ)點(diǎn)來(lái)看, DataMining 和統(tǒng)計(jì)分析有應(yīng)用上的差別,畢竟 DataMining 目的是方便企業(yè)終端用戶使用而非給統(tǒng)計(jì)學(xué)家檢測(cè)用的。 2、 OLAP 能不能代替 DataMining ?所謂 OLA

3、P (OnlineAnalyticalProcess 意指由數(shù)據(jù)庫(kù)所連結(jié)出來(lái)的在線分析處理程序。有些人會(huì)說(shuō):我已經(jīng)有 OLAP 的工具了,所以我不需要 DataMining 。事實(shí)上兩者間是截然不同的,主要差異在于 DataMining 用在產(chǎn)生假設(shè), OLAP 則用于查證假設(shè)。簡(jiǎn)單來(lái)說(shuō), OLAP 是由使用者所主導(dǎo),使用者先有一些假設(shè),然后利用 OLAP 來(lái)查證假設(shè)是否成立;而 DataMining 則是用來(lái)幫助使用者產(chǎn)生假設(shè)。所以在使用 OLAP 或其它 Query 的工具時(shí),使用者是自己在做探索(Exploration ,但 DataMining 是用工具在幫助做探索。舉個(gè)

4、例子來(lái)看, 一市場(chǎng)分析師在為超市規(guī)劃貨品架柜擺設(shè)時(shí), 可能會(huì)先假設(shè) 嬰兒尿布和嬰兒奶粉會(huì)是常被一起購(gòu)買的產(chǎn)品,接著便可利用 OLAP 的工具去驗(yàn)證此假設(shè)是否為真,又成立的證據(jù)有多明顯;但 DataMining 則不然,執(zhí)行 DataMining 的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設(shè)或期待可能的結(jié)果, 透過(guò) Mining 技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則, 于是我們可能得到例如尿布和啤酒常被同時(shí)購(gòu)買的意料外之發(fā)現(xiàn), 這是 OLAP 所做不到的。 DataMining常能挖掘出超越歸納范圍的關(guān)系,但 OLAP 僅能利用人工查詢及可視化的報(bào)表來(lái) 確認(rèn)某些關(guān)系,是以 DataMining 此種

5、自動(dòng)找出甚至不會(huì)被懷疑過(guò)的數(shù)據(jù)模型與關(guān)系的特性,事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制, OLAP 可以和 DataMining 互補(bǔ),但這項(xiàng)特性是 DataMining 無(wú)法被 OLAP 取代的。 3、完整的 DataMining 包含哪些步驟?以下提供一個(gè) DataMining 的進(jìn)行步驟以為參考:理解業(yè)務(wù)與理解數(shù)據(jù);獲取相關(guān)技術(shù)與知識(shí);整合與查詢數(shù)據(jù);去除錯(cuò)誤或不一致及不完整的數(shù)據(jù);由數(shù)據(jù)選取樣本先行試驗(yàn);建立數(shù)據(jù)模型實(shí)際 DataMining 的分析工作;測(cè)試與檢驗(yàn);找出假設(shè)并提出解釋;持續(xù)應(yīng)用于企業(yè)流程中。由上述步驟可看出, DataMining 牽涉了大量的準(zhǔn)備工作與規(guī)劃過(guò)程

6、, 事實(shí) 上許多專家皆認(rèn)為整套 DataMining 的進(jìn)行有 80%的時(shí)間精力是花費(fèi)在數(shù)據(jù)前置作業(yè)階段,其中包含數(shù)據(jù)的凈化與格式轉(zhuǎn)換甚或表格的連結(jié)。由此可知 DataMining 只是信息挖掘過(guò)程中的一個(gè)步驟而已, 在進(jìn)行此步驟前還有許多的工作要先完成。 4、 DataMining 包含哪些主要功能?DataMining 實(shí)際應(yīng)用功能可分為三大類六分項(xiàng)來(lái)說(shuō)明:Classification 和 Clustering 屬于分類區(qū)隔類; Regression 和 Time-series 屬于推算預(yù)測(cè)類; Association 和 Sequence 則屬于序列規(guī)則類。Classificatio

7、n 是根據(jù)一些變量的數(shù)值做計(jì)算, 再依照結(jié)果作分類。 (計(jì)算的結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為“可能會(huì)響應(yīng)” 或是 “可能不會(huì)響應(yīng)” 兩類。 Classification 常被用來(lái)處理如前所述之郵寄對(duì)象篩選的問(wèn)題。我們會(huì)用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的數(shù)據(jù)來(lái)研究它們的特征, 然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。這些我們用來(lái)尋找特征的已分類數(shù)據(jù)可能是來(lái)自我們的現(xiàn)有的客戶數(shù)據(jù), 或是將一個(gè)完整數(shù)據(jù)庫(kù)做部份取樣, 再經(jīng)由實(shí)際的運(yùn)作來(lái)測(cè)試; 譬如利用一個(gè)大型郵寄對(duì)象數(shù)據(jù)庫(kù)的部份取樣來(lái)建立一個(gè) ClassificationModel ,再利用這個(gè) Mo

8、del 來(lái)對(duì)數(shù)據(jù)庫(kù)的其它數(shù) 據(jù)或是新的數(shù)據(jù)作分類預(yù)測(cè)。Clustering 用在將數(shù)據(jù)分群, 其目的在于將群間的差異找出來(lái), 同時(shí)也將群內(nèi)成員的相似性找出來(lái)。 Clustering 與 Classification 不同的是,在分析前并不知道會(huì)以何種方式或根據(jù)來(lái)分類。所以必須要配合專業(yè)領(lǐng)域知識(shí)來(lái)解讀這些分群的意義。 Regression 是使用一系列的現(xiàn)有數(shù)值來(lái)預(yù)測(cè)一個(gè)連續(xù)數(shù)值的可能值。若將范圍擴(kuò)大亦可利用 LogisticRegression 來(lái)預(yù)測(cè)類別變量,特別在廣泛運(yùn)用現(xiàn)代分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹理論等分析工具, 推估預(yù)測(cè)的模式已不在止于傳統(tǒng)線性的局限,在預(yù)測(cè)的功能上大大增

9、加了選擇工具的彈性與應(yīng)用范圍的廣度。Time-SeriesForecasting 與 Regression 功能類似, 只是它是用現(xiàn)有的數(shù)值來(lái)預(yù)測(cè)未來(lái)的數(shù)值。兩者最大差異在于 Time-Series 所分析的數(shù)值都與時(shí)間有關(guān)。 Time-SeriesForecasting 的工具可以處理有關(guān)時(shí)間的一些特性,譬如時(shí)間的周期性、階層性、季節(jié)性以及其它的一些特別因素 (如過(guò)去與未來(lái)的關(guān)連性。Association 是要找出在某一事件或是數(shù)據(jù)中會(huì)同時(shí)出現(xiàn)的東西。舉例而言, 如果 A 是某一事件的一種選擇,則 B 也出現(xiàn)在該事件中的機(jī)率有多少。 (例如:如果顧客買了火腿和柳橙汁,那么這個(gè)顧

10、客同時(shí)也會(huì)買牛奶的機(jī)率是 85%。 SequenceDiscovery 與 Association 關(guān)系很密切,所不同的是 Sequence Discovery 中事件的相關(guān)是以時(shí)間因素來(lái)作區(qū)隔 (例如:如果 A股票在某一天上千鋒大數(shù)據(jù) 視頻教程漲 12%，而且當(dāng)天股市加權(quán)指數(shù)下降，則 B 股票在兩天之內(nèi)上漲的機(jī)率是 68%） 5、Data Warehousing 和 Data Mining 的關(guān)系為何？若將 Data Warehousing（數(shù)據(jù)倉(cāng)庫(kù)）比喻作礦坑，Data Mining 就是深入礦坑采礦的工作。畢竟 Data Mining 不是一種無(wú)中生有的魔術(shù)，也不是點(diǎn)石成金

11、的煉金術(shù)，若沒(méi)有夠豐富完整的數(shù)據(jù)，是很難期待 Data Mining 能挖掘出什么有意義的信息的。要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息，必須先有效率地收集信息。隨著科技的進(jìn)步，功能完善的數(shù)據(jù)庫(kù)系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉(cāng)庫(kù)，簡(jiǎn)單地說(shuō)，就是搜集來(lái)自其它系統(tǒng)的有用數(shù)據(jù)，存放在一整合的儲(chǔ)存區(qū)內(nèi)。所以其實(shí) 就是一個(gè)經(jīng)過(guò)處理整合，且容量特別大的關(guān)系型數(shù)據(jù)庫(kù)，用以儲(chǔ)存決策支持系統(tǒng) （Design Support System）所需的數(shù)據(jù)，供決策支持或數(shù)據(jù)分析使用。從信息技術(shù)的角度來(lái)看，數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)是在組織中，在正確的時(shí)間，將正確的數(shù)據(jù)交給正確的人。許多人對(duì)于 Data Warehousing 和 Data Mining 時(shí)常混淆，不知如何分辨。其實(shí)，數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)新主題，利用計(jì)算機(jī)系統(tǒng)幫助我們操作、計(jì) 算和思考，讓作業(yè)方式改變，決策方式也跟著改變。數(shù)據(jù)倉(cāng)庫(kù)本身是一個(gè)非常大的數(shù)據(jù)庫(kù)，它儲(chǔ)存著由組織作業(yè)數(shù)據(jù)庫(kù) 中整合做真實(shí)的自己-用良心做教育千鋒大數(shù)據(jù) 視頻教程而來(lái)的數(shù)據(jù)，特別是指事務(wù)處理系統(tǒng) OLTP （On-Line Transactional Processing）所得來(lái)的數(shù)據(jù)。將這些整合過(guò)的數(shù)據(jù)置放于數(shù)據(jù)昂哭中，而公司的決策者則利用這些數(shù)據(jù)作決策；但是，這個(gè)轉(zhuǎn)換及整合數(shù)據(jù)的過(guò)程，是建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)最大

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘入門教程是什么

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘入門教程是什么

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔