數(shù)據(jù)挖掘入門教程是什么_第1頁(yè)
數(shù)據(jù)挖掘入門教程是什么_第2頁(yè)
數(shù)據(jù)挖掘入門教程是什么_第3頁(yè)
數(shù)據(jù)挖掘入門教程是什么_第4頁(yè)
數(shù)據(jù)挖掘入門教程是什么_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘入門教程是什么近幾年,大數(shù)據(jù)被炒得火熱,一大批“不明覺厲”的朋友蜂擁而至,希望能 進(jìn)入這個(gè)行業(yè)大撈一把, 但眾多撞破頭也沒(méi)擠進(jìn)去。 根本原因就是根本沒(méi)有理解 什么是數(shù)據(jù)挖掘, 理解數(shù)據(jù)挖掘的相關(guān)概念, 所以, 今天小編就為大家講幾點(diǎn)數(shù) 據(jù)挖掘的入門必知的概念。1、 DataMining 和統(tǒng)計(jì)分析有什么不同?硬要去區(qū)分 DataMining 和 Statistics 的差異其實(shí)是沒(méi)有太大意義的。 一般 將之定義為 DataMining 技術(shù)的 CART 、 CHAID 或模糊計(jì)算等等理論方法,也 都是由統(tǒng)計(jì)學(xué)者根據(jù)統(tǒng)計(jì)理論所發(fā)展衍生, 換另一個(gè)角度看, DataMining 有相 當(dāng)大

2、的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。 但是為什么 DataMining 的 出現(xiàn)會(huì)引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計(jì)分析而言, DataMining 有下列幾項(xiàng)特性:處理大量實(shí)際數(shù)據(jù)更強(qiáng)勢(shì), 且無(wú)須太專業(yè)的統(tǒng)計(jì)背景去使用 DataMining 的 工具;數(shù)據(jù)分析趨勢(shì)為從大型數(shù)據(jù)庫(kù)抓取所需數(shù)據(jù)并使用專屬計(jì)算機(jī)分析軟件, DataMining 的工具更符合企業(yè)需求;純就理論的基礎(chǔ)點(diǎn)來(lái)看, DataMining 和統(tǒng)計(jì)分析有應(yīng)用上的差別,畢竟 DataMining 目的是方便企業(yè)終端用戶使用而非給統(tǒng)計(jì)學(xué)家檢測(cè)用的。 2、 OLAP 能不能代替 DataMining ?所謂 OLA

3、P (OnlineAnalyticalProcess 意指由數(shù)據(jù)庫(kù)所連結(jié)出來(lái)的在線 分析處理程序。有些人會(huì)說(shuō):我已經(jīng)有 OLAP 的工具了,所以我不需要 DataMining 。 事實(shí)上兩者間是截然不同的,主要差異在于 DataMining 用在 產(chǎn)生假設(shè), OLAP 則用于查證假設(shè)。簡(jiǎn)單來(lái)說(shuō), OLAP 是由使用者所主導(dǎo),使用 者先有一些假設(shè),然后利用 OLAP 來(lái)查證假設(shè)是否成立;而 DataMining 則是 用來(lái)幫助使用者產(chǎn)生假設(shè)。所以在使用 OLAP 或其它 Query 的工具時(shí),使用者 是自己在做探索(Exploration ,但 DataMining 是用工具在幫助做探索。 舉個(gè)

4、例子來(lái)看, 一市場(chǎng)分析師在為超市規(guī)劃貨品架柜擺設(shè)時(shí), 可能會(huì)先假設(shè) 嬰兒尿布和嬰兒奶粉會(huì)是常被一起購(gòu)買的產(chǎn)品,接著便可利用 OLAP 的工具去 驗(yàn)證此假設(shè)是否為真,又成立的證據(jù)有多明顯;但 DataMining 則不然,執(zhí)行 DataMining 的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設(shè)或期待可能的結(jié)果, 透過(guò) Mining 技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則, 于是我們可能得到例如尿布 和啤酒常被同時(shí)購(gòu)買的意料外之發(fā)現(xiàn), 這是 OLAP 所做不到的。 DataMining常能挖掘出超越歸納范圍的關(guān)系,但 OLAP 僅能利用人工查詢及可視化的報(bào)表來(lái) 確認(rèn)某些關(guān)系,是以 DataMining 此種

5、自動(dòng)找出甚至不會(huì)被懷疑過(guò)的數(shù)據(jù)模型 與關(guān)系的特性,事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制, OLAP 可以和 DataMining 互補(bǔ),但這項(xiàng)特性是 DataMining 無(wú)法被 OLAP 取代的。 3、完整的 DataMining 包含哪些步驟?以下提供一個(gè) DataMining 的進(jìn)行步驟以為參考:理解業(yè)務(wù)與理解數(shù)據(jù);獲取相關(guān)技術(shù)與知識(shí);整合與查詢數(shù)據(jù);去除錯(cuò)誤或不一致及不完整的數(shù)據(jù);由數(shù)據(jù)選取樣本先行試驗(yàn);建立數(shù)據(jù)模型實(shí)際 DataMining 的分析工作;測(cè)試與檢驗(yàn);找出假設(shè)并提出解釋;持續(xù)應(yīng)用于企業(yè)流程中。由上述步驟可看出, DataMining 牽涉了大量的準(zhǔn)備工作與規(guī)劃過(guò)程

6、, 事實(shí) 上許多專家皆認(rèn)為整套 DataMining 的進(jìn)行有 80%的時(shí)間精力是花費(fèi)在數(shù)據(jù)前 置作業(yè)階段,其中包含數(shù)據(jù)的凈化與格式轉(zhuǎn)換甚或表格的連結(jié)。由此可知 DataMining 只是信息挖掘過(guò)程中的一個(gè)步驟而已, 在進(jìn)行此步驟前還有許多的 工作要先完成。 4、 DataMining 包含哪些主要功能?DataMining 實(shí)際應(yīng)用功能可分為三大類六分項(xiàng)來(lái)說(shuō)明:Classification 和 Clustering 屬于分類區(qū)隔類; Regression 和 Time-series 屬于推算預(yù)測(cè)類; Association 和 Sequence 則屬于序列規(guī)則類。Classificatio

7、n 是根據(jù)一些變量的數(shù)值做計(jì)算, 再依照結(jié)果作分類。 (計(jì)算的 結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為“可能會(huì)響應(yīng)” 或是 “可能不會(huì)響應(yīng)” 兩類 。 Classification 常被用來(lái)處理如前所述之郵寄對(duì)象 篩選的問(wèn)題。我們會(huì)用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的數(shù)據(jù)來(lái)研究它們的特征, 然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。 這些我們用來(lái)尋找特 征的已分類數(shù)據(jù)可能是來(lái)自我們的現(xiàn)有的客戶數(shù)據(jù), 或是將一個(gè)完整數(shù)據(jù)庫(kù)做部 份取樣, 再經(jīng)由實(shí)際的運(yùn)作來(lái)測(cè)試; 譬如利用一個(gè)大型郵寄對(duì)象數(shù)據(jù)庫(kù)的部份取 樣來(lái)建立一個(gè) ClassificationModel ,再利用這個(gè) Mo

8、del 來(lái)對(duì)數(shù)據(jù)庫(kù)的其它數(shù) 據(jù)或是新的數(shù)據(jù)作分類預(yù)測(cè)。Clustering 用在將數(shù)據(jù)分群, 其目的在于將群間的差異找出來(lái), 同時(shí)也將群 內(nèi)成員的相似性找出來(lái)。 Clustering 與 Classification 不同的是,在分析前并不 知道會(huì)以何種方式或根據(jù)來(lái)分類。所以必須要配合專業(yè)領(lǐng)域知識(shí)來(lái)解讀這些分群的意義。 Regression 是使用一系列的現(xiàn)有數(shù)值來(lái)預(yù)測(cè)一個(gè)連續(xù)數(shù)值的可能值。若將 范圍擴(kuò)大亦可利用 LogisticRegression 來(lái)預(yù)測(cè)類別變量,特別在廣泛運(yùn)用現(xiàn)代 分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹理論等分析工具, 推估預(yù)測(cè)的模式已不在止于傳 統(tǒng)線性的局限,在預(yù)測(cè)的功能上大大增

9、加了選擇工具的彈性與應(yīng)用范圍的廣度。Time-SeriesForecasting 與 Regression 功能類似, 只是它是用現(xiàn)有的數(shù)值 來(lái)預(yù)測(cè)未來(lái)的數(shù)值。兩者最大差異在于 Time-Series 所分析的數(shù)值都與時(shí)間有 關(guān)。 Time-SeriesForecasting 的工具可以處理有關(guān)時(shí)間的一些特性,譬如時(shí)間 的周期性、 階層性、 季節(jié)性以及其它的一些特別因素 (如過(guò)去與未來(lái)的關(guān)連性 。Association 是要找出在某一事件或是數(shù)據(jù)中會(huì)同時(shí)出現(xiàn)的東西。 舉例而言, 如果 A 是某一事件的一種選擇,則 B 也出現(xiàn)在該事件中的機(jī)率有多少。 (例如:如果顧客買了火腿和柳橙汁,那么這個(gè)顧

10、客同時(shí)也會(huì)買牛奶的機(jī)率是 85%。 SequenceDiscovery 與 Association 關(guān)系很密切,所不同的是 Sequence Discovery 中事件的相關(guān)是以時(shí)間因素來(lái)作區(qū)隔 (例如:如果 A股票在某一天上千鋒 大數(shù)據(jù) 視頻教程 漲 12%, 而且當(dāng)天股市加權(quán)指數(shù)下降, 則 B 股票在兩天之內(nèi)上漲的機(jī)率是 68%) 5、Data Warehousing 和 Data Mining 的關(guān)系為何? 若將 Data Warehousing(數(shù)據(jù)倉(cāng)庫(kù))比喻作礦坑,Data Mining 就是深 入礦坑采礦的工作。畢竟 Data Mining 不是一種無(wú)中生有的魔術(shù),也不是點(diǎn)石 成金

11、的煉金術(shù),若沒(méi)有夠豐富完整的數(shù)據(jù),是很難期待 Data Mining 能挖掘出 什么有意義的信息的。 要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技 的進(jìn)步,功能完善的數(shù)據(jù)庫(kù)系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉(cāng)庫(kù),簡(jiǎn)單 地說(shuō),就是搜集來(lái)自其它系統(tǒng)的有用數(shù)據(jù),存放在一整合的儲(chǔ)存區(qū)內(nèi)。所以其實(shí) 就是一個(gè)經(jīng)過(guò)處理整合, 且容量特別大的關(guān)系型數(shù)據(jù)庫(kù),用以儲(chǔ)存決策支持系統(tǒng) (Design Support System)所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。從信息 技術(shù)的角度來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)是在組織中,在正確的時(shí)間,將正確的數(shù)據(jù)交 給正確的人。 許多人對(duì)于 Data Warehousing 和 Data Mining 時(shí)常混淆, 不知如何分辨。 其實(shí),數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)新主題,利用計(jì)算機(jī)系統(tǒng)幫助我們操作、計(jì) 算和思考,讓作業(yè)方式改變,決策方式也跟著改變。 數(shù)據(jù)倉(cāng)庫(kù)本身是一個(gè)非常大的數(shù)據(jù)庫(kù),它儲(chǔ)存著由組織作業(yè)數(shù)據(jù)庫(kù) 中整合 做真實(shí)的自己-用良心做教育 千鋒 大數(shù)據(jù) 視頻教程 而來(lái)的數(shù)據(jù), 特別是指事務(wù)處理系統(tǒng) OLTP (On-Line Transactional Processing) 所得來(lái)的數(shù)據(jù)。 將這些整合過(guò)的數(shù)據(jù)置放于數(shù)據(jù)昂哭中,而公司的決策者則利用 這些數(shù)據(jù)作決策;但是,這個(gè)轉(zhuǎn)換及整合數(shù)據(jù)的過(guò)程,是建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)最大

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論