




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)挖掘技術 三數(shù)據(jù)挖掘技術(三)2010年11月13日下午07:25數(shù)據(jù)挖掘技術實現(xiàn)在技術上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲和管理、數(shù)據(jù)的展現(xiàn)等關鍵技術。數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質中導入數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術上主要涉及互連、復制、增量、轉換、調度和監(jiān)控等幾個方面的處理。在數(shù)據(jù)抽取方面,未來的技術發(fā)展將集中在系統(tǒng)功能集成化方面,以適應數(shù)據(jù)倉庫本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護。數(shù)據(jù)的存儲和管理數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,
2、也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉庫管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務處理大得多,且隨時間的推移而快速累積。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫廠家提供的技術解決方案是擴展關系型數(shù)據(jù)庫的功能,將普通關系數(shù)據(jù)庫改造成適合擔當數(shù)據(jù)倉庫的服務器。數(shù)據(jù)的展現(xiàn)在數(shù)據(jù)展現(xiàn)方面主要的方式有:查詢:實現(xiàn)預定義查詢、動態(tài)查詢、OLAP查詢與決策支持智能查詢;報表:產(chǎn)生關系數(shù)據(jù)表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動態(tài)模擬、計算機動畫技術表現(xiàn)復雜數(shù)據(jù)及其相互關
3、系;統(tǒng)計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關于數(shù)據(jù)關系和模式的識。數(shù)據(jù)挖掘與數(shù)據(jù)倉庫融合發(fā)展數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的協(xié)同工作,一方面,可以迎合和簡化數(shù)據(jù)挖掘過程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來源的廣泛性和完整性。另一方面,數(shù)據(jù)挖掘技術已經(jīng)成為數(shù)據(jù)倉庫應用中極為重要和相對獨立的方面和工具。數(shù)據(jù)挖掘和數(shù)據(jù)倉庫是融合與互動發(fā)展的,其學術研究價值和應用研究前景將是令人振奮的。它是數(shù)據(jù)挖掘專家、數(shù)據(jù)倉庫技術人員和行業(yè)專家共同努力的成果,更是廣大渴望從數(shù)據(jù)庫奴隸到數(shù)據(jù)庫主人轉變的企業(yè)最終用戶的通途。統(tǒng)計學與數(shù)據(jù)
4、挖掘統(tǒng)計學和數(shù)據(jù)挖掘有著共同的目標:發(fā)現(xiàn)數(shù)據(jù)中的結構。事實上,由于它們的目標相似,一些人(尤其是統(tǒng)計學家)認為數(shù)據(jù)挖掘是統(tǒng)計學的分支。這是一個不切合實際的看法。因為數(shù)據(jù)挖掘還應用了其它領域的思想、工具和方法,尤其是計算機學科,例如數(shù)據(jù)庫技術和機器學習,而且它所關注的某些領域和統(tǒng)計學家所關注的有很大不同。1.統(tǒng)計學的性質試圖為統(tǒng)計學下一個太寬泛的定義是沒有意義的。盡管可能做到,但會引來很多異議。相反,我要關注統(tǒng)計學不同于數(shù)據(jù)挖掘的特性。差異之一同上節(jié)中最后一段提到的相關,即統(tǒng)計學是一門比較保守的學科,目前有一種趨勢是越來越精確。當然,這本身并不是壞事,只有越精確才能避免錯誤,發(fā)現(xiàn)真理。但是如果過
5、度的話則是有害的。這個保守的觀點源于統(tǒng)計學是數(shù)學的分支這樣一個看法,我是不同意這個觀點的,盡管統(tǒng)計學確實以數(shù)學為基礎(正如物理和工程也以數(shù)學為基礎,但沒有被認為是數(shù)學的分支),但它同其它學科還有緊密的聯(lián)系。數(shù)學背景和追求精確加強了這樣一個趨勢:在采用一個方法之前先要證明,而不是象計算機科學和機器學習那樣注重經(jīng)驗。這就意味著有時候和統(tǒng)計學家關注同一問題的其它領域的研究者提出一個很明顯有用的方法,但它卻不能被證明(或還不能被證明)。統(tǒng)計雜志傾向于發(fā)表經(jīng)過數(shù)學證明的方法而不是一些特殊方法。數(shù)據(jù)挖掘作為幾門學科的綜合,已經(jīng)從機器學習那里繼承了實驗的態(tài)度。這并不意味著數(shù)據(jù)挖掘工作者不注重精確,而只是說明
6、如果方法不能產(chǎn)生結果的話就會被放棄。正是統(tǒng)計文獻顯示了(或夸大了)統(tǒng)計的數(shù)學精確性。同時還顯示了其對推理的側重。盡管統(tǒng)計學的一些分支也側重于描述,但是瀏覽一下統(tǒng)計論文的話就會發(fā)現(xiàn)這些文獻的核心問題就是在觀察了樣本的情況下如何去推斷總體。當然這也常常是數(shù)據(jù)挖掘所關注的。下面我們會提到數(shù)據(jù)挖掘的一個特定屬性就是要處理的是一個大數(shù)據(jù)集。這就意味著,由于可行性的原因,我們常常得到的只是一個樣本,但是需要描述樣本取自的那個大數(shù)據(jù)集。然而,數(shù)據(jù)挖掘問題常??梢缘玫綌?shù)據(jù)總體,例如關于一個公司的所有職工數(shù)據(jù),數(shù)據(jù)庫中的所有客戶資料,去年的所有業(yè)務。在這種情形下,推斷就沒有價值了(例如,年度業(yè)務的平均值),因為
7、觀測到的值也就是估計參數(shù)。這就意味著,建立的統(tǒng)計模型可能會利用一系列概率表述(例如,一些參數(shù)接近于0,則會從模型中剔除掉),但當總體數(shù)據(jù)可以獲得的話,在數(shù)據(jù)挖掘中則變得毫無意義。在這里,我們可以很方便的應用評估函數(shù):針對數(shù)據(jù)的足夠的表述。事實是,常常所關注的是模型是否合適而不是它的可行性,在很多情形下,使得模型的發(fā)現(xiàn)很容易。例如,在尋找規(guī)則時常常會利用吻合度的單純特性(例如,應用分支定理)。但當我們應用概率陳述時則不會得到這些特性。統(tǒng)計學和數(shù)據(jù)挖掘部分交迭的第三個特性是在現(xiàn)代統(tǒng)計學中起核心作用的模型?;蛟S模型這個術語更多的含義是變化。一方面,統(tǒng)計學模型是基于分析變量間的聯(lián)系,但另一方面這些模型
8、關于數(shù)據(jù)的總體描述確實沒有道理的。關于信用卡業(yè)務的回歸模型可能會把收入作為一個獨立的變量,因為一般認為高收入會導致大的業(yè)務。這可能是一個理論模型(盡管基于一個不牢靠的理論)。與此相反,只需在一些可能具有解釋意義的變量基礎上進行逐步的搜索,從而獲得一個有很大預測價值的模型,盡管不能作出合理的解釋。(通過數(shù)據(jù)挖掘去發(fā)現(xiàn)一個模型的時候,常常關注的就是后者)。還有其它方法可以區(qū)分統(tǒng)計模型,但在這里我將不作探討。這里我想關注的是,現(xiàn)代統(tǒng)計學是以模型為主的。而計算,模型選擇條件是次要的,只是如何建立一個好的模型。但在數(shù)據(jù)挖掘中,卻不完全是如此。在數(shù)據(jù)挖掘中,準則起了核心的作用。(當然在統(tǒng)計學中有一些以準則
9、為中心的獨立的特例。Gifi的關于學校的非線性多變量分析就是其中之一。例如,Gifi說,在本書中我們持這樣的觀點,給定一些最常用的MVA(多變量分析)問題,既可以從模型出發(fā)也可以技術出發(fā)。正如我們已經(jīng)在1.1節(jié)所看到的基于模型的經(jīng)典的多變量統(tǒng)計分析,然而,在很多情形下,模型的選擇并不都是顯而易見的,選擇一個合適的模型是不可能的,最合適的計算方法也是不可行的。在這種情形下,我們從另外一個角度出發(fā),應用設計的一系列技術來回答MVA問題,暫不考慮模型和最優(yōu)判別的選擇。相對于統(tǒng)計學而言,準則在數(shù)據(jù)挖掘中起著更為核心的作用并不奇怪,數(shù)據(jù)挖掘所繼承的學科如計算機科學及相關學科也是如此。數(shù)據(jù)集的規(guī)模常常意味
10、著傳統(tǒng)的統(tǒng)計學準則不適合數(shù)據(jù)挖掘問題,不得不重新設計。部分地,當數(shù)據(jù)點被逐一應用以更新估計量,適應性和連續(xù)性的準則常常是必須的。盡管一些統(tǒng)計學的準則已經(jīng)得到發(fā)展,但更多的應用是機器學習。(正如學習所示的那樣)2.數(shù)據(jù)挖掘的性質由于統(tǒng)計學基礎的建立在計算機的發(fā)明和發(fā)展之前,所以常用的統(tǒng)計學工具包含很多可以手工實現(xiàn)的方法。因此,對于很多統(tǒng)計學家來說,1000個數(shù)據(jù)就已經(jīng)是很大的了。但這個大對于英國大的信用卡公司每年350,000,000筆業(yè)務或AT&T每天200,000,000個長途呼叫來說相差太遠了。很明顯,面對這么多的數(shù)據(jù),則需要設計不同于那些原則上可以用手工實現(xiàn)的方法。這意味這計算機(正是計
11、算機使得大數(shù)據(jù)可能實現(xiàn))對于數(shù)據(jù)的分析和處理是關鍵的。分析者直接處理數(shù)據(jù)將變得不可行。相反,計算機在分析者和數(shù)據(jù)之間起到了必要的過濾的作用。這也是數(shù)據(jù)挖掘特別注重準則的另一原因。盡管有必要,把分析者和數(shù)據(jù)分離開很明顯導致了一些關聯(lián)任務。這里就有一個真正的危險:非預期的模式可能會誤導分析者,這一點我下面會討論。我不認為在現(xiàn)代統(tǒng)計中計算機不是一個重要的工具。它們確實是,并不是因為數(shù)據(jù)的規(guī)模。對數(shù)據(jù)的精確分析方法如bootstrap方法、隨機測試,迭代估計方法以及比較適合的復雜的模型正是有了計算機才是可能的。計算機已經(jīng)使得傳統(tǒng)統(tǒng)計模型的視野大大的擴展了,還促進了新工具的飛速發(fā)展。下面來關注一下歪曲數(shù)
12、據(jù)的非預期的模式出現(xiàn)的可能性。這和數(shù)據(jù)質量相關。所有數(shù)據(jù)分析的結論依賴于數(shù)據(jù)質量。GIGO的意思是垃圾進,垃圾出,它的引用到處可見。一個數(shù)據(jù)分析者,無論他多聰明,也不可能從垃圾中發(fā)現(xiàn)寶石。對于大的數(shù)據(jù)集,尤其是要發(fā)現(xiàn)精細的小型或偏離常規(guī)的模型的時候,這個問題尤其突出。當一個人在尋找百萬分之一的模型的時候,第二個小數(shù)位的偏離就會起作用。一個經(jīng)驗豐富的人對于此類最常見的問題會比較警覺,但出錯的可能性太多了。此類問題可能在兩個層次上產(chǎn)生。第一個是微觀層次,即個人記錄。例如,特殊的屬性可能丟失或輸錯了。我知道一個案例,由于挖掘者不知道,丟失的數(shù)據(jù)被記錄為99而作為真實的數(shù)據(jù)處理。第二個是宏觀層次,整個
13、數(shù)據(jù)集被一些選擇機制所歪曲。交通事故為此提供了一個好的示例。越嚴重的、致命的事故,其記錄越精確,但小的或沒有傷害的事故的記錄卻沒有那么精確。事實上,很高比例的數(shù)據(jù)根本沒有記錄。這就造成了一個歪曲的映象-可能會導致錯誤的結論。統(tǒng)計學很少會關注實時分析,然而數(shù)據(jù)挖掘問題常常需要這些。例如,銀行事務每天都會發(fā)生,沒有人能等三個月得到一個可能的欺詐的分析。類似的問題發(fā)生在總體隨時間變化的情形。我的研究組有明確的例子顯示銀行債務的申請隨時間、競爭環(huán)境、經(jīng)濟波動而變化。3.討論數(shù)據(jù)挖掘有時候是一次性的實驗。這是一個誤解。它更應該被看作是一個不斷的過程(盡管數(shù)據(jù)集時確定的)。從一個角度檢查數(shù)據(jù)可以解釋結果,
14、以相關的觀點檢查可能會更接近等等。關鍵是,除了極少的情形下,很少知道哪一類模式是有意義的。數(shù)據(jù)挖掘的本質是發(fā)現(xiàn)非預期的模式-同樣非預期的模式要以非預期的方法來發(fā)現(xiàn)。與把數(shù)據(jù)挖掘作為一個過程的觀點相關聯(lián)的是認識到結果的新穎性。許多數(shù)據(jù)挖掘的結果是我們所期望的-可以回顧。然而,可以解釋這個事實并不能否定挖掘出它們的價值。沒有這些實驗,可能根本不會想到這些。實際上,只有那些可以依據(jù)過去經(jīng)驗形成的合理的解釋的結構才會是有價值的。顯然在數(shù)據(jù)挖掘存在著一個潛在的機會。在大數(shù)據(jù)集中發(fā)現(xiàn)模式的可能性當然存在,大數(shù)據(jù)集的數(shù)量與日俱增。然而,也不應就此掩蓋危險。所有真正的數(shù)據(jù)集(即使那些是以完全自動方式搜集的數(shù)據(jù)
15、)都有產(chǎn)生錯誤的可能。關于人的數(shù)據(jù)集(例如事務和行為數(shù)據(jù))尤其有這種可能。這很好的解釋了絕大部分在數(shù)據(jù)中發(fā)現(xiàn)的非預期的結構本質上是無意義的,而是因為偏離了理想的過程。(當然,這樣的結構可能會是有意義的:如果數(shù)據(jù)有問題,可能會干擾搜集數(shù)據(jù)的目的,最好還是了解它們)。與此相關聯(lián)的是如何確保(和至少為事實提供支持)任何所觀察到的模式是真實的,它們反應了一些潛在的結構和關聯(lián)而不僅僅是一個特殊的數(shù)據(jù)集,由于一個隨機的樣本碰巧發(fā)生。在這里,記分方法可能是相關的,但需要更多的統(tǒng)計學家和數(shù)據(jù)挖掘工作者的研究。數(shù)據(jù)挖掘相關的10個問題NO.1 Data Mining和統(tǒng)計分析有什么不同?硬要去區(qū)分Data Mi
16、ning和Statistics的差異其實是沒有太大意義的。一般將之定義為Data Mining技術的CART、CHAID或模糊計算等等理論方法,也都是由統(tǒng)計學者根據(jù)統(tǒng)計理論所發(fā)展衍生,換另一個角度看,Data Mining有相當大的比重是由高等統(tǒng)計學中的多變量分析所支撐。但是為什么Data Mining的出現(xiàn)會引發(fā)各領域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計分析而言,Data Mining有下列幾項特性:1.處理大量實際數(shù)據(jù)更強勢,且無須太專業(yè)的統(tǒng)計背景去使用Data Mining的工具;2.數(shù)據(jù)分析趨勢為從大型數(shù)據(jù)庫抓取所需數(shù)據(jù)并使用專屬計算機分析軟件,Data Mining的工具更符合企業(yè)
17、需求;3.純就理論的基礎點來看,Data Mining和統(tǒng)計分析有應用上的差別,畢竟Data Mining目的是方便企業(yè)終端用戶使用而非給統(tǒng)計學家檢測用的。NO.2數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的關系為何?若將Data Warehousing(數(shù)據(jù)倉庫)比喻作礦坑,Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無中生有的魔術,也不是點石成金的煉金術,若沒有夠豐富完整的數(shù)據(jù),是很難期待Data Mining能挖掘出什么有意義的信息的。要將龐大的數(shù)據(jù)轉換成為有用的信息,必須先有效率地收集信息。隨著科技的進步,功能完善的數(shù)據(jù)庫系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉庫,簡單地說,
18、就是搜集來自其它系統(tǒng)的有用數(shù)據(jù),存放在一整合的儲存區(qū)內(nèi)。所以其實就是一個經(jīng)過處理整合,且容量特別大的關系型數(shù)據(jù)庫,用以儲存決策支持系統(tǒng)(Decision Support System)所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。從信息技術的角度來看,數(shù)據(jù)倉庫的目標是在組織中,在正確的時間,將正確的數(shù)據(jù)交給正確的人。許多人對于Data Warehousing和Data Mining時?;煜?,不知如何分辨。其實,數(shù)據(jù)倉庫是數(shù)據(jù)庫技術的一個新主題,利用計算機系統(tǒng)幫助我們操作、計算和思考,讓作業(yè)方式改變,決策方式也跟著改變。數(shù)據(jù)倉庫本身是一個非常大的數(shù)據(jù)庫,它儲存著由組織作業(yè)數(shù)據(jù)庫中整合而來的數(shù)據(jù),特別是指
19、事務處理系統(tǒng)OLTP(On-Line Transactional Processing)所得來的數(shù)據(jù)。將這些整合過的數(shù)據(jù)置放于數(shù)據(jù)倉庫中,而公司的決策者則利用這些數(shù)據(jù)作決策;但是,這個轉換及整合數(shù)據(jù)的過程,是建立一個數(shù)據(jù)倉庫最大的挑戰(zhàn)。因為將作業(yè)中的數(shù)據(jù)轉換成有用的的策略性信息是整個數(shù)據(jù)倉庫的重點。綜上所述,數(shù)據(jù)倉庫應該具有這些數(shù)據(jù):整合性數(shù)據(jù)(integrated data)、詳細和匯總性的數(shù)據(jù)(detailed and summarized data)、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)倉庫挖掘出對決策有用的信息與知識,是建立數(shù)據(jù)倉庫與使用Data Mining的最大目的,兩者的本質與過程是
20、兩回事。換句話說,數(shù)據(jù)倉庫應先行建立完成,Data mining才能有效率的進行,因為數(shù)據(jù)倉庫本身所含數(shù)據(jù)是干凈(不會有錯誤的數(shù)據(jù)參雜其中)、完備,且經(jīng)過整合的。因此兩者關系或許可解讀為Data Mining是從巨大數(shù)據(jù)倉庫中找出有用信息的一種過程與技術。NO.3 OLAP能不能代替Data Mining?所謂OLAP(Online Analytical Process)意指由數(shù)據(jù)庫所連結出來的在線分析處理程序。有些人會說:我已經(jīng)有OLAP的工具了,所以我不需要Data Mining。事實上兩者間是截然不同的,主要差異在于Data Mining用在產(chǎn)生假設,OLAP則用于查證假設。簡單來說,O
21、LAP是由使用者所主導,使用者先有一些假設,然后利用OLAP來查證假設是否成立;而Data Mining則是用來幫助使用者產(chǎn)生假設。所以在使用OLAP或其它Query的工具時,使用者是自己在做探索(Exploration),但Data Mining是用工具在幫助做探索。舉個例子來看,一市場分析師在為超市規(guī)劃貨品架柜擺設時,可能會先假設嬰兒尿布和嬰兒奶粉會是常被一起購買的產(chǎn)品,接著便可利用OLAP的工具去驗證此假設是否為真,又成立的證據(jù)有多明顯;但Data Mining則不然,執(zhí)行Data Mining的人將龐大的結帳數(shù)據(jù)整理后,并不需要假設或期待可能的結果,透過Mining技術可找出存在于數(shù)據(jù)
22、中的潛在規(guī)則,于是我們可能得到例如尿布和啤酒常被同時購買的意料外之發(fā)現(xiàn),這是OLAP所做不到的。Data Mining常能挖掘出超越歸納范圍的關系,但OLAP僅能利用人工查詢及可視化的報表來確認某些關系,是以Data Mining此種自動找出甚至不會被懷疑過的數(shù)據(jù)模型與關系的特性,事實上已超越了我們經(jīng)驗、教育、想象力的限制,OLAP可以和Data Mining互補,但這項特性是Data Mining無法被OLAP取代的。NO.4完整的Data Mining包含哪些步驟?以下提供一個Data Mining的進行步驟以為參考:1.理解業(yè)務與理解數(shù)據(jù);2.獲取相關技術與知識;3.整合與查詢數(shù)據(jù);4.
23、去除錯誤或不一致及不完整的數(shù)據(jù);5.由數(shù)據(jù)選取樣本先行試驗;6.建立數(shù)據(jù)模型7.實際Data Mining的分析工作;8.測試與檢驗;9.找出假設并提出解釋;10.持續(xù)應用于企業(yè)流程中。由上述步驟可看出,Data Mining牽涉了大量的準備工作與規(guī)劃過程,事實上許多專家皆認為整套Data Mining的進行有80的時間精力是花費在數(shù)據(jù)前置作業(yè)階段,其中包含數(shù)據(jù)的凈化與格式轉換甚或表格的連結。由此可知Data Mining只是信息挖掘過程中的一個步驟而已,在進行此步驟前還有許多的工作要先完成。NO.5 Data Mining運用了哪些理論與技術?Data Mining是近年來數(shù)據(jù)庫應用技術中相
24、當熱門的議題,看似神奇、聽來時髦,實際上卻也不是什么新東西,因其所用之諸如預測模型、數(shù)據(jù)分割,連結分析(Link Analysis)、偏差偵測(Deviation Detection)等,美國早在二次世界大戰(zhàn)前就已應用運用在人口普查及軍事等方面。隨著信息科技超乎想象的進展,許多新的計算機分析工具問世,例如關系型數(shù)據(jù)庫、模糊計算理論、基因算法則以及類神經(jīng)網(wǎng)絡等,使得從數(shù)據(jù)中發(fā)掘寶藏成為一種系統(tǒng)性且可實行的程序。一般而言,Data Mining的理論技術可分為傳統(tǒng)技術與改良技術兩支。傳統(tǒng)技術以統(tǒng)計分析為代表,統(tǒng)計學內(nèi)所含序列統(tǒng)計、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術,尤其Data
25、 Mining對象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù),是以高等統(tǒng)計學里所含括之多變量分析中用來精簡變量的因素分析(Factor Analysis)、用來分類的判別分析(Discriminant Analysis),以及用來區(qū)隔群體的分群分析(Cluster Analysis)等,在Data Mining過程中特別常用。在改良技術方面,應用較普遍的有決策樹理論(Decision Trees)、類神經(jīng)網(wǎng)絡(Neural Network)以及規(guī)則歸納法(Rules Induction)等。決策樹是一種用樹枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預測模型,根據(jù)對目標變量產(chǎn)生之效應的不同而建構分類的規(guī)則,一般多運用
26、在對客戶數(shù)據(jù)的分析上,例如針對有回函與未回含的郵寄對象找出影響其分類結果的變量組合,常用分類方法為CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)兩種。類神經(jīng)網(wǎng)絡是一種仿真人腦思考結構的數(shù)據(jù)分析模式,由輸入之變量與數(shù)值中自我學習并根據(jù)學習經(jīng)驗所得之知識不斷調整參數(shù)以期建構數(shù)據(jù)的型樣(patterns)。類神經(jīng)網(wǎng)絡為非線性的設計,與傳統(tǒng)回歸分析相比,好處是在進行分析時無須限定模式,特別當數(shù)據(jù)變量間存有交互效應時可自動偵測出;缺點則在于其分析過程為一黑盒子,故常無法以
27、可讀之模型格式展現(xiàn),每階段的加權與轉換亦不明確,是故類神經(jīng)網(wǎng)絡多利用于數(shù)據(jù)屬于高度非線性且?guī)в邢喈敵潭鹊淖兞拷桓行獣r。規(guī)則歸納法是知識發(fā)掘的領域中最常用的格式,這是一種由一連串的如果/則(If/Then)之邏輯規(guī)則對數(shù)據(jù)進行細分的技術,在實際運用時如何界定規(guī)則為有效是最大的問題,通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項目先剔除,以避免產(chǎn)生無意義的邏輯規(guī)則。NO.6 Data Mining包含哪些主要功能?Data Mining實際應用功能可分為三大類六分項來說明:Classification和Clustering屬于分類區(qū)隔類;Regression和Time-series屬于推算預測類;Association和Sequence則屬于序列規(guī)則類。Classification是根據(jù)一些變量的數(shù)值做計算,再依照結果作分類。(計算的結果最后會被分類為幾個少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為可能會響應或是可能不會響應兩類)。Classification常被用來處理如前所述之郵寄對象篩選的問題。我們會用一些根據(jù)歷史經(jīng)驗已
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 無人機操控與航拍技術考核試卷
- 圖書館數(shù)字資源長期保存策略考核試卷
- 家電產(chǎn)品品質監(jiān)控與質量改進考核試卷
- 整年運輸合同范本
- 大板委托加工合同范本
- 修剪綠化直營合同范本
- 工地個人水電合同范本
- 小學生美術課件制作教學
- 名片合同范本
- 財務支出季度計劃工作的分解與執(zhí)行要點
- 電工維修必備基礎知識(圖文詳解)
- 支氣管鏡吸痰操作考核評分標準
- 全國教育科學規(guī)劃課題申請書
- 《大國崛起》讀書筆記思維導圖PPT模板下載
- 2023年病歷書寫基本規(guī)范文
- 《中小學心理健康教育指導綱要(2012年修訂)》
- 中國慢性膽結石膽囊炎診療共識
- 新疆民族發(fā)展史和宗教演變史
- YY/T 1095-2015肌電生物反饋儀
- GB/T 5269-2008傳動與輸送用雙節(jié)距精密滾子鏈、附件和鏈輪
- GB/T 18601-2009天然花崗石建筑板材
評論
0/150
提交評論