版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)掘金挖掘商業(yè)世界中的數(shù)據(jù)價值目錄TOC\h\h第1章分析學(xué)入門\h分析學(xué)與分析有區(qū)別嗎\h數(shù)據(jù)挖掘該歸何處\h分析學(xué)何以突然受到追捧\h分析學(xué)的應(yīng)用領(lǐng)域\h分析學(xué)面臨的主要挑戰(zhàn)\h分析學(xué)的發(fā)展歷史\h分析學(xué)的簡單分類\h分析學(xué)的前沿技術(shù)——以IBMWatson為例\h第2章數(shù)據(jù)挖掘入門\h數(shù)據(jù)挖掘是什么\h哪些不屬于數(shù)據(jù)挖掘\h數(shù)據(jù)挖掘最常見的應(yīng)用\h數(shù)據(jù)挖掘能夠發(fā)現(xiàn)怎樣的規(guī)律\h常用的數(shù)據(jù)挖掘工具\h數(shù)據(jù)挖掘的負(fù)面影響:隱私問題\h第3章數(shù)據(jù)挖掘過程\h數(shù)據(jù)庫知識獲取過程\h跨行業(yè)標(biāo)準(zhǔn)化數(shù)據(jù)挖掘流程\hSEMMA\h數(shù)據(jù)挖掘六西格瑪方法\h哪種方法最好\h第4章數(shù)據(jù)與數(shù)據(jù)挖掘的方法\h數(shù)據(jù)挖掘中的數(shù)據(jù)屬性\h數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理\h數(shù)據(jù)挖掘方法\h預(yù)測法\h分類法\h決策樹\h數(shù)據(jù)挖掘中的聚類分析\hK均值聚類算法\h關(guān)聯(lián)法\hApriori算法\h對數(shù)據(jù)挖掘的誤解與事實\h第5章數(shù)據(jù)挖掘算法\h近鄰算法\h評估相似性:距離度量\h人工神經(jīng)網(wǎng)絡(luò)\h支持向量機\h線性回歸\h邏輯回歸\h時間序列預(yù)測\h第6章文本分析和情感分析\h自然語言處理\h文本挖掘應(yīng)用\h文本挖掘的流程\h文本挖掘工具\h情感分析\h第7章大數(shù)據(jù)分析學(xué)\h大數(shù)據(jù)從何而來\h定義“大數(shù)據(jù)”的V們\h大數(shù)據(jù)的關(guān)鍵概念\h大數(shù)據(jù)分析處理的商業(yè)問題\h大數(shù)據(jù)科技\h數(shù)據(jù)科學(xué)家\h大數(shù)據(jù)和流分析法\h數(shù)據(jù)流挖掘第1章
分析學(xué)入門盡管商務(wù)分析學(xué)是個新名詞,但最近卻在商業(yè)世界中以前所未有的勢頭迅速升溫。一般而言,分析學(xué)是指發(fā)現(xiàn)信息的方式和技術(shù),即利用復(fù)雜的數(shù)學(xué)模型、數(shù)據(jù)和專業(yè)知識進行有效而及時的決策制定。從某種程度來講,分析學(xué)的意義就是制定決策和解決問題。近年來,分析學(xué)也可以被簡單定義為“發(fā)掘數(shù)據(jù)中有意義的規(guī)律”。在當(dāng)今互聯(lián)網(wǎng)時代,分析學(xué)所用的數(shù)據(jù)也逐漸向數(shù)量大、種類多的方向發(fā)展。盡管分析學(xué)更多地關(guān)注數(shù)據(jù),然而許多分析學(xué)的應(yīng)用對數(shù)據(jù)需求卻很少甚至不需要數(shù)據(jù)。恰恰相反,這些應(yīng)用使用的是依賴過程描述和專業(yè)知識發(fā)揮作用的數(shù)學(xué)模型(比如優(yōu)化與仿真模型)。商務(wù)分析學(xué)利用分析工具、技術(shù)以及原理來解決復(fù)雜的商業(yè)問題。企業(yè)往往通過分析數(shù)據(jù)來描述、預(yù)測和改善企業(yè)績效。數(shù)據(jù)分析在企業(yè)中有眾多的應(yīng)用,具體如下:●改善企業(yè)與客戶(此效應(yīng)貫穿采購、退貨、添貨等顧客關(guān)系管理的所有過程)、員工及其他利益相關(guān)者的關(guān)系;●明確欺詐交易及不正當(dāng)行為,以節(jié)省開支;●改善產(chǎn)品和服務(wù)質(zhì)量與定價,提高顧客滿意度,提升效益;●優(yōu)化市場營銷與宣傳策略,在成本最小化的前提下通過準(zhǔn)確的信息和宣傳精準(zhǔn)定位顧客;●優(yōu)化庫存管理和資源分配,利用優(yōu)化驅(qū)動模型將資源在需要的時候運送到需要的地點,同時將成本降到最低;●在處理顧客關(guān)系或顧客相關(guān)問題時,為員工提供所需信息以便進行更好更快的決策。“分析學(xué)”一詞在短期內(nèi)迅速成為一個備受關(guān)注的熱詞,在很多情況下替代了原來使用的術(shù)語,例如,情報、挖掘和發(fā)現(xiàn)。“商業(yè)智能”現(xiàn)在變成了“商務(wù)分析學(xué)”;“顧客信息”變成了“顧客分析學(xué)”;“網(wǎng)頁挖掘”變成了“網(wǎng)頁分析學(xué)”;“知識發(fā)現(xiàn)”變成了“數(shù)據(jù)分析學(xué)”,等等。由于現(xiàn)代數(shù)據(jù)(我們也稱之為大數(shù)據(jù))有著數(shù)量大、種類多、流動速度快的特點,因而數(shù)據(jù)分析學(xué)需要大量的計算。而分析項目所用的工具、技術(shù)、運算必須采用各行業(yè)技術(shù)水平最先進的方法,涉及到管理科學(xué)、計算機科學(xué)、統(tǒng)計學(xué)、數(shù)據(jù)科學(xué)以及數(shù)學(xué)等領(lǐng)域的知識。圖1-1展示了與分析學(xué)和大數(shù)據(jù)相關(guān)的“詞匯云”。圖1-1分析與大數(shù)據(jù)詞匯云分析學(xué)與分析有區(qū)別嗎盡管分析學(xué)(analytics)與分析(analysis)二者之間常??梢曰ビ?,但二者并不完全相同。從根本上講,分析指的是將一個問題分解為若干個小問題,再對各個小問題采取各個擊破的方法解決問題。這種方法往往適用于對整個系統(tǒng)的調(diào)查不方便或是不切實際,需要將其分解成更基本的部分的情況。一旦完成了部分的優(yōu)化和檢驗,就可以通過合成方式將部分合成為整體。而分析學(xué)指的是利用一系列研究方法、技術(shù)和相關(guān)工具發(fā)現(xiàn)新知識,解決復(fù)雜問題,進行更好更快的決策。從本質(zhì)上來講,分析學(xué)是一種多方面、多學(xué)科交融的解決復(fù)雜問題的方法。分析學(xué)利用數(shù)據(jù)以及數(shù)學(xué)建模來理解我們所生活的世界。雖然分析學(xué)在研究活動的不同階段需要進行不同種類的分析,但它并不僅僅是分析,還包括合成等其他許多任務(wù)和步驟。數(shù)據(jù)挖掘該歸何處數(shù)據(jù)挖掘指在大型數(shù)據(jù)組蘊涵的規(guī)律和聯(lián)系中發(fā)現(xiàn)新知識的過程。分析學(xué)的目的是將數(shù)據(jù)或事實轉(zhuǎn)化為具體可行的信息或情報,數(shù)據(jù)挖掘正是協(xié)助其達成該目標(biāo)的關(guān)鍵。數(shù)據(jù)挖掘比分析學(xué)存在的時間要長得多,至少比現(xiàn)代意義上的分析學(xué)歷史還要悠久。當(dāng)分析學(xué)成為決策支持和問題解決技巧中首當(dāng)其沖的術(shù)語時,數(shù)據(jù)挖掘則在更為廣闊的領(lǐng)域里發(fā)揮著作用,包括判別變量(例如,市場籃子分析)之間關(guān)系的描述性研究以及建立模型估計相關(guān)變量未來值。本章稍后會介紹,在分析學(xué)的相關(guān)術(shù)語中,數(shù)據(jù)挖掘在從簡單到復(fù)雜的各個層次上都扮演著至關(guān)重要的角色。分析學(xué)何以突然受到追捧如今,分析學(xué)是一個炙手可熱的新詞,無論你看哪本商業(yè)周刊或雜志,都能發(fā)現(xiàn)關(guān)于分析學(xué)或是關(guān)于分析學(xué)如何改變管理決策的文章。它是循證管理(evidence-basedmanagement,指基于事實或數(shù)據(jù)進行的決策活動)的一個新標(biāo)簽。但是,分析學(xué)何以變得如此受歡迎?時機為何偏偏是現(xiàn)在?這一名氣的來源有三:需求、可用性與可負(fù)擔(dān)性、文化變化。來自商業(yè)活動的需求眾所周知,當(dāng)今的商業(yè)再不會有“一成不變”的說法。過去的商業(yè)競爭往往是本地級、區(qū)域級、國家級,而如今的商業(yè)競爭已擴展為全球級別。無論是大型、中型還是小型商業(yè),每個企業(yè)都承擔(dān)著全球競爭的重?fù)?dān)。過去曾在其地理范圍內(nèi)保護企業(yè)的關(guān)稅與交通成本壁壘現(xiàn)在已經(jīng)逐漸失去效力。除了全球競爭,消費者的需求也越來越高,甚至前者很可能導(dǎo)致了后者問題的激化。消費者想要以最低的價格出售最高品質(zhì)的商品與服務(wù),并且盡可能地在最短時間內(nèi)送達。企業(yè)的成功乃至存活取決于其靈活機智的行動,及其管理者順應(yīng)市場驅(qū)動力(例如,快速發(fā)現(xiàn)并處理問題,快速發(fā)現(xiàn)并抓住機會)及時采取解決問題的最佳方案。因此,基于事實、質(zhì)量更高、速度更快的決策顯現(xiàn)出了前所未有的重要性。面對無法改變的市場環(huán)境,數(shù)據(jù)分析學(xué)將幫助管理者獲取信息,更好更快地做出決策,提高企業(yè)的市場地位。目前,分析學(xué)已經(jīng)被廣泛看做是在國際商業(yè)活動中幫助管理者的救命稻草。數(shù)據(jù)的可用性與可負(fù)擔(dān)性隨著科技的進步,軟件硬件的成本不斷下降,企業(yè)能夠大規(guī)模地收集數(shù)據(jù)?;谝幌盗懈袘?yīng)器和RFID系統(tǒng)的自動化數(shù)據(jù)收集系統(tǒng),大大增加了企業(yè)數(shù)據(jù)的數(shù)量和質(zhì)量,再加上社交媒體等互聯(lián)網(wǎng)技術(shù)提供了內(nèi)容更為豐富的數(shù)據(jù)信息,如今企業(yè)收集的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超過了他們能夠處理的數(shù)據(jù)規(guī)模。正如俗語所說:“他們沉浸在數(shù)據(jù)的海洋卻仍然渴望知識?!彪S著數(shù)據(jù)收集技術(shù)的進步,數(shù)據(jù)處理技術(shù)也得到了長足的發(fā)展。目前的處理工具有數(shù)不勝數(shù)的處理器以及大規(guī)模的存儲能力,因此能夠在合理的時間范圍內(nèi)(通常是即時)迅速處理大量復(fù)雜數(shù)據(jù)。軟硬件技術(shù)的進步同時也反映在定價上面,此類處理系統(tǒng)的價格一降再降。除了購買處理系統(tǒng),企業(yè)還可以使用服務(wù)型軟(硬)件商業(yè)模式,允許企業(yè)(尤其是中小型財力有限的企業(yè))租借分析技術(shù),并根據(jù)其使用的部分付費。文化改變企業(yè)從很早開始就致力于摒棄傳統(tǒng)的由靈感決定的決策方式,轉(zhuǎn)而使用基于事實的新時代決策方法。業(yè)內(nèi)大多數(shù)領(lǐng)軍企業(yè)都曾有意識地進行基于數(shù)據(jù)或事實的商業(yè)活動。隨著時代的進步,企業(yè)掌握的數(shù)據(jù)越來越多,高新技術(shù)設(shè)施越來越發(fā)達,使得這種觀念上的轉(zhuǎn)變正以人們意想不到的速度在發(fā)生。隨著新一代有著量化思維的管理者取代“嬰兒潮”一代管理者,這樣基于事實的管理觀念轉(zhuǎn)變將會越來越多。分析學(xué)的應(yīng)用領(lǐng)域商務(wù)分析學(xué)的浪潮雖然方興未艾,卻在很多方面得到了大量應(yīng)用,使用范圍幾乎涵蓋了商業(yè)活動的全部領(lǐng)域。舉例來說,在顧客關(guān)系管理方面,我們有許許多多成功的案例,講述企業(yè)如何通過制定精妙的模型來定位新客戶、尋找追加銷售(up-sell)或交叉銷售(cross-sell)的機會、辨識消耗量大的顧客。企業(yè)利用社交媒體分析學(xué)以及情感分析,試圖控制公眾對其商品服務(wù)與品牌的輿論導(dǎo)向。產(chǎn)品檢測、緩和風(fēng)險、產(chǎn)品定價、優(yōu)化營銷策略、融資計劃、員工留任、新人招聘甚至保險估計都屬于分析學(xué)在商業(yè)方面的應(yīng)用范圍。從商業(yè)報告到數(shù)據(jù)存儲,從數(shù)據(jù)挖掘到優(yōu)化分析,在任何一個商業(yè)活動中都可能找到分析學(xué)應(yīng)用的身影。分析學(xué)面臨的主要挑戰(zhàn)盡管分析學(xué)的優(yōu)勢是顯而易見的,但應(yīng)用分析學(xué)的主要弊端也導(dǎo)致了許多企業(yè)仍然躑躅不前,其弊端包括以下幾點?!穹治鰧W(xué)人才。數(shù)據(jù)分析師,即能將數(shù)據(jù)轉(zhuǎn)化為實際信息或情報的數(shù)據(jù)天才,在市場上十分罕見,找到真正適合的優(yōu)秀人才十分困難。分析學(xué)本身是一門新興學(xué)科,其人才資源也正在發(fā)展,許多大學(xué)推出了本科與碩士項目以彌補這一人才空缺。隨著分析學(xué)的不斷升溫,企業(yè)需要將大數(shù)據(jù)轉(zhuǎn)變?yōu)樾畔⒑椭R以應(yīng)對實際問題,對這方面的人才需求也會越來越大?!裎幕?。俗話說:“江山易改,本性難移”。企業(yè)要從以靈感為基準(zhǔn)進行決策的傳統(tǒng)管理方式轉(zhuǎn)變?yōu)榛跀?shù)據(jù)和科學(xué)模型進行管理決策、收集企業(yè)知識的現(xiàn)代管理方式是十分困難的。人們往往不喜歡改變。改變往往意味著放棄我們過去已有或已經(jīng)掌握的知識,重新學(xué)習(xí)如何進行工作,意味著我們經(jīng)年積累的知識(也可以說是能力)有朝一日會全部或部分喪失。文化的轉(zhuǎn)變也許是采用新型管理模式中最困難的一部分?!裢顿Y回報。應(yīng)用分析學(xué)的另一困難是很難確定其投資回報。分析學(xué)項目十分復(fù)雜,成本也較高,其投資回報并不能夠馬上見效,許多企業(yè)管理者在進行分析學(xué)投資時都會遇到重重阻礙,特別是大規(guī)模的投資。分析學(xué)的投資回報能夠超過成本嗎?如果可以,那何時能夠開始盈利?要將分析學(xué)帶來的好處轉(zhuǎn)化為可測量的數(shù)據(jù)是十分困難的,它帶來的大部分利益都是無形且作用于企業(yè)整體的。若使用得當(dāng),分析學(xué)可以使整個企業(yè)得以轉(zhuǎn)型,將其提升到一個新的高度。要使投資回報量化,將企業(yè)活動向分析相關(guān)的管理活動轉(zhuǎn)變,需要一系列有形與無形因素的共同作用。●數(shù)據(jù)?,F(xiàn)代媒體對數(shù)據(jù)有著極大的信心,將其視為改善企業(yè)行為的無價之寶。從很大程度上來說這是正確的,尤其當(dāng)企業(yè)知道如何合理使用這些數(shù)據(jù),其價值就更加珍貴。然而,對于那些不知該如何使用數(shù)據(jù)的企業(yè)而言,大數(shù)據(jù)反而成為了挑戰(zhàn)。大數(shù)據(jù)不僅僅是數(shù)量“大”,而且還是非結(jié)構(gòu)化的,其發(fā)展速度之快使傳統(tǒng)收集處理的方式都望塵莫及,而且往往未經(jīng)處理、雜亂無章。企業(yè)要在分析學(xué)上取得優(yōu)勢,就要具備經(jīng)過深思熟慮的大數(shù)據(jù)處理方案,將數(shù)據(jù)及時轉(zhuǎn)化為有價值的信息或情報。●科學(xué)技術(shù)。盡管科學(xué)技術(shù)正逐漸變得可行、可用以及相對而言可負(fù)擔(dān),對于一些技術(shù)能力稍弱的企業(yè),科學(xué)技術(shù)仍然是其使用分析學(xué)的一個壁壘。雖然進行數(shù)據(jù)分析的基礎(chǔ)設(shè)施價格不再高不可攀,但其成本仍然是很大的負(fù)擔(dān)。如果企業(yè)沒有融資途徑,也無法明確分析學(xué)的投資回報,管理者就不會愿意購買所需技術(shù)。對某些企業(yè)而言,分析服務(wù)模型(包括進行數(shù)據(jù)分析的軟件和硬件設(shè)施)成本更低,實施起來也更容易。●安全性與隱私。現(xiàn)代社會對數(shù)據(jù)和數(shù)據(jù)分析的最大詬病就是安全性。我們常常聽到敏感信息遭到泄露的消息,而且事實上,真正安全的數(shù)據(jù)分析設(shè)備就是脫離了網(wǎng)絡(luò)連接獨立存在的設(shè)備,這顯然已經(jīng)違背了選擇數(shù)據(jù)分析的初衷。數(shù)據(jù)安全的重要性使得信息安全成為了全球信息系統(tǒng)最受關(guān)注的部門。但是,正所謂“道高一尺,魔高一丈”,保護信息設(shè)備的技術(shù)日趨精妙,盜取信息的方式也越來越先進。個人隱私的安全同樣受到高度關(guān)注。企業(yè)在使用顧客的個人信息時,無論是已知客戶還是潛在客戶,無論是否在法律許可的范圍內(nèi),都應(yīng)該盡可能避免或謹(jǐn)慎行事,以保護企業(yè)的公眾聲譽。雖然有著這樣那樣的困難,分析學(xué)應(yīng)用還是像雨后春筍一樣蓬勃發(fā)展。無論企業(yè)規(guī)模大小,也無論其處于哪一行業(yè)部門,分析學(xué)應(yīng)用都是企業(yè)當(dāng)前必不可少的工作。商業(yè)活動的日益復(fù)雜,使得企業(yè)正試圖在雜亂無章的商業(yè)活動中探索規(guī)律,能夠全面發(fā)揮分析學(xué)能力的企業(yè)才能夠獲得最終的成功。分析學(xué)的發(fā)展歷史雖然業(yè)內(nèi)對分析學(xué)的追捧是最近才開始的,但分析學(xué)本身卻早已存在。企業(yè)分析學(xué)的出現(xiàn)可以追溯到20世紀(jì)40年代第二次世界大戰(zhàn)時期,當(dāng)時急需有效的企業(yè)模型,以有限的資源創(chuàng)造最大的成果,在這一時期產(chǎn)生了許多優(yōu)化與促進方法。分析學(xué)技術(shù)在商業(yè)領(lǐng)域的應(yīng)用也有著悠久的歷史,一個典型的例子就是弗雷德里克·溫斯洛·泰勒(FrederickWinslowTaylor)在19世紀(jì)末期首次提出的時間與動作研究。隨后亨利·福特(HenryFord)測量了流水線的工作步調(diào),并由此拉開了大規(guī)模生產(chǎn)的序幕。20世紀(jì)60年代,分析學(xué)吸引了更多的關(guān)注,電子計算機開始用于決策支持系統(tǒng)。從那時起,企業(yè)資源管理系統(tǒng)(EnterpriseResourcePlanning,ERP)、數(shù)據(jù)存儲以及多種硬件和軟件工具應(yīng)用的發(fā)展共同促進了分析學(xué)技術(shù)的進步。如圖1-2的時間軸所示,自20世紀(jì)70年代以來,描述分析學(xué)的術(shù)語一變再變。20世紀(jì)70年代以前,即分析學(xué)發(fā)展的早期,數(shù)據(jù)是由國內(nèi)專家通過人工操作(比如,采訪與調(diào)查問卷)建立數(shù)學(xué)或信息導(dǎo)向的模型,在有限的條件下進行優(yōu)化。其基本思想是用有限的資源做到最好。這種決策支持模型通常被稱為運籌學(xué)(OperationsResearch,OR)。對于太復(fù)雜不能通過如線性或非線性規(guī)劃等優(yōu)化方法解決的問題,則要通過仿真模擬等啟發(fā)式方法加以解決。圖1-2分析學(xué)發(fā)展縱覽20世紀(jì)70年代,運籌學(xué)模型已趨成熟,在工業(yè)和政府系統(tǒng)中得到了相當(dāng)廣泛的應(yīng)用。此外,還出現(xiàn)了一種激動人心的新型處理模型:規(guī)則導(dǎo)向?qū)<蚁到y(tǒng)(Rule-basedExpertSystems,ESs)。這類系統(tǒng)將專家的知識以特定形式收集起來,使之適合計算機處理環(huán)境(即一組假設(shè)規(guī)則),這樣人們就能夠像咨詢國內(nèi)專家一樣進行結(jié)構(gòu)化問題的咨詢,并獲得解決方案。專家系統(tǒng)利用“智能化”的決策支持系統(tǒng),讓企業(yè)在需要的時間和地點獲得稀缺的專家資源。20世紀(jì)70年代,企業(yè)才開始創(chuàng)建日程報告,通知決策制定者(管理者)前一階段(如前一天、前一周、前一月或前一季度)發(fā)生的事情。了解過去固然重要,而管理者不僅僅需要了解過去,還需要一系列全面的報告,從各個層面更好地認(rèn)識和處理多變的需求以及企業(yè)面臨的實際困難。20世紀(jì)80年代,企業(yè)處理商業(yè)相關(guān)數(shù)據(jù)的方式發(fā)生了極大的轉(zhuǎn)變。過去的做法是利用若干個互不相關(guān)的信息系統(tǒng)獲得企業(yè)不同部門或職能(例如會計、營銷與銷售、融資、生產(chǎn)等)的交易信息。20世紀(jì)80年代,我們將這些系統(tǒng)整合為一個企業(yè)級的信息系統(tǒng),即ERP系統(tǒng)。過去最有序的非標(biāo)準(zhǔn)化數(shù)據(jù)代表計劃逐漸為關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RelationalDatabaseManagement,RDBM)所替代。這些系統(tǒng)改善了數(shù)據(jù)的獲取與存儲,加強了企業(yè)數(shù)據(jù)間的聯(lián)系,同時也大大減少了數(shù)據(jù)的重復(fù)。隨著時代的發(fā)展,數(shù)據(jù)整合度與連貫性逐漸提上日程,乃至影響到商業(yè)活動的有效進行,對關(guān)系數(shù)據(jù)庫管理系統(tǒng)和企業(yè)資源管理系統(tǒng)的需求也大大增加。企業(yè)利用ERP系統(tǒng),可以收集整合整個企業(yè)的數(shù)據(jù),形成一個連貫的概要,使企業(yè)的每個部分都能夠在需要的時間和地點獲得所需信息。與此同時,很可能得益于類似ERP系統(tǒng)這類管理系統(tǒng)的發(fā)展,商業(yè)報告成為了約定俗成的一項規(guī)定。決策者自行決定何時需要或想要為企業(yè)問題或機遇撰寫專項報告。20世紀(jì)90年代,對內(nèi)容更為豐富的報告書的需求促成了管理信息系統(tǒng)(專為管理者決策活動設(shè)計開發(fā)的決策支持系統(tǒng))的發(fā)展。這類系統(tǒng)通常采取圖表看板或計分板的形式,形象地展現(xiàn)出決策者最關(guān)注的企業(yè)要素——關(guān)鍵績效指標(biāo)。要實現(xiàn)這種內(nèi)容豐富的報告書,同時還要保證商業(yè)智能系統(tǒng)的完整性,中間必須有一個過渡階段作為庫房對商業(yè)報告的撰寫和決策的制定提供支持,我們稱之為數(shù)據(jù)倉庫(DataWarehouse,DW)。在短時間內(nèi),大多數(shù)大中型企業(yè)甚至采用數(shù)據(jù)倉庫作為他們企業(yè)決策制定的平臺。圖表看板和計分板從庫房中取得數(shù)據(jù),這樣就不會妨礙到商業(yè)交易系統(tǒng),很多情況下這類交易系統(tǒng)指的是ERP系統(tǒng)。21世紀(jì)的第一個十年,數(shù)據(jù)倉庫導(dǎo)向的決策支持系統(tǒng)開始被人們稱為商業(yè)智能系統(tǒng)(BusinessIntelligenceSystems)。隨著庫房中的數(shù)據(jù)縱向增長,處理軟件和硬件的能力也要隨之提高,以滿足決策者不斷變化的需求。處于全球競爭的市場中,決策者需要即時、移動的數(shù)據(jù)來迅速處理商業(yè)問題,抓住市場機會。數(shù)據(jù)倉庫中的數(shù)據(jù)是階段性更新的,并不能反映最新情況。為解決這一潛在的數(shù)據(jù)問題,庫房開發(fā)者們設(shè)計了一個新型系統(tǒng),以更快地更新數(shù)據(jù),從而創(chuàng)造了實時數(shù)據(jù)倉庫(Real-timeDataWarehouse)這一技術(shù)。更準(zhǔn)確地說,這應(yīng)該是“準(zhǔn)時數(shù)據(jù)倉庫”,該系統(tǒng)可以根據(jù)不同數(shù)據(jù)項目對更新的不同要求采取不同的更新方式(因為不是所有的數(shù)據(jù)項目都需要實時更新)。數(shù)據(jù)倉庫包含的數(shù)據(jù)數(shù)量大,種類多,因而我們需要在其中“挖掘”企業(yè)數(shù)據(jù)以“發(fā)現(xiàn)”新穎有用的知識財富,改善企業(yè)工序和活動,從而創(chuàng)造了“數(shù)據(jù)挖掘”和“文本挖掘”兩詞。隨著數(shù)據(jù)的數(shù)量和種類的不斷增多,企業(yè)需要更強的存儲和處理數(shù)據(jù)的能力。大企業(yè)有條件解決這一問題,中小型企業(yè)則需要經(jīng)濟上更容易負(fù)擔(dān)的企業(yè)模型。這一需求促成了服務(wù)導(dǎo)向的設(shè)施、軟件以及服務(wù)設(shè)施分析學(xué)商業(yè)模型的興起。小型企業(yè)也能根據(jù)需要獲得分析學(xué)能力,而且只用負(fù)擔(dān)自己所用那一部分的費用,避免了投資價格昂貴的軟硬件資源。進入21世紀(jì)的第二個十年,數(shù)據(jù)獲取及使用領(lǐng)域必將迎來一輪新的轉(zhuǎn)型。得益于互聯(lián)網(wǎng)的廣泛應(yīng)用,出現(xiàn)了新型數(shù)據(jù)提供媒體。在所有新型數(shù)據(jù)源(包括RFID標(biāo)簽、數(shù)碼電表、網(wǎng)頁點擊量、智能家電、可佩帶式健康監(jiān)控儀器等)中,社交網(wǎng)絡(luò)及社交媒體或許是最有趣也最具挑戰(zhàn)性的。這一非結(jié)構(gòu)化數(shù)據(jù)包含著豐富的信息,但是對于計算機系統(tǒng),無論是硬件還是軟件系統(tǒng),分析這些數(shù)據(jù)都是一大挑戰(zhàn)。最近,人們又創(chuàng)造了“大數(shù)據(jù)”一詞,強調(diào)這些新型數(shù)據(jù)流給我們帶來的困難。為應(yīng)對大數(shù)據(jù)帶來的挑戰(zhàn),人們在軟硬件方面都進行了改進發(fā)展,硬件方面的改進包括擴大計算機存儲能力,同時進行大規(guī)模并行計算以及高度并行多處理器計算機系統(tǒng);軟件或算法方面的改進包括研發(fā)如Hadoop這種帶有MapReduce編程模型和NoSQL數(shù)據(jù)庫的分布式系統(tǒng)基礎(chǔ)架構(gòu)。我們很難預(yù)測接下來的一個十年,數(shù)據(jù)分析將會有何發(fā)展,又會產(chǎn)生哪些與分析學(xué)相關(guān)的術(shù)語。信息系統(tǒng)尤其是分析學(xué)方面兩個觀念轉(zhuǎn)型之間的相隔時間正在縮小,在可預(yù)見的未來,這種趨勢仍然會保持下去。雖然分析學(xué)并非新興事物,但其爆炸性的受歡迎程度的確是剛剛出現(xiàn),也正是得益于大數(shù)據(jù)這一熱潮,商業(yè)專業(yè)人士前所未有地獲得了更多的收集和儲存數(shù)據(jù)的方法、先進的軟件處理工具、數(shù)據(jù)以及數(shù)據(jù)導(dǎo)向信息。因此,在應(yīng)對全球競爭時,管理者有機會利用數(shù)據(jù)和分析學(xué)做出更好的企業(yè)決策,生產(chǎn)更好的產(chǎn)品,提高顧客滿意度,提前發(fā)現(xiàn)并處理隱患,通過市場定位和定制化提高消費者參與程度,以增加收益、降低成本。如今,越來越多的企業(yè)對其員工進行有關(guān)分析學(xué)基本知識的培訓(xùn),以提高每日決策過程的效度與效率。分析學(xué)的簡單分類企業(yè)眾多的相關(guān)因素導(dǎo)致其既需要做出更好更快的決策,又需要可用可負(fù)擔(dān)的軟件硬件技術(shù),分析學(xué)正以前所未有的速度迅速升溫。這種爆炸性的熱潮會持久嗎?許多行業(yè)專家對此持肯定意見,至少在可預(yù)見的未來,這一趨勢不會減弱。一些最負(fù)盛名的咨詢公司預(yù)測分析學(xué)在近幾年里的增長速度將會是其他商業(yè)部門的三倍,并將分析學(xué)稱為這十年最重要的商業(yè)潮流。對分析學(xué)的興趣與實際應(yīng)用迅速增多,相應(yīng)地產(chǎn)生了將其進行簡單分類的需要。頂尖咨詢公司(埃森哲、高德納以及IDT等)以及幾個科技導(dǎo)向的學(xué)術(shù)機構(gòu)已經(jīng)開始著手進行這一分類工作。分類若是設(shè)置得當(dāng),受到廣泛應(yīng)用,就能為分析學(xué)創(chuàng)造文本描述,從而進一步加強公眾對其的理解,包括了解分析學(xué)包括哪些內(nèi)容以及分析學(xué)相關(guān)術(shù)語(如商業(yè)智能、預(yù)測模型、數(shù)據(jù)挖掘等)如何相互聯(lián)系。運籌學(xué)與管理科學(xué)協(xié)會(TheInstituteforOperationsResearchandtheManagementSciences,INFORMS)是參與本次分類的學(xué)術(shù)機構(gòu)之一,為擴大影響,該協(xié)會聘請凱捷管理咨詢公司(Capgemini)進行調(diào)查研究,并描述了分析學(xué)的特點。凱捷公司的研究為分析學(xué)下了一個簡潔的定義:“分析學(xué)通過數(shù)據(jù)報告分析發(fā)展趨勢,創(chuàng)建預(yù)測模型,為提高績效而優(yōu)化企業(yè)工序,從而幫助企業(yè)實現(xiàn)商業(yè)目標(biāo)。”根據(jù)定義,此次研究得到的最重要的貢獻之一就是,發(fā)現(xiàn)管理者認(rèn)為一旦企業(yè)應(yīng)用分析學(xué),就會將其視為核心職能。分析學(xué)的應(yīng)用涉及到企業(yè)中眾多部門和職能。在成熟的企業(yè)中,分析學(xué)甚至可以覆蓋整個企業(yè)活動。該研究定義了具有三層等級但同時又有部分重疊的分析學(xué)分類:描述性分析學(xué)、預(yù)測性分析學(xué)和指向性分析學(xué)。這三類分析學(xué)的等級分別對應(yīng)著企業(yè)不同的分析學(xué)成熟程度。大多數(shù)企業(yè)都是由描述性分析學(xué)開始,再到預(yù)測性分析學(xué),最后到達指向性分析學(xué)階段,也就是分析學(xué)的最高階段。雖然說這三層分類在復(fù)雜程度上等級不同,然而,低級與高級之間并無明顯界限。也就是說,處于描述性階段的企業(yè)可以同時零散地使用預(yù)測性分析學(xué)乃至指向性分析學(xué)方法。因此,企業(yè)由較低等級向較高等級的發(fā)展就意味著前一等級已經(jīng)成熟,后一等級已得到廣泛應(yīng)用。圖1-3用表格形式展示了這三種由INFORMS提出并得到業(yè)界領(lǐng)袖、學(xué)術(shù)機構(gòu)廣泛應(yīng)用的分類。圖1-3分析學(xué)的簡單分類描述性分析學(xué)是分析學(xué)分類中的入門階段,通常也稱為商業(yè)報告,因為這一階段的大部分商業(yè)活動都圍繞著這樣一些問題——“發(fā)生了什么”以及“正在發(fā)生什么”展開。此類報告包括定期(如每天、每周或每季度)向信息工作者(如決策制定者)發(fā)送商業(yè)交易的數(shù)據(jù)報告;持續(xù)向經(jīng)理和管理層發(fā)布動態(tài)商業(yè)績效指標(biāo),通常這些指標(biāo)都采用圖表等簡明易懂的格式;如果決策者可以自己設(shè)計報告解決特定問題(通常是自己獨創(chuàng)的鼠標(biāo)拖放圖表格式),該系統(tǒng)也能夠發(fā)布這些特殊報告。描述性分析學(xué)也稱為商業(yè)智能,而預(yù)測性與指向性分析學(xué)統(tǒng)稱為高級分析學(xué)。因為由描述性分析學(xué)向預(yù)測性或指向性分析學(xué)發(fā)展的過程伴隨著技術(shù)層面極大的轉(zhuǎn)變,復(fù)雜度大大提高,因而進入了“高級”階段。商業(yè)智能是自21世紀(jì)初以來為決策制定發(fā)展的最受歡迎的科學(xué)技術(shù)之一。直至分析學(xué)浪潮襲來,商業(yè)智能都廣受業(yè)內(nèi)歡迎,甚至從某種程度上來說,目前,該科技在商業(yè)圈仍然保持著熱度。商業(yè)智能是進入分析學(xué)世界的鑰匙,為更復(fù)雜的決策分析打下了堅實的基礎(chǔ)。描述性分析學(xué)系統(tǒng)通常不需要專為其設(shè)計的大型數(shù)據(jù)庫(也稱為數(shù)據(jù)倉庫)。預(yù)測性分析學(xué)是緊隨描述性分析學(xué)的下一等級。企業(yè)的描述性分析學(xué)發(fā)展成熟后就會進入這一階段,在此階段,企業(yè)的關(guān)注點會超越當(dāng)前情況,進而思考另一個問題:“將來會發(fā)生什么?”在接下來的幾章中,我們將深入討論各種分析技巧在數(shù)據(jù)挖掘中具有怎樣的預(yù)測能力。在此,我們只是簡單介紹一下預(yù)測性分析學(xué)的主要分類。從本質(zhì)上說,預(yù)測指的是對顧客需求、利率、股市動態(tài)等因素未來的取值作出智能化或科學(xué)性的估計。如果要預(yù)測的對象是一個組別變量,這種預(yù)測就稱為分類,否則,則稱為回歸;如果要預(yù)測的對象隨著時間的變化而變化,這種預(yù)測過程就稱為時間序列預(yù)測。指向性分析學(xué)是分析學(xué)的最高層次。這種分析學(xué)就是在預(yù)測性或描述性分析學(xué)創(chuàng)造出來的多種方法中,利用復(fù)雜的數(shù)學(xué)模型確定解決問題的最佳方案。因此可以說,這類分析學(xué)要回答的問題就是:“我應(yīng)該做什么?”指向性分析學(xué)應(yīng)用優(yōu)化、模擬以及啟發(fā)式?jīng)Q策建模技術(shù)。雖然作為分析學(xué)的最高層次,但指向性分析學(xué)所使用的分析方法卻并不新穎。構(gòu)成指向性分析學(xué)的大多數(shù)優(yōu)化和模擬方法都是在第二次世界大戰(zhàn)或戰(zhàn)后時期創(chuàng)建的,當(dāng)時人們迫切需要利用有限的資源達成最大化目標(biāo)。自那以后,一些企業(yè)開始利用這些模型解決特定問題,例如,收益管理、交通模式、日程規(guī)劃等。分析學(xué)中新的分類方法讓這些技術(shù)重新受到關(guān)注,并在更多的商業(yè)領(lǐng)域和問題中大展身手。圖1-4以表格形式展示了分析學(xué)的三大分類,包括每一層級要回答的問題和所用的技巧。從圖中我們可以看出,數(shù)據(jù)挖掘為預(yù)測性分析學(xué)創(chuàng)造了條件。圖1-4分析學(xué)的三種層次及其應(yīng)用技術(shù)商業(yè)分析學(xué)因其為決策者提供了成功所需的信息和知識而越來越受到歡迎。無論處在哪一階段,商業(yè)分析學(xué)系統(tǒng)想要有效地發(fā)揮作用,都要依靠數(shù)據(jù)的質(zhì)量和數(shù)量(包括實際數(shù)量和種類豐富性),依靠數(shù)據(jù)管理系統(tǒng)的準(zhǔn)確性、完整性和及時性,依靠分析工具和過程的處理能力和復(fù)雜程度。認(rèn)識分析學(xué)的分類有助于企業(yè)正確選擇和實施合適的分析學(xué)技術(shù),在成熟連續(xù)流中循序漸進。分析學(xué)的前沿技術(shù)
——以IBMWatson為例IBMWatson或許是迄今為止最為智能的計算機系統(tǒng)。自20世紀(jì)40年代末起,計算機技術(shù)和人工智能初現(xiàn)曙光,科學(xué)家就開始將這些“智能”機械同人腦相比較。據(jù)稱,20世紀(jì)90年代中期到90年代末期,IBM的科學(xué)家就設(shè)計開發(fā)出了智能機器,并通過與人對弈圍棋(圍棋通常被視為智慧人類的游戲)來測試其能力。1997年5月11日,IBM計算機“深藍(lán)”經(jīng)過六場棋局打敗了世界圍棋大師,比賽結(jié)果是:深藍(lán)勝兩局,大師勝一局,三次平局。比賽持續(xù)了幾天,受到了世界媒體的廣泛關(guān)注。這次事件是人與機器能力對決最經(jīng)典的分水嶺。除了圍棋比賽,發(fā)展此類計算機智能的目的還包括:研發(fā)新型藥品,運行大規(guī)模金融模型來把握經(jīng)濟趨勢、進行風(fēng)險分析,在大型數(shù)據(jù)庫中進行搜索,執(zhí)行高精尖科學(xué)領(lǐng)域中所需要的大規(guī)模運算。幾十年后,IBM公司的研發(fā)者又有了一個更具有挑戰(zhàn)性的想法——打造一臺能玩《危險邊緣》(Jeopardy?。┯螒蚨夷艽驍∽罴淹婕业臋C器。與圍棋相比,《危險邊緣》游戲更難玩:圍棋是結(jié)構(gòu)化的游戲,規(guī)則也很簡單,很容易通過計算機程序完成,但是《危險邊緣》游戲既不簡單又非結(jié)構(gòu)化。這款游戲?qū)槿祟愔腔酆蛣?chuàng)造力設(shè)計,因此與之相關(guān)的計算機必須是能像人類一樣工作思考的、具有意識的計算機系統(tǒng)。理解人類語言與生俱來的不嚴(yán)謹(jǐn)性是設(shè)計成功的關(guān)鍵。2010年,IBM公司的一支研究團隊設(shè)計制造了一款劃時代的系統(tǒng)——Watson。Watson結(jié)合了當(dāng)時最先進的軟硬件,專為回答人類自然語言而設(shè)計。這款系統(tǒng)的設(shè)計是DeepQA項目的一個部分,其命名源于IBM首任總裁托馬斯·沃特森(ThomasJ.Watson)。設(shè)計團隊一直在尋找一個能與深藍(lán)的科學(xué)性及其所引發(fā)的公眾關(guān)注比肩的研究難題,該問題還要與IBM公司的商業(yè)利益相關(guān)聯(lián)。其目的是通過探索計算機技術(shù)對科學(xué)、商業(yè)和社會總體產(chǎn)生的新型影響來進一步發(fā)展計算機技術(shù)。IBM公司研究設(shè)計Watson的初衷是設(shè)計一款能在美國智力測試節(jié)目《危險邊緣》上與人類智慧分庭抗禮的計算機系統(tǒng),也就是創(chuàng)造一臺能在節(jié)目中實時自動答題的比賽選手,能夠真正進行聽取、理解以及回答,而非僅僅停留在實驗室階段。與《危險邊緣》游戲高手過招2011年,為測試其性能,Watson登上了《危險邊緣》節(jié)目的舞臺,這也是首次人與機器同時參加的智力比賽。在兩局制、比分合計的賽程中(2月14日至16日播出的三期《危險邊緣》節(jié)目),Watson打敗了一直穩(wěn)居獎金獲得者寶座的布拉德·魯特(BradRutter),以及冠軍保持最長時間(75天)的肯·杰寧斯(KenJennings)。在這幾期節(jié)目中,Watson一直領(lǐng)先于人類對手按下回答鍵,但是某些問題對Watson也十分棘手,尤其是那些通過幾個關(guān)鍵詞提供線索的問題。Watson那4TB的內(nèi)存中,記錄著多達2000萬頁結(jié)構(gòu)化與非結(jié)構(gòu)化競賽問題。在整個比賽過程中,Watson一直沒有連接網(wǎng)絡(luò)。要解決《危險邊緣》這個難題,需要處理整合及系列文本分析結(jié)果,應(yīng)用自然語言處理技術(shù),包括語法描述、問題分類、問題分析、自動獲取評估答案源、辨別答案的本質(zhì)和聯(lián)系、邏輯生成以及信息表達推理。要在《危險邊緣》節(jié)目中獲勝需要精確計算回答問題的自信程度。問題和比賽過程是隨機而嘈雜的,任何一個單一的計算公式都不適用。因此,答案的每一個組成部分都需要表現(xiàn)出一定的自信程度,所有成分組合起來決定了最終回答問題的自信程度,同時也決定著Watson是否回答該問題。用《危險邊緣》的說法,答題的自信程度決定著機器能否“搶答”問題。答題自信程度的計算要在問題讀出、搶答開始之前的時間里進行,通常在1~6秒之間,平均3秒左右。Watson是怎么做到的Watson背后的支撐系統(tǒng)是DeepQA,這是一個專注文本分析、基于概率性事件的大規(guī)模并行性系統(tǒng)。為了參加《危險邊緣》節(jié)目,Watson使用了一百多種自然語言處理技術(shù),辨別數(shù)據(jù)源,發(fā)現(xiàn)并進行假設(shè),評估信息,將形成的假設(shè)分類。比IBM團隊使用的任何技術(shù)更為重要的是如何將它們整合進DeepQA系統(tǒng)。例如,部分重疊方式能夠充分發(fā)揮各種技術(shù)的長處,增強準(zhǔn)確性、自信程度以及提高速度。DeepQA使用的方法并不僅僅限于參加《危險邊緣》競賽,以下是該系統(tǒng)使用的核心準(zhǔn)則。●高度并行性。Watson在處理多種理解和假設(shè)時需要保持高度的并行性?!穸辔粚<摇atson需要整合、應(yīng)用以及在特定環(huán)境中評估一系列具有松散聯(lián)系的概率性問題,并進行內(nèi)容分析?!翊痤}信心估計。Watson的任何單個組成部分都不能確保某個問題的準(zhǔn)確性,所有的部分共同決定答題自信程度,其內(nèi)含的自信度測量處理過程知道如何合成最終分?jǐn)?shù)?!裾蠝\層知識與深層知識。Watson需要利用多種本體論,在深層語義和淺層語義之間保持平衡。圖1-5高度概括了DeepQA系統(tǒng),更多的系統(tǒng)組成部分細(xì)節(jié)及其具體角色和能力都記載在Ferruccietal.,(2010)的研究成果中。圖1-5DeepQA結(jié)構(gòu)的高水平描述Watson的未來將何去何從為解決《危險邊緣》的難題,IBM公司認(rèn)識到了設(shè)計DeepQA系統(tǒng)以及安裝Watson的必要性。經(jīng)過由20名科學(xué)家組成的研究團隊長達3年的探索與研發(fā),在公司研究發(fā)展資金的支持下,Watson在《危險邊緣》節(jié)目上對準(zhǔn)確性、自信度、速度的展現(xiàn)已經(jīng)達到了人類答題高手的水平。節(jié)目結(jié)束后,公司所面臨的大問題是:“現(xiàn)在該如何繼續(xù)發(fā)展?”Watson要一直作為益智答題機器而發(fā)展下去嗎?當(dāng)然不是!向全世界展示W(wǎng)atson及其背后的知覺系統(tǒng)能做出怎樣的貢獻,并成為企業(yè)發(fā)展新一代智能信息系統(tǒng)的動力。對IBM公司而言,這將向全世界展示前沿分析學(xué)和計算機系統(tǒng)有多大的發(fā)展?jié)撃?。其想要傳達的信息是明確的:如果智能機器能夠在人類最擅長的方面打敗人類最強的選手,那么該機器為企業(yè)管理也將帶來不可限量的好處。第一個應(yīng)用Watson的工業(yè)部門是醫(yī)療衛(wèi)生部門,接下來是安保、金融、零售、教育、公共服務(wù)以及科學(xué)研究。下面將向你簡單介紹Watson在這些部門是如何發(fā)揮并且正在發(fā)揮作用的。醫(yī)療衛(wèi)生當(dāng)今的醫(yī)療衛(wèi)生事業(yè)面臨著巨大而多樣化的挑戰(zhàn)。由于生活水平的提高,科技發(fā)展促進了醫(yī)療事業(yè)的進步,美國社會老齡化程度不斷加重,對醫(yī)療衛(wèi)生服務(wù)的需求增長大大超過了其供給。眾所周知,當(dāng)供求出現(xiàn)不均時,價格就會上升,產(chǎn)品質(zhì)量也會下降。因此,我們需要像Watson這樣的智能系統(tǒng)來幫助決策者優(yōu)化資源使用,從臨床和管理兩方面改善醫(yī)療衛(wèi)生。據(jù)醫(yī)療專家稱,醫(yī)生們用來進行診斷和治療的醫(yī)學(xué)知識中,只有20%具有實證基礎(chǔ)。試想一下,每五年相關(guān)的醫(yī)學(xué)知識量就會翻一倍,這些數(shù)據(jù)通常是非結(jié)構(gòu)化的,醫(yī)生們根本沒時間查閱所有期刊,實時更新其知識儲備。對服務(wù)的需求不斷增長,醫(yī)療決策的制定又相當(dāng)復(fù)雜,醫(yī)療衛(wèi)生提供者又將如何解決這一難題呢?答案就是使用Watson,或其他類似的智能系統(tǒng),通過分析大量數(shù)據(jù)幫助醫(yī)師診斷和治療,其使用的數(shù)據(jù)既包括來自電子醫(yī)療記錄數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),又包括醫(yī)生手記以及出版期刊等非結(jié)構(gòu)化文本數(shù)據(jù),這些數(shù)據(jù)能夠為更好更快的醫(yī)療決策提供實證基礎(chǔ)。首先,醫(yī)生與患者用自然語言向系統(tǒng)描述癥狀和相關(guān)因素,Watson從中找出關(guān)鍵信息,并從患者數(shù)據(jù)中挖掘出其家族病史、當(dāng)前用藥、治療現(xiàn)狀等相關(guān)信息,再將這些信息結(jié)合時下的最新發(fā)現(xiàn)進行測試,在分析多個信息源——包括治療指南、電子醫(yī)療記錄數(shù)據(jù)、醫(yī)師護士手記、同行評論研究以及臨床研究——后為可能的診斷作出假設(shè)。接下來,Watson就能夠提出診斷和治療方案選擇,每種方案都搭配相應(yīng)的信心指數(shù)。Watson還可以整合同一時間在不同載體上發(fā)表的研究成果,使醫(yī)療衛(wèi)生事業(yè)得以轉(zhuǎn)型。它可以大大地改變醫(yī)學(xué)院學(xué)生的學(xué)習(xí)方式,幫助醫(yī)療管理者提前掌握需求動態(tài),優(yōu)化資源分配,改善付款程序。早期使用類似智能系統(tǒng)的醫(yī)療機構(gòu)包括MD安德森癌癥中心(MDAnderson)、克利夫蘭醫(yī)療中心(ClevelandClinic)以及紀(jì)念斯隆-凱特琳癌癥中心(MemorialSloanKetteringCancerCenter)。安?;ヂ?lián)網(wǎng)正滲透到我們生活的方方面面,從電子交易到電子商務(wù),從智能電網(wǎng)到遠(yuǎn)程操控家用電器的智能房屋。這些事物在方便管理的同時,也加大了居心不良者侵犯個人生活的機會。我們需要Watson這樣的智能系統(tǒng),能夠隨時監(jiān)測異常行為,阻止他人獲得我們的生活隱私,對我們造成傷害。這一系統(tǒng)可以應(yīng)用于企業(yè)管理,乃至國防系統(tǒng),當(dāng)然也可以用于個人防護。這類智能系統(tǒng)能夠識別主人,充當(dāng)電子護衛(wèi),發(fā)現(xiàn)生活中的干擾并在異常發(fā)生的第一時間通知我們。金融金融服務(wù)產(chǎn)業(yè)同樣面臨著復(fù)雜的困難。對金融機構(gòu)的管理制裁不斷增多,來自社會和政府的壓力不斷加大,其顧客的力量越來越大,需求越來越高,也越來越精明。如今,每天都會產(chǎn)生大量的金融信息,很難選擇對于行業(yè)而言正確的信息。也許最好的解決方法就是更好地理解風(fēng)險檔案與企業(yè)運營環(huán)境,以創(chuàng)建更加智能的用戶參與系統(tǒng)。主要金融機構(gòu)已經(jīng)開始在其工作程序中使用Watson傳播信息。目前,Watson在銀行業(yè)、金融管理與投資等金融服務(wù)部門協(xié)助處理數(shù)據(jù)密集型問題。零售零售行業(yè)隨著顧客需求和渴望的變化而不斷發(fā)生著變化。移動設(shè)備和社交媒體使得消費者能夠更快、更容易地獲得更多的信息,這也使他們對商品和服務(wù)有了更高的期望。零售商一方面盡可能通過分析學(xué)來達到這些高期望,另一方面,其更大的難題是高效率地處理堆積如山的實時數(shù)據(jù)以獲得競爭優(yōu)勢。Watson的智能計算能力能夠分析大量非結(jié)構(gòu)化數(shù)據(jù),幫助零售商重新規(guī)劃定價、采購、分銷和員工配置的決策過程。因為Watson能夠理解并回答自然語言,它能夠?qū)⑸缃幻襟w、博客以及顧客反饋中收集到的數(shù)據(jù)進行有效、量化的分析和反饋。教育學(xué)生的特點正在以前所未有的速度發(fā)生著變化:更容易受到視覺影響和刺激,經(jīng)常登錄社交媒體和社交網(wǎng)絡(luò),集中注意力的時間段越來越短。未來的教育和教室將會如何發(fā)展?下一代教育系統(tǒng)應(yīng)該更適應(yīng)新一代人類的需求,每個人都有自己專屬的學(xué)習(xí)計劃、專屬的教科書(具備音頻、視頻、動態(tài)圖片圖表等多媒體的電子書籍)、靈活可變的教學(xué)課程以及有可能實現(xiàn)的智能電子教師和全天候私人教練。Watson似乎能夠滿足以上所列舉的一切需求。由于其具有自然語言處理能力,學(xué)生們可以像跟教師、教練、朋友一樣交談。這種智能教員能夠回答學(xué)生問題,滿足學(xué)生們的好奇心,幫助他們在教育之路上走得更好。政府對地區(qū)、區(qū)域、國家級政府而言,大數(shù)據(jù)的指數(shù)增長使其陷入了巨大的困境。如今,市民獲得了前所未有的力量和信息,這就意味著他們對公共部門服務(wù)的期望更高。政府組織可以收集大量非結(jié)構(gòu)化、未經(jīng)證實的數(shù)據(jù)來服務(wù)民眾,但是只有當(dāng)數(shù)據(jù)經(jīng)過分析處理后才能夠更加有效地發(fā)揮作用。IBM的Watson智能系統(tǒng)可以幫助政府處理海量數(shù)據(jù),加快決策速度,使公共服務(wù)人員更加關(guān)注服務(wù)創(chuàng)新與發(fā)現(xiàn)。科研每年有數(shù)以千億計的美元投資在科學(xué)研究發(fā)展方面,多數(shù)集中在專利與出版方面,由此產(chǎn)生了大量的非結(jié)構(gòu)化數(shù)據(jù)。為了擴充不斷擴大的知識庫,人們需要在浩大的數(shù)據(jù)資源中尋找特定領(lǐng)域研究的范圍。若使用傳統(tǒng)方法,即便不說是不可能的,至少也是十分困難的。然而,Watson卻能夠充當(dāng)研究助手的角色,幫助收集同步信息,使人們實時更新最近的研究成果。例如,紐約基因中心使用IBMWatson智能系統(tǒng)分析診斷患有高危腦腫瘤患者的基因數(shù)據(jù),并根據(jù)這些數(shù)據(jù)為這些患者提供專屬的生命救助治療。第2章
數(shù)據(jù)挖掘入門數(shù)據(jù)挖掘是分析學(xué)最強大的工具之一,盡管其起源能夠追溯到20世紀(jì)80年代末至90年代初,但它最有效的應(yīng)用是在21世紀(jì)開始發(fā)展的。許多人將近期分析學(xué)受到的熱烈追捧歸因為數(shù)據(jù)挖掘應(yīng)用的不斷增多,為各管理層的決策者挖掘并提供了他們最需要的信息和知識?!皵?shù)據(jù)挖掘”一詞最早是指發(fā)現(xiàn)數(shù)據(jù)中未知的規(guī)律。軟件商和咨詢機構(gòu)將這一定義擴展,使其包含了大多數(shù)數(shù)據(jù)分析過程,增加了數(shù)據(jù)挖掘的廣度和執(zhí)行能力,以提高數(shù)據(jù)挖掘相關(guān)的工具、服務(wù)的銷量。隨著“分析學(xué)”一詞的不斷發(fā)展,逐漸涵蓋了數(shù)據(jù)分析的所有方面,數(shù)據(jù)挖掘也就退回到其原有的位置——在分析學(xué)中表示新知識的發(fā)現(xiàn)。托馬斯·達文波特(ThomasDavenport)是分析學(xué)領(lǐng)域一位德高望重的專家,他在2006年《哈佛商業(yè)評論》中發(fā)表的一篇文章中稱,當(dāng)前商業(yè)社會最新的數(shù)據(jù)武器是基于數(shù)據(jù)挖掘得到的新知識所做出的分析決策。他列舉了亞馬遜、美國第一資本投資國際集團(CapitalOne)、萬豪國際等眾多應(yīng)用過或正在應(yīng)用分析學(xué)的企業(yè),這些企業(yè)通過使用分析學(xué)加深對顧客的理解,優(yōu)化外圍供應(yīng)鏈,從而實現(xiàn)投資回報最大化,并為顧客提供最好的服務(wù)。只有當(dāng)企業(yè)窮盡所有,包括使用描述性、預(yù)測性、指向性三種分析學(xué),更加深入地了解顧客的所需所求,了解零售商、商業(yè)程序和外圍供應(yīng)鏈,才能夠取得這樣的成功。數(shù)據(jù)挖掘是將數(shù)據(jù)轉(zhuǎn)化成信息,進而轉(zhuǎn)化為知識的過程。在知識管理的背景下,數(shù)據(jù)挖掘正是新知識產(chǎn)生的過程。比起數(shù)據(jù)和信息,知識是一種與眾不同的事物。如圖2-1所示,數(shù)據(jù)代表著事實、測量結(jié)果和統(tǒng)計結(jié)果,信息是實時處理或操控的數(shù)據(jù)(例如,在應(yīng)用時間前去除了來自數(shù)據(jù)的干擾),與原數(shù)據(jù)相比,信息更容易理解。知識則是文本化、可執(zhí)行的相關(guān)信息。舉個例子,一張給出詳細(xì)駕駛路線的地圖可以看作是數(shù)據(jù)。在高速公路邊張貼的前方施工提醒車輛慢行的告示板可以看作是信息。而在車輛倒車的時候,時時提醒路線的語音提醒則是知識。在這個例子中,地圖之所被認(rèn)為是數(shù)據(jù),是因為其不包括兩地間影響行車時間和狀況的實時相關(guān)信息。然而,即使信息像這樣提供當(dāng)前具體狀況,也需要駕駛?cè)苏莆毡荛_施工地區(qū)的知識才能發(fā)揮作用。由此看出,比起信息,知識在特定環(huán)境下關(guān)于經(jīng)驗和反應(yīng)的因素較多。圖2-1從數(shù)據(jù)到信息到知識的連續(xù)轉(zhuǎn)變擁有知識意味著人們可以通過實踐解決問題,而信息卻不包含這一層意思,知識本身包含著行動的能力。舉例來說,兩個人在同一環(huán)境下獲得相同的信息,卻不一定具有相同的能力來利用可用信息達成相同的效果。由此可見,人與人之間為信息增加價值的能力是有差距的,而這種能力的差距也許是不同的經(jīng)歷、所受的不同訓(xùn)練、看問題的不同角度等多種因素所造成的。雖然數(shù)據(jù)、信息和知識都能夠被視作企業(yè)的資產(chǎn),但知識所包含的意義要比數(shù)據(jù)和信息的意義更加深遠(yuǎn)。由于知識向人們傳遞著意義,因此相比之下,它就具有更多的價值,但也更加短暫。雖然“數(shù)據(jù)挖掘”一詞對大多數(shù)人而言還是陌生的,但其背后的原理卻并不新穎,數(shù)據(jù)挖掘使用的許多技巧都能在傳統(tǒng)的統(tǒng)計分析學(xué)和20世紀(jì)50年代初產(chǎn)生的人工智能技術(shù)中找到源頭。那么,為什么數(shù)據(jù)挖掘會突然在商業(yè)世界中受到了關(guān)注呢?下面我們談?wù)勥@一現(xiàn)象產(chǎn)生的原因:●全球競爭愈演愈烈。當(dāng)前商業(yè)社會商品與服務(wù)的供應(yīng)大于需求;●消費者需求不斷變化。社會中供給者越來越多,他們提供的產(chǎn)品與服務(wù)也越來越多(質(zhì)量提高、價格下降、服務(wù)更快捷),消費者的需求正處于一個多變的階段;●認(rèn)識到數(shù)據(jù)的價值。企業(yè)正漸漸認(rèn)識到大型數(shù)據(jù)源中蘊涵的豐富價值;●管理文化的變化。數(shù)據(jù)導(dǎo)向、事實導(dǎo)向的決策過程正成為常態(tài),大大地改變了管理者的工作模式;●數(shù)據(jù)獲取與存儲技術(shù)進步。收集并整合各種多源數(shù)據(jù),形成標(biāo)準(zhǔn)化數(shù)據(jù)結(jié)構(gòu)使得企業(yè)輕松獲取消費者、經(jīng)銷商和商業(yè)交易的高質(zhì)量數(shù)據(jù);●數(shù)據(jù)倉庫的出現(xiàn)。數(shù)據(jù)庫及其他數(shù)據(jù)存儲以數(shù)據(jù)倉庫的形式被整合進了一個單一位置,以支持分析學(xué)和管理的決策制定;●軟件、硬件的技術(shù)進步。計算機設(shè)備的處理和存儲能力都大大提高了;●軟硬件成本。雖然處理能力提高,進行數(shù)據(jù)存儲和處理的軟件、硬件成本卻在快速下降?!駭?shù)據(jù)可用性。生活在互聯(lián)網(wǎng)時代,具備分析能力的企業(yè)有了更多機會發(fā)現(xiàn)并獲取信息豐富的大型數(shù)據(jù)源(包括社交媒體和社交網(wǎng)絡(luò)),從而能更好地認(rèn)識我們所生活的世界。數(shù)據(jù)無處不在。比如說,網(wǎng)上活動收集的數(shù)據(jù)增長速度極快,對其所達到的數(shù)量,我們在早些時候甚至沒有確切的名字來形容。我們對染色體所包含的大量基因數(shù)據(jù)以及相關(guān)信息(通常以出版物和研究成果的形式發(fā)表在期刊或其他載體上)的收集遍布全球。天文學(xué)、原子物理學(xué)等學(xué)科每隔一段時間就會產(chǎn)生大量數(shù)據(jù),醫(yī)療和制藥的研究者不斷創(chuàng)造和積累數(shù)據(jù),并應(yīng)用于數(shù)據(jù)挖掘中,為診斷和治療病患,研發(fā)新藥作出貢獻。在商業(yè)領(lǐng)域,數(shù)據(jù)與數(shù)據(jù)挖掘最常見的應(yīng)用集中在金融、零售及醫(yī)療衛(wèi)生部門。數(shù)據(jù)挖掘廣泛應(yīng)用于檢測并剔除欺詐活動,尤其在保險賠付和信用卡使用方面得到了好評;數(shù)據(jù)挖掘可以用于定位消費者的消費模式,吸引可能進行消費的顧客;從歷史數(shù)據(jù)中發(fā)現(xiàn)貿(mào)易規(guī)律,利用市場籃子分析提高企業(yè)利潤。數(shù)據(jù)挖掘的應(yīng)用幫助企業(yè)更好地定位顧客,在電子商務(wù)得到普遍發(fā)展的今天,這無疑是企業(yè)發(fā)展所必不可少的。數(shù)據(jù)挖掘是什么從本質(zhì)上來看,數(shù)據(jù)挖掘是從大量數(shù)據(jù)之中發(fā)現(xiàn)(即挖掘)知識(可用信息)的過程。當(dāng)我們真正這樣聯(lián)想時,就會發(fā)現(xiàn)“數(shù)據(jù)挖掘”這個詞并不準(zhǔn)確,也就是說,從土石中挖掘金子,我們稱之為“掘金”而不是“掘土”或“掘石”。因此,數(shù)據(jù)挖掘正確的名稱應(yīng)該是“知識挖掘”或者“知識發(fā)現(xiàn)”。盡管名不符實,但數(shù)據(jù)挖掘仍然是人們大多數(shù)時候交談時所選擇的詞語。人們提出過用一些其他名稱。例如,在數(shù)據(jù)庫中發(fā)現(xiàn)知識、信息提取、模式分析、信息收集以及模式搜索等來代替數(shù)據(jù)挖掘,但是迄今為止,還沒有一個詞能夠真正地起到替代作用。數(shù)據(jù)挖掘是運用統(tǒng)計學(xué)、數(shù)學(xué)和人工智能技術(shù)與公式在大量數(shù)據(jù)中發(fā)現(xiàn)并提取有效信息和相關(guān)知識(或模式)的過程。這些模式可以是商業(yè)規(guī)則、親密關(guān)系、相互聯(lián)系、發(fā)展趨勢以及發(fā)展預(yù)測。將數(shù)據(jù)挖掘定義為“在結(jié)構(gòu)化數(shù)據(jù)庫儲存的數(shù)據(jù)中發(fā)現(xiàn)可信的、新穎的、有潛在利用價值、簡明易懂的規(guī)律的復(fù)雜過程”,這些數(shù)據(jù)都是由類別化、序數(shù)化以及連續(xù)的變量構(gòu)成的。這一定義中有如下幾個關(guān)鍵詞:●過程。表明數(shù)據(jù)挖掘包含著許多重復(fù)步驟;●復(fù)雜。說明數(shù)據(jù)挖掘需要進行實驗性研究和推斷,并非像計算預(yù)先設(shè)定好的數(shù)量那樣簡單直接;●可信。意味著發(fā)現(xiàn)的規(guī)律在應(yīng)用于新數(shù)據(jù)時,其可信度要有一定保障;●新穎。說明該規(guī)律過去在該系統(tǒng)運行環(huán)境中未被發(fā)現(xiàn)過;●有潛在利用價值。意味著新規(guī)律對使用者或者應(yīng)用任務(wù)要有所貢獻;●簡明易懂。說明該規(guī)律要讓企業(yè)意識到其意義,讓使用者發(fā)現(xiàn)“這個(方法)很有效,我為什么不試試呢?”即使這種方法并不是一開始就讓使用者意識到其價值,起碼要在使用者進行幾個步驟后展現(xiàn)出自身意義。數(shù)據(jù)挖掘并不是一個完全新穎的學(xué)科,而是建立在其他學(xué)科相互影響相互融合之上的新方法。從某種程度上說,數(shù)據(jù)挖掘是一種新的理念,用數(shù)據(jù)和數(shù)學(xué)模型創(chuàng)建、獲取新知識。數(shù)據(jù)挖掘通過一種系統(tǒng)和協(xié)同的方式使用了不同學(xué)科知識,包括統(tǒng)計學(xué)、人工智能、機器學(xué)習(xí)、管理科學(xué)、信息系統(tǒng)以及數(shù)據(jù)庫(見圖2-2)。數(shù)據(jù)挖掘旨在整合這些能力,在大量數(shù)據(jù)存儲中提取有效信息和知識。作為新興領(lǐng)域,數(shù)據(jù)挖掘在短時間內(nèi)吸引了廣泛的關(guān)注,促進了分析學(xué)運動的產(chǎn)生和流行。圖2-2數(shù)據(jù)挖掘:多學(xué)科知識挖掘方法哪些不屬于數(shù)據(jù)挖掘由于其強大的魅力,數(shù)據(jù)挖掘常常用來表示任何與數(shù)據(jù)相關(guān)的分析過程。舉例來說,人們會將一般的網(wǎng)上搜索稱為數(shù)據(jù)挖掘。雖然說網(wǎng)絡(luò)搜索也是從大量、多樣的數(shù)據(jù)或信息源中為特定問題尋找解決方法,也正是由于這個原因,網(wǎng)絡(luò)搜索與數(shù)據(jù)挖掘很相似。然而,數(shù)據(jù)挖掘是利用統(tǒng)計或機器學(xué)習(xí)技術(shù)發(fā)現(xiàn)可重復(fù)使用規(guī)律的過程,這比單純的網(wǎng)絡(luò)搜索更為活躍、更具科學(xué)性。另一種容易與數(shù)據(jù)挖掘混淆的概念是在線分析處理(OnlineAnalyticalProcessing,OLAP),在線分析處理是商業(yè)智能運動的核心技術(shù),是一組利用數(shù)據(jù)魔方在大型數(shù)據(jù)庫(或數(shù)據(jù)倉庫)中進行搜索的數(shù)據(jù)庫檢索方法。數(shù)據(jù)魔方從多方面表現(xiàn)了數(shù)據(jù)倉庫中儲存的數(shù)據(jù),同在線分析處理一起共同幫助決策者將企業(yè)數(shù)據(jù)切分為不同的片段,分別回答企業(yè)的不同問題,如“發(fā)生了什么”、“在哪里發(fā)生的”以及“什么時候發(fā)生的”,等等。在線分析處理聽起來很復(fù)雜——而且如果從效率角度來看的話,它的確復(fù)雜——但它不是數(shù)據(jù)挖掘。在線分析處理可以看作是數(shù)據(jù)挖掘的早期形式,在將數(shù)據(jù)轉(zhuǎn)化為信息和知識以進行更好更快的決策方面,二者甚至是互補的。在線分析處理是描述性分析學(xué)的一部分,而數(shù)據(jù)挖掘則是預(yù)測性分析學(xué)的核心組成部分。關(guān)于統(tǒng)計學(xué)與數(shù)據(jù)挖掘的話題也是經(jīng)久不衰,有人認(rèn)為數(shù)據(jù)挖掘就是一種統(tǒng)計學(xué),有人則認(rèn)為統(tǒng)計學(xué)是數(shù)據(jù)挖掘的一部分,還有人則堅持兩者是一回事。雖然我們在這里并不能徹底說清楚這些問題,但至少可以提幾個關(guān)鍵點。數(shù)據(jù)挖掘與統(tǒng)計學(xué)有很多共同點,而兩者最大的區(qū)別在于,統(tǒng)計學(xué)有一個預(yù)先規(guī)劃好的命題或假設(shè),數(shù)據(jù)挖掘卻只有一個簡單的發(fā)現(xiàn)計劃。統(tǒng)計學(xué)收集一系列的數(shù)據(jù)(原始數(shù)據(jù))來證明假設(shè),而數(shù)據(jù)挖掘則通過分析現(xiàn)有數(shù)據(jù)(通常是可觀測的二手?jǐn)?shù)據(jù))來發(fā)現(xiàn)新的規(guī)律和聯(lián)系。兩者之間的另一區(qū)別是使用的數(shù)據(jù)規(guī)模,數(shù)據(jù)挖掘使用的是盡可能“大”的數(shù)據(jù),統(tǒng)計學(xué)則是選擇規(guī)模合適的數(shù)據(jù),如果得到的數(shù)據(jù)大于所需或所要求的量,統(tǒng)計學(xué)會選取數(shù)據(jù)樣本進行研究。統(tǒng)計學(xué)與數(shù)據(jù)挖掘?qū)Α按笠?guī)模數(shù)據(jù)”的定義是有差別的:幾百或幾千個數(shù)據(jù)個體對于統(tǒng)計學(xué)而言已經(jīng)足夠大了,但對于數(shù)據(jù)挖掘來說,需要上百萬甚至幾十億數(shù)據(jù)才能夠算作大型。綜上所述,數(shù)據(jù)挖掘并不是簡單的網(wǎng)絡(luò)搜索或是在線分析處理的常規(guī)應(yīng)用,與統(tǒng)計學(xué)也有區(qū)別。雖然這些描述技術(shù)都能在數(shù)據(jù)挖掘中找到應(yīng)用,但是數(shù)據(jù)挖掘本質(zhì)上屬于更高等級的分析學(xué),應(yīng)用數(shù)據(jù)和模型來發(fā)現(xiàn)蘊涵其中的奇妙規(guī)律(即聯(lián)系與未來趨勢)。數(shù)據(jù)挖掘最常見的應(yīng)用數(shù)據(jù)挖掘已成為解決復(fù)雜商業(yè)問題,抓住商機的常用工具,在多個領(lǐng)域作出了貢獻,接下來我們將會介紹其中的一些領(lǐng)域。現(xiàn)在已經(jīng)很難找到哪個領(lǐng)域不涉及大規(guī)模的數(shù)據(jù)挖掘,而大多數(shù)應(yīng)用的目的都是解決復(fù)雜問題,發(fā)現(xiàn)潛在機遇,以提升企業(yè)自身的競爭優(yōu)勢。市場營銷與客戶關(guān)系管理客戶關(guān)系管理(CustomerRelationshipManagement,CRM)是傳統(tǒng)市場營銷的延展,其宗旨是通過深入理解消費者需求,創(chuàng)建與客戶一對一的關(guān)系。企業(yè)在通過各種渠道(包括產(chǎn)品調(diào)研、銷售、服務(wù)請求、報修熱線、產(chǎn)品評論、社交網(wǎng)絡(luò)媒體)與顧客建立聯(lián)系的過程中,收集了大量的數(shù)據(jù)信息。企業(yè)將這些數(shù)據(jù)與人口和社會經(jīng)濟特點結(jié)合起來,就可以用來判斷新產(chǎn)品或新服務(wù)的最佳消費群體,獲取消費者資料;理解消費者偏好的根本原因,提高顧客忠誠度;發(fā)現(xiàn)產(chǎn)品與服務(wù)之間的時間周期聯(lián)系,最大化提高銷售額和顧客滿意度;找出最大消費群體的消費需求,以加強聯(lián)系,促進銷售。銀行與金融數(shù)據(jù)分析能夠幫助銀行等金融機構(gòu)解決各種問題,通過精準(zhǔn)預(yù)測和識別常見錯誤,推動貸款工作的流程化和自動化;檢測虛假信用卡使用,網(wǎng)上銀行詐騙;針對客戶投其所好,將消費者滿意度最大化;精準(zhǔn)預(yù)測銀行機構(gòu)的現(xiàn)金流(如自動提款機、銀行分行等),優(yōu)化現(xiàn)金回收。零售與物流在零售業(yè),數(shù)據(jù)挖掘可用于預(yù)測特定零售點的銷售量,決定合適的庫存水平;通過市場籃子分析,發(fā)現(xiàn)不同商品之間的銷售關(guān)系,優(yōu)化商店布局,有利于促銷;根據(jù)季節(jié)和環(huán)境條件,預(yù)測不同產(chǎn)品的銷售水平;通過分析傳感器和RFID標(biāo)簽,發(fā)現(xiàn)商品在供應(yīng)鏈中的流動規(guī)律,尤其是對于那些易過期、變質(zhì)、污染的短生命周期產(chǎn)品。制造業(yè)制造業(yè)能夠利用數(shù)據(jù)挖掘在問題發(fā)生前檢測出機械故障,使企業(yè)能夠?qū)崟r檢修;發(fā)現(xiàn)生產(chǎn)系統(tǒng)中的異常和共性,提升生產(chǎn)能力;發(fā)現(xiàn)新的生產(chǎn)模式,優(yōu)化產(chǎn)品質(zhì)量。經(jīng)紀(jì)業(yè)與證劵交易經(jīng)紀(jì)人和交易商利用數(shù)據(jù)挖掘預(yù)測特定股票和證劵價格變化的時間和變動方式,估計市場波動的范圍和方向,預(yù)測特定時間對整個市場運作的影響,發(fā)現(xiàn)并檢測證券市場的欺詐行為。保險業(yè)保險業(yè)利用數(shù)據(jù)挖掘技術(shù)預(yù)測財產(chǎn)和醫(yī)療墊付的保險金額,更好地實施行業(yè)規(guī)劃;根據(jù)保險申領(lǐng)和顧客數(shù)據(jù)更好地進行賠率設(shè)計;預(yù)測哪一位顧客最有可能購買具有一定特色的新產(chǎn)品;發(fā)現(xiàn)并預(yù)防不正當(dāng)保險申領(lǐng)和欺詐行為。計算機硬件和軟件數(shù)據(jù)挖掘能提前預(yù)測磁盤驅(qū)動器故障,發(fā)現(xiàn)并過濾網(wǎng)頁的無用內(nèi)容和垃圾郵件;監(jiān)測并預(yù)防計算機網(wǎng)絡(luò)安全橋;發(fā)現(xiàn)具有潛在威脅的軟件產(chǎn)品。政府與國防數(shù)據(jù)挖掘在政府部門和軍事部門發(fā)揮著廣泛的應(yīng)用,能夠預(yù)測由于軍隊人事和部門變動帶來的成本損失;監(jiān)控敵方動向,協(xié)助軍事行動制定更好的策略;預(yù)測資源的消耗量以做出更好的規(guī)劃和預(yù)算;記錄特殊事件、決策的經(jīng)驗,吸取軍事行動的教訓(xùn),將這些經(jīng)驗教訓(xùn)轉(zhuǎn)化為知識傳達給整個組織。旅游與住宿數(shù)據(jù)挖掘在旅游業(yè)也有著長足的發(fā)展。它能夠精確預(yù)測不同服務(wù)的銷售量(包括航班的不同坐席、酒店或度假村的不同房間、租車公司的不同車型等),制定最優(yōu)價格方案,使利潤最大化(通常稱這種策略為收益管理);預(yù)測不同地區(qū)的不同需求以合理安排有限的企業(yè)資源;找出能帶來最大利益的顧客,向其提供定制服務(wù),保證消費者忠誠度;通過辨別人員損耗的根源,留住有價值的雇員。衛(wèi)生與醫(yī)療保健數(shù)據(jù)挖掘在醫(yī)療衛(wèi)生領(lǐng)域有廣泛應(yīng)用,能夠幫助個人和群體培養(yǎng)更健康的生活方式(通過分析健康監(jiān)測儀收集的數(shù)據(jù));找出沒有購買醫(yī)療保險的人群,并分析出現(xiàn)這一現(xiàn)象的原因;發(fā)現(xiàn)不同治療方案之間最佳的成本-效益關(guān)系,制定最有效的決策;預(yù)測不同服務(wù)區(qū)域需求的水平和時間,優(yōu)化企業(yè)資源配置;分析消費者和員工浪費的隱含原因。醫(yī)療業(yè)過去,傳統(tǒng)醫(yī)療主要依靠臨床實踐和自然生物研究,數(shù)據(jù)挖掘在制藥業(yè)的應(yīng)用是傳統(tǒng)醫(yī)療研究一項十分有價值的補充。數(shù)據(jù)挖掘分析可用于發(fā)現(xiàn)新的治療方法,提高癌癥病人的治愈率;預(yù)測器官移植的成功率,優(yōu)化捐獻者與受捐者之間的配型政策;檢測人類染色體上的不同基因的不同作用(通常稱為基因組學(xué));辨別疾病癥狀與病理的關(guān)系(也包括患病與成功治愈的關(guān)系),幫助醫(yī)師及時做出決策。娛樂業(yè)數(shù)據(jù)挖掘已經(jīng)成功應(yīng)用于娛樂業(yè),通過分析收視率判斷黃金時間播送的節(jié)目,以及何時插入廣告能獲取最大利潤;在制片前預(yù)測電影上映帶來的經(jīng)濟回報,以制定投資決策,將收益最大化;預(yù)測不同地區(qū)不同時段的收視需求,更好地規(guī)劃娛樂活動時間,合理安排資源;制定最優(yōu)價格政策,獲取最大收益。國土安全與法律執(zhí)行數(shù)據(jù)挖掘在國土安全和法律執(zhí)行方面也發(fā)揮著作用。數(shù)據(jù)挖掘常用于偵查恐怖分子的行動,發(fā)現(xiàn)犯罪動態(tài)(例如,發(fā)現(xiàn)犯罪地點、犯罪時間、犯罪行為和其他相關(guān)事宜),幫助警方及時破案;分析特制檢測儀數(shù)據(jù),排查并嚴(yán)防針對國家核心機構(gòu)的生物和化學(xué)襲擊;發(fā)現(xiàn)并排查針對核心信息機構(gòu)的惡意攻擊(通常稱為信息戰(zhàn)爭)。體育數(shù)據(jù)挖掘曾被美國NBA隊伍用于改善團隊成績。主要的棒球聯(lián)賽隊伍也利用數(shù)據(jù)挖掘和預(yù)測分析優(yōu)化資源使用效率,取得賽季勝利。事實上,《點球成金》這部電影正是講述了分析學(xué)在棒球方面的應(yīng)用。如今,大多數(shù)職業(yè)運動都在利用數(shù)字計算機和數(shù)據(jù)挖掘來提高隊伍的獲勝率。數(shù)據(jù)挖掘的應(yīng)用并不僅僅局限于在職業(yè)運動中創(chuàng)建了一個模型,分析兩個隊伍之前的比賽數(shù)據(jù),估計全國大學(xué)體育協(xié)會(NCAA)的決賽結(jié)果。賴特(Wright)使用一系列預(yù)測系統(tǒng)分析NCAA男子籃球賽冠軍隊伍類型(籃球賽決賽也就是俗稱的“瘋狂的三月”)。簡言之,數(shù)據(jù)挖掘能夠預(yù)測體育比賽結(jié)果,發(fā)掘針對特定隊伍的取勝方法,發(fā)揮可用資源(包括資金、管理、運動員)的最大價值,為團隊取得最大的成功。數(shù)據(jù)挖掘能夠發(fā)現(xiàn)怎樣的規(guī)律利用最相關(guān)的數(shù)據(jù)(通常來自企業(yè)數(shù)據(jù)庫或者外源資源),數(shù)據(jù)挖掘能夠建立模型,發(fā)現(xiàn)數(shù)據(jù)組中不同事物(包括變量和性質(zhì))所隱含的規(guī)律。模型通常用數(shù)學(xué)形式表達數(shù)據(jù)組中包括顧客在內(nèi)的事物之間的關(guān)系,分為簡單線性關(guān)系以及復(fù)雜的高等非線性關(guān)系。這些規(guī)律有些是解釋性的,即解釋了內(nèi)在關(guān)系和不同事物之間的聯(lián)系;另一些則是預(yù)測性的,即預(yù)測了一定事物未來的價值。總而言之,數(shù)據(jù)挖掘要尋求的是以下三方面的規(guī)律。●關(guān)聯(lián)是發(fā)現(xiàn)通常情況會一起出現(xiàn)或發(fā)生的事物。例如,“啤酒與尿不濕”或者“面包與黃油”等通常會成為消費者一起購買的商品(即市場籃子分析)。另一種類型則是發(fā)現(xiàn)事物之間按先后順序發(fā)生的規(guī)律。這類序列規(guī)律能夠檢測出時間序列相關(guān)的事件。例如,預(yù)測一位開了活期賬戶的銀行顧客在辦理投資賬戶一年內(nèi),一定會開定期賬戶?!耦A(yù)測是根據(jù)過去發(fā)生的事件,預(yù)言特定事物未來的發(fā)展?fàn)顩r,例如,預(yù)測超級碗的冠軍或是預(yù)告某一天的具體溫度?!窬垲惛鶕?jù)事物特性將其分組。例如,根據(jù)消費者的人口信息和以往購買信息將其劃分到不同的市場分區(qū)。這些類別的規(guī)律在過去幾個世紀(jì)都是靠人工從數(shù)據(jù)中提取的。然而,現(xiàn)代社會中由于數(shù)據(jù)量劇增,我們需要更加自動化的分析方法。數(shù)據(jù)組規(guī)模更大,更加復(fù)雜,直接的人工數(shù)據(jù)分析已經(jīng)逐漸為使用精密公式、方法和運算的自動化間接數(shù)據(jù)處理工具所取代。數(shù)據(jù)分析向這樣自動化、半自動化方向的轉(zhuǎn)變說明了數(shù)據(jù)挖掘已經(jīng)愈來愈成為處理大型數(shù)據(jù)工作的代名詞。前文說過,通常而言,數(shù)據(jù)挖掘的任務(wù)和發(fā)現(xiàn)的規(guī)律可以分為三組:預(yù)測、關(guān)聯(lián)、聚類。根據(jù)從歷史數(shù)據(jù)中發(fā)現(xiàn)規(guī)律的方式不同,數(shù)據(jù)挖掘使用的運算方法可以分為有監(jiān)督和無監(jiān)督兩種。有監(jiān)督的運算,運算數(shù)據(jù)包括描述性特點(如獨立變量或決策變量),也包括分類特點(如產(chǎn)出變量或結(jié)果變量)。相比之下,無監(jiān)督的運算數(shù)據(jù)只有描述性特點。圖2-3展示了數(shù)據(jù)挖掘任務(wù)的一個簡單分類,包括每種任務(wù)使用的方法和常用的運算公式。除了這三種類別,預(yù)測性規(guī)律或模型還可以劃分為有監(jiān)督的挖掘方法結(jié)果,練習(xí)和分組規(guī)律或模型則能夠被劃分到無監(jiān)督結(jié)果的類別。圖2-3數(shù)據(jù)挖掘的簡單分類預(yù)測通常用于預(yù)言未來。不同于簡單通過經(jīng)驗、觀點或其他相關(guān)信息進行預(yù)言。與預(yù)測有緊密聯(lián)系的一個詞是“預(yù)報”(forecasting)。盡管許多人認(rèn)為兩者可以互換,但實際上它們存在著根本區(qū)別。預(yù)測很大程度上基于經(jīng)驗和觀點,而預(yù)報則基于數(shù)據(jù)和模型。也就是說,根據(jù)結(jié)果的可靠程度,人們可以將這些詞按照這樣的順序排列:猜測、預(yù)測、預(yù)報。在數(shù)據(jù)挖掘術(shù)語中,預(yù)測和預(yù)報是可以互換使用的,預(yù)測一詞通常也用來指代這一活動。根據(jù)預(yù)測事物的特性,預(yù)測又可以分為分類(當(dāng)被預(yù)測的事物屬于某種類別時,如明天的天氣是“晴”或“有雨”)和回歸(當(dāng)被預(yù)測的事物是一個確定的數(shù)值,如明天的氣溫是“華氏65度”)。分類,或稱為有監(jiān)督歸納,是所有數(shù)據(jù)挖掘最常見的任務(wù)。分類的目的是分析歷史數(shù)據(jù),自動生成模型,預(yù)測未來發(fā)展。該模型由歷史數(shù)據(jù)記錄所隱含的一般規(guī)律組成,幫助分析潛在的類別分組。人們希望能夠使用該模型對其他未經(jīng)分類的數(shù)據(jù)進行分類。更重要的是,同時準(zhǔn)確預(yù)測其未來的發(fā)展趨勢。常用的分類工具包括神經(jīng)網(wǎng)絡(luò)和決策樹(來源于機器學(xué)習(xí))、邏輯回歸和無差別分析(來自傳統(tǒng)統(tǒng)計學(xué))以及新型的工具如粗糙集、支持向量機和遺傳算法?;诮y(tǒng)計學(xué)的分類方法(如邏輯回歸、無差別分析)存在著一定的缺陷,對數(shù)據(jù)作出了諸如獨立性和正態(tài)化等不切實際的假設(shè),這在一定程度上限制了其在分類型數(shù)據(jù)挖掘項目中的應(yīng)用。神經(jīng)網(wǎng)絡(luò)(見第5章,我們將對這一常用機器學(xué)習(xí)算法作更為詳細(xì)的介紹)包括建立數(shù)學(xué)結(jié)構(gòu)(這一點類似于人腦的生物神經(jīng)網(wǎng)絡(luò))以總結(jié)經(jīng)驗,挖掘結(jié)構(gòu)化數(shù)據(jù)組信息。當(dāng)涉及到的變量數(shù)量大、關(guān)系復(fù)雜模糊時,這種方法尤為有效。當(dāng)然,神經(jīng)網(wǎng)絡(luò)也有利有弊。舉例來說,我們很難對神經(jīng)網(wǎng)絡(luò)作出的預(yù)測進行理性分析,而且,神經(jīng)網(wǎng)絡(luò)也需要經(jīng)過大量的訓(xùn)練。需要進一步指出的是,神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需的時間隨著數(shù)據(jù)的增加而不斷上升。一般而言,神經(jīng)網(wǎng)絡(luò)不能用于非常大的數(shù)據(jù)庫。這些問題限制了其在大數(shù)據(jù)領(lǐng)域的應(yīng)用能力。決策樹根據(jù)輸入變量的值,將數(shù)據(jù)分為有限多個類別,從本質(zhì)上來說是一組有層次的假設(shè)條件,因此比神經(jīng)網(wǎng)絡(luò)技術(shù)速度快得多。決策樹技術(shù)最適合應(yīng)用在無條件和間隔數(shù)據(jù)上。因此,將連續(xù)變量整合進一個決策樹結(jié)構(gòu)中需要將數(shù)據(jù)進行離散化——也就是將連續(xù)賦值的變量轉(zhuǎn)化為范圍和類別。與分類工具相關(guān)的另一種類型是規(guī)則歸納。不同于決策樹,規(guī)則歸納使用的假設(shè)條件直接從數(shù)據(jù)中歸納而出,本來就不需要具有層次和級別。另一方面,目前新型的工具粗糙集、支持向量機和遺傳算法都在分類算法中尋得了一席之地,在第5章中,我們會對其作進一步詳細(xì)分析。關(guān)聯(lián)法通常在數(shù)據(jù)挖掘中被稱為“關(guān)聯(lián)規(guī)則”,是在大型數(shù)據(jù)庫中探索變量間有趣關(guān)系的一種廣受歡迎又經(jīng)過充分研究的方法。得益于自動化數(shù)據(jù)收集技術(shù),如條形碼掃描。應(yīng)用關(guān)聯(lián)規(guī)則分析產(chǎn)品在超市收款處記錄的大量交易數(shù)據(jù)里隱含的規(guī)律,已經(jīng)是零售業(yè)眾所周知的內(nèi)容。在零售業(yè)中,關(guān)聯(lián)規(guī)則通常被稱為“市場籃子分析”。關(guān)聯(lián)規(guī)則的兩個常用衍生產(chǎn)品是關(guān)聯(lián)分析和序列挖掘。利用關(guān)聯(lián)分析,能夠自動檢測相關(guān)事物之間的聯(lián)系,例如,網(wǎng)頁對學(xué)術(shù)出版物的引用與作者的關(guān)系。利用序列挖掘,能夠按照時間的先后順序檢測出事物之間的聯(lián)系來。關(guān)聯(lián)規(guī)則常用的挖掘公式包括Apriori(用于頻繁出現(xiàn)的事物)、FP-Growth、OneR、ZeroR、Eclat。第4章中將介紹一個使用Apriori的例子。聚類是將一個事物集合(如物品、事件等以結(jié)構(gòu)化數(shù)據(jù)庫形式儲存)劃分為不同的組段(或者自然類別),同一組段的元素具有相似的屬性。不同于分類,在聚類中,組別名稱是不確定的。選擇算法應(yīng)用于數(shù)據(jù)組后,根據(jù)元素的特性發(fā)現(xiàn)它們的共同之處,建立聚類。由于聚類依據(jù)的是啟發(fā)式算法,同一組數(shù)據(jù),使用不同的公式會形成不同的聚類。在聚類結(jié)果付諸實際應(yīng)用之前,應(yīng)有專業(yè)人士對其進行整合和調(diào)整。在確定了合理聚類后,它們才能夠?qū)π聰?shù)據(jù)進行分類和整合。聚類技術(shù)中包含優(yōu)化步驟,這一點不足為奇。聚類的目的就是創(chuàng)建組別,并且使同組中的元素相似度盡可能大,不同組間的元素相似度盡可能小。最常用的分組方法是統(tǒng)計學(xué)中的k-means方法,和機械學(xué)習(xí)中的自組織映射,后者是Kohonen于1982年提出的一款獨特的神經(jīng)網(wǎng)絡(luò)工程技術(shù)。企業(yè)通常有效利用數(shù)據(jù)挖掘系統(tǒng)的聚類分析功能進行消費者分區(qū)。聚類分析將具有相似特性的數(shù)據(jù)分在同一組,該分析適合應(yīng)用于消費者分區(qū),便于企業(yè)在正確的時間以正確的價格將產(chǎn)品推銷給適合的消費者。聚類分析也應(yīng)用于確認(rèn)不同事件或?qū)ο蟮淖匀环纸M,以便找出每一組的共同特定進行描述。與數(shù)據(jù)挖掘有關(guān)的兩大技術(shù)分別是可視化和時間序列預(yù)測??梢暬梢耘c其他數(shù)據(jù)挖掘技術(shù)共同使用,深入了解事物之間暗含的聯(lián)系。近年來隨著可視化技術(shù)不斷的發(fā)展,出現(xiàn)了“視覺分析學(xué)”一詞。視覺分析學(xué)指的是在簡單環(huán)境中將分析學(xué)與可視化技術(shù)結(jié)合起來,以便更快、更容易地創(chuàng)造新知識。我們將會在第4章詳細(xì)介紹視覺分析學(xué)的內(nèi)容。在時間序列預(yù)測中,包含同一變量值的數(shù)據(jù)會按照時間的先后順序收集起來,然后生成預(yù)測模型,預(yù)測該變量未來的取值。常用的數(shù)據(jù)挖掘工具有很多軟件商提供功能強大的數(shù)據(jù)挖掘工具。有些軟件商只提供數(shù)據(jù)挖掘和統(tǒng)計分析方面的軟件,還有一些較大的軟件公司提供更多種類的軟硬件,除了數(shù)據(jù)挖掘軟件,還包括咨詢方面的產(chǎn)品。著名的數(shù)據(jù)挖掘工具的供應(yīng)商包括:IBMSPSS軟件(曾用名為SPSSPASWModelerandClementine),SAS企業(yè)挖掘軟件(EnterpriseMiner)、統(tǒng)計數(shù)據(jù)挖掘(StatSoft,目前是戴爾公司的子公司)、KXEN(InfiniteInsight,目前是SAP公司旗下子公司)、Salford(產(chǎn)品包括CART、MARS、TreeNet以及RandomForest)、Angoss(產(chǎn)品包括KnowledgeSTUDIO和KnowledgeSeeker)及Megaputer(產(chǎn)品有PolyAnalyst)。值得注意的是,生產(chǎn)出最受歡迎的數(shù)據(jù)挖掘工具的企業(yè)無一例外都是在統(tǒng)計軟件方面遙遙領(lǐng)先的公司。例如,SPSS、SAS和StatSoft。這很大程度上是源于統(tǒng)計學(xué)是數(shù)據(jù)挖掘的基礎(chǔ),同時,這些公司也能夠以低成本將其發(fā)展為整個領(lǐng)域的數(shù)據(jù)挖掘系統(tǒng)。大多數(shù)商業(yè)智能工具開發(fā)商,例如,IBMCognos、甲骨文Hyperion、SAPBusinessObjects、Microstrategy、Teradata以及微軟,在一定程度上都具備將數(shù)據(jù)挖掘技術(shù)整合進其軟件中的能力。目前,這類商業(yè)智能工具仍主要用于多角度模型和數(shù)據(jù)可視化的描述性分析水平,并非真正的數(shù)據(jù)挖掘工具。除了商業(yè)化數(shù)據(jù)挖掘工具,互聯(lián)網(wǎng)上也有幾個開源的免費數(shù)據(jù)挖掘軟件工具。歷史上最著名的免費(同時開源)數(shù)據(jù)挖掘工具是Weka。該軟件由新西蘭懷卡托大學(xué)的眾多研究者共同開發(fā)(現(xiàn)在還能夠在cs.waikato.ac.nz/ml/weka/網(wǎng)址上下載該軟件)。Weka包含大量公式,能夠解決不同的數(shù)據(jù)挖掘問題,用戶界面智能時尚。另一款新近開發(fā)并很快在網(wǎng)上積累人氣的數(shù)據(jù)挖掘工具是RapidMiner,由RapidM網(wǎng)站開發(fā)(可在下載)。該軟件在用戶界面中加入大量圖表元素,適用的計算公式數(shù)量更大,加入大量數(shù)據(jù)可視化特色,這一切使其有別于其他免費的數(shù)據(jù)挖掘工具。此外,另一款同樣使用圖形化用戶界面的免費開源工具是KNIME,可在網(wǎng)站下載。免費軟件如Weka、RapidMiner和KNIME與商業(yè)化數(shù)據(jù)挖掘工具,如企業(yè)挖掘軟件、IBMSPSSModeler和Statistica的主要區(qū)別在于計算效率。同樣的數(shù)據(jù)挖掘,使用同樣的數(shù)據(jù)組,免費軟件完成起來花費的時間更長。對于某些算法,免費軟件甚至不能完成(例如,免費軟件可能因為不合理使用計算機存儲而導(dǎo)致系統(tǒng)崩潰)。表2-1列出了主要數(shù)據(jù)挖掘產(chǎn)品及其網(wǎng)址。表2-1常用數(shù)據(jù)挖掘軟件工具微軟的SQLServer是一組數(shù)據(jù)挖掘研究中廣受歡迎的商業(yè)信息處理工具。它可以在相同數(shù)據(jù)庫環(huán)境中儲存數(shù)據(jù)和模型,企業(yè)很容易就能夠?qū)嵤┠P凸芾?。微軟企業(yè)聯(lián)盟(TheMicrosoftEnterpriseConsortium)作為服務(wù)供應(yīng)商,為全球?qū)W術(shù)事業(yè)(包括教學(xué)與研究)提供SQLServer2012軟件組。該軟件讓全球高等院校無需在電腦上配備必需的軟硬件就能夠獲得該公司的技術(shù)。該軟件提供一系列商業(yè)信息發(fā)展工具,如數(shù)據(jù)挖掘、建立數(shù)據(jù)魔方、生成商業(yè)報告等,還提供來自Sam’sClub、Dillard’s以及TysonFoods的大規(guī)模真實數(shù)據(jù)組。微軟企業(yè)聯(lián)盟不收取費用,只能用于學(xué)術(shù)目的,系統(tǒng)由阿肯色州立大學(xué)的薩姆·沃爾頓商學(xué)院所有,允許用戶和學(xué)生使用桌面快捷方式連接這些資源,更多關(guān)于用戶加入以及簡明實用指南可參見http:///mec.asp。2014年5月,美國一家著名的數(shù)據(jù)挖掘與分析網(wǎng)站進行了第十五次年度軟件問卷調(diào)查,問卷的問題為“你在過去十二個月在實際項目中使用過哪些分析學(xué)、數(shù)據(jù)挖掘、數(shù)據(jù)科技軟件或工具”。這一調(diào)查獲得了分析學(xué)及數(shù)據(jù)挖掘領(lǐng)域和軟件開發(fā)商的廣泛關(guān)注,有3285人參與了調(diào)查。調(diào)查既衡量了某軟件使用的廣泛程度,又能夠從中看出開發(fā)商支持軟件發(fā)展的程度。以下是調(diào)查中的一些發(fā)現(xiàn)?!裨S多人使用不止一種工具進行數(shù)據(jù)挖掘項目。據(jù)調(diào)查,2014年,每人或每個開發(fā)商平均使用過3.7個工具(2013年該數(shù)據(jù)是3.0)。●商業(yè)化工具與免費工具的差距進一步縮小。2014年,71%的受訪者使用過商業(yè)化軟件,78%的受訪者使用過免費軟件。大約22%的受訪者只使用過商業(yè)化軟件(低于2013年的29%),28.5%的受訪者只使用過免費軟件(低于2013年的30%)。49%的受訪者兩種都使用過,高于2013年的41%。這些數(shù)字說明更多的使用者開始關(guān)注免費和開源工具。●大約17.5%受訪者使用過Hadoop或其他大數(shù)據(jù)工具,高于2013年的14%。這顯示了大數(shù)據(jù)工具和技術(shù)的蓬勃發(fā)展。以下是經(jīng)調(diào)查篩選出的十大受歡迎工具,并附以使用人數(shù)百分比:1.RapidMiner,使用者44.2%(2013年為39.2%);2.R,使用者38.5%(2013年為37.4%);3.Excel,使用者25.8%(2013年為28.0%);4.SQL,使用者25.3%(2013年未開始使用);5.Python,使用者19.5%(2013年為13.3%);6.Weka,使用者17.0%(2013年為14.3%);7.KNIME,使用者15.0%(2013年為5.9%);8.Hadoop,使用者12.7%(2013年為9.3%);9.SASbase,使用者10.9%(2013年為10.7%);10.MicrosoftSQLServer,使用者10.5%(2013年為7.0%)。在有2%以上使用者的工具中,2014年使用增長最快的當(dāng)屬Alteryx,由13年0.3%增長到14年的3.1%,增幅達1079%;SAP(包括BusinessObjects、Sybase和Hana),由1.4%增到6.8%,增幅377%;BayesiaLab,由1.0%增到4.1%,增幅310%;KNIME,由5.9%增到15.0%,增幅156%。而在具有2%以上使用者的工具中,2014年降幅最大的為目前已成為戴爾公司的子公司的StatSoftStatistica,由9.0%降到1.7%,降幅81%,其部分原因是因為缺乏對Statistica軟件的宣傳;Stata,由2.1%降到1.4%,降幅32%;IBMCongos,由2.4%降到1.8%,降幅24%。圖2-4羅列出了獲得100名以上受訪者投票的工具。在圖表中,工具名稱后括號內(nèi)顯示的是投票人數(shù)以及“單獨使用”
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度建筑材料加工生產(chǎn)合同范本4篇
- 專業(yè)出國留學(xué)輔導(dǎo)協(xié)議樣本(2024)版B版
- 2025年度醫(yī)療器械緊急運輸服務(wù)協(xié)議3篇
- 2025年度數(shù)據(jù)中心場地租賃合作協(xié)議4篇
- 2025年度食品試用及消費者滿意度調(diào)查合同4篇
- 2025年度綠色建筑設(shè)計與施工一體化服務(wù)合同4篇
- 2025年度市政基礎(chǔ)設(shè)施改造鏟車租賃協(xié)議書4篇
- 二零二四全新建筑工程施工聯(lián)營協(xié)議書下載3篇
- 2024重慶離婚協(xié)議書標(biāo)準(zhǔn)范文
- 二婚再婚2024年度財產(chǎn)共有協(xié)議
- 2024年黑河嫩江市招聘社區(qū)工作者考試真題
- 第22單元(二次函數(shù))-單元測試卷(2)-2024-2025學(xué)年數(shù)學(xué)人教版九年級上冊(含答案解析)
- 藍(lán)色3D風(fēng)工作總結(jié)匯報模板
- 安全常識課件
- 河北省石家莊市2023-2024學(xué)年高一上學(xué)期期末聯(lián)考化學(xué)試題(含答案)
- 2024年江蘇省導(dǎo)游服務(wù)技能大賽理論考試題庫(含答案)
- 2024年中考英語閱讀理解表格型解題技巧講解(含練習(xí)題及答案)
- 新版中國食物成分表
- 浙江省溫州市溫州中學(xué)2025屆數(shù)學(xué)高二上期末綜合測試試題含解析
- 2024年山東省青島市中考生物試題(含答案)
- 保安公司市場拓展方案-保安拓展工作方案
評論
0/150
提交評論