大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理 課件 第7-13章 預(yù)測分析方法-組織分析團隊_第1頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理 課件 第7-13章 預(yù)測分析方法-組織分析團隊_第2頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理 課件 第7-13章 預(yù)測分析方法-組織分析團隊_第3頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理 課件 第7-13章 預(yù)測分析方法-組織分析團隊_第4頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理 課件 第7-13章 預(yù)測分析方法-組織分析團隊_第5頁
已閱讀5頁,還剩598頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第7章預(yù)測分析方法大數(shù)據(jù)分析與實踐——社會研究與數(shù)字治理我們已經(jīng)知道,地震是由構(gòu)造板塊(即偶爾會漂移的陸地板塊)相互擠壓造成的,這種板塊擠壓發(fā)生在地球深處,并且各個板塊的相互運動極其復(fù)雜。因此,有用的地震數(shù)據(jù)來之不易,而要弄明白是什么地質(zhì)運動導(dǎo)致了地震,基本上是不現(xiàn)實的。每年,世界各地約有7000次里氏4.0或更高級別的地震發(fā)生,每年有成千上萬的人因此喪命,而一次地震帶來的物質(zhì)損失就有千億美元之多。第7章導(dǎo)讀案例準確預(yù)測地震雖然地震有預(yù)兆,“但是我們?nèi)匀粺o法通過它們可靠、有效地預(yù)測地震”。相反,我們能做的就是盡可能地為地震做好準備,包括在設(shè)計、修建橋梁和其他建筑的時候就把地震考慮在內(nèi),并且準備好地震應(yīng)急包等,一旦發(fā)生大地震,這些基礎(chǔ)設(shè)施和群眾都能有更充足的準備。

圖7-1全球?qū)崟r地震監(jiān)測第7章導(dǎo)讀案例準確預(yù)測地震如今,科學(xué)家們只能預(yù)報某個地方、某個具體的時間段內(nèi)發(fā)生某級地震的可能性。例如,他們只能說未來30年,某個地區(qū)有80%的可能性會發(fā)生里氏8.4級地震,但他們無法完全確定地說出何時何地會發(fā)生地震,或者發(fā)生幾級地震??茖W(xué)家能預(yù)報地震,但是他們無法預(yù)測地震。歸根結(jié)底,準確地預(yù)測地震,就要回答何時、何地、何種震級這三個關(guān)鍵問題,需要掌握促使地震發(fā)生的不同自然因素,以及揭示它們之間復(fù)雜的相互運動的更多、更好的數(shù)據(jù)。預(yù)測不同于預(yù)報。不過,雖然準確預(yù)測地震還有很長的路要走,但科學(xué)家已經(jīng)越來越多地為地震受害者爭取到那么幾秒鐘的時間了。第7章導(dǎo)讀案例準確預(yù)測地震例如,斯坦福大學(xué)的“地震捕捉者網(wǎng)絡(luò)”就是一個會生成大量數(shù)據(jù)的廉價監(jiān)測網(wǎng)絡(luò)的典型例子,它由參與分布式地震檢測網(wǎng)絡(luò)的大約200個志愿者的計算機組成。有時候,這個監(jiān)測網(wǎng)絡(luò)能提前10秒鐘提醒可能會受災(zāi)的人群。這10秒鐘,就意味著你可以選擇是搭乘運行的電梯還是走樓梯,是走到開闊處去還是躲到桌子下面。技術(shù)的進步使得捕捉和存儲如此多數(shù)據(jù)的成本大大降低。能得到更多、更好的數(shù)據(jù)不只為計算機實現(xiàn)更精明的決策提供了更多的可能性,也使人類變得更聰明了。第7章導(dǎo)讀案例準確預(yù)測地震從本質(zhì)上來說,準確預(yù)測地震既是大數(shù)據(jù)的機遇又是挑戰(zhàn)。單純擁有數(shù)據(jù)還遠遠不夠。我們既要掌握足夠多的相關(guān)數(shù)據(jù),又要具備快速分析并處理這些數(shù)據(jù)的能力,只有這樣,我們才能爭取到足夠多的行動時間。越是即將逼近的事情,越需要我們快速地實現(xiàn)準確預(yù)測。第7章導(dǎo)讀案例準確預(yù)測地震目錄預(yù)測分析方法論建立業(yè)務(wù)需求建立分析數(shù)據(jù)集降維與特征工程12345建立預(yù)測模型6部署預(yù)測模型預(yù)測分析方法論PART017.17.1預(yù)測分析方法論預(yù)測分析使用的技術(shù)可以發(fā)現(xiàn)歷史數(shù)據(jù)之間的關(guān)系,從而預(yù)測未來的事件和行為。因此,預(yù)測分析已經(jīng)在各行各業(yè)得到廣泛應(yīng)用,例如預(yù)測保險索賠、市場營銷反饋、債務(wù)損失、購買行為、商品用途、客戶流失等。假設(shè)治療數(shù)據(jù)顯示,大多數(shù)患有ABC疾病的病人在用XYZ藥物治療后反映效果很好,盡管其中有個別人出現(xiàn)了副作用甚至死亡。你可以拒絕給任何人提供XYZ藥物,因為它有副作用的風險,但這樣一來,大多數(shù)病人就會繼續(xù)受到疾病的折磨;或者你也可以讓病人自己來做決定,通過簽署法律文件來免責。但是,最好的解決方法是基于患者的其他信息,利用分析來預(yù)測治療的效果。7.1.2預(yù)測分析的流程7.1.1數(shù)據(jù)具有內(nèi)在預(yù)測性預(yù)測分析使用的技術(shù)可以發(fā)現(xiàn)歷史數(shù)據(jù)之間的關(guān)系,從而預(yù)測未來的事件和行為。7.1預(yù)測分析方法論7.1.1

數(shù)據(jù)具有內(nèi)在預(yù)測性現(xiàn)實中大部分數(shù)據(jù)的堆積都不是為了預(yù)測,但預(yù)測分析系統(tǒng)能從這些龐大的數(shù)據(jù)中學(xué)到預(yù)測未來的能力,正如人們可以從自己的經(jīng)歷中汲取經(jīng)驗教訓(xùn)那樣。我們敬畏數(shù)據(jù)的龐大數(shù)量,但規(guī)模是相對的,數(shù)據(jù)最激動人心的不是其數(shù)量,而是數(shù)量的增長速度。7.1.1

數(shù)據(jù)具有內(nèi)在預(yù)測性世上萬物均有關(guān)聯(lián),這在數(shù)據(jù)中也有反映。例如:?你的購買行為與你的消費歷史、在線習(xí)慣、支付方式以及社會交往人群相關(guān)。數(shù)據(jù)能從這些因素中預(yù)測出消費者的行為。?你的身體健康狀況與生命選擇和環(huán)境有關(guān),因此數(shù)據(jù)能通過小區(qū)以及家庭規(guī)模等信息來預(yù)測你的健康狀態(tài)。?你對工作的滿意程度與你的工資水平、表現(xiàn)評定以及升職情況相關(guān),而數(shù)據(jù)則能反映這些現(xiàn)實。?經(jīng)濟行為與人類情感相關(guān),因此數(shù)據(jù)也將反映這種關(guān)系。7.1.1

數(shù)據(jù)具有內(nèi)在預(yù)測性數(shù)據(jù)科學(xué)家通過預(yù)測分析系統(tǒng)不斷地從數(shù)據(jù)集中找到規(guī)律。如果將數(shù)據(jù)整合在一起,盡管你不知道自己將從這些數(shù)據(jù)里發(fā)現(xiàn)什么,但至少能通過觀測解讀數(shù)據(jù)語言來發(fā)現(xiàn)某些內(nèi)在聯(lián)系。預(yù)測常常是從小處入手。預(yù)測分析是從預(yù)測變量開始的,這是對個人單一值的評測。近期性就是一個常見的變量,表示某人最近一次購物、最近一次犯罪或最近一次發(fā)病到現(xiàn)在的時間,近期值越接近現(xiàn)在,觀察對象再次采取行動的概率就越高。許多模型的應(yīng)用都是從近期表現(xiàn)最積極的人群開始的,無論是試圖建立聯(lián)系、開展犯罪調(diào)查還是進行醫(yī)療診斷。7.1.1

數(shù)據(jù)具有內(nèi)在預(yù)測性與此相似,頻率一一描述某人做出相同行為的次數(shù)也是常見且富有成效的指標。如果有人此前經(jīng)常做某事,那么他再次做這件事的概率就會很高。實際上,預(yù)測就是根據(jù)人的過去行為來預(yù)見其未來行為。因此,預(yù)測分析模型不僅要靠那些枯燥的基本人口數(shù)據(jù),例如住址、性別等,而且也要涵蓋近期性、頻率、購買行為、經(jīng)濟行為以及電話和上網(wǎng)等產(chǎn)品使用習(xí)慣之類的行為預(yù)測變量。這些行為通常是最有價值的,因為我們要預(yù)測的就是未來是否還會出現(xiàn)這些行為,這就是通過行為來預(yù)測行為的過程。預(yù)測分析系統(tǒng)會綜合考慮數(shù)十項甚至數(shù)百項預(yù)測變量。把個人的全部已知數(shù)據(jù)都輸入系統(tǒng),然后等著系統(tǒng)運轉(zhuǎn)。系統(tǒng)內(nèi)綜合考量這些因素的核心學(xué)習(xí)技術(shù)正是科學(xué)的魔力所在。7.1.2

預(yù)測分析的流程分析方法論應(yīng)該充分利用分析工具所具有的功能。為了使效用最大化,分析師和客戶應(yīng)該全神貫注于項目過程開始和結(jié)論的部分——業(yè)務(wù)定義和部署上。問題定義和部署之間的技術(shù)開發(fā)活動,如模型訓(xùn)練和驗證是很重要的,但是這些步驟中的關(guān)鍵選擇卻取決于如何定義這個問題。7.1.2

預(yù)測分析的流程預(yù)測分析的目標是根據(jù)你所知道的事實來預(yù)測你所不知道的事情。例如,你可能會知道一所住房的特征信息——它的地理位置、建筑時間、建筑面積、房間數(shù)等,但是你不知道它的市場價值。如果知道了它的市場價值,你就能為這個房子制定一個報價。類似的,你可能會想知道一個病人是否會患有某些疾病,一個手機用戶每月消費的通話時長,或者借款人是否會每月還款等等。在每個例子里,你都要利用那些已經(jīng)知道的數(shù)據(jù)來預(yù)測需要知道的信息。精準預(yù)測能產(chǎn)生很大的好處,能帶動商業(yè)價值的增加,因為可靠的預(yù)測能夠?qū)е赂玫臎Q策。7.1.2

預(yù)測分析的流程預(yù)測分析的流程包括四個主要步驟或部分,即業(yè)務(wù)定義、數(shù)據(jù)準備、模型開發(fā)和模型部署,每一個部分又包括一系列子任務(wù)。應(yīng)該明確的是,現(xiàn)代企業(yè)中的分析方法不只是一組數(shù)據(jù)的技術(shù)說明。還有一些必要的組織步驟來確保預(yù)測模型能夠完成組織的目標,同時不會給業(yè)務(wù)帶來法律法規(guī)的風險。

圖7-3預(yù)測分析方法論定義業(yè)務(wù)需求PART027.27.2定義業(yè)務(wù)需求一個分析項目應(yīng)該以結(jié)果為導(dǎo)向,并且其結(jié)果也應(yīng)該對業(yè)務(wù)產(chǎn)生積極的作用,但這一點常常會被忽略。例如有的分析師往往不知道或者無法闡明他們所進行的分析會對項目的業(yè)務(wù)產(chǎn)生怎樣的影響。7.2.3了解誤差成本7.2.1理解業(yè)務(wù)問題7.2.4確定預(yù)測窗口7.2.2定義應(yīng)對措施一個分析項目應(yīng)該以結(jié)果為導(dǎo)向,并且其結(jié)果也應(yīng)該對業(yè)務(wù)產(chǎn)生積極的作用。7.2.5評估部署環(huán)境7.2定義業(yè)務(wù)需求7.2.1

理解業(yè)務(wù)問題每個分析項目都應(yīng)該從一個清晰定義好的業(yè)務(wù)目標開始,并且從項目利益相關(guān)者的角度來進行闡述。例如:·將市場活動ABC的反饋率提高至少x%;·將欺詐交易損失減少y%;·將客戶留存率提高z%。分析師經(jīng)常抱怨組織不用他們的分析結(jié)果。換言之,分析師花費了很大精力來收集數(shù)據(jù)、轉(zhuǎn)化數(shù)據(jù),運用分析構(gòu)建預(yù)測模型,然后,該模型卻被束之高閣,這樣其實就是失敗了。大多數(shù)的失敗案例都是由于缺少精確定義的業(yè)務(wù)價值。這跟分析本身不同,實施預(yù)測模型是一項跨部門的活動,它需要利益相關(guān)者、分析師和IT等多方合作,并且也有既定的項目實施成本。7.2.2

定義應(yīng)對措施應(yīng)對的措施之一就是獲得想要的預(yù)測內(nèi)容。為了實現(xiàn)更大的價值,應(yīng)對措施應(yīng)該能對那些產(chǎn)出結(jié)果會影響組織關(guān)鍵指標的決策或者業(yè)務(wù)流程起到作用。例如,一個針對性的促銷是否會對目標客戶有影響,一個住房最可能的銷售價格是什么,一個頁面訪問者最可能的下一次點擊位置,或者一個足球賽中的進球分布。在大多數(shù)分析案例中,應(yīng)對措施代表了一種未來事件,因此你還不知道這種對策方法產(chǎn)生的結(jié)果。例如,一個信用卡發(fā)卡機構(gòu)可能想要預(yù)測某個客戶是否會在明年申請破產(chǎn)。一個發(fā)生在未來的事件本質(zhì)上是不確定的,如果你的目的是為了避免給破產(chǎn)客戶提供貸款從而減少債務(wù)損失,那么事后才得到的信息就太晚了。7.2.2

定義應(yīng)對措施在一些情況下,應(yīng)對措施代表了一個當前或過去的事件。例如,如果因為一些原因無法獲得破產(chǎn)記錄,那么可以利用預(yù)測模型在其他客戶信息的基礎(chǔ)上估計一個客戶是否之前已經(jīng)申請了破產(chǎn)。應(yīng)對措施的時間維度應(yīng)該是明確的。假設(shè)想要預(yù)測一個潛在借款人是否會在十年分期貸款里違約,你應(yīng)該定義違約的應(yīng)對措施是在整個貸款周期內(nèi)還是在一個更短的周期內(nèi)?長期應(yīng)對舉措往往更適合商業(yè)決策,但是需要更多的歷史數(shù)據(jù)去驗證。預(yù)測長期行為也比預(yù)測短期行為更加困難,因為外部因素有更大的可能性來影響到你希望模擬的行為。7.2.2

定義應(yīng)對措施對于任何商業(yè)應(yīng)用,都有可能需要預(yù)測多種對策:·稅務(wù)機關(guān)需要確定應(yīng)該審核哪些納稅申報表:審計的成本很高,并且審計師的數(shù)量有限。為了最大限度地提高每個審計師帶來的收益,稅務(wù)機關(guān)應(yīng)該同時預(yù)測瞞報收入的查出概率和稅務(wù)機關(guān)可能收回的金額。·一所大學(xué)希望最大限度地提高在校友捐贈活動中的投資回報。為了正確制定不同的策略,校方應(yīng)該預(yù)測兩個概率:每個校友響應(yīng)的可能性和每位校友可能會捐贈的金額。7.2.2

定義應(yīng)對措施如果面對很多商業(yè)問題,你想要預(yù)測的就可能是多個應(yīng)對措施。例如,為了最大限度地提高一場捐贈活動的投資回報率(ROI),你會想知道預(yù)測捐贈活動的潛在目標是否會得到響應(yīng),以及如果響應(yīng)了可能會捐助多少錢。盡管存在單個模型對應(yīng)多種應(yīng)對措施建模的技術(shù),但大多數(shù)分析師更愿意將問題劃分成幾個部分,然后針對每種應(yīng)對措施分別建立預(yù)測模型。以這種方式分解問題,能夠確保分析師針對每個應(yīng)對措施產(chǎn)生的影響來獨立優(yōu)化預(yù)測模型,并且可以給業(yè)務(wù)使用者提供更大的靈活性。7.2.2

定義應(yīng)對措施例如,考慮兩組可能的捐贈人:對活動響應(yīng)度較低卻有較高的平均捐贈額的人,以及對活動響應(yīng)度較高卻有較低的平均捐贈額的人。這兩部分都有著相似的整體預(yù)期值。然而,通過細分應(yīng)對行為和分別建模,客戶可以區(qū)分這兩組捐贈人并采用不同的策略。大多數(shù)預(yù)測問題可以分成兩類:分類和回歸。在分類中,分析師希望預(yù)測將在未來發(fā)生的一個可分類的事件,在大多數(shù)案例中這是一個二值問題。因為消費者要么對一個營銷活動做出響應(yīng)要么不響應(yīng),負債人要么宣布破產(chǎn)要么不破產(chǎn)。在回歸中,分析師希望預(yù)測一個連續(xù)值,例如消費者將會消費的手機通話時長,或者購買者將會在一個時期里消費的金額。有一些技術(shù)適合分類問題,而另一些適合回歸問題,還有一些則同時可以用于分類和回歸。分析師一定要了解所預(yù)測的問題,從而選擇正確的技術(shù)。7.2.3

了解誤差成本在理想情況下,人們希望用一個模型就完美地預(yù)測了未來的事件,但實際上這樣的可能性不大。但放棄追求建立完美模型的想法,就應(yīng)考慮模型要多精確才算“足夠好”?通常,預(yù)測模型必須能夠提高決策的有效性,從而帶來足夠多的經(jīng)濟收益,以抵消開發(fā)和部署模型的成本。當風險價值較高時,預(yù)測模型能夠產(chǎn)生很好的經(jīng)濟效益。如果風險價值較低,即使一個非常好的預(yù)測模型也只能提供很少的經(jīng)濟效益或幾乎沒有經(jīng)濟效益,因為做一個錯誤決策的損失很小。許多組織不愿意費心建立針對郵件營銷活動的預(yù)測模型,就是因為發(fā)一封電子郵件給一個不會響應(yīng)的消費者的增量成本很低,這也意味著你的郵箱里會有更多的垃圾郵件。7.2.3

了解誤差成本假設(shè)風險價值高到需要建立一個預(yù)測模型,那么這個模型的效果一定要比現(xiàn)有的針對性方案的效果好。預(yù)測模型的總體準確性十分重要,但一定要考慮到誤差的成分。一個二值分類模型有兩種正確的結(jié)果:它可以精準地預(yù)測一個事件是否會發(fā)生,或者它可以預(yù)測這個事件是否不會發(fā)生。同樣它也有兩種錯誤的結(jié)果:它可能錯誤地預(yù)測一個事件將會發(fā)生,或者它錯誤地預(yù)測這個事件不會發(fā)生。7.2.3

了解誤差成本假設(shè)開發(fā)預(yù)測模型的目標是預(yù)測在ICU(重癥監(jiān)護病房)的患者心臟驟停這個事件。如果模型預(yù)測結(jié)果是該患者心臟會驟停,那么ICU的工作人員將會主動采取治療措施,在這種情況下,患者有更大的可能活下來。否則,這些工作人員只會在患者心臟驟停時采取措施,到那時一切都太遲了。

圖7-5ICU監(jiān)測7.2.3

了解誤差成本如果一個預(yù)測模型錯誤地預(yù)測了該患者會心臟驟停,那么結(jié)果可以稱作積極錯誤。如果預(yù)測模型預(yù)測該患者不會心臟驟停,但是患者實際上心臟驟停了,那么結(jié)果則被稱作消極錯誤。在大多數(shù)實際的決策中,錯誤的代價是不對稱的,這意味著積極錯誤的代價和消極錯誤的代價有天壤之別。在這個案例中,積極錯誤的代價只是不必要的治療,而消極錯誤的代價則是患者死亡概率增加。大多數(shù)醫(yī)療決策中,利益相關(guān)者把重心放在最大限度地減少消極錯誤而不是積極錯誤上。7.2.4

確定預(yù)測窗口預(yù)測窗口對分析項目的設(shè)計有很大影響,它會影響到分析方法的選擇和數(shù)據(jù)的選擇。所有的預(yù)測都與未來發(fā)生的事件有關(guān),但是不同的商業(yè)應(yīng)用對預(yù)測提前的時間有不同的要求。例如,在零售業(yè)商店,排班人員可能只對明天或接下來幾天的預(yù)期店鋪流量感興趣;采購經(jīng)理可能會關(guān)注接下來幾個月的店鋪流量;而商場選址人員可能會關(guān)注未來幾年的預(yù)測流量。7.2.4

確定預(yù)測窗口一般來說,隨著預(yù)測窗口長度延長,模型預(yù)測的精確性會下降。換句話說,預(yù)測明天的店鋪流量要比預(yù)測未來三年的店鋪流量簡單得多。這里有兩個主要原因,一是預(yù)測窗口延長了,突發(fā)事件發(fā)生的概率會增加。例如,如果一個突發(fā)事件發(fā)生在你店鋪的附近,那么該店鋪的流量將會發(fā)生改變。二是隨著時間的變化,隨機誤差會累積增加,并且對預(yù)測產(chǎn)生很大的影響。7.2.4

確定預(yù)測窗口預(yù)測窗口也會影響預(yù)測中作為預(yù)測因子使用的數(shù)據(jù)。還是以零售業(yè)為例,假設(shè)你想要提前預(yù)測一天中一個店鋪的流量,使用建立在動態(tài)參數(shù)上的一個時間序列分析可能就很好用,比如過去三天中的每日流量。另一方面,如果你想要預(yù)測未來三年的店鋪流量,你可能不得不加入一些基礎(chǔ)要素數(shù)據(jù),如本地住房建設(shè)情況、家庭分布、家庭收入變化以及競爭格局的變化。7.2.5

評估部署環(huán)境部署是分析過程的重要部分,分析師在開展預(yù)測建模項目工作前一定要了解預(yù)測模型的部署環(huán)境。有兩種方式可以用來部署預(yù)測模型:批量部署或者事務(wù)部署。在批量預(yù)測中,評分機制會針對一組實體計算記錄級的預(yù)測結(jié)果,并且將結(jié)果存儲在一個信息倉庫中,需要使用預(yù)測結(jié)果的商業(yè)應(yīng)用可以直接從信息庫中獲取預(yù)測結(jié)果。在事務(wù)部署中,評分機制根據(jù)應(yīng)用程序的請求對每個記錄計算預(yù)測結(jié)果,該應(yīng)用程序會立即使用預(yù)測結(jié)果。事務(wù)型的或者實時的評分對需要實時或很小延遲的應(yīng)用至關(guān)重要,但是它們的成本也會更高,同時大多數(shù)應(yīng)用并不一定需要較小的延遲。7.2.5

評估部署環(huán)境分析師一定要知道一個應(yīng)用程序可以在部署環(huán)境中獲得哪些數(shù)據(jù)。這個問題很重要,因為分析師通常是在一個“沙箱”環(huán)境中開展工作,在這種環(huán)境中數(shù)據(jù)相對容易獲取,也相對容易將其合并到分析數(shù)據(jù)集。而生產(chǎn)環(huán)境中可能存在運營上或者法律上的約束,這可能會限制數(shù)據(jù)的使用,或者讓數(shù)據(jù)使用的成本大大增加。從戰(zhàn)略角度來說,如果目的是利用分析來確定什么數(shù)據(jù)對業(yè)務(wù)有最大的價值,那么在預(yù)測模型中使用當前部署環(huán)境沒有的數(shù)據(jù),可能會十分有效。然而在這種情況下,組織應(yīng)該計劃更長的實施周期。7.2.5

評估部署環(huán)境部署環(huán)境也會影響分析師對分析方法的選擇。一些方法,如線性回歸或者決策樹,生成的預(yù)測模型格式很容易在基于SQL的系統(tǒng)中實現(xiàn)。其他一些方法,如支持向量機或者神經(jīng)網(wǎng)絡(luò),則很難實現(xiàn)。一些預(yù)測分析軟件包支持多種格式的模型導(dǎo)出。但是,部署環(huán)境可能不支持分析軟件包的格式,并且分析軟件包可能不支持所有分析工具的模型導(dǎo)出。建立分析數(shù)據(jù)集PART037.37.3建立分析數(shù)據(jù)集為分析預(yù)測工作而準備數(shù)據(jù)的過程包括數(shù)據(jù)采集、評估和轉(zhuǎn)化等,建立分析數(shù)據(jù)集是預(yù)測分析的第一步。其中的數(shù)據(jù)處理(準備)工作需要占據(jù)整個周期的大部分時間,它們代表了流程改進和上下游協(xié)同的機會。

圖7-6建立分析數(shù)據(jù)集7.3.4轉(zhuǎn)化數(shù)據(jù)7.3.1配置數(shù)據(jù)7.3.5執(zhí)行基本表操作7.3.2評估數(shù)據(jù)7.3.3調(diào)查異常值7.3.6處理丟失數(shù)據(jù)7.3建立分析數(shù)據(jù)集7.3.1

配置數(shù)據(jù)理想狀態(tài)下,分析師是將分析工具連接到一個高效的企業(yè)信息倉庫中,而現(xiàn)實生活中的企業(yè)分析與上述理想情況相比,不同點在于:數(shù)據(jù)存在于企業(yè)內(nèi)部和外部的不同資源系統(tǒng)中;數(shù)據(jù)清理、集成和組織處理使數(shù)據(jù)從“混亂”到“干凈、有條理、可記錄”。雖然企業(yè)在數(shù)據(jù)倉庫和主數(shù)據(jù)管理(MDM)方面已經(jīng)取得了長足的進步,但只有很少的企業(yè)能跟得上不斷增長的數(shù)據(jù)量和愈加復(fù)雜的數(shù)據(jù)?!爸鲾?shù)據(jù)管理”描述了一組規(guī)程、技術(shù)和解決方案,這些規(guī)程、技術(shù)和解決方案用于為所有利益相關(guān)方(如用戶、應(yīng)用程序、數(shù)據(jù)倉庫、流程以及貿(mào)易伙伴)創(chuàng)建并維護業(yè)務(wù)數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性。7.3.1

配置數(shù)據(jù)分析師是為那些有即時業(yè)務(wù)需求的內(nèi)部客戶工作的,所以他們往往會在IT部門之前開始工作,他們會花費大量的時間收集和整合數(shù)據(jù)。這些時間大部分都花在調(diào)查數(shù)據(jù)潛在來源、了解數(shù)據(jù)采集、購買文檔和數(shù)據(jù)使用許可上。實際操作上,將數(shù)據(jù)導(dǎo)入分析“沙箱”只會花費相對很少的時間。7.3.2

評估數(shù)據(jù)當接收到數(shù)據(jù)文件時,分析師首先要確定數(shù)據(jù)格式是否與分析軟件兼容,分析軟件工具往往只支持有限的幾種格式。如果可以讀取數(shù)據(jù),那么下一步就是執(zhí)行測試,以驗證數(shù)據(jù)是否符合相關(guān)文檔。如果沒有文檔,分析師將花費一些時間來“猜測”數(shù)據(jù)格式和文件的內(nèi)容。7.3.2

評估數(shù)據(jù)如果數(shù)據(jù)文件是可讀的,分析師會讀取整個文件,如果文件很大的話,則讀取一個樣本文件,并且對數(shù)據(jù)進行一些基本的檢查。例如對于表格數(shù)據(jù),這些檢查包括:·確定鍵值是否存在,這對關(guān)聯(lián)到其他表是很必要的?!ご_保每個字段都被填充。字段不需要填充每一個記錄,但所有行都是空白的字段可以從分析中刪除。·檢查字段的變化。每行都填充相同值的字段可以從分析中刪除?!ぴu估字段的數(shù)據(jù)類型:浮點、整數(shù)、字符、日期或其他數(shù)據(jù)類型,數(shù)據(jù)類型與特定平臺相關(guān)。·確定在數(shù)據(jù)文件中是否有對應(yīng)此項目應(yīng)對措施的數(shù)據(jù)字段。7.3.3

調(diào)查異常值含有極端值或異常值的數(shù)據(jù)集會對建模過程產(chǎn)生不必要的影響,極端情況下甚至可能會使建立準確模型的工作變得困難。分析師不能簡單地丟棄任何一個異常值,例如一個保險分析師不能簡單地放棄卡特里娜颶風所造成的那部分損失。圖7-7異常值7.3.3

調(diào)查異常值分析師應(yīng)該調(diào)查離群值,以確定它們是否是在數(shù)據(jù)采集過程中人為造成的。例如,一位研究超市POS機數(shù)據(jù)的分析師發(fā)現(xiàn)了一些消費金額非常大的賬戶。在調(diào)查中,他發(fā)現(xiàn)這些“極端”的顧客是超市收銀員在刷自己的會員卡,以使那些沒有會員卡的顧客獲得折扣。又例如,研究租賃公司數(shù)據(jù)的分析師發(fā)現(xiàn),在一個市場中出現(xiàn)了這樣的不尋常現(xiàn)象,大量進行貸款申請的客戶并沒有隨后激活和使用這些貸款。分析師和客戶提出了一些假設(shè)來“解釋”觀察到的這種行為。但是在調(diào)查中分析師發(fā)現(xiàn),系統(tǒng)管理員在系統(tǒng)中跑了很多測試申請,但是卻沒有將測試申請和真實客戶申請進行區(qū)分。7.3.4

轉(zhuǎn)化數(shù)據(jù)在建模開始前,必要的數(shù)據(jù)轉(zhuǎn)換取決于數(shù)據(jù)的條件和項目的要求。因為每個項目要求的不同,對數(shù)據(jù)轉(zhuǎn)換進行統(tǒng)一概括是不可能的,但是可以審查數(shù)據(jù)轉(zhuǎn)換的原因以及通用類型的操作。對研究數(shù)據(jù)進行轉(zhuǎn)換的原因有兩個。第一個原因是源數(shù)據(jù)與應(yīng)用程序的業(yè)務(wù)規(guī)則不匹配。原則上,組織應(yīng)在數(shù)據(jù)倉庫后端實施流程,確保數(shù)據(jù)符合業(yè)務(wù)規(guī)則。這使整個企業(yè)有一致的應(yīng)用程序。但實際上分析師往往必須在組織數(shù)據(jù)倉庫之前進行分析工作,并且所用的數(shù)據(jù)也不是企業(yè)數(shù)據(jù)倉庫的一部分。也有一些特殊情況,分析師會采用與企業(yè)業(yè)務(wù)規(guī)則不同的業(yè)務(wù)規(guī)則,以滿足內(nèi)部客戶的需要。7.3.4

轉(zhuǎn)化數(shù)據(jù)分析轉(zhuǎn)換數(shù)據(jù)的第二個原因是為了改善所建立預(yù)測模型的準確性和精確性。這些轉(zhuǎn)換包括簡單數(shù)學(xué)變換、“分箱”的數(shù)值變量、記錄分類變量以及更復(fù)雜的操作,如缺失值處理或挖掘文本提取特征。一些預(yù)測分析技術(shù)需要數(shù)據(jù)轉(zhuǎn)化,而分析軟件包會自動處理所需的轉(zhuǎn)換。

圖7-8分析的自動處理7.3.4

轉(zhuǎn)化數(shù)據(jù)當分析師驗證模型時,轉(zhuǎn)換數(shù)據(jù)極大地提高了模型的精確性和準確性。然而,分析師應(yīng)該問的最重要的問題是,這樣的轉(zhuǎn)換是否能夠在部署環(huán)境中實現(xiàn)。分析沙箱中“規(guī)范”的數(shù)據(jù)不能改善預(yù)測模型在實際市場中的預(yù)測效果,除非在部署環(huán)境中的數(shù)據(jù)可以利用相同的轉(zhuǎn)換變成“規(guī)范的”。7.3.5

執(zhí)行基本表操作分析工具軟件一般需要將全部數(shù)據(jù)(應(yīng)對措施和預(yù)測因子)加載到一個單獨表格中。除非所有需要的數(shù)據(jù)已經(jīng)存在于同一張表中,否則分析師必須執(zhí)行基本表操作來建立分析數(shù)據(jù)集。這些操作包括:·連接表 ·添加一列并用計算字段填充

·附加表 ·刪除列·選擇行 ·分組·刪除行高性能的SQL引擎通常在表操作方面比分析軟件更有效,分析師應(yīng)盡可能地利用這些工具進行基本數(shù)據(jù)的準備。7.3.6

處理丟失數(shù)據(jù)數(shù)據(jù)可能會因為某些原因從數(shù)據(jù)集中丟失。數(shù)據(jù)有時是邏輯上丟失:例如當數(shù)據(jù)表包括記錄客戶數(shù)據(jù)服務(wù)使用的字段,但是消費者卻沒有訂購該服務(wù)。在其他一些情況下,數(shù)據(jù)丟失是因為源系統(tǒng)使用一個隱含的零編碼(零表示為空格)。數(shù)據(jù)丟失也可能是由于數(shù)據(jù)采集過程中人為的因素。例如如果客戶拒絕回答收入問題,該字段可能是空白的。許多統(tǒng)計軟件包要求每個數(shù)據(jù)工作表的單元格中都有值,并且將從表格中刪除那些每列不是都有值的行。所以分析師使用一些工具來推斷缺失數(shù)據(jù)的值,所使用的方法包括從簡單的平均替代到復(fù)雜的最近鄰方法。7.3.6

處理丟失數(shù)據(jù)對丟失數(shù)據(jù)的處理不會為數(shù)據(jù)增加信息價值,它們僅僅是為了可以應(yīng)用那些無法處理缺失數(shù)據(jù)的分析技術(shù)。因為數(shù)據(jù)丟失很少是由于隨機現(xiàn)象引起的,所以分析師需要在理解數(shù)據(jù)缺失的原因后,謹慎地使用推斷技術(shù)來補足相關(guān)數(shù)據(jù)。如同其他轉(zhuǎn)換一樣,分析師需要問自己是否能夠在部署環(huán)境中將缺失的數(shù)據(jù)“修復(fù)”,以及“修復(fù)”所需的成本是多少。比起在分析數(shù)據(jù)集中“修復(fù)”數(shù)據(jù),更好的做法是使用能夠處理缺失數(shù)據(jù)的分析技術(shù),例如決策樹。降維與特征工程PART047.47.4降維與特征工程解決大數(shù)據(jù)分析問題的一個重要思路在于減少數(shù)據(jù)量。針對數(shù)據(jù)規(guī)模大的特征,要對大數(shù)據(jù)進行有效分析,需要對數(shù)據(jù)進行有效的縮減。進行數(shù)據(jù)縮減,一方面是通過抽樣技術(shù)讓數(shù)據(jù)的條目數(shù)減少;另一方面,可以通過減少描述數(shù)據(jù)的屬性來達到目的,也就是降維技術(shù)。我們來學(xué)習(xí)采用有效選擇特征等方法,通過減小描述數(shù)據(jù)的屬性來達到減小數(shù)據(jù)規(guī)模的目的。7.4.3特征變換7.4.1降維7.4.2特征工程學(xué)習(xí)采用有效選擇特征等方法,通過減小描述數(shù)據(jù)的屬性來達到減小數(shù)據(jù)規(guī)模的目的。7.4降維與特征工程7.4.1

降維分析師常常將維度、特征和預(yù)測變量這三個詞混用(視為同義詞)。分析師利用兩類技術(shù)來降低數(shù)據(jù)集中的維度:特征提取和特征選擇。顧名思義,特征提取方法是將多個原始變量中的信息合成到有限的維度中,從噪聲中提取信號數(shù)據(jù)。特征選擇方法幫助分析師篩選一系列預(yù)測因子,選出最佳的預(yù)測因子用于模型訓(xùn)練,同時忽略其他的預(yù)測因子。特征提取比特征選擇更為精致,有著悠久的學(xué)術(shù)使用歷史,特征選擇則是更實用的工具。許多預(yù)測模型技術(shù)含內(nèi)置的特征選擇功能:這種技術(shù)自動地評估和選擇可獲得的預(yù)測因子。當建模技術(shù)中有內(nèi)置的特征選擇功能時。分析師可以從建模過程中省略特征選擇步驟,這是使用這些方法的一個重要原因。7.4.2

特征工程特征是大數(shù)據(jù)分析的原材料,對最終模型有著決定性的影響。數(shù)據(jù)特征會直接影響使用的預(yù)測模型和實現(xiàn)的預(yù)測結(jié)果。準備和選擇的特征越好,則分析的結(jié)果越好。影響分析結(jié)果好壞的因素包括模型的選擇、可用的數(shù)據(jù)、特征的提取。優(yōu)質(zhì)的特征往往描述了數(shù)據(jù)的固有結(jié)構(gòu)。大多數(shù)模型都可以通過數(shù)據(jù)中良好的結(jié)構(gòu)很好地學(xué)習(xí),即使不是最優(yōu)的模型,優(yōu)質(zhì)的特征也可以得到不錯的效果。優(yōu)質(zhì)特征的靈活性可以使用簡單的模型運算得更快,更容易理解和維護。優(yōu)質(zhì)的特征還可以在使用不是最優(yōu)的模型參數(shù)的情況下得到不錯的分析結(jié)果,這樣用戶就不必費力去選擇最適合的模型和最優(yōu)的參數(shù)了。7.4.2

特征工程特征工程的目的就是獲取優(yōu)質(zhì)特征以有效支持大數(shù)據(jù)分析,其定義是將原始數(shù)據(jù)轉(zhuǎn)化為特征,更好地表示模型處理的實際問題,提升對于未知數(shù)據(jù)的準確性。它使用目標問題所在的特定領(lǐng)域知識或者自動化的方法來生成、提取、刪減或者組合變化得到特征。特征工程包含特征提取、特征選擇、特征構(gòu)建和特征學(xué)習(xí)等問題。圖7-9特征工程整體架構(gòu)示例7.4.2

特征工程(1)大數(shù)據(jù)分析中的特征。特征是觀測現(xiàn)象中的一種獨立、可測量的屬性。選擇信息量大的、有差別性的、獨立的特征是分類和回歸等問題的關(guān)鍵一步。最初的原始特征數(shù)據(jù)集可能太大,或者信息冗余,因此在分析應(yīng)用中,初始步驟就是選擇特征的子集,或構(gòu)建一套新的特征集,減少功能來促進算法的學(xué)習(xí),提高泛化能力和可解釋性。在結(jié)構(gòu)化高維數(shù)據(jù)中,觀測數(shù)據(jù)或?qū)嵗▽?yīng)表格的一行)由不同的變量或者屬性(表格的一列)構(gòu)成,這里屬性其實就是特征。但是與屬性不同的是,特征是對于分析和解決問題有用、有意義的屬性。7.4.2

特征工程對于非結(jié)構(gòu)數(shù)據(jù),在多媒體圖像分析中,一幅圖像是一個觀測,但是特征可能是圖中的一條線;在自然語言處理中,一個文本是一個觀測,但是其中的段落或者詞頻可能才是一種特征;在語音識別中,一段語音是一個觀測,但是一個詞或者音素才是一種特征。7.4.2

特征工程(2)特征的重要性。這是對特征進行選擇的重要指標,特征根據(jù)重要性被分配分數(shù)并排序,其中高分的特征被選擇出來放入訓(xùn)練數(shù)據(jù)集。如果與因變量(預(yù)測的事物)高度相關(guān),則這個特征可能很重要,其中相關(guān)系數(shù)和獨立變量方法是常用的方法。在構(gòu)建模型的過程中,一些復(fù)雜的預(yù)測模型會在算法內(nèi)部進行特征重要性的評價和選擇,如多元自適應(yīng)回歸樣條法、隨機森林、梯度提升機。這些模型在模型準備階段會進行變量重要性的確定。7.4.2

特征工程(3)特征提取。一些觀測數(shù)據(jù)如果直接建模,其原始狀態(tài)的數(shù)據(jù)太多。像圖像、音頻和文本數(shù)據(jù),如果將其看作表格數(shù)據(jù),那么其中包含了數(shù)以千計的屬性。特征提取是自動地對原始觀測降維,使其特征集合小到可以進行建模的過程。對于結(jié)構(gòu)化高維數(shù)據(jù),可以使用主成分分析、聚類等映射方法;對于非結(jié)構(gòu)的圖像數(shù)據(jù),可以進行線或邊緣的提??;根據(jù)相應(yīng)的領(lǐng)域,圖像、視頻和音頻數(shù)據(jù)可以有很多數(shù)字信號處理的方法對其進行處理。7.4.2

特征工程(4)特征選擇。不同的特征對模型的準確度的影響不同,有些特征與要解決的問題不相關(guān),有些特征是冗余信息,這些特征都應(yīng)該被移除掉。在特征工程中,特征選擇和特征提取同等重要,可以說數(shù)據(jù)和特征決定了大數(shù)據(jù)分析的上限,而模型和算法只是逼近這個上限而已。因此,特征選擇在大數(shù)據(jù)分析中占有相當重要的地位。7.4.2

特征工程通常,特征選擇是自動地選擇出對于問題最重要的那些特征子集的過程。特征選擇算法可以使用評分的方法來進行排序;還有些方法通過反復(fù)試驗來搜索出特征子集,自動地創(chuàng)建并評估模型以得到客觀的、預(yù)測效果最好的特征子集;還有一些方法,將特征選擇作為模型的附加功能,像逐步回歸法就是一個在模型構(gòu)建過程中自動進行特征選擇的算法。7.4.2

特征工程工程上常用的方法有以下幾種:①計算每一個特征與響應(yīng)變量的相關(guān)性;②單個特征模型排序;③使用正則化方法選擇屬性。求解不適定問題的普遍方法是:用一組與原不適定問題相“鄰近”的適定問題的解去逼近原問題的解,這種方法稱為正則化方法。④應(yīng)用隨機森林選擇屬性;⑤訓(xùn)練能夠?qū)μ卣鞔蚍值念A(yù)選模型;⑥通過特征組合后再來選擇特征;⑦基于深度學(xué)習(xí)的特征選擇。7.4.2

特征工程(5)特征構(gòu)建。特征重要性和特征選擇是告訴使用者特征的客觀特性,但這些工作之后,需要人工進行特征的構(gòu)建。特征構(gòu)建需要花費大量的時間對實際樣本數(shù)據(jù)進行處理,思考數(shù)據(jù)的結(jié)構(gòu)和如何將特征數(shù)據(jù)輸入給預(yù)測算法。對于表格數(shù)據(jù),特征構(gòu)建意味著將特征進行混合或組合以得到新的特征,或通過對特征進行分解或切分來構(gòu)造新的特征;對于文本數(shù)據(jù),特征構(gòu)建意味著設(shè)計出針對特定問題的文本指標;對于圖像數(shù)據(jù),這意味著自動過濾,得到相關(guān)的結(jié)構(gòu)。7.4.2

特征工程(6)特征學(xué)習(xí)。這是在原始數(shù)據(jù)中自動識別和使用特征。深度學(xué)習(xí)方法在特征學(xué)習(xí)領(lǐng)域有很多成功案例,比如自編碼器和受限玻爾茲曼機。它們以無監(jiān)督或半監(jiān)督的方式實現(xiàn)自動的學(xué)習(xí)抽象的特征表示(壓縮形式),其結(jié)果用于支撐像大數(shù)據(jù)分析、語音識別、圖像分類、物體識別和其他領(lǐng)域的先進成果。抽象的特征表達可以自動得到,但是用戶無法理解和利用這些學(xué)習(xí)得到的結(jié)果,只有黑盒的方式才可以使用這些特征。用戶不可能輕易懂得如何創(chuàng)造和那些效果很好的特征相似或相異的特征。這個技能是很難的,但同時它也是很有魅力的、很重要的。7.4.3

特征變換特征變換是希望通過變換消除原始特征之間的相關(guān)關(guān)系或減少冗余,從而得到更加便于數(shù)據(jù)分析的新特征。從信號處理的觀點來看,特征變換是在變換域中進行處理并提取信號的性質(zhì),通常具有明確的物理意義。從這個角度來看,特征變換操作包括傅里葉變換、小波變換和卡博爾變換等。圖7-10特征工程示例7.4.3

特征變換從統(tǒng)計的觀點來看,特征變換就是減少變量之間的相關(guān)性,用少數(shù)新的變量來盡可能反映樣本的信息。從這個角度來看,特征變換包括主成分分析、因子分析和獨立成分分析。從幾何的觀點來看,特征變換通過變換到新的表達空間,使得數(shù)據(jù)可分性更好。從這個角度來看,特征分析包括線性判別分析和方法。建立預(yù)測模型PART057.57.5建立預(yù)測模型盡管分析師經(jīng)常會偏愛某一種技術(shù),但是對于一個基于特定數(shù)據(jù)集的問題而言,通常事先不知道用哪種技術(shù)才能建立最好的預(yù)測模型,分析師要通過實驗來確定最佳模型。現(xiàn)代高效的分析平臺能夠幫助分析師進行大量的實驗,并且分析軟件包有時也會包括腳本編寫功能,因此分析師可以通過批量方式來指定和執(zhí)行實驗。7.5.3執(zhí)行模型訓(xùn)練計劃7.5.1制定建模計劃7.5.4測量模型效果7.5.2細分數(shù)據(jù)集對于一個基于特定數(shù)據(jù)集的問題而言,通常分析師要通過實驗來確定最佳模型。7.5.5驗證模型7.5建立預(yù)測模型7.5.1

制定建模計劃盡管事實上我們可以通過暴力搜索得到最佳模型,但是對于大多數(shù)問題,實驗的數(shù)量可能會龐大到令人難以置信。因此,利用建模技術(shù)能夠提供許多不同的變量給分析師,任何一個變量都可能對模型效果產(chǎn)生質(zhì)的影響。同時,加入分析數(shù)據(jù)集的每一個新預(yù)測變量會產(chǎn)生許多種確定一個模型的方法。我們需要考慮新預(yù)測因子產(chǎn)生的主要影響和對模型的多種數(shù)學(xué)轉(zhuǎn)換,以及新預(yù)測因子和其他已存在因子之間的交互影響。分析師能夠通過一些方法縮小實驗搜索區(qū)間。首先,因變量和自變量的特征可以限定可行分析技術(shù)的范圍(表7-1)。7.5.1

制定建模計劃表7-1變量特征限定技術(shù)方法7.5.1

制定建模計劃其次,分析師可以通過計算每個預(yù)測變量的信息值刪除那些沒有數(shù)值的變量,從而縮小實驗范圍。通過使用正則化或逐步回歸建模技術(shù),分析師建立了只包含正向信息值變量的一個初步模型。許多分析軟件包包含內(nèi)置特征選擇算法,分析師還可以利用開放的特征選擇分析工具。7.5.2

細分數(shù)據(jù)集對分析數(shù)據(jù)集進行分割或者分區(qū)應(yīng)該是實際模型訓(xùn)練前的最后一步。分析師對于分割的正確數(shù)量和大小有不同的意見,但是在一些問題上達成了廣泛的認同。首先,分析師應(yīng)該利用隨機樣本來創(chuàng)建所有的分區(qū)。只要分析師使用一個隨機過程,簡單采樣、系統(tǒng)采樣、分層采樣、聚類采樣都可以被接受。其次,分析師應(yīng)該隨機選擇一個數(shù)據(jù)集,并在模型訓(xùn)練過程中持續(xù)使用。這個數(shù)據(jù)集應(yīng)該足夠大,使分析師和客戶可以對應(yīng)用于生產(chǎn)數(shù)據(jù)的模型性能得出有意義的結(jié)論。7.5.2

細分數(shù)據(jù)集根據(jù)所使用的具體分析方法,分析師可以進一步將剩余的記錄數(shù)據(jù)分為訓(xùn)練和剪枝數(shù)據(jù)集。一些方法(如分類和回歸樹)集成了一些原生的功能,可以對一個數(shù)據(jù)集進行訓(xùn)練,并且對另一個數(shù)據(jù)集進行剪枝。在處理非常大量的記錄時,分析師可以通過將訓(xùn)練數(shù)據(jù)分割為相等的子數(shù)據(jù)集,并對單個子數(shù)據(jù)集運行一些模型的方法來加速實驗進程。在對第一個復(fù)制數(shù)據(jù)集運行模型后,分析師可以放棄效果不佳的模型方法,然后擴展樣本大小。分析師也可以顯式地測量當樣本擴大時模型的運行效果。7.5.3

執(zhí)行模型訓(xùn)練計劃在這個任務(wù)中,分析師運行所需要的技術(shù)步驟來執(zhí)行模型訓(xùn)練計劃。所使用的技術(shù)和該技術(shù)的軟件實現(xiàn)不同,具體的技術(shù)步驟也不同。然而理想情況下,分析師已經(jīng)使用分析軟件的自動化功能,或通過自定義腳本來使這個任務(wù)自動化完成。因為在一個有效模型訓(xùn)練計劃中運行的單個模型數(shù)量可能會很大,所以分析師應(yīng)該盡可能避免手工執(zhí)行。7.5.4

測量模型效果當運行大量模型時,需要一個客觀方法來衡量每個模型的效果,由此可以對候選模型排名并選擇最好的模型。如果沒有一個測量模型效果的客觀方法,分析師和客戶就必須依賴手工對每個模型進行評價,這樣會限制可能的模型試驗數(shù)量。7.5.4

測量模型效果測量模型效果有許多方法。例如“酸性測試”就是針對模型的業(yè)務(wù)影響,但要在建模過程中執(zhí)行有效測量幾乎不可能,所以分析師一般依靠近似測量。對測量的選擇有四個一般性標準:(1)測量應(yīng)該對指定的建模方法和技術(shù)具備通用性;(2)測量應(yīng)該反映獨立樣本下的模型效果;(3)測量應(yīng)該反映模型在廣泛數(shù)據(jù)下的效果;(4)測量應(yīng)該可以被分析師和客戶雙方理解。7.5.4

測量模型效果一般來說,測量方法可以分為以下三類:(1)適合分類因變量的測量方法(分類);(2)適合連續(xù)因變量的測量方法(回歸);(3)既適合分類也適合回歸的測量方法。7.5.4

測量模型效果對于分類問題,簡單的總體分類準確性很容易計算和理解。所提出的列聯(lián)表(“混淆矩陣”)的測量方法很容易理解。表7-2混淆矩陣7.5.4

測量模型效果整體分類準確率不區(qū)分積極錯誤和消極錯誤。但是,在實際情況中,收益矩陣往往是不對稱的,并且兩類錯誤有不同的代價。一個預(yù)測模型可能會呈現(xiàn)出比另一種模型更好的總體準確率,但是除非你理解積極錯誤和消極錯誤之間的區(qū)別,否則你可能無法選出最佳的模型。7.5.5

驗證模型在分析項目的過程中,一個分析師可能會建立幾十上百個候選模型。模型驗證有兩個目的。首先,它能夠幫助分析師探測過度學(xué)習(xí),例如在一個算法的過度學(xué)習(xí)中訓(xùn)練數(shù)據(jù)得到的特征無法推廣到整體中。其次,驗證幫助分析師對模型從最好到最差評級,以此來識別對業(yè)務(wù)最好的選擇。分析師要區(qū)別不同種類的驗證:·n折交叉驗證·分割樣本驗證·時間樣本驗證7.5.5

驗證模型n折交叉驗證是一種能夠確保分析師利用小樣本的抽樣數(shù)據(jù),通過二次采樣現(xiàn)有數(shù)據(jù),實現(xiàn)多次重疊復(fù)制,并且對每次復(fù)制數(shù)據(jù)單獨進行驗證模型的方法。當數(shù)據(jù)非常昂貴時(如臨床試驗)這是一種可使用的合理方法,但是對于大數(shù)據(jù)來說就不必要了。在分割樣本驗證中,分析師將可用數(shù)據(jù)分割為兩個樣本,利用其中一個訓(xùn)練模型,而另一個用于驗證模型。一些分析工具有內(nèi)置的功能來指定訓(xùn)練和驗證數(shù)據(jù)集,使分析師可以將以上兩個步驟結(jié)合起來??梢岳脮r間驗證樣本對模型進行部署前的二次驗證。分析師在用于模型訓(xùn)練和驗證的原始樣本之外的不同時間點另外單獨抽取樣本。這項檢查用來確保模型準確性和精確性的估計是穩(wěn)定的。部署預(yù)測模型PART067.67.6部署預(yù)測模型預(yù)測模型在組織部署之前都是沒有實際價值的。在一些組織中,當建模結(jié)束時,部署計劃就開始了。這經(jīng)常導(dǎo)致非常大的延遲和較長的部署周期。最壞的結(jié)果就是項目的失敗,而這種情況經(jīng)常發(fā)生。在一次調(diào)查中,只有16%的分析師說,他們的組織“總是”執(zhí)行了分析的結(jié)果。部署計劃應(yīng)該在建模開始前就展開。分析師在開始建模前一定要理解技術(shù)、組織和法律的約束。計劃開始早期,IT組織可以與模型開發(fā)并行地執(zhí)行一些任務(wù),以減少總周期時間。圖7-11價格指數(shù)與預(yù)測7.6.3評價模型效果7.6.1審查和批準預(yù)測模型7.6.4管理模型資產(chǎn)7.6.2執(zhí)行模型評分預(yù)測模型在組織部署之前都是沒有實際價值的。部署計劃應(yīng)該在建模開始前就展開。7.6部署預(yù)測模型7.6.1

審查和批準預(yù)測模型在許多組織中,部署的第一步是對預(yù)測模型的正式審查和批準。這個管理步驟有很多目的:首先,它確保了模型符合相關(guān)的管理個人信息使用的法律和法規(guī);其次,它提供一個機會對模型和建立模型的方法進行同行審查。最后,正式批準模型投入生產(chǎn)環(huán)境所需資源的預(yù)算控制。批準流程實際上在分析開始前就展開。如果不能保證部署資源,開展一個預(yù)測建模項目將是毫無意義的。分析師和客戶應(yīng)該在收集數(shù)據(jù)前,充分了解數(shù)據(jù)使用的相關(guān)法律約束。如果法律和合規(guī)審查要求從一個模型中移除一個預(yù)測因子,分析師將不得不重新估計整個模型。7.6.1

審查和批準預(yù)測模型如果分析師和客戶在項目開始階段能夠充分評測部署環(huán)境,審查步驟中就不應(yīng)該有任何意外。如果模型使用的數(shù)據(jù)目前不在生產(chǎn)環(huán)境中,企業(yè)需要在數(shù)據(jù)源或者采取、轉(zhuǎn)換和導(dǎo)入(ETL)流程環(huán)節(jié)進行投入來實現(xiàn)模型。這將增加項目的周期時間。7.6.2

執(zhí)行模型評分組織以批量過程的方式或者單個事務(wù)的方式來執(zhí)行模型評分,并且可以在分析平臺中使用原生預(yù)測或者將模型轉(zhuǎn)化為一個生產(chǎn)應(yīng)用。在組織和部署時,模式不同,執(zhí)行的具體步驟也不同。在生產(chǎn)應(yīng)用程序中的模型部署必然導(dǎo)致跨部門或跨業(yè)務(wù)單元的工作。在大多數(shù)業(yè)務(wù)中,IT組織管理生產(chǎn)應(yīng)用。這些應(yīng)用可能涉及其他的業(yè)務(wù)利益相關(guān)者,他們必須在部署前審查并批準模型。這是分析開始前定義和了解部署環(huán)境非常重要的另一個原因。7.6.2

執(zhí)行模型評分在分析應(yīng)用中的模型部署需要較少的組織間協(xié)作,但是并不高效,因為它對分析團隊有額外的要求。作為一個默認的規(guī)則,分析軟件供應(yīng)商不設(shè)計或構(gòu)建用于支持生產(chǎn)水平性能和安全要求的軟件,并且分析團隊很少有支持生產(chǎn)經(jīng)營的流程和紀律。批量評分非常適合使用不經(jīng)常更新數(shù)據(jù)的高延遲性分析。當所有的預(yù)測因子有著相同的更新周期時,執(zhí)行評分過程最有效的方式就是把它嵌入到ETL的過程中,更新存儲分數(shù)的資料庫。否則,一個被預(yù)測因子更新所觸發(fā)的數(shù)據(jù)庫過程將是最有效的。7.6.2

執(zhí)行模型評分單個事務(wù)評分是對低延遲性分析最好的模型,在低延遲性分析中業(yè)務(wù)需要使用盡可能新的數(shù)據(jù)。當預(yù)測模型使用會話數(shù)據(jù)時,必須有單個事務(wù)評分,例如一個網(wǎng)站用戶或者呼叫中心代表輸入的數(shù)據(jù)。對于實時的事務(wù)評分,組織一般使用為低延遲設(shè)計的專業(yè)應(yīng)用程序。無論什么樣的部署模式,分析師都有責任保證所產(chǎn)生的評分模型準確地再現(xiàn)經(jīng)批準的預(yù)測模型。在一些情況下,分析師實際上編寫評分代碼。更為常見的情況是,分析師編寫一個規(guī)范,然后參與應(yīng)用程序的驗收測試。7.6.2

執(zhí)行模型評分盡管今天存在一些技術(shù)能夠取代人工編程來建立評分模型,但是許多組織缺乏使用這些技術(shù)需要的數(shù)據(jù)流和表結(jié)構(gòu)的一致性,由此造成的結(jié)果就是人工編程對很多組織來說仍然是模型部署過程中的瓶頸問題。7.6.3

評價模型效果模型開發(fā)步驟結(jié)束時進行的驗證測試為業(yè)務(wù)提供了信心,該模型將在生產(chǎn)部署時有效地運行。驗證測試不能證明模型的價值,只有在部署模型后才能確定該模型的價值。在理想情況下,預(yù)測模型在生產(chǎn)中會運行得像在驗證測試中一樣好。在現(xiàn)實情況中,模型可能會因為一些原因而表現(xiàn)得不那么好。最嚴重的原因是執(zhí)行不力:分析師建立的分析數(shù)據(jù)集不能代表總體,不能對過度學(xué)習(xí)進行控制,或者以不可重現(xiàn)的方式轉(zhuǎn)換數(shù)據(jù)。而且,即使完全正確執(zhí)行的預(yù)測模型仍會隨著時間的變化“漂移”,因為基礎(chǔ)行為發(fā)生變化,消費者的態(tài)度和品味將會改變,一個預(yù)測購買傾向的模型無法像它首次部署時表現(xiàn)得那樣好。7.6.3

評價模型效果組織必須跟蹤和監(jiān)控已部署模型的運行效果。這可以用兩種主要的方式進行。最簡單的方法就是捕捉評分歷史記錄,分析在一個固定周期的評分分布,并且將觀測到的分布與原始模型驗證時的評分分布相比較。如果模型驗證評分服從一個正態(tài)分布,你應(yīng)該假設(shè)生產(chǎn)評分也服從正態(tài)分布。如果生產(chǎn)評分與模型驗證評分不一致,就可能是基礎(chǔ)過程在一些方面發(fā)生了改變,從而影響了模型的效果。在信用評分應(yīng)用程序中,如果生產(chǎn)評分呈現(xiàn)一個趨向更高風險的偏斜,業(yè)務(wù)可能要采用一些導(dǎo)致逆向選擇的措施。7.6.3

評價模型效果漂移的評分分布并不意味著模型不再起作用,但是應(yīng)該對它做進一步調(diào)查。為了評測模型效果,分析師通過對比實際行為和評分來進行驗證研究。實際上,這花費的時間和精力與從頭重新建立模型一樣。當現(xiàn)代技術(shù)可以使建模過程自動化時,許多組織會完全跳過驗證研究,而僅僅是定期重建生產(chǎn)模型。7.6.4

管理模型資產(chǎn)預(yù)測模型是組織必須要管理的資產(chǎn),隨著組織擴大對分析的投資,這項資產(chǎn)管理的難度也在加大。在最基本的層次上,模型管理只是一個編目操作:在一個合適的瀏覽和搜索庫中,建立和維護每個模型資產(chǎn)的記錄,往小處說,這減少了重復(fù)的工作。一個業(yè)務(wù)單元要求的項目,其項目需求可能與某一個現(xiàn)有資產(chǎn)的需求非常相似。理想情況下,一個目錄包括響應(yīng)和預(yù)測變量以及所需源數(shù)據(jù)的相關(guān)信息。這使組織在刪除服務(wù)數(shù)據(jù)源時,能夠確定數(shù)據(jù)依賴關(guān)系和所影響的模型。7.6.4

管理模型資產(chǎn)在高層次上,模型管理庫保留模型生命周期的信息。這包括從模型開發(fā)到驗證的關(guān)鍵工作,如預(yù)期模型的得分分布,再加上定期從生產(chǎn)環(huán)境更新過來的數(shù)據(jù)。更新模型管理庫是預(yù)測建模工作流中的最后任務(wù)。第8章預(yù)測分析技術(shù)大數(shù)據(jù)分析與實踐——社會研究與數(shù)字治理什么是企業(yè)真正的競爭力?日本福山大學(xué)經(jīng)濟學(xué)教授、日本中小企業(yè)研究專家中澤孝夫以“全球化時代中小企業(yè)的制勝秘籍”為主題做了一次演講,以下是演講的主要內(nèi)容:在日本,一家企業(yè)經(jīng)營得好不好通常有兩個認定標準:第一、企業(yè)每年平均到每一個人的利潤狀況。第二、企業(yè)是否能夠持續(xù)經(jīng)營。以一定時間內(nèi)的營收總額去判斷一個企業(yè)的好壞,似乎也可以作為一個標準,但也有做得很大,后來卻倒閉的企業(yè)。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”在日本,百年以上的企業(yè)超過3萬家,兩三百年的企業(yè)也很多。為什么日本會有這么多長壽的中小企業(yè)?其中一定有獨到之處。那它們的競爭優(yōu)勢,究竟體現(xiàn)在什么地方?這種競爭優(yōu)勢分為兩種:一種是眼睛看得見的表層競爭力,比如產(chǎn)品的外觀設(shè)計或者某項功能。但這種競爭力很容易被替代,例如只要找到更好的人才,或者花錢把技術(shù)買過來,就可以解決,所以這不是真正的競爭力。真正的競爭力,是眼睛看不見的深層競爭力。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”為什么行業(yè)最突出的企業(yè)反而失敗了?來看一個例子,明治維新后,纖維紡織業(yè)一直是日本的支柱產(chǎn)業(yè)。當時,有一家非常大的紡織公司叫鐘紡,它出身名門家族,在當?shù)睾苡新曂?,上市以后很快就變成行業(yè)第一。同一時期的公司還有東麗、帝人兩家。鐘紡是最風光的一家,但也是最快破產(chǎn)的一家。這三家公司面臨的經(jīng)營環(huán)境都一模一樣,為什么東麗、帝人活下來了,最風光的鐘紡反倒破產(chǎn)了?原因在于東麗和帝人能夠根據(jù)市場變化開發(fā)新的纖維材料,例如開發(fā)出碳素纖維、無紡纖維等新產(chǎn)品。二者最大的差別在于產(chǎn)品開發(fā)能力。背后涉及的問題,其實是內(nèi)部制造技術(shù)如何保證新產(chǎn)品的開發(fā)?通過新工藝實現(xiàn)新產(chǎn)品的能力就是屬于深層次的能力。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”還有一個原因是什么呢?鐘紡當時擁有很多土地,而20世紀80年代中后期日本泡沫經(jīng)濟的時候,土地漲價很厲害,1日元買過來的土地可以賣到2000日元。這樣一來,他們的心思就不在主業(yè)上,整天想的是如何用土地來做擔保貸款投資,通過這個方法來做大規(guī)模。反過來,真正在主業(yè)紡織纖維的產(chǎn)品開發(fā)、工藝開發(fā)卻被忽略掉了。鐘紡就是因為太有錢了,熱衷搞其他投資,從而忽略了主業(yè),最后倒閉了。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”豐田、日產(chǎn)發(fā)動機曾經(jīng)一臺成本要差五萬日元,差距在哪里?另一個案例,20世紀60年代,當時的日產(chǎn)規(guī)模是大過豐田的,因為它和另外一家公司合資,總規(guī)模遠遠超過豐田。但是30年之后,日產(chǎn)的營收規(guī)模就只有豐田的1/3了,而這期間豐田和日產(chǎn)的經(jīng)營環(huán)境是一模一樣的。為什么會有這么大的區(qū)別?主要是看不見的深層競爭力在發(fā)揮著關(guān)鍵作用。比如,日產(chǎn)和豐田曾經(jīng)同時推出過一款相似的車型,售價都為120萬日元,但日產(chǎn)的發(fā)動機(見圖8-1)比豐田的發(fā)動機成本要高5萬日元(現(xiàn)在相當于3150元人民幣),這樣,日產(chǎn)的利潤率就相對較低了,為什么會出現(xiàn)這種情況?圖8-1豐田汽車發(fā)動機第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”這是因為豐田在生產(chǎn)流程和制造工藝上竭盡全力、想方設(shè)法降低成本。五萬日元的差異,實際上是制造能力的差異。而創(chuàng)造這種制造優(yōu)勢的人是企業(yè)現(xiàn)場的員工。豐田是怎么做到的呢?在生產(chǎn)過程中難免會發(fā)生各種小故障,豐田員工會去琢磨:為什么會發(fā)生故障?原因在哪兒?怎么解決?而不是像其他公司那樣,故障出現(xiàn)以后就叫技術(shù)人員過來處理。時間一久,就沉淀為一種“現(xiàn)場的力量”,同樣的產(chǎn)品,花5個小時和10個小時生產(chǎn)出來,價值是不一樣的,豐田的現(xiàn)場是持續(xù)思考的現(xiàn)場。在豐田,也包括在大多數(shù)日本企業(yè),如果一個新員工加入工廠5年,就可以去世界各地的兄弟工廠支援。通過調(diào)研發(fā)現(xiàn):同樣在菲律賓的日本工廠,一個當?shù)氐膯T工要做到15年左右才可以被派出去對海外進行支援,15年太長,其實是等不及的。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”同樣做相機,為何柯達敗了,這家企業(yè)卻轉(zhuǎn)型成功?我們做企業(yè),其實就是為了提高產(chǎn)品附加值。產(chǎn)品價值是通過加工過程來實現(xiàn)的。這又涉及兩方面,第一,在時間上做文章;第二,怎么做出好東西,這要在工藝、作業(yè)方法上下功夫,想辦法降低不良率、不出不良品。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”在大阪有一家叫東研的公司,開發(fā)出一項新的熱處理工藝,可以做到目前熱處理效果的五倍以上!技術(shù)開發(fā)出來了,沒有生產(chǎn)設(shè)備咋辦?技術(shù)是自己開發(fā)的,設(shè)備外面也沒有,東研只有自己開發(fā)。所以,企業(yè)必須具備這種獨特的技術(shù)開發(fā)能力,才能在競爭中取勝。東研在泰國的工廠給豐田、電裝做配套。當時在這個工廠里發(fā)生了一件事情:有一天,有個員工在對一批零件做熱處理,已經(jīng)連續(xù)做了3天,當天正在緊張地進行最后200個的加工。他越做感覺越不對勁,總覺得這200個和之前做出來的顏色不一樣。他感到奇怪,想弄清楚為什么,于是馬上通知客戶??蛻襞扇苏{(diào)查,結(jié)果發(fā)現(xiàn)最后200個產(chǎn)品是他們送錯了材料。豐田非常感激,幸虧發(fā)現(xiàn)得及時,不然這200個零配件混到整車里面,這將是多大的麻煩?第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”為什么這個工人有這樣的現(xiàn)場反應(yīng)?盡管這位員工是泰國當?shù)氐膯T工,但他也能像日本人一樣具備敏銳發(fā)現(xiàn)問題的能力,這屬于“工序管理能力”。什么意思呢?通過生產(chǎn)線的管理體制,不論是哪個國家的人,只要按照這個方法在生產(chǎn)線上進行操作,就很快能具備這種敏銳發(fā)現(xiàn)問題的能力。這是一種現(xiàn)場的提案能力,員工會邊做邊思考“我能不能做得更好?”,然后反向給領(lǐng)導(dǎo)提建議,從而把工序進行不斷的優(yōu)化。這種現(xiàn)場提案能力,慢慢會積淀出整個工藝流程、生產(chǎn)現(xiàn)場的力量。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”這就叫看不見的深層競爭力。那么與表層競爭力之間是什么關(guān)系呢?表層競爭力是深層競爭力的外在體現(xiàn),深層競爭力是表層競爭力的來源。如果一個企業(yè)具備深層競爭力,它就會具備轉(zhuǎn)型的能力??逻_為什么失敗了,他缺乏轉(zhuǎn)型的能力!反而日本有幾家同類型企業(yè),轉(zhuǎn)型得很好。日本做傳統(tǒng)相機的這些企業(yè)后來都轉(zhuǎn)到哪里去了?比如奧林巴斯做相機,后來轉(zhuǎn)到了化妝品、醫(yī)療器械,包括復(fù)印機領(lǐng)域。因為它掌握了原材料的開發(fā)能力,化學(xué)能力、成像能力?,F(xiàn)在奧林巴斯是一個典型的醫(yī)療器械公司,它有一個產(chǎn)品,能把0.3毫米的設(shè)備伸到人的血管里做微創(chuàng)手術(shù)。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”奧林巴斯還有一款CT掃描機,其技術(shù)來自于它的成像技術(shù)和解析技術(shù)。成像技術(shù)就是怎么看得見,解析技術(shù)就是看見了以后解釋這是什么。通過做相機,它掌握了相關(guān)核心技術(shù),順利切換到了其他領(lǐng)域。圖8-2奧林巴斯內(nèi)鏡系統(tǒng)第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”人工智能、新能源汽車、物聯(lián)網(wǎng)在日本都是偽命題從深層競爭力出發(fā),再去看當今社會流行的一些新概念,就會發(fā)現(xiàn)其實有些是偽命題。比如人工智能,其實是一種達成目的的手段。通過大數(shù)據(jù)做統(tǒng)計分析,從而找到最佳解決方案。但是,你想做什么產(chǎn)品、如何做得更好?這兩個出發(fā)點是由人來決定的,原點還是要依靠人。為了達到這個目的,用什么方法去獲取大數(shù)據(jù)?通過音像可以獲取大數(shù)據(jù),通過感應(yīng)器可以獲取大數(shù)據(jù),或者通過某種作業(yè)過程可以獲取大數(shù)據(jù),但前提是必須源于你有一個正確的目的,人工智能才能有效發(fā)揮作用。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”另外一個,有人說接下來會是電動汽車的時代。但這種說法今天看來很難成立。全世界的汽車產(chǎn)量是每年1億800萬臺。而過去10年積累下電動汽車的產(chǎn)能呢?2019年是30萬臺,2020年可能會達到50萬臺。電動汽車的產(chǎn)量占比還是非常低的,為什么?根本原因在于充電電池的生產(chǎn)供應(yīng)能力跟不上,全世界最大的充電電池廠家是松下,電動汽車的發(fā)展受制于電池。傳統(tǒng)燃油車一箱油可以跑400、500公里,電動汽車充滿也只能跑200、300公里。對于消費者來說,電動汽車只是多了一種選擇,并不能完全取代傳統(tǒng)燃油汽車。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”再者,汽車最重要的部分是發(fā)動機!可是你會發(fā)現(xiàn),90%的汽車廠家使用的都是自己的發(fā)動機,通用產(chǎn)品很少。豐田曾和電裝聯(lián)合開發(fā)發(fā)動機,其實他們本身是一家,電裝是從豐田分出來的,所以都是不對外的?,F(xiàn)在又說什么物聯(lián)網(wǎng)。所謂的物聯(lián)網(wǎng)是什么概念?其實也是一個偽命題。因為物與物之間的連接,企業(yè)只會通過網(wǎng)絡(luò)傳遞想傳遞的信息,不能對外、不想對外傳遞的信息,也就是所謂的商業(yè)秘密,企業(yè)是不會通過物聯(lián)網(wǎng)對外發(fā)布的。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”中日企業(yè)精密儀器加工能力,深層差距在哪里?再來提一個概念——公差,指產(chǎn)品允許的尺寸誤差。在日本,一般的公差是20-30微米,也就是說,只要在這個公差范圍內(nèi)組裝,產(chǎn)品質(zhì)量都是有保證的。技術(shù)人員比較追求完美,說我們能不能把公差控制在5微米以內(nèi),但那樣的話,成本就會非常高。有人說,這是一種質(zhì)量過剩。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”再看中國,一般的公差是多少?50-60微米,大家覺得這是一個比較合適的公差,可關(guān)鍵在于針對什么領(lǐng)域。對于一般家電產(chǎn)品,按照這個公差組裝出來是沒有問題的。但對于一些精密產(chǎn)業(yè)例如半導(dǎo)體,公差就必須控制在17納米以內(nèi)。這是什么概念?一億分之一毫米的17倍。這樣,中國就很難加工精密儀器。以半導(dǎo)體生產(chǎn)、半導(dǎo)體裝備為例,目前只有荷蘭和德國才能達到這種精度,所以全世界都只能從這兩個國家進口。當然,日常生活所需的產(chǎn)品,中國的加工水平是完全可以滿足的。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”另外一個例子是,韓國和日本正在打貿(mào)易戰(zhàn),韓國有半導(dǎo)體工業(yè),半導(dǎo)體工業(yè)最后有一道清洗工序要用到一種專門的清洗液,這種清洗液日本占全球70%的份額。日本不提供了,韓國就開始仿制,但是化學(xué)品和一般家電產(chǎn)品不同,沒有辦法進行解體,仿制非常困難,所以這時候整個韓國的半導(dǎo)體行業(yè)就運轉(zhuǎn)不了。因為目前半導(dǎo)體生產(chǎn)用的高精度加工裝備、核心零部件和特殊材料主要掌握在日本和德國。有意思的是,日本生產(chǎn)特殊材料所用到的大部分原料都來自中國,中國有原料卻加工不出來。為什么會這樣?因為這種技術(shù)積累和核心開發(fā)能力的建立,怎么都要積累50到70年。因而,當前中國正是核心技術(shù)開發(fā)的積累期,此時非常有必要學(xué)習(xí)日本企業(yè)的深層,而非表層競爭力,才能給未來發(fā)展打下堅實的基礎(chǔ)。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”目錄統(tǒng)計分析監(jiān)督和無監(jiān)督學(xué)習(xí)機器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)12345語義分析6視覺分析統(tǒng)計分析PART018.18.1統(tǒng)計分析用于預(yù)測分析的技術(shù)已經(jīng)有了一定的發(fā)展,目前有上百種不同的算法用于訓(xùn)練預(yù)測模型。許多統(tǒng)計技術(shù)同時適用于預(yù)測和解釋,而有一些技術(shù),如混合線性模型,主要用于解釋,也就是分析師想要評價一個或者多個措施對于其他措施的影響。8.1統(tǒng)計分析一些預(yù)測分析的關(guān)鍵技術(shù)(如線性回歸)是成熟的、易理解的、廣泛應(yīng)用的,并且在很多軟件工具中容易獲得。統(tǒng)計分析和機器學(xué)習(xí)是大數(shù)據(jù)預(yù)測分析的兩個重要技術(shù)。細分、社會網(wǎng)絡(luò)分析和文本分析等無監(jiān)督學(xué)習(xí)技術(shù)有時也在預(yù)測分析工作流中起著重要的作用。統(tǒng)計分析就是用以數(shù)學(xué)公式為手段的統(tǒng)計方法來分析數(shù)據(jù)。統(tǒng)計方法,例如線性回歸,利用已知的特征來估計數(shù)學(xué)模型的參數(shù)。分析師試圖檢驗設(shè)定的假設(shè),比如利率符合特定的數(shù)學(xué)模型。這些模型的優(yōu)勢在于它們具有高度的可歸納性。如果你能證明歷史數(shù)據(jù)符合已知的分布,就可以使用這個信息來預(yù)測新情況下的行為。8.1統(tǒng)計分析例如,如果知道炮彈的位置、速度和加速度,可以用一個數(shù)學(xué)模型計算來預(yù)測它將在哪里落下;如果能證明對營銷活動的反饋遵循一個已知的統(tǒng)計分布,可以根據(jù)客戶的過去購買記錄、人口統(tǒng)計指標、促銷的品類等,胸有成竹地預(yù)測營銷活動的效果。統(tǒng)計方法大多是定量的,但也可以是定性的。這種分析通常通過概述來描述數(shù)據(jù)集,比如提供與數(shù)據(jù)集相關(guān)的統(tǒng)計數(shù)據(jù)的平均值、中位數(shù)或眾數(shù),也可以被用于推斷數(shù)據(jù)集中的模式和關(guān)系,例如回歸性分析和相關(guān)性分析。統(tǒng)計方法面臨的問題是,現(xiàn)實生活中的現(xiàn)象經(jīng)常不會符合已知的統(tǒng)計分布。監(jiān)督和無監(jiān)督學(xué)習(xí)PART028.28.2監(jiān)督和無監(jiān)督學(xué)習(xí)在學(xué)習(xí)活動中我們經(jīng)??梢浴芭e一反三”。以高考為例,高考的題目在上考場前我們未必做過,但在高中階段學(xué)習(xí)時我們做過很多很多題目,掌握了解決這類題目的方法。因此,在考場上面對陌生題目時我們也可以算出答案。在高中“題海戰(zhàn)術(shù)”的做題訓(xùn)練中,參考答案是非常重要的,而這里的答案就是所謂的“標簽”。假設(shè)兩個完全相同的人進入高中,一個正常學(xué)習(xí),另一人做的所有題目都沒有答案,那么想必第一個人高考會發(fā)揮較好,第二個人則可能會發(fā)瘋。在學(xué)習(xí)中,如果所有練習(xí)都有答案(標簽),則為監(jiān)督學(xué)習(xí)(又稱有監(jiān)督學(xué)習(xí)),而如果沒有標簽,那就是無監(jiān)督學(xué)習(xí)。此外還有半監(jiān)督學(xué)習(xí),是指訓(xùn)練集中一部分數(shù)據(jù)有特征和標簽,另一部分只有特征,綜合兩類數(shù)據(jù)來生成合適的函數(shù)。8.2.3監(jiān)督和無監(jiān)督學(xué)習(xí)的區(qū)別8.2.1監(jiān)督學(xué)習(xí)8.2.2無監(jiān)督學(xué)習(xí)在學(xué)習(xí)中,如果所有練習(xí)都有答案(標簽),則為監(jiān)督學(xué)習(xí)(又稱有監(jiān)督學(xué)習(xí)),而如果沒有標簽,那就是無監(jiān)督學(xué)習(xí)。8.2監(jiān)督和無監(jiān)督學(xué)習(xí)8.2.1

監(jiān)督學(xué)習(xí)“監(jiān)督學(xué)習(xí)”需要定義好因變量,是從標簽化訓(xùn)練數(shù)據(jù)集中推斷出函數(shù)的機器學(xué)習(xí)。顯然,大數(shù)據(jù)分析師主要使用監(jiān)督學(xué)習(xí)技術(shù)進行預(yù)測分析。如果沒有預(yù)先設(shè)定的因變量,分析師會試圖識別特征,但不會試圖預(yù)測或者解釋特定關(guān)系,這些用例就需要運用無監(jiān)督學(xué)習(xí)技術(shù)。

圖8-5標簽數(shù)據(jù)8.2.1

監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)是最常見的分類(區(qū)別于聚類)問題。在監(jiān)督學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)由一組訓(xùn)練實例組成,每一個例子都是一對由一個輸入對象(通常是一個向量)和一個期望的輸出值(也稱監(jiān)督信號)。通過監(jiān)督學(xué)習(xí)算法分析訓(xùn)練數(shù)據(jù)并產(chǎn)生一個推斷,可以用于映射新的例子。也就是說,用已知某些特性的樣本作為訓(xùn)練集,從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個函數(shù)(模型參數(shù))以建立一個數(shù)學(xué)模型(如模式識別中的判別模型,人工神經(jīng)網(wǎng)絡(luò)法中的權(quán)重模型等),當新的數(shù)據(jù)到來時,可以根據(jù)這個函數(shù)預(yù)測結(jié)果,即用已建立的模型來預(yù)測未知樣本,這種方法是最常見的監(jiān)督學(xué)習(xí)的機器學(xué)習(xí)方法,其目標往往是讓計算機去學(xué)習(xí)我們已經(jīng)創(chuàng)建好的分類系統(tǒng)(模型)。8.2.1

監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)常用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)和決策樹,這兩種技術(shù)高度依賴事先確定的分類系統(tǒng)所給出的信息。對于神經(jīng)網(wǎng)絡(luò),分類系統(tǒng)利用信息判斷網(wǎng)絡(luò)的錯誤,然后不斷調(diào)整網(wǎng)絡(luò)參數(shù)。對于決策樹,分類系統(tǒng)用它來判斷哪些屬性提供了最多的信息。在監(jiān)督學(xué)習(xí)中,訓(xùn)練集的每一個數(shù)據(jù)已有特征和標簽,即有輸入數(shù)據(jù)和輸出數(shù)據(jù),通過學(xué)習(xí)訓(xùn)練集中輸入數(shù)據(jù)和輸出數(shù)據(jù)的關(guān)系,生成合適的函數(shù)將輸入映射到輸出。比如分類和回歸。常見的監(jiān)督學(xué)習(xí)算法是回歸分析和統(tǒng)計分類,應(yīng)用最為廣泛的算法是:支持向量機(SVM)、線性回歸、邏輯回歸、樸素貝葉斯、線性判別分析、決策樹以及k-近鄰(KNN)等。8.2.2

無監(jiān)督學(xué)習(xí)雖然大數(shù)據(jù)分析師主要使用監(jiān)督學(xué)習(xí)進行預(yù)測分析,但如果沒有預(yù)先設(shè)定的因變量,分析師會試圖識別特征,不會試圖預(yù)測或者解釋特定的關(guān)系,這些用例就需要用無監(jiān)督學(xué)習(xí)技術(shù)?!盁o監(jiān)督學(xué)習(xí)”是在無標簽數(shù)據(jù)或者缺乏定義因變量的數(shù)據(jù)中尋找模式的技術(shù)。也就是說,輸入數(shù)據(jù)沒有被標記,也沒有確定的結(jié)果。樣本數(shù)據(jù)類別未知,就需要根據(jù)樣本間的相似性對樣本集進行分類(聚類),試圖使類內(nèi)差距最小化,類間差距最大化。圖8-6無標簽數(shù)據(jù)8.2.2

無監(jiān)督學(xué)習(xí)無標簽數(shù)據(jù)例如位圖圖片、社交媒體評論和從多主體中聚集的心理分析數(shù)據(jù)等。其中每一種情況下,通過一個外部過程把對象進行分類都是可能的。例如,可以要求腫瘤學(xué)家去審查一組乳腺圖像,將它們歸類為可能是惡性的腫瘤(或不是惡性的),但這個分類并不是原始數(shù)據(jù)源的一部分。無監(jiān)督學(xué)習(xí)技術(shù)幫助分析師識別數(shù)據(jù)驅(qū)動的模式,這些模式可能需要進一步調(diào)查。8.2.2

無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)的方法分為兩大類:(1)基于概率密度函數(shù)估計的直接方法:指設(shè)法找到各類別在特征空間的分布參數(shù),再進行分類。(2)基于樣本間相似性度量的簡潔聚類方法:其原理是設(shè)法定出不同類別的核心或初始內(nèi)核,然后依據(jù)樣本與核心之間的相似性度量將樣本聚集成不同的類別。8.2.2

無監(jiān)督學(xué)習(xí)利用聚類結(jié)果,可以提取數(shù)據(jù)集中隱藏信息,對未來數(shù)據(jù)進行分類和預(yù)測。應(yīng)用于數(shù)據(jù)挖掘、模式識別、圖像處理等。預(yù)測分析的過程中,分析人員可以使用無監(jiān)督學(xué)習(xí)技術(shù)來了解數(shù)據(jù)并加快模型構(gòu)建過程。它往往用在預(yù)測建模過程中,包括異常檢測、圖與網(wǎng)絡(luò)分析、貝葉斯網(wǎng)絡(luò)、文本挖掘、聚類和降維。8.2.3

監(jiān)督和無監(jiān)督學(xué)習(xí)的區(qū)別監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的不同點在于:(1)監(jiān)督學(xué)習(xí)方法必須要有訓(xùn)練集與測試樣本。在訓(xùn)練集中找規(guī)律,而對測試樣本使用這種規(guī)律。而無監(jiān)督學(xué)習(xí)沒有訓(xùn)練集,只有一組數(shù)據(jù),在該組數(shù)據(jù)集內(nèi)尋找規(guī)律。(2)監(jiān)督學(xué)習(xí)的方法是識別事物,識別的結(jié)果表現(xiàn)在給待識別數(shù)據(jù)加上了標簽,因此訓(xùn)練樣本集必須由帶標簽的樣本組成。而無監(jiān)督學(xué)習(xí)方法只有要分析的數(shù)據(jù)集的本身,預(yù)先沒有什么標簽。如果發(fā)現(xiàn)數(shù)據(jù)集呈現(xiàn)某種聚集性,則可按自然的聚集性進行分類。8.2.3

監(jiān)督和無監(jiān)督學(xué)習(xí)的區(qū)別(3)無監(jiān)督學(xué)習(xí)方法尋找數(shù)據(jù)集中的規(guī)律性,這種規(guī)律性并不一定要達到劃分數(shù)據(jù)集的目的,也就是說不一定要“分類”。這一點要比監(jiān)督學(xué)習(xí)方法的用途更廣。譬如分析一堆數(shù)據(jù)的主分量,或分析數(shù)據(jù)集有什么特點,都可以歸于無監(jiān)督學(xué)習(xí)方法的范疇。機器學(xué)習(xí)PART038.38.3機器學(xué)習(xí)機器學(xué)習(xí)專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu),使之不斷改善自身的性能。機器學(xué)習(xí)不是從一個關(guān)于行為的特定假設(shè)出發(fā),而是試圖學(xué)習(xí)和盡可能密切地描述歷史事實和目標行為之間的關(guān)系,它與統(tǒng)計技術(shù)有本質(zhì)的區(qū)別。機器學(xué)習(xí)技術(shù)不受具體統(tǒng)計分布的限制,所以往往能夠更加精確地建立模型。8.3.3過濾8.3.1機器學(xué)習(xí)的思路8.3.4貝葉斯網(wǎng)絡(luò)8.3.2異常檢測機器學(xué)習(xí)專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能。8.3.5文本挖掘8.3機器學(xué)習(xí)8.3.1

機器學(xué)習(xí)的思路機器學(xué)習(xí)的思路是這樣的:考慮能不能利用一些訓(xùn)練數(shù)據(jù)(例如已經(jīng)做過的題),使機器能夠利用它們(解題方法)分析未知數(shù)據(jù)(高考的題目)?最簡單也是最普遍的一類機器學(xué)習(xí)算法就是分類,它輸入的訓(xùn)練數(shù)據(jù)有特征,有標簽。所謂學(xué)習(xí),其本質(zhì)就是找到特征和標簽間的關(guān)系。這樣當有特征而無標簽的未知數(shù)據(jù)輸入時,就可以通過已有的關(guān)系得到未知數(shù)據(jù)標簽。在上述的分類過程中,如果所有訓(xùn)練數(shù)據(jù)都有標簽,則為監(jiān)督學(xué)習(xí)。如果數(shù)據(jù)沒有標簽,就是無監(jiān)督學(xué)習(xí),即聚類(見圖8-7)。在實際應(yīng)用中,標簽的獲取常常需要極大的人工工作量,有時甚至非常困難。8.3.1

機器學(xué)習(xí)的思路

圖8-7機器學(xué)習(xí)示意8.3.1

機器學(xué)習(xí)的思路監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的中間,就是半監(jiān)督學(xué)習(xí)。半監(jiān)督學(xué)習(xí)訓(xùn)練數(shù)據(jù)的一部分是有標簽的,另一部分沒有標簽,而且其中沒標簽數(shù)據(jù)的數(shù)量居多(這符合現(xiàn)實情況)。隱藏在半監(jiān)督學(xué)習(xí)下的基本規(guī)律在于:數(shù)據(jù)的分布必然不是完全隨機的,通過一些有標簽數(shù)據(jù)的局部特征,以及更多沒有標簽數(shù)據(jù)的整體分布,得到可以接受甚至是非常好的分類結(jié)果。人類善于發(fā)現(xiàn)數(shù)據(jù)中的模式與關(guān)系,但不能快速處理大量的數(shù)據(jù)。另一方面,機器非常善于迅速處理大量數(shù)據(jù),但它們得知道怎么做。如果人類知識可以和機器的處理速度相結(jié)合,機器可以處理大量數(shù)據(jù)而不需要人類干涉——這就是機器學(xué)習(xí)的基本概念。8.3.1

機器學(xué)習(xí)的思路機器學(xué)習(xí)已經(jīng)有了十分廣泛的應(yīng)用,例如數(shù)據(jù)挖掘、計算機視覺、自然語言處理、特征識別、搜索引擎、醫(yī)學(xué)診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機器人運用等,其中很多都屬于大數(shù)據(jù)分析技術(shù)的應(yīng)用范疇。然而,機器學(xué)習(xí)技術(shù)會過度學(xué)習(xí),這意味著它們在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的關(guān)系無法推廣到總體中。因此,大多數(shù)廣泛使用的機器學(xué)習(xí)技術(shù)都有內(nèi)置的控制過度學(xué)習(xí)的機制,例如交叉檢驗或者用獨立樣本進行修正。隨著統(tǒng)計分析和機器學(xué)習(xí)的不斷融合,它們之間的區(qū)別正逐漸變小。例如,逐步回歸

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論