智能計(jì)算平臺(tái)應(yīng)用開發(fā)(中級(jí))-第9章-人工智能模型開發(fā)測試-人工智能模型開發(fā)_第1頁
智能計(jì)算平臺(tái)應(yīng)用開發(fā)(中級(jí))-第9章-人工智能模型開發(fā)測試-人工智能模型開發(fā)_第2頁
智能計(jì)算平臺(tái)應(yīng)用開發(fā)(中級(jí))-第9章-人工智能模型開發(fā)測試-人工智能模型開發(fā)_第3頁
智能計(jì)算平臺(tái)應(yīng)用開發(fā)(中級(jí))-第9章-人工智能模型開發(fā)測試-人工智能模型開發(fā)_第4頁
智能計(jì)算平臺(tái)應(yīng)用開發(fā)(中級(jí))-第9章-人工智能模型開發(fā)測試-人工智能模型開發(fā)_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第9章人工智能模型開發(fā)測試人工智能模型開發(fā)人工智能模型測試人工智能模型開發(fā)人工智能模型開發(fā)項(xiàng)目的生命周期分別由商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模、模型評(píng)價(jià)和模型部署這6個(gè)階段組成,如右圖所示。這6個(gè)階段的順序并非是嚴(yán)格不變的,根據(jù)項(xiàng)目的不同會(huì)出現(xiàn)不同程度的調(diào)整,這取決于每一階段或某一個(gè)階段的某一特定任務(wù)的結(jié)果,這個(gè)結(jié)果是下一階段必需的。如模型評(píng)價(jià)發(fā)現(xiàn)建模結(jié)果不理想時(shí),可回溯至數(shù)據(jù)準(zhǔn)備階段重新選擇新的數(shù)據(jù)構(gòu)建新的模型。人工智能模型開發(fā)的生命周期人工智能模型開發(fā)在人工智能模型開發(fā)的生命周期圖中,各個(gè)箭頭表示不同階段之間重要和頻繁的關(guān)聯(lián)依賴。其中,最外圈的箭頭循環(huán)形象地表達(dá)了人工智能模型開發(fā)本身的循環(huán)特性。人工智能模型開發(fā)不是一次部署完成就結(jié)束的活動(dòng),在項(xiàng)目進(jìn)行期間和方案部署過程中獲得的經(jīng)驗(yàn)教訓(xùn),都有可能觸發(fā)新的更值得關(guān)注的商業(yè)問題。商業(yè)理解商業(yè)理解階段是明確要達(dá)到的項(xiàng)目目標(biāo),并將其轉(zhuǎn)化為人工智能模型開發(fā)的主題。要從商業(yè)角度對(duì)業(yè)務(wù)部門的需求進(jìn)行理解,并把項(xiàng)目需求的理解轉(zhuǎn)化為人工智能模型開發(fā)的定義,擬定達(dá)成項(xiàng)目目標(biāo)的初步方案。具體包括確定商業(yè)目標(biāo)、評(píng)析環(huán)境、確定項(xiàng)目目標(biāo)和制定項(xiàng)目計(jì)劃4個(gè)部分。商業(yè)理解商業(yè)理解——確定商業(yè)目標(biāo)數(shù)據(jù)分析師的第一個(gè)目標(biāo)是從商業(yè)角度來全面理解客戶真正想要達(dá)到的是什么目標(biāo)。通常,客戶會(huì)提出很多目標(biāo),數(shù)據(jù)分析師不得不對(duì)這些目標(biāo)進(jìn)行權(quán)衡。數(shù)據(jù)分析師的目標(biāo)是要在一開始找到影響項(xiàng)目結(jié)果的重要因素,如果忽視這個(gè)步驟,那么最有可能產(chǎn)生的結(jié)果是花費(fèi)了大量的精力卻只對(duì)錯(cuò)誤的問題給出了正確的答案。因此,確定商業(yè)目標(biāo)就顯得尤為關(guān)鍵。商業(yè)理解——確定商業(yè)目標(biāo)通過確定商業(yè)目標(biāo),將得到以下結(jié)果。商業(yè)背景商業(yè)背景將記錄項(xiàng)目開始時(shí)了解到的有關(guān)公司商業(yè)環(huán)境的信息。商業(yè)目標(biāo)商業(yè)目標(biāo)將從商業(yè)角度描述客戶的主要目標(biāo)。除了主要商業(yè)目標(biāo)外,客戶通常還有大量需要解決的其他相關(guān)的商業(yè)問題。例如,公司主要的商業(yè)目標(biāo)是通過模型來判別該公司的客戶是否會(huì)流向競爭公司,其他相關(guān)的商業(yè)問題有可能是有哪些因素會(huì)影響這些客戶的停留,是如何影響的。商業(yè)理解——確定商業(yè)目標(biāo)商業(yè)成功的標(biāo)準(zhǔn)商業(yè)成功的標(biāo)準(zhǔn)可以從商業(yè)角度的各種觀點(diǎn)來制定項(xiàng)目結(jié)果是成功的或失敗的標(biāo)準(zhǔn)。有些標(biāo)準(zhǔn)相當(dāng)具體并能被客觀度量,如某種程度上客戶流失的減少。還有一些是具有主觀性的標(biāo)準(zhǔn),需要對(duì)是哪些人做出了主觀判斷進(jìn)行指明。商業(yè)理解——評(píng)析環(huán)境評(píng)析環(huán)境主要是對(duì)整個(gè)項(xiàng)目的環(huán)境進(jìn)行分析,如可利用的資源、約束、制定的假設(shè)及其他一些在確定商業(yè)目標(biāo)和項(xiàng)目計(jì)劃時(shí)應(yīng)該考慮到的因素。確定商業(yè)目標(biāo)后,需要通過評(píng)析環(huán)境,把所有細(xì)節(jié)轉(zhuǎn)化為“有血有肉”的內(nèi)容。商業(yè)理解——評(píng)析環(huán)境通過評(píng)析環(huán)境,將得到以下結(jié)果:資源目錄列出項(xiàng)目可用的全部資源,包括人員(商業(yè)專家、數(shù)據(jù)專家、技術(shù)支持人員、機(jī)器學(xué)習(xí)職員等)、數(shù)據(jù)(固定抽取的數(shù)據(jù)、實(shí)時(shí)訪問現(xiàn)場倉庫或操作型數(shù)據(jù))、計(jì)算資源(硬件平臺(tái))和軟件(人工智能模型開發(fā)工具、其他相關(guān)軟件)。商業(yè)理解——評(píng)析環(huán)境需求、假設(shè)和約束項(xiàng)目的需求包括完成項(xiàng)目的時(shí)間表、項(xiàng)目結(jié)果和數(shù)據(jù)安全方面的可理解性和質(zhì)量把控,以及法律問題等。項(xiàng)目的假設(shè)可能是有關(guān)數(shù)據(jù)的假設(shè),它們可以在人工智能模型開發(fā)過程中被檢驗(yàn);也可能是與作為項(xiàng)目基礎(chǔ)的商業(yè)有關(guān)的假設(shè),它們是無法被檢驗(yàn)的,如果這種假設(shè)是作為項(xiàng)目結(jié)果正確性驗(yàn)證的前期條件時(shí),列出它們是極其重要的。項(xiàng)目約束可能是資源可用性方面的限制,也可能是技術(shù)上的約束,都需要提前進(jìn)行考慮。商業(yè)理解——評(píng)析環(huán)境風(fēng)險(xiǎn)列出可能導(dǎo)致項(xiàng)目延期或失敗的風(fēng)險(xiǎn)或事件,以及風(fēng)險(xiǎn)出現(xiàn)時(shí),應(yīng)該采取何種行動(dòng)。術(shù)語編輯一個(gè)與項(xiàng)目有關(guān)的術(shù)語表,包括兩個(gè)部分:與商業(yè)有關(guān)的術(shù)語表,它是項(xiàng)目進(jìn)行商業(yè)理解的一部分,制定這個(gè)術(shù)語表將對(duì)參與人員的知識(shí)獲取和項(xiàng)目培訓(xùn)提供很大的幫助;與人工智能模型開發(fā)相關(guān)的術(shù)語表,方便參與人員熟悉流程,對(duì)于有疑問的商業(yè)問題還需配以實(shí)例進(jìn)行解釋。商業(yè)理解——評(píng)析環(huán)境成本和收益對(duì)該項(xiàng)目進(jìn)行成本收益分析,比較項(xiàng)目成本與項(xiàng)目成功后為公司帶來的可能收益。這里的分析比較應(yīng)該盡可能詳細(xì)。商業(yè)理解——確定項(xiàng)目目標(biāo)商業(yè)目標(biāo)是以商業(yè)術(shù)語描述的,而機(jī)器學(xué)習(xí)的目標(biāo)是以技術(shù)術(shù)語描述的項(xiàng)目目標(biāo)。例如,商業(yè)目標(biāo)可能是增加總的銷售額,而機(jī)器學(xué)習(xí)的目標(biāo)則也許是給出客戶過去三年的購買信息、客戶信息(年齡、收入、城市等)和項(xiàng)目明細(xì)價(jià)格,預(yù)測客戶會(huì)購買多少商品。商業(yè)理解——確定項(xiàng)目目標(biāo)通過確定項(xiàng)目目標(biāo),將得到以下兩個(gè)結(jié)果。項(xiàng)目目標(biāo)描述該項(xiàng)目的預(yù)計(jì)輸出,該輸出將使得商業(yè)目標(biāo)得以實(shí)現(xiàn)。機(jī)器學(xué)習(xí)成功的標(biāo)準(zhǔn)是以技術(shù)術(shù)語定義好項(xiàng)目結(jié)果成功的標(biāo)準(zhǔn);與商業(yè)成功的標(biāo)準(zhǔn)一樣,也許需以主觀方式來描述這些標(biāo)準(zhǔn),此時(shí),應(yīng)該標(biāo)識(shí)是哪些人做出了這個(gè)主觀判斷。商業(yè)理解——制定項(xiàng)目計(jì)劃制定項(xiàng)目計(jì)劃是為了達(dá)到項(xiàng)目目標(biāo)進(jìn)而實(shí)現(xiàn)商業(yè)目標(biāo)的確定計(jì)劃,該計(jì)劃應(yīng)該詳細(xì)列出項(xiàng)目后續(xù)期間需要完成的一系列步驟,包括最初對(duì)工具和技術(shù)的選擇。商業(yè)理解——制定項(xiàng)目計(jì)劃通過制定項(xiàng)目計(jì)劃,將得到以下結(jié)果:項(xiàng)目計(jì)劃列出項(xiàng)目需要經(jīng)歷的各個(gè)階段,以及每個(gè)階段的詳細(xì)計(jì)劃,包括持續(xù)時(shí)間、需要的資源、輸入、輸出和關(guān)聯(lián)性。這里要盡可能對(duì)機(jī)器學(xué)習(xí)過程中會(huì)大量重復(fù)的步驟交待清楚,例如建模和評(píng)估階段的重復(fù)。分析時(shí)間進(jìn)度和風(fēng)險(xiǎn)之間的關(guān)聯(lián)作為項(xiàng)目計(jì)劃的一部分,也是很重要的,在項(xiàng)目計(jì)劃中應(yīng)該明顯的標(biāo)記這些分析的結(jié)果,并包含對(duì)風(fēng)險(xiǎn)的理想行動(dòng)和建議。在某種意義上,項(xiàng)目計(jì)劃是一個(gè)動(dòng)態(tài)文檔,在每個(gè)階段結(jié)束時(shí),需要對(duì)進(jìn)展和成果情況進(jìn)行重審,由此對(duì)項(xiàng)目計(jì)劃做相應(yīng)的更新。同時(shí),指出重審點(diǎn)也是項(xiàng)目計(jì)劃的一部分。商業(yè)理解——制定項(xiàng)目計(jì)劃工具和技術(shù)的初步評(píng)估商業(yè)理解階段結(jié)束后,項(xiàng)目要完成對(duì)工具和技術(shù)的初步評(píng)估,例如,要選擇一種能為項(xiàng)目各階段提供多種方法的機(jī)器學(xué)習(xí)工具,因?yàn)楣ぞ吆图夹g(shù)的選擇可能影響整個(gè)項(xiàng)目,所以對(duì)其早點(diǎn)做評(píng)估就顯得較為重要了。數(shù)據(jù)理解數(shù)據(jù)理解是找出可能的影響主題的因素,確定這些影響因素的數(shù)據(jù)載體、數(shù)據(jù)體現(xiàn)形式和數(shù)據(jù)存儲(chǔ)位置。數(shù)據(jù)理解從數(shù)據(jù)收集開始,然后熟悉數(shù)據(jù)。具體包括收集原始數(shù)據(jù)、描述數(shù)據(jù)、探索數(shù)據(jù)和檢驗(yàn)數(shù)據(jù)質(zhì)量4個(gè)部分。數(shù)據(jù)理解數(shù)據(jù)理解——收集原始數(shù)據(jù)收集原始數(shù)據(jù)是在項(xiàng)目范圍內(nèi),收集項(xiàng)目所需的分析數(shù)據(jù)(或數(shù)據(jù)的訪問方式)。初步收集數(shù)據(jù)時(shí)可能需要為理解數(shù)據(jù)而進(jìn)行必要的數(shù)據(jù)加載操作,如果需要使用特殊的工具來輔助數(shù)據(jù)理解,那么更好的做法是將數(shù)據(jù)導(dǎo)入該工具中,可通過ETL等工具進(jìn)行數(shù)據(jù)的收集。通過收集原始數(shù)據(jù),將得到原始數(shù)據(jù)收集報(bào)告。報(bào)告需要列出獲得的全部數(shù)據(jù)集,包括它們在項(xiàng)目中所用到的地方、獲得的方法以及遇到的問題。記錄遇到的問題和解決方案有助于遷移到將來的項(xiàng)目或推進(jìn)類似的項(xiàng)目。數(shù)據(jù)理解——描述數(shù)據(jù)描述數(shù)據(jù)主要是審查數(shù)據(jù)并給出數(shù)據(jù)的描述性報(bào)告。通過描述數(shù)據(jù),將得到數(shù)據(jù)描述報(bào)告。報(bào)告需要描述已獲得的數(shù)據(jù),包括數(shù)據(jù)格式、數(shù)據(jù)質(zhì)量等,如數(shù)據(jù)的記錄總數(shù)、各個(gè)表的特征數(shù)及特征的標(biāo)識(shí)、其他被發(fā)現(xiàn)的外在數(shù)據(jù)特征等,更重要的是判斷收集到的數(shù)據(jù)是否滿足項(xiàng)目目標(biāo)的分析。數(shù)據(jù)理解——探索數(shù)據(jù)探索數(shù)據(jù)是采用查詢、可視化、報(bào)告等方式對(duì)數(shù)據(jù)進(jìn)行探索分析,這些分析可能直接面向項(xiàng)目目標(biāo),也可能有助于撰寫或精煉數(shù)據(jù)描述與質(zhì)量報(bào)告,以及反饋到數(shù)據(jù)轉(zhuǎn)換和其他數(shù)據(jù)準(zhǔn)備工作中做進(jìn)一步的分析。通常采用圖形化的方法對(duì)數(shù)據(jù)進(jìn)行探索分析,圖形化的結(jié)果更為直觀,也更為方便形成報(bào)表。通過探索數(shù)據(jù),將得到數(shù)據(jù)探索報(bào)告。報(bào)告需要描述數(shù)據(jù)探索的結(jié)果,包括初步的發(fā)現(xiàn),以及這些發(fā)現(xiàn)對(duì)于項(xiàng)目后續(xù)階段的影響。如果數(shù)據(jù)合適,那么可以把揭示數(shù)據(jù)特征的一些圖表寫入報(bào)告,以便做更進(jìn)一步的檢查。數(shù)據(jù)理解——檢驗(yàn)數(shù)據(jù)質(zhì)量檢查數(shù)據(jù)的質(zhì)量,是對(duì)數(shù)據(jù)更進(jìn)一步的探索,以便最終確定數(shù)據(jù)是否能用于項(xiàng)目目標(biāo)分析中??梢酝ㄟ^一些問題來進(jìn)行檢驗(yàn),例如,數(shù)據(jù)是否能完整地覆蓋全部需要考慮的情況,數(shù)據(jù)中是否有缺失值等。如果這些問題被提出來,并且能很好地回答,那么可以對(duì)數(shù)據(jù)質(zhì)量有更深入的了解。通過檢驗(yàn)數(shù)據(jù)質(zhì)量,將得到數(shù)據(jù)質(zhì)量報(bào)告。報(bào)告需要列出數(shù)據(jù)質(zhì)量檢驗(yàn)的結(jié)果,若存在質(zhì)量問題,需要列出可能的解決辦法。質(zhì)量問題的解決辦法通常在很大程度上依賴于數(shù)據(jù)和商業(yè)知識(shí)。數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備是將收集到的數(shù)據(jù)進(jìn)行變換、組合,建立機(jī)器學(xué)習(xí)工具軟件要求格式和內(nèi)容的寬表。數(shù)據(jù)準(zhǔn)備階段要從原始數(shù)據(jù)中形成作為建模分析對(duì)象的最終數(shù)據(jù)集。數(shù)據(jù)準(zhǔn)備具體包括選擇數(shù)據(jù)、清洗數(shù)據(jù)、構(gòu)造數(shù)據(jù)、整合數(shù)據(jù)和格式化數(shù)據(jù)5個(gè)部分。各個(gè)部分并不需要預(yù)先規(guī)定好執(zhí)行順序,且數(shù)據(jù)準(zhǔn)備工作可能需要多次執(zhí)行。數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備——選擇數(shù)據(jù)選擇數(shù)據(jù)主要確定用于分析的數(shù)據(jù)。確定的標(biāo)準(zhǔn)包括與項(xiàng)目目標(biāo)的相關(guān)性、質(zhì)量和技術(shù)限制,如數(shù)據(jù)容量或數(shù)據(jù)類型的限制。需要注意的是,數(shù)據(jù)選擇包括了表中特征(列)的選擇和記錄(行)的選擇。通過選擇數(shù)據(jù),將得到包含/排除數(shù)據(jù)的原則。該原則需要列出被包含進(jìn)來的和被排除出去的數(shù)據(jù),并給出理由。數(shù)據(jù)準(zhǔn)備——清洗數(shù)據(jù)清洗數(shù)據(jù)是借助選用的分析技術(shù),提升數(shù)據(jù)質(zhì)量到既定層次,這涉及數(shù)據(jù)清洗子集的選擇、缺失值的插補(bǔ)和異常值的處理等。通過清洗數(shù)據(jù),將得到數(shù)據(jù)清洗報(bào)告。報(bào)告需要把在數(shù)據(jù)理解階段得到的檢驗(yàn)數(shù)據(jù)質(zhì)量報(bào)告中的數(shù)據(jù)質(zhì)量問題的解決策略和行動(dòng)描述出來。構(gòu)造數(shù)據(jù)構(gòu)造數(shù)據(jù)主要包括構(gòu)造性的數(shù)據(jù)準(zhǔn)備操作,如派生特征、全新記錄的生成、現(xiàn)有特征的值轉(zhuǎn)換等。通過構(gòu)造數(shù)據(jù),將得到以下兩個(gè)結(jié)果。

派生特征:指在同一記錄中的一個(gè)或多個(gè)現(xiàn)有特征基礎(chǔ)上構(gòu)造出來的新特征。

生成記錄:描述全新記錄的生成與創(chuàng)建,例如,生成過去幾年沒有購買商品的顧客記錄,原始數(shù)據(jù)中可能不存在這種記錄,需要額外生成。數(shù)據(jù)準(zhǔn)備——構(gòu)造數(shù)據(jù)數(shù)據(jù)準(zhǔn)備——整合數(shù)據(jù)整合數(shù)據(jù)是根據(jù)提供的方法,從多個(gè)表或記錄組合成的信息中,構(gòu)造出新的記錄或值。通過整合數(shù)據(jù),將得到合并數(shù)據(jù)。合并數(shù)據(jù)是指把表示相同對(duì)象的兩個(gè)或多個(gè)表合在一起。例如,某零售連鎖店有一個(gè)表描述有關(guān)各個(gè)分店的一般特征(如面積、所處商業(yè)區(qū)的類型等)的信息,另一個(gè)表記錄有關(guān)銷售的概要數(shù)據(jù)(如利率、同上一年相比的銷售百分比變化等),還有一個(gè)關(guān)于周邊地段的人口統(tǒng)計(jì)學(xué)信息的表。這些表都有一條與每個(gè)分店相關(guān)的記錄,通過把源表的特征組合在一起,這些表就可以合并成一個(gè)新表,僅用一條記錄表示一個(gè)分店。數(shù)據(jù)準(zhǔn)備——整合數(shù)據(jù)合并數(shù)據(jù)操作會(huì)涉及聚合。聚合是指通過匯總從多條記錄或多個(gè)表的信息中計(jì)算新值的操作。例如,把一個(gè)每條記錄對(duì)應(yīng)每筆購買的顧客購買信息的表轉(zhuǎn)換成一個(gè)新表,其中每條記錄對(duì)應(yīng)每個(gè)顧客,特征則是購買次數(shù)、平均購買額、購買促銷商品的比例等。數(shù)據(jù)準(zhǔn)備——格式化數(shù)據(jù)格式化數(shù)據(jù)主要是指對(duì)數(shù)據(jù)進(jìn)行的不改變數(shù)據(jù)含義的句法修改,這可能需要通過建模工具才能實(shí)現(xiàn)。通過格式化數(shù)據(jù),將得到格式化后的數(shù)據(jù)。一些工具對(duì)特征順序有特別的要求,例如第一個(gè)特征是每條記錄的唯一標(biāo)識(shí),或最后一個(gè)特征是模型需要預(yù)測的結(jié)果特征。數(shù)據(jù)準(zhǔn)備——格式化數(shù)據(jù)改變數(shù)據(jù)集中記錄的順序也許是很重要的。建模工具可能要求記錄按照結(jié)果特征值排序。一般情況是,數(shù)據(jù)集記錄最初是以某種順序方式排列的,但建模算法卻需要把它們以相當(dāng)隨機(jī)的方式進(jìn)行排序。例如,當(dāng)使用神經(jīng)網(wǎng)絡(luò)時(shí),一般是使用隨機(jī)排列的記錄。有些工具能自動(dòng)完成這種處理,而不需要用戶干預(yù)。此外,還有一些純粹需要對(duì)數(shù)據(jù)進(jìn)行句法改變以滿足特殊建模工具的要求,例如,逗號(hào)分割數(shù)據(jù)文件中把包含在文本特征內(nèi)的逗號(hào)移除,把全部的值裁減到32個(gè)字符以內(nèi)。數(shù)據(jù)建模數(shù)據(jù)建模是應(yīng)用軟件工具,選擇合適的建模方法,處理準(zhǔn)備好的數(shù)據(jù)寬表,找出數(shù)據(jù)中隱藏的規(guī)律。在數(shù)據(jù)建模階段,將選擇和使用各種建模方法,并將模型參數(shù)進(jìn)行優(yōu)化。對(duì)同樣的項(xiàng)目問題和數(shù)據(jù)準(zhǔn)備,可能有多種機(jī)器學(xué)習(xí)技術(shù)方法可供選用,此時(shí)可優(yōu)先選擇提升度高、置信度高、簡單而易于總結(jié)業(yè)務(wù)政策和建議的機(jī)器學(xué)習(xí)技術(shù)方法。在數(shù)據(jù)建模過程中,還可能會(huì)發(fā)現(xiàn)一些潛在的數(shù)據(jù)問題,要求回到數(shù)據(jù)準(zhǔn)備階段。數(shù)據(jù)建模具體包括選擇建模技術(shù)、生成測試設(shè)計(jì)、建立模型和評(píng)估模型4個(gè)部分。數(shù)據(jù)建模數(shù)據(jù)建?!x擇建模技術(shù)選擇建模技術(shù)數(shù)據(jù)建模的第一步,是選擇將要使用的建模技術(shù)。盡管可能在商業(yè)理解時(shí),已經(jīng)選擇過一個(gè)建模工具,但是這里的任務(wù)是指具體的建模技術(shù),如C4.5決策樹、隨機(jī)森林或使用反向傳播構(gòu)造的神經(jīng)網(wǎng)絡(luò)。若有多種技術(shù)可用,則按每種技術(shù)分別執(zhí)行本任務(wù)。通過選擇建模技術(shù),將得到以下兩個(gè)結(jié)果。

建模技術(shù):對(duì)將要使用的建模技術(shù)進(jìn)行文檔化介紹。

模型假設(shè):很多建模技術(shù)需要對(duì)數(shù)據(jù)做些特殊的假設(shè),例如,全部特征具有相同的統(tǒng)計(jì)分布、不允許缺失值、類別特征是數(shù)值型等。數(shù)據(jù)建?!蓽y試設(shè)計(jì)生成測試設(shè)計(jì)在實(shí)際構(gòu)建模型之前,需要制定一個(gè)測試模型質(zhì)量和有效性的程序或機(jī)制,例如,在有監(jiān)督機(jī)器學(xué)習(xí)任務(wù)(如分類)中,常使用準(zhǔn)確率作為衡量機(jī)器學(xué)習(xí)模型的質(zhì)量指標(biāo),因此,一般需要把數(shù)據(jù)集分成訓(xùn)練集和測試集,在訓(xùn)練集上建立模型,在分開的測試集上評(píng)估模型質(zhì)量。通過生成測試設(shè)計(jì),將得到測試設(shè)計(jì)。該設(shè)計(jì)需要描述訓(xùn)練、測試和評(píng)估模型的確定計(jì)劃,計(jì)劃的主要部分是確定如何分割可用數(shù)據(jù)集為訓(xùn)練集、測試集。數(shù)據(jù)建?!⒛P徒⒛P徒⒛P褪窃诮9ぞ咧羞\(yùn)行準(zhǔn)備好的數(shù)據(jù)集,以創(chuàng)建一個(gè)或多個(gè)模型。通過建立模型,將得到以下3個(gè)結(jié)果。參數(shù)設(shè)置:許多模型工具,通常都有大量需要調(diào)整的參數(shù),列出這些參數(shù)及其設(shè)置值,還有選擇這些參數(shù)設(shè)置的基本原則。模型:由建模工具產(chǎn)生的實(shí)際模型。模型描述:描述最終生成的模型。將模型的解釋整理成報(bào)告,并記錄理解其含義中可能會(huì)遇到的問題。數(shù)據(jù)建?!u(píng)估模型評(píng)估模型評(píng)估模型是數(shù)據(jù)分析師根據(jù)領(lǐng)域知識(shí)、機(jī)器學(xué)習(xí)的成功標(biāo)準(zhǔn)和既定的測試設(shè)計(jì)來解釋模型的過程。評(píng)估模型任務(wù)會(huì)影響到接下來的模型評(píng)價(jià)階段。鑒于數(shù)據(jù)分析師判斷模型應(yīng)用和發(fā)現(xiàn)技術(shù)的成功過于技術(shù)化,那么應(yīng)該與商業(yè)分析師和商業(yè)領(lǐng)域?qū)<医佑|,以商業(yè)環(huán)境中的方式來討論得到的機(jī)器學(xué)習(xí)結(jié)果。需要注意的是,評(píng)估模型只考慮模型評(píng)估,而模型評(píng)價(jià)階段同時(shí)還要考慮項(xiàng)目進(jìn)程中產(chǎn)生的其他所有結(jié)果。數(shù)據(jù)建?!u(píng)估模型評(píng)估模型通過評(píng)估模型,將得到以下兩個(gè)結(jié)果。生成模型評(píng)估報(bào)告:報(bào)告需要概述評(píng)估模型的結(jié)果,列出全部生成模型的質(zhì)量特性如準(zhǔn)確率、召回率和F1值等,以及模型之間的質(zhì)量等級(jí)比較次序。修訂參數(shù)設(shè)置:根據(jù)模型評(píng)估,修訂參數(shù)設(shè)置并調(diào)整其值以完成下輪建立模型的任務(wù)。通常需要反復(fù)的進(jìn)行模型建立和評(píng)估,直到確信已找到較好的模型為止。在文檔中記錄下所有這些修訂和評(píng)估。模型評(píng)價(jià)模型評(píng)價(jià)是從商業(yè)角度和技術(shù)角度進(jìn)行模型結(jié)論的評(píng)估,要求檢查建模的整個(gè)過程,以確保模型沒有重大錯(cuò)誤,并檢查是否遺漏重要的業(yè)務(wù)問題。具體包括評(píng)價(jià)結(jié)果、重審過程和確定下一步3個(gè)部分。模型評(píng)價(jià)模型評(píng)價(jià)——評(píng)價(jià)結(jié)果評(píng)價(jià)結(jié)果數(shù)據(jù)建模中的模型評(píng)估任務(wù)處理的是模型準(zhǔn)確度和一般性等因素,而這里評(píng)價(jià)結(jié)果任務(wù)評(píng)價(jià)的是模型適合商業(yè)目標(biāo)的程度,有時(shí)還需要找到一些商業(yè)理由來說明某個(gè)模型的不足。在時(shí)間和預(yù)算許可的情況下,另一個(gè)非必需的評(píng)估是在實(shí)際應(yīng)用中同步運(yùn)行測試應(yīng)用來測試模型。而且評(píng)價(jià)結(jié)果過程中也評(píng)價(jià)其他機(jī)器學(xué)習(xí)的結(jié)果,從模型得到的機(jī)器學(xué)習(xí)結(jié)果必須與最初的商業(yè)目標(biāo)相關(guān),而其他一些發(fā)現(xiàn)內(nèi)容卻不必與它有關(guān),但是卻能為將來揭示一些額外的難處、信息和暗示。通過評(píng)價(jià)結(jié)果,將得到以下兩個(gè)結(jié)果:

根據(jù)商業(yè)成功標(biāo)準(zhǔn)評(píng)價(jià)機(jī)器學(xué)習(xí)的結(jié)果。使用商業(yè)成功標(biāo)準(zhǔn)術(shù)語概述結(jié)果的評(píng)價(jià),包括項(xiàng)目是否滿足既定商業(yè)目標(biāo)的最終聲明。

核準(zhǔn)模型。有關(guān)商業(yè)成功標(biāo)準(zhǔn)的模型評(píng)價(jià)之后,滿足給定標(biāo)準(zhǔn)的模型,可以認(rèn)為是被核準(zhǔn)認(rèn)可的模型。模型評(píng)價(jià)——重審過程重審過程項(xiàng)目進(jìn)行到這里,得到的結(jié)果模型似乎有望令人滿意和符合商業(yè)需要了,最終對(duì)機(jī)器學(xué)習(xí)項(xiàng)目合同做一個(gè)全面的重審是很適時(shí)的,以確定是否有任何重要因素或任務(wù)被無意識(shí)地忽略了。重審也涉及一些質(zhì)量確認(rèn)問題,如是否正確的建立了模型。通過重審過程,將得到重審報(bào)告。報(bào)告需要概述重審過程的內(nèi)容,并特別注明是否存在被忽略的任務(wù)或應(yīng)該重復(fù)進(jìn)行的任務(wù)。模型評(píng)價(jià)——確定下一步確定下一步根據(jù)評(píng)價(jià)結(jié)果和重審過程,需要確定項(xiàng)目下一個(gè)階段該如何推進(jìn),需要決定是結(jié)束并適時(shí)進(jìn)入模型部署階段,還是繼續(xù)數(shù)據(jù)準(zhǔn)備或數(shù)據(jù)建模步驟,或者創(chuàng)建新的機(jī)器學(xué)習(xí)項(xiàng)目。確定下一步這個(gè)任務(wù)也包括了影響決策的遺留問題和預(yù)算的分析。通過確定下一步,將得到以下兩個(gè)結(jié)果。

可能活動(dòng)列表:列出潛在的下一步的活動(dòng),并給出支持或反對(duì)的所有理由。

最終決定:描述如何合理進(jìn)行下一步活動(dòng)的最終決定。模型部署模型部署又稱為模型發(fā)布,建立模型本身并不是機(jī)器學(xué)習(xí)的目標(biāo),雖然模型使數(shù)據(jù)背后隱藏的信息和知識(shí)顯現(xiàn)出來,但機(jī)器學(xué)習(xí)的根本目標(biāo)是將信息和知識(shí)以某種方式組織和呈現(xiàn)出來,并用來改善運(yùn)營和提高效率。當(dāng)然,在實(shí)際的機(jī)器學(xué)習(xí)工作中,根據(jù)不同的公司業(yè)務(wù)需求,模型部署的具體工作可能簡單到提交機(jī)器學(xué)習(xí)報(bào)告,也可能復(fù)雜到將模型集成到公司的核心運(yùn)營系統(tǒng)中。模型部署具體包括規(guī)劃部署、規(guī)劃監(jiān)控和維護(hù)、生成最終報(bào)告和回顧項(xiàng)目4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論