2022工業(yè)大數(shù)據(jù)分析指南_第1頁
2022工業(yè)大數(shù)據(jù)分析指南_第2頁
2022工業(yè)大數(shù)據(jù)分析指南_第3頁
2022工業(yè)大數(shù)據(jù)分析指南_第4頁
2022工業(yè)大數(shù)據(jù)分析指南_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

工業(yè)大數(shù)據(jù)分析指南2021工業(yè)大數(shù)據(jù)分析指南工業(yè)大數(shù)據(jù)分析指南PAGE\*ROMANPAGE\*ROMANIV目錄序言 I工業(yè)大數(shù)據(jù)分析概論 1工業(yè)大數(shù)據(jù)分析的概述 1工業(yè)大數(shù)據(jù)分析的概念 1工業(yè)大數(shù)據(jù)分析的相關(guān)技術(shù) 2工業(yè)大數(shù)據(jù)分析的基本過程 2工業(yè)大數(shù)據(jù)分析的類型 4工業(yè)大數(shù)據(jù)分析價值 5工業(yè)大數(shù)據(jù)分析支撐業(yè)務(wù)創(chuàng)新 6工業(yè)大數(shù)據(jù)分析的特殊性 8從工業(yè)數(shù)據(jù)分析到工業(yè)大數(shù)據(jù)分析 8工業(yè)大數(shù)據(jù)與商務(wù)大數(shù)據(jù)分析 10工業(yè)大數(shù)據(jù)建模的難點(diǎn) 11工業(yè)數(shù)據(jù)分析中的常見問題 12業(yè)務(wù)和數(shù)據(jù)理解不當(dāng)導(dǎo)致的失誤 12建模和驗(yàn)證過程的失誤 12避免失誤的方法 13工業(yè)大數(shù)據(jù)分析框架 14CRISP-DM模型 14CRISP-DM模型的落地難點(diǎn) 15工業(yè)大數(shù)據(jù)分析的指導(dǎo)思想 16業(yè)務(wù)理解 19認(rèn)識工業(yè)對象 19工業(yè)系統(tǒng)的抽象化 19工業(yè)系統(tǒng)的功能描述 20系統(tǒng)功能到技術(shù)原理的理解 20系統(tǒng)功能與業(yè)務(wù)場景的關(guān)聯(lián) 21理解數(shù)據(jù)分析的需求 21工業(yè)過程中的數(shù)據(jù)分析需求 21數(shù)據(jù)分析的價值需求 22具體業(yè)務(wù)場景的數(shù)據(jù)分析需求 23數(shù)據(jù)分析需求的梳理方法 23工業(yè)數(shù)據(jù)分析目標(biāo)的評估 24工業(yè)知識的理解 24工業(yè)知識的合用性 24專業(yè)領(lǐng)域知識的融合 25制造的全生命周期 26數(shù)據(jù)理解 27數(shù)據(jù)來源 27業(yè)務(wù)與數(shù)據(jù)的關(guān)系 27離散行業(yè)的數(shù)據(jù)源 28流程行業(yè)的數(shù)據(jù)源 28數(shù)據(jù)的分類及相互關(guān)系 30工業(yè)數(shù)據(jù)的分類 30數(shù)據(jù)間的關(guān)聯(lián)關(guān)系 31數(shù)據(jù)質(zhì)量 32數(shù)據(jù)質(zhì)量的定義 32數(shù)據(jù)質(zhì)量的組成要素 33數(shù)據(jù)質(zhì)量的影響因素 33數(shù)據(jù)準(zhǔn)備 35業(yè)務(wù)系統(tǒng)的數(shù)據(jù)準(zhǔn)備 35工業(yè)企業(yè)的數(shù)據(jù)準(zhǔn)備 36物聯(lián)網(wǎng)的數(shù)據(jù)準(zhǔn)備 38建模分析的數(shù)據(jù)準(zhǔn)備 39數(shù)據(jù)預(yù)處理概述 39數(shù)據(jù)異常處理 40數(shù)據(jù)缺失處理 41數(shù)據(jù)歸約處理 41數(shù)據(jù)建模 42模型的形式化描述 43基本描述 43模型的深入表述 43對建模思想的影響 45工業(yè)建模的基本過程 46建模的基本思路 46模型融合的方法 46模型的優(yōu)化過程 47工業(yè)建模的特征工程 48數(shù)據(jù)初步篩選 48特征變換 48特征組合 49特征篩選 50特征的迭代 50工業(yè)數(shù)據(jù)分析的算法介紹 51傳統(tǒng)的統(tǒng)計分析類算法 51通用的機(jī)器學(xué)習(xí)類算法 52針對旋轉(zhuǎn)設(shè)備的振動分析類算法 52針對時序數(shù)據(jù)的時間序列類算法 53針對非結(jié)構(gòu)化數(shù)據(jù)的文本挖掘類算法 54統(tǒng)計質(zhì)量控制類算法 54排程優(yōu)化類算法 55模型的驗(yàn)證與評估 55知識的質(zhì)量 55知識的確定性與準(zhǔn)確性 55知識的適用范圍 56知識的質(zhì)量與可靠性 56傳統(tǒng)數(shù)據(jù)分析方法及其問題 56基于精度的驗(yàn)證方法 56精度驗(yàn)證方法的局限性 57解決驗(yàn)證問題的傳統(tǒng)方法 57基于領(lǐng)域知識的模型驗(yàn)證與評估 58對適用范圍的評估 58對精度的評估 60場景的綜合評估 61模型的迭代評估 61總結(jié)與展望 61模型的部署 62模型部署前應(yīng)考慮的問題 62模型部署對工作方式的改變 62模型部署的標(biāo)準(zhǔn)化與流程化 63模型部署的自動化與智能化 63實(shí)施和運(yùn)行中的問題 64數(shù)據(jù)質(zhì)量問題 64運(yùn)行環(huán)境問題 64精度劣化問題 65范圍變化問題 65問題的解決方法 65數(shù)據(jù)質(zhì)量問題 65運(yùn)行環(huán)境問題 66精度劣化問題 66范圍變化問題 66部署后的持續(xù)優(yōu)化 67展望未來 67工業(yè)大數(shù)據(jù)分析指南工業(yè)大數(shù)據(jù)分析指南PAGEPAGE10工業(yè)大數(shù)據(jù)分析概論工業(yè)大數(shù)據(jù)分析的概述工業(yè)大數(shù)據(jù)分析的概念服務(wù)等各項(xiàng)活動的精細(xì)化,促進(jìn)企業(yè)轉(zhuǎn)型升級。據(jù)定義問題邊界往往達(dá)不到工業(yè)的生產(chǎn)要求,需要采用數(shù)據(jù)驅(qū)動+模圖1.1工業(yè)數(shù)據(jù)分析多領(lǐng)域交叉示意圖工業(yè)大數(shù)據(jù)分析的相關(guān)技術(shù)儲技術(shù)等;另一種起因是隨著數(shù)據(jù)存儲量的增大和處理能力的增強(qiáng),平臺技術(shù)到工業(yè)大數(shù)據(jù)的應(yīng)用技術(shù)。圖1.2工業(yè)大數(shù)據(jù)分析軟件棧IT工業(yè)大數(shù)據(jù)分析的基本過程工業(yè)數(shù)據(jù)分析的基本任務(wù)和直接目標(biāo)是發(fā)現(xiàn)與完善知識,企業(yè)開算法1模型2算法1模型2模型1途徑2途徑1方案2方案1業(yè)務(wù)需求圖1.3工業(yè)數(shù)據(jù)分析任務(wù)的工作方案與探索路徑工業(yè)大數(shù)據(jù)分析的類型根據(jù)業(yè)務(wù)目標(biāo)的不同,數(shù)據(jù)分析可以分成四種類型:把各種數(shù)據(jù)以便于人們理解的可視化方式表達(dá)出來。(指導(dǎo)型(指導(dǎo)型進(jìn)一步與實(shí)施手段和流程的創(chuàng)新相結(jié)合。去描述。工業(yè)大數(shù)據(jù)分析價值設(shè)備尺度的價值點(diǎn)車間尺度的價值點(diǎn)(早在、浪費(fèi)有多少,并進(jìn)一步確定最有效的改進(jìn)方法。企業(yè)尺度的價值點(diǎn)(創(chuàng)新在價值大小和價值落地直接取得平衡??缭狡髽I(yè)的價值點(diǎn)跨界重新定義等問題,是面向工業(yè)互聯(lián)網(wǎng)的新增長點(diǎn)。工業(yè)大數(shù)據(jù)分析支撐業(yè)務(wù)創(chuàng)新同,前者重點(diǎn)在如何進(jìn)行數(shù)據(jù)分析,后者重點(diǎn)是如何應(yīng)用數(shù)據(jù)分析。關(guān)系。首先要關(guān)注的是業(yè)務(wù)需求什么,而不是能從數(shù)據(jù)中得到什么,反之,思維就會受到較大的局限,甚至南轅北轍。用大數(shù)據(jù)推動業(yè)務(wù)創(chuàng)新時,需要確認(rèn)幾個問題:想做什么(業(yè)務(wù)目標(biāo)(價值存在性((數(shù)據(jù)分析過程(做(怎么才能知道)。兩類目標(biāo)之間的尺度是不一樣的。對于具體的問題,(想知道什么據(jù)分析的效率。工作定位。以上的想法,可以用下面的圖來表示:圖1.4工業(yè)大數(shù)據(jù)價值創(chuàng)造的基本過程工業(yè)大數(shù)據(jù)分析的特殊性從工業(yè)數(shù)據(jù)分析到工業(yè)大數(shù)據(jù)分析工業(yè)數(shù)據(jù)的分析或知識挖掘是學(xué)術(shù)界和工業(yè)界研究了多年的問題,諸多算法的基本思路都類似。進(jìn)入大數(shù)據(jù)時代以來,由于數(shù)據(jù)和是本文的重點(diǎn)。(如深度學(xué)習(xí)還是簡單的算法(如線性回歸),都有可能帶來過去無法企及的效果。(場景下的模仿質(zhì)性的好轉(zhuǎn),從而得到泛化性高的模型??煽啃詷O高的模型、甚至可能挖掘出新的科學(xué)規(guī)律?,F(xiàn)。但是,相關(guān)的條件不是天然具備的,需要在數(shù)據(jù)的完整、規(guī)范、質(zhì)量等方面做更多的基礎(chǔ)性工作。更大的知識。如果沒有合適的方法,面對工業(yè)大數(shù)據(jù)價值的藍(lán)海時,就會束手無策、坐等機(jī)會的流失。思想和方法,這是其挑戰(zhàn)所在。工業(yè)大數(shù)據(jù)與商務(wù)大數(shù)據(jù)分析深。這些思想變化的本質(zhì),都是問題復(fù)雜度的增加引發(fā)的。工業(yè)大數(shù)據(jù)建模的難點(diǎn)工業(yè)大數(shù)據(jù)建模的難點(diǎn)在于,雖然數(shù)據(jù)分析基礎(chǔ)算法變化不大,程,并非選擇好一個算法就可以一蹴而就的,而往往是個持續(xù)改進(jìn)、工業(yè)過程的認(rèn)識原本就相對深刻,分析過程不能止步于膚淺的認(rèn)識、((因?yàn)閿?shù)據(jù)需求量有可能是維度的指數(shù)函數(shù)工業(yè)數(shù)據(jù)分析中的常見問題業(yè)務(wù)和數(shù)據(jù)理解不當(dāng)導(dǎo)致的失誤設(shè)定不具備價值的目標(biāo)業(yè)務(wù)上難以實(shí)施的目標(biāo)分析難度過大的目標(biāo)這些現(xiàn)象表明,我們對分析結(jié)果的投入產(chǎn)出比事先缺乏認(rèn)識。建模和驗(yàn)證過程的失誤不能及時終止子目標(biāo)行評估。目標(biāo)衡量的失誤數(shù)據(jù)分析師往往把“平均精度”作為衡量分析結(jié)果的唯一標(biāo)準(zhǔn)。避免失誤的方法公里”上“上功虧一簣”。工業(yè)大數(shù)據(jù)分析框架CRISP-DM模型CRISP-DM模型是歐盟起草的跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(Cross-IndustryStandardProcessforDataMining)的簡稱。這個標(biāo)準(zhǔn)以數(shù)據(jù)為中心,將相關(guān)工作分成業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)數(shù)據(jù)驗(yàn)證與評估建模實(shí)施與運(yùn)營數(shù)據(jù)準(zhǔn)備數(shù)據(jù)理解業(yè)務(wù)理解圖2.1CRISP-DM對多數(shù)數(shù)據(jù)分析工作來說,人們并不希望上述反復(fù)交替的過程,CRISP-DMCRISP-DMCRISP-DM模型在工業(yè)領(lǐng)域的應(yīng)用遇到一些問題,造成了該模型落地困難,主要的難點(diǎn)表現(xiàn)在以下三個方面:工業(yè)數(shù)據(jù)關(guān)聯(lián)關(guān)系復(fù)雜的,那它們就只能是一種兒戲,或者連兒戲也不如?!惫I(yè)數(shù)據(jù)質(zhì)量差從某種意義上說,工業(yè)大數(shù)據(jù)是工業(yè)系統(tǒng)在數(shù)字空間的映像。要想通過數(shù)據(jù)認(rèn)識工業(yè)對象或過程,數(shù)據(jù)本身應(yīng)該體現(xiàn)對象的系統(tǒng)性。工業(yè)場景的分析要求高工業(yè)大數(shù)據(jù)分析的指導(dǎo)思想CRISP-DM復(fù)、提高數(shù)據(jù)分析的效率。CRISP-DM,關(guān)鍵是減少上下步驟失敗后重新進(jìn)入業(yè)務(wù)理解這樣大的反復(fù)。減少無效反復(fù)的重要辦法是采用工程上常見的“以終為始”的思應(yīng)用、如何部署開始,反推需要進(jìn)行的研究。實(shí)際分析工作中又不能假設(shè)或者要求數(shù)據(jù)分析人員事先對這些大降低,減少人的介入,也就能大大提高工作的效率。CRISP-DM模型在工業(yè)大數(shù)據(jù)的中的應(yīng)用推進(jìn),主要分以下幾個階段:業(yè)務(wù)理解階段務(wù)理解制定分析項(xiàng)目的評估方案。數(shù)據(jù)理解階段等。數(shù)據(jù)準(zhǔn)備階段數(shù)據(jù)建模階段該階段是基于業(yè)務(wù)和數(shù)據(jù)的理解,選擇合適的算法和建模工具,模型的驗(yàn)證和評估階段為模型的部署進(jìn)行可行性驗(yàn)證。模型的部署階段程中出現(xiàn)的質(zhì)量問題、運(yùn)行問題、精度問題等,提前做好預(yù)備方案;最后基于模型試運(yùn)行后的結(jié)果,制定模型的持續(xù)優(yōu)化方案。業(yè)務(wù)理解業(yè)務(wù)理解和數(shù)據(jù)理解的目的,是在工作的前期,認(rèn)識業(yè)務(wù)相關(guān)對象以及目標(biāo)要求、條件約束。在此基礎(chǔ)上選擇合適的數(shù)據(jù)分析問題,以避免工作過程中出現(xiàn)方向性錯誤,進(jìn)而減少無效和低效的勞動。必要的知識。認(rèn)識工業(yè)對象工業(yè)系統(tǒng)的抽象化(未必是決定出就(子系統(tǒng)控制系統(tǒng)的內(nèi)部狀態(tài)和輸出。工業(yè)系統(tǒng)的功能描述解系統(tǒng)的功能,是認(rèn)識工業(yè)系統(tǒng)的切入點(diǎn)。系統(tǒng)功能到技術(shù)原理的理解對象理解中經(jīng)常出現(xiàn)的問題,是對某些重要功能的忽視。功能被定性的抗干擾功能等。系統(tǒng)功能與業(yè)務(wù)場景的關(guān)聯(lián)通過“功能”這個切入點(diǎn),可以進(jìn)一步深入到功能實(shí)現(xiàn)的原理。系統(tǒng)內(nèi)部連續(xù)或突發(fā)的變化,工業(yè)界往往有一套預(yù)防、檢測、應(yīng)對、弱化影響的機(jī)制;要深刻理解工業(yè)系統(tǒng),必須重視相關(guān)的原理。理解數(shù)據(jù)分析的需求工業(yè)過程中的數(shù)據(jù)分析需求DMAICD(Define)M(MeasureA(Analyze)、改進(jìn)I(ImproveC(ControlDMAIC測量:這個階段的工作,就是要把業(yè)務(wù)需求轉(zhuǎn)化成數(shù)據(jù)問題?;蛘哒f,用數(shù)據(jù)來描述業(yè)務(wù)需求,對問題更加深刻的認(rèn)識。分析:運(yùn)用統(tǒng)計技術(shù)方法找出存在問題的原因??闯梢粋€優(yōu)化數(shù)學(xué)問題、確定怎么做是最好的。會涉及到各種軟硬件條件和管理制度。對數(shù)據(jù)分析的目標(biāo)和要求;而后面兩個步驟要在數(shù)據(jù)分析之后完成,和控制的路徑是不是存在,這是提高數(shù)據(jù)分析工作效率的有效方法。數(shù)據(jù)分析的價值需求數(shù)據(jù)分析的目的是創(chuàng)造價值,業(yè)務(wù)理解要確認(rèn)兩個方面的問題:價值是真的存在、還是想當(dāng)然的;價值是否足夠大、投入產(chǎn)出是否核算。只有滿足這兩個條件的業(yè)務(wù)才能作為數(shù)據(jù)分析的目標(biāo)。價值一定是在某個業(yè)務(wù)流程中實(shí)現(xiàn)的,如果業(yè)務(wù)流程在現(xiàn)實(shí)中無別關(guān)注分析的結(jié)果不理想時,價值是否會大大縮水。具體業(yè)務(wù)場景的數(shù)據(jù)分析需求保證最后的分析結(jié)果是可以落地的。數(shù)據(jù)分析需求的梳理方法對工業(yè)對象和業(yè)務(wù)需求的理解建議用5W1H(Why、What、WhereWhenWho繞業(yè)務(wù)目標(biāo)進(jìn)行分析,把與業(yè)務(wù)目標(biāo)相關(guān)的因素找出來并進(jìn)行分類,ERPetri工業(yè)數(shù)據(jù)分析目標(biāo)的評估工業(yè)知識的理解InformationKnowledge體系的觀XF(X)YF、Y之間關(guān)系是確定的,可否實(shí)現(xiàn)預(yù)定的業(yè)務(wù)優(yōu)化目標(biāo)。工業(yè)知識的合用性知識XYXYY之前,這樣的信息才能被用來預(yù)測。對于這兩種分析,XY之間不一定XY舉例說明需要關(guān)注的問題。方法的合理性X的解決辦法。業(yè)務(wù)流程和基礎(chǔ)手段的約束工業(yè)生產(chǎn)的本質(zhì)是在具體業(yè)務(wù)過程中圍繞產(chǎn)品或服務(wù)凝聚人類專業(yè)領(lǐng)域知識的融合合數(shù)據(jù)。對于業(yè)務(wù)問題,人們常常要采取一些“知識重用”的方法,制造的全生命周期產(chǎn)品全生命周期可以分成生命初期(BOL和生(運(yùn)營商理和分析。主要存在以下四方面難題:(1)產(chǎn)品制造尤其是高端裝備及跨企業(yè)協(xié)同的大規(guī)模多層次業(yè)務(wù)過程集成與優(yōu)化難題;(2)制造生周期多源異構(gòu)數(shù)據(jù)雙向關(guān)聯(lián)與追溯成為不可回避的技術(shù)挑戰(zhàn);(3)互聯(lián)網(wǎng)與大數(shù)據(jù)環(huán)境下開源與分享經(jīng)濟(jì)模式使得制造跨界數(shù)據(jù)集成與源的發(fā)現(xiàn)與融合成為新的技術(shù)制高點(diǎn);(4)互聯(lián)網(wǎng)與大數(shù)據(jù)環(huán)境下產(chǎn)數(shù)據(jù)理解CRISP-DM數(shù)據(jù)來源化數(shù)據(jù)、工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)和外部跨界數(shù)據(jù)。業(yè)務(wù)與數(shù)據(jù)的關(guān)系者。數(shù)據(jù)跟著業(yè)務(wù)流程走,流程和數(shù)據(jù)是對偶關(guān)系。在理想情況下,數(shù)據(jù)可以在賽博空間(CyberSpace)化。所以,數(shù)據(jù)理解支撐對業(yè)務(wù)理解的深化。離散行業(yè)的數(shù)據(jù)源造跨生命周期業(yè)務(wù)過程集成與優(yōu)化方面的研究主要集中在異質(zhì)業(yè)務(wù)命周期異質(zhì)業(yè)務(wù)過程柔性集成、基于海量運(yùn)行日志的高端裝備制造、跨生命周期業(yè)務(wù)流程智能優(yōu)化等方面進(jìn)行深入研究。流程行業(yè)的數(shù)據(jù)源的業(yè)務(wù)周期,而不是長期存儲,很多企業(yè)專門配置了數(shù)據(jù)倉庫(DW)或者商業(yè)智能(BI)系統(tǒng)來存儲歷史數(shù)據(jù)。在流程行業(yè),上下工序之間、人機(jī)料法環(huán)之間有著密切的關(guān)聯(lián)。關(guān)聯(lián)關(guān)系與數(shù)據(jù)本身同樣重要。分析數(shù)據(jù)時,數(shù)據(jù)之間的聯(lián)系非常重要。比如,分析產(chǎn)品的質(zhì)量對應(yīng)起來,數(shù)據(jù)對齊存在著巨大挑戰(zhàn)。數(shù)據(jù)的分類及相互關(guān)系解。工業(yè)數(shù)據(jù)的分類可檢測性工作,本質(zhì)上就是要推斷一些無檢測的變量。另外,可檢測的數(shù)據(jù),可控性系統(tǒng)的輸入有控制型輸入和干擾型輸入之分,控制型的變量,可數(shù)值型變量和上下文變量一般難以一下子就得到很完美的分析結(jié)果,而是要分場景進(jìn)行分析、然后再把不同場景下的結(jié)論綜合起來,得到更完整的結(jié)論。時間變化量和常數(shù)(快變量和慢變量)有必要從數(shù)據(jù)變化的速度上區(qū)分變量,常數(shù)一般沒有絕對的,而是會在某些場景下發(fā)生變化。所以,這些常量也可以用來區(qū)分場景。設(shè)定目標(biāo)值和實(shí)際值定性。數(shù)據(jù)間的關(guān)聯(lián)關(guān)系面的原因:屬性之間存在關(guān)聯(lián)。特定屬性變化的關(guān)聯(lián)。一個屬性在不同的時間和場景下發(fā)生變化,則這些變化之間存在關(guān)聯(lián)。眾多的對象組成一個系統(tǒng)或者一類對象,則對象之間存在關(guān)聯(lián)。特定流程之間的關(guān)聯(lián)。一個業(yè)務(wù)場景涉及經(jīng)過復(fù)雜的流程或者多個工業(yè)過程,與這些工業(yè)過程相關(guān)的對象及其屬性都是相關(guān)的。因果關(guān)系鏈導(dǎo)致的關(guān)聯(lián)。一個業(yè)務(wù)問題可能是很多原因?qū)е麻g接的結(jié)果,這些結(jié)果之間,往往存在關(guān)聯(lián)。數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量的定義到是否會出現(xiàn)“假數(shù)據(jù)”,如果確實(shí)存在這種情況,應(yīng)該如何預(yù)防、能是有價值的,但數(shù)據(jù)質(zhì)量未必能滿足分析的需求。數(shù)據(jù)質(zhì)量的組成要素具體地說,數(shù)據(jù)質(zhì)量包括幾個方面的內(nèi)容:一致性:用于度量數(shù)據(jù)產(chǎn)生的過程是否有含義上的沖突。準(zhǔn)確性:用來衡量數(shù)據(jù)的精度和正確性。唯一性:用于度量哪些數(shù)據(jù)或者屬性是否是重復(fù)的。用就無法被凸顯出來。數(shù)據(jù)質(zhì)量的影響因素ICT這些都會影響數(shù)據(jù)質(zhì)量。生產(chǎn)過程或設(shè)備的重要性越大,數(shù)據(jù)質(zhì)量往往相對越好。但是,差。再如,連鑄坯表面溫度對質(zhì)量影響很大,但受環(huán)境干擾的影響,估計”。消費(fèi)者或中轉(zhuǎn)者,在分析數(shù)據(jù)的同時可能會對數(shù)據(jù)進(jìn)行轉(zhuǎn)化等操作,數(shù)據(jù)準(zhǔn)備業(yè)務(wù)系統(tǒng)的數(shù)據(jù)準(zhǔn)備是在元數(shù)據(jù)層上。其次在匯聚之上,建立數(shù)據(jù)共享開放標(biāo)準(zhǔn)和機(jī)制,一是要進(jìn)行數(shù)據(jù)資源梳理。首先要梳理清楚有多少個業(yè)務(wù)領(lǐng)域、每個業(yè)務(wù)領(lǐng)域有多少個業(yè)務(wù)系統(tǒng)、每個業(yè)務(wù)系統(tǒng)有多少個表、多少個視圖,每個表或視圖有多少個字段,每個字段的數(shù)據(jù)是如何產(chǎn)生的,的全生命周期管理,建立基礎(chǔ)數(shù)據(jù)交換標(biāo)準(zhǔn),并通過提供機(jī)構(gòu)代碼、工業(yè)企業(yè)的數(shù)據(jù)準(zhǔn)備定問題的回應(yīng)。因此,企業(yè)處理數(shù)據(jù)的方法會因?yàn)椴煌块T而改變,甚至?xí)驗(yàn)椴块T內(nèi)部的不同情況而改變。即使每個部門已經(jīng)有一套合要承擔(dān)法律責(zé)任。成妥協(xié)。高效、最安全的數(shù)據(jù)管理策略。BOM的概念進(jìn)行描述,最終產(chǎn)品一定是由固定個數(shù)的零件或部件組成,這些關(guān)系非常明確和固定。其BOM(GB_T32236-2015BOMBOM圖數(shù)據(jù)關(guān)聯(lián)分析技術(shù)以及跨生命周期多模態(tài)語義融合分析技術(shù)。物聯(lián)網(wǎng)的數(shù)據(jù)準(zhǔn)備支持萬物互聯(lián)的物聯(lián)網(wǎng)(InternetofThings,IoT)是通過射(RFID)通、共享和溯源。標(biāo)識及標(biāo)識解析技術(shù)是實(shí)現(xiàn)產(chǎn)品追溯的核心關(guān)鍵。建模分析的數(shù)據(jù)準(zhǔn)備數(shù)據(jù)預(yù)處理概述術(shù),對數(shù)據(jù)進(jìn)行預(yù)處理,來消除數(shù)據(jù)中的噪聲、糾正數(shù)據(jù)的不一致、識別和刪除離群數(shù)據(jù),來提高模型魯棒性,防止模型過擬合。在實(shí)際據(jù)的缺失值處理、數(shù)據(jù)的歸約處理等。數(shù)據(jù)異常處理掘。孤立點(diǎn)是一個明顯偏離于其他數(shù)據(jù)點(diǎn)的對象,它就像是由一個完全不同的機(jī)制生成的數(shù)據(jù)點(diǎn)一樣。指示發(fā)現(xiàn)新現(xiàn)象的信號的數(shù)據(jù)的新穎性子集。圖5.1異常數(shù)據(jù)檢測數(shù)據(jù)缺失處理種多樣的,如空值條件的設(shè)置、業(yè)務(wù)數(shù)據(jù)的脫密、異常數(shù)據(jù)的刪除、網(wǎng)絡(luò)傳輸丟失與亂序等,都會造成一定程度的數(shù)據(jù)缺失。處理數(shù)據(jù)缺失的方法很多,根據(jù)數(shù)據(jù)的基礎(chǔ)情況、數(shù)據(jù)的缺失情況來綜合選擇。如果數(shù)據(jù)量足夠大,缺失數(shù)據(jù)比例小,則缺失數(shù)據(jù)可以直接刪除;如果數(shù)據(jù)連續(xù)缺失,則可以利用平滑方法填補(bǔ)等。數(shù)據(jù)的插值方法主要有利用縱向關(guān)系進(jìn)行插值,如線性插值法、拉格朗日插值法、牛頓插值法、三次樣條函數(shù)插值法等;利用橫向關(guān)系插值,如多元插值法等;內(nèi)插值法,如sinc內(nèi)插值法等。圖5.2拉格朗日插值法數(shù)據(jù)歸約處理維、數(shù)量歸約、數(shù)據(jù)壓縮。數(shù)據(jù)降維基本原理是將樣本點(diǎn)從輸入空間通過線性或非線性變數(shù)據(jù)降維的方法有很多,如主成分分析、T-SNE圖5.3流形學(xué)習(xí)降維數(shù)據(jù)壓縮是使用數(shù)據(jù)變換的方式對原始數(shù)據(jù)進(jìn)行壓縮表示,使得壓縮數(shù)據(jù)能夠?qū)崿F(xiàn)原始的數(shù)據(jù)的重構(gòu)又不損失數(shù)據(jù)中的有價值信息。主要的壓縮方法有無損壓縮和有損壓縮。數(shù)據(jù)建模有知識的辯證否定,對已有知識的清晰化、準(zhǔn)確化并提高可靠性。工業(yè)界對可靠性的要求特別高,要提高分析結(jié)論的可靠性,需要把分析模型的形式化描述基本描述容易直接獲得的數(shù)據(jù)。不失一般性,將數(shù)據(jù)建模表述為:F(X)Y其中,X為可以獲得的數(shù)據(jù),Y為希望得到的數(shù)據(jù),F(xiàn)是X到Y(jié)XF的過程。況下,X應(yīng)該包含內(nèi)容、F的形式都是已知的。比如,傳熱過程可以用熱傳導(dǎo)方程表示。然而,原理清楚并不意味著建模工作簡單。因?yàn)槟P退璧暮芏鄶?shù)據(jù)和參數(shù)往往并不清楚。比如,我們計算傳熱時,邊界條件往往并不知到。現(xiàn)實(shí)中,數(shù)據(jù)缺失是一種常態(tài)。工業(yè)過程數(shù)據(jù)建模的實(shí)際困難,往往可以抽象為處置數(shù)據(jù)缺失。模型的深入表述如前所述,數(shù)據(jù)建模中最常見的困難是部分?jǐn)?shù)據(jù)無法獲得。對此,一般的解決方法是:從可以獲得的數(shù)據(jù)中找到一些與之相關(guān)的數(shù)據(jù),再用間接的手段確定模型。這樣的思維其實(shí)是常見的。例如,古人常常根據(jù)雞叫的聲音判斷時間。XX1X2X2,我們可以Z1、Z2Z3。Z1X2我們用下面的公式來描述:X2F(Z1,)其中,Z1是可觀測的變量,ζ是難以觀測的干擾。X2Z2的原因之一。Z2F(X2,)其中,Z2是可觀測的變量,ζ是難以觀測的干擾。X2Z3我們用下面的公式來描述:31) X22)Z2Z2Z3X2Z1ζ圖6.1三種可見數(shù)據(jù)與不可見數(shù)據(jù)的關(guān)系其中,Z3是可觀測的變量,ζ是難以觀測的數(shù)據(jù)。三種可見數(shù)據(jù)與不可見數(shù)據(jù)的關(guān)系,如上圖所示。于是,我們實(shí)際上要建立的模型就是:

YG(X1,Z)其中,Z=(Z1,Z2,Z3),是建模時可供選擇的數(shù)據(jù);G是實(shí)際上能夠建立的模型。正確的模型也會差別很大。而且,應(yīng)用場景、數(shù)據(jù)采集條件變化時,我們要拋棄過于理想的想法,才能得到現(xiàn)實(shí)中最合適的模型。對建模思想的影響ZXZX的選擇不同就意味著模型特ZX在“一致性”消失的前提下,變量Z的選擇要根據(jù)具體的業(yè)務(wù)需求來定。也就是要根據(jù)應(yīng)用對精度、使用范圍、可靠度、計算速度、因果性的要求來定。工業(yè)建模的基本過程建模的基本思路也不相同。量和模型結(jié)構(gòu),要根據(jù)數(shù)據(jù)建模的實(shí)際結(jié)果對前面的選擇加以調(diào)整、結(jié)果以得到新的認(rèn)識?如何根據(jù)新的認(rèn)識調(diào)整模型?要將領(lǐng)域知識和數(shù)據(jù)分析方法有機(jī)融合,就要解決這個問題。模型融合的方法路是基于分解的綜合。這個方法把復(fù)雜的建模過程分成兩步:建立子模型。針對特定的場景和少數(shù)的變量建立簡單的子模數(shù)據(jù)有可能具有遍歷各種場景的可能性。將判斷模型是否符合某些先驗(yàn)條件,作為前置性的工作。通過對數(shù)據(jù)的選擇和處理,讓它符合先驗(yàn)條件。經(jīng)典統(tǒng)計建模最基本的要求是干擾的隨機(jī)性,即不存在系統(tǒng)性的干擾。所以落實(shí)上述思想的基本方向就是剔除系統(tǒng)干擾。一般來說,所謂的系統(tǒng)性干擾指的是沒有納入模型輸入變量的因素,剔除系統(tǒng)干擾的方法有兩種:一種是把系統(tǒng)干擾因素固定下來、變成“常數(shù)”;另一種是把系統(tǒng)干擾的作用計算出來、剔除出去。模型的優(yōu)化過程首先與領(lǐng)域?qū)<矣懻?,然后再用?shù)據(jù)來驗(yàn)證可能的情況。工業(yè)建模的特征工程數(shù)據(jù)初步篩選(特征變換指對原始數(shù)據(jù)字段通過映射函數(shù)或者某一種特點(diǎn)規(guī)則來提取新特征數(shù)據(jù)標(biāo)準(zhǔn)化是為了消除數(shù)據(jù)分析工程中使用變量量綱不一致的敏感的模型當(dāng)中。常見的函數(shù)變換有指數(shù)變換、對數(shù)變換、BOX-COX變換等。特征組合特征篩選偏見和不必要噪音的限制來提高模型開發(fā)的工作效率和模型的魯棒性。特征選擇有三種基本的方法:基于嵌入(Embed)會選擇最有效的特征來對數(shù)據(jù)進(jìn)行劃分。但這種方法是在局部空間中進(jìn)行優(yōu)選,效果相對有限。LASSO基于過濾(Filter據(jù)預(yù)處理過程中刪除那些取值為常數(shù)的特征就是過濾方法的一種,過濾法速度快但有可能刪除有用的特征。特征的迭代當(dāng)模型出現(xiàn)較大誤差時,我們往往需要考慮增加一些特征,挖掘更深層組合因子。這些特征常常來自于以下兩種情況:間接數(shù)據(jù)。很多重要的數(shù)據(jù)與模型所需要的數(shù)據(jù)是間接相關(guān)略掉,需要特別引起重視。足夠的重視。工業(yè)數(shù)據(jù)分析的算法介紹類算法、通用的機(jī)器學(xué)習(xí)類算法、針對旋轉(zhuǎn)設(shè)備的振動分析類算法、傳統(tǒng)的統(tǒng)計分析類算法 圖6.2主成分分析與對應(yīng)分析通用的機(jī)器學(xué)習(xí)類算法梯度提升樹算法、Bayes算法,線性回歸算法、廣義線性回歸算法、彈性網(wǎng)絡(luò)回歸、嶺回歸、樣條函數(shù)回歸等;關(guān)聯(lián)規(guī)則挖掘算法,Apriori,F(xiàn)TP圖6.3聚類針對旋轉(zhuǎn)設(shè)備的振動分析類算法 圖6.4三維全息譜與高階譜針對時序數(shù)據(jù)的時間序列類算法列ARIMAGARCH等;時窗SAX的式(MEONmotifAutoPlait算法、HOD-1D圖6.5時間序列的模式挖掘針對非結(jié)構(gòu)化數(shù)據(jù)的文本挖掘類算法圖6.6文本挖掘統(tǒng)計質(zhì)量控制類算法SPCEWMA圖6.7SPC控制圖排程優(yōu)化類算法和物力的浪費(fèi),需要通過排程優(yōu)化、調(diào)度優(yōu)化來靈活安排生產(chǎn)過程,模型的驗(yàn)證與評估驗(yàn)證和評估環(huán)節(jié)用于確認(rèn)數(shù)據(jù)分析的結(jié)果或模型是否適合特定知識的質(zhì)量重點(diǎn)關(guān)注的問題。為此,要對知識質(zhì)量進(jìn)行深入研究。知識的確定性與準(zhǔn)確性DIKW知道低多少,知識還要具備“準(zhǔn)確性”的屬性。知識的適用范圍的作用越大,失效時帶來的損失往往就越大。知識的適用范圍。這就是概率統(tǒng)計理論中的獨(dú)立同分布假設(shè)。知識的質(zhì)量與可靠性可以歸結(jié)為知識的質(zhì)量指標(biāo),但綜合的質(zhì)量指標(biāo)最終決定于應(yīng)用場景傳統(tǒng)數(shù)據(jù)分析方法及其問題而必須對數(shù)據(jù)分析的質(zhì)量進(jìn)行全面評估。基于精度的驗(yàn)證方法精度驗(yàn)證方法的局限性有:“有偏估計”。這意味著精度最高的模型,在物理意義上是(針對某類或某種特定范圍的數(shù)據(jù)時泛化性卻可能降低。特征和變量只能在有限的數(shù)據(jù)來源中選取,往往不理想。顧此失彼的問題也可能導(dǎo)致精度和適用范圍的矛盾。解決驗(yàn)證問題的傳統(tǒng)方法的經(jīng)典統(tǒng)計分析方法;一種是不依靠先驗(yàn)知識的純數(shù)據(jù)建模方法。依靠先驗(yàn)知識的經(jīng)典統(tǒng)計方法,雖然可以用概率的思想和方法來無法確認(rèn)的。所以,統(tǒng)計分析方法的應(yīng)用范圍受到了很大的限制。基于領(lǐng)域知識的模型驗(yàn)證與評估圍內(nèi)有效,而不僅僅看平均精度。具體地說,需要分場景檢驗(yàn)?zāi)P汀_m用范圍則無異于“管中窺豹”,難以判斷有效的范圍。這是因?yàn)?,對適用范圍的評估涉及到很多自變量,它們的變化范圍就構(gòu)成了模型“自然”的范圍。0.001%~0.78%Mn0.1%~3%。矩形范圍內(nèi)。變量更多時,則是高維度的“超立方體”。點(diǎn)上可能形成突變或者非單調(diào)的影響。對于這樣的一些內(nèi)部區(qū)域,必須要單獨(dú)評估。就是在不同的場景下驗(yàn)證模型。誤差與時間關(guān)聯(lián)度太高,就說明模型遺漏了重要的因素。便于分析往往不得不忽視一些“次要”的因素。但是,這些“次要”的因素在某些情況下可能變得非常重要。模型完成之后,應(yīng)該盡可能對地對“次要”變量的影響做一個檢驗(yàn)。針對上述這些不同的問題和場景,原則上都要進(jìn)行評估和驗(yàn)證,但現(xiàn)實(shí)中往往是走不通的。比如,對于包括N個變量的非線性模型會NN3010對精度的評估(平均精度上。(平均身是準(zhǔn)確的,精度也會被誤差掩蓋掉。場景的綜合評估模型應(yīng)區(qū)分場景進(jìn)行檢驗(yàn)。所謂“場景”就是在一定的范圍內(nèi),哪些子模型失效,以及是否需要考慮哪些要素(增加子模型)。模型的迭代評估CRISP-DM正模型的思路,返回到上一步的數(shù)據(jù)建模??偨Y(jié)與展望程需要重新進(jìn)行一次。這樣一來,就要耗費(fèi)大量的時間和精力。模型的部署CRISP-DM會以管理控制軟件的方式應(yīng)用在企業(yè)的業(yè)務(wù)、管理或者監(jiān)控流程中。模型部署前應(yīng)考慮的問題應(yīng)用知識。模型部署對工作方式的改變數(shù)據(jù)分析是用來發(fā)現(xiàn)新知識的。但是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論