《智能制造系統(tǒng)感知分析與決策 》 課件 第3章 制造系統(tǒng)大數(shù)據(jù)分析技術(shù)_第1頁
《智能制造系統(tǒng)感知分析與決策 》 課件 第3章 制造系統(tǒng)大數(shù)據(jù)分析技術(shù)_第2頁
《智能制造系統(tǒng)感知分析與決策 》 課件 第3章 制造系統(tǒng)大數(shù)據(jù)分析技術(shù)_第3頁
《智能制造系統(tǒng)感知分析與決策 》 課件 第3章 制造系統(tǒng)大數(shù)據(jù)分析技術(shù)_第4頁
《智能制造系統(tǒng)感知分析與決策 》 課件 第3章 制造系統(tǒng)大數(shù)據(jù)分析技術(shù)_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

制造系統(tǒng)大數(shù)據(jù)分析技術(shù)基礎(chǔ)第3章CONTENTS工業(yè)大數(shù)據(jù)數(shù)據(jù)驅(qū)動(dòng)建模技術(shù)路線數(shù)據(jù)預(yù)處理技術(shù)回歸分析與關(guān)聯(lián)分析分類建模與模型集成目錄時(shí)間序列建模與預(yù)測(cè)深度學(xué)習(xí)01PARTONE工業(yè)大數(shù)據(jù)工業(yè)大數(shù)據(jù)工業(yè)大數(shù)據(jù)概述工業(yè)大數(shù)據(jù)概述工業(yè)大數(shù)據(jù)涉及智能制造全過程的數(shù)據(jù)及相關(guān)技術(shù),涵蓋結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。它涉及生產(chǎn)控制、質(zhì)量監(jiān)測(cè)、設(shè)備維護(hù)、供應(yīng)鏈管理等。工業(yè)大數(shù)據(jù)的作用優(yōu)化生產(chǎn)、設(shè)備維護(hù)、提高產(chǎn)品質(zhì)量、優(yōu)化供應(yīng)鏈、節(jié)能減排。深入分析生產(chǎn)數(shù)據(jù),識(shí)別并解決瓶頸,提高生產(chǎn)效率和質(zhì)量。預(yù)測(cè)性維護(hù)減少故障率和停機(jī)時(shí)間。優(yōu)化庫存和物流,降低成本并提高客戶滿意度。節(jié)能減排實(shí)現(xiàn)綠色制造。工業(yè)大數(shù)據(jù)的影響隨著信息技術(shù)和工業(yè)互聯(lián)網(wǎng)的發(fā)展,工業(yè)大數(shù)據(jù)成為制造業(yè)轉(zhuǎn)型升級(jí)的關(guān)鍵。它幫助企業(yè)實(shí)現(xiàn)智能化、自動(dòng)化和精細(xì)化管理,提升制造系統(tǒng)的柔性和響應(yīng)能力。同時(shí),為企業(yè)的創(chuàng)新發(fā)展提供支持。因此,掌握工業(yè)大數(shù)據(jù)對(duì)制造業(yè)企業(yè)至關(guān)重要。工業(yè)大數(shù)據(jù)工業(yè)大數(shù)據(jù)與智能制造的關(guān)系制造業(yè)發(fā)展催生工業(yè)大數(shù)據(jù)工業(yè)大數(shù)據(jù)涵蓋產(chǎn)品全生命周期數(shù)據(jù),制造業(yè)大數(shù)據(jù)是其重要來源。制造業(yè)數(shù)字化、智能化產(chǎn)生巨量數(shù)據(jù),如傳感器數(shù)據(jù)、設(shè)備運(yùn)行數(shù)據(jù)等。數(shù)據(jù)的采集、存儲(chǔ)和管理形成工業(yè)大數(shù)據(jù)基礎(chǔ),推動(dòng)制造業(yè)對(duì)數(shù)據(jù)的利用,促進(jìn)智能制造發(fā)展。工業(yè)大數(shù)據(jù)促進(jìn)制造模式轉(zhuǎn)型升級(jí)工業(yè)大數(shù)據(jù)支持智能制造,整合數(shù)據(jù)至云端優(yōu)化生產(chǎn),實(shí)現(xiàn)實(shí)時(shí)監(jiān)控、預(yù)測(cè)性維護(hù)等功能。優(yōu)化供應(yīng)鏈管理提升效率、質(zhì)量和資源利用率,促進(jìn)制造業(yè)轉(zhuǎn)型升級(jí)。滿足個(gè)性化需求,從大規(guī)模生產(chǎn)向柔性、定制化轉(zhuǎn)變,適應(yīng)市場(chǎng)需求。工業(yè)大數(shù)據(jù)與智能制造相輔相成,推動(dòng)工業(yè)領(lǐng)域發(fā)展和變革。隨著技術(shù)進(jìn)步和應(yīng)用拓展,它們關(guān)系將更加緊密。工業(yè)大數(shù)據(jù)智能制造系統(tǒng)中的大數(shù)據(jù)特征智能制造系統(tǒng)中的大數(shù)據(jù)不僅具有大數(shù)據(jù)通常所具有的4V特性,還具有制造領(lǐng)域數(shù)據(jù)所具有的特征。數(shù)據(jù)體量大(Volume)指大數(shù)據(jù)的規(guī)模之大。智能制造系統(tǒng)產(chǎn)生的數(shù)據(jù)量通常非常龐大,包括生產(chǎn)過程中的傳感器數(shù)據(jù)、設(shè)備運(yùn)行數(shù)據(jù)、產(chǎn)品質(zhì)量數(shù)據(jù)等。數(shù)據(jù)多樣性(Variety)指數(shù)據(jù)的種類和多樣性。智能制造系統(tǒng)中的數(shù)據(jù)可能來自不同的來源,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。流轉(zhuǎn)速度快(Velocity)指數(shù)據(jù)產(chǎn)生、傳輸和處理的速度。在智能制造系統(tǒng)中,數(shù)據(jù)的產(chǎn)生和更新通常是實(shí)時(shí)的,例如傳感器產(chǎn)生的實(shí)時(shí)數(shù)據(jù)、設(shè)備狀態(tài)的實(shí)時(shí)監(jiān)測(cè)等。價(jià)值密度低(Value)在智能制造系統(tǒng)中,雖然數(shù)據(jù)量龐大、流轉(zhuǎn)速度快、種類多樣,但并不是所有數(shù)據(jù)都具有同等的價(jià)值。許多數(shù)據(jù)可能是噪聲數(shù)據(jù)或者對(duì)決策和優(yōu)化沒有直接的幫助。1工業(yè)大數(shù)據(jù)時(shí)序特性生產(chǎn)過程中的傳感器數(shù)據(jù)、設(shè)備運(yùn)行數(shù)據(jù)等都是隨著時(shí)間的推移而產(chǎn)生的。這種時(shí)序特性使得在處理制造業(yè)大數(shù)據(jù)時(shí)需要考慮數(shù)據(jù)的時(shí)間序列特征。智能制造系統(tǒng)中的大數(shù)據(jù)特征高維特性制造業(yè)大數(shù)據(jù)通常是高維度的,即數(shù)據(jù)具有大量的特征或?qū)傩?。這種高維特性增加了數(shù)據(jù)分析和挖掘的復(fù)雜度,需要使用適當(dāng)?shù)臄?shù)據(jù)處理和分析技術(shù)來處理這些高維數(shù)據(jù)。多尺度特性制造業(yè)大數(shù)據(jù)可能同時(shí)包含不同時(shí)間尺度、空間尺度或粒度的信息,需要同時(shí)考慮不同尺度的數(shù)據(jù)特征進(jìn)行分析和建模。高噪特性制造業(yè)大數(shù)據(jù)通常具有較高的噪聲水平,即數(shù)據(jù)中可能包含大量的隨機(jī)或異常值。在處理制造業(yè)大數(shù)據(jù)時(shí)需要采用適當(dāng)?shù)脑肼曁幚砑夹g(shù),以提高數(shù)據(jù)質(zhì)量和分析的準(zhǔn)確性。強(qiáng)關(guān)聯(lián)性制造業(yè)大數(shù)據(jù)中的不同數(shù)據(jù)項(xiàng)往往之間存在著較強(qiáng)的相關(guān)性或關(guān)聯(lián)性,通過挖掘數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,可以發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的規(guī)律和信息,為生產(chǎn)優(yōu)化和決策提供更有力的支持。工業(yè)大數(shù)據(jù)按照來源分類(1)內(nèi)部大數(shù)據(jù):來自于企業(yè)內(nèi)部各個(gè)部門和系統(tǒng)的數(shù)據(jù),包括產(chǎn)品大數(shù)據(jù)(設(shè)計(jì)、仿真、工藝、加工、維護(hù)數(shù)據(jù)等)、運(yùn)營(yíng)大數(shù)據(jù)(設(shè)備、營(yíng)銷、財(cái)務(wù)、生產(chǎn)、質(zhì)量、庫存、標(biāo)準(zhǔn)等數(shù)據(jù))、價(jià)值鏈大數(shù)據(jù)(客戶、供應(yīng)商、合作伙伴等數(shù)據(jù))等。(2)外部大數(shù)據(jù):來自于外部環(huán)境和市場(chǎng)的數(shù)據(jù),包括供應(yīng)鏈數(shù)據(jù)、市場(chǎng)銷售數(shù)據(jù)、競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)據(jù)等。智能制造系統(tǒng)中的大數(shù)據(jù)分類工業(yè)大數(shù)據(jù)按照存儲(chǔ)形式分類(1)結(jié)構(gòu)化數(shù)據(jù):具有明確定義和固定格式的數(shù)據(jù),通常存儲(chǔ)在關(guān)系數(shù)據(jù)庫中,以二維邏輯表格的形式進(jìn)行存儲(chǔ)。易于處理和分析,如生產(chǎn)訂單數(shù)據(jù)、零部件清單數(shù)據(jù)等。A(2)半結(jié)構(gòu)化數(shù)據(jù):部分具有結(jié)構(gòu)化特征但不完全符合固定格式的數(shù)據(jù),通常以文本、日志文件等形式存在,如設(shè)備維護(hù)日志、生產(chǎn)報(bào)告等。B(3)非結(jié)構(gòu)化數(shù)據(jù):沒有明確定義和固定格式的數(shù)據(jù),通常以文本、圖像、視頻等形式存在,存儲(chǔ)于非結(jié)構(gòu)化Web數(shù)據(jù)庫中。難以直接處理和分析,如生產(chǎn)現(xiàn)場(chǎng)圖片、產(chǎn)品設(shè)計(jì)文檔等。C智能制造系統(tǒng)中的大數(shù)據(jù)分類工業(yè)大數(shù)據(jù)按照維度分類1(1)時(shí)間維度:數(shù)據(jù)按照時(shí)間軸進(jìn)行分類,包括實(shí)時(shí)數(shù)據(jù)、歷史數(shù)據(jù)等。2(2)空間維度:數(shù)據(jù)按照空間位置或范圍進(jìn)行分類,包括不同生產(chǎn)車間、不同設(shè)備等。4(4)層次維度:數(shù)據(jù)按照不同層次或粒度進(jìn)行分類,包括產(chǎn)品層次、生產(chǎn)過程層次等。3(3)業(yè)務(wù)維度:數(shù)據(jù)按照業(yè)務(wù)過程或功能進(jìn)行分類,包括生產(chǎn)過程數(shù)據(jù)、質(zhì)量管理數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)等。02PARTTWO數(shù)據(jù)驅(qū)動(dòng)建模技術(shù)路線數(shù)據(jù)驅(qū)動(dòng)建模技術(shù)路線數(shù)據(jù)驅(qū)動(dòng)建模概述數(shù)據(jù)驅(qū)動(dòng)模型基于數(shù)據(jù)分析和機(jī)器學(xué)習(xí),針對(duì)復(fù)雜、難以觀測(cè)和隨機(jī)性強(qiáng)的應(yīng)用場(chǎng)景。它利用大數(shù)據(jù)訓(xùn)練和優(yōu)化,挖掘隱藏規(guī)律和模式,實(shí)現(xiàn)系統(tǒng)建模和預(yù)測(cè)。在制造業(yè)中,數(shù)據(jù)驅(qū)動(dòng)建模有廣泛應(yīng)用。企業(yè)可通過收集和分析生產(chǎn)線數(shù)據(jù),建立模型預(yù)測(cè)設(shè)備故障、優(yōu)化生產(chǎn)調(diào)度、改進(jìn)質(zhì)量控制,提高效率和降低成本。同時(shí),數(shù)據(jù)驅(qū)動(dòng)建模也用于供應(yīng)鏈管理,如優(yōu)化庫存管理、降低物流成本,確保供應(yīng)鏈穩(wěn)定可靠。數(shù)據(jù)驅(qū)動(dòng)建模技術(shù)路線數(shù)據(jù)驅(qū)動(dòng)建模的一般流程數(shù)據(jù)驅(qū)動(dòng)建模技術(shù)以數(shù)據(jù)處理分析技術(shù)和數(shù)據(jù)建模技術(shù)為基礎(chǔ),因此數(shù)據(jù)驅(qū)動(dòng)建模的一般流程也圍繞著數(shù)據(jù)處理與模型構(gòu)建展開數(shù)據(jù)驅(qū)動(dòng)建模的一般流程2數(shù)據(jù)驅(qū)動(dòng)建模技術(shù)路線問題定義和目標(biāo)確定在進(jìn)行建模之前,首先應(yīng)充分、正確地理解背景和需求,確定需要解決的問題或目標(biāo),并明確建模的目的和預(yù)期結(jié)果。數(shù)據(jù)驅(qū)動(dòng)建模的一般流程數(shù)據(jù)收集與預(yù)處理收集與問題和目標(biāo)相關(guān)的數(shù)據(jù),并對(duì)收集到的數(shù)據(jù)進(jìn)行預(yù)處理,包括處理缺失值、異常值、重復(fù)值,進(jìn)行數(shù)據(jù)轉(zhuǎn)換、歸一化、標(biāo)準(zhǔn)化等操作,以確保數(shù)據(jù)質(zhì)量和可用性。模型選擇與訓(xùn)練根據(jù)建模的目的和數(shù)據(jù)的結(jié)構(gòu)等特點(diǎn),選擇合適的建模方法,如統(tǒng)計(jì)模型、機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型等,并利用訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。數(shù)據(jù)驅(qū)動(dòng)建模技術(shù)路線數(shù)據(jù)驅(qū)動(dòng)建模的一般流程模型評(píng)估使用評(píng)估數(shù)據(jù)或交叉驗(yàn)證等方法對(duì)訓(xùn)練好的模型進(jìn)行評(píng)估,評(píng)估模型的性能和泛化能力,檢驗(yàn)?zāi)P褪欠襁_(dá)到預(yù)期的效果。模型調(diào)優(yōu)與優(yōu)化根據(jù)評(píng)估結(jié)果,對(duì)模型進(jìn)行調(diào)優(yōu)和優(yōu)化,可能包括調(diào)整模型參數(shù)、改進(jìn)特征選取、調(diào)整模型結(jié)構(gòu)等,以進(jìn)一步提高模型的性能,與建模目標(biāo)相匹配。模型發(fā)布與應(yīng)用將訓(xùn)練好的模型發(fā)布應(yīng)用到實(shí)際環(huán)境中,用于實(shí)際問題的解決和決策支持,并監(jiān)控模型的性能和表現(xiàn)。持續(xù)監(jiān)測(cè)與更新在系統(tǒng)運(yùn)行過程中,需要對(duì)發(fā)布的模型進(jìn)行持續(xù)性監(jiān)測(cè)和更新,根據(jù)實(shí)際情況對(duì)模型進(jìn)行調(diào)整和改進(jìn),以確保模型持續(xù)有效地解決實(shí)際問題。數(shù)據(jù)驅(qū)動(dòng)建模技術(shù)路線數(shù)據(jù)驅(qū)動(dòng)建模的分類監(jiān)督方式監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)典型任務(wù)分類回歸聚類降維關(guān)聯(lián)規(guī)則挖掘分類最優(yōu)策略典型算法邏輯回歸、支持向量機(jī)線性回歸、嶺回歸K均值、DBSCAN主成分分析、線性判別分析Apriori算法、PCY算法半監(jiān)督支持向量機(jī)Q學(xué)習(xí)、DQN、PPO數(shù)據(jù)標(biāo)簽有有無無無有(少量)無數(shù)據(jù)x有有有有有有無數(shù)據(jù)f(x)有有無無無有(少量)無典型應(yīng)用場(chǎng)景質(zhì)量水平分類、故障識(shí)別時(shí)間序列預(yù)測(cè)、需求預(yù)測(cè)異常檢測(cè)、故障分析工業(yè)大數(shù)據(jù)簡(jiǎn)化與規(guī)約采購與庫存控制、客戶需求分析分類、聚類\生成等任務(wù)場(chǎng)景生產(chǎn)調(diào)度、路徑規(guī)劃、控制策略按監(jiān)督方式分類的數(shù)據(jù)驅(qū)動(dòng)建模方法03PARTTHREE數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)預(yù)處理技術(shù)由于制造業(yè)中數(shù)據(jù)體量大、來源多樣,原始數(shù)據(jù)集通常存在數(shù)據(jù)噪聲、數(shù)據(jù)冗余、數(shù)據(jù)缺失、數(shù)據(jù)不一致等問題,而在數(shù)據(jù)驅(qū)動(dòng)建模、數(shù)據(jù)分析、數(shù)據(jù)挖掘等下游應(yīng)用中,數(shù)據(jù)的質(zhì)量是決定分析與模型效果的主要因素之一。數(shù)據(jù)預(yù)處理的主要任務(wù)可以概括為四個(gè)內(nèi)容,即數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)規(guī)約。數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)清洗數(shù)據(jù)清洗是識(shí)別并處理數(shù)據(jù)集中不準(zhǔn)確、不完整或不合理數(shù)據(jù)的過程,數(shù)據(jù)清洗通常包括缺失值、異常值、重復(fù)項(xiàng)、錯(cuò)誤值的處理。由于重復(fù)項(xiàng)和錯(cuò)誤值的處理方法比較簡(jiǎn)便,故本節(jié)將主要介紹缺失值的處理。數(shù)據(jù)預(yù)處理技術(shù)缺失數(shù)據(jù)的類型No.31)完全隨機(jī)缺失(MissingCompletelyAtRandom,MCAR):數(shù)據(jù)的缺失是隨機(jī)的,數(shù)據(jù)的缺失不依賴于任何不完全變量或完全變量。2)隨機(jī)缺失(MissingAtRandom,MAR):數(shù)據(jù)的缺失不是完全隨機(jī)的,缺失數(shù)據(jù)發(fā)生的概率與其他完全變量是有關(guān)的,而與未觀察到的數(shù)據(jù)的特征是無關(guān)的,即數(shù)據(jù)是否缺失取決于另外一個(gè)顯性屬性。3)完全非隨機(jī)缺失(MissingNotAtRandom,MNAR):不完全變量中數(shù)據(jù)的缺失依賴于不完全變量本身,這種缺失是不可忽略的,數(shù)據(jù)缺失與自身的值有關(guān)。No.2No.1數(shù)據(jù)預(yù)處理技術(shù)缺失數(shù)據(jù)處理方法處理缺失數(shù)據(jù)的方法通常包括刪除和插補(bǔ)兩種。刪除會(huì)造成更多的數(shù)據(jù)損失,但如果所搜集到的數(shù)據(jù)量很大,而缺失數(shù)據(jù)的占比較小時(shí),可以直接刪除這些數(shù)據(jù)。插補(bǔ)將缺失的數(shù)據(jù)補(bǔ)全,以恢復(fù)缺失的信息,但不準(zhǔn)確的插補(bǔ)會(huì)在數(shù)據(jù)集中引入錯(cuò)誤信息,因此插補(bǔ)的準(zhǔn)確性非常關(guān)鍵。基于統(tǒng)計(jì)的插補(bǔ):使用缺失屬性取值的均值、眾數(shù)、中位數(shù)等填充缺失值?;诓逯档牟逖a(bǔ):利用已知數(shù)據(jù)建立合適的插值函數(shù)f(x),缺失值由對(duì)應(yīng)點(diǎn)xi對(duì)應(yīng)函數(shù)值f(xi)近似替代。基于回歸的插補(bǔ):建立缺失數(shù)據(jù)的屬性與其它可觀測(cè)數(shù)據(jù)的屬性之間的回歸模型來預(yù)測(cè)缺失的屬性值。多重插補(bǔ):使用模型估計(jì)和重復(fù)模擬來生成一組完整的數(shù)據(jù)集。每個(gè)數(shù)據(jù)集中的缺失數(shù)據(jù)會(huì)通過估計(jì)模型的方法進(jìn)行填補(bǔ)?;谏疃葘W(xué)習(xí)的插補(bǔ):隨著深度學(xué)習(xí)的發(fā)展,許多深度學(xué)習(xí)模型也可應(yīng)用于缺失數(shù)據(jù)插補(bǔ)。數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)集成制造業(yè)數(shù)據(jù)分析與挖掘所需要的數(shù)據(jù)往往來源于不同數(shù)據(jù)源,數(shù)據(jù)集成就是將來自不同數(shù)據(jù)源的數(shù)據(jù)合并到一個(gè)一致的、統(tǒng)一的數(shù)據(jù)存儲(chǔ)中。這個(gè)過程確保了數(shù)據(jù)的一致性和可用性,節(jié)省了數(shù)據(jù)管理時(shí)間和資源,為后續(xù)的分析與使用提供了可靠的基礎(chǔ)。數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)集成的方法(1)手工集成:手工集成是最基礎(chǔ)的方法,通常涉及人工編寫代碼或使用電子表格軟件將不同數(shù)據(jù)源的數(shù)據(jù)手動(dòng)整合在一起。這種方法適用于數(shù)據(jù)量較小、結(jié)構(gòu)簡(jiǎn)單的情況,但對(duì)于大規(guī)模、復(fù)雜的數(shù)據(jù)集成則效率低下且易出錯(cuò)。(2)數(shù)據(jù)庫集成:數(shù)據(jù)庫集成利用數(shù)據(jù)庫管理系統(tǒng)的功能,通過建立鏈接、導(dǎo)入數(shù)據(jù)、執(zhí)行查詢等方式實(shí)現(xiàn)數(shù)據(jù)集成。這種方法適用于大規(guī)模數(shù)據(jù)的集成,可以利用數(shù)據(jù)庫系統(tǒng)的優(yōu)化功能提高效率。數(shù)據(jù)預(yù)處理技術(shù)實(shí)體識(shí)別問題在數(shù)據(jù)集成過程中,實(shí)體識(shí)別是一項(xiàng)重要的任務(wù)。通過實(shí)體識(shí)別,可以確保不同數(shù)據(jù)源中的相同實(shí)體被正確地整合和對(duì)應(yīng),從而提高數(shù)據(jù)的一致性和準(zhǔn)確性。實(shí)體識(shí)別中,常見的矛盾形式如下:同名異義例如,數(shù)據(jù)源A、B中的屬性ID分別描述的是產(chǎn)品編號(hào)和訂單編號(hào),即屬性ID對(duì)應(yīng)的是不同的實(shí)體。異名同義例如,數(shù)據(jù)源A中的屬性sales_dt和數(shù)據(jù)源B中的sale_date都是描述銷售日期的,即指向同一個(gè)實(shí)體。單位不統(tǒng)一檢測(cè)和解決這些矛盾就是實(shí)體識(shí)別的任務(wù)。通常,數(shù)據(jù)庫和數(shù)據(jù)倉庫通常使用元數(shù)據(jù)——關(guān)于數(shù)據(jù)的數(shù)據(jù),來支持?jǐn)?shù)據(jù)集成。數(shù)據(jù)集成中的關(guān)鍵問題數(shù)據(jù)預(yù)處理技術(shù)冗余識(shí)別問題冗余識(shí)別是另一個(gè)重要的數(shù)據(jù)集成任務(wù),它涉及識(shí)別和刪除重復(fù)的、冗余的數(shù)據(jù)。在數(shù)據(jù)集成過程中,常常會(huì)出現(xiàn)來自不同數(shù)據(jù)源的重復(fù)信息,如果不加以處理,這些冗余數(shù)據(jù)會(huì)導(dǎo)致數(shù)據(jù)存儲(chǔ)浪費(fèi)和分析結(jié)果不準(zhǔn)確。通過冗余識(shí)別可以提高數(shù)據(jù)存儲(chǔ)的效率,并確保數(shù)據(jù)集成的質(zhì)量。數(shù)據(jù)集成中的關(guān)鍵問題數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)轉(zhuǎn)換在數(shù)據(jù)的預(yù)處理中,數(shù)據(jù)轉(zhuǎn)換又叫做數(shù)據(jù)變換,是將來源于多數(shù)據(jù)源的不同范圍、不同量綱的數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范化處理,變換成適應(yīng)于數(shù)據(jù)挖掘需求的形式。主要操作有規(guī)范化和離散化。規(guī)范化數(shù)據(jù)規(guī)范化又被稱為數(shù)據(jù)標(biāo)準(zhǔn)化或數(shù)據(jù)歸一化,是將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個(gè)特定的范圍。數(shù)據(jù)規(guī)范化可以減弱模型訓(xùn)練過程中的振蕩現(xiàn)象。常用的數(shù)據(jù)規(guī)范化方法有最大-最小規(guī)范化、Z-Score標(biāo)準(zhǔn)化和Log變換。離散化數(shù)據(jù)離散化是指將連續(xù)的數(shù)據(jù)進(jìn)行分段,使處理之后的數(shù)據(jù)值域分布將從連續(xù)屬性變?yōu)殡x散屬性。常見實(shí)現(xiàn)針對(duì)連續(xù)數(shù)據(jù)離散化的方法有:分位數(shù)法、等頻法、等寬法、聚類法、卡方過濾等。數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約旨在減少數(shù)據(jù)集的大小,同時(shí)保留關(guān)鍵信息。通過數(shù)據(jù)規(guī)約,可以大大降低數(shù)據(jù)分析的復(fù)雜度,提高算法的效率和性能。在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘任務(wù)中,數(shù)據(jù)規(guī)約主要包括特征選擇和數(shù)據(jù)降維兩種手段。特征選擇數(shù)據(jù)模型特征維度高,計(jì)算復(fù)雜。非所有特征對(duì)預(yù)測(cè)有效,需去除不必要特征以降低復(fù)雜度。特征選擇旨在選取最相關(guān)、具代表性的特征子集,避免全特征訓(xùn)練。合適選擇能縮小特征集,減少運(yùn)算時(shí)間,提高模型精度、有效性,降低過擬合風(fēng)險(xiǎn),增強(qiáng)泛化能力。特征選擇方法分三類:過濾法、包裝法、嵌入法。數(shù)據(jù)降維數(shù)據(jù)降維是減少數(shù)據(jù)集維度并保留信息的技術(shù)。與特征選擇不同,它通過特征間的關(guān)聯(lián)和整合,用少量新特征描述多特征,降低維度。其作用有:簡(jiǎn)化數(shù)據(jù)分析,通過映射到低維空間便于可視化和理解;減少計(jì)算開銷,降低數(shù)據(jù)集維度以節(jié)省資源;去除冗余信息,使數(shù)據(jù)更精簡(jiǎn)。常見方法包括主成分分析、線性判別分析、t-分布鄰域嵌入等。04PARTFOUR回歸分析與關(guān)聯(lián)分析回歸分析與關(guān)聯(lián)分析回歸分析在制造業(yè)大數(shù)據(jù)分析中,回歸分析是一種預(yù)測(cè)性的建模技術(shù),是對(duì)輸入變量(自變量)與輸出變量(因變量)之間的變化關(guān)系的建模。通常被用于預(yù)測(cè)分析、時(shí)間序列模型以及變量間因果關(guān)系挖掘等。根據(jù)模型的形式,可將回歸模型分類為線性回歸與非線性回歸兩種。回歸分析與關(guān)聯(lián)分析一元線性回歸一元線性回歸分析涉及一個(gè)因變量y和一個(gè)自變量x,是最簡(jiǎn)單的回歸形式。若有訓(xùn)練集包含(x1,y1),(x2,y2),…,(xm,ym)共m個(gè)數(shù)據(jù)點(diǎn),則使用x的線性函數(shù)對(duì)y進(jìn)行建模:式中,系數(shù)w0和w1可以通過計(jì)算訓(xùn)練模型f(x)與真實(shí)值y之間的誤差來實(shí)現(xiàn),即對(duì)應(yīng)于訓(xùn)練出來的模型f(x)和真實(shí)值y之間的歐幾里得距離或稱歐氏距離(Euclideandistance)最小時(shí),稱之為函數(shù)收斂。以上模型求解方法稱為最小二乘法。在線性回歸中,最小二乘法就是試圖找到一條直線,使所有樣本到直線的歐氏距離之和最小。最小二乘法中,回歸系數(shù)可由下式進(jìn)行估計(jì):回歸分析與關(guān)聯(lián)分析多元線性回歸與非線性回歸在一些場(chǎng)景中,因變量y可能與多個(gè)自變量有關(guān),這種問題稱為多元線性回歸。作為一元線性回歸的擴(kuò)展,多元線性回歸問題同樣可以使用最小二乘法的思路進(jìn)行求解。與線性回歸相對(duì)的是非線性回歸,能夠描述更復(fù)雜的變量間非線性關(guān)系。對(duì)模型進(jìn)行線性基展開,可以使線性模型適用于非線性回歸,基函數(shù)類型可以是多項(xiàng)式(泰勒展開)、分段樣條平滑、三角多項(xiàng)式(傅里葉展開)等,這類非線性模型屬于參數(shù)模型。回歸分析與關(guān)聯(lián)分析回歸模型的評(píng)價(jià)指標(biāo)在回歸任務(wù)中,使用真實(shí)值與預(yù)測(cè)值之間的差距來衡量模型的誤差。通常使用的指標(biāo)有平均絕對(duì)誤差(MeanAbsoluteError,MAE)、均方誤差(MeanSquareError,MSE)、均方根誤差(RootMeanSquareError,RMSE)和平均絕對(duì)百分比誤差(MeanAbsolutePercentageError,MAPE)等,其中用得最為廣泛的是MAE和MSE。設(shè)(xi,yi)是數(shù)據(jù)集中第i個(gè)樣本(i=1,2,…,m),f(x)是經(jīng)過訓(xùn)練的回歸模型,對(duì)自變量xi,模型的預(yù)測(cè)值為f(xi)。4回歸分析與關(guān)聯(lián)分析平均絕對(duì)誤差(MAE)MAE用來衡量預(yù)測(cè)值與真實(shí)值之間的平均絕對(duì)誤差回歸模型的評(píng)價(jià)指標(biāo)設(shè)(xi,yi)是數(shù)據(jù)集中第i個(gè)樣本(i=1,2,…,m),f(x)是經(jīng)過訓(xùn)練的回歸模型,對(duì)自變量xi,模型的預(yù)測(cè)值為f(xi)。均方誤差(MSE)MSE用來衡量預(yù)測(cè)值與真實(shí)值之間的誤差平方回歸分析與關(guān)聯(lián)分析關(guān)聯(lián)分析關(guān)聯(lián)分析,也叫關(guān)聯(lián)規(guī)則挖掘,屬于無監(jiān)督算法的一種,用于從數(shù)據(jù)中挖掘潛在的關(guān)聯(lián)關(guān)系,從而描述某些事物或?qū)傩酝瑫r(shí)出現(xiàn)的規(guī)律和模式,是一種描述性的而非預(yù)測(cè)性的方法。關(guān)聯(lián)分析的最終目標(biāo)是在數(shù)據(jù)集中找到強(qiáng)關(guān)聯(lián)規(guī)則,即擁有較高支持度和置信度的規(guī)則。在工業(yè)場(chǎng)景中,關(guān)聯(lián)規(guī)則常用于市場(chǎng)分銷、挖掘故障現(xiàn)象相關(guān)的故障原因并對(duì)可能關(guān)聯(lián)故障的部件進(jìn)行檢修排查等。回歸分析與關(guān)聯(lián)分析項(xiàng)集(Itemset)設(shè)ij(j=1,2,…,m)為一個(gè)項(xiàng)目,項(xiàng)目的集合I={i1,i2,…,im}稱為項(xiàng)集。項(xiàng)集中項(xiàng)目的個(gè)數(shù)稱為項(xiàng)集的長(zhǎng)度,包含k個(gè)項(xiàng)目的項(xiàng)集稱為k項(xiàng)集,例如I={面包,麥片,牛奶}為一個(gè)3項(xiàng)集。關(guān)聯(lián)規(guī)則(AssociationRules)關(guān)聯(lián)規(guī)則一般表示為X→Y的形式,左側(cè)項(xiàng)集X為先決條件,右側(cè)項(xiàng)集Y為關(guān)聯(lián)結(jié)果,用來表示數(shù)據(jù)內(nèi)的隱含關(guān)聯(lián)關(guān)系。例如,超市里購買面包和麥片的顧客大概率也會(huì)購買牛奶,{面包,麥片}→{牛奶}即為一個(gè)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則可靠性和可用性由支持度、置信度和提升度來度量。關(guān)聯(lián)分析4回歸分析與關(guān)聯(lián)分析支持度(Support)規(guī)則的支持度是指在項(xiàng)集中同時(shí)含有X和Y的概率,即X和Y同時(shí)發(fā)生的概率。支持度用來衡量關(guān)聯(lián)規(guī)則的可用性,如果關(guān)聯(lián)規(guī)則的支持度較低,那么可以認(rèn)為它對(duì)于決策指導(dǎo)是無意義的。最小支持度(Minsup,MinimumSupport)是人為設(shè)定的閾值,用來剔除掉支持度小于此值的無意義規(guī)則。相應(yīng)地,滿足條件Support(T)>Minsup的項(xiàng)集T,被稱為頻繁項(xiàng)集(FrequentItemset)。關(guān)聯(lián)分析置信度(Confident)規(guī)則的置信度表示在關(guān)聯(lián)規(guī)則的先決條件X發(fā)生的條件下,關(guān)聯(lián)結(jié)果Y發(fā)生的概率,即含有X的項(xiàng)集中,同時(shí)含有Y的可能性。置信度用來衡量關(guān)聯(lián)規(guī)則的可靠性。與支持度類似,可以通過設(shè)置最小置信度閾值(MinimumConfidence,Mincon)來對(duì)關(guān)聯(lián)規(guī)則進(jìn)行進(jìn)一步篩選。提升度(Lift)提升度表示的是X的出現(xiàn)對(duì)于Y出現(xiàn)的影響,即在Y自身出現(xiàn)可能性P(Y)的基礎(chǔ)上,X的出現(xiàn)對(duì)于Y的出現(xiàn)P(Y|X)的提升程度。提升度同樣用于衡量關(guān)聯(lián)規(guī)則的可靠性。當(dāng)Lift值為1時(shí)表示X與Y相互獨(dú)立,X的出現(xiàn)對(duì)Y出現(xiàn)的可能性沒有提升作用,而其值越大(>1)則表明X的出現(xiàn)對(duì)Y出現(xiàn)的提升程度越大,即表明關(guān)聯(lián)性越強(qiáng)?;貧w分析與關(guān)聯(lián)分析Apriori算法Apriori算法是一種基于頻繁項(xiàng)集的關(guān)聯(lián)分析算法,通過對(duì)頻繁項(xiàng)集的層級(jí)迭代搜索來挖掘關(guān)聯(lián)關(guān)系。該算法基于兩條先驗(yàn)性質(zhì):性質(zhì)1如果X是頻繁項(xiàng)集,則X的所有子集都是頻繁項(xiàng)集。性質(zhì)2如果X不是頻繁項(xiàng)集,則X的所有超集都不是頻繁項(xiàng)集。關(guān)聯(lián)分析

Apriori算法先驗(yàn)性質(zhì)圖示假設(shè)項(xiàng)集{a,

b}是頻繁項(xiàng)集,即a、b同時(shí)出現(xiàn)在一條記錄的次數(shù)大于等于最小支持度Minsup,則它的子集{a},出現(xiàn)次數(shù)必定大于等于Minsup,即它的子集都是頻繁項(xiàng)集;假設(shè)項(xiàng)集qmmqace不是頻繁項(xiàng)集,即A出現(xiàn)的次數(shù)小于Minsup,則它的任何超集如{c,

d}出現(xiàn)的次數(shù)必定小于Minsup,即其超集必定也不是頻繁項(xiàng)集。4回歸分析與關(guān)聯(lián)分析Apriori算法基于這兩條性質(zhì),Apriori算法使用逐層搜索的迭代方式,k項(xiàng)集用于搜索(k+1)項(xiàng)集。首先,找出所有頻繁1項(xiàng)集的集合C1,然后用C1生成候選2項(xiàng)集的集合C2,最后,通過探查C2來形成頻繁2項(xiàng)集的集合L2。以此類推,使用Lk-1尋找Lk。如此迭代,直至不能找到頻繁k項(xiàng)集為止。在使用頻繁(k-1)項(xiàng)集的集合Lk-1尋找頻繁k項(xiàng)集的集合Lk時(shí)分兩個(gè)過程:連接步和剪枝步?;貧w分析與關(guān)聯(lián)分析連接步Lk-1與其自身進(jìn)行連接,產(chǎn)生候選k項(xiàng)集的集合Ck。需要注意的是,Lk-1中兩個(gè)元素可以執(zhí)行連接操作的前提是它們所包含的項(xiàng)中只有一個(gè)項(xiàng)是不同的,其余(k-2)個(gè)元素都必須相同。例如:項(xiàng)集{I1,I2,I3}與{I1,I3,I4}有兩項(xiàng)都是相同的,只有一個(gè)元素不同,因此連接之后產(chǎn)生的項(xiàng)集是{I1,I2,I3,I4}。反之,項(xiàng)集{I1,I2,I3}與{I1,I4,I5}只有1個(gè)共同的項(xiàng)集,另外兩個(gè)元素都是不同的,不能進(jìn)行連接操作。Apriori算法關(guān)聯(lián)分析剪枝步候選k項(xiàng)集的集合Ck中的元素并不一定都是頻繁項(xiàng)集,但所有的頻繁k項(xiàng)集一定包含在Ck中,所以,Ck是Lk的超集。根據(jù)性質(zhì)2,可以知道:如果一個(gè)(k-1)項(xiàng)集是非頻繁的,那么它的超集也一定是非頻繁的。因此,如果一個(gè)候選k項(xiàng)集Ck的(k-1)項(xiàng)子集不在Lk-1中,那么該候選k項(xiàng)集也不可能是頻繁的,可以直接從Ck中刪除?;貧w分析與關(guān)聯(lián)分析設(shè)定最小支持度Minsup;計(jì)算1項(xiàng)集的支持度,篩選出頻繁1項(xiàng)集;排列組合出2項(xiàng)集,計(jì)算出2項(xiàng)集的支持度,篩選出頻繁2項(xiàng)集;通過連接和剪枝計(jì)算出3項(xiàng)集,計(jì)算出3項(xiàng)集的支持度,篩選出頻繁3項(xiàng)集;依次類推處理k項(xiàng)集,直到?jīng)]有頻繁集出現(xiàn)。Apriori算法關(guān)聯(lián)分析Apriori算法的一般步驟:05PARTFIVE分類建模與模型集成分類建模與模型集成分類建模概述分類建模是理解分析制造數(shù)據(jù)的機(jī)器學(xué)習(xí)技術(shù),屬于有監(jiān)督學(xué)習(xí)。它通過將生產(chǎn)數(shù)據(jù)樣本分類為不同標(biāo)簽,用于產(chǎn)品質(zhì)量檢測(cè)、設(shè)備維護(hù)等。分類模型通過訓(xùn)練數(shù)據(jù)集預(yù)測(cè)新數(shù)據(jù)類別,經(jīng)評(píng)估確定準(zhǔn)確性。常見模型有邏輯回歸、支持向量機(jī)、決策樹等。分類問題與分類模型分類性能評(píng)價(jià)指標(biāo)評(píng)價(jià)分類模型性能的指標(biāo)對(duì)于評(píng)估模型的準(zhǔn)確性和穩(wěn)定性至關(guān)重要。常用的評(píng)價(jià)指標(biāo)包括正確率、錯(cuò)誤率、精確率、召回率、F值等。以二分類問題為例,將樣本依據(jù)真實(shí)的類別和分類器的預(yù)測(cè)列別進(jìn)行組合,使用True、False表示預(yù)測(cè)結(jié)果的正確與錯(cuò)誤,Positive、Negative表示樣本實(shí)際的正例與反例,可分為四種情況:TP:將正例預(yù)測(cè)為正例的樣本數(shù);FN:將正例預(yù)測(cè)為反例的樣本數(shù);FP:將反例預(yù)測(cè)為正例的樣本數(shù);TN:將反例預(yù)測(cè)為反例的樣本數(shù);實(shí)際類別預(yù)測(cè)結(jié)果正例反例正例TPFN反例FPTN分類建模與模型集成分類建模概述正確率也叫準(zhǔn)確率,表示分類正確的樣本數(shù)占總樣本數(shù)的比例錯(cuò)誤率指分類錯(cuò)誤的樣本數(shù)占總樣本數(shù)的比例精確率,也叫查準(zhǔn)率、預(yù)測(cè)命中率等,表示所有預(yù)測(cè)為正例的樣本中實(shí)際是正例的樣本數(shù)所占的比例召回率,也叫查全率,表示所有實(shí)際正例的樣本中預(yù)測(cè)為正例的樣本數(shù)所占的比例F值綜合考慮了精確率和召回率,是基于精確率和召回率的調(diào)和平均,是一個(gè)綜合性能評(píng)價(jià)指標(biāo),能適應(yīng)不同場(chǎng)景下對(duì)精確率和召回率的不同重視程度除了以上指標(biāo)之外,還有ROC曲線和AUC值等可以用于評(píng)價(jià)二分類問題的性能分類建模與模型集成邏輯回歸邏輯回歸實(shí)際上是一種分類算法,主要用于解決二分類問題。邏輯回歸通過將輸入特征進(jìn)行線性組合并通過一個(gè)邏輯函數(shù)轉(zhuǎn)換為概率值,再根據(jù)概率值進(jìn)行分類預(yù)測(cè)。因此,對(duì)于每一組輸入,需要將線性回歸結(jié)果再經(jīng)過一個(gè)邏輯函數(shù)(Sigmoid函數(shù)),得到預(yù)測(cè)值y。常用分類算法支持向量機(jī)支持向量機(jī)是一種二分類模型,其核心思想是在特征空間中找到一個(gè)最優(yōu)的超平面,使得兩個(gè)類別之間的間隔最大化,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類。分類學(xué)習(xí)最基本的想法就是基于訓(xùn)練集D在特征空間中找到一個(gè)最佳劃分超平面將正負(fù)樣本分開,而SVM算法解決的就是如何找到最佳超平面的問題。分類建模與模型集成常用分類算法決策樹決策樹是一種樹形結(jié)構(gòu)的分類模型,通過對(duì)輸入數(shù)據(jù)集進(jìn)行遞歸分割來構(gòu)建一棵樹,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類。在決策樹從上到下遍歷的過程中,在每個(gè)節(jié)點(diǎn)都會(huì)遇到測(cè)試,每個(gè)節(jié)點(diǎn)上測(cè)試結(jié)果的不同導(dǎo)致不同的分支,最后到達(dá)一個(gè)葉節(jié)點(diǎn),整個(gè)過程就是利用決策樹進(jìn)行分類的過程。決策樹基本結(jié)構(gòu)分類建模與模型集成模型集成方法Bagging(BootstrapAggregating,引導(dǎo)聚集)Bagging通過對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行自助采樣(bootstrapsampling),然后訓(xùn)練多個(gè)基分類器,最后通過投票或平均的方式融合多個(gè)基分類器的預(yù)測(cè)結(jié)果,從而降低模型的方差,提高模型的泛化能力。模型集成是通過組合使用多種基分類器的預(yù)測(cè)結(jié)果來獲得更好的分類性能的方法,故也被稱為“多分類器系統(tǒng)”。常用的模型集成方法包括Bagging、Boosting、Stacking三種。分類建模與模型集成Boosting(提升)弱學(xué)習(xí)器(weaklearner)通常指泛化性能略優(yōu)于隨機(jī)猜測(cè)的學(xué)習(xí)器,例如在二分類問題上精度略高于50%的分類器。而Boosting是一種能夠?qū)⑷鯇W(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器的方法。其核心思想是通過順序訓(xùn)練多個(gè)基分類器,每個(gè)基分類器都嘗試修正前一個(gè)分類器的錯(cuò)誤,從而逐步提高整體模型的性能。Boosting算法的代表包括AdaBoost、GradientBoosting和XGBoost等。模型集成方法分類建模與模型集成Stacking(堆疊)當(dāng)訓(xùn)練數(shù)據(jù)很多時(shí),可以用Stacking(堆疊)集成方法。Stacking的核心思想是將多個(gè)基分類器的預(yù)測(cè)結(jié)果作為新的特征,初始樣本的標(biāo)記仍被當(dāng)作樣例標(biāo)記,然后訓(xùn)練一個(gè)元分類器(也稱為組合分類器)來獲得最終的預(yù)測(cè)結(jié)果。Stacking方法可以充分利用不同基分類器的優(yōu)勢(shì),從而獲得更加準(zhǔn)確和穩(wěn)健的分類效果。模型集成方法06PARTSIX時(shí)間序列建模與預(yù)測(cè)時(shí)間序列建模與預(yù)測(cè)時(shí)間序列的基本概念時(shí)間序列是指按照時(shí)間順序排列的一系列觀測(cè)值或數(shù)據(jù)點(diǎn),它們通常反映了某一現(xiàn)象或變量隨時(shí)間變化的規(guī)律。時(shí)間序列分解時(shí)間序列數(shù)據(jù)通常包括三個(gè)主要組成成分,即趨勢(shì)、季節(jié)性和隨機(jī)波動(dòng)(1)趨勢(shì)(Trend):趨勢(shì)描述的是時(shí)間序列的長(zhǎng)期走勢(shì),描述的是在一定時(shí)間內(nèi)的單調(diào)性,可能表現(xiàn)為上升、下降或保持穩(wěn)定(2)季節(jié)性(Seasonality):季節(jié)性是指時(shí)間序列在固定時(shí)間內(nèi)發(fā)生的規(guī)律性波動(dòng),通常與特定時(shí)間周期(如一年、一個(gè)季度、一個(gè)月、一周等)相關(guān)(3)隨機(jī)波動(dòng)(RandomNoise):隨機(jī)波動(dòng)是指時(shí)間序列中的不可預(yù)測(cè)的隨機(jī)變化。時(shí)間序列建模與預(yù)測(cè)時(shí)間序列預(yù)測(cè)時(shí)間序列在時(shí)間維度上通常存在著相互依存相互影響的關(guān)系,這也是進(jìn)行時(shí)間序列建模和預(yù)測(cè)的前提假設(shè)。時(shí)間序列預(yù)測(cè)是利用獲得的數(shù)據(jù)按時(shí)間順序排成序列,分析其變化方向和程度,從而對(duì)未來若干時(shí)期可能達(dá)到的水平進(jìn)行推測(cè)。其基本思想是將時(shí)間序列作為一個(gè)隨機(jī)變量的一個(gè)樣本,用概率統(tǒng)計(jì)的方法盡可能減少偶然因素的影響。時(shí)間序列預(yù)測(cè)誤差的度量指標(biāo)常使用真實(shí)值與預(yù)測(cè)值之間的差距來衡量模型的誤差。通常使用的指標(biāo)有平均絕對(duì)誤差(MAE)、均方誤差(MSE)、均方根誤差(RMSE)和平均絕對(duì)百分比誤差(MAPE)等。時(shí)間序列建模與預(yù)測(cè)時(shí)間序列的平穩(wěn)性平穩(wěn)與非平穩(wěn)是時(shí)間序列分析中一個(gè)非常重要的概念,它直接影響到對(duì)時(shí)間序列進(jìn)行處理的方法,經(jīng)典時(shí)間序列模型主要針對(duì)平穩(wěn)時(shí)間序列,并建立起的一套識(shí)別、估計(jì)和檢驗(yàn)的方法,非平穩(wěn)時(shí)間序列通常需要采用其他的分析方法和手段。因此在時(shí)間序列分析中區(qū)分時(shí)間序列的平穩(wěn)性和非平穩(wěn)性顯得尤為重要。平穩(wěn)性是指時(shí)間序列的內(nèi)在模式不隨時(shí)間變化而發(fā)生顯著變化,因此,具有明顯趨勢(shì)性和季節(jié)性的時(shí)間序列都不是平穩(wěn)時(shí)間序列。平穩(wěn)時(shí)間序列通常具有較好的預(yù)測(cè)性能,因?yàn)樗鼈兊慕y(tǒng)計(jì)特性在時(shí)間上保持穩(wěn)定,從而有望延續(xù)過去的行為進(jìn)行準(zhǔn)確的預(yù)測(cè)。根據(jù)限制條件的嚴(yán)格程度,平穩(wěn)時(shí)間序列分為嚴(yán)平穩(wěn)時(shí)間序列和寬平穩(wěn)時(shí)間序列。6時(shí)間序列建模與預(yù)測(cè)嚴(yán)平穩(wěn)嚴(yán)平穩(wěn)(strictlystationary)是一種條件比較苛刻的平穩(wěn)性定義,只有當(dāng)序列所有的統(tǒng)計(jì)性質(zhì)都不會(huì)隨著時(shí)間的推移而發(fā)生變化時(shí),該序列才能被認(rèn)為平穩(wěn)。時(shí)間序列的平穩(wěn)性寬平穩(wěn)寬平穩(wěn)(weakstationary)是使用序列的特征統(tǒng)計(jì)量來定義的一種平穩(wěn)性。若能保證序列低階(二階)矩平穩(wěn),就能保證序列的主要性質(zhì)近似穩(wěn)定。平穩(wěn)性檢驗(yàn)是時(shí)間序列分析的基本假設(shè),對(duì)于時(shí)間序列的建模和預(yù)測(cè)非常重要。序列的平穩(wěn)性檢驗(yàn)主要分為兩類方法:一種是根據(jù)時(shí)序圖的特征做出判斷的圖檢驗(yàn)方法,另一種是基于統(tǒng)計(jì)檢驗(yàn)的方法,如DF檢驗(yàn)、ADF檢驗(yàn)等。當(dāng)時(shí)間序列不平穩(wěn)時(shí)(存在趨勢(shì)及周期性),可以通過差分(differencing)使序列平穩(wěn),在一定程度上消除時(shí)間及周期趨勢(shì)所造成的不平穩(wěn)。時(shí)間序列建模與預(yù)測(cè)時(shí)間序列的自相關(guān)性時(shí)間序列的自相關(guān)性是指時(shí)間序列數(shù)據(jù)中的觀測(cè)值與其自身過去或未來的觀測(cè)值之間的統(tǒng)計(jì)依賴關(guān)系。自相關(guān)性是衡量時(shí)間序列數(shù)據(jù)點(diǎn)在不同時(shí)間點(diǎn)上的相關(guān)性強(qiáng)度和方向的一種指標(biāo)。通過了解時(shí)間序列的自相關(guān)性,我們可以揭示數(shù)據(jù)中的內(nèi)在結(jié)構(gòu)和周期性,并據(jù)此建立更準(zhǔn)確的預(yù)測(cè)模型。時(shí)間序列建模與預(yù)測(cè)時(shí)間序列預(yù)測(cè)的應(yīng)用場(chǎng)景在制造業(yè)中,時(shí)間序列分析被廣泛應(yīng)用于多個(gè)方面。例如,通過分析生產(chǎn)線上的產(chǎn)量時(shí)間序列數(shù)據(jù),可以預(yù)測(cè)未來的產(chǎn)能需求,從而合理安排生產(chǎn)計(jì)劃和資源配置。此外,時(shí)間序列分析還可以用于預(yù)測(cè)設(shè)備故障的發(fā)生,實(shí)現(xiàn)預(yù)防性維護(hù),提高設(shè)備的可靠性和生產(chǎn)效率。同時(shí),市場(chǎng)需求預(yù)測(cè)也是時(shí)間序列分析在制造業(yè)中的重要應(yīng)用之一,它有助于企業(yè)準(zhǔn)確把握市場(chǎng)動(dòng)態(tài),制定合理的銷售策略。通過對(duì)這些時(shí)間序列數(shù)據(jù)進(jìn)行分析,可以揭示出生產(chǎn)過程中的內(nèi)在規(guī)律和趨勢(shì),為生產(chǎn)決策和優(yōu)化提供有力支持。6時(shí)間序列建模與預(yù)測(cè)樸素預(yù)測(cè)法(NaiveForecast)樸素預(yù)測(cè)法基于時(shí)間序列在短期內(nèi)具有穩(wěn)定性的假設(shè),其核心思想在于假定時(shí)間序列的當(dāng)前值對(duì)未來值具有直接的影響,因此將當(dāng)前觀測(cè)值直接作為未來時(shí)刻的預(yù)測(cè)值。這種方法不需要復(fù)雜的計(jì)算或模型擬合,因此非常容易實(shí)現(xiàn)。經(jīng)典時(shí)間序列模型移動(dòng)平均模型(MA)移動(dòng)平均模型通過計(jì)算一段時(shí)間內(nèi)的平均值來預(yù)測(cè)下一個(gè)時(shí)間點(diǎn)的值。移動(dòng)平均可以平滑時(shí)間序列中的隨機(jī)波動(dòng),并揭示出長(zhǎng)期的趨勢(shì)或周期性變化。移動(dòng)平均模型可以分為簡(jiǎn)單移動(dòng)平均(SMA)和加權(quán)移動(dòng)平均(WMA)兩種。6時(shí)間序列建模與預(yù)測(cè)經(jīng)典時(shí)間序列模型自回歸模型(AR)自回歸模型假設(shè)時(shí)間序列的當(dāng)前時(shí)刻的觀測(cè)值是其自身過去值的線性組合。通過擬合自回歸系數(shù),模型能夠捕捉序列中的自相關(guān)性,從而進(jìn)行未來值的預(yù)測(cè)。自回歸模型適用于具有明顯自相關(guān)性的時(shí)間序列數(shù)據(jù),可以捕捉時(shí)間序列的動(dòng)態(tài)變化,但在處理非平穩(wěn)數(shù)據(jù)或存在復(fù)雜依賴關(guān)系的數(shù)據(jù)時(shí)可能受到限制。自回歸移動(dòng)平均模型(ARMA)自回歸移動(dòng)平均模型(ARMA)結(jié)合了自回歸(AR)和移動(dòng)平均(MA)的特性,通過同時(shí)考慮時(shí)間序列的自相關(guān)性和誤差項(xiàng)的移動(dòng)平均來增強(qiáng)預(yù)測(cè)能力。ARMA模型能夠同時(shí)捕捉序列中的短期和長(zhǎng)期依賴關(guān)系,但要求數(shù)據(jù)必須是平穩(wěn)的。對(duì)于非平穩(wěn)數(shù)據(jù),通常需要先進(jìn)行差分處理以使其滿足平穩(wěn)性要求。時(shí)間序列建模與預(yù)測(cè)長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)LSTM是RNN的變體,擅長(zhǎng)處理具有長(zhǎng)期依賴的時(shí)間序列數(shù)據(jù),捕捉復(fù)雜模式和趨勢(shì)以實(shí)現(xiàn)精準(zhǔn)預(yù)測(cè)。其核心是引入門控機(jī)制,通過輸入門、遺忘門和輸出門控制信息流動(dòng),解決RNN的長(zhǎng)序列梯度問題。使用LSTM進(jìn)行時(shí)間序列預(yù)測(cè)需預(yù)處理數(shù)據(jù)、構(gòu)建模型、訓(xùn)練和評(píng)估,并根據(jù)任務(wù)調(diào)整參數(shù)。也可結(jié)合其他技術(shù)提高預(yù)測(cè)準(zhǔn)確性和穩(wěn)定性。先進(jìn)時(shí)間序列建模技術(shù)時(shí)間序列建模與預(yù)測(cè)門控循環(huán)單元(GRU)GRU是處理時(shí)間序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)變體。它旨在解決長(zhǎng)期依賴問題,結(jié)構(gòu)相對(duì)簡(jiǎn)單,包含更新門和重置門兩個(gè)主要部分。重置門:決定是否忽略歷史輸入并重置隱藏狀態(tài)。接近0時(shí),歷史輸入影響最小化;接近1時(shí),產(chǎn)生較大影響。02更新門:決定當(dāng)前隱藏狀態(tài)的信息保留量和新信息的加入量。接近0時(shí),隱藏狀態(tài)不更新;接近1時(shí),完全更新。01GRU計(jì)算效率高,適合處理大規(guī)模序列數(shù)據(jù)。但在復(fù)雜預(yù)測(cè)任務(wù)中,LSTM可能表現(xiàn)更佳。03先進(jìn)時(shí)間序列建模技術(shù)時(shí)間序列建模與預(yù)測(cè)時(shí)序卷積網(wǎng)絡(luò)(TCN)時(shí)序卷積網(wǎng)絡(luò)(TCN)是卷積神經(jīng)網(wǎng)絡(luò)在時(shí)間序列預(yù)測(cè)中的變體。與RNN和LSTM相比,TCN在時(shí)間序列預(yù)測(cè)、語音識(shí)別、自然語言處理中表現(xiàn)優(yōu)異。TCN主要由一維卷積層和因果卷積層組成,分別用于提取局部特征和避免未來信息泄露。TCN具有固定感受野,能捕獲長(zhǎng)期依賴關(guān)系,并利用硬件并行加速處理長(zhǎng)序列數(shù)據(jù)。但處理變長(zhǎng)序列時(shí)可能需要更復(fù)雜的結(jié)構(gòu)或策略。先進(jìn)時(shí)間序列建模技術(shù)07PARTSEVEN深度學(xué)習(xí)深度學(xué)習(xí)深度學(xué)習(xí)概述深度學(xué)習(xí)正與智能制造深度融合,成效顯著。其核心在于通過多層次非線性變換發(fā)現(xiàn)數(shù)據(jù)規(guī)律。在智能制造中,深度學(xué)習(xí)可應(yīng)用于數(shù)據(jù)分析與決策,如視覺技術(shù)輔助的自動(dòng)化質(zhì)檢、分揀,提升效率和質(zhì)量。深度學(xué)習(xí)特點(diǎn)為端到端訓(xùn)練,優(yōu)化系統(tǒng)性能。正經(jīng)歷由參數(shù)模型向無參數(shù)模型轉(zhuǎn)變,犧牲可解釋性。深度學(xué)習(xí)是智能制造感知分析與決策的關(guān)鍵技術(shù),通過處理復(fù)雜數(shù)據(jù),支持制造系統(tǒng)優(yōu)化。隨著技術(shù)發(fā)展,深度學(xué)習(xí)將推動(dòng)智能制造更智能化、高效化。深度學(xué)習(xí)人工神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)基于人工神經(jīng)網(wǎng)絡(luò)(ANN),具有大規(guī)模、復(fù)雜學(xué)習(xí)及信息處理功能。ANN結(jié)構(gòu)受人類神經(jīng)系統(tǒng)啟發(fā),由多神經(jīng)元層次結(jié)構(gòu)組成。神經(jīng)元接收輸入,經(jīng)函數(shù)變換后產(chǎn)生輸出。神經(jīng)元間連接代表權(quán)重,偏置項(xiàng)θ控制輸出閾值。激活函數(shù)對(duì)線性變換結(jié)果進(jìn)行非線性映射,得到神經(jīng)元輸出值。單個(gè)人工神經(jīng)元節(jié)點(diǎn)圖示深度學(xué)習(xí)人工神經(jīng)網(wǎng)絡(luò)把多個(gè)神經(jīng)元按一定的層次結(jié)構(gòu)連接起來,就得到神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)通常包括輸入層、隱藏層和輸出層,其中隱藏層可以為多層。輸入層神經(jīng)元只接收輸入,不進(jìn)行函數(shù)處理,而隱藏層與輸出層則包含功能神經(jīng)元。神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中就是通過調(diào)整連接權(quán)重來實(shí)現(xiàn)學(xué)習(xí)和模式識(shí)別。深度學(xué)習(xí)BP神經(jīng)網(wǎng)絡(luò)BP神經(jīng)網(wǎng)絡(luò)通過誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練多層前饋網(wǎng)絡(luò)。通過調(diào)整神經(jīng)元間的連接權(quán)值,網(wǎng)絡(luò)能將輸入信息轉(zhuǎn)化為期望輸出。反向傳播基于實(shí)際輸出與期望輸出的差值,逐層反傳以決定權(quán)值調(diào)整。以一個(gè)簡(jiǎn)單的3層BP網(wǎng)絡(luò)模型為例,其具有M個(gè)輸入節(jié)點(diǎn)、q個(gè)隱藏層節(jié)點(diǎn)和L個(gè)輸出節(jié)點(diǎn)。輸入層與隱藏層的連接權(quán)值為wij,表示輸入層第j個(gè)節(jié)點(diǎn)到隱藏層第i個(gè)節(jié)點(diǎn)之間的權(quán)值,i=1,…,q,j=1,…,M。隱藏層到輸出層的連接權(quán)值為wki,表示兩個(gè)節(jié)點(diǎn)之間的權(quán)值,k=1,…

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論