版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)運(yùn)輸車輛駕駛行為分析1實(shí)現(xiàn)運(yùn)輸車輛駕駛行為分析目錄
TipDM大數(shù)據(jù)挖掘建模平臺(tái)簡(jiǎn)介2TipDM大數(shù)據(jù)挖掘建模平臺(tái)是由廣東泰迪智能科技股份有限公司自主研發(fā),面向大數(shù)據(jù)挖掘項(xiàng)目的工具。平臺(tái)使用Java語言開發(fā),采用B/S結(jié)構(gòu),用戶不需要下載客戶端,可通過瀏覽器進(jìn)行訪問。平臺(tái)提供了基于Python、R以及Hadoop/Spark分布式引擎的大數(shù)據(jù)分析功能。平臺(tái)支持工作流,用戶可在沒有Scala、Python、R等編程語言基礎(chǔ)的情況下,通過拖曳的方式進(jìn)行操作,以流程化的方式將數(shù)據(jù)輸入輸出、統(tǒng)計(jì)分析,數(shù)據(jù)預(yù)處理、分析與建模等環(huán)節(jié)進(jìn)行連接,從而達(dá)成大數(shù)據(jù)分析的目的。讀者可通過訪問平臺(tái)查看具體的界面情況,訪問平臺(tái)的具體步驟如下。微信搜索公眾號(hào)“泰迪學(xué)院”或“TipDataMining”,關(guān)注公眾號(hào)。關(guān)注公眾號(hào)后,回復(fù)“建模平臺(tái)”,獲取平臺(tái)訪問方式。平臺(tái)簡(jiǎn)介平臺(tái)的界面如圖所示。平臺(tái)簡(jiǎn)介本章將以運(yùn)輸車輛駕駛行為案例為例,介紹如何使用平臺(tái)實(shí)現(xiàn)案例的流程。在介紹之前,需要引入平臺(tái)的幾個(gè)概念。算法:將建模過程涉及的輸入/輸出、數(shù)據(jù)探索及預(yù)處理、建模、模型評(píng)估等算法分別進(jìn)行封裝,每一個(gè)封裝好的算法模塊稱之為算法。實(shí)訓(xùn):為實(shí)現(xiàn)某一數(shù)據(jù)分析目標(biāo),將各算法通過流程化的方式進(jìn)行連接,整個(gè)數(shù)據(jù)分析流程稱為一個(gè)實(shí)訓(xùn)。模板:用戶可以將配置好的實(shí)訓(xùn),通過模板的方式,分享給其他用戶,其他用戶可以使用該模板,創(chuàng)建一個(gè)無需配置算法便可運(yùn)行的實(shí)訓(xùn)。平臺(tái)簡(jiǎn)介TipDM大數(shù)據(jù)挖掘建模平臺(tái)主要有以下幾個(gè)特點(diǎn)。平臺(tái)算法基于Python、R以及Hadoop/Spark分布式引擎,用于數(shù)據(jù)分析。Python、R以及Hadoop/Spark是目前最為流行的用于數(shù)據(jù)分析的語言,高度契合行業(yè)需求。用戶可在沒有Python、R或者Hadoop/Spark編程基礎(chǔ)的情況下,使用直觀的拖曳式圖形界面構(gòu)建數(shù)據(jù)分析流程,無須編程。提供公開可用的數(shù)據(jù)分析示例實(shí)訓(xùn),一鍵創(chuàng)建,快速運(yùn)行。支持挖掘流程每個(gè)節(jié)點(diǎn)的結(jié)果在線預(yù)覽。Python算法包可分為10大類:統(tǒng)計(jì)分析、預(yù)處理、腳本分類、聚類、回歸、時(shí)間序列、關(guān)聯(lián)規(guī)則、文本分析、繪圖。Spark算法包可分為6大類:預(yù)處理、統(tǒng)計(jì)分析、分類、聚類、回歸、協(xié)同過濾。R語言算法包可分為8大類:統(tǒng)計(jì)分析、預(yù)處理、腳本、分類、聚類、回歸、時(shí)間序列、關(guān)聯(lián)規(guī)則。下面將對(duì)平臺(tái)【實(shí)訓(xùn)庫】【數(shù)據(jù)連接】【實(shí)訓(xùn)數(shù)據(jù)】【我的實(shí)訓(xùn)】【系統(tǒng)算法】和【個(gè)人算法】6個(gè)模塊進(jìn)行介紹。平臺(tái)簡(jiǎn)介登錄平臺(tái)后,用戶即可看到【實(shí)訓(xùn)庫】模塊系統(tǒng)提供的示例實(shí)訓(xùn)(模板),如圖所示。實(shí)訓(xùn)庫【實(shí)訓(xùn)庫】模塊主要用于標(biāo)準(zhǔn)大數(shù)據(jù)分析案例的快速創(chuàng)建和展示。通過【實(shí)訓(xùn)庫】模塊,用戶可以創(chuàng)建一個(gè)無須導(dǎo)入數(shù)據(jù)及配置參數(shù)就能夠快速運(yùn)行的實(shí)訓(xùn)。同時(shí),每一個(gè)模板的創(chuàng)建者都具有模板的所有權(quán),能夠?qū)δ0暹M(jìn)行管理。用戶可以將自己搭建的數(shù)據(jù)分析實(shí)訓(xùn)生成為模板,顯示在【實(shí)訓(xùn)庫】模塊,供其他用戶一鍵創(chuàng)建。實(shí)訓(xùn)庫【數(shù)據(jù)連接】模塊支持從DB2、SQLServer、MySQL、Oracle、PostgreSQL等常用關(guān)系型數(shù)據(jù)庫導(dǎo)入數(shù)據(jù),如圖所示。數(shù)據(jù)連接【實(shí)訓(xùn)數(shù)據(jù)】模塊主要用于數(shù)據(jù)分析實(shí)訓(xùn)的數(shù)據(jù)導(dǎo)入與管理。支持從本地導(dǎo)入任意類型數(shù)據(jù)。如圖所示。實(shí)訓(xùn)數(shù)據(jù)除了導(dǎo)入本地的文件外,還可以通過連接的數(shù)據(jù)庫進(jìn)行導(dǎo)入數(shù)據(jù),如圖所示。實(shí)訓(xùn)數(shù)據(jù)【我的實(shí)訓(xùn)】模塊主要用于數(shù)據(jù)分析流程化的創(chuàng)建與管理,如圖所示。通過【實(shí)訓(xùn)】模塊,用戶可以創(chuàng)建空白實(shí)訓(xùn),進(jìn)行數(shù)據(jù)分析實(shí)習(xí)的配置,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模、模型評(píng)估等環(huán)節(jié)通過流程化的方式進(jìn)行連接,達(dá)到數(shù)據(jù)分析的目的。對(duì)于完成的優(yōu)秀的實(shí)訓(xùn),可以將其保存為模板,讓其他使用者學(xué)習(xí)和借鑒。我的實(shí)訓(xùn)【系統(tǒng)算法】模塊主要用于大數(shù)據(jù)分析內(nèi)置常用算法的管理,提供Python、R語言、Spark三種算法包,如圖所示。系統(tǒng)算法Python算法包可分為10大類,具體如下?!窘y(tǒng)計(jì)分析】類提供對(duì)數(shù)據(jù)整體情況進(jìn)行統(tǒng)計(jì)的常用算法,包括因子分析、全表統(tǒng)計(jì)、正態(tài)性檢驗(yàn)、相關(guān)性分析、卡方檢驗(yàn)、主成分分析和頻數(shù)統(tǒng)計(jì)?!绢A(yù)處理】類提供對(duì)數(shù)據(jù)進(jìn)行清洗的算法,包括數(shù)據(jù)標(biāo)準(zhǔn)化、缺失值處理、表堆疊、數(shù)據(jù)篩選、行列轉(zhuǎn)置、修改列名、衍生變量、數(shù)據(jù)拆分、主鍵合并、新增序列、數(shù)據(jù)排序、記錄去重和分組聚合?!灸_本】類提供一個(gè)Python代碼編輯框。用戶可以在代碼編輯框中粘貼已經(jīng)寫好的程序代碼并直接運(yùn)行,無須再額外配置成算法。【分類】類提供常用的分類算法,包括樸素貝葉斯、支持向量機(jī)、CART分類樹、邏輯回歸、神經(jīng)網(wǎng)絡(luò)和K最近鄰?!揪垲悺款愄峁┏S玫木垲愃惴?,包括層次聚類、DBSCAN密度聚類和K-Means。系統(tǒng)算法【回歸】類提供常用的回歸算法,包括CART回歸樹、線性回歸、支持向量回歸和K最近鄰回歸。【時(shí)間序列】類提供常用的時(shí)間序列算法,包括ARIMA?!娟P(guān)聯(lián)規(guī)則】類提供常用的關(guān)聯(lián)規(guī)則算法,包括Apriori和FP-Growth。【文本分析】類提供對(duì)文本數(shù)據(jù)進(jìn)行清洗、特征提取與分析的常用算法,包括TextCNN、seq2seq、jieba分詞、HanLP分詞與詞性、TF-IDF、doc2vec、word2vec、過濾停用詞、LDA、TextRank、分句、正則匹配和HanLP實(shí)體提取?!纠L圖】類提供常用的畫圖算法,包括柱形圖、折線圖、散點(diǎn)圖、餅圖和詞云圖。系統(tǒng)算法Spark算法包可分為6大類,具體如下?!绢A(yù)處理】類提供對(duì)數(shù)據(jù)進(jìn)行清洗的算法,包括數(shù)據(jù)去重、數(shù)據(jù)過濾、數(shù)據(jù)映射、數(shù)據(jù)反映射、數(shù)據(jù)拆分、數(shù)據(jù)排序、缺失值處理、數(shù)據(jù)標(biāo)準(zhǔn)化、衍生變量、表連接、表堆疊、啞變量和數(shù)據(jù)離散化?!窘y(tǒng)計(jì)分析】類提供對(duì)數(shù)據(jù)整體情況進(jìn)行統(tǒng)計(jì)的常用算法,包括行列統(tǒng)計(jì)、全表統(tǒng)計(jì)、相關(guān)性分析和卡方檢驗(yàn)?!痉诸悺款愄峁┏S玫姆诸愃惴?,包括邏輯回歸、決策樹、梯度提升樹、樸素貝葉斯、隨機(jī)森林、線性支持向量機(jī)和多層感知神經(jīng)網(wǎng)絡(luò)?!揪垲悺款愄峁┏S玫木垲愃惴ǎ↘-Means聚類、二分K均值聚類和混合高斯模型。【回歸】類提供常用的回歸算法,包括線性回歸、廣義線性回歸、決策樹回歸、梯度提升樹回歸、隨機(jī)森林回歸和保序回歸?!緟f(xié)同過濾】類提供常用的智能推薦算法,包括ALS算法。系統(tǒng)算法R語言算法包可分為8大類,具體如下。【統(tǒng)計(jì)分析】類提供對(duì)數(shù)據(jù)整體情況進(jìn)行統(tǒng)計(jì)的常用算法,包括卡方檢驗(yàn)、因子分析、主成分分析、相關(guān)性分析、正態(tài)性檢驗(yàn)和全表統(tǒng)計(jì)?!绢A(yù)處理】類提供對(duì)數(shù)據(jù)進(jìn)行清洗的算法,包括缺失值處理、異常值處理、表連接、表堆疊、數(shù)據(jù)標(biāo)準(zhǔn)化、記錄去重、數(shù)據(jù)離散化、排序、數(shù)據(jù)拆分、頻數(shù)統(tǒng)計(jì)、新增序列、字符串拆分、字符串拼接、修改列名和衍生變量?!灸_本】類提供一個(gè)R語言代碼編輯框。用戶可以在代碼編輯框中粘貼已經(jīng)寫好的程序代碼并直接運(yùn)行,無須再額外配置成算法。系統(tǒng)算法【分類】類提供常用的分類算法,包括樸素貝葉斯、CART分類樹、C4.5分類樹、BP神經(jīng)網(wǎng)絡(luò)、KNN、SVM和邏輯回歸?!揪垲悺款愄峁┏S玫木垲愃惴ǎ↘-Means、DBSCAN和系統(tǒng)聚類?!净貧w】類提供常用的回歸算法,包括CART回歸樹、C4.5回歸樹、線性回歸、嶺回歸和KNN回歸?!緯r(shí)間序列】類提供常用的時(shí)間序列算法,包括ARIMA、GM(1,1)和指數(shù)平滑?!娟P(guān)聯(lián)分析】類提供常用的關(guān)聯(lián)規(guī)則算法,包括Apriori。系統(tǒng)算法【個(gè)人算法】模塊主要為了滿足用戶的個(gè)性化需求。在用戶使用過程中,可根據(jù)自己的需求定制算法,方便使用。目前個(gè)人算法支持通過Python和R語言進(jìn)行個(gè)人算法的定制,如圖所示。個(gè)人算法1實(shí)現(xiàn)運(yùn)輸車輛駕駛行為分析目錄
TipDM大數(shù)據(jù)挖掘建模平臺(tái)簡(jiǎn)介2本小節(jié)以運(yùn)輸車輛駕駛行為分析案例為例,在TipDM大數(shù)據(jù)挖掘建模平臺(tái)上配置對(duì)應(yīng)工程,展示數(shù)據(jù)挖掘流程中的數(shù)據(jù)獲取、數(shù)據(jù)探索、分析與建模的配置過程。在平臺(tái)上配置得到的運(yùn)輸車輛駕駛行為分析的最終流程如圖所示。實(shí)現(xiàn)運(yùn)輸車輛駕駛行為分析在TipDM大數(shù)據(jù)挖掘建模平臺(tái)上配置運(yùn)輸車輛駕駛行為分析案例,主要包括以下4個(gè)步驟。導(dǎo)入數(shù)據(jù)。在TipDM大數(shù)據(jù)挖掘建模平臺(tái)上導(dǎo)入駕駛行為指標(biāo)數(shù)據(jù)。數(shù)據(jù)探索分析。對(duì)原始數(shù)據(jù)進(jìn)行分布分析、相關(guān)性分析和異常值檢測(cè)。聚類分析。對(duì)駕駛行為進(jìn)行聚類分析。模型構(gòu)建。構(gòu)建駕駛行為判別模型,并對(duì)駕駛行為進(jìn)行預(yù)測(cè)評(píng)價(jià)。實(shí)現(xiàn)運(yùn)輸車輛駕駛行為分析本章的數(shù)據(jù)為車輛駕駛行為指標(biāo)數(shù)據(jù),該數(shù)據(jù)文件為CSV文件,使用TipDM大數(shù)據(jù)挖掘建模平臺(tái)導(dǎo)入數(shù)據(jù),步驟如下。單擊“我的數(shù)據(jù)”,在“我的數(shù)據(jù)集”中選擇“新增”,如圖所示。數(shù)據(jù)源配置設(shè)置新增數(shù)據(jù)集參數(shù)。任意選擇一張封面圖片,在“名稱”中填入“運(yùn)輸車輛駕駛行為分析”,“有效期(天)”項(xiàng)選擇“永久”,“描述”中填入“運(yùn)輸車輛駕駛行為分析的相關(guān)數(shù)據(jù)存放至車輛駕駛行為指標(biāo)數(shù)據(jù).csv文件中”。單擊“點(diǎn)擊上傳”選擇“車輛駕駛行為指標(biāo)數(shù)據(jù).csv”數(shù)據(jù),如圖所示。等到數(shù)據(jù)載入成功后,單擊“確定”按鈕,即可上傳數(shù)據(jù)。數(shù)據(jù)源配置當(dāng)數(shù)據(jù)上傳完成后,新建一個(gè)名為“運(yùn)輸車輛駕駛行為分析”的空白工程,步驟如下。新建空白工程。單擊“我的工程”,單擊按鈕,新建一個(gè)空白工程。在新建工程頁面填寫相關(guān)的信息,包括名稱和描述,如圖所示。數(shù)據(jù)源配置在“運(yùn)輸車輛駕駛行為分析”工程中配置一個(gè)“輸入源”算法,步驟如下。在“工程”欄旁邊的“組件”欄中,找到“內(nèi)置組件”下的“輸入/輸出”類。拖曳“輸入/輸出”類中的“輸入源”算法至工程畫布中。數(shù)據(jù)源配置配置“輸入源”算法。單擊畫布中的“輸入源”算法,然后單擊工程畫布右側(cè)“參數(shù)配置”欄中的“數(shù)據(jù)集”框,輸入“運(yùn)輸車輛駕駛行為分析”。在彈出的下拉框中選擇“運(yùn)輸車輛駕駛行為分析”,“文件列表”中選擇“車輛駕駛行為指標(biāo)數(shù)據(jù).csv”數(shù)據(jù),如圖所示(注意:由于平臺(tái)限制了各框架的大小,所以可能會(huì)導(dǎo)致一些輸入內(nèi)容顯示不全)。數(shù)據(jù)源配置加載數(shù)據(jù)。右鍵單擊“輸入源”算法,選擇“運(yùn)行該節(jié)點(diǎn)”,運(yùn)行完成后,可看到“輸入源”算法變?yōu)榫G色,如圖所示。右鍵單擊運(yùn)行完成后的“輸入源”算法,選擇“查看日志”,可看到“數(shù)據(jù)載入成功”的信息,如圖所示,說明已成功將車輛駕駛行為指標(biāo)數(shù)據(jù)加載到平臺(tái)上。數(shù)據(jù)源配置1.分布分析通常情況下,在進(jìn)行分析與建模之前,需要對(duì)數(shù)據(jù)進(jìn)行分布分析,其目的是及時(shí)發(fā)現(xiàn)數(shù)據(jù)中的分布規(guī)律,查看各屬性的基本情況,為后續(xù)數(shù)據(jù)分析工作做準(zhǔn)備。對(duì)加載后的車輛駕駛行為指標(biāo)數(shù)據(jù)進(jìn)行分布分析,步驟如下。拖曳一個(gè)“全表統(tǒng)計(jì)”算法至工程畫布中,連接“輸入源”算法和“全表統(tǒng)計(jì)”算法。數(shù)據(jù)探索分析本章數(shù)據(jù)探索分析主要是對(duì)車輛駕駛行為指標(biāo)數(shù)據(jù)進(jìn)行分布分析、相關(guān)性分析、異常值檢測(cè)等內(nèi)容。配置“全表統(tǒng)計(jì)”算法。單擊畫布中的“全表統(tǒng)計(jì)”算法,在“字段設(shè)置”中,單擊“特征”旁的按鈕后,勾選除“車輛編碼”之外的所有字段,如圖所示;“參數(shù)設(shè)置”中保持默認(rèn)選擇。數(shù)據(jù)探索分析預(yù)覽數(shù)據(jù)。右鍵單擊“全表統(tǒng)計(jì)”算法,選擇“運(yùn)行該節(jié)點(diǎn)”;運(yùn)行完成后,右單擊該算法,選擇“查看數(shù)據(jù)”,其結(jié)果如圖所示。由全表統(tǒng)計(jì)運(yùn)行結(jié)果可以看到,各屬性的記錄數(shù)、均值、標(biāo)準(zhǔn)差、最大值和最小值等信息。數(shù)據(jù)探索分析對(duì)車輛駕駛行為指標(biāo)數(shù)據(jù)進(jìn)行相關(guān)性分析,計(jì)算出各屬性兩兩之間的相關(guān)系數(shù),能更直觀地看出各屬性之間的相關(guān)程度,其步驟如下。拖曳一個(gè)“相關(guān)性分析”算法至工程畫布中,連接“輸入源”算法和“相關(guān)性分析”算法。配置“相關(guān)性分析”算法“字段設(shè)置”。單擊畫布中的“相關(guān)性分析”算法,在“字段設(shè)置”中,單擊“特征”旁的按鈕后,勾選除“車輛編碼”以外的所有字段,如圖所示。數(shù)據(jù)探索分析2.相關(guān)性分析配置“相關(guān)性分析”算法“參數(shù)設(shè)置”。在“參數(shù)設(shè)置”中,“相關(guān)性系數(shù)”選擇“標(biāo)準(zhǔn)相關(guān)系數(shù)”,如圖所示。數(shù)據(jù)探索分析預(yù)覽日志。右鍵單擊“相關(guān)性分析”算法,選擇“運(yùn)行該節(jié)點(diǎn)”;運(yùn)行完成后,右鍵單擊該算法,選擇“查看日志”,其結(jié)果如圖所示。由圖可以看到各屬性之間的相關(guān)系數(shù),其中,急加速與急加速頻率、急減速與急減速頻率等的相關(guān)系數(shù)均較大,達(dá)到了0.8以上,具有較強(qiáng)的相關(guān)關(guān)系。數(shù)據(jù)探索分析用戶在進(jìn)行異常值檢測(cè)時(shí),一般可以通過繪制箱型圖查看其異常情況。在平臺(tái)上,可以自定義“箱型圖”個(gè)人算法,查看數(shù)據(jù)中的異常數(shù)據(jù)。自定義“箱型圖”個(gè)人算法的步驟如下。單擊“個(gè)人算法”后,單擊(添加算法)按鈕,彈出設(shè)置算法界面信息。數(shù)據(jù)探索分析3.異常值檢測(cè)在設(shè)置算法界面中,“組件名稱”填入“箱型圖”,“算法引擎”選擇“Python”,“算法代碼”填入異常值檢測(cè)的相關(guān)代碼,填寫相關(guān)信息后的界面如圖所示。設(shè)置完相關(guān)信息后,單擊“添加”按鈕,即可成功添加“箱型圖”個(gè)人算法。數(shù)據(jù)探索分析在平臺(tái)中可通過“箱型圖”個(gè)人算法對(duì)車輛運(yùn)輸指標(biāo)數(shù)據(jù)進(jìn)行異常值檢測(cè),步驟如下。拖曳一個(gè)個(gè)人算法“箱型圖”至工程畫布中,連接“輸入源”算法和“箱型圖”算法。配置“箱型圖”算法。單擊畫布中的“箱型圖”算法,在“參數(shù)配置”中,單擊“數(shù)值列”旁的按鈕后,勾選“行駛里程(km)”“疲勞駕駛(次)”“熄火滑行(次)”“超長(zhǎng)怠速(次)”字段,如圖所示。數(shù)據(jù)探索分析預(yù)覽日志。右鍵單擊“箱型圖”算法,選擇“運(yùn)行該節(jié)點(diǎn)”,運(yùn)行完成后,右鍵單擊該算法,選擇“查看日志”,其部分結(jié)果如圖所示。由異常值檢測(cè)結(jié)果可知,數(shù)據(jù)中存在部分異常數(shù)據(jù),說明存在一些不良的駕駛行為數(shù)據(jù),且該數(shù)據(jù)符合本案例的分析方向。因此,為保證后續(xù)的分析結(jié)果,不做異常值處理。數(shù)據(jù)探索分析1.K-Means聚類在平臺(tái)中可通過“數(shù)據(jù)標(biāo)準(zhǔn)化”算法,對(duì)車輛運(yùn)輸指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,步驟如下。拖曳一個(gè)“數(shù)據(jù)標(biāo)準(zhǔn)化”算法至工程畫布中,連接“輸入源”算法和“數(shù)據(jù)標(biāo)準(zhǔn)化”算法。駕駛行為聚類分析為了查看各車輛的駕駛行為主要分為哪幾類,本章將分別使用K-Means聚類、層次聚類、高斯混合模型聚類和譜聚類的方法對(duì)駕駛行為進(jìn)行聚類分析,并對(duì)比各聚類方法效果。注意:在進(jìn)行聚類分析之前,需先采用Z-Score標(biāo)準(zhǔn)化方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一化。配置“數(shù)據(jù)標(biāo)準(zhǔn)化”算法。單擊畫布中的“數(shù)據(jù)標(biāo)準(zhǔn)化”算法,在“參數(shù)設(shè)置”中,單擊“特征”旁的按鈕后,選擇除“車輛編碼”以外的所有字段;“標(biāo)準(zhǔn)化方式”選擇“標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化”,如圖所示。駕駛行為聚類分析預(yù)覽數(shù)據(jù)。右鍵單擊“數(shù)據(jù)標(biāo)準(zhǔn)化”算法,選擇“運(yùn)行該節(jié)點(diǎn)”,運(yùn)行完成后,右鍵單擊該算法,選擇“查看數(shù)據(jù)”,其結(jié)果如圖所示。由圖可知,已成功將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。駕駛行為聚類分析通過K-Means聚類算法,對(duì)車輛駕駛行為進(jìn)行分類,步驟如下。創(chuàng)建一個(gè)“K-Means聚類”個(gè)人算法。由于10.2.2小節(jié)已介紹個(gè)人算法的自定義方法,且10.2.3和10.2.4小節(jié)均有自定義個(gè)人算法的內(nèi)容。因此,為避免章節(jié)篇幅過長(zhǎng),后續(xù)涉及到個(gè)人算法的相關(guān)內(nèi)容,本章將不再重復(fù)說明。關(guān)于個(gè)人算法的算法代碼部分,讀者可查看工程文件中對(duì)應(yīng)組件的源碼。拖曳一個(gè)已創(chuàng)建好的個(gè)人算法“K-Means聚類”至工程畫布中,連接“數(shù)據(jù)標(biāo)準(zhǔn)化”算法和“K-Means聚類”算法。駕駛行為聚類分析配置“K-Means聚類”算法“字段設(shè)置”。單擊畫布中的“K-Means聚類”算法,在“字段設(shè)置”中,單擊“特征”旁的按鈕后,選擇除“車輛編碼”以外的所有字段,如圖所示。駕駛行為聚類分析配置“K-Means聚類”算法“參數(shù)設(shè)置”。在“參數(shù)設(shè)置”中,“聚類數(shù)”設(shè)為“3”,如圖所示。駕駛行為聚類分析預(yù)覽日志。右鍵單擊“K-Means聚類”算法,選擇“運(yùn)行該節(jié)點(diǎn)”,運(yùn)行完成后,右鍵單擊該算法,選擇“查看日志”,其結(jié)果如圖所示。
由圖可知,進(jìn)行K-Means聚類后,所得到的聚類簇1個(gè)數(shù)為446、簇2個(gè)數(shù)為1、簇3個(gè)數(shù)為1,且由展示圖可以看出,K-Means的聚類效果并不理想。駕駛行為聚類分析通過層次聚類算法,對(duì)車輛駕駛行為進(jìn)行分類,步驟如下。創(chuàng)建一個(gè)“層次聚類”個(gè)人算法。拖曳一個(gè)已創(chuàng)建好的個(gè)人算法“層次聚類”至工程畫布中,連接“數(shù)據(jù)標(biāo)準(zhǔn)化”算法和“層次聚類”算法。駕駛行為聚類分析2.層次聚類配置“層次聚類”算法“字段設(shè)置”。單擊畫布中的“層次聚類”算法,在“字段設(shè)置”中,單擊“特征”旁的按鈕后,選擇除“車輛編碼”以外的所有字段,如圖所示。駕駛行為聚類分析配置“層次聚類”算法“參數(shù)設(shè)置”。在“參數(shù)設(shè)置”中,“聚類數(shù)”設(shè)置為“3”,如圖所示。駕駛行為聚類分析預(yù)覽日志。右鍵單擊“層次聚類”算法,選擇“運(yùn)行該節(jié)點(diǎn)”,運(yùn)行完成后,右鍵單擊該算法,選擇“查看日志”,其結(jié)果如圖所示。由圖可知,進(jìn)行層次聚類后,所得到的聚類簇1個(gè)數(shù)為446、簇2個(gè)數(shù)為1、簇3個(gè)數(shù)為1,且由展示圖可以看出,層次聚類的效果也不佳。駕駛行為聚類分析通過高斯混合模型算法,對(duì)車輛駕駛行為進(jìn)行分類,步驟如下。創(chuàng)建一個(gè)“高斯混合模型”個(gè)人算法。拖曳一個(gè)已創(chuàng)建好的個(gè)人算法“高斯混合模型”至工程畫布中,連接“數(shù)據(jù)標(biāo)準(zhǔn)化”算法和“高斯混合模型”算法。駕駛行為聚類分析3.高斯混合模型聚類配置“高斯混合模型”算法“字段設(shè)置”。單擊畫布中的“高斯混合模型”算法,在“字段設(shè)置”中,單擊“特征”旁的按鈕后,選擇除“車輛編碼”以外的所有字段,如圖所示。駕駛行為聚類分析配置“高斯混合模型”算法“參數(shù)設(shè)置”。在“參數(shù)設(shè)置”中,“K值”設(shè)為“3”,如圖所示。駕駛行為聚類分析預(yù)覽日志。右鍵單擊“高斯混合模型”算法,選擇“運(yùn)行該節(jié)點(diǎn)”,運(yùn)行完成后,右鍵單擊該算法,選擇“查看日志”,其結(jié)果如圖所示。由圖可知,進(jìn)行高斯混合模型聚類后,所得到的聚類簇1個(gè)數(shù)為276、簇2個(gè)數(shù)為1、簇3個(gè)數(shù)為171,且由展示圖可以看出,高斯混合模型的聚類效果依然欠佳。駕駛行為聚類分析通過譜聚類算法,對(duì)車輛駕駛行為進(jìn)行分類,步驟如下。創(chuàng)建一個(gè)“譜聚類”個(gè)人算法。拖曳一個(gè)已創(chuàng)建好的個(gè)人算法“譜聚類”至工程畫布中,并將該算法重命名為“第一次譜聚類”,連接“數(shù)據(jù)標(biāo)準(zhǔn)化”算法和“第一次譜聚類”算法。駕駛行為聚類分析4.譜聚類配置“第一次譜聚類”算法“字段設(shè)置”。單擊畫布中的“第一次譜聚類”算法,在“字段設(shè)置”中,單擊“特征”旁的按鈕后,選擇除“車輛編碼”以外的所有字段,如圖所示。駕駛行為聚類分析配置“第一次譜聚類”算法“參數(shù)設(shè)置”。在“參數(shù)設(shè)置”中,“聚類數(shù)”設(shè)置為“3”,如圖所示。駕駛行為聚類分析預(yù)覽日志。右鍵單擊“第一次譜聚類”算法,選擇“運(yùn)行該節(jié)點(diǎn)”,運(yùn)行完成后,右鍵單擊該算法,選擇“查看日志”,其結(jié)果如圖所示。由圖可知,進(jìn)行第一次譜聚類后,所得到的譜聚類簇1個(gè)數(shù)為113、簇2個(gè)數(shù)為262、簇3個(gè)數(shù)為73,且在聚類結(jié)果展示圖中,成功將車輛行為分為3類。但橙色(正方形形狀)和綠色(星星形狀)混雜在了一起,無法清楚地進(jìn)行分類,因此需要進(jìn)一步聚類分析,即使用“熄火滑行頻率”“超長(zhǎng)怠速頻率”“疲勞駕駛頻率”“急加速頻率”“急減速頻率”“速度標(biāo)準(zhǔn)差”和“速度差值標(biāo)準(zhǔn)差”屬性進(jìn)行第二次譜聚類。駕駛行為聚類分析由于第二次譜聚類方法和第一次譜聚類方法相似,區(qū)別在于“特征”選擇的不同,所以此處不再贅述。構(gòu)建后的工程如圖所示。駕駛行為聚類分析聚類結(jié)果如圖所示。由圖可知,進(jìn)行第二次譜聚類后,所得到的譜聚類簇1個(gè)數(shù)為168、簇2個(gè)數(shù)為181、簇3個(gè)數(shù)為99,駕駛行為能夠較好地分成3個(gè)類別,由車輛速度標(biāo)準(zhǔn)差、平均速度等數(shù)據(jù),可以大致判斷出橙色(正方形形狀)所代表的類別為“穩(wěn)健型駕駛”;藍(lán)色(圓點(diǎn)形狀)所代表的類別為“激進(jìn)型駕駛”;綠色(星星形狀)所代表的類別為“疲憊型駕駛”。駕駛行為聚類分析1.構(gòu)建線性判別分析模型用戶可通過構(gòu)建線性判別分析模型,用于判定車輛駕駛行為,并對(duì)模型進(jìn)行模型評(píng)價(jià),步驟如下。創(chuàng)建一個(gè)“線性判別分析”個(gè)人算法。拖曳一個(gè)已創(chuàng)建好的個(gè)人算法“線性判別分析”至工程畫布中,連接“第二次譜聚類”算法和“線性判別分析”算法。構(gòu)建駕駛行為預(yù)測(cè)模型為了判定車輛駕駛行為屬于哪種類型,本章將分別使用線性判別分析、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)方法構(gòu)建駕駛行為預(yù)測(cè)模型,并給出各模型的評(píng)價(jià)結(jié)果。配置“線性判別分析”算法。單擊畫布中的“線性判別分析”算法,在“字段設(shè)置”中,單擊“特征”旁的按鈕后,選擇“速度標(biāo)準(zhǔn)差”“速度差值標(biāo)準(zhǔn)差”“急加速頻率”“急減速頻率”“疲勞駕駛頻率”“熄火滑行頻率”和“超長(zhǎng)怠速頻率”字段,“標(biāo)簽”選擇“l(fā)abels”,如圖所示。運(yùn)行節(jié)點(diǎn)。右鍵單擊“線性判別分析”算法,選擇“運(yùn)行該節(jié)點(diǎn)”,運(yùn)行完成后,右鍵單擊該算法,選擇“查看日志”,即可發(fā)現(xiàn)線性判別分析模型的判別精度為94.64%,說明該模型的判別效果較好。構(gòu)建駕駛行為預(yù)測(cè)模型用戶可通過構(gòu)建高斯樸素貝葉斯模型,用于判定車輛駕駛行為,并對(duì)模型進(jìn)行模型評(píng)價(jià),步驟如下。拖曳一個(gè)“樸素貝葉斯”算法至工程畫布中,并將該算法重命名為“高斯樸素貝葉斯”,連接“第二次譜聚類”算法和“高斯樸素貝葉斯”算法。構(gòu)建駕駛行為預(yù)測(cè)模型2.構(gòu)建樸素貝葉斯模型配置“高斯樸素貝葉斯”算法“字段設(shè)置”。單擊畫布中的“高斯樸素貝葉斯”算法,在“字段設(shè)置”中,單擊“特征”旁的按鈕后,選擇“速度標(biāo)準(zhǔn)差”“速度差值標(biāo)準(zhǔn)差”“急加速頻率”“急減速頻率”“疲勞駕駛頻率”“熄火滑行頻率”和“超長(zhǎng)怠速頻率”字段,“標(biāo)簽”選擇“l(fā)abels”,如圖所示。構(gòu)建駕駛行為預(yù)測(cè)模型配置“高斯樸素貝葉斯”算法“參數(shù)設(shè)置”。在“參數(shù)設(shè)置”中,將“類函數(shù)”設(shè)為“高斯樸素貝葉斯”,其余默認(rèn),如圖所示。構(gòu)建駕駛行為預(yù)測(cè)模型預(yù)覽日志。右鍵單擊“高斯樸素貝葉斯”算法,選擇“運(yùn)行該節(jié)點(diǎn)”,運(yùn)行完成后,右鍵單擊該算法,選擇“查看日志”,其結(jié)果如圖所示。由圖可知,先驗(yàn)為高斯分布的樸素貝葉斯準(zhǔn)確率為74%,說明該模型的判別效果還算理想。構(gòu)建駕駛行為預(yù)測(cè)模型由于伯努利樸素貝葉斯模型的構(gòu)建方法和高斯樸素貝葉斯模型的構(gòu)建方法相似,區(qū)別在于“類函數(shù)”的設(shè)置不同
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 科技助力病蟲防治
- 個(gè)人住宅買賣協(xié)議規(guī)范文本(2024)版B版
- 外開門物業(yè)協(xié)議書(2篇)
- 大學(xué)生第三方就業(yè)合同(2篇)
- 2024招投標(biāo)合同試題:大型體育場(chǎng)館設(shè)施租賃3篇
- 2024房產(chǎn)中介與金融機(jī)構(gòu)合作合同2篇
- 專業(yè)測(cè)繪工程協(xié)議模板2024年版一
- 2024技術(shù)咨詢合同樣本書
- 光纜產(chǎn)品采購合同范本大全
- 智慧城市物聯(lián)網(wǎng)建設(shè)協(xié)議
- 基于深度學(xué)習(xí)的醫(yī)學(xué)圖像增強(qiáng)與生成
- 2023《樓體亮化工程施工合同》電子版
- 2023取卵術(shù)相關(guān)風(fēng)險(xiǎn)及處理對(duì)策
- 跌倒-墜床不良事件魚骨圖分析
- 2022礦產(chǎn)地質(zhì)勘查規(guī)范鹽類第2部分:現(xiàn)代鹽湖鹽類
- 發(fā)展?jié)h語初級(jí)口語I-第18課課件
- 海關(guān)HS編碼對(duì)照表
- 原木樁駁岸施工方案
- 大慶油田幾種高難套損井修復(fù)技術(shù)
- 產(chǎn)品方案技術(shù)白皮書模板(含系統(tǒng)架構(gòu)說明書)
- 有害生物防治合同書
評(píng)論
0/150
提交評(píng)論