![Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)-PPT-第8章 基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)新聞文本分類_第1頁(yè)](http://file4.renrendoc.com/view/84e3ae4d0de085033475e2ce135db219/84e3ae4d0de085033475e2ce135db2191.gif)
![Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)-PPT-第8章 基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)新聞文本分類_第2頁(yè)](http://file4.renrendoc.com/view/84e3ae4d0de085033475e2ce135db219/84e3ae4d0de085033475e2ce135db2192.gif)
![Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)-PPT-第8章 基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)新聞文本分類_第3頁(yè)](http://file4.renrendoc.com/view/84e3ae4d0de085033475e2ce135db219/84e3ae4d0de085033475e2ce135db2193.gif)
![Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)-PPT-第8章 基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)新聞文本分類_第4頁(yè)](http://file4.renrendoc.com/view/84e3ae4d0de085033475e2ce135db219/84e3ae4d0de085033475e2ce135db2194.gif)
![Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)-PPT-第8章 基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)新聞文本分類_第5頁(yè)](http://file4.renrendoc.com/view/84e3ae4d0de085033475e2ce135db219/84e3ae4d0de085033475e2ce135db2195.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)新聞文本分類1實(shí)現(xiàn)新聞文本分類目錄
TipDM大數(shù)據(jù)挖掘建模平臺(tái)簡(jiǎn)介2TipDM大數(shù)據(jù)挖掘建模平臺(tái)是由廣東泰迪智能科技股份有限公司自主研發(fā)的面向大數(shù)據(jù)挖掘項(xiàng)目的工具。該平臺(tái)使用Java語(yǔ)言開發(fā),采用瀏覽器/服務(wù)器(Browser/Server,B/S)結(jié)構(gòu),用戶不需要下載客戶端,可通過(guò)瀏覽器進(jìn)行訪問(wèn)。該平臺(tái)具有支持多種語(yǔ)言、操作簡(jiǎn)單、無(wú)須編程語(yǔ)言基礎(chǔ)等特點(diǎn),以流程化的方式對(duì)數(shù)據(jù)輸入/輸出、統(tǒng)計(jì)與分析、數(shù)據(jù)預(yù)處理、挖掘與建模等環(huán)節(jié)進(jìn)行連接,從而達(dá)成大數(shù)據(jù)挖掘的目的。讀者可通過(guò)訪問(wèn)該平臺(tái)查看具體的界面情況,訪問(wèn)平臺(tái)的具體步驟如下。微信搜索公眾號(hào)“泰迪學(xué)社”或“TipDataMining”,并關(guān)注公眾號(hào)。關(guān)注公眾號(hào)后,回復(fù)“建模平臺(tái)”,獲取平臺(tái)的訪問(wèn)方式。平臺(tái)簡(jiǎn)介平臺(tái)界面如右圖所示。平臺(tái)簡(jiǎn)介本章將以文本生成為例,介紹使用平臺(tái)實(shí)現(xiàn)案例的流程。在介紹之前,需要引入平臺(tái)的幾個(gè)概念。組件:對(duì)建模過(guò)程涉及的輸入與輸出、數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理、建模、模型評(píng)估等算法分別進(jìn)行封裝,每一個(gè)封裝好的模塊被稱為組件。組件分為系統(tǒng)組件和個(gè)人組件。系統(tǒng)組件可供所有用戶使用,個(gè)人組件由個(gè)人用戶編輯,僅供個(gè)人賬號(hào)使用。工程:為實(shí)現(xiàn)某一數(shù)據(jù)挖掘目標(biāo),將各組件通過(guò)流程化的方式進(jìn)行連接,整個(gè)數(shù)據(jù)挖掘流程被稱為工程。參數(shù):每個(gè)組件都給用戶提供了需設(shè)置的內(nèi)容,這部分內(nèi)容稱為參數(shù)。共享庫(kù):用戶可以將配置好的工程、數(shù)據(jù)集,分別公開到模型庫(kù)、數(shù)據(jù)集庫(kù)中作為模板,分享給其他用戶,其他用戶可以使用共享庫(kù)中的模板,創(chuàng)建無(wú)須配置組件便可運(yùn)行的工程。平臺(tái)簡(jiǎn)介TipDM大數(shù)據(jù)挖掘建模平臺(tái)主要有以下幾個(gè)特點(diǎn)。平臺(tái)組件基于Python、R以及Spark分布式引擎,進(jìn)行數(shù)據(jù)分析。Python、R以及Spark是目前常見(jiàn)的用于數(shù)據(jù)分析的語(yǔ)言或工具,高度契合行業(yè)需求。用戶可在沒(méi)有Python、R或者Hadoop/Spark編程基礎(chǔ)的情況下,使用直觀的拖曳式圖形界面構(gòu)建數(shù)據(jù)分析流程,無(wú)須編程。提供公開可用的數(shù)據(jù)分析示例工程,一鍵創(chuàng)建、快速運(yùn)行。支持挖掘流程每個(gè)節(jié)點(diǎn)的結(jié)果在線預(yù)覽。平臺(tái)包含Python、R、Spark這3種工具的組件包,用戶可以根據(jù)實(shí)際需求,靈活選擇不同的工具進(jìn)行數(shù)據(jù)挖掘建模。平臺(tái)簡(jiǎn)介登錄平臺(tái)后,用戶即可看到“共享庫(kù)”模塊系統(tǒng)提供的示例工程(模板),如下圖所示。共享庫(kù)“共享庫(kù)”模塊主要用于標(biāo)準(zhǔn)大數(shù)據(jù)挖掘建模案例的快速創(chuàng)建和展示。通過(guò)“共享庫(kù)”模塊,用戶可以創(chuàng)建無(wú)須導(dǎo)入數(shù)據(jù)及配置參數(shù)就能夠快速運(yùn)行的工程。用戶也可以將自己搭建的工程生成為模板,公開到“共享庫(kù)”模塊,供其他用戶一鍵創(chuàng)建實(shí)訓(xùn)。同時(shí),每一個(gè)模板的創(chuàng)建者都具有模板的所有權(quán),能夠?qū)δ0暹M(jìn)行管理共享庫(kù)“
數(shù)據(jù)連接”模塊支持從DB2、SQLServer、MySQL、Oracle、PostgreSQL等常用關(guān)系數(shù)據(jù)庫(kù)導(dǎo)入數(shù)據(jù)。導(dǎo)入數(shù)據(jù)時(shí)的“新建連接”對(duì)話框如下圖所示。在輸入了連接名、連接地址、用戶名、密碼后單擊測(cè)試連接,成功新建數(shù)據(jù)庫(kù)連接。數(shù)據(jù)連接新建數(shù)據(jù)庫(kù)連接后,“數(shù)據(jù)集”模塊主要用于數(shù)據(jù)挖掘建模工程中數(shù)據(jù)的導(dǎo)入與管理,支持從本地導(dǎo)入任意類型的數(shù)據(jù)。導(dǎo)入數(shù)據(jù)時(shí)的“新增數(shù)據(jù)集”對(duì)話框如下圖所示。數(shù)據(jù)連接“我的工程”模塊主要用于數(shù)據(jù)挖掘建模流程化的創(chuàng)建與管理,工程示例流程如下圖所示。我的工程通過(guò)單擊“工程”欄下的
(新建工程)按鈕,用戶可以創(chuàng)建空白工程并通過(guò)“組件”欄下的組件進(jìn)行工程的配置,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模、模型評(píng)估等環(huán)節(jié)通過(guò)流程化的方式進(jìn)行連接,達(dá)到數(shù)據(jù)挖掘的目的。對(duì)于完成度優(yōu)秀的工程,可以將其公開到“共享庫(kù)”中,讓其他使用者學(xué)習(xí)和借鑒。我的工程在“組件”欄下,平臺(tái)提供了輸入/輸出組件、Python組件、R組件、Spark組件等相同組件,如下圖所示。輸入/輸出組件提供工程輸出與輸出組件。包括對(duì)象存儲(chǔ)輸入源、輸出源、hive輸入源、輸出到數(shù)據(jù)庫(kù)、hdfs輸入源、輸入源、數(shù)據(jù)庫(kù)輸入源、http輸入源等。我的工程Python算法包可分為13類,具體如下。“Python腳本”類提供一個(gè)Python代碼編輯框。用戶可以在代碼編輯框中粘貼已經(jīng)寫好的程序代碼并直接運(yùn)行,無(wú)須額外配置算法?!邦A(yù)處理”類提供對(duì)數(shù)據(jù)進(jìn)行清洗的組件,包括數(shù)據(jù)標(biāo)準(zhǔn)化、缺失值處理、表堆疊、數(shù)據(jù)篩選、行列轉(zhuǎn)置、修改列名、衍生變量、數(shù)據(jù)拆分、主鍵合并、新增序列、數(shù)據(jù)排序、記錄去重和分組聚合等?!敖y(tǒng)計(jì)分析”類提供對(duì)數(shù)據(jù)整體情況進(jìn)行統(tǒng)計(jì)的常用組件,包括因子分析、全表統(tǒng)計(jì)、正態(tài)性檢驗(yàn)、相關(guān)性分析、卡方檢驗(yàn)、主成分分析和頻數(shù)統(tǒng)計(jì)等?!皶r(shí)間序列”類提供常用的時(shí)間序列組件,包括ARIMA等?!胺诸悺鳖愄峁┏S玫姆诸惤M件,包括樸素貝葉斯、支持向量機(jī)、CART分類樹、邏輯回歸、神經(jīng)網(wǎng)絡(luò)和K最近鄰等。我的工程“模型評(píng)估”類提供用于模型評(píng)估的組件,包括模型評(píng)估?!澳P皖A(yù)測(cè)”類提供用于模型預(yù)測(cè)的組件,包括模型預(yù)測(cè)“回歸”類提供常用的回歸算法,包括CART回歸樹、線性回歸、支持向量回歸和K最近鄰回歸等?!熬垲悺鳖愄峁┚垲惤M件,包括層次聚類、DBSCAN密度聚類和K-Means等?!瓣P(guān)聯(lián)規(guī)則”類提供常用的關(guān)聯(lián)規(guī)則算法,包括Apriori和FP-Growth等?!拔谋痉治觥鳖愄峁?duì)文本數(shù)據(jù)進(jìn)行清洗、特征提取與分析的常用算法,包括情感分析、文本過(guò)濾、文本分詞、TF-IDF、Word2Vec等?!吧疃葘W(xué)習(xí)”類提供常用的深度學(xué)習(xí)組件,包括循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等?!袄L圖”類提供常用的畫圖組件,包括柱形圖、折線圖、散點(diǎn)圖、餅圖和詞云圖。我的工程R語(yǔ)言組件包含8類,具體如下?!癛語(yǔ)言腳本”類提供一個(gè)R語(yǔ)言代碼編輯框。用戶可以在代碼編輯框中粘貼已經(jīng)寫好的程序代碼并直接運(yùn)行,無(wú)須額外配置組件?!邦A(yù)處理”類提供對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的組件,包括缺失值處理、異常值處理、表連接、表合并、數(shù)據(jù)標(biāo)準(zhǔn)化、記錄去重、數(shù)據(jù)離散化、排序、數(shù)據(jù)拆分、頻數(shù)統(tǒng)計(jì)、新增序列、字符串拆分、字符串拼接、修改列名和衍生變量等?!敖y(tǒng)計(jì)分析”類提供對(duì)數(shù)據(jù)整體情況進(jìn)行統(tǒng)計(jì)的常用組件,包括卡方檢驗(yàn)、因子分析、主成分分析、相關(guān)性分析、正態(tài)性檢驗(yàn)和全表統(tǒng)計(jì)等?!胺诸悺鳖愄峁┏S玫姆诸惤M件,包括樸素貝葉斯、CART分類樹、C4.5分類樹、BP神經(jīng)網(wǎng)絡(luò)、KNN、SVM和邏輯回歸等?!皶r(shí)間序列”類提供常用的時(shí)間序列組件,包括ARIMA和指數(shù)平滑等我的工程“聚類”類提供常用的聚類組件,包括K-Means、DBSCAN和系統(tǒng)聚類等?!盎貧w”類提供常用的回歸組件,包括CART回歸樹、C4.5回歸樹、線性回歸、嶺回歸和KNN回歸等。“關(guān)聯(lián)分析”類提供常用的關(guān)聯(lián)規(guī)則組件,包括Apriori等。我的工程Spark算法包可分為8類,具體如下?!邦A(yù)處理”類提供對(duì)數(shù)據(jù)進(jìn)行清洗的組件,包括數(shù)據(jù)去重、數(shù)據(jù)過(guò)濾、數(shù)據(jù)映射、數(shù)據(jù)反映射、數(shù)據(jù)拆分、數(shù)據(jù)排序、缺失值處理、數(shù)據(jù)標(biāo)準(zhǔn)化、衍生變量、表連接、表堆疊和數(shù)據(jù)離散化等?!敖y(tǒng)計(jì)分析”類提供對(duì)數(shù)據(jù)整體情況進(jìn)行統(tǒng)計(jì)分析的常用算法,包括行列統(tǒng)計(jì)、全表統(tǒng)計(jì)、相關(guān)性分析和重復(fù)值缺失值探索等?!胺诸悺鳖愄峁┏S玫姆诸愃惴?,包括邏輯回歸、決策樹、梯度提升樹、樸素貝葉斯、隨機(jī)森林、線性支持向量機(jī)和多層感知神經(jīng)網(wǎng)絡(luò)等。我的工程“聚類”類提供常用的聚類算法,包括K-Means聚類、二分K-Means聚類和混合高斯模型等?!盎貧w”類提供常用的回歸算法,包括線性回歸、廣義線性回歸、決策樹回歸、梯度提升樹回歸、隨機(jī)森林回歸和保序回歸等。“降維”類提供常用的數(shù)據(jù)降維組件,包括PCA降維?!皡f(xié)同過(guò)濾”類提供常用的智能推薦算法,包括ALS算法等?!邦l繁模式挖掘”類提供常用的頻繁項(xiàng)集挖掘組件,包括FP-Growth。我的工程“個(gè)人組件”模塊主要滿足用戶的個(gè)性化需求。在用戶使用過(guò)程中,可根據(jù)自己的需求定制組件,方便使用。目前該模塊支持通過(guò)Python和R語(yǔ)言進(jìn)行個(gè)人組件的定制,單擊
(添加組件)按鈕,用戶可控制個(gè)人組件,如下圖所示。個(gè)人算法1實(shí)現(xiàn)新聞文本分類目錄
TipDM大數(shù)據(jù)挖掘建模平臺(tái)簡(jiǎn)介2本節(jié)以新聞文本分類案例為例,在TipDM大數(shù)據(jù)挖掘建模平臺(tái)上配置對(duì)應(yīng)實(shí)訓(xùn),展示流程的配置過(guò)程。在平臺(tái)上配置得到的新聞文本分類的最終流程如右圖。實(shí)現(xiàn)新聞文本分類在TipDM大數(shù)據(jù)挖掘建模平臺(tái)上實(shí)現(xiàn)新聞文本分類的總體流程,主要包括以下4個(gè)步驟。數(shù)據(jù)源配置。在TipDM大數(shù)據(jù)挖掘建模平臺(tái)配置新聞文本數(shù)據(jù)、詞向量模型和停用詞的輸入源組件。文本預(yù)處理。讀取原始數(shù)據(jù)后,對(duì)數(shù)據(jù)進(jìn)行記錄去重、缺失值處理、去除轉(zhuǎn)義字符、jieba分詞、去停用詞、表堆疊、數(shù)據(jù)篩選等處理。模型構(gòu)建與訓(xùn)練。構(gòu)建并訓(xùn)練自定義的支持向量機(jī)模型。模型評(píng)價(jià)。將訓(xùn)練數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,對(duì)比模型在測(cè)試集的真實(shí)值與預(yù)測(cè)值,通過(guò)查看日志獲得準(zhǔn)確率并進(jìn)行結(jié)果分析。實(shí)現(xiàn)新聞文本分類本章的數(shù)據(jù)為一份教育新聞數(shù)據(jù)(.csv文件),一份詞向量模型,一份停用詞和一張背景圖片。使用TipDM大數(shù)據(jù)挖掘建模平臺(tái)導(dǎo)入數(shù)據(jù),以.csvcsv文件為例,具體步驟如下。新增數(shù)據(jù)集。單擊“數(shù)據(jù)集”模塊,單擊“新增”按鈕,如下圖。數(shù)據(jù)源配置設(shè)置新增數(shù)據(jù)集參數(shù)。隨意選擇一張封面圖片,在“名稱”文本框中填入“新聞文本”,“有效期(天)”項(xiàng)選擇“永久”,在“描述”文本框中填入“新聞文本”,單擊“點(diǎn)擊上傳”選擇需要上傳的文件。等待顯示成功后,單擊“確定”按鈕,即可上傳,如右圖。數(shù)據(jù)源配置數(shù)據(jù)上傳完成后,新建一個(gè)命名為“新聞文本分類”的空白工程,配置一個(gè)“輸入源”組件,具體步驟如下。拖曳“輸入源”組件。在“工程”欄旁邊的“組件”欄中,找到“系統(tǒng)組件”模塊中的“輸入/輸出組件”類。拖曳“輸入/輸出組件”類中的“輸入源”組件至畫布中。數(shù)據(jù)源配置配置“輸入源”組件。單擊畫布中的“輸入源”組件,然后在擊畫布右側(cè)“參數(shù)配置”欄中的“數(shù)據(jù)集”文本框中,輸入“新聞文本”,在彈出的下拉框中選擇“新聞文本”,在“名稱”列表中勾選“教育新聞數(shù)據(jù).csv”,如下圖。數(shù)據(jù)源配置加載數(shù)據(jù)。右鍵單擊“輸入源”組件,選擇“運(yùn)行該節(jié)點(diǎn)”,運(yùn)行完成后,可看到“輸入源”組件變?yōu)榫G色,如圖所示。右鍵單擊運(yùn)行完成后的“輸入源”組件,選擇“查看日志”,可看到“數(shù)據(jù)載入成功”的信息,如圖所示,說(shuō)明已成功將車輛駕駛行為指標(biāo)數(shù)據(jù)加載到平臺(tái)上。數(shù)據(jù)源配置1.?dāng)?shù)據(jù)清洗數(shù)據(jù)清洗流程為先對(duì)新聞文本數(shù)據(jù)進(jìn)行數(shù)據(jù)讀取,再對(duì)數(shù)據(jù)進(jìn)行記錄去重、缺失值處理、去除轉(zhuǎn)義字符等操作。(1) 數(shù)據(jù)讀取使用【數(shù)據(jù)讀取】組件進(jìn)行數(shù)據(jù)讀取操作。具體步驟如下。拖入一個(gè)【數(shù)據(jù)讀取】組件至工程畫布中,連接【輸入源】組件和【數(shù)據(jù)讀取】組件。
數(shù)據(jù)探索為進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行分析,查看數(shù)據(jù)中各字段所反映出的具體情況,需要對(duì)整體數(shù)據(jù)進(jìn)行數(shù)據(jù)的清洗及可視化展示。右鍵【數(shù)據(jù)讀取】,選擇【運(yùn)行該節(jié)點(diǎn)】。右鍵運(yùn)行完成后的【數(shù)據(jù)讀取】組件,選擇【查看日志】。數(shù)據(jù)探索使用【記錄去重】組件進(jìn)行數(shù)據(jù)去重復(fù)數(shù)據(jù)操作。具體步驟如下。拖入一個(gè)【記錄去重】組件至工程畫布中,連接【數(shù)據(jù)讀取】組件和【記錄去重】組件。數(shù)據(jù)探索(2) 記錄去重在【字段設(shè)置】中,點(diǎn)擊【特征】的“刷新屬性列表”按鈕后,勾選全部字段;點(diǎn)擊【去重主鍵】的“刷新屬性列表”按鈕后,勾選“鏈接詳情”字段,如圖所示。數(shù)據(jù)探索預(yù)覽日志。右鍵【記錄去重】,選擇【運(yùn)行該節(jié)點(diǎn)】。右鍵運(yùn)行完成后的【記錄去重】組件,選擇【查看日志】,其部分結(jié)果如圖所示。在【記錄去重】組件的【查看日志】中可以看到處理前后的數(shù)據(jù)維度均為5列1284行,即教育新聞數(shù)據(jù)中不存在重復(fù)數(shù)據(jù)。數(shù)據(jù)探索使用【缺失值】組件進(jìn)行數(shù)據(jù)缺失值刪除。具體步驟如下。拖入一個(gè)【缺失值處理】組件至工程畫布中,連接【記錄去重】組件和【缺失值處理】組件。數(shù)據(jù)探索(3) 缺失值處理在【參數(shù)設(shè)置】中,點(diǎn)擊【特征】的“刷新屬性列表”按鈕后,勾選全部字段,處理缺失值方式選擇“按行刪除”,如圖所示。數(shù)據(jù)探索右鍵【缺失值處理】組件,選擇【運(yùn)行該節(jié)點(diǎn)】。右鍵運(yùn)行后的【缺失值處理】組件,選擇【查看日志】。在【缺失值處理】組件的【查看日志】中可以看到,已完成每個(gè)字段的缺失值處理,處理后的數(shù)據(jù)維度為1262行5列。數(shù)據(jù)探索使用【去除轉(zhuǎn)義符】組件進(jìn)行新聞內(nèi)容去除轉(zhuǎn)義符。具體步驟如下。拖入一個(gè)【去除轉(zhuǎn)義字符】組件至工程畫布中,連接【缺失值處理】組件和【缺失值處理】組件。數(shù)據(jù)探索(4) 去除轉(zhuǎn)義字符在【參數(shù)設(shè)置】中,【需要去除的列】填入“新聞內(nèi)容”,如圖所示。數(shù)據(jù)探索預(yù)覽日志。右鍵【去除轉(zhuǎn)義字符】組件,選擇【運(yùn)行該節(jié)點(diǎn)】。右鍵運(yùn)行后的【缺失值處理】組件,選擇【查看數(shù)據(jù)】,如圖所示。數(shù)據(jù)探索使用【可視化】組件進(jìn)行數(shù)據(jù)可視化展示。具體步驟如下。拖入一個(gè)【可視化】組件至工程畫布中,連接【去除轉(zhuǎn)義字符】組件和【可視化】組件。數(shù)據(jù)探索2.可視化展示預(yù)覽日志。右鍵【可視化】,選擇【運(yùn)行該節(jié)點(diǎn)】。右鍵運(yùn)行完成后的【可視化】組件,選擇【查看日志】,如圖所示。數(shù)據(jù)探索預(yù)覽日志。數(shù)據(jù)探索對(duì)文本進(jìn)行基礎(chǔ)處理,包括了對(duì)數(shù)據(jù)進(jìn)行jieba分詞、去停用詞等操作。1.載入停用詞利用【輸入源】組件,傳入停用詞文本,具體步驟如下。拖入一個(gè)【輸入源】組件至工程畫布中,右鍵【輸入源】組件,設(shè)置重命名為【stopword】。文本預(yù)處理【stopword】組件【參數(shù)配置】的設(shè)置內(nèi)容如表所示。根據(jù)表選擇對(duì)應(yīng)的文件進(jìn)行設(shè)置。文本預(yù)處理參數(shù)配置參數(shù)設(shè)置內(nèi)容1數(shù)據(jù)集新聞文本2文件列表stopword.txt預(yù)覽日志。右鍵【stopword】組件,選擇【運(yùn)行該節(jié)點(diǎn)】。右鍵運(yùn)行后的【stopword】組件,選擇【查看日志】。文本預(yù)處理使用【分詞】組件讀入文本數(shù)據(jù)、停用詞詞典,對(duì)文本數(shù)據(jù)進(jìn)行分詞操作。拖入一個(gè)【分詞】組件至工程畫布中。連接【去除轉(zhuǎn)義符】組件、【stopword】組件和【分詞】組件。文本預(yù)處理2.jieba分詞在【參數(shù)設(shè)置】中,點(diǎn)擊【特征】的“刷新屬性列表”按鈕后,點(diǎn)擊“下拉框”按鈕,選擇【新聞內(nèi)容】。其余參數(shù)保持默認(rèn)即可。文本預(yù)處理預(yù)覽日志。右鍵【分詞】組件,選擇【運(yùn)行該節(jié)點(diǎn)】。右鍵運(yùn)行后的【分詞】組件,選擇【查看日志】。部分結(jié)果如圖所示。文本預(yù)處理
整合處理后得到的新聞內(nèi)容分詞和標(biāo)簽數(shù)據(jù),具體步驟如下。將【表堆疊】組件拖入工程畫布中。將【去除轉(zhuǎn)義字符】組件、【分詞】組件分別和【表堆疊】組件連接。文本預(yù)處理3.表堆疊在【字段設(shè)置】中,點(diǎn)擊【表1特征】的“刷新屬性列表”按鈕后,勾選“欄目名稱”字段,然后點(diǎn)擊【表2特征】的“刷新屬性列表”按鈕,勾選“新聞內(nèi)容_cut”字段。文本預(yù)處理在【參數(shù)設(shè)置】的【合并方式】中,選擇“按列合并”。文本預(yù)處理預(yù)覽日志。右鍵【表堆疊】組件,選擇【運(yùn)行該節(jié)點(diǎn)】。右鍵運(yùn)行完成后的【表堆疊】,選擇【查看日志】。部分結(jié)果如圖所示。文本預(yù)處理
使用【數(shù)據(jù)篩選】組件完成未分類數(shù)據(jù)篩選操作,具體步驟如下。拖入一個(gè)【數(shù)據(jù)篩選】組件至工程畫布中,連接【表堆疊】組件和【數(shù)據(jù)篩選】組件。右鍵【數(shù)據(jù)篩選】組件,設(shè)置重命名為【未分類數(shù)據(jù)】。文本預(yù)處理4.篩選未分類數(shù)據(jù)【未分類數(shù)據(jù)】組件【參數(shù)配置】的設(shè)置內(nèi)容如表所示。在【參數(shù)設(shè)置】中,點(diǎn)擊【特征】的“刷新屬性列表”按鈕后,勾選全部特征。點(diǎn)擊【篩選條件】的“刷新屬性列表”按鈕后,根據(jù)表設(shè)置篩選條件。文本預(yù)處理參數(shù)配置參數(shù)設(shè)置內(nèi)容1特征全選2篩選條件“與”+“欄目名稱”+“等于”+“滾動(dòng)”“或”+“欄目名稱”+“等于”+“原創(chuàng)”預(yù)覽日志。右鍵【未分類數(shù)據(jù)】組件,選擇【運(yùn)行該節(jié)點(diǎn)】。右鍵運(yùn)行后的【未分類數(shù)據(jù)】組件,選擇【查看日志】。部分結(jié)果如圖所示。文本預(yù)處理
使用【數(shù)據(jù)篩選】組件完成訓(xùn)練數(shù)據(jù)篩選操作,具體步驟如下。拖入一個(gè)【數(shù)據(jù)篩選】組件至工程畫布中,連接【表堆疊】組件和【數(shù)據(jù)篩選】組件。右鍵【數(shù)據(jù)篩選】組件,設(shè)置重命名為【訓(xùn)練數(shù)據(jù)】。文本預(yù)處理5.篩選訓(xùn)練數(shù)據(jù)【訓(xùn)練數(shù)據(jù)】組件【參數(shù)配置】的設(shè)置內(nèi)容如表所示。在【參數(shù)設(shè)置】中,點(diǎn)擊【特征】的“刷新屬性列表”按鈕后,勾選全部特征。點(diǎn)擊【篩選條件】的“刷新屬性列表”按鈕后,根據(jù)表設(shè)置篩選條件。文本預(yù)處理參數(shù)配置參數(shù)設(shè)置內(nèi)容1特征全選2篩選條件“與”+“欄目名稱”+“不等于”+“滾動(dòng)”“與”+“欄目名稱”+“不等于”+“原創(chuàng)”預(yù)覽日志。右鍵【訓(xùn)練數(shù)據(jù)】組件,選擇【運(yùn)行該節(jié)點(diǎn)】。右鍵運(yùn)行后的【訓(xùn)練數(shù)據(jù)】組件,選擇【查看日志】。部分結(jié)果如圖所示。文本預(yù)處理
利用【詞頻統(tǒng)計(jì)】組件,對(duì)經(jīng)過(guò)分詞后的新聞內(nèi)容的詞匯出現(xiàn)的頻數(shù)進(jìn)行統(tǒng)計(jì),并將詞匯按頻數(shù)由大到小進(jìn)行排序。拖入一個(gè)【詞頻統(tǒng)計(jì)】組件至工程畫布中,連接【未分類數(shù)據(jù)】組件和【詞頻統(tǒng)計(jì)】組件。文本預(yù)處理6.詞頻統(tǒng)計(jì)在【字段配置】中,點(diǎn)擊【特征】的“刷新屬性列表”按鈕后,選擇【新聞內(nèi)容_cut】。文本預(yù)處理預(yù)覽日志。右鍵【詞頻統(tǒng)計(jì)】組件,選擇【運(yùn)行該節(jié)點(diǎn)】。右鍵運(yùn)行后的【詞頻統(tǒng)計(jì)】組件,選擇【查看日志】。文本預(yù)處理
利用【輸入源】組件,將詞云圖的背景形狀圖像傳入【詞云圖】組件,取該圖像形狀作為詞云圖的形狀。拖入一個(gè)【輸入源】組件至工程畫布中,右鍵【輸入源】組件,設(shè)置重命名為【背景圖】。文本預(yù)處理7.傳入詞云圖背景圖【背景圖】組件【參數(shù)配置】的設(shè)置內(nèi)容如表所示。根據(jù)表選擇對(duì)應(yīng)的文件進(jìn)行設(shè)置。文本預(yù)處理參數(shù)配置參數(shù)設(shè)置內(nèi)容1數(shù)據(jù)集新聞文本2文件列表background.jpg預(yù)覽日志。右鍵【word2vec】組件,選擇【運(yùn)行該節(jié)點(diǎn)】。右鍵運(yùn)行后的【word2vec】組件,選擇【查看日志】。文本預(yù)處理利用【詞云圖】組件,繪制未分類數(shù)據(jù)詞云圖展示其中出現(xiàn)的高頻詞匯,具體步驟如下。拖入一個(gè)【詞云圖】組件至工程畫布中,連接【詞頻統(tǒng)計(jì)】組件、【背景圖】組件和【詞云圖】組件。文本預(yù)處理8.繪制詞云圖在【參數(shù)配置】中,點(diǎn)擊【詞列】的“刷新屬性列表”按鈕后,選擇【_c0】。點(diǎn)擊【詞頻列】的“刷新屬性列表”按鈕后,選擇【_頻次】。文本預(yù)處理在【樣式設(shè)置】中,將【最大字體字號(hào)】改為【100】,【縮放】改為【1】。其余按默認(rèn)即可。文本預(yù)處理預(yù)覽日志。右鍵【詞云圖】組件,選擇【運(yùn)行該節(jié)點(diǎn)】。右鍵運(yùn)行后的【詞云圖】,選擇【查看
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年成都房產(chǎn)預(yù)約買賣居間服務(wù)合同
- 2025年公司租賃共享協(xié)議模板
- 2025年報(bào)廢汽車收購(gòu)與再利用諒解協(xié)議
- 2025年建筑工人雇傭合同樣本
- 2025年建設(shè)銀行二手住房貸款合同
- 2025年全球研發(fā)合作與專利授權(quán)合同范本
- 2025年工程退款協(xié)議書模板下載
- 2025年專業(yè)清潔服務(wù)勞動(dòng)合同范本
- 2025年分公司之間業(yè)務(wù)合作與分工的策劃協(xié)議
- 2025年交通工具抵債協(xié)議
- 攝影測(cè)量學(xué)實(shí)習(xí)指導(dǎo)書
- 安全生產(chǎn)事故調(diào)查與案例分析(第3版)課件 呂淑然 第5章 事故案例評(píng)析
- 2023版交安A、B、C證考試題庫(kù)含答案
- 樓梯 欄桿 欄板(一)22J403-1
- 學(xué)生綜合素質(zhì)評(píng)定與職業(yè)規(guī)劃的關(guān)聯(lián)性分析
- 2025云南省貴金屬新材料控股集團(tuán)限公司面向高校畢業(yè)生專項(xiàng)招聘144人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 勞動(dòng)法培訓(xùn)課件
- 香港及內(nèi)地傳真號(hào)碼
- 湖北中煙工業(yè)限責(zé)任公司2025年招聘(技術(shù)類和業(yè)務(wù)類崗位)【43人】高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2024-2025學(xué)年成都市成華區(qū)七年級(jí)上英語(yǔ)期末考試題(含答案)
- 石家莊市長(zhǎng)安區(qū)學(xué)年三年級(jí)數(shù)學(xué)第一學(xué)期期末檢測(cè)試題含解析
評(píng)論
0/150
提交評(píng)論