版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
天問一號事件中的網(wǎng)民評論情感分析目錄1分析方法與過程業(yè)務(wù)背景與項目目標(biāo)2小結(jié)3天問一號是由中國空間技術(shù)研究院研制的探測器,負(fù)責(zé)執(zhí)行中國第一次自主火星探測的任務(wù)。情感分析,又稱意見挖掘、傾向性分析等。是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。業(yè)務(wù)背景結(jié)合當(dāng)前開放式的網(wǎng)絡(luò)環(huán)境,對天問一號事件中bilibili網(wǎng)站用戶所發(fā)表的觀點和評論等文本數(shù)據(jù)進(jìn)行收集整理,并進(jìn)行評論文本的情感分析,可以直觀地體現(xiàn)網(wǎng)絡(luò)用戶對于天問一號成功登陸火星事件的情感傾向。對于了解網(wǎng)絡(luò)用戶對于中國航天事業(yè)發(fā)展的認(rèn)知度與認(rèn)可度,有著一定的參考價值與可觀之處。業(yè)務(wù)背景從“天問一號成功著陸火星”事件入手,爬取了天問一號發(fā)射與登陸火星前后的bilibili相關(guān)視頻下的用戶評論,組成評論數(shù)據(jù)csv文件,爬取的內(nèi)容包括用戶名、點贊數(shù)、評論內(nèi)容、視頻網(wǎng)址等。評論數(shù)據(jù)的時間窗口從2020年4月24日至2021年7月7日,共爬取了10380條數(shù)據(jù)。根據(jù)提供的評論數(shù)據(jù),結(jié)合輿論分析的場景,對用戶針對天問一號事件的情感表現(xiàn)進(jìn)行分類,分類標(biāo)簽分為-1(表示負(fù)面評論)、0(表示中性評論)以及1(表示正面評論)。數(shù)據(jù)說明“天問一號成功著陸火星”bilibili相關(guān)視頻部分評論信息如下表。數(shù)據(jù)說明評論時間點贊數(shù)評論內(nèi)容類別2021/5/153我國首次火星探測任務(wù)著陸火星于207:18圓滿成功!12020/12/207嫦娥回來啦,可惜的是月球上不能種菜[大哭]現(xiàn)在希望全在靚仔身上了[doge-圣誕]12020/12/175嫦娥五號回家啦?。doge]02020/8/231中國加油12020/8/186天問一號,你已經(jīng)是一個成熟的探測器了,你要加油??,咱們明年見02020/8/150前往未止,發(fā)現(xiàn)未知12020/8/90今年廣東省考出了題目,問“天問一號”的目的地0正面評論表達(dá)了bilibili網(wǎng)站用戶對天問一號成功登陸火星的喜悅之感,同時表現(xiàn)出對中國航天事業(yè)的殷切期望與祝愿,對中國航天事業(yè)充滿期待。負(fù)面評論表達(dá)了部分網(wǎng)絡(luò)用戶對于天問一號成功登陸火星的不以為然,又或是對于視頻形式、背景音樂等的反感。中性評論則是網(wǎng)絡(luò)用戶對于該事件的客觀評價與分析,既不過分吹噓他國實力也不貶低自身國家成就,或者是表達(dá)自己對于太空宇宙的想象,又或是提出自身的疑問、建議等,沒有明顯或直接表現(xiàn)出自身的態(tài)度立場。數(shù)據(jù)說明目標(biāo)繪制評論數(shù)據(jù)的詞云圖和繪制不同情感類型評論數(shù)據(jù)的詞云圖基于樸素貝葉斯原理構(gòu)建模型對bilibili用戶評論做情感分析項目目標(biāo)案例結(jié)合爬取到的關(guān)于天問一號事件的bilibili用戶評論數(shù)據(jù),實現(xiàn)以下目標(biāo)?!疤靻栆惶柍晒χ懟鹦恰卑咐鞒虉D如下。項目目標(biāo)“天問一號成功著陸火星”案例主要步驟如下。數(shù)據(jù)探索:通過可視化的方法分析不同情感類型的評論數(shù)量分布、每月評論量的變化和獲贊數(shù)前10的評論的獲贊數(shù)。文本預(yù)處理:對抽取到的數(shù)據(jù)進(jìn)行清洗、特殊字符處理、中文分詞、停用詞過濾和詞云圖分析。構(gòu)建模型與訓(xùn)練:將分詞結(jié)果進(jìn)行特征向量化,將數(shù)據(jù)集劃分成訓(xùn)練集和測試集,并構(gòu)建樸素貝葉斯模型進(jìn)行分類。模型評估:通過混淆矩陣、準(zhǔn)確率、精確率等評價指標(biāo)對模型分類效果進(jìn)行評價。項目目標(biāo)數(shù)據(jù)探索文本預(yù)處理構(gòu)建模型與訓(xùn)練模型評估目錄1分析方法與過程業(yè)務(wù)背景與項目目標(biāo)2小結(jié)3案例中使用的數(shù)據(jù)是從bilibili爬取的有關(guān)天問一號成功登陸火星事件的相關(guān)視頻下的評論數(shù)據(jù),格式為csv文件。使用pandas庫中的read_csv函數(shù)讀取數(shù)據(jù)集,對特征“類別”中的不同類型進(jìn)行計數(shù)并進(jìn)行計數(shù)。然后使用Matplotlib庫pyplot模塊中的pie函數(shù)繪制不同評論類型的數(shù)量分布餅圖。數(shù)據(jù)探索1.不同情感類型評論的數(shù)量分布
從圖中可以看出,在所有的評論數(shù)據(jù)中,中性評論占比49.95%,正面評論占比45.66%,負(fù)面評論占比4.39%。正面評論占比遠(yuǎn)遠(yuǎn)高于負(fù)面評論,說明大部分的用戶并沒有對天問一號持有消極觀念,并對中國的航天事業(yè)抱有期望。同時也有相當(dāng)一部分的網(wǎng)友持中立觀點,并對天問一號事件發(fā)表了自己的看法和建議??傮w來看,bilibili用戶對天問一號傾向于積極支持的態(tài)度。數(shù)據(jù)探索為查看2020年4月24日至2021年7月7日間每個月的用戶評論量情況。首先需要統(tǒng)計所涉及的時間范圍,并刪除時間不是2020-2021年的數(shù)據(jù)。然后使用groupby函數(shù)和sum函數(shù)對“評論時間”列進(jìn)行分組統(tǒng)計評論量,最后使用plot函數(shù)繪制折線圖。數(shù)據(jù)探索2.每月的評論量通過折線圖可以看出,根據(jù)事件發(fā)展及評論量隨時間的變化趨勢,將用戶評論時間分為5個階段,分別為初始期,爆發(fā)期、驟減期、再次爆發(fā)期和平穩(wěn)期。數(shù)據(jù)探索數(shù)據(jù)集中有個特征為點贊數(shù),點贊是指其他用戶同意該用戶的評論觀點,點贊數(shù)則是點贊這個行為的數(shù)量,點贊數(shù)越多意味著持有相同觀點的人越多。為了解2020年4月24日至2021年7月7日間天問一號發(fā)射與登陸前后相關(guān)視頻下bilibili用戶文本評論中哪些評論獲得的點贊數(shù)最多,即哪條評論的獲贊數(shù)最多,以特征點贊數(shù)進(jìn)行排序,并取其中排名前10的評論繪制柱狀圖。數(shù)據(jù)探索3.獲贊數(shù)前10的評論從圖中可以看出,排名第1與第2的評論獲贊數(shù)均超出了一萬。排名第3的評論為“《天問》是中國戰(zhàn)國時期詩人屈原創(chuàng)作的一首長詩。除前3名外,第4名至第10名的獲贊數(shù)相差不大。數(shù)據(jù)探索數(shù)據(jù)清洗的主要目的是從業(yè)務(wù)和模型的相關(guān)需求考慮,篩選出需要的數(shù)據(jù)。對于用戶評論,有些用戶如果對某個評論持有相同看法,如果不處理重復(fù)的評論直接進(jìn)行建模會影響分析的效率。因此,需要對重復(fù)的評論進(jìn)行去重,保留一條即可。同時還可能會存在部分評論相似程度極高的情況,此類評論可能存在不少有用的信息,去除這類評論顯然不合適。因此,為了存留更多的有用評論,只針對完全重復(fù)的評論進(jìn)行去重,僅刪除完全重復(fù)部分,以確保盡可能保留有用的評論文本信息。文本預(yù)處理1.數(shù)據(jù)清洗經(jīng)過觀察數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)中存在空格、制表符、字母等特殊字符,這些信息對于模型的建模分析是無意義的,因此,在數(shù)據(jù)處理前需要先將這類特殊字符處理干凈。剔除特殊字符之后的數(shù)據(jù)如下表。文本預(yù)處理2.特殊字符處理評論時間點贊數(shù)評論內(nèi)容類別2021/5/150一年了著陸了著陸了給心心給心心12021/5/150已經(jīng)著落12021/5/150一年了啊12021/5/153我國首次火星探測任務(wù)著陸火星于圓滿成功12021/5/152著陸了1分詞是文本信息處理的基礎(chǔ)環(huán)節(jié),是將句子切分成一個個詞的過程。準(zhǔn)確的分詞處理可以極大的提高計算機對文本信息的識別理解能力。相反,不準(zhǔn)確的分詞處理會產(chǎn)生大量的噪聲,嚴(yán)重干擾計算機的識別理解能力,并對后續(xù)的處理工作產(chǎn)生較大的影響。文本預(yù)處理3.中文分詞使用jieba中文分詞的基本步驟如下。文本預(yù)處理導(dǎo)入jieba庫并建立一個輔助函數(shù)chinese_word_cut調(diào)用函數(shù)chinese_word_cut完成對評論數(shù)據(jù)的分詞查看分詞后的效果使用jieba中文分詞后的數(shù)據(jù)如下表。文本預(yù)處理分詞前評論內(nèi)容分詞后評論內(nèi)容一年了著陸了著陸了給心心給心心['一年','了','著陸','了','著陸','了','給','心心','給','心心']已經(jīng)著落['已經(jīng)','著落']一年了啊['一年','了','啊']我國首次火星探測任務(wù)著陸火星于圓滿成功['我國','首次','火星','探測','任務(wù)','著陸','火星','于','圓滿成功']著陸了['著陸','了']為了節(jié)省存儲空間和提高搜索效率,在索引頁面或處理搜索請求時會自動忽略某些字或詞,這些被忽略掉的字或詞就被稱為停用詞。因為使用頻率過高,會大量出現(xiàn)在文本中,在進(jìn)行統(tǒng)計詞頻的時候會增加噪音數(shù)據(jù)量,因此需要將這些停用詞進(jìn)行過濾。文本預(yù)處理4.停用詞過濾采用哈爾濱工業(yè)大學(xué)的停用詞表stopwordsHIT.txt進(jìn)行去停用詞處理,得到去除停用詞后的數(shù)據(jù),如下表。文本預(yù)處理去停用詞前評論內(nèi)容去停用詞后評論內(nèi)容一年了著陸了著陸了給心心給心心['一年','著陸','著陸','心心','心心']已經(jīng)著落['已經(jīng)','著落']一年了啊['一年']我國首次火星探測任務(wù)著陸火星于圓滿成功['我國','首次','火星','探測','任務(wù)','著陸','火星','圓滿成功']著陸了['著陸']進(jìn)行數(shù)據(jù)預(yù)處理后,可繪制詞云圖查看分詞效果。這需要對詞語進(jìn)行詞頻統(tǒng)計,將詞頻降序排序,然后選擇排名前1000的詞,使用wordcloud模塊中的WordCloud繪制詞云圖,查看分詞效果。繪制詞云圖1.繪制評論數(shù)據(jù)的詞云圖從圖中可以看出,對評論數(shù)據(jù)進(jìn)行預(yù)處理后,分詞效果大致符合預(yù)期。其中火星、成功、中國、星辰、加油等詞出現(xiàn)頻率較高。因此,可以初步判斷bilibili用戶對天問一號事件的評論中包含這些詞的評論比較多。繪制詞云圖進(jìn)行數(shù)據(jù)預(yù)處理后,可繪制不同情感類型評論數(shù)據(jù)的詞云圖。首先,需要對不同情感類型的評論詞語進(jìn)行詞頻統(tǒng)計,將詞頻降序排序。然后選擇前1000個詞,使用wordcloud模塊中的WordCloud繪制詞云圖,查看分詞效果。繪制詞云圖2.不同情感類型評論數(shù)據(jù)的詞云圖負(fù)面評論數(shù)據(jù)詞云圖如下圖,從圖中可以看出,負(fù)面評論的詞語中否定詞“不”“失敗”較多。繪制詞云圖中性評論數(shù)據(jù)詞云圖如下圖,從圖中可以看出,中性評論中存在與“天問一號”不相關(guān)的詞語,例如“系列”“種菜”等。繪制詞云圖正面評論數(shù)據(jù)詞云圖如右圖,從圖中可以看出正面評論的詞語中較多的有“加油”和“成功”“支持”等。負(fù)面評論大多不看好天問一號,認(rèn)為探測任務(wù)會以失敗告終。正面評論大多對天問一號探測任務(wù)表示支持,看好中國航天的發(fā)展。所以分詞結(jié)果基本符合用戶的評論情感。繪制詞云圖樸素貝葉斯分類分為三個階段,算法流程圖如下。使用樸素貝葉斯構(gòu)建情感分析模型1.樸素貝葉斯的原理三個階段。準(zhǔn)備階段:該階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。模型訓(xùn)練階段:該階段的輸入是特征屬性和訓(xùn)練樣本,輸出是分類模型。應(yīng)用階段:該階段的輸入是分類模型和待分類項,輸出是待分類項與類別的映射關(guān)系。使用樸素貝葉斯構(gòu)建情感分析模型數(shù)據(jù)經(jīng)過預(yù)處理之后,就進(jìn)入使用模型算法處理的過程。案例使用樸素貝葉斯算法,準(zhǔn)備階段包括確定特征屬性(又稱為文本向量化)和劃分?jǐn)?shù)據(jù)集,以及分類器訓(xùn)練階段使用多項式樸素貝葉斯(MultinomialNB)模型進(jìn)行訓(xùn)練,然后進(jìn)行模型評估。使用樸素貝葉斯構(gòu)建情感分析模型2.構(gòu)建情感分析模型(1)文本向量化由于文本數(shù)據(jù)無法直接用于建模,因此需要將文本表示成計算機能夠直接處理的形式,即文本向量化。詞頻文檔矩陣將文本數(shù)據(jù)進(jìn)行向量化,其中每一行表示一篇文檔,列表示所有文檔中的詞,其交叉項數(shù)值則為該詞在這篇文檔出現(xiàn)的次數(shù)。在Python中sklearn庫包含許多可以實現(xiàn)文本數(shù)據(jù)統(tǒng)計的函數(shù),其中CountVectorizer函數(shù)可以統(tǒng)計分詞后的詞頻,TfidfTransformer函數(shù)可以對每個詞賦予不同的權(quán)重,以此來找到權(quán)重比較大的詞,也就是重要的特征屬性,這一步稱為轉(zhuǎn)化成TF-IDF權(quán)重向量。使用樸素貝葉斯構(gòu)建情感分析模型使用兩張方法分別得到評論詞語矩陣1和評論詞語矩陣2。第一種方法先使用默認(rèn)參數(shù)建立一個CountVectorizer類的實例vect,它只考慮每種詞匯在該訓(xùn)練文本中出現(xiàn)的頻率通過fit_transform()方法計算各個詞語出現(xiàn)的次數(shù),再通過pandas庫轉(zhuǎn)數(shù)據(jù)框。第二種方法則使用CountVectorizer類的參數(shù)設(shè)置。由于部分特征是無意義的,因此需要對CountVectorizer類的參數(shù)設(shè)置進(jìn)行改進(jìn),一共設(shè)置了3層特征詞匯過濾。這三層分別為去除超過所設(shè)置比例的文檔中出現(xiàn)的關(guān)鍵詞和去除低于所設(shè)置數(shù)量的文檔中出現(xiàn)的關(guān)鍵詞去除掉、設(shè)置過濾規(guī)則和設(shè)置停用詞。使用樸素貝葉斯構(gòu)建情感分析模型第一種方法得到得到的文檔詞條矩陣部分結(jié)果展示如下。使用樸素貝葉斯構(gòu)建情感分析模型
[]一丁七萬丈三上下…01110010000…11100000000…21110000000…31100000000…41100000000…………………………………第二種方法得到得到的文檔詞條矩陣部分結(jié)果展示如下。使用樸素貝葉斯構(gòu)建情感分析模型
一七萬三上下不與專世…01000010000…10000000000…21000000000…30000000000…40000000000…………………………………(2)劃分?jǐn)?shù)據(jù)集劃分?jǐn)?shù)據(jù)集使用train_test_split函數(shù),在默認(rèn)模式下函數(shù)對訓(xùn)練集和測試集的劃分比例為3:1。案例設(shè)置參數(shù)test_size(測試集大?。?.2,也就是設(shè)定訓(xùn)練集和測試集的劃分比例為4:1。設(shè)定參數(shù)random_state(隨機種子)的取值,其目的是為了保證在不同環(huán)境中隨機數(shù)取值一致,以便驗證模型的實際效果。使用樸素貝葉斯構(gòu)建情感分析模型(3)訓(xùn)練模型評論數(shù)據(jù)訓(xùn)練集已經(jīng)經(jīng)過文本向量化處理,利用向量化處理后生成的特征矩陣來訓(xùn)練模型。案例使用的數(shù)據(jù)涉及特征變量是離散型的,因此采用多項式樸素貝葉斯(Multinomialnaivebayes)分類模型。使用sklearn庫中naive_bayes模塊的MultinomialNB類可以實現(xiàn)多項式樸素貝葉斯算法,對數(shù)據(jù)進(jìn)行分類,MultinomialNB類的基本使用格式如下。classnaive_bayes.MultinomialNB(alpha=1.0,fit_prior=True,class_prior=None)使用樸素貝葉斯構(gòu)建情感分析模型MultinomialNB類常用的參數(shù)及其說明如下表。使用樸素貝葉斯構(gòu)建情感分析模型參數(shù)名稱參數(shù)說明alpha接收float,表示附加的平滑參數(shù)(Laplace/Lidstone),0是不平滑,默認(rèn)為1.0fit_prior接收boolean,表示是否是學(xué)習(xí)經(jīng)典先驗概率,如果False則采用uniform先驗,默認(rèn)為Trueclass_prior接收array-like,size(n_classes),表示是否指定類的先驗概率;若指定則不能根據(jù)參數(shù)調(diào)整,默認(rèn)為None構(gòu)建、訓(xùn)練模型并進(jìn)行分類預(yù)測,得到分類預(yù)測的結(jié)果,如下表。使用樸素貝葉斯構(gòu)建情感分析模型indexcutted_content類別_pre10230['征途','星辰','大海','加油']111183['終于','拯救','樓主']003946['留下','足跡']013501['蕪湖']115466['第一','熱詞','系列','知識','增加']00…………從表中可以看出,貝葉斯分類預(yù)測模型結(jié)果中大部分分類預(yù)測結(jié)果與真實類別一致,但也出現(xiàn)少數(shù)評論情感類型預(yù)測分類結(jié)果與真實類別不一致(如索引為3946的記錄),因此需要對模型性能進(jìn)行評價。在分類型模型評判的指標(biāo)中,常見的方法有混淆矩陣(也稱誤差矩陣,ConfusionMatrix)、ROC曲線、AUC面積3種。其中,混淆矩陣是繪制ROC曲線的基礎(chǔ),同時它也是衡量分類模型準(zhǔn)確度中最基本、最直觀、計算過程常用方法之一。分別統(tǒng)計分類模型歸錯類,歸對類的觀測值個數(shù),然后將結(jié)果放在一個表里展示出來,得到的這個表就是混淆矩陣。模型評估簡單簡單的二分類問題的混淆矩陣如下表。矩陣中的TP表示預(yù)測為1,實際為1,預(yù)測正確;FP表示預(yù)測為1,實際為0,預(yù)測錯誤;FN表示預(yù)測為0,實際為1,預(yù)測錯誤;TN表示預(yù)測為0,實際為0,預(yù)測正確。模型評估
實際結(jié)果10預(yù)測結(jié)果1TPFN0FPTN混淆矩陣?yán)锩娼y(tǒng)計的是個數(shù),有時候面對大量的數(shù)據(jù),光憑算個數(shù),很難衡量模型的優(yōu)劣。因此混淆矩陣在基本的統(tǒng)計結(jié)果上又延伸了4個指標(biāo),準(zhǔn)確率、精確度、召回率和F1值。準(zhǔn)確率:為預(yù)測正確的結(jié)果占總樣本的百分比;精確度:指在一定實驗條件下多次測定的平均值與真實值相符合的程度,以誤差來表示,用于表示系統(tǒng)誤差的大??;召回率:廣泛用于信息檢索和統(tǒng)計學(xué)分類領(lǐng)域的度量值,用于評價結(jié)果的質(zhì)量;F-Measure:綜合考慮精確度與召回率。模型評估案例選用這4個指標(biāo)評價所構(gòu)建的模型。案例研究情感類別的識別,更關(guān)心負(fù)面評論的判別情況,所以召回率表示被正確分類的負(fù)面評論所占的比例,召回率越高,表示模型將負(fù)面評論誤劃分為正面評論的模型概率越低,模型效果越好。精確度主要關(guān)注的是被劃分為負(fù)面評論的樣本中實際為負(fù)面評論的樣本所占的比例,精確度越高,模型分類效果越好。模型評估得到多項式貝葉斯模型的評價指標(biāo)值如下表。
多項式貝葉斯模型的性能分析報告如下表。模型評估模型準(zhǔn)確率(%)精確率(%)召回率(%)F值(%)多項式貝葉斯模型69.1769.1769.1769.17類別精確率(%)召回率(%)F值(%)-123232306868681747474這里使用的是第二種詞頻統(tǒng)計的方法,然后劃分?jǐn)?shù)據(jù)集,將常見或低頻的關(guān)鍵詞去掉,而這些關(guān)鍵詞當(dāng)中也可能有能夠充分表現(xiàn)出網(wǎng)名評論的一個情感立場,特征數(shù)減少太多,一定程度上會影響模型的準(zhǔn)確率與預(yù)測準(zhǔn)確率等性能數(shù)值。這里我們使用第一種詞頻統(tǒng)計方法,然后劃分訓(xùn)練集,并建立貝葉斯模型查看效果,進(jìn)行結(jié)果的比對。模型評估多項式貝葉斯模型評估指標(biāo)值如下表。多項式貝葉斯模型的性能分析報告如下表。模型評估模型準(zhǔn)確率(%)精確率(%)召回率(%)F值(%)多項式貝葉斯模型69.8969.8969.8969.89類別精確率(%)召回率(%)F值(%)-123121506869691737574使用的是第二種詞頻統(tǒng)計的方法,然后劃分?jǐn)?shù)據(jù)集,得到模型的準(zhǔn)確率為69.17%,使用的是第一種詞頻統(tǒng)計的方法,然后劃分?jǐn)?shù)據(jù)集,得到模型的準(zhǔn)確率為69.89%。對比兩種詞頻統(tǒng)計的方法,可以看出第一種詞頻統(tǒng)計方法優(yōu)于第二種。模型評估最初的模型建立時直接選擇了“評論時間”、“點贊數(shù)”、“類別”以及“cutted_content”4個特征進(jìn)行,沒有考慮時間列數(shù)據(jù)的特殊類型,以及點贊數(shù)的數(shù)據(jù)差異問題,有可能對模型的效果產(chǎn)生了一定影響。為了模型能得到更好的效果,提高模型準(zhǔn)確率與預(yù)測準(zhǔn)確率,需要對選擇的特征中這兩列內(nèi)容進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理。模型優(yōu)化1.數(shù)據(jù)標(biāo)準(zhǔn)化對于“評論時間”列,使用pandas模塊下的datetime方法將“評論時間”列轉(zhuǎn)換為時間類型,并進(jìn)行字符串截取,保留年月日信息。對于“點贊數(shù)”列,由于點贊數(shù)出現(xiàn)太多的數(shù)值0,對數(shù)值進(jìn)行統(tǒng)一的加一處理。在這之后統(tǒng)一日期與點贊數(shù)兩列的數(shù)據(jù)級數(shù),做數(shù)據(jù)標(biāo)準(zhǔn)化處理。模型優(yōu)化數(shù)據(jù)標(biāo)準(zhǔn)化結(jié)果如下表。模型優(yōu)化Index日期點贊數(shù)00.981328010.981328020.981328030.9813280.00023516540.9813280.00015677750.9813287.83883e-0560.9606150.00015677770.9516680.00054871880.951668090.9515710100.9509877.83883e-05經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化與異常值處理后,將得到的數(shù)據(jù)框添加原始數(shù)據(jù)中的“類別”與“cutted_content”兩列,重新建立模型并進(jìn)行模型評估,得到分類預(yù)測結(jié)果如下表。模型優(yōu)化2.訓(xùn)練模型與模型評估indexcutted_content類別_pre3081['以后','發(fā)射','不能','整個',
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 20萬噸年玉米營養(yǎng)油連續(xù)精煉及自動包裝生產(chǎn)線項目可行性研究報告
- 二零二四年度智能家居全包裝修與優(yōu)化合同樣本3篇
- 個人物品抵押合同樣本
- 2025年度個人房產(chǎn)租賃合同附件及補充協(xié)議范本2篇
- 2025版智能安防系統(tǒng)設(shè)計與集成承包合同范本4篇
- 2025年度體育設(shè)施租賃合同(含賽事組織)2篇
- 藝術(shù)品展覽合同協(xié)議書模板
- 2025智能化施工合同范本
- 2025天貓店鋪代運營合同協(xié)議書范本 標(biāo)準(zhǔn)版
- 2025合租房屋租賃合同樣式
- 江蘇省蘇州市2024-2025學(xué)年高三上學(xué)期1月期末生物試題(有答案)
- 銷售與銷售目標(biāo)管理制度
- 人教版(2025新版)七年級下冊英語:寒假課內(nèi)預(yù)習(xí)重點知識默寫練習(xí)
- 2024年食品行業(yè)員工勞動合同標(biāo)準(zhǔn)文本
- 2025年第一次工地開工會議主要議程開工大吉模板
- 全屋整裝售后保修合同模板
- 高中生物學(xué)科學(xué)推理能力測試
- GB/T 44423-2024近紅外腦功能康復(fù)評估設(shè)備通用要求
- 2024-2030年中國減肥行業(yè)市場發(fā)展分析及發(fā)展趨勢與投資研究報告
- 運動技能學(xué)習(xí)
- 2024年中考英語專項復(fù)習(xí):傳統(tǒng)文化的魅力(閱讀理解+完型填空+書面表達(dá))(含答案)
評論
0/150
提交評論