版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于B站視頻彈幕文本的情感分析目錄TOC\o"1-2"\h\u298291引言 5254481.1研究背景 5111741.2研究意義 659921.3研究現(xiàn)狀 6156512相關(guān)理論和技術(shù)介紹 7116842.1基于情感詞典的情感值分析 784432.2基于Kmeans++聚類法的文本聚類 7313802.3基于LDA算法的主題模型 831642.4基于NMF算法的主題模型 838393數(shù)據(jù)采集與處理 8256173.1數(shù)據(jù)采集 8325403.2數(shù)據(jù)預(yù)處理 929843.3詞云圖設(shè)計 919613.4基于SnowNLP庫對文本內(nèi)容進行情感分析 10160433.5正負面文本情感分析 11104354主題詞提取 12196034.1基于Kmeans++聚類法的文本聚類 12195954.2基于LDA模型的主題詞提取 1454724.3基于NMF模型提取主題詞 15327255總結(jié) 17215095.1分析與總結(jié) 17136905.2反思與不足 17279015.3建議與展望 174352參考文獻 1827335致謝 18摘要:彈幕是B站的一大視頻特色。通過彈幕,用戶可以更好的參與到視頻觀看當(dāng)中,這種互動機制可有效改善平臺的用戶參與度,提高視頻的點播率及影響。彈幕評論中蘊含豐富的情感信息,這些信息反應(yīng)了用戶觀看時的褒貶情感,積極消極情感以及情感需求等。本文將對B站知名up“逗比的雀巢”九條視頻中彈幕文本的進行情感分析,可以幫助視頻創(chuàng)作者了解用戶對內(nèi)容的反饋和情感傾向,為內(nèi)容創(chuàng)作者和平臺運營提供指導(dǎo)意見。同時運用LDA模型以及NMF模型對彈幕文本進行主題詞提取,對視頻內(nèi)容進行分類歸納分析,為用戶提供良好的觀前體驗。幫助用戶更好的了解up“逗比的雀巢”的視頻類型及內(nèi)容。關(guān)鍵詞:B站彈幕文本;Kmeans聚類;LDA模型;NMF模型l1引言1.1研究背景“B站”是一家視頻網(wǎng)站,全稱“bilibili”,中文翻譯為“嗶哩嗶哩彈幕網(wǎng)”。B站是以動漫,漫畫,以及游戲等二次元文化為內(nèi)容進行視頻創(chuàng)作的網(wǎng)站,同時也涵蓋了游戲、生活、影視、科技等多個領(lǐng)域,為用戶提供豐富多樣的娛樂選擇。隨著B站的用戶數(shù)量越來越龐大,視頻創(chuàng)作領(lǐng)域也不斷擴大,其B站特有的文化也越發(fā)豐富多彩,包括視頻類型也是多樣化,包括科普類視頻,“鬼畜”類視頻,影視游戲剪輯類視頻,長短劇,同時B站也大量的引入影視劇,擁有大量的番劇和視頻的版權(quán),這些優(yōu)質(zhì)的視頻資源不但讓B站用戶共同參與到視頻當(dāng)中去,也可供許多創(chuàng)作者們進行再創(chuàng)作。其中彈幕作為B站的一大視頻特色,彈幕評論系統(tǒng)和用戶創(chuàng)作平臺促進了用戶之間的互動和內(nèi)容的分享,形成了一個活躍的社區(qū)。總體而言,Bilibili不僅是一個視頻分享平臺,更是一個以二次元文化為核心的社區(qū),為用戶提供了豐富的娛樂體驗,同時也推動了相關(guān)文化的發(fā)展。有了網(wǎng)絡(luò)視頻發(fā)展的產(chǎn)物,網(wǎng)絡(luò)流行文化。其內(nèi)容會因其趣味性、新穎性或共鳴力而被廣泛傳播和分享。網(wǎng)絡(luò)流行文化在社交媒體平臺、視頻分享網(wǎng)站、網(wǎng)絡(luò)和即時通訊應(yīng)用程序等各種在線平臺上快速流通,塑造了當(dāng)代社會的娛樂、交流和文化認同。而在年輕用戶占比較多的B站視頻中,網(wǎng)絡(luò)流行文化最為鮮明,及時,有特色。1.2研究意義彈幕作為用戶觀看視頻時基于視頻內(nèi)容等與各用戶實時交互的文本方式,研究彈幕可以對視頻內(nèi)容以及用戶觀看體驗進行分析,判斷用戶對于視頻的喜好程度以及對其內(nèi)容的評價與思考等。本文將結(jié)合彈幕特征建立情感分析中的主題模型,LDA模型,NMF模型,這兩個模型可以有效地計算并生成與視頻內(nèi)容相關(guān)的主題詞,從而進一步分析視頻內(nèi)容等,結(jié)合模型的分析結(jié)果與視頻內(nèi)容做對比,可以清晰的主觀的對兩個模型以及算法進行研究做對比。1.3研究現(xiàn)狀王力認為,如今對于視頻彈幕的分析有如下幾個方向,彈幕網(wǎng)站,彈幕傳播方式,彈幕文化,彈幕用戶特征。同時也有對彈幕進行多維度分類。這些研究都是基于定向方向的研究。其中分析彈幕領(lǐng)域的主要應(yīng)用的方法有統(tǒng)計學(xué)和人工智能。然而早期短文本情感分析作為彈幕文本分析的主要方法,研究成果多數(shù)用作視頻檢索。而隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)也應(yīng)用到了視頻彈幕的研究中。金丹丹則是基于多為情感詞典對B站視頻彈幕進行傾向性分析。金丹丹認為以往的情感分析將文本分為正負兩面,過于單一,于是改進《知網(wǎng)》和《詞林》并進行融合,構(gòu)建了情感分類更細致化的情感詞典,結(jié)合彈幕內(nèi)容中出現(xiàn)的程度副詞、否定詞、雙重否定詞進行權(quán)值計算,再對彈幕中出現(xiàn)的感嘆詞、感嘆號、疑問詞、疑問號以及轉(zhuǎn)折詞做出相應(yīng)的權(quán)值化處理。最后將處理過的彈幕進行最后,將經(jīng)過以上處理的彈幕數(shù)據(jù)歸類到不同的情感維度下,并且獲得該情感維度下本條彈幕內(nèi)容的情感值。邱全磊則提出了文本分析領(lǐng)域中的不足,彈幕作為流行的視頻文本,不同于傳統(tǒng)的短文本,分析彈幕文本需要考慮顏文字表情對情感分析的影響,同時沒有考慮語氣詞在情感表達中的作用。這影響了彈幕情感分析的效果,降低了情感分析的準(zhǔn)確率。因此構(gòu)造了顏文字與語氣詞的情感詞典。同樣的,莊須強也提出,彈幕視頻在國內(nèi)變得愈來愈流行,但彈幕文化的整體發(fā)展相對較短,還缺乏相應(yīng)的有效合理的管理與研究。且彈幕文本有著文本長度較短、較口語化、網(wǎng)絡(luò)詞匯較多的特點。莊須強則是使用了LSTM模型進行分析,從而突出文本關(guān)鍵信息。賈中昕,則認為短文本的“短”導(dǎo)致了其特征的稀疏。這導(dǎo)致了文本任務(wù)中的效率難以提高。則運用了一種基于情感特征的關(guān)聯(lián)詞聯(lián)想短文本擴展算法,最后將情感關(guān)聯(lián)詞集合加入到原始文本集合達到擴充文本特征的目的。然而洪慶使用彈幕常用詞詞典的基礎(chǔ)上通過改進傳統(tǒng)的k-means聚類算法,對所有發(fā)表彈幕的用戶進行基于情感值的分類,以此研究者可以更好的特定視頻的觀眾在情感上的異同點。2相關(guān)理論和技術(shù)介紹情感分析是自NLP即自然語言處理領(lǐng)域中特別重要的分支,也是數(shù)據(jù)分析中一種常見的實用的基于于文本數(shù)據(jù)的分析方法。是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。目前進行情感分析的方法很多,一下分別進行介紹。2.1基于情感詞典的情感值分析該方法是一種通過統(tǒng)計文本中正面和負面情感詞語的出現(xiàn)頻率來判斷文本情感傾向的技術(shù)。原理:收集一個包含正面和負面情感詞語的情感詞典。對中文文本進行分詞,統(tǒng)計每個詞語出現(xiàn)的頻率。根據(jù)情感詞典和詞頻,計算文本的情感值。2.2基于Kmeans++聚類法的文本聚類Kmeans是常見的能將多量數(shù)據(jù)進行分類,分成不同組或簇的無監(jiān)督學(xué)習(xí)算法。其原理基于歐氏距離,即在數(shù)據(jù)分類過程中,兩個目標(biāo)的距離越近,二者相似度就越高,約有可能分為同意類型的數(shù)據(jù)。而Kmeans++聚類法,則是在Kmeans聚類法的基礎(chǔ)上進行的升級。Kmeans聚類算法在正式分類之前,是將K個簇中心初始化,在此基礎(chǔ)下依賴簇中心進行收斂。若在初始化的過程中,出現(xiàn)了將若干個簇中心同時初始化到一個簇中心的情況,就會導(dǎo)致簇中心初始化失誤與嚴(yán)重偏差,使得最后聚類出現(xiàn)較大誤差,聚類結(jié)果精確度降低。因此本文采用Kmeans++聚類法對文本進行聚類,避免初始化簇中心出現(xiàn)失誤。Kmeans++聚類法與Kmeans聚類法只是在初始化簇中心的算法上不同,Kmeans++聚類法在該過程是逐個選取n個簇中心,且離其它簇中心越遠的樣本點越有可能被選為下一個簇中心。2.3基于LDA算法的主題模型LDA模型是一種主題模型,其基本原理基于貝葉斯推理,LDA也稱之為潛在狄利克雷分配。該算法可以將文本文檔集中的每篇文檔的主題以概率分布的形式給出,從而通過分析一些文檔通過算法提取出它們的主題出來后,便可以根據(jù)主題進行主題聚類或文本分類。假設(shè)在一個文檔集中,有N個文檔,在第n個文檔中的幾個詞匯中,出現(xiàn)了詞匯假設(shè)為“a”,該詞匯對應(yīng)的主題可以假設(shè)為“A”,則該文檔集的主題為“A”的概率就會上升,隨后對第“n+n”個文檔進行處理時,出現(xiàn)的詞匯所對應(yīng)的主題的概率也會上升。最后通過分析得到該文檔集最有可能出現(xiàn)的主題,以及各主題可能出現(xiàn)的概率。從而對該文檔集進行主題歸類。其核心公式為:P(詞|文檔)=P(詞|主題)|P(主題|文檔)因此,LDA模型在最開始的主題確定步驟,是使用狄利克雷先驗來約束主題分布。2.4基于NMF算法的主題模型NMF模型同樣是一種主題模型,不同于LDA的貝葉斯推理,NMF使用的是非負矩陣分解算法,將給定的矩陣分解為兩個非負矩陣,并且是使用乘法更新規(guī)則來更新主題。3數(shù)據(jù)采集與處理3.1數(shù)據(jù)采集本文中選取的數(shù)據(jù)全部來源于嗶哩嗶哩網(wǎng)站。通過python代碼獲取cid接口爬取了up“逗比的雀巢”的不同風(fēng)格,不同類型,不同內(nèi)容的視頻中的彈幕文本信息。如圖1所示。圖1彈幕信息圖3.2數(shù)據(jù)預(yù)處理首先對文本內(nèi)容進行分詞處理,運用jieba對輸入文本與詞典中的左右詞進行匹配。再對每個匹配好的詞分別生成包含詞的即時位置,結(jié)束位置和詞本身的候選項。接著jieba使用已經(jīng)訓(xùn)練好的HMW模型來計算每個候選項的概率。最后根據(jù)概率得出句子開頭到結(jié)尾的最優(yōu)切分路徑,得出最有可能的分詞結(jié)果。對分詞處理后的文本內(nèi)容進行去除停用詞處理。將詞語序列與停用詞表進行匹配。刪除匹配的停用詞。得到去除停用詞后的詞條序列。每個詞條由原始詞分詞清洗后的詞匯構(gòu)成。如圖2所示。圖2數(shù)據(jù)清洗結(jié)果圖3.3詞云圖設(shè)計結(jié)合上文對數(shù)據(jù)的處理,對詞頻進行統(tǒng)計,生成詞云圖,詞頻越高,在詞云圖中字體越大。如圖3所示。圖3詞云圖3.4基于SnowNLP庫對文本內(nèi)容進行情感分析基于上述對文本進行的數(shù)據(jù)處理,得到較為干凈,具有較為明顯情感特征的詞條。接下來運用SnowNLP庫將文本中的每個單詞與情感詞典中的單詞進行匹配?;赟nowNLP庫中給定的每個詞的情得分,將匹配成功的文本信息進行賦值計算,每個詞條的情感得分分為消極與積極兩類,每類情感得分的值為0到1之間的一個數(shù)k。積極類文本中的第i個詞條情感的分記為kpi,同理,消極類文本中記為kni。分別計算圖4詞條情感標(biāo)簽以及情感值信息圖圖5情感值信息圖可以看出,觀眾對于九條視頻的綜合情感主要以積極為主,積極情感得分遠大于消極情感得分,且在文本內(nèi)容中,具有積極標(biāo)簽詞條是具有消極標(biāo)簽詞條的兩倍。3.5正負面文本情感分析在上文中,通過SnowNLP庫對文本賦予情感標(biāo)簽,將各詞條分為積極與消極兩類,并賦予情感值得分。本文將基于LDA模型對正負面詞條進行主題尋優(yōu)。與主題詞提取研究側(cè)重點不同,該分析對象主要為情感值得分較高的詞條,能明顯體現(xiàn)用戶在觀看視頻時對內(nèi)容的消極或積極感受,主要提取正負面分類之后的文本中主題詞。研究主要目的為挖掘用戶對視頻某些內(nèi)容的正負面情感。從而做到情感分析。因此稱具有正面情感標(biāo)簽的詞條為正面評論,具有負面情感標(biāo)簽的詞條為負面評論。首先基于上文情感分析之后的數(shù)據(jù),建立詞典與語料庫,構(gòu)建基于LDA算法的函數(shù),生成正負面詞條的主題詞,并計算所有成對主題詞向量的余弦相似度,和所有相似度值的平均值。通過選擇平均相似度較低的主題數(shù)量確定最佳主題數(shù)。如圖6所示,正面評論的最佳主題為4,負面評論的最佳主題數(shù)為3。圖6主題尋優(yōu)折線圖通過對上述分析對正負面評論進行主題詞提取,兩類評論的每個主題各取4個主題詞。由得到的相關(guān)正負面評論主題詞可知,觀眾對于視頻中的演員,視頻本身以及視頻意義的態(tài)度積極。對于視頻中的涉及恐怖元素的內(nèi)容的態(tài)度消極,多以害怕為主。其中正負面評論主題詞提取結(jié)果由如下兩表所示。表1正面評論主題詞主題主題詞0好帥 演員 喜歡 主演1優(yōu)質(zhì) 高產(chǎn) 點贊 視頻2升華 深刻 意義 明確3高能 可愛 幽默 歡迎表2負面評論主題詞主題主題詞1后悔 地獄 懲罰 惡魔2細思極恐 害怕 嚇人 謀殺3撒謊 殺人 可惡 懷疑4主題詞提取4.1基于Kmeans++聚類法的文本聚類4.1.1數(shù)據(jù)預(yù)處理文本向量化基于TF-IDFTF-IDF算法通過分配權(quán)重來反映每個詞的重要程度,根據(jù)權(quán)重對文本內(nèi)容中的所有詞語從高到低進行排序,權(quán)重越高說明重要性越高,排在前幾位的詞就可以作為目標(biāo)文本的關(guān)鍵詞。所以TF-IDF算法可以用來提取關(guān)鍵詞。其中:(1)TF含義為詞頻,其計算公式為:詞頻(TF)=某個詞在文章中的出現(xiàn)次數(shù)/文章總詞數(shù)
(2)IDF含義逆文檔頻率,其計算公式為逆文檔頻率(IDF)=log(文章總數(shù)/(包含該詞的文章數(shù)+1))詞頻與最終的權(quán)重呈正比,逆文檔頻率與最終的權(quán)重呈反比。(3)計算TF-IDFTF-IDF=詞頻(TF)*逆文檔頻率(IDF)本文采用TF-IDF的方法將文本向量化構(gòu)建矩陣,在對文本進行向量化之前,設(shè)置TF-IDF向量化器的參數(shù)0.8,即如果一個詞語出現(xiàn)在語料庫中超過80%的詞條中,它將被TF-IDF向量化器丟棄?;趐ython中的sklearn庫對其進行向量化處理,并得到TF-IDF向量化后的稀疏矩陣。在下一步文本聚類中KMeans++聚類算法將使用這些向量表示來計算文檔之間的相似性并將其分配到簇中。因為TF-IDF矩陣為稀疏矩陣,由較大數(shù)量的詞條行與詞匯列構(gòu)成。每個詞條只包含所有詞匯列里的極少數(shù)詞匯,因此每行的眾多元素里絕大部分為0,只有極少數(shù)非零元素。當(dāng)某詞條行中的詞匯在總詞匯中只出現(xiàn)一到兩次時,其對應(yīng)的權(quán)重值也為0。如圖7所示,展示了稀疏矩陣的部分信息。圖7TF-IDF向量化后的稀疏矩陣4.1.2Kmeans++模型的建立在該算法中,需要求出文本向量化之后的輪廓系數(shù)S(i)。首先需要求出各樣本點的內(nèi)聚度設(shè)為k(i),計算原理為n-1分之第i個樣本點到第j個樣本點之間的距離之和,再設(shè)K(i)作為遍歷所有樣本點計算k(i)之后的最小值。最后運用求輪廓系數(shù)的公式S(i)=K(首先定義一個聚類數(shù)范圍
,由于實現(xiàn)KMeans++算法至少需要2個簇才能工作,因此設(shè)簇數(shù)最小值為2,考慮到文本數(shù)據(jù)集來源于九個不同主題的情況,以及文本數(shù)據(jù)的維度,在最大值不低于9的情況下,增加4個簇數(shù),因此設(shè)簇數(shù)最大值為13,該范圍指定了訓(xùn)練KMeans++模型時的簇數(shù)范圍。運用python代碼實現(xiàn)Kmeans++聚類算法,對TF-IDF向量化的數(shù)據(jù)進行聚類,同時計算輪廓系數(shù)尋找并確定最佳聚類數(shù)。如圖8所示。圖8輪廓系數(shù)與定義簇范圍信息圖由于在Kmean++算法生成簇時,往往是從0開始,而0個簇時是不具備輪廓系數(shù)的,因此,最大輪廓系數(shù)值0.251對應(yīng)的實際生成的聚類數(shù)為10。如圖9所示。圖9輪廓系數(shù)與聚類點關(guān)系圖由圖9可以清晰的分?jǐn)喑霎?dāng)聚類點為10的情況下,輪廓系數(shù)越高,即對目標(biāo)文本聚類效果最好。4.2基于LDA模型的主題詞提取4.2.1主題分類基于Kmeans++對目標(biāo)文本內(nèi)容分類得出的10個主題,將目標(biāo)文本分為10類,每一類提取一個主題,每個主題選取10個主題詞。4.2.2LDA模型的構(gòu)建使用上文得到的最佳聚類數(shù)進行Kmeans++聚類,選取出同一類主題特征的文本信息。構(gòu)建詞袋模型,基于python相關(guān)數(shù)據(jù)庫sklearn的TF-IDF向量器--“TfidfVectorizer”對各類文本信息進行向量化,分析一個詞語在文檔中出現(xiàn)的頻率和它在整個語料庫中的普遍性,將文本信息轉(zhuǎn)化為數(shù)字信息便于進行算法分析。輸入向量化文本并基于fit_transform函數(shù),運用機器學(xué)習(xí)訓(xùn)練LDA模型,根據(jù)kmean++的聚類結(jié)果,隨機初始化每個文檔的主題分布。對于每個文檔中的每個詞語,從主題分布中采樣一個主題。再從該主題的詞語分布中采樣一個詞語。更新主題和詞語分布,重復(fù)更新迭代步驟直到收斂或達到最大迭代次數(shù)。4.2.3提取主題最終基于python中的scikit-learn庫的LatentDirichletAllocation類對LDA模型進行擬合并估計主題分布和詞語分布,在向量化文本中進行LDA分析提取主題詞。主題詞提取如表3所示,其中以生成詞經(jīng)過算法計算出的出現(xiàn)概率由大到小順序出現(xiàn)。表3基于LDA模型提取的主題詞主題主題詞0:娛樂閃電俠魅魔幽默牛頭人恐怖穿越點贊星際狂喜1:耶穌天堂天使god救贖懺悔生死轉(zhuǎn)世永恒神圣2:謀殺懸疑震驚轉(zhuǎn)場嫌疑世界紅色消失探案血染3:ai文明小李人類三體機器證據(jù)懷疑偏見倫理4:戰(zhàn)爭未來沖突支持煉獄開槍害怕醫(yī)生和平休止5:教育希望家長學(xué)校父親父母羨慕孩子成績考試6:地獄后悔罪惡主題惡魔懲罰撒旦可怕黑暗罪惡7:唐人街紐約深度美國不愧后室列強警察制服警長8:真的幻覺幻想消失做夢獎勵地下真實聲音疑惑9:學(xué)習(xí)理論專注認真時間意視思維評論具象化結(jié)局由上表可知,由九條視頻組成的文本數(shù)據(jù)集由LDA模型進行主題詞提取之后,被分成了十個不同的主題,即視頻內(nèi)容被分為十個類型的主題,結(jié)合對視頻中內(nèi)容進行對比,提取出來的主題詞與九個視頻相符,由于研究的up的視頻為搞笑視頻,有特別的一類關(guān)于娛樂主題作與視頻內(nèi)容相對應(yīng)。不同類型的主題詞較好的體現(xiàn)了視頻內(nèi)容,可以簡單的突出視頻主題。4.3基于NMF模型提取主題詞4.3.1使用Kmeans++初始化NMF根據(jù)前文中Kmeans++算法得出的聚類結(jié)果,對文檔-單詞矩陣進行初始化聚類,將文檔分配到10個簇。并將簇中心作為NMF主題-文檔矩陣的初始值。為NMF分析對分組后的文本進行TF-IDF向量化。4.3.2訓(xùn)練NMF模型基于“fit_transform”函數(shù)運用機器學(xué)習(xí)方法對NMF算法模型進行擬合與訓(xùn)練,(1)初始化原始矩陣,原始矩陣由文檔行和單詞|X|列構(gòu)成,即文檔-單詞矩陣。將文檔-單詞矩陣隨機初始化為主題-文檔矩陣|W|以及主題-單詞矩陣|H|。(2)更新,即迭代更新兩個矩陣,直到收斂。(3)收斂,基于給定的參數(shù),即收斂閾值(ε)對兩個矩陣更新,當(dāng)更新幅度小于參數(shù)時,即||W*H-X||<ε時,算法收斂,從|H|矩陣中提取主題詞。算法完畢。其中主題數(shù)為Kmeans++聚類的到的聚類點值為10。4.3.3提取主題在已經(jīng)訓(xùn)練好的NMF模型中提取出主題,經(jīng)過NMF分析,得到兩個矩陣文本-主題矩陣與主題-單詞矩陣,由單詞構(gòu)成構(gòu)成的主題-單詞矩陣中,每個單詞與其對應(yīng)主題權(quán)重最高。提取結(jié)果共十個主題,每個主題10個主題詞。提取后的主題詞由表4所示。表4NMF主題模型的主題關(guān)鍵詞主題主題詞0:高能前方預(yù)警封神絲滑結(jié)局樓上有刀轉(zhuǎn)場后半段1:升華主題主旨強行三連背景失敗小黑子作者配音2:謀害視頻殺人證據(jù)小花間諜幻覺警長恐怖綁架3:ai人類懷疑堅信目標(biāo)感覺記憶識別測試研究員4:臥槽幻覺嚇?biāo)绤柡催^可怕真有毛骨悚然神作保護5:真的分不清動畫可愛上帝家長小李好帥天才喜歡6:淚目疫情世界結(jié)束和平地球流浪希望封神瘟疫7:穿越星際原野追逐科幻時間回溯理論研究科學(xué)8:影片致敬鋼琴家視頻敘事表演攝影剪輯震驚汗流浹背9:教育希望家長老師人類孩子保護學(xué)習(xí)加油未來由上表分析可知,基于NMF模型對于主題的解釋性很差,對于主題詞的提取較為凌亂,分類模糊不清,只對極少數(shù)主題做到的較為清晰的提取,只有少數(shù)主題體現(xiàn)出視頻內(nèi)容。主題稀疏性過高,使得大部分主題出現(xiàn)許多分類不清的主題詞。5總結(jié)5.1分析與總結(jié)本文首先運用了基于情感詞典的情感分析方法對對B站up“逗比的雀巢”的九個視頻進行情感值分析,并對兩類評論的主題進行簡單分析。九個視頻的情感值均為積極大于消極,B站用戶對視頻的感受與評價多為積極的。再運用LDA模型以及NMF模型分別對B站up的九個視頻進行了主題詞提取。對兩個模型進行了分析與對比。由上兩表可以得出,LDA模型的主題解釋性相較可觀,能較好的反應(yīng)視頻內(nèi)容以及彈幕主題。但是隨著主題詞的出現(xiàn)概率下降,一些主題中出現(xiàn)了少數(shù)與概率較高的主題詞相差較遠的主題詞,出現(xiàn)了意義不明的詞匯。使得主題詞的稀疏性升高。由于B站彈幕具有短而口語化的特質(zhì),加之B站彈幕中大量的網(wǎng)絡(luò)用語和二次元詞匯,使得主題詞在各主題中出現(xiàn)難以體現(xiàn)主題的情況。對于NMF模型,其模型復(fù)雜度較低,且使用固定系數(shù)來表示主題詞與主題的關(guān)系,因此主題解釋度較差,在數(shù)據(jù)量較少且數(shù)據(jù)相關(guān)度較低的情況下,對主題提取的準(zhǔn)確度較低,十個主題中只有極少數(shù)主題中的主題詞能體現(xiàn)視頻內(nèi)容與觀眾的觀影體驗,態(tài)度。5.2反思與不足由于B站彈幕的特質(zhì),其文本預(yù)處理上會出現(xiàn)誤差。對于網(wǎng)絡(luò)用語難以準(zhǔn)確分詞。在去除停用詞方面,需要建立特殊的,針對性強的停用詞詞典,做到有效準(zhǔn)確的去除。在提取特征值的過程中,同樣需要對B站彈幕特有的詞匯進行有效的特征值提取,尤其對于網(wǎng)絡(luò)文化衍生用語以及動畫,游戲等領(lǐng)域的相關(guān)名詞在文本向量化時需要準(zhǔn)確賦值。5.3建議與展望基于LDA模型與NMF模型,都可以對較長,主體性較強的長文本進行主題分類以及主題提取。但是在數(shù)據(jù)量較少的情況下,LDA基于貝葉斯推斷技術(shù)可以較好的分析文本內(nèi)容。在短視頻彈幕以及評論方面,LDA可以有效提取相關(guān)主題。由于NMF模型的結(jié)構(gòu)簡單,收斂速度快成為該模型的極大優(yōu)勢,對于海量文本的主題分析能更好的處理,且主題數(shù)量可以預(yù)先指定,在某些情況下提取的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度公司簽約帶貨主播短視頻內(nèi)容制作合同3篇
- 二零二五年度勞動合同集合與員工績效評估合同3篇
- 二零二五年度公益性崗位勞動合同(老年人日間照料)3篇
- 2025年度農(nóng)村個人房屋買賣合同附農(nóng)村集體資產(chǎn)收益權(quán)轉(zhuǎn)讓合同3篇
- 二零二五年度農(nóng)村房屋互換與環(huán)保節(jié)能協(xié)議2篇
- 2025年度農(nóng)業(yè)勞務(wù)用工合同模板(含農(nóng)業(yè)廢棄物資源化利用技術(shù))3篇
- 新能源汽車研發(fā)價格保密協(xié)議書(2025年度)3篇
- 二零二五年度新能源出租車運營合作協(xié)議3篇
- 2025年度智能家電產(chǎn)品供貨協(xié)議書3篇
- 2025年度農(nóng)村出租房租賃與配套設(shè)施租賃合同
- 銷售價格管理制度(5篇)
- 人教版七年級歷史上冊復(fù)習(xí)資料-考點重點-版
- 福建省廈門市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名明細及行政區(qū)劃代碼
- 國際商法(第四版)
- 幼兒園課件:《獨自外出真危險》
- 倉儲類企業(yè)企業(yè)風(fēng)險分級管控和隱患排查治理雙體系(2022-2023手冊)
- 中職學(xué)校優(yōu)秀班主任事跡材料(完整版)
- 最全的官能團化合物的紅外吸收峰特征
- 世界氣候類型(圖很清晰)
- 新版【處置卡匯編】重點崗位人員應(yīng)急處置卡(全套25頁)
- EE系列磁芯參數(shù)
評論
0/150
提交評論