版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
基于語義相似度的詞匯語義激勵傾向研究
1管理領域的研究考慮到龐大的網(wǎng)絡數(shù)據(jù),如何通過有效手段獲取所需的信息是計算機研究的熱點。語義傾向性研究正是在這一背景下應運而生的。人們根據(jù)各自所關注的問題在Web上進行搜索,通過閱讀大量相關文獻、介紹、評論,逐漸形成自己的觀點。由于網(wǎng)絡資源過于龐大,搜集-閱讀-評價的工作變得十分繁瑣和耗時。因此迫切地需要一套能夠自動搜索、評價、歸納的系統(tǒng)替人們完成這一任務。困難是顯而易見的,計算機雖然具有極快的處理速度,但如何使其能夠自動完成對文本的語義傾向的推斷,仍然是個需要研究的課題。所謂詞匯的語義傾向,即對于詞匯的褒貶程度計算出一個度量值。為了便于統(tǒng)計和比較,目前比較常用的做法是將度量值規(guī)定為位于±1之間的實數(shù)。當度量值高于某閾值時,判別為褒義傾向;反之,則判為貶義傾向。此外,我們可以通過對篇章中詞匯的語義傾向值求平均的方式,獲得篇章的語義傾向。因此,對詞匯的語義傾向計算是此類研究中的關鍵工作。語義傾向研究具有極大的實用價值。在商業(yè)領域中,能夠為企業(yè)進行市場分析、市場調(diào)查、顧客反饋提供更多有價值的信息;在管理領域,能夠幫助領導者更快地了解群眾對各類政策措施的反饋意見。此外,語義傾向判別也為文本過濾、自動文摘的研究工作提供了新的思路和新的手段。我們可以對語義傾向度量值設定一個合適的閾值,對于傾向值低于或高于閾值,也就是態(tài)度傾向過于偏激的文章進行過濾操作,或者可將傾向值賦予一定的權值,作為文本過濾中需要考慮的一個因素。該方法如果應用在網(wǎng)絡新聞組的自動過濾中,有利于維護討論秩序,緩和討論氣氛。而自動文摘的生成,可將具有強烈褒貶傾向的語句作為關鍵句摘出,從而更好地保留原作者的觀點和意見。單詞的語義傾向判別是篇章語義傾向研究的基礎。早在1997年,Hatzivassiloglou和McKeown就嘗試使用監(jiān)督學習的方法對詞語進行語義傾向判別,通過對訓練語料的學習進行語義傾向判別,準確率約82%,在加入篇章中形容詞之間的接續(xù)信息后,準確率提升到90%左右。在2003年,Turney在其論文中提出了利用統(tǒng)計信息對單詞進行語義傾向判斷的新方法。其準確率在包含形容詞、副詞、名詞、動詞的完整測試集上達到82.8%。文本的語義傾向判別也可被看作一個褒貶的分類問題,因此,文本分類中的方法同樣被應用到了語義傾向判別研究中。2002年,Turney在其論文中介紹了基于語義傾向的非監(jiān)督文本分類方法。根據(jù)褒貶含義的傾向信息對評論性文章進行分類,其分類結果更符合人們對評論性文章分類的實際需求。在Epinions上的410篇評論性文章中,利用Turney的算法對褒貶傾向進行分類,正確率達到74%。同年,Pang等人使用標準的機器學習技術做了同樣文本分類工作。比較了簡單貝葉斯、最大熵、SVM方法在語義傾向文本文類上的效果。SVM的分類準確率最高達到約80%,為幾種方法中分類效果最好的。之后,Pang提出了對語義傾向分類結果進行后續(xù)處理,進一步將分類結果按照語義傾向強度進行細分的方法,并通過一系列的實驗證明了其方法的可行性。近年來,陸續(xù)出現(xiàn)了一些利用語義傾向分析技術開發(fā)的商業(yè)智能系統(tǒng),例如,NEC公司的Kusha等人所開發(fā)的ReviewSeer,通過對評論性文章的語義傾向分析,為商品的受歡迎程度進行打分評價,該評價結果是極具價值的商業(yè)信息。又如,BingLiu在其論文中介紹了商用產(chǎn)品信息反饋系統(tǒng)OpinionObserver,利用網(wǎng)絡上豐富的顧客評論資源,進行商品的市場反饋分析,為生產(chǎn)商和消費者提供了直觀的針對商品各個特性的網(wǎng)絡評價報告。本文的研究側(cè)重于詞匯的語義傾向性判別。利用HowNet提供的語義相似度和語義相關場計算功能,嘗試了一些詞語語義傾向判別的方法。主要做了以下工作:通過計算詞語間的相似程度,對詞語的褒貶傾向按照一定的計算法則進行賦值。根據(jù)所得的語義傾向度量值判別其褒貶傾向。本文其他部分的組織如下:第二節(jié)對HowNet(《知網(wǎng)》)進行簡單介紹,并且提出了兩種基于HowNet的詞匯傾向性計算方法。第三節(jié)對使用本文算法所進行的實驗進行詳細描述,對實驗的結果進行分析。第四節(jié)對于本文所做的工作做了一個總結,并提出了未來的研究方向。2單詞意義的表達2.1語義相似度計算知網(wǎng)(英文名稱為HowNet)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內(nèi)容的常識知識庫。對于漢語詞匯,知網(wǎng)中的描述基于“義原”這一基本概念。義原,可以被認為是漢語中最基本的、不易于再分隔的最小語義單位。由于漢語中“詞”的含義非常復雜,往往一個詞在不同的語境中會表達不同的語義。因此,在HowNet中,把漢語中的詞理解為若干義項的集合?!吨W(wǎng)》的語義字典中,每條記錄都是由一個詞語的一條義項及其描述所組成,即一條記錄對應與一個詞語的一個義項。本文的算法分別使用了HowNet提供的語義相似度和語義相關場的計算功能。語義相似度的計算功能是根據(jù)劉群的論文中的原理編寫的詞匯語義相似度計算程序,實現(xiàn)了義原之間語義相似度的計算。通過輸入兩個詞語并分別選取確切的義原,在結果顯示框中即可得到相似度的數(shù)值。舉個簡單的例子,輸入詞語“好”、“差”,并分別選擇相應的義原為“{HighQuality|優(yōu)質(zhì)}”、“{unqualified|不合格}”,得到的輸出結果為0.021053,即這兩個詞語在相應義原下的相似度。語義相似度主要反映的是詞語語義的相似程度。在機器翻譯中,可以理解為兩個詞語在不同的上下文中可以互相替換使用而不改變文本的句法語義結構的程度。HowNet相似度值被定義為0到1之間的一個實數(shù)。至于詞與詞之間的語義相似度,我們使用了詞語兩兩義原相似度的最大值,希望最大限度的保留詞語之間相似性信息。所謂語義相關場,不同于語義相似度,反映的是兩個詞語互相關聯(lián)的程度??梢杂眠@兩個詞語在同一個語境中共現(xiàn)的可能性來衡量。因此相關的詞語語義上可能相近,也可能相反。通過輸入一個詞語并選取詞語的某一義原,可以獲得與該義原語義相關的一組詞,例如,對于“漂亮”這個詞,若選擇其義原為“{beautiful|美}”,即可獲得一組語義相關的詞語,包括“美貌”、“美景”、“俏麗”、“美麗”、“好看”等。同時語義相關場的范圍(即語義相關詞語的數(shù)量)可通過參數(shù)調(diào)整(分三級,從小到大分別是Rank1~Rank3)。本文的算法利用了HowNet的語義相似度和語義相關場功能,希望能通過其所提供的語義信息為詞語褒貶判別找出一條新的途徑。2.2實驗設計及結果我們希望為每個單詞賦予一個語義傾向的度量值。其大小由這個單詞與基準詞的語義關聯(lián)的緊密程度有關?;鶞试~,在這里指褒貶態(tài)度非常明顯、強烈,具有代表性的詞語。與褒義基準詞聯(lián)系越緊密,則詞語的褒義傾向越強烈。與貶義基準詞聯(lián)系越緊密,則詞語貶義傾向越明顯。基于這樣的設想,設計如下實驗:假設共有k對基準詞,每對基準詞包括一個褒義詞和一個貶義詞。褒義基準詞表示為key—p,貶義基準詞表示為key—n,單詞w的語義傾向值用Orientation(w)表示,以0作為默認閾值,最終傾向值大于閾值為褒義,小于閾值為貶義。Orientation(w)數(shù)值大小代表單詞w褒貶強烈程度。單詞w的語義傾向值計算公式如下:Orientation(w)=∑i=1kSimilarity(key—pi,w)?∑j=1kSimilarity(key—nj,w)(1)Οrientation(w)=∑i=1kSimilarity(key—pi,w)-∑j=1kSimilarity(key—nj,w)(1)我們的試驗中,公式(1)中的Similarity(key,w)的計算分別采用了HowNet語義相似度和語義相關場兩種方法。1.計算相似度公式(1)中的Similarty(key,w)=Sim(key,w)(2)公式(1)中的Similarty(key,w)=Sim(key,w)(2)利用HowNet計算兩個單詞義原之間的相似度,取兩個單詞義原之間相似度的最大值作為Sim(key,w)。2.語義相關場的獲得公式(1)中的Similarty(key,w)=|Relevance(w)∩Relevance(key)||Relevance(w)∪Relevance(key)|(3)公式(1)中的Similarty(key,w)=|Relevance(w)∩Relevance(key)||Relevance(w)∪Relevance(key)|(3)HowNet的語義相關場的獲得是以義原為單位,即給出一個義原,可獲得屬于其相關場的單詞集合。這里所說的Relevance(w)表示單詞w所有義原的語義相關場詞語的并集。式(3)的分子和分母分別表示兩個詞語相關場交集和并集的元素個數(shù)。3實驗3.1信義字的標注度量語義傾向判別效果的方法有兩種,一是直接判斷其算法對單詞的褒貶傾向判斷的準確率,二是通過語義傾向判別為某個實際應用帶來的性能提高來衡量。本文使用前一種較直觀的方式對實驗效果進行評價。語義傾向?qū)嶒炈褂玫臏y試集共有3組。測試集1~測試集3。測試集1使用了HowNet第一版中文詞表中標注“良”(褒義),“莠”(貶義)屬性的詞匯??偣策x用6445詞。其中褒義詞3146個,貶義詞3299個。在實驗過程中,我們發(fā)現(xiàn),測試集1中包含這樣一些詞語,其義原集合中某一義項雖然被標注為褒義或貶義,但該義項作為該詞的一個特殊義項并不常用;或者該詞語在不同語境下,或為褒義,或為貶義,并不能簡單地將其判斷為褒義詞或貶義詞。例如:詞語“好看”,在描述事物時,可作褒義,如“這花真好看”,而在“要你好看”這樣的語句中,顯然帶有強烈的貶義。為了使實驗結果更能說明問題,更具有說服力,我們從測試集1中人工挑選了2795個褒貶含義較明確的詞語作為測試集2。為了測試我們的方法在常用詞中的效果,我們把測試集2中的詞語按Google搜索返回Hits數(shù)(截止至2004年8月31日),即它們在Web上的詞頻降序排列,選取詞頻最高的280個詞語,作為測試集3。表1中列出了各個測試集合的具體信息。3.2算法2:不同基層組詞篩選在我們的方法中,計算語義傾向度必須首先選擇一組褒貶基準詞對,根據(jù)被測試詞與這組基準詞的語義關系緊密程度,通過計算得到語義傾向值。顯然,所選擇的基準詞必須是具有強烈褒貶傾向,并且具有代表性的詞語。基于以上原因,我們選擇了測試集2中的詞語作為基準詞對的候選集合,根據(jù)詞頻對詞語進行降序排列,分別從褒貶詞中選取出現(xiàn)頻率最高的作為褒貶基準詞??偣策x擇了褒貶詞對3組,分別進行實驗比較?;鶞试~對1由詞頻最高的前10個褒義詞和前10個貶義詞組成,基準詞對2選取了詞頻最高的前20對褒貶基準詞,基準詞對3選取了詞頻最高的前40對褒貶基準詞。表2給出了基準詞對3的全部詞匯,而基準詞對1和基準詞對2顯然都是它的子集。本文所有實驗結果都是從測試集中扣除了這40組基準詞后得到的。3.3語義相似度實驗集3.實驗的目的是為每個測試集中的單詞賦予語義傾向值,通過傾向值來度量其褒貶程度。在以下實驗中,默認使用0為閾值,即傾向值大于0則判斷為褒義,小于0則判斷為貶義。語義傾向判別準確率=判別正確的詞數(shù)/測試集總詞數(shù),我們以此來衡量算法效果。語義傾向值的計算使用了兩種方法,分別利用了HowNet的語義相似度和語義相關場的計算功能。具體計算公式在2.2中已有詳細介紹。首先,對于這兩種計算方法的效果進行了實驗,在此,我們使用隨機賦值的方法作為基準參與比較。為了盡量避免獲得的相關場集合較小而導致Relevance(w)∩Relevance(key)交集為空的情況,因此,我們選用可調(diào)參數(shù)Rank=3,獲得單詞的最大的語義相關場。實驗使用基準詞對3(40對褒貶基準詞),實驗結果如下表:表3顯示了在3個測試集上,兩種不同的計算方法對語義傾向判別中的效果。我們發(fā)現(xiàn),在同一測試集上,使用相同的基準詞對,基于HowNet語義相似度的計算方法比基于語義相關場的計算方法準確率高。其原因主要是由于,語義相關場的定義中,所謂相關,既包括了褒貶傾向相近的詞語,同時又包括了褒貶傾向相反的一些詞語,例如:“好”這個詞,選擇其義原為“優(yōu)質(zhì)”,所獲得的相關場詞集中,既包括了“優(yōu)良”、“良好”這類語義相近的褒義詞,又包含了“壞”、“劣質(zhì)”這些語義相反的貶義詞。由于這個原因,導致了語義相關場并不能將詞語間褒貶的相近程度很好地反映出來。而語義相似度恰恰能在一定程度上反映詞語間的語義傾向的一致性,因此實驗效果較好。為了更好地反映本文所提出的語義傾向算法在實際應用中的效果,我們把詞語使用頻率作為衡量算法性能的一個指標。我們對測試集中的單詞按Google搜索返回Hits數(shù)進行了統(tǒng)計。由此作為該單詞使用頻率的度量指標。測試結果的準確率根據(jù)單詞使用頻率加權計算。準確率=∑result(rwj)∑result(wi)=∑result(rwj)∑result(wi),公式中result(word)表示詞語word的詞頻,rw代表褒貶傾向判斷正確的單詞,w表示測試集中的任意單詞。下表將經(jīng)過詞頻加權的實驗結果與初始實驗結果在測試集2上進行了比較。語義傾向值的計算使用基于HowNet語義相似度的計算方法。由表4可以很明顯地看出,根據(jù)單詞詞頻加權的準確率較初始結果好得多。在不同基準詞對下,其準確率高出5%~10%。由此說明,本文的算法在常用詞中的判別效果較低頻詞好,因此本方法也更具有實際應用的價值。另外,基準詞對數(shù)目的大小對實驗效果的影響也是我們所關心的一個問題。在測試集2中,我們挑選了使用頻率最高的一部分詞,作為測試集3,而基準詞仍然根據(jù)詞頻選取前1對、4對、5對、10對、15對、20對、30對、40對褒貶詞進行測試。詞語相似度的計算仍使用基于HowNet語義相似度的方法。實驗結果如下:從上圖可以看到,語義傾向判別的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海股權轉(zhuǎn)讓合同模板
- 450億廣告投放框架合同正式簽署
- 人力資源和社會保障局與勞動合同法改革探討
- 個體戶全職員工標準勞動合同合同范本
- 個人小型店面租賃合同樣本
- 個體藥店并購轉(zhuǎn)讓合同及附件
- 產(chǎn)業(yè)合作投資合同
- 交通事故賠償合同范本大全
- 個人家政服務勞務合同
- 喪葬禮儀服務合同模板
- 高校鑄牢中華民族共同體意識教育的路徑研究
- 《個人所得稅征管問題及對策研究》
- 2022年云南省公務員錄用考試《申論》真題(縣鄉(xiāng)卷)及答案解析
- 大學輔導員崗位考核參考指標
- 隱名股東協(xié)議股權代持的協(xié)議書(范本)
- 初級中學語文教師資格考試學科知識與教學能力試題及解答參考(2024年)
- 2024年高端裝備制造行業(yè)現(xiàn)狀分析:國家政策確保高端裝備制造行業(yè)有序發(fā)展
- 《帶一本書去讀研:研究生關鍵學術技能快速入門》筆記
- 知識圖譜智慧樹知到答案2024年浙江大學
- 2024年吉林省吉林市中考一模物理試題(解析版)
- Unit 2 Last weekend C Story time (教學設計)人教PEP版英語六年級下冊
評論
0/150
提交評論