




已閱讀5頁,還剩69頁未讀, 繼續(xù)免費閱讀
【畢業(yè)學位論文】意見目標網(wǎng)絡(luò)與意見目標抽取研究-計算機科學與技術(shù)系.pdf 免費下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
意見目標網(wǎng)絡(luò)與意見目標抽取研究郝博一 摘 要 I 摘 要 意見目標抽取是意見挖掘領(lǐng)域 的重要子任務(wù),同時由于意見目標抽取的對象是客觀性信息,又使得它與信 息抽取技術(shù)有著密切的關(guān)系。先前的意見目標抽取研究,存在四個主要弊?。?1)對意見目標定義含糊。2)對意見目標管理低效。 3)意見目標擴展抽取時使用的種子顆粒度偏大。 4)過分依賴統(tǒng)計方法,句法分析不足。針對以上問題,本文在首先明晰了意見目標定義的基礎(chǔ)上,提出了 一種能結(jié)構(gòu)化表示意見目標的高效管理體系意見目標網(wǎng)絡(luò),以及一 套基于泛化與繁殖的自舉式意見目標抽取算法。 意見目標網(wǎng)絡(luò)是一個雙層有向 圖,它以原子意見目標(廣義實體和屬性)同義詞集為結(jié)點,通過意見目標 模式實現(xiàn)了對復(fù)合意見目標的表示。意見目標網(wǎng)絡(luò)的構(gòu)建過程恰恰是未 知意見目標抽取過程,配合基于泛化和繁殖的多輪自舉處理,顯著提高 了意見目標抽取覆蓋率。本文在中文評價文本上進行了實驗,結(jié)果表明 :意見目標網(wǎng)絡(luò)對發(fā)現(xiàn)未知意見目標具有很好的性能。 關(guān)鍵詞: 意見目標抽取 意見挖掘 信息抽取 術(shù)語抽取 意見目標網(wǎng)絡(luò) I is an as a in 1) no of 2) of 3) to be 4) of To a of is in by a of a on is in to of in a to OT to TN a of is TN is in 目 錄 錄 第 1 章 引言 . 1實與意見 . 1息抽取 . 2見挖掘 . 3見目標抽取 . 7第 2 章 相關(guān)技術(shù)綜述 . 9語抽取 . 9于統(tǒng)計的術(shù)語抽取 . 9計與規(guī)則相結(jié)合的術(shù)語抽取 . 12見目標抽取 . 13于規(guī)則的意見目標抽取 . 13于同現(xiàn)的意見目標抽取 . 14于關(guān)系的意見目標抽取 . 14他 . 15第 3 章 問題分析 . 16務(wù)目標 . 16點分析 . 17決思路 . 19見目標 . 19有方法的弊病 . 21決方案 . 24決思路后文結(jié)構(gòu) . 24第 4 章 統(tǒng)計與句法分析相結(jié)合的意見目標抽取方法 . 26紹 . 26法架構(gòu) . 27法結(jié)構(gòu)及流程 . 27目 錄 候選意見目標抽取 . 28征向量生成 . 31選意見目標排隊 . 33驗 . 34驗數(shù)據(jù)與評測標準 . 34驗方法 . 36驗結(jié)果及分析 . 40論 . 41第 5 章 基于意見目標網(wǎng)絡(luò)的抽取方法 . 42紹 . 42見目標網(wǎng)絡(luò) . 43紹 . 43本思想 . 43義 . 44式化表示 . 45于泛化與繁殖的自舉式抽取 . 46法框架 . 46化過程 . 47殖過程 . 52舉算法 . 54驗 . 55驗設(shè)置 . 55驗指標 . 55驗設(shè)計 . 56驗結(jié)果 . 56結(jié) . 61第 6 章 總結(jié)與工作展望 . 62參考文獻 . 63目 錄 V 致謝與聲明 . 66個人簡歷、在學期間發(fā)表的學術(shù)論文與研究成果 . 67第 1 章 引言 1 第1章 引言 事實與意見 人們?nèi)粘C鎸Φ奈谋局衅毡榘?含兩類信息事實( 意見( 。它們分別對應(yīng)了人類兩種 不同的認識世界的方式。正如古希臘哲學家柏拉圖在他的著作理想國中所指出的1,人類具有兩種認知世界的方式, 一種是事實認知 (也稱為真理認知) , 一種是意見認知。這兩種認知方式的主體都是人類本身, 客體都是客觀世界,但是這兩種認知方式有著明顯的不同。所謂事實認 知,是不以個人的意志為轉(zhuǎn)移的,是人類共同意志的體現(xiàn)。它具有固定性 、肯定性和公共性。比如, “奧巴馬當選了美國總統(tǒng)”就是一個事實認知。 而意見認知則完全取決于個體,隨著個體的不同而產(chǎn)生差異。它具有變 化性、流動性和個體性。比如,有人支持奧巴馬當選美國總統(tǒng),有人反 對。這就是意見認知。對于人類來說,由這兩種認知方式所產(chǎn)生的兩類 信息事實和意見,都有著重要的意義。 人類認識世界與改造世界的過 程中也相互傳遞著這兩種類型的信息,從早期的口耳相傳,到后來的印刷 品,再到互聯(lián)網(wǎng)?;ヂ?lián)網(wǎng)的產(chǎn)生,極大的改變了人類傳遞信息的速度和范圍, 影響到社會生活的方方面面,開創(chuàng)了一場信息革命?;ヂ?lián)網(wǎng),以其廣 泛性、快捷性、便利性,成為了現(xiàn)今世界人類轉(zhuǎn)遞信息的主要渠道。它 可以輕松連接兩個毫無關(guān)系的人類個體,為他們提供通信平臺。由于互 聯(lián)網(wǎng)信息的公開性與易獲取性,它也為大規(guī)模的信息處理提供了可能。 近些年來的數(shù)據(jù)挖掘技術(shù),信息檢索技術(shù)等都是伴隨互聯(lián)網(wǎng)的快速發(fā)展 而產(chǎn)生的。一個顯而易見的事實是,互聯(lián)網(wǎng)上絕大多數(shù)信息是 以文本的形式存在的。 對應(yīng)于文本中包含的兩類信息 ,人們對文本的處理也可以分為兩類對事實的處理與對意見的處理。由 此產(chǎn)生了兩個研究領(lǐng)域:信息抽?。?意見挖掘( 。信息抽取 (嚴格應(yīng)稱為事實信息抽取, 鑒于歷史沿革, 仍稱為信息抽?。?,第 1 章 引言 2 是指對文本里包含的事實信息進行結(jié)構(gòu) 化處理。它又包含命名實體識別( 、術(shù)語抽?。?技術(shù)。意見挖掘,是指從文本中抽取 非事實的主觀性信息,也就是個人、群體、組織等主體在主觀性文本中 表達的意見、情感和態(tài)度。意見挖掘包含有意見目標抽取( 、持有者識別( 、情感分析( 子任務(wù)??梢钥闯?,其中的意見目標抽取任務(wù)既是 意見挖掘的子任務(wù),同時其抽取對象意見目標本身是事實信息,這 使得意見目標抽取任務(wù)又與信息抽取緊密相關(guān)。意見目標抽取是在文本 中尋找意見的表達對象,并將其抽取出來。意見本身包含情感,是非客 觀信息,但是意見目標往往是客觀信息。所以說,意見目標抽取是跨越 信息抽取與意見挖掘兩個領(lǐng)域的一項綜合任務(wù)。一方面可以使用信息抽 取的基礎(chǔ)技術(shù),另一方面又從意見挖掘技術(shù)中得到更多的提升。 信息抽取 信息抽取,其主要功能是從文本 中抽取出特定的事實信息( 。主要是實體(比如時間、地點、人物名、組織名等)以及實體之間的關(guān)系(比如“位于”關(guān)系、 “任職”關(guān)系等)信息2。圖 圖 信息抽取技術(shù)實例 第 1 章 引言 3 在上圖中,原始文本是一篇包 含各種信息的介紹性文字。通過命名實體識別技術(shù),可以在文本中確定出組 織名、職務(wù)名和人名等實體信息。再通過實體關(guān)系識別技術(shù),可以將這些名稱配對,從而提取出組織名 人名三元組,構(gòu)成任職關(guān)系搭配 ,將文本中的事實信息結(jié)構(gòu)化。完成了信息抽取流程。得到的結(jié)構(gòu)化信 息,可以提供給用戶檢索,也可以作為其他信息處理技術(shù)的輸 入,進行更深入的信息挖掘。 信息抽取研究開始于 20 世紀 60 年代, 而其蓬勃發(fā)展得益于 80 年代末開始的消息理解系列會議( 召開。當 1998 年最后一屆 議結(jié)束時,信息抽取已經(jīng)發(fā)展成為自然語言處理領(lǐng)域的一個重要分支。 其后,美國國家標準技術(shù)研究所( 織的自動內(nèi)容抽?。?測會議成為推動信息抽取技術(shù)發(fā)展的動 力。它研究的主要內(nèi)容是自動抽取新聞?wù)Z料中出現(xiàn)的實體、關(guān)系和事件 等內(nèi)容,也就是對新聞?wù)Z料中實體、關(guān)系和事件的識別與描述。現(xiàn)在, 信息抽取已經(jīng)發(fā)展出不少成熟的技術(shù)與方法,并且投入實際應(yīng) 用。帶來了良好的社會效益。 從圖 的例子我們可以看出,信息 抽取技術(shù)也需要對文本有一定程度的理解。但是它與文本理解( 術(shù)是迥然不同的。在信息抽取中,用戶只關(guān)心 有限的一些令其感興趣的事實信息,而不關(guān)心諸如作者的意圖等深層理 解問題,遠遠達不到文本理解的水平。從這個角度說,信息抽取技術(shù)只 是淺層的文本理解技術(shù)。從后文我們可以看到,意見挖掘比信息抽取的 文本理解程度要高,處理難度會更大。 意見挖掘 意見挖掘,處理的對象是主觀性文本,比如評論( 者斷言( ,其功能是自動獲取關(guān)于意見的信息和知識3。主觀性文本是相對于客觀性文本而言的,它 主要描述了文本作者對人物、事件等的想法和觀點。再以上節(jié)中的文本 為例,展示意見挖掘技術(shù)的一個實例,表示在圖 : 第 1 章 引言 4 圖 意見挖掘技術(shù)實例 從圖中我們可以看出,意見需 要有持有者,也就是發(fā)表意見的個人或者組織。除此之外,意見還需要有對 象,可以是具體事物,也可以是事件或者現(xiàn)象,它是承擔意見的客體。 再有就是意見本身,它包括文本中出現(xiàn)的陳述,還包括陳述中隱含的意 見持有者的態(tài)度、情感等信息。通過意見挖掘技術(shù),將上述一些信息以 及其他的有用信息抽取出來,并按照一定的格式存儲,這就是意見挖掘 的過程。簡單來說,意見挖掘所做的事情即是如此,但實際上所面臨的 問題并非如此簡單。在后文中還將有所介紹。 一個完整的意見,是由多個要 素組成的。對意見的挖掘,就是對意見要素的挖掘。至于表達一個完整意見 所需要的要素個數(shù),目前學術(shù)界還沒有共識。文獻中可以看到有三要素說4,四要素說5,七要素說6等說法。意見的四要素說由 出,他們認為:一個完整的意見包括四個要素,即主題( 、持有者( 、陳述( 情感( 。也就是,意見的持有者針對主題發(fā)表了具有情感的意見陳述。需要指出的是,針對不同 的意見,有時候主題又稱為對象。這是根據(jù)意見的顆粒度決定的,對于粗 顆粒度的意見,針對的事件和人物比較概括,此時稱為意見的主題;對 于細顆粒度的意見,針對的事件、人物、目標比較具體,此時稱為意見的對象( 。意見的七要素說由 出,他認為:一個完整的意見需要用七個要第 1 章 引言 5 素描述,即持有者( 、主題( 、主題部件( 、主題屬性( 、評價( 、前提條件( 、支持條件( 。相對于四要素說,七要素說將主題( 為了主題( 、主題組分( 主題屬性( ;合 并 陳 述( 情感( 評價( ;并新添了要素前提條件( 、支持條件( 。圖 出了使用意見七要素說的一個處理實例。而意見四要素說,體現(xiàn)在圖 表達的實例中。 圖 意見七要素說處理實例 很難說這兩種說法孰優(yōu)孰劣, 因為意見挖掘面臨不同顆粒度處理的問題。所謂顆粒度,是指意見的概括程 度,比如針對如下一段文字: “尼康 一款優(yōu)秀的單反相機。對于剛剛癡迷于單反相機的初級發(fā)燒友來說,擁有一臺 夢寐以求的事。拋開它相對誘人的價格不談(雖然對于普通數(shù)碼相機來說是高昂的) ,它更讓人津津樂道的是強大的功能、出色的操控性和優(yōu)秀的光學性能。另外,由于配備了機身馬達,所以它可以支持便宜的鏡頭。 唯一美中不足的是它的防抖能力不盡如人意。 ” 我們可以說整段文字包含了一個意見“尼康 一款優(yōu)秀的單反相機” 。也可以說它包含了七個意見: 第 1 章 引言 6 ( 1)尼康 秀 ( 2)尼康 相對誘人的價格 ( 3)尼康 強大的功能 ( 4)尼康 出色的操控性 ( 5)尼康 優(yōu)秀的光學性能 ( 6)尼康 持便宜的鏡頭 ( 7)尼康 抖能力不盡如人意 說這段文字包含一個意見,是 從粗顆粒度角度考慮。因為整段文字所要表達的就是“尼康 一款優(yōu)秀的單反相機”這個觀點。雖然它遺失了許多詳細的信息,但是對于特定 用戶例如只關(guān)心產(chǎn)品名譽的用戶來說,這就足夠了。然而,對于那 些更關(guān)注產(chǎn)品細節(jié),比如相機防抖能力的用戶來說,這個意見顯然是不 夠的。必須將其細化,才能發(fā)現(xiàn)用戶感興趣的具體意見信息。也就是說 ,選擇何種顆粒度,是根據(jù)不同的需求來確定的。這就使意見顆粒度的 選擇具有很大的靈活性和不確定性。一般來說,有粗顆粒度、細顆粒度 和特定顆粒度等不同層次的選擇3。 對于不同意見顆粒度的選擇, 影響了研究者們對于意見要素的定義。四要素定義法偏向于粗顆粒度的意見選 擇,而七要素定義法偏向于細顆粒度的意見選擇。我們需要注意,從細 顆粒度的意見中,可以復(fù)原粗顆粒度的意見,因為采用細顆粒度模式記 錄的意見包含了更多原文本中的信息。然而它付出的代價是處理流程的 繁雜,處理速度的下降,以及錯誤率的上升。 顆粒度選擇問題只是意見挖掘 技術(shù)所面臨的眾多難題中的一個,除此之外,還有挖掘方法的精度和魯棒性 問題、隱式主題(不顯式存在于文本中的主題)的識別問題、對應(yīng)情感 關(guān)系識別(針對多對象多情感的意見)問題等諸多問題的存在。這些問 題都制約著意見挖掘技術(shù)的發(fā)展。 從意見挖掘技術(shù)誕生以來,十 幾年間取得了迅速的發(fā)展,新技術(shù)新方法新應(yīng)用不斷涌現(xiàn)。成為自然語言處 理領(lǐng)域的研究熱點。但由于起步晚,面臨的難題眾多,距離信息抽取技 術(shù)那樣的廣泛應(yīng)用,還有一定的距離。 第 1 章 引言 7 意見目標抽取 意見目標抽取的任務(wù)是要抽取 出意見所針對的目標,也就是意見表達的對象。一方面,意見目標是依賴于 意見而存在的,如果不存在意見也就無所謂意見目標;另一方面,意見 目標往往是實體,比如人物、事物、事件或者現(xiàn)象等等,所以它與信息 抽取密切相關(guān)。作為意見挖掘與事實挖掘的交叉任務(wù),意見目標抽取具 有如下的意義:首先,確定意見目標,對于明晰意見本身是很重要的。 有些時候,意見挖掘任務(wù)具有預(yù)設(shè)的主題,此時意見目標可能并不重要 ,因為所有獲得的意見情感可以都歸入預(yù)設(shè)的主題之下。但很多情況下 ,意見挖掘任務(wù)是沒有預(yù)設(shè)主題的,或者雖然有預(yù)設(shè)主題,但是對次級 主題(或者稱詳細目標)也非常關(guān)注。此時,抽取正確的意見目標可以 使意見本身更加清晰準確,對挖掘結(jié)果具有重要意義。比如,同在“美 國總統(tǒng)奧巴馬的施政綱領(lǐng)”這個主題下,有人更關(guān)注教育,有人更關(guān)注 外交,有人更關(guān)注經(jīng)濟,這時次級主題就顯得非常重要;其次,抽取出 意見目標之后,有利于聯(lián)合抽取意見陳述。意見目標與意見陳述往往是 成對出現(xiàn)的,那么,意見目標的出現(xiàn)表明上下文中存在意見的可能性增 大。利用這個啟發(fā)信息,可以提高意見陳述抽取的效率;再次,抽取準 確的意見目標,有利于完成意見統(tǒng)計或者意見摘要。意見的匯總和歸并 ,很多情況下需要按照意見的目標分類進行,這也是最自然的一種處理 方式。如果沒有準確的抽取出意見目標,就會給這個過程帶來很大的困 擾,導(dǎo)致意見統(tǒng)計結(jié)果出現(xiàn)偏差。所以說,意見目標抽取,是意 見挖掘過程中的一項重要任務(wù)。 對于“意見目標”這個術(shù)語的 使用,學界也并沒有達成統(tǒng)一。本文在此處將對這一術(shù)語進行說明,一方面 厘清概念,另一方面為本文中使用的表述提供依據(jù)。前文提到,對于意 見所表達的那個人物或者事物、事件、 現(xiàn)象, 一般文獻中會使用 “意見主題 ( ” 、“意見特征 ( 、意見屬性( 、意見焦點( ”等術(shù)語。而實際上, “意見主題”這個概念顆粒度偏大,適用于對大 段文字的描述,而其余三個概念則顆粒度偏小,適用于描述某一個事物 的具體特征。在統(tǒng)稱這兩類概念時,使用任何一個都難免偏頗。所以本文采用“意見目標” (也可稱為“意見對象” )來統(tǒng)稱以上所有提到的術(shù)語。 意見目標抽取過程中還面臨一 個困難的問題,那就是隱含意見目標第 1 章 引言 8 問題。也就是說,在文本中沒有具體出 現(xiàn)意見目標本身,而是通過上下文指代,或者習慣性省略等方式傳遞給 閱讀者。這時候需要對隱含的意見目標進行恢復(fù)。此外,對于有些意見 目標,雖然表達形式不同,但它們所指的是同一個概念,屬于同一概念 下的不同意見目標具體表達。如何將這些不同的意見表達歸納在統(tǒng)一的 概念下,也是一個很有挑戰(zhàn)性的問題。進而,如何對一個特定領(lǐng)域進行 基于本體的目標抽取,或者通過意見目標抽取技術(shù)達到本體的自動構(gòu)建 ,都是非常有趣且意義重大的問題。 后文將按照如下結(jié)構(gòu)組織:第 二章介紹相關(guān)領(lǐng)域的研究現(xiàn)狀,介紹一些經(jīng)典算法;第三章分析面臨的實際 問題,明確研究難點以及現(xiàn)有研究方法的優(yōu)缺點;第四章將介紹一種融 合了淺層句法分析和統(tǒng)計規(guī)律的算法;第五章介紹意見目標網(wǎng)絡(luò),以及 利用意見目標網(wǎng)絡(luò)進行的基于泛化和繁殖的意見目標抽取算法。第六章 總結(jié)前文,并展望未來工作。 第 2 章 相關(guān)技術(shù)綜述 9 第2章 相關(guān)技術(shù)綜述 意見目標抽取,是信息抽取和 意見挖掘的交叉任務(wù)。在本節(jié)中,將從信息抽取領(lǐng)域的術(shù)語抽取技術(shù)、意見 挖掘領(lǐng)域的意見目標抽取技術(shù)兩個方面來介紹前人的工作。術(shù)語抽取 術(shù)語,是特定領(lǐng)域中表達特定概念的詞或短語7。也就是說,術(shù)語可以是詞,也可以是詞組。術(shù)語抽取就 是從大規(guī)模語料中抽取出特定領(lǐng)域術(shù)語的過程。 術(shù)語抽取技術(shù)最開始依賴于利 用規(guī)則進行模板匹配的方法?;谶@種方法,準確率高而且計算量小。但缺 點是覆蓋率低,并且依賴于大量的花費在制定規(guī)則上的人力資源。后來 ,研究者開始引入統(tǒng)計理論處理術(shù)語抽取問題。產(chǎn)生了互信息( 法 、 得了很好的抽 取效果。使術(shù)語抽取技術(shù)上了一個新的臺階。同時,一些學者將統(tǒng)計方 法與規(guī)則方法結(jié)合起來進行術(shù)語抽取,也取得了很好的效果。本節(jié)中將 對統(tǒng)計方法以及統(tǒng)計與規(guī)則結(jié)合的方法進行介紹。 基于統(tǒng)計的術(shù)語抽取 基于統(tǒng)計的術(shù)語抽取技術(shù)大致可以分為兩個部分8:一部分的主要作用是判斷一個完整的語言單位,稱之 為單元度計算;另一部分的主要作用是判斷這個完整的語言單 位是否是術(shù)語,稱之為領(lǐng)域度計算。 單元度計算的常用方法有互信息( 法9, 法1011,左右熵方法12等。其中, 法和 法是從字符串內(nèi)部各部分之間的關(guān)系考慮單元度 ,通過考察內(nèi)部各部分之間的結(jié)合強度給出單元度結(jié)果;左右熵方法則 是從字符串與外部串之間的關(guān)系考慮單元度。 第 2 章 相關(guān)技術(shù)綜述 10 法是對信息論的應(yīng)用,它定義概率為 P(x)和 P(y)的兩個點 x和 y 之間的互信息 MI(x,y)為: 2(, )(, ) ()x ( 2 其中 P(x,y)是 x 和 y 同時出現(xiàn)的聯(lián)合概率, P(x)和 P(y)分別為 x 和 概率論我們可知,如果 x 和 y 相互獨立,則 P(x,y)= P(x)P(y),即 MI(x,y)=0;否則,如果 x 和 y 存在某種關(guān)系,則 P(x,y) P(x)P(y),即 MI(x,y)0。這樣,通過計算 MI(x,y)就可以判斷 x 和 y 之間是否存在聯(lián)系。在術(shù)語抽取中,假設(shè) x 和 y 是兩個字串,它們在語料中出現(xiàn)的概率是 P(x)和 P(y), P(表詞串 語料中出現(xiàn)的概率。通過計算 x 和 y 的互信息,可以判斷 x 和 y 的結(jié)合緊密度?;バ畔⒃礁?,則說明 x 和 y 更傾向于同時出現(xiàn), 有可能是一個語言單位。反之,則 x 和 y 的關(guān)聯(lián)性越低。 法給出了一個簡單的計算詞匯關(guān)聯(lián)度的途徑,但是它對概率值(字串頻率)非常 敏感,不適合數(shù)據(jù)稀疏情況下的處理,所以當術(shù)語的出現(xiàn)頻率 過低時,不能被有效的抽取13。 法是另一種衡量兩個事件是否共現(xiàn)的方法, 對于相鄰的兩個字串 u 和 v,它們的 以定義為: ) ( )( ) ( ) N a a b b c c d ac ab cd db + + + + + +( 2 其中 a 為詞串 語料中出現(xiàn)的頻率, b 為 語料中出現(xiàn)的頻率( y 為除 v 以外的其他詞匯) , c 為 語料中出現(xiàn)的頻率( x 為除 , d 為不包含 u 或 v 的候選術(shù)語的個數(shù), N 為語料中的總詞數(shù)。這種方法在抽取低頻 率術(shù)語時具有很好的效果。 法和 法的本質(zhì)都是用一種統(tǒng)計量表征兩個字串 x 和 y 的同現(xiàn)關(guān)系,進而確定詞串 為一個語言單位的概率。那么類似的,還可以嘗試更多的統(tǒng)計量,比如 s 。羅盛芬等人考察了以上全部九種統(tǒng)計量在術(shù)語抽取中的表現(xiàn), 得出結(jié)論: 法的抽取能力最強,第 2 章 相關(guān)技術(shù)綜述 11 各種方法組合后的最優(yōu)效果也只比 法在 F 分數(shù)上高 改進效果不明顯14。 左右熵方法給出了另一種計算 單元度的思路。它通過考察詞串在邊界上的特征來進行單元度計算12。 首先計算詞串邊界的熵值, 熵值越大,說明邊界越活躍,本詞串越可能是一個 完整的語言單位。反之,邊界熵越小,說明邊界越穩(wěn)定,本詞串與外部 詞串的關(guān)系密切,不能作為完整語言單位。詞串 s 左側(cè)邊界熵的計算方法是: ,|() ( )|( 2 其中, u 是詞串 s 左側(cè)邊界上出現(xiàn)的詞, |s|為詞串 s 在語料中出現(xiàn)的頻率。 = 。同理,詞串 s 右側(cè)的邊界熵為: ,|() ( )|( 2 其中, u 為詞串 s 右側(cè)邊界上出現(xiàn)的詞。綜合左右兩側(cè)的情況,詞串 s 的平均邊界熵為: () ()()2 ( 2 使用邊界熵的方法,不需要考慮詞串 s 的內(nèi)部組成,所以便于處理詞長較長的詞串,尤其在提取 多詞術(shù)語時,效果良好。 關(guān)于領(lǐng)域度的研究不如單元度這樣受關(guān)注。目前主要是基于 法在信息檢索領(lǐng)域應(yīng)用十分廣泛,它基于如下的一些前提假設(shè):第一,術(shù)語應(yīng) 該在特定領(lǐng)域中出現(xiàn);第二,術(shù)語不能是領(lǐng)域中的平常詞;第 三,術(shù)語不能頻繁出現(xiàn)在其他領(lǐng)域中15。的計算公式為: ()()()T= ( 2 其中, 候選術(shù)語詞串, T)為 領(lǐng)域文檔中出現(xiàn)的頻率,T)為 現(xiàn)的領(lǐng)域文檔數(shù)目。由式 2知, 領(lǐng)域文檔中出現(xiàn)的次數(shù)越多,出現(xiàn)的領(lǐng)域文檔數(shù)越少, 越大,它越可能是領(lǐng)第 2 章 相關(guān)技術(shù)綜述 12 域術(shù)語??梢园l(fā)現(xiàn),使用 法來計算領(lǐng)域度,利用的是術(shù)語與所在領(lǐng)域文檔的關(guān)系。另外還有一些研究者在 法的基礎(chǔ)上進行了改進1516,也取得了不錯的效果。基于 想的算法優(yōu)缺點比較明顯。優(yōu)點是一般來說相對簡單,并且除 了領(lǐng)域語料不需要任何特定的領(lǐng)域信息。缺點是過分依賴于術(shù)語出現(xiàn)的 頻率,不能剔除頻繁出現(xiàn)但是無意義的詞語。 統(tǒng)計與規(guī)則相結(jié)合的術(shù)語抽取 u 等人提出一種通過提取術(shù)語 組合的方式來進行術(shù)語抽取的方法17。此方法基于這樣的假設(shè):新 術(shù)語可以由更基本的現(xiàn)有的術(shù)語組合構(gòu)造而成。本質(zhì)上,此方 法將術(shù)語抽取問題看作一個二值分類問題。其中使用互信息、相關(guān)頻率信息和詞性 模板匹配等作為術(shù)語組合抽取時使用的特征,并利用似然比( 作為決策的依據(jù),其計算方法是: (| ) ( )(| ) ( ) =( 2 其中, 表詞串 c 是由多個單元組成的, 表詞串 c 不是由多個單元組成的,關(guān)頻率信息和詞性模板的一個綜合觀測值。如果 1,則詞串 c 可以被認為是術(shù)語,否則就是非術(shù)語。研究表明這種方法在由兩到三個單元( 2 3成的術(shù)語組合抽取中是非常有效的。然而,由于對 新術(shù)語的詞性標記相對困難,這種方法也有其局限性。 i 等人提出了一種基于窗口上下 文的中文術(shù)語提取方法18。這種方法主要利用一個來自于很小窗口 的上下文的句法和語義信息來進行單個領(lǐng)域的術(shù)語提取。其基本假設(shè)是 如果候選術(shù)語一定數(shù)量的鄰居詞是屬于特定領(lǐng)域時,認為候選 術(shù)語也是特定領(lǐng)域的術(shù)語。 總的說來,這些方法綜合考慮 了術(shù)語內(nèi)部成分的結(jié)合信息、術(shù)語與所處領(lǐng)域的關(guān)系、術(shù)語的詞性信息等, 相對于單純使用統(tǒng)計的方法,增加了更多的決策依據(jù),為我們 繼續(xù)研究術(shù)語抽取問題開拓了思路。 第 2 章 相關(guān)技術(shù)綜述 13 意見目標抽取 意見目標抽取與術(shù)語抽取的不 同在于它可以利用與意見相關(guān)的信息,從而獲得幫助,但同時抽取到的目 標必須依賴于意見的存在,這也使問題的難度上升。意見目標抽取的這 些特點,使它產(chǎn)生了許多不同于術(shù)語抽取的方法。在本節(jié)中將對現(xiàn)有意 見目標抽取方法做簡要介紹。意見目標抽取,并不像情感分析那樣受到 關(guān)注,甚至一些意見挖掘任務(wù)中不存在意見目標抽取的問題。但是在產(chǎn) 品意見挖掘任務(wù)中,意見目標抽取是一個很重要的課題。 基于規(guī)則的意見目標抽取 人根據(jù)名詞短語的組成和位置特 點,采用相似性測試( 法來確定意見目標19。他們認為,意見目標通常表現(xiàn)為名詞或者名詞短語。這樣一來,就 大大減小了候選目標的規(guī)模。此外,還通過基于詞性標注( 型的算法對名詞和名詞短語進行二次篩選。方法中提到了 三條啟發(fā)性詞性標注模型規(guī)則,分別是: ( 1)基礎(chǔ)名詞短語, ( 2)定指的基礎(chǔ)名詞短語, ( 3)句首的定指基礎(chǔ)名詞短語。通過以上兩次篩選, 保證了意見目標的語法完整性。其后,利用領(lǐng)域相關(guān)性,挑選領(lǐng)域局限 性高的候選詞作為本領(lǐng)域意見目標。領(lǐng)域相關(guān)性,使用相似性測試( 計算。此方法在數(shù)碼相機領(lǐng)域本文的實驗中,取得 82%的平均正確率;在音樂領(lǐng)域文本的實驗中,平均正確率為 96%。 人利用標記序列規(guī)則( 現(xiàn)意見目標抽取20?;跇擞浶蛄幸?guī)則( 方法是有監(jiān)督的,通過標注好的實例,訓練 型,再利用模型獲得意見目標。對于訓練數(shù)據(jù)比如, “is 第一步將其變成包含詞性標注的序列: 第二步標記出意見目標,形成一條規(guī)則。 識別過程與訓練過程相反,首 先根據(jù)規(guī)則去匹配模型,從而在相應(yīng)第 2 章 相關(guān)技術(shù)綜述 14 的 $置上獲得意見目標。 基于規(guī)則的方法可以達到很高 的抽取正確率,但是不能有效的解決意見目標的覆蓋性問題。 基于同現(xiàn)的意見目標抽取 據(jù)意見目標和一些指示詞的 同現(xiàn)特征來識別常現(xiàn)( 非?,F(xiàn)( 見目標21。他們同樣先抽取名詞和名詞短語作為候選的意見目標,同時 他們認為,?,F(xiàn)的名詞和名詞短語更可能是意見目標。于是,第一步, 通過詞性標注技術(shù)選取高頻的名詞和名詞短語。第二步要對這些名詞和 名詞短語進行剪枝,剔除不需要的部分。這里面主要包含兩類 錯誤的候選詞, ( 1)多詞短語,但是詞間的順序信息不符合語法規(guī)則。 ( 2)獨立詞,但是它出現(xiàn)在更長的意見目標中。也就是,它只是其他意見目標的 一部分。通過這兩步之后,可以獲得正確率相對較高的意見目標集合。 下面開始抽取非?,F(xiàn)的意見目標。這里用到意見目標與意見情感詞匯的同 現(xiàn)信息。借助已有的?,F(xiàn)意見目標集合,訓練意見情感詞匯集合,之后 借助意見情感詞匯集合,啟發(fā)性的尋找非?,F(xiàn)意見目標。就這樣,此方 法首先使用規(guī)則得到高正確率的常現(xiàn)意見目標,之后借助意見情感詞匯 和同現(xiàn)概率模型,由?,F(xiàn)意見目標向非?,F(xiàn)意見目標前進。分 兩步走的達到意見目標抽取的目的。 基于關(guān)系的意見目標抽取 問題有不同的看法,他們不再把意見目標看作是孤立的,而想到利用意見目標之間的關(guān)系22。例如,對于掃描儀,尺寸是描述它的一種屬性,而翻蓋是它的 一個組成部分。利用意見目標與主題詞匯之間的關(guān)系,可以幫助尋找意 見目標。這中間的橋梁就是關(guān)系識別符。對于掃描儀, 關(guān)系識別符是這樣的短語: of s,。通過計算候選詞匯與關(guān)系識 別符之間的點互信息( 獲取意見目標。計算公式如下: (,)(,)() ()f f f d= ( 2 其中, f 是候選詞匯, d 是關(guān)系識別符。點互信息越高,說明候選詞第 2 章 相關(guān)技術(shù)綜述 15 與關(guān)系識別符關(guān)聯(lián)越密切,也就說明它 更可能是主題詞匯的一個屬性或者組成部分。這樣,相比于 結(jié)果,此方法以犧牲 召回率為代價,換來了準確率 提升。 從公式 2以看出, 點互信息不單單可以在有限 訓練數(shù)據(jù)中獲得,也可以從整個互聯(lián)網(wǎng)獲得。通過搜索引 擎技術(shù),可以在互聯(lián)網(wǎng)上尋找相關(guān)信息。 其他 人對于給定主題的任務(wù),利用搜 索引擎在互聯(lián)網(wǎng)上抽取結(jié)構(gòu)化信息,以獲得意見目標23。在現(xiàn)實中往往面臨這樣的問題:有些任務(wù)具有預(yù)設(shè)的意見主題,但是沒有細化的 具體意見目標。此方法正是利用意見主題作為關(guān)鍵詞,使用信息檢索技 術(shù)得到命中文檔,從這些頁面的結(jié)構(gòu)化組織結(jié)構(gòu)中,發(fā)現(xiàn)副標題、分欄 目等條目作為意見目標。它很大程度上依賴于網(wǎng)頁的結(jié)構(gòu)化程度,對于 高度結(jié)構(gòu)化的網(wǎng)頁,可以獲得出色的效果。它不依賴于意見語 料,更接近信息抽取技術(shù)。 在意見抽取過程中,很多研究 者也關(guān)注了同義詞識別的問題。所謂同義詞識別,是指在意見抽取完成后, 對表述不同而意義相同的意見目標進行同義關(guān)聯(lián)。這個環(huán)節(jié)對于許多后 續(xù)處理過程是非常有意義的。一個簡單的同義詞識別方法是使用現(xiàn)有的 同義詞詞典和語言學資源,比如 助這些語言資源中所包含同義詞信息,可以將意見目標進行同義
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 多元主體參與機制對產(chǎn)教融合的促進作用
- 浙江省湖州市2024-2025學年八年級物理第一學期期末經(jīng)典試題含解析
- 四川省營山縣聯(lián)考2024-2025學年八年級物理第一學期期末教學質(zhì)量檢測試題含解析
- 四川省閬中學2024年物理八上期末綜合測試模擬試題含解析
- 知名連鎖餐廳加盟合作協(xié)議書
- 電影制作公司財務(wù)管理全流程解析
- 物流行業(yè):物流運輸安全與質(zhì)量管理小組的職責及優(yōu)化策略
- 2025至2030防靜電PVC板行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 醫(yī)藥實驗室安全保衛(wèi)制度和措施
- 小學四年級S版語文上冊教案編寫計劃
- 2024年安徽省合肥市北城片區(qū)七年級數(shù)學第一學期期末學業(yè)水平測試試題含解析
- 2025至2030中國銅冶煉行業(yè)發(fā)展現(xiàn)狀及應(yīng)用需求現(xiàn)狀分析報告
- 農(nóng)業(yè)保險培訓課件
- 20250617國金證券機器人行業(yè)研究垂直領(lǐng)域具身智能機器人的野望416mb
- 物理●湖北卷丨2024年湖北省普通高中學業(yè)水平選擇性考試物理試卷及答案
- GB/T 5193-2007鈦及鈦合金加工產(chǎn)品超聲波探傷方法
- GB/T 1041-2008塑料壓縮性能的測定
- GA/T 1555-2019法庭科學人身損害受傷人員后續(xù)診療項目評定技術(shù)規(guī)程
- 酶學(高級生化課件)
- 新人教版七年級上冊初中生物全冊課時練(課后作業(yè)設(shè)計)
- 一諾LZYN質(zhì)量流量計使用說明書-2009版
評論
0/150
提交評論