




已閱讀5頁,還剩72頁未讀, 繼續(xù)免費(fèi)閱讀
【畢業(yè)學(xué)位論文】意見目標(biāo)網(wǎng)絡(luò)與意見目標(biāo)抽取研究-計(jì)算機(jī)應(yīng)用技術(shù).pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
意見目標(biāo)網(wǎng)絡(luò)與意見 目標(biāo)抽取研究 申請(qǐng)清華大學(xué)工學(xué)碩士學(xué)位論文) 培 養(yǎng) 單 位 : 計(jì)算機(jī)科學(xué)與技術(shù)系 學(xué) 科 : 計(jì)算機(jī)科學(xué)與技術(shù) 研 究 生 :郝博一 指 導(dǎo) 教 師 : 鄭 方 研究員 二一年六月 意見目標(biāo)網(wǎng)絡(luò)與意見目標(biāo)抽取研究郝博一 關(guān)于學(xué)位論文使用授權(quán)的說明 本人完全了解清華大學(xué)有關(guān)保留、使 用學(xué)位論文的規(guī)定,即: 清華大學(xué)擁有在著作權(quán)法規(guī)定范圍內(nèi)學(xué)位論文的使用權(quán), 其中包括: (1)已獲學(xué)位的研究生必須按學(xué) 校規(guī)定提交學(xué)位論文,學(xué)校可以采用影印、縮印或其他復(fù)制手段保存研究生上交的學(xué)位論文; (2)為教學(xué)和科研目的,學(xué)??梢詫⒐_的 學(xué)位論文作為資料在圖書館、資料室等場所供校內(nèi)師生閱讀,或在校園網(wǎng)上供校內(nèi)師生瀏覽部分內(nèi)容。 本人保證遵守上述規(guī)定。 作者簽名: 導(dǎo)師簽名: 日 期: 日 期: 摘 要 I 摘 要 意見目標(biāo)抽取是意見挖掘領(lǐng)域 的重要子任務(wù),同時(shí)由于意見目標(biāo)抽取的對(duì)象是客觀性信息,又使得它與信 息抽取技術(shù)有著密切的關(guān)系。先前的意見目標(biāo)抽取研究,存在四個(gè)主要弊?。?1)對(duì)意見目標(biāo)定義含糊。2)對(duì)意見目標(biāo)管理低效。 3)意見目標(biāo)擴(kuò)展抽取時(shí)使用的種子顆粒度偏大。 4)過分依賴統(tǒng)計(jì)方法,句法分析不足。針對(duì)以上問題,本文在首先明晰了意見目標(biāo)定義的基礎(chǔ)上,提出了 一種能結(jié)構(gòu)化表示意見目標(biāo)的高效管理體系意見目標(biāo)網(wǎng)絡(luò),以及一 套基于泛化與繁殖的自舉式意見目標(biāo)抽取算法。 意見目標(biāo)網(wǎng)絡(luò)是一個(gè)雙層有向 圖,它以原子意見目標(biāo)(廣義實(shí)體和屬性)同義詞集為結(jié)點(diǎn),通過意見目標(biāo) 模式實(shí)現(xiàn)了對(duì)復(fù)合意見目標(biāo)的表示。意見目標(biāo)網(wǎng)絡(luò)的構(gòu)建過程恰恰是未 知意見目標(biāo)抽取過程,配合基于泛化和繁殖的多輪自舉處理,顯著提高 了意見目標(biāo)抽取覆蓋率。本文在中文評(píng)價(jià)文本上進(jìn)行了實(shí)驗(yàn),結(jié)果表明 :意見目標(biāo)網(wǎng)絡(luò)對(duì)發(fā)現(xiàn)未知意見目標(biāo)具有很好的性能。 關(guān)鍵詞: 意見目標(biāo)抽取 意見挖掘 信息抽取 術(shù)語抽取 意見目標(biāo)網(wǎng)絡(luò) I is an as a in 1) no of 2) of 3) to be 4) of To a of is in by a of a on is in to of in a to OT to TN a of is TN is in 目 錄 錄 第 1 章 引言 . 1實(shí)與意見 . 1息抽取 . 2見挖掘 . 3見目標(biāo)抽取 . 7第 2 章 相關(guān)技術(shù)綜述 . 9語抽取 . 9于統(tǒng)計(jì)的術(shù)語抽取 . 9計(jì)與規(guī)則相結(jié)合的術(shù)語抽取 . 12見目標(biāo)抽取 . 13于規(guī)則的意見目標(biāo)抽取 . 13于同現(xiàn)的意見目標(biāo)抽取 . 14于關(guān)系的意見目標(biāo)抽取 . 14他 . 15第 3 章 問題分析 . 16務(wù)目標(biāo) . 16點(diǎn)分析 . 17決思路 . 19見目標(biāo) . 19有方法的弊病 . 21決方案 . 24決思路后文結(jié)構(gòu) . 24第 4 章 統(tǒng)計(jì)與句法分析相結(jié)合的意見目標(biāo)抽取方法 . 26紹 . 26法架構(gòu) . 27法結(jié)構(gòu)及流程 . 27目 錄 候選意見目標(biāo)抽取 . 28征向量生成 . 31選意見目標(biāo)排隊(duì) . 33驗(yàn) . 34驗(yàn)數(shù)據(jù)與評(píng)測標(biāo)準(zhǔn) . 34驗(yàn)方法 . 36驗(yàn)結(jié)果及分析 . 40論 . 41第 5 章 基于意見目標(biāo)網(wǎng)絡(luò)的抽取方法 . 42紹 . 42見目標(biāo)網(wǎng)絡(luò) . 43紹 . 43本思想 . 43義 . 44式化表示 . 45于泛化與繁殖的自舉式抽取 . 46法框架 . 46化過程 . 47殖過程 . 52舉算法 . 54驗(yàn) . 55驗(yàn)設(shè)置 . 55驗(yàn)指標(biāo) . 55驗(yàn)設(shè)計(jì) . 56驗(yàn)結(jié)果 . 56結(jié) . 61第 6 章 總結(jié)與工作展望 . 62參考文獻(xiàn) . 63目 錄 V 致謝與聲明 . 66個(gè)人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果 . 67第 1 章 引言 1 第1章 引言 事實(shí)與意見 人們?nèi)粘C鎸?duì)的文本中普遍包 含兩類信息事實(shí)( 意見( 。它們分別對(duì)應(yīng)了人類兩種 不同的認(rèn)識(shí)世界的方式。正如古希臘哲學(xué)家柏拉圖在他的著作理想國中所指出的1,人類具有兩種認(rèn)知世界的方式, 一種是事實(shí)認(rèn)知 (也稱為真理認(rèn)知) , 一種是意見認(rèn)知。這兩種認(rèn)知方式的主體都是人類本身, 客體都是客觀世界,但是這兩種認(rèn)知方式有著明顯的不同。所謂事實(shí)認(rèn) 知,是不以個(gè)人的意志為轉(zhuǎn)移的,是人類共同意志的體現(xiàn)。它具有固定性 、肯定性和公共性。比如, “奧巴馬當(dāng)選了美國總統(tǒng)”就是一個(gè)事實(shí)認(rèn)知。 而意見認(rèn)知?jiǎng)t完全取決于個(gè)體,隨著個(gè)體的不同而產(chǎn)生差異。它具有變 化性、流動(dòng)性和個(gè)體性。比如,有人支持奧巴馬當(dāng)選美國總統(tǒng),有人反 對(duì)。這就是意見認(rèn)知。對(duì)于人類來說,由這兩種認(rèn)知方式所產(chǎn)生的兩類 信息事實(shí)和意見,都有著重要的意義。 人類認(rèn)識(shí)世界與改造世界的過 程中也相互傳遞著這兩種類型的信息,從早期的口耳相傳,到后來的印刷 品,再到互聯(lián)網(wǎng)?;ヂ?lián)網(wǎng)的產(chǎn)生,極大的改變了人類傳遞信息的速度和范圍, 影響到社會(huì)生活的方方面面,開創(chuàng)了一場信息革命?;ヂ?lián)網(wǎng),以其廣 泛性、快捷性、便利性,成為了現(xiàn)今世界人類轉(zhuǎn)遞信息的主要渠道。它 可以輕松連接兩個(gè)毫無關(guān)系的人類個(gè)體,為他們提供通信平臺(tái)。由于互 聯(lián)網(wǎng)信息的公開性與易獲取性,它也為大規(guī)模的信息處理提供了可能。 近些年來的數(shù)據(jù)挖掘技術(shù),信息檢索技術(shù)等都是伴隨互聯(lián)網(wǎng)的快速發(fā)展 而產(chǎn)生的。一個(gè)顯而易見的事實(shí)是,互聯(lián)網(wǎng)上絕大多數(shù)信息是 以文本的形式存在的。 對(duì)應(yīng)于文本中包含的兩類信息 ,人們對(duì)文本的處理也可以分為兩類對(duì)事實(shí)的處理與對(duì)意見的處理。由 此產(chǎn)生了兩個(gè)研究領(lǐng)域:信息抽?。?意見挖掘( 。信息抽取 (嚴(yán)格應(yīng)稱為事實(shí)信息抽取, 鑒于歷史沿革, 仍稱為信息抽取) ,第 1 章 引言 2 是指對(duì)文本里包含的事實(shí)信息進(jìn)行結(jié)構(gòu) 化處理。它又包含命名實(shí)體識(shí)別( 、術(shù)語抽?。?技術(shù)。意見挖掘,是指從文本中抽取 非事實(shí)的主觀性信息,也就是個(gè)人、群體、組織等主體在主觀性文本中 表達(dá)的意見、情感和態(tài)度。意見挖掘包含有意見目標(biāo)抽?。?、持有者識(shí)別( 、情感分析( 子任務(wù)。可以看出,其中的意見目標(biāo)抽取任務(wù)既是 意見挖掘的子任務(wù),同時(shí)其抽取對(duì)象意見目標(biāo)本身是事實(shí)信息,這 使得意見目標(biāo)抽取任務(wù)又與信息抽取緊密相關(guān)。意見目標(biāo)抽取是在文本 中尋找意見的表達(dá)對(duì)象,并將其抽取出來。意見本身包含情感,是非客 觀信息,但是意見目標(biāo)往往是客觀信息。所以說,意見目標(biāo)抽取是跨越 信息抽取與意見挖掘兩個(gè)領(lǐng)域的一項(xiàng)綜合任務(wù)。一方面可以使用信息抽 取的基礎(chǔ)技術(shù),另一方面又從意見挖掘技術(shù)中得到更多的提升。 信息抽取 信息抽取,其主要功能是從文本 中抽取出特定的事實(shí)信息( 。主要是實(shí)體(比如時(shí)間、地點(diǎn)、人物名、組織名等)以及實(shí)體之間的關(guān)系(比如“位于”關(guān)系、 “任職”關(guān)系等)信息2。圖 圖 信息抽取技術(shù)實(shí)例 第 1 章 引言 3 在上圖中,原始文本是一篇包 含各種信息的介紹性文字。通過命名實(shí)體識(shí)別技術(shù),可以在文本中確定出組 織名、職務(wù)名和人名等實(shí)體信息。再通過實(shí)體關(guān)系識(shí)別技術(shù),可以將這些名稱配對(duì),從而提取出組織名 人名三元組,構(gòu)成任職關(guān)系搭配 ,將文本中的事實(shí)信息結(jié)構(gòu)化。完成了信息抽取流程。得到的結(jié)構(gòu)化信 息,可以提供給用戶檢索,也可以作為其他信息處理技術(shù)的輸 入,進(jìn)行更深入的信息挖掘。 信息抽取研究開始于 20 世紀(jì) 60 年代, 而其蓬勃發(fā)展得益于 80 年代末開始的消息理解系列會(huì)議( 召開。當(dāng) 1998 年最后一屆 議結(jié)束時(shí),信息抽取已經(jīng)發(fā)展成為自然語言處理領(lǐng)域的一個(gè)重要分支。 其后,美國國家標(biāo)準(zhǔn)技術(shù)研究所( 織的自動(dòng)內(nèi)容抽?。?測會(huì)議成為推動(dòng)信息抽取技術(shù)發(fā)展的動(dòng) 力。它研究的主要內(nèi)容是自動(dòng)抽取新聞?wù)Z料中出現(xiàn)的實(shí)體、關(guān)系和事件 等內(nèi)容,也就是對(duì)新聞?wù)Z料中實(shí)體、關(guān)系和事件的識(shí)別與描述。現(xiàn)在, 信息抽取已經(jīng)發(fā)展出不少成熟的技術(shù)與方法,并且投入實(shí)際應(yīng) 用。帶來了良好的社會(huì)效益。 從圖 的例子我們可以看出,信息 抽取技術(shù)也需要對(duì)文本有一定程度的理解。但是它與文本理解( 術(shù)是迥然不同的。在信息抽取中,用戶只關(guān)心 有限的一些令其感興趣的事實(shí)信息,而不關(guān)心諸如作者的意圖等深層理 解問題,遠(yuǎn)遠(yuǎn)達(dá)不到文本理解的水平。從這個(gè)角度說,信息抽取技術(shù)只 是淺層的文本理解技術(shù)。從后文我們可以看到,意見挖掘比信息抽取的 文本理解程度要高,處理難度會(huì)更大。 意見挖掘 意見挖掘,處理的對(duì)象是主觀性文本,比如評(píng)論( 者斷言( ,其功能是自動(dòng)獲取關(guān)于意見的信息和知識(shí)3。主觀性文本是相對(duì)于客觀性文本而言的,它 主要描述了文本作者對(duì)人物、事件等的想法和觀點(diǎn)。再以上節(jié)中的文本 為例,展示意見挖掘技術(shù)的一個(gè)實(shí)例,表示在圖 : 第 1 章 引言 4 圖 意見挖掘技術(shù)實(shí)例 從圖中我們可以看出,意見需 要有持有者,也就是發(fā)表意見的個(gè)人或者組織。除此之外,意見還需要有對(duì) 象,可以是具體事物,也可以是事件或者現(xiàn)象,它是承擔(dān)意見的客體。 再有就是意見本身,它包括文本中出現(xiàn)的陳述,還包括陳述中隱含的意 見持有者的態(tài)度、情感等信息。通過意見挖掘技術(shù),將上述一些信息以 及其他的有用信息抽取出來,并按照一定的格式存儲(chǔ),這就是意見挖掘 的過程。簡單來說,意見挖掘所做的事情即是如此,但實(shí)際上所面臨的 問題并非如此簡單。在后文中還將有所介紹。 一個(gè)完整的意見,是由多個(gè)要 素組成的。對(duì)意見的挖掘,就是對(duì)意見要素的挖掘。至于表達(dá)一個(gè)完整意見 所需要的要素個(gè)數(shù),目前學(xué)術(shù)界還沒有共識(shí)。文獻(xiàn)中可以看到有三要素說4,四要素說5,七要素說6等說法。意見的四要素說由 出,他們認(rèn)為:一個(gè)完整的意見包括四個(gè)要素,即主題( 、持有者( 、陳述( 情感( 。也就是,意見的持有者針對(duì)主題發(fā)表了具有情感的意見陳述。需要指出的是,針對(duì)不同 的意見,有時(shí)候主題又稱為對(duì)象。這是根據(jù)意見的顆粒度決定的,對(duì)于粗 顆粒度的意見,針對(duì)的事件和人物比較概括,此時(shí)稱為意見的主題;對(duì) 于細(xì)顆粒度的意見,針對(duì)的事件、人物、目標(biāo)比較具體,此時(shí)稱為意見的對(duì)象( 。意見的七要素說由 出,他認(rèn)為:一個(gè)完整的意見需要用七個(gè)要第 1 章 引言 5 素描述,即持有者( 、主題( 、主題部件( 、主題屬性( 、評(píng)價(jià)( 、前提條件( 、支持條件( 。相對(duì)于四要素說,七要素說將主題( 為了主題( 、主題組分( 主題屬性( ;合 并 陳 述( 情感( 評(píng)價(jià)( ;并新添了要素前提條件( 、支持條件( 。圖 出了使用意見七要素說的一個(gè)處理實(shí)例。而意見四要素說,體現(xiàn)在圖 表達(dá)的實(shí)例中。 圖 意見七要素說處理實(shí)例 很難說這兩種說法孰優(yōu)孰劣, 因?yàn)橐庖娡诰蛎媾R不同顆粒度處理的問題。所謂顆粒度,是指意見的概括程 度,比如針對(duì)如下一段文字: “尼康 一款優(yōu)秀的單反相機(jī)。對(duì)于剛剛癡迷于單反相機(jī)的初級(jí)發(fā)燒友來說,擁有一臺(tái) 夢(mèng)寐以求的事。拋開它相對(duì)誘人的價(jià)格不談(雖然對(duì)于普通數(shù)碼相機(jī)來說是高昂的) ,它更讓人津津樂道的是強(qiáng)大的功能、出色的操控性和優(yōu)秀的光學(xué)性能。另外,由于配備了機(jī)身馬達(dá),所以它可以支持便宜的鏡頭。 唯一美中不足的是它的防抖能力不盡如人意。 ” 我們可以說整段文字包含了一個(gè)意見“尼康 一款優(yōu)秀的單反相機(jī)” 。也可以說它包含了七個(gè)意見: 第 1 章 引言 6 ( 1)尼康 秀 ( 2)尼康 相對(duì)誘人的價(jià)格 ( 3)尼康 強(qiáng)大的功能 ( 4)尼康 出色的操控性 ( 5)尼康 優(yōu)秀的光學(xué)性能 ( 6)尼康 持便宜的鏡頭 ( 7)尼康 抖能力不盡如人意 說這段文字包含一個(gè)意見,是 從粗顆粒度角度考慮。因?yàn)檎挝淖炙磉_(dá)的就是“尼康 一款優(yōu)秀的單反相機(jī)”這個(gè)觀點(diǎn)。雖然它遺失了許多詳細(xì)的信息,但是對(duì)于特定 用戶例如只關(guān)心產(chǎn)品名譽(yù)的用戶來說,這就足夠了。然而,對(duì)于那 些更關(guān)注產(chǎn)品細(xì)節(jié),比如相機(jī)防抖能力的用戶來說,這個(gè)意見顯然是不 夠的。必須將其細(xì)化,才能發(fā)現(xiàn)用戶感興趣的具體意見信息。也就是說 ,選擇何種顆粒度,是根據(jù)不同的需求來確定的。這就使意見顆粒度的 選擇具有很大的靈活性和不確定性。一般來說,有粗顆粒度、細(xì)顆粒度 和特定顆粒度等不同層次的選擇3。 對(duì)于不同意見顆粒度的選擇, 影響了研究者們對(duì)于意見要素的定義。四要素定義法偏向于粗顆粒度的意見選 擇,而七要素定義法偏向于細(xì)顆粒度的意見選擇。我們需要注意,從細(xì) 顆粒度的意見中,可以復(fù)原粗顆粒度的意見,因?yàn)椴捎眉?xì)顆粒度模式記 錄的意見包含了更多原文本中的信息。然而它付出的代價(jià)是處理流程的 繁雜,處理速度的下降,以及錯(cuò)誤率的上升。 顆粒度選擇問題只是意見挖掘 技術(shù)所面臨的眾多難題中的一個(gè),除此之外,還有挖掘方法的精度和魯棒性 問題、隱式主題(不顯式存在于文本中的主題)的識(shí)別問題、對(duì)應(yīng)情感 關(guān)系識(shí)別(針對(duì)多對(duì)象多情感的意見)問題等諸多問題的存在。這些問 題都制約著意見挖掘技術(shù)的發(fā)展。 從意見挖掘技術(shù)誕生以來,十 幾年間取得了迅速的發(fā)展,新技術(shù)新方法新應(yīng)用不斷涌現(xiàn)。成為自然語言處 理領(lǐng)域的研究熱點(diǎn)。但由于起步晚,面臨的難題眾多,距離信息抽取技 術(shù)那樣的廣泛應(yīng)用,還有一定的距離。 第 1 章 引言 7 意見目標(biāo)抽取 意見目標(biāo)抽取的任務(wù)是要抽取 出意見所針對(duì)的目標(biāo),也就是意見表達(dá)的對(duì)象。一方面,意見目標(biāo)是依賴于 意見而存在的,如果不存在意見也就無所謂意見目標(biāo);另一方面,意見 目標(biāo)往往是實(shí)體,比如人物、事物、事件或者現(xiàn)象等等,所以它與信息 抽取密切相關(guān)。作為意見挖掘與事實(shí)挖掘的交叉任務(wù),意見目標(biāo)抽取具 有如下的意義:首先,確定意見目標(biāo),對(duì)于明晰意見本身是很重要的。 有些時(shí)候,意見挖掘任務(wù)具有預(yù)設(shè)的主題,此時(shí)意見目標(biāo)可能并不重要 ,因?yàn)樗蝎@得的意見情感可以都?xì)w入預(yù)設(shè)的主題之下。但很多情況下 ,意見挖掘任務(wù)是沒有預(yù)設(shè)主題的,或者雖然有預(yù)設(shè)主題,但是對(duì)次級(jí) 主題(或者稱詳細(xì)目標(biāo))也非常關(guān)注。此時(shí),抽取正確的意見目標(biāo)可以 使意見本身更加清晰準(zhǔn)確,對(duì)挖掘結(jié)果具有重要意義。比如,同在“美 國總統(tǒng)奧巴馬的施政綱領(lǐng)”這個(gè)主題下,有人更關(guān)注教育,有人更關(guān)注 外交,有人更關(guān)注經(jīng)濟(jì),這時(shí)次級(jí)主題就顯得非常重要;其次,抽取出 意見目標(biāo)之后,有利于聯(lián)合抽取意見陳述。意見目標(biāo)與意見陳述往往是 成對(duì)出現(xiàn)的,那么,意見目標(biāo)的出現(xiàn)表明上下文中存在意見的可能性增 大。利用這個(gè)啟發(fā)信息,可以提高意見陳述抽取的效率;再次,抽取準(zhǔn) 確的意見目標(biāo),有利于完成意見統(tǒng)計(jì)或者意見摘要。意見的匯總和歸并 ,很多情況下需要按照意見的目標(biāo)分類進(jìn)行,這也是最自然的一種處理 方式。如果沒有準(zhǔn)確的抽取出意見目標(biāo),就會(huì)給這個(gè)過程帶來很大的困 擾,導(dǎo)致意見統(tǒng)計(jì)結(jié)果出現(xiàn)偏差。所以說,意見目標(biāo)抽取,是意 見挖掘過程中的一項(xiàng)重要任務(wù)。 對(duì)于“意見目標(biāo)”這個(gè)術(shù)語的 使用,學(xué)界也并沒有達(dá)成統(tǒng)一。本文在此處將對(duì)這一術(shù)語進(jìn)行說明,一方面 厘清概念,另一方面為本文中使用的表述提供依據(jù)。前文提到,對(duì)于意 見所表達(dá)的那個(gè)人物或者事物、事件、 現(xiàn)象, 一般文獻(xiàn)中會(huì)使用 “意見主題 ( ” 、“意見特征 ( 、意見屬性( 、意見焦點(diǎn)( ”等術(shù)語。而實(shí)際上, “意見主題”這個(gè)概念顆粒度偏大,適用于對(duì)大 段文字的描述,而其余三個(gè)概念則顆粒度偏小,適用于描述某一個(gè)事物 的具體特征。在統(tǒng)稱這兩類概念時(shí),使用任何一個(gè)都難免偏頗。所以本文采用“意見目標(biāo)” (也可稱為“意見對(duì)象” )來統(tǒng)稱以上所有提到的術(shù)語。 意見目標(biāo)抽取過程中還面臨一 個(gè)困難的問題,那就是隱含意見目標(biāo)第 1 章 引言 8 問題。也就是說,在文本中沒有具體出 現(xiàn)意見目標(biāo)本身,而是通過上下文指代,或者習(xí)慣性省略等方式傳遞給 閱讀者。這時(shí)候需要對(duì)隱含的意見目標(biāo)進(jìn)行恢復(fù)。此外,對(duì)于有些意見 目標(biāo),雖然表達(dá)形式不同,但它們所指的是同一個(gè)概念,屬于同一概念 下的不同意見目標(biāo)具體表達(dá)。如何將這些不同的意見表達(dá)歸納在統(tǒng)一的 概念下,也是一個(gè)很有挑戰(zhàn)性的問題。進(jìn)而,如何對(duì)一個(gè)特定領(lǐng)域進(jìn)行 基于本體的目標(biāo)抽取,或者通過意見目標(biāo)抽取技術(shù)達(dá)到本體的自動(dòng)構(gòu)建 ,都是非常有趣且意義重大的問題。 后文將按照如下結(jié)構(gòu)組織:第 二章介紹相關(guān)領(lǐng)域的研究現(xiàn)狀,介紹一些經(jīng)典算法;第三章分析面臨的實(shí)際 問題,明確研究難點(diǎn)以及現(xiàn)有研究方法的優(yōu)缺點(diǎn);第四章將介紹一種融 合了淺層句法分析和統(tǒng)計(jì)規(guī)律的算法;第五章介紹意見目標(biāo)網(wǎng)絡(luò),以及 利用意見目標(biāo)網(wǎng)絡(luò)進(jìn)行的基于泛化和繁殖的意見目標(biāo)抽取算法。第六章 總結(jié)前文,并展望未來工作。 第 2 章 相關(guān)技術(shù)綜述 9 第2章 相關(guān)技術(shù)綜述 意見目標(biāo)抽取,是信息抽取和 意見挖掘的交叉任務(wù)。在本節(jié)中,將從信息抽取領(lǐng)域的術(shù)語抽取技術(shù)、意見 挖掘領(lǐng)域的意見目標(biāo)抽取技術(shù)兩個(gè)方面來介紹前人的工作。術(shù)語抽取 術(shù)語,是特定領(lǐng)域中表達(dá)特定概念的詞或短語7。也就是說,術(shù)語可以是詞,也可以是詞組。術(shù)語抽取就 是從大規(guī)模語料中抽取出特定領(lǐng)域術(shù)語的過程。 術(shù)語抽取技術(shù)最開始依賴于利 用規(guī)則進(jìn)行模板匹配的方法?;谶@種方法,準(zhǔn)確率高而且計(jì)算量小。但缺 點(diǎn)是覆蓋率低,并且依賴于大量的花費(fèi)在制定規(guī)則上的人力資源。后來 ,研究者開始引入統(tǒng)計(jì)理論處理術(shù)語抽取問題。產(chǎn)生了互信息( 法 、 得了很好的抽 取效果。使術(shù)語抽取技術(shù)上了一個(gè)新的臺(tái)階。同時(shí),一些學(xué)者將統(tǒng)計(jì)方 法與規(guī)則方法結(jié)合起來進(jìn)行術(shù)語抽取,也取得了很好的效果。本節(jié)中將 對(duì)統(tǒng)計(jì)方法以及統(tǒng)計(jì)與規(guī)則結(jié)合的方法進(jìn)行介紹。 基于統(tǒng)計(jì)的術(shù)語抽取 基于統(tǒng)計(jì)的術(shù)語抽取技術(shù)大致可以分為兩個(gè)部分8:一部分的主要作用是判斷一個(gè)完整的語言單位,稱之 為單元度計(jì)算;另一部分的主要作用是判斷這個(gè)完整的語言單 位是否是術(shù)語,稱之為領(lǐng)域度計(jì)算。 單元度計(jì)算的常用方法有互信息( 法9, 法1011,左右熵方法12等。其中, 法和 法是從字符串內(nèi)部各部分之間的關(guān)系考慮單元度 ,通過考察內(nèi)部各部分之間的結(jié)合強(qiáng)度給出單元度結(jié)果;左右熵方法則 是從字符串與外部串之間的關(guān)系考慮單元度。 第 2 章 相關(guān)技術(shù)綜述 10 法是對(duì)信息論的應(yīng)用,它定義概率為 P(x)和 P(y)的兩個(gè)點(diǎn) x和 y 之間的互信息 MI(x,y)為: 2(, )(, ) ()x ( 2 其中 P(x,y)是 x 和 y 同時(shí)出現(xiàn)的聯(lián)合概率, P(x)和 P(y)分別為 x 和 概率論我們可知,如果 x 和 y 相互獨(dú)立,則 P(x,y)= P(x)P(y),即 MI(x,y)=0;否則,如果 x 和 y 存在某種關(guān)系,則 P(x,y) P(x)P(y),即 MI(x,y)0。這樣,通過計(jì)算 MI(x,y)就可以判斷 x 和 y 之間是否存在聯(lián)系。在術(shù)語抽取中,假設(shè) x 和 y 是兩個(gè)字串,它們?cè)谡Z料中出現(xiàn)的概率是 P(x)和 P(y), P(表詞串 語料中出現(xiàn)的概率。通過計(jì)算 x 和 y 的互信息,可以判斷 x 和 y 的結(jié)合緊密度?;バ畔⒃礁?,則說明 x 和 y 更傾向于同時(shí)出現(xiàn), 有可能是一個(gè)語言單位。反之,則 x 和 y 的關(guān)聯(lián)性越低。 法給出了一個(gè)簡單的計(jì)算詞匯關(guān)聯(lián)度的途徑,但是它對(duì)概率值(字串頻率)非常 敏感,不適合數(shù)據(jù)稀疏情況下的處理,所以當(dāng)術(shù)語的出現(xiàn)頻率 過低時(shí),不能被有效的抽取13。 法是另一種衡量兩個(gè)事件是否共現(xiàn)的方法, 對(duì)于相鄰的兩個(gè)字串 u 和 v,它們的 以定義為: ) ( )( ) ( ) N a a b b c c d ac ab cd db + + + + + +( 2 其中 a 為詞串 語料中出現(xiàn)的頻率, b 為 語料中出現(xiàn)的頻率( y 為除 v 以外的其他詞匯) , c 為 語料中出現(xiàn)的頻率( x 為除 , d 為不包含 u 或 v 的候選術(shù)語的個(gè)數(shù), N 為語料中的總詞數(shù)。這種方法在抽取低頻 率術(shù)語時(shí)具有很好的效果。 法和 法的本質(zhì)都是用一種統(tǒng)計(jì)量表征兩個(gè)字串 x 和 y 的同現(xiàn)關(guān)系,進(jìn)而確定詞串 為一個(gè)語言單位的概率。那么類似的,還可以嘗試更多的統(tǒng)計(jì)量,比如 s 。羅盛芬等人考察了以上全部九種統(tǒng)計(jì)量在術(shù)語抽取中的表現(xiàn), 得出結(jié)論: 法的抽取能力最強(qiáng),第 2 章 相關(guān)技術(shù)綜述 11 各種方法組合后的最優(yōu)效果也只比 法在 F 分?jǐn)?shù)上高 改進(jìn)效果不明顯14。 左右熵方法給出了另一種計(jì)算 單元度的思路。它通過考察詞串在邊界上的特征來進(jìn)行單元度計(jì)算12。 首先計(jì)算詞串邊界的熵值, 熵值越大,說明邊界越活躍,本詞串越可能是一個(gè) 完整的語言單位。反之,邊界熵越小,說明邊界越穩(wěn)定,本詞串與外部 詞串的關(guān)系密切,不能作為完整語言單位。詞串 s 左側(cè)邊界熵的計(jì)算方法是: ,|() ( )|( 2 其中, u 是詞串 s 左側(cè)邊界上出現(xiàn)的詞, |s|為詞串 s 在語料中出現(xiàn)的頻率。 = 。同理,詞串 s 右側(cè)的邊界熵為: ,|() ( )|( 2 其中, u 為詞串 s 右側(cè)邊界上出現(xiàn)的詞。綜合左右兩側(cè)的情況,詞串 s 的平均邊界熵為: () ()()2 ( 2 使用邊界熵的方法,不需要考慮詞串 s 的內(nèi)部組成,所以便于處理詞長較長的詞串,尤其在提取 多詞術(shù)語時(shí),效果良好。 關(guān)于領(lǐng)域度的研究不如單元度這樣受關(guān)注。目前主要是基于 法在信息檢索領(lǐng)域應(yīng)用十分廣泛,它基于如下的一些前提假設(shè):第一,術(shù)語應(yīng) 該在特定領(lǐng)域中出現(xiàn);第二,術(shù)語不能是領(lǐng)域中的平常詞;第 三,術(shù)語不能頻繁出現(xiàn)在其他領(lǐng)域中15。的計(jì)算公式為: ()()()T= ( 2 其中, 候選術(shù)語詞串, T)為 領(lǐng)域文檔中出現(xiàn)的頻率,T)為 現(xiàn)的領(lǐng)域文檔數(shù)目。由式 2知, 領(lǐng)域文檔中出現(xiàn)的次數(shù)越多,出現(xiàn)的領(lǐng)域文檔數(shù)越少, 越大,它越可能是領(lǐng)第 2 章 相關(guān)技術(shù)綜述 12 域術(shù)語??梢园l(fā)現(xiàn),使用 法來計(jì)算領(lǐng)域度,利用的是術(shù)語與所在領(lǐng)域文檔的關(guān)系。另外還有一些研究者在 法的基礎(chǔ)上進(jìn)行了改進(jìn)1516,也取得了不錯(cuò)的效果。基于 想的算法優(yōu)缺點(diǎn)比較明顯。優(yōu)點(diǎn)是一般來說相對(duì)簡單,并且除 了領(lǐng)域語料不需要任何特定的領(lǐng)域信息。缺點(diǎn)是過分依賴于術(shù)語出現(xiàn)的 頻率,不能剔除頻繁出現(xiàn)但是無意義的詞語。 統(tǒng)計(jì)與規(guī)則相結(jié)合的術(shù)語抽取 u 等人提出一種通過提取術(shù)語 組合的方式來進(jìn)行術(shù)語抽取的方法17。此方法基于這樣的假設(shè):新 術(shù)語可以由更基本的現(xiàn)有的術(shù)語組合構(gòu)造而成。本質(zhì)上,此方 法將術(shù)語抽取問題看作一個(gè)二值分類問題。其中使用互信息、相關(guān)頻率信息和詞性 模板匹配等作為術(shù)語組合抽取時(shí)使用的特征,并利用似然比( 作為決策的依據(jù),其計(jì)算方法是: (| ) ( )(| ) ( ) =( 2 其中, 表詞串 c 是由多個(gè)單元組成的, 表詞串 c 不是由多個(gè)單元組成的,關(guān)頻率信息和詞性模板的一個(gè)綜合觀測值。如果 1,則詞串 c 可以被認(rèn)為是術(shù)語,否則就是非術(shù)語。研究表明這種方法在由兩到三個(gè)單元( 2 3成的術(shù)語組合抽取中是非常有效的。然而,由于對(duì) 新術(shù)語的詞性標(biāo)記相對(duì)困難,這種方法也有其局限性。 i 等人提出了一種基于窗口上下 文的中文術(shù)語提取方法18。這種方法主要利用一個(gè)來自于很小窗口 的上下文的句法和語義信息來進(jìn)行單個(gè)領(lǐng)域的術(shù)語提取。其基本假設(shè)是 如果候選術(shù)語一定數(shù)量的鄰居詞是屬于特定領(lǐng)域時(shí),認(rèn)為候選 術(shù)語也是特定領(lǐng)域的術(shù)語。 總的說來,這些方法綜合考慮 了術(shù)語內(nèi)部成分的結(jié)合信息、術(shù)語與所處領(lǐng)域的關(guān)系、術(shù)語的詞性信息等, 相對(duì)于單純使用統(tǒng)計(jì)的方法,增加了更多的決策依據(jù),為我們 繼續(xù)研究術(shù)語抽取問題開拓了思路。 第 2 章 相關(guān)技術(shù)綜述 13 意見目標(biāo)抽取 意見目標(biāo)抽取與術(shù)語抽取的不 同在于它可以利用與意見相關(guān)的信息,從而獲得幫助,但同時(shí)抽取到的目 標(biāo)必須依賴于意見的存在,這也使問題的難度上升。意見目標(biāo)抽取的這 些特點(diǎn),使它產(chǎn)生了許多不同于術(shù)語抽取的方法。在本節(jié)中將對(duì)現(xiàn)有意 見目標(biāo)抽取方法做簡要介紹。意見目標(biāo)抽取,并不像情感分析那樣受到 關(guān)注,甚至一些意見挖掘任務(wù)中不存在意見目標(biāo)抽取的問題。但是在產(chǎn) 品意見挖掘任務(wù)中,意見目標(biāo)抽取是一個(gè)很重要的課題。 基于規(guī)則的意見目標(biāo)抽取 人根據(jù)名詞短語的組成和位置特 點(diǎn),采用相似性測試( 法來確定意見目標(biāo)19。他們認(rèn)為,意見目標(biāo)通常表現(xiàn)為名詞或者名詞短語。這樣一來,就 大大減小了候選目標(biāo)的規(guī)模。此外,還通過基于詞性標(biāo)注( 型的算法對(duì)名詞和名詞短語進(jìn)行二次篩選。方法中提到了 三條啟發(fā)性詞性標(biāo)注模型規(guī)則,分別是: ( 1)基礎(chǔ)名詞短語, ( 2)定指的基礎(chǔ)名詞短語, ( 3)句首的定指基礎(chǔ)名詞短語。通過以上兩次篩選, 保證了意見目標(biāo)的語法完整性。其后,利用領(lǐng)域相關(guān)性,挑選領(lǐng)域局限 性高的候選詞作為本領(lǐng)域意見目標(biāo)。領(lǐng)域相關(guān)性,使用相似性測試( 計(jì)算。此方法在數(shù)碼相機(jī)領(lǐng)域本文的實(shí)驗(yàn)中,取得 82%的平均正確率;在音樂領(lǐng)域文本的實(shí)驗(yàn)中,平均正確率為 96%。 人利用標(biāo)記序列規(guī)則( 現(xiàn)意見目標(biāo)抽取20?;跇?biāo)記序列規(guī)則( 方法是有監(jiān)督的,通過標(biāo)注好的實(shí)例,訓(xùn)練 型,再利用模型獲得意見目標(biāo)。對(duì)于訓(xùn)練數(shù)據(jù)比如, “is 第一步將其變成包含詞性標(biāo)注的序列: 第二步標(biāo)記出意見目標(biāo),形成一條規(guī)則。 識(shí)別過程與訓(xùn)練過程相反,首 先根據(jù)規(guī)則去匹配模型,從而在相應(yīng)第 2 章 相關(guān)技術(shù)綜述 14 的 $置上獲得意見目標(biāo)。 基于規(guī)則的方法可以達(dá)到很高 的抽取正確率,但是不能有效的解決意見目標(biāo)的覆蓋性問題。 基于同現(xiàn)的意見目標(biāo)抽取 據(jù)意見目標(biāo)和一些指示詞的 同現(xiàn)特征來識(shí)別?,F(xiàn)( 非?,F(xiàn)( 見目標(biāo)21。他們同樣先抽取名詞和名詞短語作為候選的意見目標(biāo),同時(shí) 他們認(rèn)為,?,F(xiàn)的名詞和名詞短語更可能是意見目標(biāo)。于是,第一步, 通過詞性標(biāo)注技術(shù)選取高頻的名詞和名詞短語。第二步要對(duì)這些名詞和 名詞短語進(jìn)行剪枝,剔除不需要的部分。這里面主要包含兩類 錯(cuò)誤的候選詞, ( 1)多詞短語,但是詞間的順序信息不符合語法規(guī)則。 ( 2)獨(dú)立詞,但是它出現(xiàn)在更長的意見目標(biāo)中。也就是,它只是其他意見目標(biāo)的 一部分。通過這兩步之后,可以獲得正確率相對(duì)較高的意見目標(biāo)集合。 下面開始抽取非?,F(xiàn)的意見目標(biāo)。這里用到意見目標(biāo)與意見情感詞匯的同 現(xiàn)信息。借助已有的?,F(xiàn)意見目標(biāo)集合,訓(xùn)練意見情感詞匯集合,之后 借助意見情感詞匯集合,啟發(fā)性的尋找非?,F(xiàn)意見目標(biāo)。就這樣,此方 法首先使用規(guī)則得到高正確率的?,F(xiàn)意見目標(biāo),之后借助意見情感詞匯 和同現(xiàn)概率模型,由?,F(xiàn)意見目標(biāo)向非?,F(xiàn)意見目標(biāo)前進(jìn)。分 兩步走的達(dá)到意見目標(biāo)抽取的目的。 基于關(guān)系的意見目標(biāo)抽取 問題有不同的看法,他們不再把意見目標(biāo)看作是孤立的,而想到利用意見目標(biāo)之間的關(guān)系22。例如,對(duì)于掃描儀,尺寸是描述它的一種屬性,而翻蓋是它的 一個(gè)組成部分。利用意見目標(biāo)與主題詞匯之間的關(guān)系,可以幫助尋找意 見目標(biāo)。這中間的橋梁就是關(guān)系識(shí)別符。對(duì)于掃描儀, 關(guān)系識(shí)別符是這樣的短語: of s,。通過計(jì)算候選詞匯與關(guān)系識(shí) 別符之間的點(diǎn)互信息( 獲取意見目標(biāo)。計(jì)算公式如下: (,)(,)() ()f f f d= ( 2 其中, f 是候選詞匯, d 是關(guān)系識(shí)別符。點(diǎn)互信息越高,說明候選詞第 2 章 相關(guān)技術(shù)綜述 15 與關(guān)系識(shí)別符關(guān)聯(lián)越密切,也就說明它 更可能是主題詞匯的一個(gè)屬性或者組成部分。這樣,相比于 結(jié)果,此方法以犧牲 召回率為代價(jià)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋼結(jié)構(gòu)幕墻施工方案范文
- 2025至2030中國經(jīng)濟(jì)型酒店行業(yè)發(fā)展研究與產(chǎn)業(yè)戰(zhàn)略規(guī)劃分析評(píng)估報(bào)告
- 2025至2030中國細(xì)胞清洗系統(tǒng)行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報(bào)告
- 2025至2030中國組快速閃爍信標(biāo)浮標(biāo)行業(yè)產(chǎn)業(yè)運(yùn)行態(tài)勢及投資規(guī)劃深度研究報(bào)告
- 服裝實(shí)習(xí)日記3篇
- 奶牛流行熱的調(diào)查報(bào)告重慶市獸醫(yī)防疫站-汪德珍
- 廠房土地租賃糾紛調(diào)解合同范本
- 旅游顧問工作手冊(cè):目的地推 薦與行程規(guī)劃技巧分享
- 體育用品采購合同品牌授權(quán)與市場推廣合作合同
- 城市中心區(qū)域甲級(jí)辦公樓產(chǎn)權(quán)交易合同
- 人教版英語九年級(jí)全一冊(cè)《教材解讀分析課件》完整版課件
- 問題解決型護(hù)理品管圈QCC成果匯報(bào)之提高兒科護(hù)士橈動(dòng)脈采血的穿刺成功率
- 瀝青現(xiàn)場攤鋪施工方案
- GB 41317-2024燃?xì)庥镁哌B接用不銹鋼波紋軟管
- 幼小銜接 每日一練
- 《中國書法》參考課件
- 四年級(jí)上冊(cè)脫式計(jì)算400題及答案
- 船運(yùn)土方方案
- 危巖穩(wěn)定性計(jì)算表格-滑移式-傾倒式-墜落式-完整版
- JCT640-2010 頂進(jìn)施工法用鋼筋混凝土排水管
- 03K132 風(fēng)管支吊架圖集
評(píng)論
0/150
提交評(píng)論