中文篇章級(jí)句間語(yǔ)義關(guān)系識(shí)別_第1頁(yè)
中文篇章級(jí)句間語(yǔ)義關(guān)系識(shí)別_第2頁(yè)
中文篇章級(jí)句間語(yǔ)義關(guān)系識(shí)別_第3頁(yè)
中文篇章級(jí)句間語(yǔ)義關(guān)系識(shí)別_第4頁(yè)
中文篇章級(jí)句間語(yǔ)義關(guān)系識(shí)別_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中皿章級(jí)句間語(yǔ)義關(guān)系識(shí)別張牧宇;宋原;秦兵;劉挺【摘要】篇章句間關(guān)系識(shí)別(DiscourseRelationRecognition)是篇章分析的重要內(nèi)容,該文對(duì)中文篇章句問(wèn)關(guān)系識(shí)別任務(wù)進(jìn)行初步探索,包括顯式篇章句間關(guān)系識(shí)別與隱式篇章句間關(guān)系識(shí)別兩類任務(wù).針對(duì)顯武篇章句問(wèn)關(guān)系,我們提出基于關(guān)聯(lián)詞規(guī)則的方法進(jìn)行識(shí)別,取得了很好的效果;針對(duì)隱式篇章句間關(guān)系,我們抽取詞匯、句法、語(yǔ)義等特征,采用有指導(dǎo)模型進(jìn)行識(shí)別.該文的分析和實(shí)驗(yàn)結(jié)果為后續(xù)研究提供了參考和基本對(duì)照系統(tǒng).【期刊名稱】《中文信息學(xué)報(bào)》【年(卷),期】2013(027)006【總頁(yè)數(shù)】7頁(yè)(P51-57)【關(guān)鍵詞】中文篇章級(jí)語(yǔ)義分析;顯式篇章句間關(guān)系;隱式篇章句間關(guān)系【作者】張牧宇;宋原;秦兵瀏挺【作者單位】哈爾濱工業(yè)大學(xué),黑龍江哈爾濱150001;哈爾濱工業(yè)大學(xué),黑龍江哈爾濱150001;哈爾濱工業(yè)大學(xué),黑龍江哈爾濱150001;哈爾濱工業(yè)大學(xué),黑龍江哈爾濱150001【正文語(yǔ)種】中文【中圖分類】TP3911引言隨著詞匯語(yǔ)義、句子語(yǔ)義研究的逐漸成熟,篇章級(jí)語(yǔ)義分析逐漸成為研究熱點(diǎn)。作為篇章語(yǔ)義分析的重要內(nèi)容,篇章句間關(guān)系識(shí)別(DiscourseRelationRecognition)也受到了越來(lái)越多的關(guān)注。該研究檢測(cè)同一篇章內(nèi),兩個(gè)文本單元(片段、分句、復(fù)句、句群、段落等)之間的邏輯語(yǔ)義關(guān)聯(lián)(例如,因果關(guān)系)。通過(guò)定義層次化的語(yǔ)義關(guān)系類型體系將句內(nèi)的語(yǔ)義分析結(jié)果擴(kuò)展為篇章級(jí)的語(yǔ)義信息,從而成為語(yǔ)義分析的重要解決途徑之一,對(duì)自動(dòng)文摘[1]、自動(dòng)問(wèn)答[2]、傾向性分析[3-4]以及文本質(zhì)量評(píng)價(jià)[5]、文本連貫性評(píng)價(jià)[6]等許多NLP任務(wù)起到了很大的幫助。根據(jù)文本單元間是否存在篇章連接詞(也稱作篇章關(guān)聯(lián)詞),可將篇章句間關(guān)系分為顯式篇章句間關(guān)系(ExplicitDiscourseRelation,簡(jiǎn)稱顯式關(guān)系)與隱式篇章句間關(guān)系(ImplicitDiscourseRelation,簡(jiǎn)稱隱式關(guān)系)兩類。其中顯式關(guān)系包含篇章關(guān)聯(lián)詞,如例1所示,篇章關(guān)聯(lián)詞〃因?yàn)椤敝甘疽蚬愋偷年P(guān)系實(shí)例;隱式關(guān)系缺少顯式關(guān)聯(lián)詞,需要根據(jù)上下文推測(cè)語(yǔ)義類型,如例2所示。例1:因?yàn)槲沂悄惆职?,我愿意為你做所有一切。(顯式因果關(guān)系)例2:他生病了,今天沒(méi)有來(lái)上課。(隱式因果關(guān)系)已有篇章句間關(guān)系識(shí)別研究主要針對(duì)英文[7],印度語(yǔ)[8]、土耳其語(yǔ)[9]和阿拉伯語(yǔ)[10]。雖然已有一些面向中文的研究[11-13],但主要集中在分析和語(yǔ)料標(biāo)注,對(duì)關(guān)系識(shí)別研究不足;另外,已有研究大都直接使用了英文關(guān)系類型體系,忽略了中文本身的特點(diǎn)。本文對(duì)中文篇章句間關(guān)系識(shí)別進(jìn)行了探索,包括顯式關(guān)系識(shí)別和隱式關(guān)系識(shí)別兩方面。針對(duì)顯式關(guān)系識(shí)別,我們提出一種基于關(guān)聯(lián)詞的識(shí)別方案,通過(guò)分析中文篇章句間關(guān)系語(yǔ)料獲得關(guān)聯(lián)詞對(duì)關(guān)系類型的指示能力,并根據(jù)關(guān)聯(lián)詞指示規(guī)則決定顯式關(guān)系的語(yǔ)義關(guān)系類型。針對(duì)隱式關(guān)系識(shí)別,由于缺少篇章關(guān)聯(lián)詞,我們主要采用機(jī)器學(xué)習(xí)方法,抽取詞匯、句法和語(yǔ)義等特征訓(xùn)練分類模型,根據(jù)模型輸出判定最終的關(guān)系類型。以上識(shí)別研究均采用面向中文的篇章句間關(guān)系體系,更好的適應(yīng)中文特點(diǎn)。實(shí)驗(yàn)結(jié)果顯示,基于關(guān)聯(lián)詞的顯式關(guān)系識(shí)別方法取得了非常好的效果,取得了90%左右的識(shí)別準(zhǔn)確率,F(xiàn)值達(dá)到80%;此外,我們的隱式關(guān)系識(shí)別方法也取得了較好的效果。文章內(nèi)容組織如下:第2節(jié)介紹相關(guān)工作;第3節(jié)介紹顯式關(guān)系識(shí)別方法,給出實(shí)驗(yàn)結(jié)果與分析;第4節(jié)介紹隱式關(guān)系特征、識(shí)別方法及實(shí)驗(yàn)結(jié)果;第5節(jié)分給出結(jié)論。2相關(guān)工作篇章句間關(guān)系體系及語(yǔ)料:作為有指導(dǎo)方法的基礎(chǔ),英文中已經(jīng)出現(xiàn)一些篇章句間關(guān)系語(yǔ)料[14-16]。這些語(yǔ)料采用不同的關(guān)系類型體系[14-17]描述文本單元之間的語(yǔ)義關(guān)系。典型的篇章句間關(guān)系語(yǔ)料包括以下兩種:基于RST理論[17]的修辭結(jié)構(gòu)理論樹(shù)庫(kù)(RhetoricalStructureTheoryDiscourseTreebank)[15]和基于PDTB體系的賓州篇章樹(shù)庫(kù)(PennDiscourseTreeBank)[16],它們采用不同的關(guān)系類型體系和標(biāo)注標(biāo)準(zhǔn)[18]。目前已有的語(yǔ)料和標(biāo)注理論關(guān)注英語(yǔ)、印度語(yǔ)[8]、土耳其語(yǔ)[9]和阿拉伯語(yǔ)[10]。Xue[11].Zhou和Xue[12]、Huang和Chen[13]在中文上做了部分分析工作,不過(guò)這些研究直接將英文關(guān)系類型體系平移到中文,忽略了中文本身的特點(diǎn)。本文采用了Zhang在2012年提出的面向中文的篇章句間關(guān)系類型體系[19],更好的適應(yīng)中文問(wèn)題。顯式篇章句間關(guān)系識(shí)別:顯式篇章句間關(guān)系通常由篇章關(guān)聯(lián)詞作為指示,Pitleretal.[7]使用無(wú)指導(dǎo)方法,僅僅利用關(guān)聯(lián)詞的統(tǒng)計(jì)特征識(shí)別顯式篇章句間關(guān)系類型,取得了較好的效果,證明關(guān)聯(lián)詞對(duì)顯式關(guān)系識(shí)別的重要性。除無(wú)指導(dǎo)方法之外,有指導(dǎo)模型也被用于顯式關(guān)系識(shí)別,Pitleretal.[20]使用關(guān)聯(lián)詞相關(guān)的標(biāo)準(zhǔn)句法特征幫助提高顯式關(guān)系識(shí)別性能;Wellner和Pustejovsky[21]采用有指導(dǎo)方法識(shí)別篇章句間關(guān)系元素范圍;Elwell和Baldridge[22]使用關(guān)聯(lián)詞排序器識(shí)別關(guān)系元素范圍。本文提出基于中文關(guān)聯(lián)詞統(tǒng)計(jì)信息的識(shí)別方案探索顯式關(guān)系識(shí)別,并且取得比較好的效果。隱式篇章句間關(guān)系識(shí)別:隱式篇章句間關(guān)系通常存在于相鄰句子之間,同時(shí)缺少關(guān)聯(lián)詞。類似于顯式關(guān)系識(shí)別,隱式關(guān)系識(shí)別的相關(guān)研究最早出現(xiàn)在英文中,主要關(guān)注詞匯特征,例如,詞匯之間的依存關(guān)系[23-24]、詞匯的語(yǔ)義類別[20]和關(guān)聯(lián)詞預(yù)測(cè)[25]。由于隱式關(guān)系識(shí)別不同于顯式關(guān)系[26],除了詞匯特征之外,一些額外信息被逐漸引入,例如,句法限制[20,27]、核函數(shù)[28]、實(shí)體特征[29]以及事件配對(duì)特征[30]。這些研究提高了隱式關(guān)系識(shí)別效果,但到目前為止,隱式關(guān)系識(shí)別效果依然不佳,而且缺少面向中文的隱式關(guān)系識(shí)別研究。本文提出基于中文篇章句間關(guān)系體系的隱式關(guān)系識(shí)別模型,通過(guò)引入詞匯、句法和語(yǔ)義特征識(shí)別隱式篇章句間關(guān)系。3顯式篇章句間關(guān)系識(shí)別顯式關(guān)系的具體類型通常由關(guān)聯(lián)詞標(biāo)識(shí),如例3、例4所示。例3:如果大家都同意這個(gè)方案,咱們就按照它來(lái)執(zhí)行;(條件關(guān)系)例4:因?yàn)榇蠹叶纪膺@個(gè)方案,咱們就按照它來(lái)執(zhí)行;(因果關(guān)系)例3、例4中,除關(guān)聯(lián)詞外的句子成分完全一在顯式關(guān)系識(shí)別中,關(guān)聯(lián)詞往往作為關(guān)系類型的指示標(biāo)志出現(xiàn)。本文提出基于關(guān)聯(lián)詞的中文顯式關(guān)系識(shí)別模型,利用關(guān)聯(lián)詞規(guī)則識(shí)別顯式關(guān)系。3.1基于關(guān)聯(lián)詞的識(shí)別方案致,但不同的關(guān)聯(lián)詞使得兩個(gè)句子具有不同的語(yǔ)義和關(guān)系類型??梢酝茰y(cè):關(guān)聯(lián)詞標(biāo)識(shí)了具體關(guān)系類型?;谶@種想法,我們提出了基于關(guān)聯(lián)詞的顯式篇章句間關(guān)系識(shí)別方案。據(jù)我們了解,這是首個(gè)利用中文篇章關(guān)聯(lián)詞識(shí)別顯式關(guān)系類型的研究工作。3.1.1識(shí)別方案我們將中文篇章句間關(guān)系語(yǔ)料分為兩部分:Set1包含996篇文本,用于抽取篇章關(guān)聯(lián)詞和對(duì)應(yīng)的關(guān)系類型;Set2包含100篇文本,用于測(cè)試識(shí)別方案。首先,我們從Set1中抽取所有的篇章關(guān)聯(lián)詞和相應(yīng)的關(guān)系類型;之后采用極大似然估計(jì)計(jì)算關(guān)聯(lián)詞對(duì)各關(guān)系類型的指示能力,獲得“關(guān)聯(lián)詞一關(guān)系類型”矩陣:其中橫軸對(duì)應(yīng)某一篇章關(guān)聯(lián)詞,縱軸對(duì)應(yīng)某一具體關(guān)系類型。具體的計(jì)算方法如式(1)所示。其中ci對(duì)應(yīng)某一關(guān)聯(lián)詞;sj表示待計(jì)算的關(guān)系類型;S是所有關(guān)系類型的集合。對(duì)Set2中的每一個(gè)測(cè)試實(shí)例,我們首先抽取篇章關(guān)聯(lián)詞;隨后查找〃關(guān)聯(lián)詞一關(guān)系類型”矩陣,獲得該關(guān)聯(lián)詞對(duì)各關(guān)系類型的指示能力,從中選取最大值;并將該類型作為測(cè)試實(shí)例的最終標(biāo)簽。3.2實(shí)驗(yàn)設(shè)置3.2.1類型體系及語(yǔ)料獲取為了支持關(guān)聯(lián)詞分析和后續(xù)的有指導(dǎo)識(shí)別方法,我們采用Zhang[19]提出的中文篇章句間關(guān)系體系,我們從OntoNotes4.0[31]中隨機(jī)篩選出1096篇文本并進(jìn)行了人工標(biāo)注。在這份語(yǔ)料中,三名標(biāo)注人員獨(dú)立標(biāo)注了顯式關(guān)系和隱式關(guān)系。為了驗(yàn)證標(biāo)注質(zhì)量,檢驗(yàn)標(biāo)注一致性,我們計(jì)算了用于統(tǒng)計(jì)多類、多標(biāo)注人員標(biāo)注—致性的FleissKappa指標(biāo)[32]。在最終的計(jì)算結(jié)果中,我們獲得了66.52%的Fleiss’Kappa值,根據(jù)Fleiss’Kappa指標(biāo)的性能分布區(qū)間,該數(shù)值反映了較好的標(biāo)注一致性;此外,該結(jié)果包括顯式關(guān)系和隱式關(guān)系在所有類別上的標(biāo)注一致性,如果單獨(dú)計(jì)算顯式關(guān)系的標(biāo)注一致性,我們會(huì)獲得更好的結(jié)果。據(jù)我們所知,這是第一份中文篇章句間關(guān)系語(yǔ)料。3.2.2實(shí)驗(yàn)結(jié)果訓(xùn)練語(yǔ)料中共標(biāo)記出1273個(gè)不同的篇章關(guān)聯(lián)詞,利用這1273個(gè)關(guān)聯(lián)詞構(gòu)成“關(guān)聯(lián)詞-關(guān)系類型”矩陣,并根據(jù)該矩陣對(duì)測(cè)試實(shí)例進(jìn)行分類。對(duì)每一個(gè)測(cè)試實(shí)例,我們抽取相應(yīng)的篇章關(guān)聯(lián)詞,之后檢索矩陣,找到概率最大的關(guān)系類別作為最終結(jié)果。我們?cè)谥形钠戮溟g關(guān)系體系[19]的六個(gè)頂層類別進(jìn)行實(shí)驗(yàn),包括〃時(shí)序關(guān)系”、“因果關(guān)系”、“條件關(guān)系”、“比較關(guān)系”、“擴(kuò)展關(guān)系”、“并列關(guān)系”,采用標(biāo)準(zhǔn)P、R、F進(jìn)行評(píng)價(jià),結(jié)果如表1所示。表1基于關(guān)聯(lián)詞的顯式關(guān)系識(shí)別方法實(shí)驗(yàn)結(jié)果時(shí)序關(guān)系因果關(guān)系條件關(guān)系比較關(guān)系擴(kuò)展關(guān)系并列關(guān)系P0.95120.96860.98900.99230.86830.6364R0.71560.88760.90450.84310.82240.5060F0.81670.92630.94490.91160.84470.5638分析表1,我們?cè)凇耙蚬P(guān)系”、“條件關(guān)系”、“比較關(guān)系”三類獲得了非常好的效果:準(zhǔn)確率均高于0.96,F值均高于0.91。效果最好的“條件關(guān)系”精確率達(dá)到0.9890,召回率為0.9045,F值則是0.9449。這意味著絕大多數(shù)情況下,〃條件關(guān)系”對(duì)應(yīng)的篇章關(guān)聯(lián)詞(例如,如果)都是無(wú)歧義的;一旦這些關(guān)聯(lián)詞出現(xiàn),我們可以以非常高的概率將該關(guān)系實(shí)例判定為條件關(guān)系。類似的情況同樣存在于〃因果關(guān)系”和〃比較關(guān)系”中?!〞r(shí)序關(guān)系”的實(shí)驗(yàn)結(jié)果略有不同,我們獲得了較高的準(zhǔn)確率(0.9512),但召回率較低(0.7156)。高準(zhǔn)確率說(shuō)明〃時(shí)序關(guān)系”對(duì)應(yīng)的篇章關(guān)聯(lián)詞歧義性較小,低召回率說(shuō)明統(tǒng)計(jì)信息的覆蓋率較差。對(duì)于〃擴(kuò)展關(guān)系”和〃并列關(guān)系”情況則比較復(fù)雜。在這兩類中,準(zhǔn)確率和召回率都相對(duì)較低,這意味著除了覆蓋率問(wèn)題外,兩類關(guān)系對(duì)應(yīng)的篇章關(guān)聯(lián)詞歧義性也比較高。對(duì)于歧義問(wèn)題,很難單純通過(guò)語(yǔ)料擴(kuò)充或分析解決,需要后續(xù)工作的更多關(guān)注。總的來(lái)說(shuō),基于關(guān)聯(lián)詞的識(shí)別方案在各個(gè)類別上的平均表現(xiàn)較好。但是,最高的F值(0.9449)和最低的F值(0.5638)之間差距較大,說(shuō)明不同的關(guān)系類型之間差異非常明顯,這提示我們:不同的關(guān)系類型適合不同的處理方法。3.2.3錯(cuò)誤分析與討論進(jìn)一步分析實(shí)驗(yàn)結(jié)果,我們發(fā)現(xiàn),大部分篇章關(guān)聯(lián)詞歧義較??;識(shí)別錯(cuò)誤主要由少部分高歧義導(dǎo)致。這些關(guān)聯(lián)詞種類較少,但常用關(guān)聯(lián)詞較多(例如,而)。圖1描述出現(xiàn)次數(shù)Top10的篇章關(guān)聯(lián)詞在各關(guān)系類型上的分布情況:柱狀圖的不同顏色代表關(guān)聯(lián)詞對(duì)應(yīng)的關(guān)系類型;不同的高度代表對(duì)應(yīng)關(guān)系類型所占的比例;同一關(guān)聯(lián)詞對(duì)應(yīng)的關(guān)系類型越少、類型越集中,該詞的歧義性越小。從圖中可知,大部分關(guān)聯(lián)詞(例如,因?yàn)?的歧義性較小,90%以上指示同一關(guān)系類型,但同時(shí)存在部分高歧義關(guān)聯(lián)詞。圖1Top10關(guān)聯(lián)詞的關(guān)系類型分布情況以關(guān)聯(lián)詞〃而”為例,它對(duì)應(yīng)的關(guān)系類型分布情況包括以下幾類:48.6%對(duì)應(yīng)〃擴(kuò)展關(guān)系”;41.8%對(duì)應(yīng)“比較關(guān)系”;7.6%對(duì)應(yīng)〃并列關(guān)系”;2%對(duì)應(yīng)“因果關(guān)系”。根據(jù)3.1.1的計(jì)算公式,〃擴(kuò)展關(guān)系”對(duì)應(yīng)的得分最高。在分類過(guò)程中,所有由〃而”標(biāo)識(shí)的篇章句間關(guān)系實(shí)例都被分為〃擴(kuò)展關(guān)系”類別。對(duì)于48.6%的實(shí)例而言,我們獲得了正確結(jié)果;然而對(duì)于剩余的51.4%,則發(fā)生了分類錯(cuò)誤。實(shí)驗(yàn)分析發(fā)現(xiàn),大部分分類錯(cuò)誤都和該類關(guān)聯(lián)詞有關(guān)。這提示我們對(duì)于歧義性大,出現(xiàn)次數(shù)較多的關(guān)聯(lián)詞,需要特殊的處理方案。4隱式篇章句間關(guān)系識(shí)別隱式篇章句間關(guān)系缺少篇章關(guān)聯(lián)詞,沒(méi)有明顯的語(yǔ)義類型標(biāo)志,需要人類推理才能判斷關(guān)系的存在和具體類型。這使得隱式篇章句間關(guān)系具有不同于顯式關(guān)系的分布特點(diǎn)。4.1隱式關(guān)系分析在很多情況下,關(guān)聯(lián)詞不僅僅起銜接作用,還會(huì)影響關(guān)系類型的分布,如例5、例6所示。例5:如果你身體還沒(méi)恢復(fù),就先不用來(lái)上班了。(條件關(guān)系)例6:你身體還沒(méi)恢復(fù),先不用來(lái)上班了。(因果關(guān)系)例5首先描述某一假設(shè)條件,隨后說(shuō)明假設(shè)成立時(shí)的結(jié)果,屬于〃條件關(guān)系”;例6首先描述某一事實(shí),隨后指出事實(shí)引發(fā)的結(jié)果,屬于〃因果關(guān)系”。除關(guān)聯(lián)詞〃如果……就……”之外兩個(gè)例句內(nèi)容完全相同,但卻具有完全不同的語(yǔ)義類型。換言之,對(duì)某些關(guān)系類型來(lái)說(shuō)(例如,條件關(guān)系),如果刪除篇章句間關(guān)系關(guān)聯(lián)詞,句子語(yǔ)義會(huì)發(fā)生翻轉(zhuǎn)。這種現(xiàn)象使得對(duì)應(yīng)類型的隱式關(guān)系實(shí)例大大減少,形成和顯式關(guān)系完全不同的分布特征。圖2描述了隱式關(guān)系和顯式關(guān)系在中文篇章句間關(guān)系體系[19]中六個(gè)頂層類別上的分布情況,其中圖2(a)為顯式關(guān)系分布圖,圖2(b)為隱式關(guān)系分布圖。分析圖2可知,相較于顯式關(guān)系,隱式關(guān)系的分布非常不均衡,其中〃擴(kuò)展關(guān)系”的比例大大增加,占到了總數(shù)的60.37%;而〃條件關(guān)系”、“時(shí)序關(guān)系”、〃比較關(guān)系”的數(shù)量則大大壓縮,其中“條件關(guān)系”和“時(shí)序關(guān)系”分別只占0.72%和2.57%;只有〃并列關(guān)系”和“因果關(guān)系”比例相對(duì)穩(wěn)定。分析原因,對(duì)“條件關(guān)系”和“時(shí)序關(guān)系”而言,由于關(guān)聯(lián)詞的省略導(dǎo)致了語(yǔ)義翻轉(zhuǎn),使得對(duì)應(yīng)類型很少出現(xiàn)在隱式關(guān)系中,而〃擴(kuò)展關(guān)系”則非常適合用隱式關(guān)系來(lái)表達(dá),這導(dǎo)致了圖2中分布現(xiàn)象的出現(xiàn)。該特點(diǎn)提示我們,在隱式關(guān)系識(shí)別中,不同關(guān)系類型具有不同的分布特性,適合不同的識(shí)別方法。考慮到隱式關(guān)系中〃條件關(guān)系”和〃時(shí)序關(guān)系”數(shù)量極少,我們主要識(shí)別〃擴(kuò)展關(guān)系”、“因果關(guān)系”、〃比較關(guān)系”、“并列關(guān)系”四類。圖2顯式/隱式關(guān)系類型分布圖4.2基于有指導(dǎo)方法的隱式關(guān)系識(shí)別模型根據(jù)以上的分析,對(duì)隱式關(guān)系識(shí)別主要集中在〃擴(kuò)展關(guān)系”、“因果關(guān)系”、“比較關(guān)系”、“并列關(guān)系”四類。我們抽取了詞匯、句法、語(yǔ)義等多層次的特征,采用最大熵和SVM兩類學(xué)習(xí)方法訓(xùn)練四元分類模型,根據(jù)模型輸出判定隱式篇章句間關(guān)系類型。4.2.1特征集合核心動(dòng)詞:作為句子的主要成分,動(dòng)詞往往在語(yǔ)義表達(dá)中起很重要的作用,動(dòng)詞之間的關(guān)系常常反映了句子間的語(yǔ)義關(guān)系。如例7所示。例7:塔利班10日晚襲擊了阿富汗北部一個(gè)村落,導(dǎo)致18人喪生。(因果關(guān)系)上例中,〃襲擊一喪生”之間存在因果聯(lián)系,同時(shí)也指示了兩個(gè)分句之間的因果關(guān)系。通過(guò)挖掘動(dòng)詞之間的搭配特性,有助于識(shí)別篇章句間關(guān)系類型。這兩詞在依存句法分析結(jié)果中均作為“SBV(主謂關(guān)系)”的謂語(yǔ)動(dòng)詞出現(xiàn),因此我們利用依存句法分析找到前后分句中的“SBV”關(guān)系,抽取其中的謂語(yǔ)動(dòng)詞;同時(shí)為了避免稀疏,我們將兩個(gè)謂語(yǔ)動(dòng)詞在同義詞詞林中泛化至第三層,并將泛化結(jié)果配對(duì)構(gòu)成核心動(dòng)詞特征。極性特征:不同的極性信息常常指示特定的篇章句間關(guān)系類型,如例8所示。例8:他很喜歡蘋果公司的產(chǎn)品,遺憾的是價(jià)格太高了。(轉(zhuǎn)折關(guān)系)例8中〃喜歡”指示“Positive”的極性信息;〃價(jià)格太高”指示“Negative”的極性信息,前后分句的極性信息相反,指示該實(shí)例屬于“轉(zhuǎn)折關(guān)系”?;谶@種現(xiàn)象,我們引入了篇章單元的極性特征,采用極性詞匹配的方法判定篇章單元極性,并作為特征使用。依存句法特征:篇章單元的句法結(jié)構(gòu)中,最核心的關(guān)系包括“SBV(主謂)”和“VOB(動(dòng)賓)”兩類,它們描述了文本單元的主要信息。本文將兩個(gè)篇章單元中的“SBV”和“VOB”關(guān)系抽取出來(lái),并將對(duì)應(yīng)詞匯在同義詞詞林中泛化至第三層,作為特征使用。Unigram(句首):在中文里,句首詞語(yǔ)通常起承上啟下的作用,對(duì)篇章句間關(guān)系類型具有一定的指示作用。本文分別抽取兩個(gè)篇章單元中的第一個(gè)詞,作為識(shí)別特征使用。Bigram(句首):中文里承上啟下的可以是單個(gè)詞,也可以是雙詞或短語(yǔ)。因此除Unigram特征之外,本文還抽取兩個(gè)篇章單元中的前兩個(gè)詞,作為識(shí)別特征使用。4.3實(shí)驗(yàn)結(jié)果我們?nèi)匀徊捎?.2.1中提到的中文篇章句間關(guān)系語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn),該語(yǔ)料庫(kù)包含1096篇文本,手工標(biāo)注了顯式篇章句間關(guān)系和隱式篇章句間關(guān)系兩類信息。我們將其中996篇作為訓(xùn)練語(yǔ)料,另外100篇作為測(cè)試語(yǔ)料,抽取前文提出的詞匯、句法、語(yǔ)義等特征,分別訓(xùn)練最大熵和SVM兩種模型進(jìn)行分類。我們?cè)谥形钠戮溟g關(guān)系體系的四個(gè)頂層類別進(jìn)行分類,包括:〃擴(kuò)展關(guān)系”、“因果關(guān)系”、〃比較關(guān)系”、“并列關(guān)系”,結(jié)果如表2所示。分析表2,除〃擴(kuò)展關(guān)系”夕卜,其他類型存在高準(zhǔn)確率、低召回率的特性。以最大熵模型下的“因果關(guān)系”為例,識(shí)別準(zhǔn)確率達(dá)到0.6875,召回率卻只有0.0803。而〃擴(kuò)展關(guān)系”情況恰恰相反。這說(shuō)明數(shù)據(jù)不均衡性使得模型傾向于將測(cè)試實(shí)例分為〃擴(kuò)展關(guān)系”,導(dǎo)致〃擴(kuò)展關(guān)系”類型召回率增加,準(zhǔn)確率下降;同時(shí)使得其他類型召回率降低。系統(tǒng)的整體性能不佳,很大一個(gè)原因是由于低召回率導(dǎo)致的。這提示我們?cè)陬悇e分布嚴(yán)重不均衡的情況下,傳統(tǒng)的統(tǒng)一識(shí)別思路存在很大的困難。表2隱式篇章句間關(guān)系識(shí)別結(jié)果學(xué)習(xí)算法評(píng)價(jià)指標(biāo)因果關(guān)系比較關(guān)系擴(kuò)展關(guān)系并列關(guān)系P0.68750.60000.58490.3231最大熵R0.08030.03900.93820.3182F0.14380.07320.72060.3206P0.46270.77780.63240.3365SVMR0.22630.09090.84550.5303F0.30390.16280.72360.4117注意到SVM實(shí)驗(yàn)結(jié)果普遍高于最大熵,這主要是由于隱式關(guān)系在各類型上分布不均衡,而SVM模型對(duì)邊界實(shí)例敏感,但對(duì)數(shù)據(jù)不平衡有較強(qiáng)的容忍度,因此取得了相對(duì)較好的效果。此外,對(duì)比前文的顯式關(guān)系識(shí)別結(jié)果,我們發(fā)現(xiàn)〃并列關(guān)系”識(shí)別效果始終不佳,這在一定程度上反映該類型的特征不明顯,區(qū)分度較弱;同時(shí)考慮圖1,主要的關(guān)聯(lián)詞歧義集中在〃擴(kuò)展關(guān)系”和〃并列關(guān)系”,說(shuō)明這兩個(gè)類別特征接近。從語(yǔ)義體系定義上來(lái)說(shuō),是否有必要將〃擴(kuò)展關(guān)系”和〃并列關(guān)系”區(qū)分開(kāi)來(lái),是值得考慮的一個(gè)問(wèn)題。5結(jié)論與展望本文首次探索面向中文的篇章句間關(guān)系識(shí)別任務(wù),嘗試了顯式篇章句間關(guān)系識(shí)別和隱式篇章句間關(guān)系識(shí)別兩方面研究。對(duì)于顯式篇章句間關(guān)系識(shí)別,我們首次提出基于篇章關(guān)聯(lián)詞的顯式關(guān)系識(shí)別方法,在關(guān)聯(lián)詞統(tǒng)計(jì)的基礎(chǔ)上識(shí)別關(guān)系類型,取得了非常好的效果。對(duì)于隱式篇章句間關(guān)系識(shí)別,我們首先分析了隱式關(guān)系和顯式關(guān)系在類型分布上的差別,指出隱式關(guān)系的特點(diǎn),并在識(shí)別過(guò)程中進(jìn)行了針對(duì)性處理;隨后我們提出詞匯、句法、語(yǔ)法等一系列特征,采用最大熵和SVM兩種方案嘗試了隱式篇章句間關(guān)系識(shí)別。本文的分析和實(shí)驗(yàn)結(jié)果為后續(xù)的工作提供了參考,推動(dòng)了中文篇章分析研究,尤其是篇章句間關(guān)系分析的進(jìn)一步發(fā)展。參考文獻(xiàn)DMarcu.Therhetoricalparsingofunrestrictedtexts:Asurface-basedapproach[J].ComputationalLinguistics,2000,26(3):395-448.RGirju.Automaticdetectionofcausalrelationsforquestionanswering[C]//ProceedingsoftheACL2003workshoponmultilingualsummarizationandquestionanswering.2003,12:76-83.SSomasundaran,JWiebe,JRuppenhofer.Discourselevelopinioninterpretation[C]//ProceedingsofColing2008.[4]ZhouL,LiB,GaoW,etal.UnsupervisedDiscoveryofDiscourseRelationsforEliminatingIntra-sentencePolarityAmbiguities[C]//ProceedingsoftheEMNLP2011(Oralpresentation),Edinburgh,Scotland,July:27-31.EPitler,ANenkova.Revisitingreadability:Aunifiedframeworkforpredictingtextquality[C]//ProceedingsofEMNLP2008:186-195.[6]ZihengLin,HweeTouNG,Min-YenKan.AutomaticallyEvaluatingTextCoherenceUsingDiscourseRelations.[C]//ProceedingsofACL-HLT,2011:997-1006.[7]EPitler,MRaghupathy,HMehta,etal.Easilyidentifiablediscourserelations[C]//ProceedingsofCOLING08.[8]RashmiPrasad,SamarHusain,DiptiSharma,etal.TowardsanannotatedcorpusofdiscourserelationsinHindi[C]//ProceedingsoftheIJCNLP2008,Hyderabad,India,2008.[9]DenizZeyrek,BonnieWebber.ADiscourseResourceforTurkish:AnnotatingDiscourseConnectivesintheMETUCorpus[C]//ProceedingsofIJCNLP-2008.Hyderabad,India,2008.[10]AAlSaif,KMarkert.Theleedsarabicdiscoursetreebank:Annotatingdiscourseconnectivesforarabic[C]//ProceedingsofLREC2010.[11]XueNianwen.AnnotatingdiscourseconnectivesintheChineseTreebank[C]//ProceedingsoftheACLWorkshopinFrontiersinAnnotationII.2005.[12]Hen-HsenHuang,Hsin-HsiChen.ChineseDiscourseRelationRecognition[C]//ProceedingsofIJCNLP2011:1442-1446.[13]YupingZhou,NianwenXue.PDTB-styleDiscourseAnnotationofChineseText[C]//ProceedingsofACL2012.[14]J.R.Hobbs.Onthecoherenceandstructureofdis-course[M].CSLI,1985:37-85.[15]CarlsonL,MarcuD,OkurowskiME.Buildingadiscourse-taggedcorpusintheframeworkofrhetoricalstructuretheory[M].SpringerNetherlands,2003:85-112.[16]RPrasad,NDinesh,ALee,etal.ThePenndiscoursetreebank2.0[C]//ProceedingsofLREC2008.[17]WilliamMann,SandraThompson.Rhetoricalstructuretheory:Towardafunctionaltheoryoftextorganization[J].Text,1988,8(3):243-281.AAlSaif,KMarkert.Theleedsarabicdis-coursetreebank:Annotatingdiscourseconnectivesforarabic[C]//ProceedingsofLREC2010.張牧宇,秦兵,劉挺.中文篇章級(jí)句間語(yǔ)義關(guān)系體系及標(biāo)注[C]//ProceedingsofCCIR2012.[20]PitlerE,LouisA,NenkovaA.AutomaticSensePredicationforImplicitDiscourseRelationsinText[C]//ProceedingsofACL-IJCNLP2009.[21]BenWellner,JamesPustejovsky.Automati-callyidentifyingtheargumentsofdiscourseconnectives[C]//ProceedingsofEMNLP-CoNLL2007,Prague,CzechRepublic.RElwell,JBaldridge.Discourseconnectiveargumentidentificationwithconnectivespecificrankers[C]//ProceedingsoftheInternationalConferenceonSemanticComputing.2008.DMarcu,AEchihabi.Anunsupervisedapproachtorecognizingdiscourserelations[C]//ProceedingsofACL2001:368-375.SBlair-Goldensohn,KRMc

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論