2023自然語言處理導論 5篇章分析_第1頁
2023自然語言處理導論 5篇章分析_第2頁
2023自然語言處理導論 5篇章分析_第3頁
2023自然語言處理導論 5篇章分析_第4頁
2023自然語言處理導論 5篇章分析_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1第五章篇章分析自然語言處理導論篇章理論概述5.1話語分割5.2篇章結構分析5.3目錄Contents2指代消解5.4篇章理論概述5.1話語分割5.2篇章結構分析5.3目錄Contents3指代消解5.45.1.1篇章的銜接5.1.2篇章的連貫5.1.3篇章的結構5篇章分析4語言通常并不是由獨立無關的句子組成,而是由搭配在一起具有一定結構的連貫的句子集合組成。我們將這樣的句子集合稱為篇章(Discourse)。篇章分析的目的是從整體上理解篇章,其中最重要的是對篇章的連貫性(Coherent)和銜接性(Cohesion)進行分析。連貫性是將真正的篇章區(qū)分于無關、隨機的句子集合的重要性質,而銜接性幫助我們分析和理解篇章的結構,包括其名詞、代詞之間的指代關系等。5.1篇章理論概述5篇章語言學是在二十世紀五十年代以后發(fā)展起來的一門新興學科。傳統(tǒng)語言學通常以句子本身及其組成成分為研究對象。但是隨著語言學研究的進展,人們發(fā)現句子在不同的上下文和語境中也可以有不同的意義或者具有不同交際功能,多個合乎句法的句子也并不是隨意堆在一起就能構成一個合格的語篇。語言研究應該超越句子層次,句子的組合受到語法以外的規(guī)則的制約。Harrris(1952)在《DiscourseAnalysis》一書中首次提出了“話語分析”這一術語。W.Weinrich在1967年首次提出了“篇章語言學”這一概念,認為任何語言學研究都應該以語篇為描述框架。5.1篇章理論概述6篇章(Discourse)也稱語篇,是指由一系列連續(xù)的語段或句子組成的整體,是語言運用或交際的基本單位。篇章的形式是多種多樣的,既包含新聞、小說、論文、報告又包含警示標語、交通標識等?!敖雇ㄐ小边@樣的警示語以及“停!”之類的有意義的語言單位都可以看作是一個篇章。但是,并不是所有大于句子的單位都可以組成一個合格的篇章。Beaugrande和Dressler在1981年所著的《IntroductiontoTextLinguistics》一書中指出,一個合格的篇章需要滿足七個標準:銜接(Cohesion)、連貫(Coherence)、意圖性(Intentionality)、可接受性(Acceptability)、信息性(Informativity)、情景性(Situationality)和互文性(Intertextuality)。篇章與孤立句子的主要區(qū)別在于:篇章是由句子組成的前后連貫的、有主題的統(tǒng)一整體。篇章所呈現的特定結構,不僅包含音、詞和句法等表層結構上,也體現在語義連貫的深層結構上。需要注意的是,由于篇章的類型和特點千差萬別5.1.1篇章的銜接7銜接(Cohesion)是指篇章中的某一語言成分需要依賴另一語言成分進行解釋銜接是一種語義關系,使得篇章各組成部分在語義上相互聯系,關系緊湊。銜接也被作為語篇連貫性的必要條件之一,在語篇中體現為詞匯銜接和語法銜接。詞匯銜接包括重述(Reiteration)、搭配(Collocation)等銜接手段。語法銜接包括照應(Reference)、替代(Substitution)、省略(Ellipsis)、連接(Conjunction)等銜接手段。5.1.1篇章的銜接—詞語銜接8重述關系是通過詞的重復、同義詞或近義詞、反義詞、上下位詞等詞匯手段形成的篇章銜接關系。例如:(1)蘇州園林據說有一百多處,我到過的不過十多處。其他地方的園林我也到過一些。倘若要我說說總的印象,我覺得蘇州園林是我國各地園林的標本,各地園林或多或少都受到蘇州園林的影響。因此,誰如果要鑒賞我國的園林,蘇州園林就不該錯過。

(2)那棵樹立在那條路邊上已經很久很久了。當那路還只是一條泥濘的小徑時,它就立在那里;當路上駛過第一輛汽車之前,它就立在那里;當這一帶只有稀稀落落幾處老式平房時,它就立在那里5.1.1篇章的銜接—詞語銜接9搭配關系是指詞的共現關系,包括一個詞組或者一個句子內部的詞之間的組合關系,也包括句子間或段落間的詞的習慣性共現。例如:有一天早上,撒了三次網,什么都沒撈著,他很不高興。第四次把網拉攏來的時候,他覺得太重了,簡直拉不動。他就脫了衣服跳下水去,把網拖上岸來。打開網一看,發(fā)現網里有一個膽形的黃銅瓶,瓶口用錫封著,錫上蓋著所羅門的印。5.1.1篇章的銜接—語法銜接10照應是指篇章中一個語言成分與另一可以與之相互解釋的成分之間的關系,即一個成分作為另一個成分的參照點。例如:那只最后從蛋殼里爬出來的小鴨是那么丑陋,他處處挨啄,被排擠,被訕笑,不僅在鴨群中是如此,連在雞群中也是這樣。照應性(Phoricity)是語言交際過程中一個普遍現象,用來指代篇章中的實體、概念或事件。照應可以分為兩種:外指(Exophora)和內指(Endophora)。外指照應是指篇章中的某個成分的參照點不在篇章本身,而是在語境中。內指照應是指語言成分的參照點在篇章上下文中。5.1.1篇章的銜接—語法銜接11替代是指用替代形式來取代上文中的某一成分。例如:各式各樣的球鞋像裝在萬花筒里,在她面前轉開了:白色的,藍色的,高筒的,矮幫的,白色帶紅邊的,白色帶藍邊的。省略是指將語言結構中某個成分在句子中去除。雖然省略結構在語法層面不完整,但是并不是不可理解的,并且表達更加精煉。例如:雨是最尋常的,一下就是三兩天??蓜e惱???,雨像牛毛,雨像花針,雨像細絲,密密地斜織著,人家屋頂上全籠著一層薄煙。5.1.1篇章的銜接—語法銜接12連接是通過連接成分體現篇章中邏輯關系。從邏輯語義關系類型上,可以細分為三大類:詳述(Elaboration)、延伸(Extension)和增強(Enhancement)。詳述是對上文內容進一步說明、評論或解釋,主要包括同位語和闡明兩種情況。延伸是從正面或反面增加新的陳述,包括添加、轉折、變換等類型。增強則是指補充額外必要信息,達到加強語義并使其更加完整,包括時空、方式、因果與條件、話題等條件。例如:不必說碧綠的菜畦,光滑的石井欄,高大的皂莢樹,紫紅的桑葚;也不必說鳴蟬在樹葉里長吟,肥胖的黃蜂伏在菜花上,輕捷的叫天子(云雀)忽然從草間直竄向云霄里去了。單是周圍的短短的泥墻根一帶,就有無限趣味。5.1.2篇章的連貫13連貫(Coherence)是指篇章在語義、功能和心理上構成一個整體,圍繞同一個主題或意圖展開。連貫性(Coherent)是衡量篇章質量的重要指標,只有連貫的句子集合才能夠形成篇章。這也是篇章與無關的、隨機的句子集合區(qū)分開的最主要因素。篇章應該同時具有局部連貫性(LocalCoherent)和整體連貫性(GlobalCoherent)。局部連貫性是在微觀層面,篇章中前后相連的命題在語義上的聯系。整體連貫性是在宏觀層面,篇章中的所有命題與篇章主題之間的聯系。例如:(1)他點了一份外賣。(2)外賣很快就送到了。5.1.2篇章的連貫14除了現實世界中自然順序的限制,話語序列的語義結構還受到人們普遍認知規(guī)律的制約。人們認識和描述客觀世界時通常遵循從一般到特殊、從整體到局部、從大到小,從集合到子集的認知模式。例如:單是周圍的短短的泥墻根一帶,就有無限趣味。油蛉在這里低唱,蟋蟀們在這里彈琴。翻開斷磚來,有時會遇見蜈蚣;還有斑蝥,倘若用手指按住它的脊梁,便會啪的一聲,從后竅噴出一陣煙霧。上例符合整體到局部的排列順序,從對百草園的“無限趣味”開始,再以局部的細節(jié)展開,詳細描寫了由“油蛉”、“蟋蟀”、“斑蝥”所帶來的樂趣。這樣的順序與人們一般的認知規(guī)律和感知順序相符合,從而也就更容易讓人接受。5.1.2篇章的連貫15局部連貫說明篇章中相鄰句子存在聯系,但是僅有局部連貫是不夠的,篇章在整體上還需要圍繞一個主題展開,既需要具有整體連貫性。整體連貫性對篇章中句子之間的聯系施加宏觀制約。例如:[1]于一個在北平住慣的人,像我,冬天要是不刮風,便覺得是奇跡;濟南的冬天是沒有風聲的。對于一個剛由倫敦回來的人,像我,冬天要能看得見日光,便覺得是怪事;濟南的冬天是響晴的。自然,在熱帶的地方,日光永遠是那么毒,響亮的天氣,反有點兒叫人害怕??墒牵诒狈降亩?,而能有溫晴的天氣,濟南真得算個寶地。[2]母親還從來沒有一次給過我這么多錢。我也從來沒有向母親一次要過這么多錢。我來到母親工作的地方,呆呆地將那些母親掃視一遍,卻沒有發(fā)現我的母親。背直起來了,我的母親。轉過身來了,我的母親。褐色的口罩上方,一對眼神疲憊的眼睛吃驚地望著我,我的母親5.1.2篇章的連貫16篇章的連貫是一個復雜的現象,有些現象不能完全從語義角度解釋話語序列的連貫性,還需要從語用角度以及認知角度進行討論。圍繞語篇的連貫也有很多理論和方法,包括從關聯理論角度對微觀層面連貫性研究,利用修辭結構理論(RhetoricalStructureTheory)進行語篇連貫性研究,運用圖式理論(SchemaTheory)的連貫性研究,基于語篇策略(DiscourseStrategy)的連貫性研究等。5.1.3篇章的結構17篇章同時具有線性結構和等級結構。篇章中的句子按照一定的線性規(guī)則排列在一起,因此篇章是線性的。同時,句子的組合可以構成更大的語言單位,因此篇章又是具有等級結構的。[1]著名蘇聯作家高爾基曾經說過:“書是人類進步的梯。”[2]書是一個知識的殿堂,是人類最好的精神食糧,也是人鴻鵠高翔的羽翼。[3]“書中自有黃金屋。”書本中的知識是無窮無盡的,讀書是為了更好地獲取更多知識,開闊自己的視野,幫助自己創(chuàng)造,實現自己的人生目標。[4]戰(zhàn)國時期,蘇秦去秦國以連橫說進行游說,多次給秦惠王上書也未被采納。[5]回到家中,父母妻嫂都不理睬他,于是他就找出許多書籍發(fā)奮研讀。終于以合縱之策而身佩六國相印。句子[1][2]組成了引論,句子[3]給出了第一個論點,句子[4]-[5]是論據5.1.3篇章的結構--篇章超級結構18篇章超級結構(Superstructure)是采用規(guī)約化圖式結構來表示篇章宏觀內容組織形式的一種形式結構。只涉及篇章內容的組織方法,與篇章所表達的具體內容沒有直接關系。不同類型的語篇往往具有不同的超級結構。篇章超級結構提供了組織相關類型語篇的基礎綱要和架構。在具體的篇章中,結構也具有一定的靈活性,并不是所有的結構成分都要存在,結構成分的位置也是不固定的。5.1.3篇章的結構--修辭結構理論19修辭結構理論(RhetoricalStructureTheory,RST)是Mann和Thompson于1987年提出的一種通過描述篇章各個組成部分之間的修辭關系來分析篇章結構的理論。修辭結構理論將修辭關系定義在兩個或多個文本單元(TextSpan)之間。文本單元又稱基本篇章單元(ElementaryDiscourseUnit,EDU),有兩種主要類型:核心(Nucleus)和輔助(Satellite)。核心單元是篇章中最重要的部分,表達作者的核心意圖,并且具有相對完整的語義,能夠獨立解釋。輔助單元則較少表達作者的核心意圖,用于傳達支撐其他信息,補充說明核心單元,通常只有在與核心單元關聯時才能夠被解釋。例如:[1]這個草莓真的好吃,[2]我吃了一大盆。5.1.3篇章的結構--修辭結構理論20篇章中的修辭關系主要包括兩種類型:(1)不對稱性的核心-輔助關系(Nucleus-SatelliteRelation),也稱單核關系;(2)無主次之分的多核心關系(MultinuclearRelation)。圖5.3修辭結構理論中關系圖示類型環(huán)境(Circumstance)關系是單核心關系,弧線箭頭指向核心單元。對比(Contrast)關系總是兩個核心單元。序列(Sequence)關系則可以具有多個連續(xù)的單元,相鄰的兩個單元之間構成序列關系。聯合(Joint)關系也可以具有多個單元,這些單元一起構成該關系。5.1.3篇章的結構--修辭結構理論21篇章的修辭結構在總體上表現為等級結構,連貫的篇章可以由不同層次的修辭關系組織成層次結構,從而形成一個修辭關系樹。圖5.4修辭結構關系樹樣例5.1.3篇章的結構--語篇模式22語篇模式(TextualPattern)是指人們長期積累并根據經驗形成的一些程式化的語篇組織形式或策略。語篇模式是在一定的文化中形成的,因此往往帶有不同文化積淀的內涵和文化規(guī)約性。語言學家總結出了“問題-解決”(Problem-Solution)、“概括-具體”(General-Specific)等英語中常見的語篇模式。語篇模式與小句關系之間存在著密切的聯系,小句通過組合形成邏輯序列關系或匹配關系,通過這些關系小句又組合為更大的語篇單位。語篇模式與具體的篇章內容通常沒有直接的聯系,但是每種語篇模式通常都具有特定的詞匯標記。5.1.3篇章的結構--語篇模式23[1]長征五號遙三運載火箭27日晚在海南文昌一飛沖天,將實踐二十號衛(wèi)星成功送入太空預定軌道。[2]“胖五”也以實際行動,詮釋著中國俗話所說“哪里跌倒,就要從哪里爬起來”的堅持與堅韌。[3]2017年7月長征五號遙二火箭因發(fā)動機故障發(fā)射失利。[4]科研人員歷經兩年多的艱苦攻關、連續(xù)奮戰(zhàn),進行大量地面試驗,完成遙二失利故障歸零和遙三火箭各項工作,還采取一系列改進優(yōu)化措施,切實提升火箭飛行任務可靠性。[5]長征五號遙三火箭在此背景下成功發(fā)射,對研制團隊直面挑戰(zhàn)、發(fā)現問題、解決問題的心理能力建設也是一次巨大考驗,也為航天人才特別是青年人才樹立起不怕失敗、敢于挑戰(zhàn)、勇于拼搏的榜樣力量。語篇模式示例篇章理論概述5.1話語分割5.2篇章結構分析5.3目錄Contents24指代消解5.45.2.1基于詞匯句法樹的統(tǒng)計話語分割5.2.2基于循環(huán)神經網絡的話語分割5.2話語分割25根據修辭結構理論,篇章修辭關系定義在兩個或多個基本篇章單元(EDU)之間。話語分割(DiscourseSegmentation)的目標就是將篇章分割為基本篇章單元,從而實現后續(xù)的篇章分析任務。話語分割任務通常被形式化為序列標注任務或者單詞級別的二分類任務,對每個單詞位置輸出預測其是否為一個基本篇章單元的邊界。圖5.6話語分割樣例輸入:“Thebankalsosaysitwilluseitsnetworktochanneltheinvestments”5.2.1基于詞匯句法樹的統(tǒng)計話語分割26SynDS算法采用基于句法樹的統(tǒng)計模型估計句子中每個詞作為分界點的概率。給定句子s=w1w2…wn,首先使用句法分析工具得到該句子的句法樹t,隨后對句子中的每個詞wi,使用最大似然估計的方法學習其作為分界點的概率P(bi|wi,),其中bi

∈{0,1}。0表示為非邊界,1表示為邊界。為了同時使用詞匯及句法特征估計基本篇章單元分界,SynDS算法使用了詞匯中心(LexicalHead)映射規(guī)則,將詞匯成分引入句法樹。對于每個詞w來說,SynDS算法關注其包含右兄弟節(jié)點的最高父節(jié)點,使用其構建的特征決定當前詞是否作為分界詞。5.2.1基于詞匯句法樹的統(tǒng)計話語分割27判斷詞“says”是否為分界詞時,使用該詞本身對應的節(jié)點Nw=VBZ(says)、其父節(jié)點Np=VP(says)$及其右兄弟節(jié)點Nr=SBAR(will)作為特征。圖5.7基于詞匯句法樹的統(tǒng)計話語分割樣例使用RST-DT語料的統(tǒng)計量估計每個詞作為分界詞的似然概率:5.2.2基于循環(huán)神經網絡的話語分割28話語分割任務還可以轉換為序列標注問題,給定一個輸入句子,其輸出中每個yt表示第t個詞是否為一個基本單元的開頭,如果是,則yt=1,否則yt=0。可以采用基于BiLSTM-CRF模型實現這一任務。篇章理論概述5.1話語分割5.2篇章結構分析5.3目錄Contents29指代消解5.45.3.1修辭結構篇章分析5.3.2淺層篇章分析5.3篇章結構分析30篇章結構分析的目標是分析篇章單元之間存在的連貫關系,從而服務于下游任務。現有的篇章分析工作基于不同的篇章分析標注框架,主要可以分為兩大類:基于詞匯的淺層篇章分析及基于語義或意圖關系的完整篇章分析。淺層篇章分析代表是PennDiscourseTreebank(PDTB)標注框架完整篇章分析代表是RSTDiscourseTreeBank(RST-DT)標注框架5.3.1修辭結構篇章分析31RST-DT是篇章分析中的代表性標注框架,其標注基于修辭結構理論,將一個完整的篇章標注成由基本篇章單元組成的層次樹狀結構。其中,樹的節(jié)點關系由相鄰篇章單元之間的關系構成。在標注時,一個完整的篇章首先被切分成不相交的基本篇章單元(EDU)。在此基礎上,根據修辭關系理論,將相鄰的基本篇章單元連接,并標注為78種修辭關系的一種。圖5.9RST-DT標注樣例5.3.1修辭結構篇章分析--基于SVM分類器的RST篇章分析32HILDA(HIgh-LevelDiscourseAnalyzer)是基于SVM分類器的RST篇章分析算法,將修辭結構樹定義為二叉樹結構,并定義了建立一個有效修辭結構樹(validRS-tree)T的兩項規(guī)則:T的所有葉子結點均為EDU(單個EDU也可以構成一個修辭結構樹)T的所有非葉子結點被標注為篇章關系集合中的一種關系(Ri∈R)基于這一修辭結構樹的定義,HILDA采用了基于貪心原則的流水線方法,使用兩個支持向量機分類器對EDU之間是否存在關系以及存在何種關系分別進行分類結構分類器Struct(li,lj):用于判斷篇章結構的二元分類器,即判斷兩個有效修辭結構樹之間是否存在修辭關系,分類目標為0和1,0表示沒有關系,1表示有關系。類型分類器Label(li,lj):用于判斷修辭關系類型及核類型的多元分類器,分類目標為篇章關系集合R={R1,...,Rn},Ri=<RRi,Lefti,Righti>定義為由兩個有效修辭結構樹的核類型及其之間的修辭關系類型組成的三元組5.3.1修辭結構篇章分析--基于SVM分類器的RST篇章分析335.3.1修辭結構篇章分析--基于遞歸神經網絡的RST篇章分析34基于遞歸神經網絡的RST篇章分析算法RNN-RST。與HILDA算法相似,RNN-RST也是通過訓練兩個分類器,即結構分類器及修辭關系類型分類器構造修辭結構樹,但用于分類的特征則使用遞歸神經網絡進行計算。圖5.10基于遞歸神經網絡的RST篇章分析算法神經網絡結構圖5.3.1修辭結構篇章分析--基于遞歸神經網絡的RST篇章分析35利用標注語料集合,可以分別構造上述兩個分類器的訓練數據,并利用交叉熵損失函數進行模型參數訓練。在訓練完成后可以采用類似用于句法分析的CKY動態(tài)規(guī)劃方法,對于給定的篇章進行修辭結構樹構建。對于由n個EDU組成的篇章,可以構建$Nr*n*n組成的動態(tài)規(guī)劃表Pr,Nr表示關系類型數量,Pr表中每個單元格Pr[r,i,j]表示從片段從第i個EDU到第j個EDU中具有關系r的概率,其計算過程如下:5.3.1淺層篇章分析36PennDiscourseTreebank(PDTB)是基于詞匯化樹型連接語法(DiscourseLexicalTreeAdjunctGrammar,D-LTAG)理論構建的篇章分析標注框架,是篇章分析中的另一代表性框架。PDTB以篇章內相鄰或者跨度在一定范圍內的片段,以連接詞為核心,對片段間關系進行標注。相較于修辭結構理論將整個篇章構建為樹結構而言,PDTB則針對兩個片段之間的關系,因此也可以稱為淺層篇章分析。每個篇章關系由兩個論據(Argument)及其之間的關系組成,兩個論據分別標注為Arg1和Arg2。在相鄰句子構成的關系中,Arg1和Arg2則反映論據之間的線性順序,其中Arg1在Arg2之前。根據連接詞是否顯式存在,PDTB標注的關系可分為顯式篇章關系和隱式篇章關系兩類。5.3.1淺層篇章分析37顯式篇章關系(ExplicitDiscourseRelation)由顯式連接詞定義,通過顯式連接詞連接Arg1和Arg2。在顯式關系中,Arg2一般為句法上關聯的論據,Arg1則為另一個論據,顯式連接詞由三種語法連接詞產生:從屬連詞,如because,when等并列連詞,如and,or等語篇副詞,如forexample,instead等Third-quartersalesinEuropewereexceptionallystrong,boostedbypromotionalprogramsandnewproducts–although

weakerforeigncurrenciesreducedthecompany’searnings.Mostoilcompanies,when

theysetexplorationandproductionbudgetsforthisyear,orecast

revenueof$15foreachbarrelofcrudeproduced.5.3.1淺層篇章分析38隱式篇章關系(ImplicitDiscourseRelation)則是除顯式篇章關系以外,需要靠讀者通過推斷判斷的篇章關系Butafewfundshavetakenotherdefensivesteps.Somehaveraisedtheircashpositionstorecord

levels.Implicit=BECAUSE

Highcashpositionshelpbufferafundwhenthemarketfalls.雖然沒有顯式連接詞,但讀者能夠通過論據之間的語義判斷出其之間表達的因果關系。在PDTB中,這樣的隱式關系通常通過標注者插入一個連接詞進行標注(例如上面例子中的BECAUSE被插入以表示因果關系)。而當隱式關系無法使用一個隱式連接詞進行標注時,則構成三種特殊的隱式關系:AltLex表示語篇關系已經由非連接詞的詞匯表達,額外插入連接詞會構成冗余的情況EntRel表示句子之間只存在基于實體的連貫關系的情況NoRel表示句子之間不存在任何篇章關系或基于實體的連貫關系的情況5.3.1淺層篇章分析39由于一個連接詞在不同的篇章中可能表達不同的語義關系,PDTB中為顯式關系、隱式關系和AltLex關系提供了三級語義標注(SenseTag):CLASS,TYPE,SUBTYPE5.3.1淺層篇章分析--基于句法特征構建的顯式篇章分析40由于部分顯式連接詞在不同語境下具有不同語義,顯式篇章分析的重點在于對顯式連接詞進行消歧,并將每一連接詞分類為PDTB標注的四個一級語義類別(TEMPORAL、CONTINGENCY、COMPARISON、EXPANSION)例如:下述兩個包含since的句子(1)Guangzhouhasawidewaterareawithmanyriversandwatersystemssinceitislocatedinthewater-richareaofsouthernChina.(2)ShehasbeenlivinginsinceshegraduatedfromFudanUniversity.顯式連接詞“Since”在句子(1)中表示因果關系,屬于CONTINGENCY語義類別;在句子(2)中則是TEMPORAL語義類別5.3.1淺層篇章分析--基于句法特征構建的顯式篇章分析41文獻[236]使用最大熵分類器,通過利用句法特征對顯式篇章關系進行分類。基于標準PennTreebank句法分析標注,構建了多種句法特征對顯式連接詞的語義進行消歧,所構建的句法特征包括:自身類別(SelfCategory):子樹包含且僅包含該顯式連接詞的最高父節(jié)點。對于單個單詞構成的顯式連接詞,其特征為該詞自身的POS標注;對于多個單詞構成的顯式連接詞則不然。父節(jié)點類別(ParentCategory):自身類別的最近父節(jié)點的類別。左兄弟節(jié)點類別(LeftSiblingCategory):離自身類別最近的左兄弟節(jié)點類別。如果左兄弟節(jié)點不存在,則其特征為“None”。右兄弟節(jié)點類別(RightSiblingCategory):離自身類別最近的右兄弟節(jié)點類別。5.3.1淺層篇章分析--基于循環(huán)神經網絡語言模型的隱式篇章分析42由于傳統(tǒng)機器學習方法在顯式篇章分析任務上已經能夠達到較高的準確率[238],后續(xù)基于PDTB的篇章分析工作更多地關注隱式篇章分析,相關的工作包括基于前饋網絡[239]、基于淺層卷積神經網絡[240]、基于循環(huán)神經網絡語言模型[241]及基于預訓練語言模型[242]的隱式篇章分析等。DRLM算法使用包含隱變量的循環(huán)神經網絡語言模型建模隱式篇章分析算法,整個過程建模為兩階段生成過程。首先,句子t-1和句子t之間的隱式篇章關系zt由句子t-1的信息建模。在此基礎上,句子xt根據句子xt-1$和zt生成。5.3.1淺層篇章分析--基于循環(huán)神經網絡語言模型的隱式篇章分析43給定輸入句子其中t表示該句為篇章中的第t個句子,Nt為句子t的長度?;阪準椒▌t,RNN語言模型將該句出現的概率轉化為每個詞出現的條件概率的乘積:由于篇章分析需要對包含多句話的長文本進行語言模型建模,而RNN語言模型難以處理長距離依賴關系,DRLM使用了基于文檔的語言模型。具體來說,文檔中第t個句子的第n步輸出的條件概率為:其中,ct-1為句子t-1的上下文信息,DRLM算法采用句子t-1最后一步輸出的隱向量表示該句子信息引入篇章關系隱向量后的輸出條件概率計算為:5.3.1淺層篇章分析--基于循環(huán)神經網絡語言模型的隱式篇章分析44最后,文本及篇章關系的聯合概率為:在訓練階段,DRLM可以使用兩種目標函數進行訓練:聯合似然目標函數和條件目標函數。其中,聯合似然目標函數的損失函數計算為:然而,在實際實現時,由于詞的數量比句子的數量更多,使用這一目標對模型語言模型能力的優(yōu)化占主導地位。因此,DRLM的條件目標函數的損失函數為:篇章理論概述5.1話語分割5.2篇章結構分析5.3目錄Contents45指代消解5.45.4.1基于表述對的指代消解5.4.2基于表述排序的指代消解5.4.3基于實體的指代消解5.4指代消解46雖然指代現象并不影響人類閱讀和理解篇章,甚至還起到了避免重復以及提高語言效率的作用。但是指代對于一些自然語言處理任務卻有一定的影響,需要明確不同表述之間的指代關系。指代消解(CoreferenceResolution)旨在將同一實體(Entity)在篇章中出現的不同表述(Mention,也稱提及)劃分到同一等價類(或稱表述類)中。實體指某一客觀存在的事物;表述則為指代某一實體的在篇章中不同描述。5.4指代消解47指代消解任務通常關注兩種指代類型:共指(Coreference)和回指(Anaphora)。共指表示兩個表述指向真實世界中的同一實體?;刂副硎井斍氨硎鲋赶蛏衔某霈F的另一表述。指代上文的表述稱為照應詞(Anaphor),將照應詞指代的上文表述稱為先行詞(Antecedent)例如:上海的賣腌臘的店鋪里也賣咸鴨蛋,必用紙條特別標明:“高郵咸蛋”。“咸鴨蛋”和“咸蛋”指代真實世界中的統(tǒng)一實體,因此為共指關系例如:我圍抱著火爐,烤熱漫長一生的一個時刻。我知道這一時刻之外,我其余的歲月,我的親人們的歲月,遠在屋外的大雪中,被寒風吹徹?!斑@一時刻”指代上文的“一個時刻”,為回指關系。其中“這一時刻”為照應詞,“一個時刻”為先行詞5.4指代消解48指代消解任務將語篇中所有表示同一實體的指代分配到同一等價類中,并給出每一語篇中的所有等價類。例如:其間有一個十一二歲的少年[1],項帶銀圈,手捏一柄鋼叉,向一匹猹[2]用力地刺去。那猹[2]卻將身一扭,反從他[1]的胯下逃走了。“一個十一二歲的少年”和“他”指代同一實體,屬于同一等價類;“一匹猹”和“那猹”指代同一實體,屬于同一等價類。指代消解任務的目標是發(fā)現文中的等價類[1]和[2]。5.4指代消解49指代消解任務一般可分為兩個步驟:表述發(fā)現(MentionDetection)和指代消解(CoreferenceResolution)。表述發(fā)現也稱提及發(fā)現,旨在找出句子中所有可能存在指代關系的名詞表述,一般包含人稱代詞(“你”、“我”、“他”等)、命名實體(人名、地名等)及一些名詞短語(“那只貓”、“右邊的女士”)等。指代消解旨在對表述同一實體的表述聚合在一起,是這一任務的核心,也是最具挑戰(zhàn)的步驟。5.4.1基于表述對的指代消解50基于表述對的指代消解算法是將該任務轉換為二分類問題,分別對每個表述與其所有先行詞所構成的表述對是否構成指代關系進行分類。例如:長媽媽,已經說過,是一個一向帶領著我的女工,說得闊氣一點,就是我的保姆。我的母親和許多別的人都這樣稱呼她,似乎略帶些客氣的意思。對于所選表述“她”,基于表述對的指代消解算法需要分別計算“她”和其所有先行詞構成的表述對是否為指代關系進行分類。代消解算法目標就是對上述所有表對是否為指代關系進行正確分類5.4.1基于表述對的指代消解51基于一個訓練得到的用于表述對分類的二分類器,對每個測試文本的指代消解推理可以視為一個構造消解圖(CoreferenceGraph)的過程(也可視為聚類過程):每個表述為圖中的一個節(jié)點,當分類器預測一個對表述之間有指代關系時,則為這兩個節(jié)點之間添加一條有向邊。根據上述方式構成的圖,能夠表示每兩個表述之間是否互為指代。同時通過所有連接構成的傳遞閉包(TransitiveClosure),我們能夠找出所有等價類。對于該先行詞的選擇策略,基于最近原則(Closest-First)的算法從后向前依次計算所有先行詞與該表述構成的表述對為指代關系的分數,并選擇第一個大于閾值的先行詞。而基于最優(yōu)原則(Best-First)的算法則計算所有先行詞與該表述構成的表述對為指代關系的分數,并選出分數最高的先行詞進行連接。5.4.1基于表述對的指代消解--基于特征工程的表述對指代消解52文獻[244]提出了基于多類特征及感知器分類的表述對指代消解系統(tǒng)Feature-pair。其構造的特征主要包括兩個方面:表述特征及表述對特征表述特征包括表述類型特征,例如其是否為專有名詞(ProperNoun)、普通名詞(CommonNoun)或代詞(Pronoun)等表述對特征包括表述對的字符串關系特征(如一個字符串是否為另一個的子串)、語義相符性特征(例如性別、數字是否相符)、相對位置特征、實體類別特征等。5.4.1基于表述對的指代消解--基于特征工程的表述對指代消解53表述類型特征:表述所屬的類型,為專有名詞(ProperNoun)、普通名詞(CommonNoun)或代詞(Pronoun)。字符串關系特征:兩個字符串之間是否存在一些共有特征,例如一個字符串是另一個字符串的子串等。語義特征:包括兩個名詞之間的性別是否相符、數字是否相符;兩個名詞是否為近義詞、反義詞、或上位詞等。相對位置特征:兩個表述之間的位置關系,例如將距離轉化為二元特征([distance?i],i包括所有間隔值)、兩個表述是否屬于同一個句子等??蓪W習特征:基于可學習分類器得到的特征,例如使用分類器判斷兩個由同一修飾語修飾的表述,其修飾語之間是否存在指代關系。修飾語對齊特征:兩個上位詞相同的修飾語之間存在的關系,例如是否為子串、近義詞、反義詞等。記憶特征:選取一些常常構成指代關系的表述對構造特征(例如“thequeen”和“ElizabethII”),供模型記憶學習。預測實體類別特征:基于模版匹配預測實體所屬的實體類別(人名、地名、機構名等),并基于預測類別構造兩個表述之間實體類別是否匹配或是否相交等特征。5.4.1基于表述對的指代消解--基于特征工程的表述對指代消解54基于上述構造的特征,Feature-pair算法使用感知器對每一指代對是否構成指代關系進行分類。訓練時,Feature-pair基于最近原則,選擇當前表述m與其所指代的距離最近的先行詞a所構成的表述對(a,m)作為正樣本;選取在m之前所有和m不屬于同一等價類的表述作為負樣本。測試時,Feature-pair基于最優(yōu)原則,每次選擇與m構成分數最高的表述對的先行詞:其中PC(·)為表述對分數計算函數,當PC(a,m)大于某一預定義閾值時,則將a和m鏈接為同一

等價類5.4.1基于表述對的指代消解--基于神經網絡的表述對指代消解55文獻[247]構造了基于前饋神經網絡的表述對指代消解分類器Feedforward-pair圖5.14基于神經網絡的表述對指代消解輸入層將輸入詞映射到輸入特征空間,其輸入特征由表述及表述相關詞的詞嵌入向量及一些其他特征構成。表述相關詞包括表述的依賴詞、句法樹中的父節(jié)點、表述的第一個詞、表述的第二個詞、表述之前的兩個詞及之后的兩個詞等等;其他特征包括表述的類型特征、位置特征、文檔類型特征等。5.4.2基于表述排序的指代消解56基于表述對的指代消解基于二分類器分別對每個先行詞和當前指代構成的表述對進行預測。這種做法對于不同先行詞的預測是相互獨立的,只能判斷每個先行詞相對當前指代的合理程度,而無法直接通過比較判斷哪個先行詞是最正確的基于表述排序的指代消解算法的基本思路是使用一個多分類器,基于多個先行詞候選計算出分數最高的先行詞。圖5.15基于表述排序的指代消解示例5.4.2基于表述排序的指代消解--基于特征工程和最大熵分類器的表述排序指代消解57基于表述排序的指代消解算法RK將指代消解任務從基于指代對二分類器的多步推理(先分別計算各指代對的分數,再基于某種策略選出最高分的先行詞),轉化為同時計算并比較所有先行詞候選的單步推理過程。對每個先行詞候選αi,模型計算其為當前照應詞π的先行詞的條件概率Pr(αi|π),從而對于每個照應詞π,通過比較多個候選先行詞的條件概率即可以選出最可能和π構成指代關系的的先行詞:在測試時,考慮到大部分指代為局部指代,并為了節(jié)約測試時間,RK算法只選取照應詞π所在的句子及所在句之前的3個句子內的表述作為候選。5.4.2基于表述排序的指代消解--基于特征工程和最大熵分類器的表述排序指代消解58RK算法通過最大熵分類器建模這一條件概率,其使用的特征包含三個類別:(1)照應詞特征,描述待分類表述的特征,包括其代詞類型特征、大小寫特征等;(2)候選先行詞特征,描述候選先行詞的特征,包括其詞性特征、其左右相關詞的詞性特征等;(3)關系特征,描述兩個表述之間關系的特征,包括兩個詞之間的距離、兩個詞的語義相符性特征等。5.4.2基于表述排序的指代消解--基于循環(huán)神經網絡的端到端的表述排序指代消解59E2E-COREF在訓練時同時學習判斷每個片段(Span)是否為實體表述并優(yōu)化對實體表述的指代聚類對于每個片段i,模型的目標是在所有候選先行詞中選出一個其指代的先行詞yi。其中,先行詞的候選集合為Y(i)={ε,1,...,i?1},包括一個虛先行詞ε及所有在i之前的片段(需要注意的是,這里的片段可能不是實體表述)。當模型選擇虛先行詞ε作為輸出時,可能對應兩種情況:(1)該片段i不是實體表述;(2)該片段i是實體表述,但不指代在其之前的任一個片段(例如,可能是該實體在文中的第一次提及)。由此,根據對每個片段得到的先行詞預測,可以構建出整個文本中的指代集合。E2E-COREF對每個候選先行詞,計算其和片段i為指代關系的條件概率:5.4.2基于表述排序的指代消解--基于循環(huán)神經網絡的端到端的表述排序指代消解60

s(i,j)是表示片段i和片段j之間存在指代關系的分數,這一分數與三個因素相關:sm(i):片段i是否為實體表述;sm(j):片段j是否為實體表述;sa(i,j):片段j是否為i的先行詞:通過將虛先行詞的分數設為0,當模型預測任意非虛先行詞的分數為正時,則可以選出分數最高的先行詞預測;當模型預測所有非虛先行詞的分數都為負時,則輸出虛先行詞。5.4.2基于表述排序的指代消解--基于循環(huán)神經網絡的端到端的表述排序指代消解61圖5.16

E2E-COREF基于雙向LSTM的片段表示編碼5.4.2基于表述排序的指代消解--基于循環(huán)神經網絡的端到端的表述排序指代消解62圖5.17E2E-COREF的分數計算考慮到對所有片段組合計算的效率問題,E2E-COREF制定了以下策略:(1)只考慮詞數小于等于L的片段;(2)在計算得到每個片段的實體表述分數sm(i)后,只保留分數最高的γT個片段進行后續(xù)計算;(3)對于每個保留的片段,只考慮其最近的K個先行詞候選進行片段對的分數計算。5.4.3基于實體的指代消解63基于表述對和基于表述排序的兩種指代消解算法旨在將一個表述與其所指代的一個表述相對應,通常只關注局部的指代信息。基于實體的指代消解則認為將單個表述歸類至其指代的實體(通常對應一個表述的等價類)能利用實體級別的全局信息,因此能更好地實現指代消解任務?;趯嶓w的指代消解和基于表述的指代消解算法相似,區(qū)別在于基于表述的方法將當前表述分配到一個先行的表述,而基于實體的方法將當前表述分配到先行的實體(表述

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論