版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
組塊分析研究綜述摘要:組塊分析是一種新的句法分析思路和策略,側重于解決底層歧義問題。文章歸納分析了組塊分析的不同任務和研究方法,指出統(tǒng)計和規(guī)則方法相結合常常能取得更好的效果,但基本名詞短語,最長名詞短語等相對較大的語塊的識別效果仍然不能令人滿意。未來需要考慮如何將語言學特征融入統(tǒng)計機器學習,并且更好地將統(tǒng)計和規(guī)則方法結合起來。關鍵詞:組塊句法分析綜述一、引言句法分析是中文信息處理領域諸多應用技術的基礎,如機器翻譯、人機對話系統(tǒng)等。但傳統(tǒng)的完全句法分析技術在處理大規(guī)模真實語料時遇到了較大的困難,正確率徘徊在70%~80%左右。在今天詞法分析已經能夠基本達到應用要求的情況下,句法分析技術已經成為制約中文信息處理技術發(fā)展的瓶頸。20世紀90年代中后期,國內引進英語淺層句法分析的思想,展開了組塊識別與分析研究。由于底層句法歧義在很大程度上影響了句法分析的效果,淺層句法分析主張從識別句子中某些簡單的組塊開始,在充分化解底層歧義的基礎上,逐步完成句法分析的任務。它把一個句子的完整分析過程劃分為三個部分:組塊識別、組塊間依存關系的識別以及組塊內部的結構分析,并著力于組塊的識別和內部結構分析。組塊分析是句法分析技術的進步,特別適合于分析缺乏形態(tài)變化,底層歧義較多的漢語句子,成為漢語句法分析技術的重要發(fā)展趨勢。二、系統(tǒng)性的組塊分析研究組塊分析是自然語言處理一個新興的研究課題。它起源于上世紀80年代末90年代初國外關于組塊(chunk)的研究。組塊分析可以分為單一組塊分析和一般組塊分析。單一組塊主要研究基本名詞塊或基本名詞短語的識別分析問題。一般組塊擴展了研究范圍,研究多個(實)語塊的識別分析問題,可以稱為系統(tǒng)性的組塊分析。上世紀90年代中后期,國際上展開了對基本塊的全面識別研究。(一)英語組塊分析研究早期的系統(tǒng)性組塊分析主要采用基于規(guī)則的方法,包括基于簡單規(guī)則,基于轉換的錯誤驅動的方法和基于有限狀態(tài)機的方法,取得了一定的效果。Abney(1991)最先提出和界定了組塊概念,并從理論解釋和心理學實驗上證實了組塊是句法的基礎單位,具有心理現實性,并正式提出基于組塊的分析方法,構造了一個基于規(guī)則的分析系統(tǒng),先進行組塊識別和系聯分析,化解底層歧義,以進一步達到部分乃至完全句法分析的目的。組塊類型,采用增強的馬爾科夫模型與基于錯誤驅動的轉換的方法對漢語組塊進行了識別研究。周強(2001,2007a)通過引入詞匯關聯信息,為缺乏形式標記的漢語尋找內聚性判定標準,提出了基于拓撲結構的漢語基本塊的描述體系,確立了句法和關系標記集。其中,基本拓撲結構包括三種:左角中心結構、右角中心結構和鏈式關聯結構;句法標記集包括7種:NP,VP,AP,DP,MP,TP,SP。基本拓撲結構對基本塊中的多詞表達(MWC)內部依存關系進行分析,建立了句法關系和語義內容(詞匯關聯)的橋梁。在應用實踐上,張昱琪、周強(2002)應用基于實例的MBL學習方法,對漢語中較為常見的9種基本短語進行了識別研究。周強等(2007b)進一步研究了漢語功能塊的自動分析問題,界定了主語、謂語、賓語、狀語、兼語、補語、語氣、獨立語等8種功能塊類型,并提出了邊界識別模型和序列標注模型進行計算模擬。陳億、周強等(2008)進一步將功能塊推廣到多層級層面,統(tǒng)計表明,多層級的功能塊具有結構簡單、長度短且分布均勻的優(yōu)點,有利于提高分析器的性能。我們認為,復雜塊的多層次化是由句法遞歸特性決定的,在解決基本塊問題之后,多層次的塊分析機制是需要進一步考慮的問題。李素建(2002)定義了12種組塊類型,以線性方式覆蓋了語料中所有的切分單位,并采用最大熵模型、有限狀態(tài)自動機和基于錯誤轉換相結合的方法進行組塊分析,取得了良好效果,文章還進一步討論了組塊相似度計算的相關問題。組塊分析作為一種新的研究思路,受到學術界的廣泛關注。漢語作為一種缺乏形式標記的語言,其組塊界定的理論基礎仍然值得進一步研究;組塊分析中,統(tǒng)計方法占據了主流,但統(tǒng)計與規(guī)則相結合常常能夠取得更好的效果;基本塊的研究已經取得一定成果,在基本塊分析的基礎上,我們需要進一步研究如何處理多層次、大顆粒度的組塊。三、基本名詞短語識別與分析基本名詞短語是最復雜的組塊類型之一,是組塊中長度最長、識別精度最低的組塊,也是組塊分析的重點問題。在英語方面,基本名詞短語的識別與分析主要采用統(tǒng)計機器學習的方法,該方法將識別問題轉換為分類問題,為了進一步提高識別效果,研究者常常使用多個分類器,并將按照一定的方法將識別結果融合起來,稱為多分類器融合。多分類器融合的方法常常能夠提高識別效果,但是識別結果的可解釋性較差。TjongKimSang(2000a,2000b)分別采用了兩種不同的集成方法識別基本名詞短語。一種方法是MBL系統(tǒng)內集成,采用不同的標記集(IOB1,IOB2,IOE1,IOE2,O+C)構造基本分類器,另一種方法是系統(tǒng)間集成,采用MBL等7個分類器作為基本分類器,并測試了不同的融合策略。在標準測試集上F1值較前人研究分別取得了0.5%和0.6%左右的提高。TakuKudo(2001)以SVM作為分類器,采用分類器集成的方法識別基本名詞短語。基本分類器的構造采用了多種方式,如采用不同的標記集,不同的分析方向,以及不同的投票方式等。實驗對基本名詞短語進行了獨立評測,在標準測試集上較TjongKimSang(2000b)的工作提高了0.4%左右。在漢語方面,基本名詞短語的識別分析以統(tǒng)計方法和統(tǒng)計機器學習方法為主,同時嘗試了多種不同的基于規(guī)則和理解的方法。趙軍(1998)以漢語“區(qū)別性定語、描寫性定語和限定性定語”的定語語序為理論依據,將基本名詞短語定義為限定性定語和中心語的組合形式,提出baseNP句法組成模板與N元模型相結合的概率識別模型、基于轉換的識別模型和基于中心詞潛在依存關系的結構分析模型。該研究以語言距離為基礎界定組塊,符合認知上的規(guī)律,特別適合缺乏標記的漢語組塊界定。張瑞霞、張蕾(2004)提出了基于知識圖的漢語基本名詞短語分析模型,以《知網》為語義知識資源,采用以語義為主、語法為輔的策略,先為短語中的每一個實詞構造“詞圖”,然后合并“詞圖”為“短語圖”,從而得到一個關于結構和語義信息的知識圖,達到分析內部句法關系和語義關系的目的。這種方法可以看作是基于理解的方法。徐?P、宗成慶等(2007)在賓州樹庫上采用基于錯誤驅動的組合分?方法識別漢語基本名詞短語。通過對比兩種不同類型的分類器,基于轉換的方法和條件隨機場方法的分類結果,利用支持向量機學習其中的錯誤規(guī)律,對兩分類器產生的不同結果進行糾錯,從而達到提高系統(tǒng)整體性能的效果。文章還比較了條件隨機場和支持向量機的識別效果。結果顯示,兩種模型的效果相近,支持向量機稍勝出。我們認為,模型識別效果的差異受到多種因素的影響,與對象界定、參數設定都有關系。徐艷華(2008)根據語法功能完全相同即為一類的原則,對3514個高頻實詞進行語法功能考察,分為676類,建立了漢語詞類體系?;久~短語識別以該體系為依據,將實例中的詞語序列轉換成相應的類標記序列,并與句法規(guī)則庫對照確定序列內部的句法關系。通過考察10081個“v+n”序列實例,總結出2066條句法規(guī)則。在判斷該序列是否基本名詞短語實驗中,按照組合模式和實例數統(tǒng)計,準確率分別為70.7%和71.3%。該研究顯示了語言知識細化對于解決句法問題的作用??梢钥闯觯M管統(tǒng)計機器學習方法在基本名詞短語識別任務中占據了主流,但不乏理性主義的方法,兩者各有優(yōu)點。前者多能取得較好的效果。多分類器融合的方法能夠進一步提升識別效果,但提升幅度較為有限;后者的可解釋性更強,也有非常好的提升潛力,因為語言序列本質上是結構問題。四、最長名詞短語識別與分析最長名詞短語的相關研究包括最長名詞短語子集和鄰近集合的識別和嚴格的最長名詞短語的識別兩個部分。在英語方面,大多數研究屬于前者。Voutilainen(1993)的名詞短語獲取工具NPTool,采用基于限制的文法進行詞語的句法功能標注,消解詞語級歧義,并利用兩種有限狀態(tài)分析機制(NP-否定傾向機制和NP-肯定傾向機制)來發(fā)現文本中可能存在的最長名詞短語,最后使用正確表達式抽取最長名詞短語。NPTool識別的最長名詞短語包括了介詞和連詞,但不包括“that”引導的定語從句。臺灣的Kuang-huaChen(1994)等人將名詞短語分為最短名詞短語、最長名詞短語、一般名詞短語以及可應用名詞短語,并指出最短語名詞短語、可應用名詞短語與最長名詞短語之間具有相當的重疊率。文章利用統(tǒng)計分塊(chunking)和有限狀態(tài)分析相結合的方法來發(fā)現句子中的各類名詞短語,總體正確率達到95%,其中,最長名詞短語召回率達到70%。在?h語方面,大多數研究屬于后者。李文捷(1995)構造了兩個邊界概率矩陣:左邊界概率矩陣和右邊界概率矩陣,識別最長名詞短語的左右邊界,并基于最大長度匹配和最大概率配對的不同策略識別最長名詞短語,開放測試取得了71.3%正確率。實驗表明,不同的匹配方式對于識別的影響不大。周強、孫茂松等(2000)全面分析了最長名詞短語的分布特點,提出了兩種有效的漢語最長名詞短語自動識別算法:基于邊界分布概率的識別算法和基于內部結構組合的識別算法。后者在邊界預處理的基礎上,確立基本組合成分,發(fā)現最長名詞短語的右邊界,并向左迭代組合,形成新的最長名詞短語,取得了85.4%的正確率和82.3%的召回率。實驗表明,長度大于等于5的復雜最長名詞短語的識別精度比簡單最長名詞短語低16%個百分點。復雜最長名詞短語識別精度較低的原因還值得進一步考慮。從語法上說,由于句法關系較為復雜的“的”字短語參與了部分最長名詞短語的構成,也會使得識別難度增大,而這部分最長名詞短語的長度也是較大的。在周強、孫茂松等(2000)工作的基礎上,馮沖、陳肇雄等(2006)從機器翻譯的實用目的出發(fā),使用條件隨機場模型識別復雜最長名詞短語。模型選用了當前及左右三個位置的詞和詞性,及其組合形式作為特征,并提供了置信度用于人機交互。實驗從訓練語料中隨機選取了部分語料進行測試,取得了75.4%的正確率和70.6%的召回率;經過人工干預,系統(tǒng)能夠取得更好的效果。代翠(2009)使用條件隨機場模型以及針對開放測試語料的錯誤驅動的后繼規(guī)則修正辦法識別最長名詞短語。規(guī)則部分處理了漏識,固定搭配,簡單并列結構等5種情況。實驗基于哈工大漢語樹庫進行,隨機抽取6330個句子作訓練,1000個句子作測試,基于規(guī)則后繼修正的方法具有較明顯的效果。之后采用層疊條件隨機場模型對最長名詞短語進行分析,分析策略與Abney的有限狀態(tài)疊類似,只是每一層級上的短語由條件隨機場模型而非有限狀態(tài)自動機進行識別,實驗取得了85.1%的分析正確率。鑒萍、宗成慶(2009)認為最長短語,包括最長名詞短語和介詞短語,左部和右部具有不同的語言學特征,并且最長名詞短語右部特征更明顯。文章選擇支持向量機識別最長短語,認為基于支持向量機的標注模型作為確定性模型,能夠更好地利用最長名詞短語的右部特征,如:中心詞,“的”等,指導左部邊界的識別。實驗表明,最長名詞短語的反向掃描策略的識別效果明顯優(yōu)于正向掃描。文章還進一步利用雙向識別的互補性,提出基于分歧點的分類器集成方法,提高了識別效果。錢小飛(2015)分析了最長名詞短語的結構和線性特征,指出統(tǒng)計機器學習模型的觀察窗口有限,導致識別特征難以使用,并提出了一種基于歸約的最長名詞短語識別方法,該方法首先識別基本名詞短語,歸約為中心詞,并保留其起始句法特征,使得模型的觀察范圍大大拓展,將識別的F值提高了1%。綜上可見,統(tǒng)計機器學習方法仍然是基本名詞短語和最長名詞短語識別的主流方法。多分類器集成策略開始得到應用。一些研究注意到名詞短語的語言學特征,這些特征在規(guī)則方法中應用廣泛。但是,作為一種復雜短語的識別,如何將語言學特征融入統(tǒng)計機器學習,并且更好地將統(tǒng)計和規(guī)則方法結合起來,仍然值得進一步研究。五、結語組塊分析作為一種新的分析技術,著眼于簡單語塊的分析,在一定程度上緩解了底層歧義問題,有利于句法分析的發(fā)展。另一方面,組塊分析仍然沒有達到令人滿意的地步,特別是基本名詞短語,最長名詞短語等相對較大的語塊,識別精度仍然不夠。未來我們需要進一步考慮,哪些結構是適合進行組塊分析的,如何將語言學特征融入統(tǒng)計機器學習,并且更好地將統(tǒng)計和規(guī)則方法結合起來。參考文獻:[1]ChenKuang-hua,C.,&ChenHsin-hsi,C.Extractingnounphrasesfromlarge-scaletexts:ahybridapproachanditsautomaticevaluation[A].Proceedingsofthe32ndAnnualMeetingofAssociationofComputationalLinguistics,1994:234-241.[2]Ramshaw,L.,Marcus,F.Textchunkingusingtransformational-basedlearning[A].ProceedingsoftheThirdWorkshoponVeryLargeCorpora,1995.[3]StevenAbney.Parsingbychunks[A].Principle-BasedParsing:ComputationandPsycholinguistics,1991b:257-278.[4]Abney,S.PartialParsingviaFinite-StateCascades[A].ProceedingsoftheESSLLI'96RobustParsingWorkshop,1996.[5]Kudo,T.,&Matsumoto,Y.Chunkingwithsupportvectormachines[A].MeetingoftheNorthAmericanChapteroftheAssociationforComputationalLinguisticsonLanguageTechnologies,2001,(9):1-8.[6]TjongKimSang.Nounphraserecognitionbysystemcombination[A].ProceedingsoftheANLP-NAACL,2000a:50?C55.[7]TjongKimSang,EF.Applyingsystemcombination[A].tobasenounphraseidentification.ProceedingsofCOLING2000,2000b:857-863.[8]Voutilainen,A.NPTool:adetectorofEnglishnounphrases[A].ProceedingsoftheWorkshoponVeryLargeCorpora:AcademicandIndustrialPerspectives,1993:48-57.[9]陳億,周強.分層次的漢語功能塊描述庫構建分析[J].中文信息學報,2008,(3):24-31.[10]代翠.漢語最長名詞短語的自動識別與分析[D].沈陽:沈陽航空工業(yè)學院碩士學位論文,2009.[11]鑒萍,宗成慶.基于雙向標注融合的漢語最長短語識別方法[J].智能系統(tǒng)學報,2009,(5):406-41
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度綠化工程環(huán)境保護與節(jié)能減排合同范本4篇
- 2025版綠色建筑項目租賃與能源管理合同4篇
- 2025年度個人二手房交易安全協(xié)議范本4篇
- 個人間短期資金周轉合同書版
- 個人買賣合同范文(2024版)
- 二零二五年度風力發(fā)電機組安裝及運營維護協(xié)議3篇
- 2025年度個稅起征點調整下簽勞務合同稅務籌劃合作協(xié)議
- 二零二五年度素食餐飲品牌授權合作合同
- 二零二五版木材出口退稅代理服務合同7篇
- 2025年度酒店餐飲部承包經營及特色菜品開發(fā)合同
- 車站值班員(中級)鐵路職業(yè)技能鑒定考試題及答案
- 極簡統(tǒng)計學(中文版)
- JTG∕T E61-2014 公路路面技術狀況自動化檢測規(guī)程
- 高中英語短語大全(打印版)
- 2024年資格考試-對外漢語教師資格證筆試參考題庫含答案
- 軟件研發(fā)安全管理制度
- 三位數除以兩位數-豎式運算300題
- 寺院消防安全培訓課件
- 比摩阻-管徑-流量計算公式
- GB/T 42430-2023血液、尿液中乙醇、甲醇、正丙醇、丙酮、異丙醇和正丁醇檢驗
- 五年級數學應用題100道
評論
0/150
提交評論