版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第十章自然語言理解第一頁,共六十頁,編輯于2023年,星期一10.1自然語言理解概述
什么是語言和語言理解?自然語言理解與人類的哪些智能有關(guān)?自然語言理解的系統(tǒng)如何組成?等等。這些問題是我們開始研究自然語言理解時感興趣的。
10.1.1語言和語言理解
語言是用于傳遞信息的表示方法、約定和規(guī)則的集合,它由語句組成,每個語句又由單詞組成;組成語句和語言時,應(yīng)遵循一定的語法與語義規(guī)則。如果沒有各種口語和書面語,如英語、華語、法語和德語等,人類之間思想、感情和技術(shù)交流就難以想象。語言是隨著人類社會和人類自身的發(fā)展而不斷進化的。研究自然語言理解,必須對自然語言構(gòu)成有基本認(rèn)識。第二頁,共六十頁,編輯于2023年,星期一
語言是音義結(jié)合的詞匯和語法體系,是實現(xiàn)思維活動的物質(zhì)形式。語言是一個符號體系,但與其他符號體系又有所區(qū)別。
語言是以詞為基本單位的,詞匯又受到語法的支配才可構(gòu)成有意義的句子,句子按一定的形式再構(gòu)成篇章等。詞匯又可分為詞和熟語。熟語就是一些詞的固定組合,如漢語中的成語。詞又由詞素構(gòu)成,“教師”是由“教”和“師”這兩個詞素所構(gòu)成的。詞素是構(gòu)成詞的最小的有意義的單位?!敖獭边@個詞素本身有教育和指導(dǎo)的意義,“師”則包含了“人”的意義。第三頁,共六十頁,編輯于2023年,星期一
語法是語言的組織規(guī)律。語法規(guī)則制約著如何把詞素構(gòu)成詞,詞構(gòu)成詞組和句子。語言正是在這種嚴(yán)密的制約關(guān)系中構(gòu)成的。用詞素構(gòu)成詞的規(guī)則叫構(gòu)詞法,如教+師→教師。一個詞又有不同的詞形、單數(shù)、復(fù)數(shù)、陰性、陽性等等。這種構(gòu)造詞形的規(guī)則稱為構(gòu)形法,如教師+們→教師們。這里只是在原來的詞后面加上一個復(fù)數(shù)意義的詞素,所構(gòu)成的并不是一個新的詞,而是同一詞的復(fù)數(shù)形式。構(gòu)形法和構(gòu)詞法稱為詞法。
第四頁,共六十頁,編輯于2023年,星期一語法中的另一部分就是句法。句法也可分成兩部分:詞組構(gòu)造法和造句法。詞組構(gòu)造法是詞搭配成詞組的規(guī)則,如紅+鉛筆→紅鉛筆。這里“紅”是一個修飾鉛筆的形容詞,它與名詞“鉛筆”組合成了一個新的名詞。造句法則是用詞或詞組造句的規(guī)則,“我是計算機科學(xué)系的學(xué)生”,這是按照漢語造句法構(gòu)造的句子。下圖就是上述語法構(gòu)造的一個完整的圖解。另一方面,語言是音義結(jié)合的,每個詞匯有其語音形式。一個詞的發(fā)音由一個或多個音節(jié)組合而成,音節(jié)又由音素構(gòu)成,音素分為元音音素和輔音音素。音素是指一個發(fā)音動作所構(gòu)成的最小的語音單位。第五頁,共六十頁,編輯于2023年,星期一
語言
詞匯語法
詞熟語詞法句法詞素構(gòu)詞法詞組構(gòu)造法造句法構(gòu)形法語言的構(gòu)成圖第六頁,共六十頁,編輯于2023年,星期一
從微觀上講,語言理解是指從自然語言到計算機系統(tǒng)內(nèi)部之間的一種映射。從宏觀上看,語言理解是指機器能夠執(zhí)行人類所期望的某些語言功能。這些功能包括:
(1)回答有關(guān)提問;
(2)提取材料摘要;
(3)文本釋義;
(4)不同語言翻譯。自然語言理解是語言學(xué)、邏輯學(xué)、生理學(xué)、心理學(xué)、計算機科學(xué)和數(shù)學(xué)等相關(guān)學(xué)科發(fā)展和結(jié)合而形成的一門交叉學(xué)科;它能夠理解口頭語言或書面語言。語言交流實際上是一種基于知識的通信。
第七頁,共六十頁,編輯于2023年,星期一
對自然語言的理解是一個十分艱難的任務(wù),即使建立一個只能理解片言斷語的計算機系統(tǒng),也是很不容易的。這中間有大量的極為復(fù)雜的編碼和解碼問題。一個能夠理解自然語言的計算機系統(tǒng)就像一個人那樣需要上下文知識以及根據(jù)這些知識和信息進行推理的過程。自然語言不僅有語義、語法和語音問題,而且還存在模糊性等問題。具體地說,自然語言理解的困難是由下列3個因素引起的:
(1)目標(biāo)表示的復(fù)雜性;
(2)映射類型的多樣性;
(3)源表達中各元素間交互程度的差異性。
第八頁,共六十頁,編輯于2023年,星期一第九頁,共六十頁,編輯于2023年,星期一第十頁,共六十頁,編輯于2023年,星期一第十一頁,共六十頁,編輯于2023年,星期一第十二頁,共六十頁,編輯于2023年,星期一10.1.4自然語言理解研究的進展
機器翻譯是自然語言理解最早的研究領(lǐng)域。
70年代初期,語言理解對話系統(tǒng)的研究取得進展。伍茲的LUNAR系統(tǒng)、威諾甘德的SHRDLU系統(tǒng)和香農(nóng)的MARGIE系統(tǒng)等是語言理解對話系統(tǒng)的典型實例。新型的智能計算機要求設(shè)計出更為友好的人機界面,使自然語言、文字、圖象和聲音等信號能直接輸入計算機??谡Z理解研究促進人機對話系統(tǒng)走向?qū)嵱没?。自然語言是表示知識最為直接的方法。因此,自然語言理解的研究也為專家系統(tǒng)的知識獲取提供了新的途徑。此外,自然語言理解的研究已促進計算機輔助語言教學(xué)(CALI)和計算機語言設(shè)計(CLD)等的發(fā)展。第十三頁,共六十頁,編輯于2023年,星期一10.1.5自然語言理解過程的層次
語言雖然表示成一連串的文字符號或者一串聲音流,但其內(nèi)部事實上是一個層次化的結(jié)構(gòu),從語言的構(gòu)成中就可以清楚的看到這種層次性。一個文字表達的句子是由詞素→詞或詞形→詞組或句子,而用聲音表達的句子則是由音素→音節(jié)→音詞→音句,其中每個層次都是受到語法規(guī)則的制約。因此,語言的分析和理解過程也應(yīng)當(dāng)是一個層次化的過程。許多現(xiàn)代語言學(xué)家把這一過程分為5個層次:語音分析、詞法分析、句法分析和語義分析和語用分析。雖然這種層次之間并非是完全隔離的,但是這種層次化的劃分的確有助于更好地體現(xiàn)語言本身的構(gòu)成。第十四頁,共六十頁,編輯于2023年,星期一
1、語音分析在有聲語言中,最小可獨立的聲音單元是音素,音素是一個或一組音,它可與其他音素相區(qū)別。語音分析則是根據(jù)音位規(guī)則,從語音流中區(qū)分出一個個獨立的音素,再根據(jù)音位形態(tài)規(guī)則找出一個個音節(jié)及其對應(yīng)的詞素或詞。
2、詞法分析
其主要目的是找出詞匯的各個詞素。如unchangeable是由un-change-able構(gòu)成的。在英語語言中,找出句子中的詞匯是一件很容易的事,因為詞與詞之間是由空格來分隔的。但要找出各個詞素就復(fù)雜得多,如importable,它可以是im-port-able或improt-able。而在漢語中要找出一個個詞素則是很容易的,每個字就是一個詞素。但要切分出各個詞就遠不是那么容易。如“我們研究所有東西”,可以是“我們—研究所—有—東西”也可以是“我們—研究—所有—東西”。第十五頁,共六十頁,編輯于2023年,星期一
3、句法分析
是對句子和短語的結(jié)構(gòu)進行分析。自動句法分析的方法很多,有短語結(jié)構(gòu)語法、格語法、擴充轉(zhuǎn)移網(wǎng)絡(luò)、功能語法等等。句法分析的目的就是找出詞、短語等的相互關(guān)系以及各自在句子中的作用等,并以一種層次結(jié)構(gòu)來加以表達。這種層次結(jié)構(gòu)可為反映從屬關(guān)系,直接成分關(guān)系,也可是語法功能關(guān)系。
4、語義分析
通過分析找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定語言所表達的真正含義或概念。在語言自動理解中,語義愈來愈成為一個重要的研究內(nèi)容。
5、語用分析
研究所在外界環(huán)境對語言使用所產(chǎn)生的影響。描述了語言的環(huán)境知識、語言與語言使用者在某個給定語言環(huán)境中的關(guān)系。第十六頁,共六十頁,編輯于2023年,星期一
詞法分析的主要目的是從句子中切分出單詞,找出詞匯的各個詞素,從中獲得單詞的語言學(xué)信息并確定單詞的詞義。不同的語言對詞法分析有不同的要求,例如英語和漢語就有較大的差別。漢語中每個字就是一個詞素,找出各個詞素相當(dāng)容易,但要切分出各個詞就非常困難。在英語中單詞之間用空格自然分開,很容易找出句子的每個詞匯,但英語單詞有詞性、數(shù)、時態(tài)、派生、變形等,要找出各個詞素就復(fù)雜得多。例如program可變化出programming,programmable,programmed,programs和programmer等。如果把某些詞素的派生、變形、數(shù)、時態(tài)等變化都收入詞典將是非常龐大,但它們的詞根只有一個。支持詞素分析,可以極大地壓縮自然語言理解系統(tǒng)中電子詞典的規(guī)模。第十七頁,共六十頁,編輯于2023年,星期一第十八頁,共六十頁,編輯于2023年,星期一
10.3
句法分析
句法分析目的就是找出詞、短語等的相互關(guān)系以及各自在句子中的作用,并以一種層次結(jié)構(gòu)來加以表達。下面介紹基于規(guī)則的句法分析方法:
第十九頁,共六十頁,編輯于2023年,星期一
一部短語結(jié)構(gòu)語法定義的語言L(G)就是從起始符S推導(dǎo)出終結(jié)符號串W的集合,是由一系列產(chǎn)生式規(guī)則組成的。下面給出一個簡單的短語結(jié)構(gòu)語法。
例10.1
G=(T,N,S,P)
T={the,man,killed,a,deer,likes}N={S,NP,VP,N,ART,V,Prep,PP}S=SP:(1)S→NP+VP(2)NP→N(3)NP→ART+N(4)VP→V(5)VP→V+NP(6)ART→the|a(7)N→man|deer(8)V→killed|likes第二十頁,共六十頁,編輯于2023年,星期一10.3.3句法模式匹配和轉(zhuǎn)移網(wǎng)絡(luò)
句法分析最為簡單、直觀的方法也許就是模式匹配。句法模式匹配就是采用句法模式來對語言的句子進行匹配從而進行的句法分析。例如:bearslovehoney可用句法模式noun+verb+noun來匹配;句子的主語有許多模式noun,adj.+noun,adj.+adj.+noun,adj.+adj.+adj+noun,…,對此可采用形式化的表達方式(adj.*noun),其中*表示可有可無且可重復(fù)出現(xiàn)。一個句子可以表示成:(pronoun∨(adj.*noun))verb(pronoun∨(adj.*noun))第二十一頁,共六十頁,編輯于2023年,星期一轉(zhuǎn)移網(wǎng)絡(luò)(TN)q0nounpron.q2q1adjq3qTverbverbpron.nounq4q5adj但是自然語言是非常多樣化的,因而需要有許多模式。這些模式可用狀態(tài)轉(zhuǎn)移圖來表示,這種用狀態(tài)轉(zhuǎn)移圖來表示的表達方式稱之為轉(zhuǎn)移網(wǎng)絡(luò)(TN,transitionnetwork)。如下圖所示,圖中,q0,q1,…,qT是狀態(tài),q0是初態(tài),qT是終態(tài)?;∩辖o出了狀態(tài)轉(zhuǎn)移的條件以及轉(zhuǎn)移的方向。該網(wǎng)絡(luò)可用于分析句子也可用于生成句子。第二十二頁,共六十頁,編輯于2023年,星期一用TN來識別句子Thelittleorangeducksswallowflies的過程如表10.1。(這里忽略了詞法分析,網(wǎng)絡(luò)如圖所示)表10.1句子識別過程
第二十三頁,共六十頁,編輯于2023年,星期一識別過程到達f狀態(tài)(終態(tài)),所以該句子被成功地識別了。分析結(jié)果如下圖所示。從上述過程中可以看出,這個句子還可以在網(wǎng)絡(luò)中走其他弧,如詞ducks也可以走弧,但接下來的swallow就找不到合適的弧了。此時對應(yīng)于這個路徑,該句子就被拒識了。由此看出,網(wǎng)絡(luò)識別的過程中應(yīng)找出各種可能的路徑,因此算法要采用并行或回溯機制。轉(zhuǎn)移網(wǎng)絡(luò)實例圖第二十四頁,共六十頁,編輯于2023年,星期一
1.并行算法
并行算法的關(guān)鍵是在任何一個狀態(tài)都要選擇所有可以到達下一個狀態(tài)的弧,同時進行試驗。
2.回溯算法
回溯算法則是在所有可以通過的弧中選出一條往下走,并保留其他的可能性,以便必要時可回過來選擇之。這種方式需要一個堆棧結(jié)構(gòu)。轉(zhuǎn)移網(wǎng)絡(luò)實例圖第二十五頁,共六十頁,編輯于2023年,星期一10.3.4擴充轉(zhuǎn)移網(wǎng)絡(luò)
擴充轉(zhuǎn)移網(wǎng)絡(luò)ATN是由伍茲(Woods)在1970年提出的,之后卡普蘭(Kaplan)等人對其作了一些改進。ATN是由一組網(wǎng)絡(luò)所構(gòu)成的,每個網(wǎng)絡(luò)都有一個網(wǎng)絡(luò)名,每條弧上的條件擴展為條件加上操作。這種條件和操作采用寄存器的方法來實現(xiàn),在分析樹的各個成分結(jié)構(gòu)上都放上寄存器,用來存放句法功能和句法特征,條件和操作將對它們不斷地進行訪問和設(shè)置。ATN弧上的標(biāo)記也可以是其他網(wǎng)絡(luò)的標(biāo)記名,因此ATN是一種遞歸網(wǎng)絡(luò)(任何一個網(wǎng)絡(luò)都可以調(diào)用包括它自己在內(nèi)的任何其他網(wǎng)絡(luò))。在ATN中還有一種空弧jump,它不對應(yīng)一個句法成分也不對應(yīng)一個輸入詞匯。第二十六頁,共六十頁,編輯于2023年,星期一
ATN的每個寄存器由兩部分構(gòu)成:句法特征寄存器和句法功能寄存器。在特征寄存器中,每一維特征都有一個特征名和一組特征值,以及一個缺省值來表示。如“數(shù)”的特征維可有兩個特征值“單數(shù)”和“復(fù)數(shù)”,缺省值可以是空值。英語中動詞的形式可以用一維特征來表示:Form:present,past,present-participle,past-participle.Default:present.功能寄存器則反映了句法成分之間的關(guān)系和功能。分析樹的每個節(jié)點都有一個寄存器,寄存器的上半部分是特征寄存器,下半部分是功能寄存器。圖10.5所示是一個簡單的名詞短語(NP)的擴充轉(zhuǎn)移網(wǎng)絡(luò),網(wǎng)絡(luò)中弧上的條件和操作如下:第二十七頁,共六十頁,編輯于2023年,星期一NP-1:fg
A:Number*.NumberNP-4:ghC:Number=*.NumberorφA:Number*.NumberNP-5:fhA:Number*.NumberNP-6:fh
A:Number=*.Number
ghfNP7:pp8:send3:adj4:noun2:jump1:det5:pron.6:prop.名詞短語(NP)的擴充轉(zhuǎn)移網(wǎng)絡(luò)第二十八頁,共六十頁,編輯于2023年,星期一
該網(wǎng)絡(luò)主要是用來檢查NP中的數(shù)的一致值問題。其中用到的特征是Number(數(shù)),它有兩個值Singular(單數(shù))和plural(復(fù)數(shù)),缺省值是φ(空)。C是弧上的條件,A是弧上的操作,*是當(dāng)前詞,proper是專用名詞,Det是限定詞,PP是介詞短語,*.Number當(dāng)前詞的“數(shù)”。該擴充轉(zhuǎn)移網(wǎng)絡(luò)有一個網(wǎng)絡(luò)名NP?;P-1將當(dāng)前詞的Number放入當(dāng)前NP的Number中,而弧NP-4則要求當(dāng)前noun的Number與NP的Number是相同時,或者NP的Number為空時,將noun作為NP的Number,這就要求det的數(shù)和noun的數(shù)是一致的。因此,thisbook,thebook,thebooks,thesebooks都可順利通過這一網(wǎng)絡(luò),但是thisbooks,或thesebook就無法通過。如果當(dāng)前NP是一個代詞(Pron.)或者專用名詞(Proper),則網(wǎng)絡(luò)就從NP-5或NP-6通過,這時NP的數(shù)就是代詞或?qū)S妹~的數(shù)。PP是修飾前面名詞的介詞短語,一旦到達PP弧就馬上轉(zhuǎn)入子網(wǎng)絡(luò)PP。第二十九頁,共六十頁,編輯于2023年,星期一
S網(wǎng)絡(luò)中所涉及的功能名和特征維包括:
功能名:Subject(主語),DirectObj(直接賓語),Main-Verb(謂語動詞),Auxs(助動詞),Modifiers(修飾語)。
Voice(語態(tài))特征維:Active(主動態(tài)),Passive(被動態(tài)),缺省值是Actire;
Type(動詞類型):Be,Do,Have,Modal,Non-Aux,缺省值是Non-Aux;
Form(動詞式):Inf(不定式),Present(現(xiàn)在式),Past(過去式),pres-part(現(xiàn)在分詞),Past-Part(過去分詞),缺省值是Present
下圖是一個句子的ATN,主要用來識別主、被動態(tài)的句子,從中可以看到功能寄存器的應(yīng)用第三十頁,共六十頁,編輯于2023年,星期一網(wǎng)絡(luò)描述如下:S-1:ab
A:Subject*.S-2:bc
A:Main-Verb*.S-3:cc(判斷謂詞動詞類型)
C:Main-Verb.Type=Be,Do,HaveorModal
A:Auxs<=Main-Verb,Main-Verb*.S-4:cd
C:*.Form=Past-partandMain-Verb.Type=Be
A:Voice←Passive,Auxs<=Main-Verb,
Main-Verb←*.,*.Direct-Obj←Subject,
Subject←dummy-NP(形式主語,可能暫時為空節(jié)點)第三十一頁,共六十頁,編輯于2023年,星期一S-5:cd
A:Direct-Obj*.S-6:dd
A:Modifiers<=*.S-7:dd
C:Voice=PassiveandSubject=dummy-NPand*.Prep=“by”A:Subject*.Prep-ObjectS-8:dNoConditions,actionsorinitializations.
S-8是賦值操作
Subject*即把當(dāng)前成分放入名為Subject的功能寄存器。<=是一種添加操作,Auxs<=Main-Verb就是將當(dāng)前的謂語動詞添加到Auxs功能寄存器中(原來Auxs可能已有內(nèi)容)。第三十二頁,共六十頁,編輯于2023年,星期一
S網(wǎng)絡(luò)中,當(dāng)弧S-2遇到第一個動詞時,就把它置入Main-Verb,但是在接下來的弧S-3中發(fā)現(xiàn)Main-Verb中剛才被置入的是助動詞,網(wǎng)絡(luò)操作就把Main-Verb中的內(nèi)容添加到Auxs寄存器的尾部。若Auxs是空時,添加操作與賦值是相同的,但是當(dāng)Auxs非空時(有幾個助動詞)這是一個添加操作。另外,網(wǎng)絡(luò)中有一種dummy節(jié)點,這是一種空節(jié)點,用來表示一種形式上的或者預(yù)示的成分,如形式上的主語等?;-4和S-7就是對于被動態(tài)句子的分析和處理。弧S-4主要是識別被動態(tài)的謂語動詞,一旦確認(rèn)是被動態(tài),則將當(dāng)前的主語作為直接賓語,弧S-7是處理被動態(tài)句子中by所引導(dǎo)的介詞短語,該介詞的賓語就是實際上的主語。第三十三頁,共六十頁,編輯于2023年,星期一
一完整的ATN是相當(dāng)復(fù)雜的,在實現(xiàn)過程中還必須解決許多問題,如非確定性分析、弧的順序、等等。ATN方法在自然語言理解的研究中得到了廣泛的應(yīng)用。10.3.5詞匯功能語法(LFG)
詞匯功能語法是由卡普蘭和布魯斯南在1982年提出的,它是一種功能語法,但是更加強調(diào)詞匯的作用。LFG用一種結(jié)構(gòu)來表達特征、功能、詞匯和成分的順序。ATN語法和轉(zhuǎn)換語法都是有方向性的,ATN語法的條件和操作要求語法的使用是有方向的,因為寄存器只有在被設(shè)置過之后才可被訪問。LFG的一個重要工作就是通過互不矛盾的多層描述來消除這種有序性限制。
第三十四頁,共六十頁,編輯于2023年,星期一
LFG對句子的描述分為兩部分:直接成分結(jié)構(gòu)(Constituentstructure)和功能結(jié)構(gòu)(Functionalstructure)。C-structure是由上下文無關(guān)語法產(chǎn)生的表層分析結(jié)果,結(jié)點采用名詞短語標(biāo)記來標(biāo)注。通過附加到語法規(guī)則和詞條定義上的功能方程式經(jīng)過一系列代數(shù)變換產(chǎn)生F-structure。
LFG采用兩種規(guī)則:加入下標(biāo)的上下文無關(guān)的語法規(guī)則和詞條信息。下表給出了一些詞匯功能語法的規(guī)則和詞條信息。
其中↑表示規(guī)則左側(cè)的那個結(jié)點,如規(guī)則中NP的↑就是S,VP的↑也是S;↓則表示當(dāng)前結(jié)點結(jié)點本身。因此,(↑Subject)=↓就表示S的主語是當(dāng)前NP。方程式↑=↓說明VP的全部屬性都應(yīng)轉(zhuǎn)移給支配它的S結(jié)點?!埃迹尽敝斜磉_的是句法模式,Hand=<(↑Subject),(↑Object),(↑Object-2)>,表示謂語動詞hand要有一個主語、一個直接賓語和一個間接賓語。例如,對于句子:Agirlhandedthebabythetoys.
第三十五頁,共六十頁,編輯于2023年,星期一LFG語法規(guī)則與詞條語法規(guī)則第三十六頁,共六十頁,編輯于2023年,星期一首先利用句法規(guī)則可以推導(dǎo)出它的C-structure直接成分結(jié)構(gòu)如下圖所示:句法樹中帶標(biāo)號的非葉結(jié)點,用具體的變量xi替代,并建立功能描述方程。方程的建立只要將語法規(guī)則和詞條規(guī)則中的↑用父節(jié)點變量來替代,↓用當(dāng)前節(jié)點變量來代替即可。第三十七頁,共六十頁,編輯于2023年,星期一規(guī)則S→NPVP的下標(biāo)有兩組方程:一個是(↑Subject)=↓,替換得到(x1Subject)=x2;另一個是↑=↓,即x1=x3。在詞匯規(guī)則中,詞a對應(yīng)了兩條規(guī)則
(↑Definiteness)=Indefinite,(↑Number)=Singular,詞a的父節(jié)點是NP,即x2,所以得到方程式
(x2Definiteness)=Indefinite,(x2Number)=Singular其他功能描述方程如下表所示:第三十八頁,共六十頁,編輯于2023年,星期一上述方程式通過合并和變量替代求得這個方程組的解,獲得的解即句子的功能結(jié)構(gòu)(F-structure),如下圖所示。第三十九頁,共六十頁,編輯于2023年,星期一上述過程如果能夠得到一組以上解,則句子就是可識別的,并獲得一個以上分析結(jié)果。分析獲得多個解則說明原句子中存在著歧義現(xiàn)象,無解則說明無法識別。
LFG同樣也可以用于句子的生成。分析和生成的區(qū)別僅在于第一步,分析是由句子到C-structure,而生成則是由上下文無關(guān)語法直接產(chǎn)生C-structure和句子。同樣如果通過求解最終可有一個以上的解,則該句子就是正確的。第四十頁,共六十頁,編輯于2023年,星期一句子一般有簡單句和復(fù)合句之分。簡單句的理解比復(fù)合句要容易,又是理解復(fù)合句的基礎(chǔ)。因此,我們首先討論簡單句的理解,然后討論復(fù)合句的理解。10.5.1
簡單句的理解方法
由于簡單句是可以獨立存在,因而為了理解一個簡單句,即建立起一個和該簡單句相對應(yīng)的機內(nèi)表達,需要做以下兩方面的工作:
(1)理解語句中的每一個詞。
(2)用這些詞組成一個可表達整個語句意義的結(jié)構(gòu)。
第一項工作看起來很容易,似乎只是查一下字典就可以解決。而實際上由于許多單詞有不止一種含義,因而只由單詞本身往往不能確定其在句中的確切含義,需要通過語法分析和上下關(guān)系等才能最終確定。10.5
句子的自動理解第四十一頁,共六十頁,編輯于2023年,星期一例如,單詞diamond有“菱形”、“棒球場”和“鉆石”三種意思,在語句“JohnsawSusan′sdiamondshimmeringfromacrosstheroom.”中,由于“shimmering”的出現(xiàn),則顯然“diamond”是“鉆石”的含義,因為“菱形”和“棒球場”都不會閃光。再如在語句“I′llmeetyouatthediamond.”中,由于“at”后面需要一個時間或地點作為它的賓語,因而顯然這里的“diamond”是“棒球場”的含義,而不能是其它含義。
第二項也是一個比較困維的工作。因為要聯(lián)合單詞來構(gòu)成表示一個句子意義的結(jié)構(gòu),需要依賴各種信息源,其中包括所用語言的知識、語句所涉及領(lǐng)域的知識以及有關(guān)該語言使用者應(yīng)共同遵守的習(xí)慣用法的知識。第四十二頁,共六十頁,編輯于2023年,星期一由于這個解釋過程涉及到許多事情,因而常常將這項工作分成以下3個部分來進行:
句法分析
將單詞之間的線性次序變換成一個顯示單詞如何與其它單詞相關(guān)聯(lián)的結(jié)構(gòu)。
語義分析
各種意義被賦于由句法分析程序所建立的結(jié)構(gòu),即在句法結(jié)構(gòu)和任務(wù)領(lǐng)域內(nèi)對象之間進行映射變換。
語用分析
為確定真正含義,研究語言所在的外界環(huán)境對語言使用所產(chǎn)生的影響。實際上這3個階段之間是相互關(guān)聯(lián)的,總是以各種方法相互影響著。盡管在某種程度上把它們分開是有效的,但絕對分開是不可能的。第四十三頁,共六十頁,編輯于2023年,星期一
1.關(guān)鍵字匹配法最簡單的自然語言理解方法,也許要算是關(guān)鍵字匹配法了,它在一些特定場合下是有效的。其方法簡單歸納起來是這樣的:在程序中規(guī)定匹配和動作兩種類型的樣本。然后建立一種由匹配樣本到動作樣本的映射。當(dāng)輸入語句與匹配樣本相匹配時,就去執(zhí)行相應(yīng)樣本所規(guī)定的動作,這樣從外表看來似乎機器真正實現(xiàn)了能理解用戶問話的目的。例如在一個列車運行數(shù)據(jù)庫系統(tǒng)中,規(guī)定了以下幾個匹配樣本:第四十四頁,共六十頁,編輯于2023年,星期一
(a)從<處所>到<處所>有<車種>嗎?
(b)從<處所>到<處所>有<?數(shù)量><車種>?
(c)從<處所>到<處所>有<?指數(shù)量><車種>?
(d)<車次>在<處所>停嗎?
(e)<車次>經(jīng)過<處所>嗎?
(f)<車次>有<車組>嗎?
(g)到<處所>的<車種>都有<車組>嗎?
(h)<車次><?原因>沒有<車組>?
(i)<車次><?原因>有<車組>?
(j)<車次><?時刻>從<處所>開出?
(k)<車次><?時刻>到達<處所>?
(l)從<處所>到<處所><?指數(shù)量><車次>最快?第四十五頁,共六十頁,編輯于2023年,星期一其中,<…>可與任何具有規(guī)定特性的單詞匹配,如<處所>可以和“北京”、“上海”等表示地點的單詞匹配;<車種>可以和“特快”、“直快”等匹配;<?數(shù)量>可與“幾趟”等匹配;<?指數(shù)量>可與“哪幾趟”等匹配;<車組>可與“餐車”、“臥鋪”等匹配,<?原因>可與“為什么”、“怎么”等匹配;<?時刻>可與“什么時候”、“幾點”等匹配。如果你輸入:“從北京到上海有特快嗎?”該語句剛好與第一個匹配樣本相匹配,從而系統(tǒng)也就“理解”了你的問話,并去檢索數(shù)據(jù)庫,查看從北京到上海是否有特快,然后給出回答。這種關(guān)鍵字匹配的方法,在類似的數(shù)據(jù)庫咨詢系統(tǒng)中作為自然語言接口,顯得特別有效。第四十六頁,共六十頁,編輯于2023年,星期一
2.句法分析樹法關(guān)鍵字匹配法雖然簡單,但卻忽略了語句中的大量信息,為確保語句含義的細節(jié)不被忽略,必須確定其語句結(jié)構(gòu)上的細節(jié),這就是要進行文法分析。為此,必須首先給出說明該特定語言中符號串結(jié)構(gòu)的文法,以便為每個符合文法規(guī)則的語句產(chǎn)生一個稱為文法分析樹的結(jié)構(gòu)。關(guān)于文法的形式,在許多自然語言處理程序中提出過很多各不相同的定義,下面我們給出一種文法的形式化定義。文法G在其形式上為如下的四元組:G=(V,T,P,S)其中,V為有窮非空集,稱作總詞匯表;T為V的一個非空子集,稱作終結(jié)字母表,而N=V-T稱作非終結(jié)字母表(不能出現(xiàn)在最終生成的句子中,是專門用于描述的語法);P為如下形式的有窮產(chǎn)生式規(guī)則集:α→β;S是起始符
第四十七頁,共六十頁,編輯于2023年,星期一式中,α∈V*NV*,β∈V*,*表示它前面的字符可以重復(fù)出現(xiàn)任意次;S為非終結(jié)字母表的一個元素,稱為起始符。下面給出的是一個英語子集的簡單文法:
S
NPVP(a)
NP
DetN(b)
VP
VNP(c)
VP
VPP(d)
PP
PrepNP(e)
Det
the|a(f)
N
Joe|girl|letter|pencil|boy|dog(g)
V
hit|write|kick(h)
Prep
with|at(i)
ADJS∈|ADJ|ADJS(j)
ADJ
little|big(k)
NP1
ADJSN(l)其中,大寫為非終結(jié)符,而小寫的是終結(jié)符,∈表示空字符串第四十八頁,共六十頁,編輯于2023年,星期一下圖是對語句“Joehittheball.”進行句法分析而建立的文法分析樹。第四十九頁,共六十頁,編輯于2023年,星期一使用給定文法,對輸入語句進行分析找到一個文法分析樹的過程,可以看成是一個搜索過程。為實現(xiàn)該過程,可以使用自頂向下的處理方法,這和正向推理有些相象:首先搜索對象從起始符S開始,然后應(yīng)用P中的規(guī)則,用規(guī)則的右邊部分替換搜索對象,然后同被分析句子中的單詞進行匹配比較,如果匹配,則從搜索對象和輸入句子的遺留部分繼續(xù)進行搜索,一層一層地向下產(chǎn)生樹的各個分支,直到一個完整的句子結(jié)構(gòu)被生成出來為止。如果該結(jié)構(gòu)與輸入語句相匹配,則成功結(jié)束;否則,如果還沒有分析到句子末尾,而搜索對象已經(jīng)為空,這時就需要回溯,重新選擇適用規(guī)則,生成其它的句子結(jié)構(gòu),直到結(jié)束為止。
例:下面采用自頂向下回溯算法對句子“thegirlwritestheletterwithapencil”進行分析。第五十頁,共六十頁,編輯于2023年,星期一搜索步驟搜索對象規(guī)則輸入句子中遺留部分(1)S
(a)
thegirlwritestheletterwithapencil(2)NPVP(b)thegirlwritestheletterwithapencil(3)DetNVP(f)thegirlwritestheletterwithapencil(4)theNVP刪除thegirlwritestheletterwithapencil(5)NVP(g)girlwritestheletterwithapencil(6)girlVP刪除girlwritestheletterwithapencil(7)VP(c)writestheletterwithapencil(8)VNP(h)writestheletterwithapencil(9)writesNP刪除writestheletterwithapencil(10)NP(b)theletterwithapencil(11)DetN(f)theletterwithapencil(12)theN刪除theletterwithapencil(13)N(g)letterwithapencil(14)letter刪除letterwithapencil(15)withapencil這時,句子中還有遺留部分,但搜索對象中卻已變空,分析過程已無法繼續(xù),只得回溯?;厮莸降冢?)步,看看是否還能利用別的規(guī)則進行分析。第五十一頁,共六十頁,編輯于2023年,星期一(7’)VP(d)writestheletterwithapencil(16)VPP(c)writestheletterwithapencil(17)VNPPP
(h)writestheletterwithapencil(18)writesNPPP刪除writestheletterwithapencil(19)NPPP(b)theletterwithapencil(20)DetNPP(f)theletterwithapencil(21)theNPP刪除theletterwithapencil(22)NPP(g)letterwithapencil(23)letterPP刪除letterwithapencil(24)PP(e)withapencil(25)PrepNP(i)withapencil(26)withNP刪除withapencil(27)NP(b)apencil(28)DetN(f)apencil(29)aN刪除apencil(30)N(g)pencil(31)pencil刪除pencil(32)NILNIL第五十二頁,共六十頁,編輯于2023年,星期一在應(yīng)用規(guī)則f、g、h、I、k對搜索對象進行替換時,由于規(guī)則的右邊有多個單詞可供選擇,這時,可根據(jù)句子遺留部分的第一個單詞確定。也可以使用自底向上的處理方法,這和逆向推理有些相似:以輸入語句的句首詞為基礎(chǔ),首先從P中查找合適的規(guī)則逐級向上歸約(產(chǎn)生式倒過來用),試圖把這些詞歸并成較大的結(jié)構(gòu)成分,如短語或子句等,然后再對這些成分進行進一步的組合,反向生成文法分析樹,直到樹的根節(jié)點是起始符S為止。本算法實際上分移進、歸約兩個步驟。在移進-歸約過程中信息以“棧”的形式存放,主要的操作有移進、歸約、拒絕、接受。棧中存放著分析過程的有關(guān)“歷史”信息,分析時根據(jù)這些歷史信息和當(dāng)前正在處理的符號串來決定是移進還是歸約。第五十三頁,共六十頁,編輯于2023年,星期一
所謂移進,就是把一個尚未處理過的單詞符號移入棧頂,并等待更多的信息到來之后再做決定;所謂歸約,就是對棧頂?shù)哪切┡c某一語法規(guī)則右邊相匹配的符號,用該語法規(guī)則左邊的符號來取代。用這兩種操作對棧中符號和輸入符號串進行處理,直到輸入串處理完畢且棧中只剩初始符S時,就認(rèn)為輸入符號串被接受。例:采用移進-歸約算法對句子“theboykicksthedog”進行自底向上的分析的過程如下:第五十四頁,共六十頁,編輯于2023年,星期一步驟棧操作輸入句子中遺留部分(1)theboykicksthedog(2)the移進boykicksthedog(3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨沂職業(yè)學(xué)院《篆刻2》2023-2024學(xué)年第一學(xué)期期末試卷
- 江西應(yīng)用工程職業(yè)學(xué)院《建筑設(shè)備自動化系統(tǒng)》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖北開放職業(yè)學(xué)院《城市設(shè)計B》2023-2024學(xué)年第一學(xué)期期末試卷
- 遵義職業(yè)技術(shù)學(xué)院《中國古代文學(xué)5》2023-2024學(xué)年第一學(xué)期期末試卷
- 株洲師范高等??茖W(xué)校《非遺影像策劃與制作》2023-2024學(xué)年第一學(xué)期期末試卷
- 重慶青年職業(yè)技術(shù)學(xué)院《數(shù)據(jù)結(jié)構(gòu)及算法》2023-2024學(xué)年第一學(xué)期期末試卷
- 株洲師范高等??茖W(xué)校《重點傳染病防治知識規(guī)培》2023-2024學(xué)年第一學(xué)期期末試卷
- 浙江外國語學(xué)院《課程與教學(xué)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 浙江工貿(mào)職業(yè)技術(shù)學(xué)院《建筑美術(shù)Ⅲ》2023-2024學(xué)年第一學(xué)期期末試卷
- 中南林業(yè)科技大學(xué)《物理化學(xué)(1)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024-2030年鋁合金粉行業(yè)市場現(xiàn)狀供需分析及重點企業(yè)投資評估規(guī)劃分析研究報告
- JGJ106-2014建筑基樁檢測技術(shù)規(guī)范
- 植入(介入)性醫(yī)療器械管理制度
- 遼寧農(nóng)業(yè)職業(yè)技術(shù)學(xué)院2024年單招復(fù)習(xí)題庫(普通高中畢業(yè)生)-數(shù)學(xué)(130道)
- 內(nèi)鏡下粘膜剝離術(shù)(ESD)護理要點及健康教育課件
- 2024年民族宗教理論政策知識競賽考試題庫及答案
- 項目七電子商務(wù)消費者權(quán)益保護的法律法規(guī)
- 品質(zhì)經(jīng)理工作總結(jié)
- 供電搶修述職報告
- 集成電路設(shè)計工藝節(jié)點演進趨勢
- 新型電力系統(tǒng)簡介演示
評論
0/150
提交評論