下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
計算語言學(xué)的起源與發(fā)展
一、計算語言學(xué)的萌芽世界上首次計算機的生產(chǎn)以來,計算機的功能已經(jīng)大大超過了最初的計算值的范圍,并進入了廣泛的非數(shù)值領(lǐng)域,如語言處理領(lǐng)域。而在計算機出現(xiàn)之前,對語言的研究大都是由語言學(xué)家來完成的。利用計算機這一現(xiàn)代計算工具來研究語言,仿佛給計算機賦予了更多的智能化色彩,而“計算語言學(xué)”(ComputationalLinguistics,CL)這一語言學(xué)和計算機科學(xué)的交叉學(xué)科此時則應(yīng)運而生。當(dāng)然,在計算語言學(xué)的研究過程中,還涉及到數(shù)學(xué)、認(rèn)知科學(xué)、邏輯學(xué)、心理學(xué)等許多其他學(xué)科。實際上,“計算語言學(xué)”這一術(shù)語是伴隨著“機器翻譯”這一應(yīng)用而出現(xiàn)的。傳說中,上帝為阻止人類建造通天塔的壯舉,故意讓不同種族的人講不同的語言,使人類不能自由交流,無法齊心協(xié)力。為了跨越語言的障礙,遠(yuǎn)在古希臘時代,就有人提出要用機器來代替人進行不同語言之間的翻譯。1933年,前蘇聯(lián)發(fā)明家特羅揚斯基設(shè)計了一種用于翻譯的機器,但是并沒有成功。事實上,真正的機器翻譯研究是在計算機發(fā)明之后開始的,1954年,美國Georgetown大學(xué)與IBM公司合作開發(fā)了世界上第一個機器翻譯的原型系統(tǒng),當(dāng)時的目的主要是將其用于美俄之間軍事情報的翻譯工作,該系統(tǒng)首次通過機器將俄語翻譯為英文并取得了初步的成功。這項工作使學(xué)者們備受鼓舞,也吸引了政府大量資金的注入,計算語言學(xué)的研究也開始了其萌芽時期。初期的機器翻譯系統(tǒng)大都是以詞典驅(qū)動,直接采用詞對詞的模式匹配的翻譯方式,由于不同的語言之間詞法、句法都存在很大差異,顯然,這樣的翻譯結(jié)果不會令人滿意。1966年,ALPAC報告中指出,機器翻譯的研究在當(dāng)時的條件下并不具備很好的前景,不宜給予大力支持。另外,后來有學(xué)者認(rèn)為,雖然“計算語言學(xué)”一詞之前早已出現(xiàn),但作為術(shù)語第一次正式提出是從這份報告開始的。之后,隨著許多機器翻譯項目的下馬,計算語言學(xué)的研究在60年代中后期也步入低潮。后來人們逐漸認(rèn)識到,若想取得好的機器翻譯效果,必須對自然語言有一定的理解,需要對自然語言的句法、語義等進行深入的研究。20世紀(jì)70年代后,人們開始思考自然語言的知識表示和處理的理論和方法,計算語言學(xué)開始研究面向受限域的自然語言的深度理解。70年代和80年代可以說是計算語言學(xué)的發(fā)展期,這期間誕生了許多具有語義、語境甚至語用分析功能的理解系統(tǒng),如用自然語言進行情報檢索的LUNAR系統(tǒng),用自然語言來指揮機器人動作的SHRDLU系統(tǒng),利用概念依存理論進行推理的對話系統(tǒng)MARGIE,以及可以理解小故事的SAM系統(tǒng)和PAM系統(tǒng)等等。一些著名的句法分析算法,如基于上下文無關(guān)文法的GLR算法,以及語義知識系統(tǒng)如格語法、義素分析法等也被應(yīng)用于句法及語義的自動分析上。20世紀(jì)90年代,隨著互聯(lián)網(wǎng)的發(fā)展,計算語言學(xué)進入了大規(guī)模真實文本處理時期,語料庫語言學(xué)盛行,經(jīng)驗主義方法復(fù)蘇。不同于以喬姆斯基為代表的理性主義觀點所認(rèn)為的語言知識是與生俱來的觀點,經(jīng)驗主義者認(rèn)為可以通過一個適當(dāng)?shù)恼Z言模型來學(xué)習(xí)復(fù)雜而廣泛的語言結(jié)構(gòu),而語言模型則可以通過基于語料庫的統(tǒng)計學(xué)習(xí)方法來得到。實際上,無論是規(guī)則的方法還是統(tǒng)計的方法,都是希望獲得更多的語言知識使其得以應(yīng)用,只不過一個是通過內(nèi)省的方式獲取知識,一個是從大規(guī)模語料中統(tǒng)計獲得,如果將二者有效地結(jié)合,必將對計算語言學(xué)的發(fā)展起到巨大的推進作用。鑒于計算語言學(xué)學(xué)科的重要性,美國1962年在普林斯頓成立了計算語言學(xué)學(xué)會,該學(xué)會每年開一次ACL年會(AnnualMeetingofAssociationforComputationalLinguistics)并出版相應(yīng)的學(xué)術(shù)季刊《美國計算語言學(xué)雜志》,1984年后改名為《計算語言學(xué)》。1965年,“國際計算語言學(xué)委員會”在紐約成立,每兩年召開一次國際計算語言學(xué)大會(InternationalConferenceonComputationalLinguistics),即COLING會議。隨著計算語言學(xué)的發(fā)展,相關(guān)的有影響的國際會議也越來越多,如EMNLP(EmpiricalMethodsinNaturalLanguageProcessing)、HLT(HumanLanguageTechnologyConference)、IJCNLP(InternationalJointConferenceonNaturalLanguageProcessing)、NAACL(TheNorthAmericanChapteroftheAssociationforComputationalLinguistics)、EACL(EuropeanChapterofACL)、ANLP(AppliedNaturalLanguageProcessing)等等。中國中文信息學(xué)會于1987年6月組建了計算語言學(xué)專業(yè)委員會。1991年6月計算語言學(xué)研究會在北京市語言學(xué)會下成立。1988年6月在清華大學(xué)召開首屆全國計算語言學(xué)學(xué)術(shù)會議,從第二屆開始更名為全國計算語言學(xué)聯(lián)合學(xué)術(shù)會議,每兩年召開一次。中文計算語言學(xué)雖然起步較晚,但發(fā)展得卻很迅速,目前,中文在字、詞、句甚至篇章等處理層面上已經(jīng)取得了許多豐碩的成果。二、計算語言及其近義術(shù)語的定義1.具有歷史局限性的其他計算單元實際上在學(xué)術(shù)界對“計算語言學(xué)”一直沒有一個統(tǒng)一的定義,在《大不列顛百科全書》中給出了這樣定義:“計算語言學(xué)是利用電子數(shù)字計算機進行的語言分析。計算分析最常用于處理一些基本的語言數(shù)據(jù)———例如建立語音、詞、詞元素的搭配以及統(tǒng)計它們的頻率?!憋@然,這個定義中的后一句在介紹計算語言學(xué)的處理單元及其計算內(nèi)容上有一定的歷史局限性,因為目前計算語言學(xué)的研究已經(jīng)遠(yuǎn)遠(yuǎn)超出了搭配和頻率統(tǒng)計的范圍。實際上,站在不同的立場,對計算語言學(xué)可以從不同層面來理解,例如從工程主義出發(fā),更多的是將計算語言學(xué)理解為建立一種可運轉(zhuǎn)的計算機系統(tǒng),這個系統(tǒng)可以理解和生成自然語言;從工具主義觀點看,則強調(diào)是用計算機來分析語言;站在認(rèn)知主義的立場來看,計算語言學(xué)更關(guān)心如何用計算機來模擬人類學(xué)習(xí)語言、理解語言的心理過程;而實證主義則是從另一個角度即利用計算機來對語言學(xué)家所提出的各種理論進行檢驗。這里,我們給出一個目前被許多經(jīng)典教材所采用的一個計算語言學(xué)的定義:“計算語言學(xué)指的是這樣一門學(xué)科,它通過建立形式化的數(shù)學(xué)模型,來分析、處理自然語言,并在計算機上用程序來實現(xiàn)分析和處理的過程,從而達到以機器來模擬人的部分乃至全部語言能力的目的?!睆倪@個定義中可看出,計算語言學(xué)是“計算”和“語言”的統(tǒng)一,是從計算的角度來研究語言,同時,將語言作為計算的對象來研究相應(yīng)的算法。2.環(huán)境分析及句法結(jié)構(gòu)分析從前面的定義可以看出,“計算語言學(xué)”主要由兩部分組成,如果偏重于“計算”的話,則主要是指利用計算機對自然語言進行各種加工和處理,因此有人將其稱之為“自然語言處理”(NaturalLanguageProcessing,NLP)。美國計算機科學(xué)家BillManaris曾經(jīng)給“自然語言處理”提出了如下的定義:“自然語言處理可以定義為研究在人與人交際中以及在人與計算機交際中的語言問題的一門學(xué)科。自然語言處理要研制表示語言能力和語言應(yīng)用的模型,建立計算框架來實現(xiàn)這樣的語言模型,提出相應(yīng)的方法來不斷地完善這樣的語言模型,根據(jù)這樣的語言模型設(shè)計各種實用系統(tǒng),并探討這些實用系統(tǒng)的評測技術(shù)?!边@個概念給出了計算機對自然語言所要研究和處理的內(nèi)容,即不僅包括語言能力模型還要包括語言應(yīng)用模型。在處理自然語言時,可以對語言的各級單位,如字、詞、句、篇章來進行分析、加工和轉(zhuǎn)換。如詞處理主要包括分詞、詞性標(biāo)注、詞義消歧等內(nèi)容;在句子層面目前的研究難點主要是句法結(jié)構(gòu)分析、句義的理解如句子內(nèi)部詞匯和詞匯之間的語義關(guān)系等等;篇章處理方面,需要考慮句子與句子之間的關(guān)系,包括句中成分的互指,代詞成分回指,句子之間的銜接等等。而從對語言的不同處理層面上講,也可以將處理分為從詞法、句法、語義和語用的層面進行。3.機器的“理解”從計算語言學(xué)研究的終極目標(biāo)來講,是希望研制出真正能夠像人一樣理解自然語言的計算機系統(tǒng),可以用來模擬人的語言交際過程,包括理解語言、生成語言等等,從這個角度上來講,計算語言學(xué)也常常被稱為自然語言理解(NaturalLanguageUnderstanding,NLU)。當(dāng)然,不同的學(xué)科對“理解”有不同的認(rèn)識,美國認(rèn)知學(xué)家G.M.Ulson提出了四個表示“理解”的標(biāo)志,(1)問答能力:機器能正確地回答輸入文本中的有關(guān)問題;(2)文摘能力:機器能夠自動對輸入的語料生成文摘;(3)復(fù)述能力:機器能用不同的詞語和句型來復(fù)述其輸入的文本;(4)機器翻譯:機器具有把一種語言(源語)翻譯成為另一種語言(目標(biāo)語)的能力??梢韵胂?如果計算機真的能夠達到這樣“理解”的水平,也就意味著計算機已經(jīng)真正成為了“智能機器”。Turing就曾經(jīng)提出,“檢驗計算機智能高低的最好辦法是讓計算機來講英語和理解英語”。由于20世紀(jì)80年代對“自然語言理解”的探索遇到了困難,進入90年代以來,人們變得更加實際,越來越多地使用“自然語言處理”這樣比較低調(diào)的字眼,而比較少使用“自然語言理解”這樣比較張揚的術(shù)語,以免別人質(zhì)疑:“你們做的系統(tǒng)真能夠理解語言嗎?”4.語言學(xué)的定義無論如何定義計算語言學(xué),我們知道其處理對象都是圍繞著“人類語言”在進行,不是動物語言,也不是人工定義的語言,而是人類的自然語言。由于“自然語言”這個提法是相對于人工定義的程序設(shè)計語言而言的,其背后的含義不易被其他領(lǐng)域的學(xué)者體察,造成“自然語言”這個概念有些模糊,為了明確起見,也有人采用“人類語言技術(shù)”(HumanLanguageTechnology)這個術(shù)語。這個定義一方面將該領(lǐng)域同傳統(tǒng)的例如研究人類語言的語文學(xué)研究相區(qū)別,更強調(diào)其技術(shù)色彩;另一方面,該定義所囊括的范圍也更廣泛,無論是自然語言處理,自然語言理解,還是機器翻譯,信息檢索甚至語音技術(shù)等所有這些和人類語言相關(guān)的語言處理問題都可以納入其中。另外,從這個概念還可以感覺到,其相對于“計算語言學(xué)”的概念而言,更強調(diào)技術(shù)層面,而“計算語言學(xué)”則更強調(diào)理論。和“語言技術(shù)”最接近的概念,還有“語言工程(LanguageEngineering)”。5.語言信息處理的概念“語言信息處理”這樣的定義也會被人們經(jīng)常使用,有時人們對“語言處理”和“語言信息處理”不加區(qū)分,但筆者認(rèn)為“語言信息處理”的處理對象是以語言為載體的信息,而“語言處理”的對象是作為信息載體的語言本身,二者的注意力不同。比如:語義角色標(biāo)注是典型的語言處理,而信息抽取、文本檢索是典型的語言信息處理,語言信息處理這個概念也能夠涵蓋文字識別、語音處理等研究課題,范圍更廣。在中國,人們更習(xí)慣使用“中文信息處理”(ChineseInformationProcessing,CIP)指稱相關(guān)的研究,但有必要加以更明確的界定和說明?!爸形摹笨梢詮V義地理解為中國各民族語言文字的統(tǒng)稱,不過多數(shù)情況下還是狹義地特指漢語言文字?!爸形男畔⑻幚怼笨梢詣澐譃椤皾h字信息處理”與“漢語信息處理”兩個不同的又有緊密聯(lián)系的層次。目前漢字信息處理的問題雖然也沒有徹底解決,但研究的重點已經(jīng)放在漢語信息處理上了。由于語言研究離不開語言間的比較與互譯,特別在當(dāng)代,互聯(lián)網(wǎng)迅速擴張,多語言信息處理成為其重要的技術(shù)特征之一,所以現(xiàn)在使用的“中文信息處理”或“漢語信息處理”通常也指以漢語為核心的多語言信息處理技術(shù)。6.統(tǒng)計語言學(xué)研究計算語言學(xué)除了上述幾個應(yīng)用得較為廣泛的概念之外,還有一些其他的相關(guān)定義,比如“計量語言學(xué)”(QuantitativeLinguistics),“數(shù)理語言學(xué)”(MathematicalLinguistics)等等。計量語言學(xué)主要側(cè)重于利用計算機作為工具,對一些語言符號的頻度進行統(tǒng)計,例如,對詞匯頻率的統(tǒng)計,對一些方言的統(tǒng)計等等,通過統(tǒng)計來發(fā)現(xiàn)語言中隱含的一些數(shù)量規(guī)律。這類研究和我們所說的計算語言學(xué)的研究范疇存在很大的不同,但廣義上講,計量語言學(xué)也屬于計算語言學(xué)的范疇,計量語言學(xué)的研究對計算機模擬人類的自然語言研究可以提供很好的支持作用。數(shù)理語言學(xué)則更加強調(diào)通過數(shù)學(xué)思想和方法來研究語言,刻畫語言,更偏重于對語言進行形式化的研究,從而形成對語言表達更加嚴(yán)密的理論體系。數(shù)理語言學(xué)包括:代數(shù)語言學(xué)、統(tǒng)計語言學(xué)和應(yīng)用數(shù)理語言學(xué)。代數(shù)語言學(xué)是采用集合論、數(shù)理邏輯、模糊數(shù)學(xué)、圖論等離散的、代數(shù)的方法來研究語言;統(tǒng)計語言學(xué)則是采用概率論、數(shù)理統(tǒng)計和信息論等統(tǒng)計數(shù)學(xué)的方法來研究交際過程中語言成分使用的頻率和概率,研究其統(tǒng)計規(guī)律;而應(yīng)用數(shù)理語言學(xué)是指把代數(shù)語言學(xué)和統(tǒng)計語言學(xué)應(yīng)用于機器翻譯、人機對話以及情報檢索的技巧和方法的研究。三、計算語言學(xué)研究是對基本概念的調(diào)整正是因為計算語言學(xué)的研究范圍廣泛,研究者的側(cè)重點各有不同,才出現(xiàn)了眾多紛繁不一的定義。如果從學(xué)科的角度來看,計算語言學(xué)的位置處在三級學(xué)科,其上面的二級學(xué)科和一級學(xué)科分別為應(yīng)用語言學(xué)和語言學(xué),更偏屬于人文科學(xué),強調(diào)理論研究;自然語言處理也是處在三級學(xué)科的位置,它所屬的二級和一級學(xué)科分別是人工智能和計算機科學(xué)與技術(shù),屬于自然科學(xué),相比于計算語言學(xué)更偏重應(yīng)用研究。無論是理論研究還是應(yīng)用研究,最終的研究目標(biāo)都是希望達到自然語言理解,而
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 成語故事-此地?zé)o銀三百兩-課件
- 相交弦定理課件
- 清兵衛(wèi)與葫蘆-課件2
- 《酸堿中和滴定》課件
- 單位人力資源管理制度品讀選集十篇
- 2024年市場推廣方案
- 【課件】配置遠(yuǎn)程訪問服務(wù)
- 單位管理制度展示合集員工管理
- 單位管理制度展示大全人事管理十篇
- 單位管理制度收錄大全人事管理篇十篇
- 2025寒假 家長會 課件
- 2024-2030年中國汽車水泵市場未來發(fā)展趨勢及前景調(diào)研分析報告
- 綠城營銷策劃管理標(biāo)準(zhǔn)化手冊
- 2025小學(xué)創(chuàng)意特色寒假素養(yǎng)作業(yè)設(shè)計真絕了【高清可打印】
- 2025年上半年河南安陽市睢陽區(qū)“減縣補鄉(xiāng)”鄉(xiāng)鎮(zhèn)事業(yè)單位選拔130人重點基礎(chǔ)提升(共500題)附帶答案詳解
- 2025學(xué)年學(xué)期學(xué)校衛(wèi)生工作計劃
- 10.1.2事件的關(guān)系和運算(教學(xué)課件)高一數(shù)學(xué)(人教A版2019必修第二冊)
- 2024-2030年中國天然靛藍(lán)行業(yè)市場規(guī)模預(yù)測及發(fā)展可行性分析報告
- DB37T 4548-2022 二氧化碳驅(qū)油封存項目碳減排量核算技術(shù)規(guī)范
- 采購部5年規(guī)劃
- 相反國課件-大班
評論
0/150
提交評論