




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 自然語言處理的現(xiàn)狀研究與未來發(fā)展初探 王天笑摘 要:自然語言處理是人工智能領(lǐng)域所研究的重要課題之一,同時也是目前最前沿的科技研究熱點之一。探究并實現(xiàn)人與計算機(jī)之間使用自然語言進(jìn)行有效通信的各種理論和方法,是未來人工智能的核心驅(qū)動力。因此,了解自然語言處理技術(shù)的科學(xué)內(nèi)涵,闡述自然語言處理的研究方法及發(fā)展歷史,深入探究自然語言處理在各個領(lǐng)域中的應(yīng)用與現(xiàn)狀,進(jìn)一步展望未來的發(fā)展趨勢,是十分必要且有意義的。關(guān)鍵詞:自然語言;處理;人工智能;機(jī)器學(xué)習(xí):tn941.1 :a :1671-2064(2017)02-0196-02隨著社會的日益信息化,計算
2、機(jī)學(xué)科也在逐步發(fā)展成熟,人們也越來越強(qiáng)烈地希望能更好地同計算機(jī)進(jìn)行交流。而伴隨信息爆炸而來的是更為廣闊的信息檢索需求、日益嚴(yán)峻的信息安全問題以及潛力十足的機(jī)器翻譯市場。如何讓計算機(jī)實現(xiàn)自動的語言處理功能、挖掘和有效利用海量語言信息顯得尤為重要,也對于人工智能研究領(lǐng)域提出了更新的要求。1 自然語言處理的含義及任務(wù)1.1 自然語言處理的含義1.1.1 什么是自然語言處理自然語言處理(nlp, natural language processing)是使用機(jī)器處理人類語言的理論和技術(shù),將語言做為計算對象來研究相應(yīng)的算法。目的是讓人類可以用自然語言形式跟計算機(jī)系統(tǒng)進(jìn)行人機(jī)交互,從而更便捷、有效地進(jìn)行信
3、息管理。關(guān)鍵是要讓計算機(jī)“理解”自然語言,所以自然語言處理又被叫做自然語言理解(nlu, natural language understanding),也稱為計算語言學(xué)(computational linguistics)。1.1.2 什么是自然語言根據(jù)新華字典的解釋,自然語言是指以語音為物質(zhì)外殼,由詞匯和語法兩部分組成的符號系統(tǒng)。眾所周知,語言是人類交際的工具,也是人類思維的載體。我們所說的自然語言具體是指約定成俗的、區(qū)別于人工語言的語言,如程序設(shè)計語言。1.1.3 什么是處理處理的含義包括理解、轉(zhuǎn)化、生成等。自然語言處理的具體表現(xiàn)形式包括機(jī)器翻譯、文本摘要、文本分類、文本校對、信息抽取、
4、語音合成、語音識別等。1.2 自然語言處理的層次性自然語言的理解和分析過程是一個層次化過程,許多語言學(xué)家把這一過程劃分為以下五個層次,從而更好地體現(xiàn)語言本身的構(gòu)成:1.2.1 語音分析根據(jù)音位規(guī)則,從語音流中區(qū)分出一個個獨(dú)立的音素,再根據(jù)音位形態(tài)規(guī)則找出一個個音節(jié)及其對應(yīng)的詞素或詞。1.2.2 詞法分析分析目的是找出詞匯的各個詞素,從中獲得語言學(xué)的信息。1.2.3 句法分析對句子和短語的結(jié)構(gòu)進(jìn)行分析,目的是找出詞、短語等的相互關(guān)系以及各自在句中的作用。1.2.4 語義分析分析目的是找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定語言所表達(dá)的真正含義或概念。1.2.5 語用分析研究語言所存在的外界環(huán)境對
5、語言使用者所產(chǎn)生的影響。2 自然語言處理的研究內(nèi)容2.1 自然語言處理的研究方向自然語言處理的范圍涉及眾多方面,如機(jī)器翻譯、文本摘要、文本分類、文本校對、信息抽取、語音合成、語音識別等等。大致可分為以下四個方向:2.1.1 語言學(xué)方向把自然語言處理看作語言學(xué)的一個分支來研究,研究內(nèi)容只涉及語言處理與計算相關(guān)的方面,不涉及在計算機(jī)上的具體實現(xiàn)方法。這個方向最重要的研究領(lǐng)域是語法形式化理論和數(shù)學(xué)理論。2.1.2 數(shù)據(jù)處理方向把自然語言處理作為開發(fā)語言研究相關(guān)程序以及語言數(shù)據(jù)處理的學(xué)科來研究。這一方向早起的研究有屬于數(shù)據(jù)庫的建設(shè)、各種機(jī)器可讀的電子詞典的開發(fā),近些年來則有大規(guī)模的語料庫的涌現(xiàn)。2.1
6、.3 人工智能和認(rèn)知科學(xué)方向把自然語言處理作為在計算機(jī)上實現(xiàn)自然語言能力的學(xué)科來研究,探索自然語言理解的只能機(jī)制和認(rèn)知機(jī)制。這一方向的研究與人工智能以及認(rèn)知科學(xué)關(guān)系密切。2.1.4 語言工程方向把自然語言處理作為面向?qū)嵺`的、工程化的語言軟件開發(fā)來研究,這一方向的研究一般也被稱為“人類語言技術(shù)”或“語言工程”。2.2 自然語言處理的應(yīng)用以上所討論的研究方向基本上涵蓋了當(dāng)今自然語言處理主要的研究內(nèi)容,進(jìn)一步可細(xì)分為具體的應(yīng)用如下:書面語輸入、語言分析和理解、話語分析與對話、語言生成、多語問題的計算機(jī)處理、口語輸入、口語輸出技術(shù)、自然語言處理中的數(shù)學(xué)方法、信息傳輸與信息存儲、文獻(xiàn)自動處理、語言資源、
7、多模態(tài)的計算機(jī)處理、自然語言處理系統(tǒng)的評測。這些應(yīng)用領(lǐng)域都需要對語言進(jìn)行更形式化的描述,建立合適的算法,并在計算機(jī)上實現(xiàn)這些算法,因此,要涉及到的學(xué)科包括數(shù)學(xué)、邏輯學(xué)和計算機(jī)科學(xué)等,當(dāng)然也需要運(yùn)用到電子科學(xué)技術(shù)。由此我們可以得出,自然語言處理都是一個多邊緣的交叉型學(xué)科。由于它的對象是語言,因此,本質(zhì)上它是一個語言學(xué)科,但還涉及到其他眾多的學(xué)科,尤其是數(shù)學(xué)和計算機(jī)科學(xué)。3 自然語言處理的發(fā)展概述3.1 自然語言處理的發(fā)展歷程1956年之前,人們主要進(jìn)行的都是自然語言處理的基礎(chǔ)性研究。1948年shannon把離散馬爾可夫過程的概率模型首次應(yīng)用于描述語言的自動機(jī),同時又把“熵” (entropy)
8、的概念引用到語言處理中。 就在同一時期,kleene研究了有限自動機(jī)和正則表達(dá)式。1956年,chomsky提出了上下文無關(guān)文法,也因此產(chǎn)生了基于規(guī)則和基于概率兩種不同截然不同的自然語言處理方法,進(jìn)而引發(fā)了數(shù)十年該領(lǐng)域研究中兩大陣營有關(guān)孰優(yōu)孰劣的爭執(zhí)。 1956年,人工智能誕生以后,自然語言處理迅速融入了人工智能的研究中。隨機(jī)派學(xué)者在這一時期利用貝葉斯方法等統(tǒng)計學(xué)原理取得了一定的進(jìn)步;而以chomsky為代表的符號派也進(jìn)行了形式語言理論、生成句法和形式邏輯系統(tǒng)的研究。由于這一時期,多數(shù)學(xué)者注重研究推理和邏輯問題,只有少數(shù)學(xué)者在研究統(tǒng)計方法和神經(jīng)網(wǎng)絡(luò),所以符號派的勢頭明顯強(qiáng)于隨機(jī)派的勢頭。196
9、7年美國心理學(xué)家neisser提出了認(rèn)知心理學(xué),從而把自然語言處理與人類的認(rèn)知聯(lián)系起來。70年代初,由于自然語言處理研究中的一些問題未能在短時間內(nèi)得到解決,而新的問題又不斷地涌現(xiàn),許多人因此喪失了信心,自然語言處理的研究進(jìn)入了低谷時期。盡管如此,一些發(fā)達(dá)國家的學(xué)者依舊地研究著?;陔[馬爾可夫模型(hidden markov model,hmm)的統(tǒng)計方法和話語分析(discourse analysis)在這一時期取得了重大進(jìn)展。80年代,在人們對于過去的工作反思之后,有限狀態(tài)模型和經(jīng)驗主義的研究方法開始復(fù)蘇。90年代以后,隨著計算機(jī)的速度和存儲量大幅增加,自然語言處理的物質(zhì)基礎(chǔ)大幅改善,語音和
10、語言處理的商品化開發(fā)成為可能;同時,網(wǎng)絡(luò)技術(shù)的發(fā)展和1994年internet商業(yè)化使得基于自然語言的信息檢索和信息抽取的需求變得更加突出。自然語言處理的應(yīng)用領(lǐng)域已不再局限于機(jī)器翻譯、語音控制等早期研究方向。從90年代末到21世紀(jì)初,人們逐漸認(rèn)識到,僅用基于規(guī)則的方法或僅用基于統(tǒng)計的方法都是無法成功進(jìn)行自然語言處理的?;诮y(tǒng)計、基于實例和基于規(guī)則的語料庫技術(shù)在這一時期開始蓬勃發(fā)展,各種處理技術(shù)開始融合,自然語言處理的研究又迅速發(fā)展并逐漸興旺起來。3.2 自然語言處理的研究現(xiàn)狀及思考自然語言處理的研究歷史雖然不是很長,但就目前已經(jīng)取得的成果和地位足以顯示它的重要性和廣闊的應(yīng)用前景。就目前的研究成
11、果來看,部分問題已經(jīng)得到了解決,可以為人們提供可靠的輔助性幫助,比如專業(yè)領(lǐng)域文檔翻譯,電子詞典,搜索引擎,文字錄入等。但隨著信息服務(wù)、通訊、網(wǎng)絡(luò)內(nèi)容管理、情報處理、國家安全等社會需求的日益迫切,很多基礎(chǔ)問題的研究仍然任重道遠(yuǎn):比如語義表示和計算、比如高質(zhì)量的自動翻譯。目前所進(jìn)行的研究中,暴露和存在的問題還有很多很多,研究中仍然缺乏堅實的理論基礎(chǔ);詞匯句法方面的問題尚未解決,已開始挑戰(zhàn)語義、知識等深層次課題;語音識別中采用的統(tǒng)計語言模型推動了發(fā)展,于是目前的統(tǒng)計模型在迅速向語言深層發(fā)展等等等等。所以,許多技術(shù)離真正實用其實還有不少距離,若干理論問題也有待更深入的研究。我們可以從現(xiàn)有的模型和方法改
12、進(jìn)入手,在不成熟技術(shù)的基礎(chǔ)上開發(fā)出更實用的人機(jī)系統(tǒng),我們也有理由期待更有效和更健全地理論體系。3.3 自然語言處理的未來前景及研究意義從長遠(yuǎn)看,自然語言處理具有廣闊的應(yīng)用領(lǐng)域和令人驚喜的應(yīng)用前景。作為一個多學(xué)科交叉的新型領(lǐng)域,自然語言處理的繁榮發(fā)展對于很多相關(guān)學(xué)科及方向都具有深遠(yuǎn)的影響力。伴隨著各種詞表詞義詞法語料庫等數(shù)據(jù)資源的日益豐富、分析技術(shù)的快速進(jìn)步、新方法新理論的不斷涌現(xiàn)、研究模型的逐漸迭代更新,不僅可以為理論研究奠定堅實基礎(chǔ),自然語言處理的快速發(fā)展也將逐步鞏固其在人工智能領(lǐng)域乃至整個計算機(jī)科學(xué)研究的核心課題地位。最后,基于上文對于自然語言處理領(lǐng)域現(xiàn)狀的深入研究與現(xiàn)狀分析,我們可以得出以下結(jié)論:未來該領(lǐng)域的研究方法將更強(qiáng)調(diào)多技術(shù)多領(lǐng)域集成、更強(qiáng)調(diào)理性與經(jīng)驗方法相結(jié)合、更強(qiáng)調(diào)模塊構(gòu)件化和工具環(huán)境開發(fā)、更強(qiáng)調(diào)知識與意義的表示和利用、更強(qiáng)調(diào)實際研究成果的實用化。參考文獻(xiàn):1蔡自興,等.人工智能及其應(yīng)用m.北京:清華大學(xué)出版社,20
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T-ZSA 271-2024 高強(qiáng)度高彈性高導(dǎo)電率鈦銅合金
- 二零二五年度私募股權(quán)基金股權(quán)轉(zhuǎn)讓及代持管理協(xié)議
- 二零二五年度農(nóng)副產(chǎn)品電商平臺用戶增長合作合同
- 二零二五年度體育場館委托代理出租服務(wù)合同
- 二零二五年度海洋工程電焊工勞動合同(海洋平臺焊接)
- 二零二五年度臨時工兼職合同
- 二零二五年度全屋定制家居裝修合同
- 二零二五年度科研實驗室租賃合同轉(zhuǎn)讓及設(shè)備維護(hù)協(xié)議
- 二零二五年度音樂節(jié)現(xiàn)場安全員聘請合同
- 二零二五年度鄉(xiāng)村民宿房東與游客租賃合同
- 2025年黑龍江民族職業(yè)學(xué)院單招職業(yè)技能測試題庫附答案
- 2025年黑龍江旅游職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫一套
- 年產(chǎn)60萬噸摻混肥項目可行性研究報告申請立項
- 2025年2月《公共安全視頻圖像信息系統(tǒng)管理條例》學(xué)習(xí)解讀課件
- 山東省聊城市冠縣2024-2025學(xué)年八年級上學(xué)期期末地理試卷(含答案)
- 2025年江蘇省中職《英語》學(xué)業(yè)水平考試高頻必練考試題庫400題(含答案)
- 敲響酒駕警鐘堅決杜絕酒駕課件
- 2025年濰坊工程職業(yè)學(xué)院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 全套教學(xué)課件《工程倫理學(xué)》
- 江蘇省建筑與裝飾工程計價定額(2014)電子表格版
- 2024年山東經(jīng)貿(mào)職業(yè)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
評論
0/150
提交評論