全信息理論與中文信息處理_第1頁
全信息理論與中文信息處理_第2頁
全信息理論與中文信息處理_第3頁
全信息理論與中文信息處理_第4頁
全信息理論與中文信息處理_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 全信息理論與中文信息處理 鐘義信智能科學(xué)技術(shù)研究中心2006-8-248/13/20221目 錄一,問題的提出二,解決的方法三,研究的重點(diǎn)8/13/20222一,問題的提出8/13/20223中文信息(自然語言)處理的重大社會(huì)需求1,人際交往 - 多種語言的存在 - 全球交往的進(jìn)程 - 學(xué)習(xí)語言的困難 - 機(jī)器翻譯的前景2,人機(jī)合作 - 人類操作能力的局限 - 機(jī)器工作性能的威力 - 機(jī)器認(rèn)知能力的潛力 - 人機(jī)能力的天然互補(bǔ)8/13/20224中文信息(自然語言)處理的核心目標(biāo) 表面上看,“中文信息處理”研究工作的著眼點(diǎn)和落腳點(diǎn)應(yīng)是中文信息的“處理” 如詞語切分,詞形標(biāo)注,語句分析,專名識(shí)

2、別,詞語消岐,等等。 實(shí)質(zhì)上看,研究工作的目標(biāo)是“使機(jī)器能夠在一定程度上理解中文信息”,或?qū)χ形男畔?shí)現(xiàn)一定認(rèn)知。 無論從 “人際通信” 還是 “人機(jī)合作” 的需求來看,處理都是手段,理解(認(rèn)知)才是目的。 8/13/20225自然語言 “理解” 與人工智能1,智能的核心是思維;語言是思維的表達(dá);因此語 言也是智能的表達(dá)。2,理解(認(rèn)知),是智能的內(nèi)核;因此自然語言理 解是人工智能的基本研究方向。3,自然語言理解本質(zhì)上是人工智能、信息科學(xué)、 認(rèn) 知科學(xué)和語言學(xué)的交叉科學(xué)。4,自然語言理解系統(tǒng)本質(zhì)上是一類智能系統(tǒng)。8/13/20226智能系統(tǒng)的核心機(jī)制:信息-知識(shí)-智能轉(zhuǎn)換需求/約束信息獲取信息

3、執(zhí)行信息傳遞信息傳遞預(yù)處理決策本體信息智能 策略智能行為目標(biāo)認(rèn)知知識(shí)感覺器官傳導(dǎo)系統(tǒng)思維器官效應(yīng)器官傳導(dǎo)系統(tǒng)有序信息知識(shí)庫需求/約束實(shí)得信息8/13/20227信息-知識(shí)-智能轉(zhuǎn)換:自然語言理解通用方法論智能行為信息-知識(shí)轉(zhuǎn)換知識(shí)-智能轉(zhuǎn)換信息知識(shí)轉(zhuǎn)換知識(shí)庫信息(問題與約束)結(jié)果(性能與評(píng)價(jià))歸納歸納演繹目的8/13/20228中文信息處理研究的現(xiàn)狀 中文信息處理研究領(lǐng)域取得了許多重要進(jìn)展和重要成果;但基本理論、基礎(chǔ)資源、基本工具、基本方法和性能水平離實(shí)際應(yīng)用的要求還有相當(dāng)差距。 中文信息理解的研究基本上突破了純粹語法分析的層次,正在走向語法與語義分析相結(jié)合的新階段。 但是,還少有語用要素的考

4、慮:還沒有真正到位。 8/13/20229 統(tǒng)計(jì)方法(歸納)基于大數(shù)定律,方法論上是“從眾”,不要求真正達(dá)到理解。是初級(jí)認(rèn)知方法。 缺點(diǎn):假設(shè)難滿足;結(jié)論平均性;真理常在少數(shù)人手中。 優(yōu)點(diǎn):容易操作,尤其是有了計(jì)算和網(wǎng)絡(luò)技術(shù)的支持。自然語言“機(jī)器認(rèn)知”的兩種基本方法 兩種方法性質(zhì)互補(bǔ),誰也不能單獨(dú)包打天下。問題是如何實(shí)現(xiàn) “統(tǒng)計(jì)與規(guī)則方法的有效結(jié)合:大統(tǒng)計(jì),小規(guī)則”。 規(guī)則方法(演繹)基于理解和規(guī)則推理,是處理新問題和復(fù)雜問題不可避免的高級(jí)認(rèn)知方法。 缺點(diǎn):規(guī)則難建立;規(guī)則難完備;規(guī)則不靈活。 優(yōu)點(diǎn):可信(如果規(guī)則和前提均可信)8/13/202210自然語言理解(機(jī)器認(rèn)知)的困難和意義 自然語

5、言理解是世界級(jí)難題,至今沒有得到滿意的解決。如果有所進(jìn)展,將是具有世界意義的貢獻(xiàn)。 自然語言理解是人工智能的典型應(yīng)用,它的困難充分表現(xiàn)在:一方面是自然語言表達(dá)的多樣性、靈活性、復(fù)雜性、動(dòng)態(tài)性,一方面是機(jī)器“理解”能力的機(jī)械性、被動(dòng)性與局限性。 即使是人(更不要說機(jī)器)對(duì)自然語言的理解也需要經(jīng)過長時(shí)間的訓(xùn)練和學(xué)習(xí),需要在大量“記憶+模仿”實(shí)踐的基礎(chǔ)上才能逐漸生長出“自主理解”的能力。8/13/202211二,解決的方法8/13/202212全信息理論與自然語言理解 語言是信息的載體;信息是語言的內(nèi)核。理解自然語言的本質(zhì)是理解它所載荷的信息,因此要用信息論。 但現(xiàn)有信息論不能解決問題。 “全信息理

6、論”是北京郵電大學(xué)智能研究中心創(chuàng)建的信息理論1, 2, 3,擁有自主知識(shí)產(chǎn)權(quán)。1 鐘義信,全信息理論,北京郵電大學(xué)學(xué)報(bào),19842 鐘義信,信息科學(xué)原理,北京郵電大學(xué)出版社, 1988第一版,1996 第二版,2002第三版3 鐘義信等,信息科學(xué)教程,北京市研究生教育重點(diǎn) 精品教材,北京郵電大學(xué)出版社,20048/13/202213Shannon信息論只關(guān)心“噪聲中的信號(hào)波形復(fù)制” 問題: X = xn 信號(hào)狀態(tài)(是0還是1?)P = pn 各種信號(hào)狀態(tài)的出現(xiàn)方式n (1,N)YDI(X;Y) = H(X) H(X|Y) H(X) = - pn log pnXn為什么Shannon Infor

7、mation不能解決問題?8/13/202214全信息與“認(rèn)知能力要素”符號(hào)客體主體語法信息 符號(hào)序列(形式結(jié)構(gòu))序列內(nèi)容序列價(jià)值語義信息語用信息 在給定語境(包括主體、客體、文本、環(huán)境和常識(shí))下,語言理解要包含該語境下的語法、語義、語用三要素。 只當(dāng)語境足夠深廣,語法、語義、語用分析才有唯一解。人的認(rèn)知能力包括:觀察力,理解力,目的性。觀察事物的外部形式,理解事物的內(nèi)在含義,判斷與自身的利害關(guān)系。8/13/202215全信息自然語言理解的“認(rèn)知機(jī)理” 幼兒識(shí)字教學(xué)過程:如,教學(xué)生認(rèn)識(shí)“樹”這個(gè)字。 先教怎么寫(符號(hào)的筆劃結(jié)構(gòu));再告訴“樹”的真實(shí)樣子(事物的形態(tài)結(jié)構(gòu)) ,接著告訴“樹”的基本

8、特征及樹與草、與花的區(qū)別(語義);再告訴“樹”的用途(語用)。 明確了用途或害處(語用),人們才會(huì)去關(guān)注它。 此后,見到“樹”這個(gè)字或真的樹(語法),就會(huì)在腦海中聯(lián)想到它的語義和語用;才算理解了這個(gè)字。 這就是由“語法”調(diào)用“全信息詞典”的過程。機(jī)器可以模擬這種認(rèn)知過程。8/13/202216An Example for “Understanding”SensingExperiencingThinkingFormValueContentLearning the Concept “Tree” The Mechanism of Understanding Form Value Content8/1

9、3/202217全信息與語言理解的層次 對(duì)于自然語言的理解,存在三個(gè)相依的層次: (1)了解它的語法信息 (2)了解它的語義信息 (3)了解它的語用信息 語法、語義、語用“三位一體”的分析是自然語言理解方法的基本要求(門檻);“兩位一體”還不夠。 從語法分析走向語義分析,是自然語言處理的重要進(jìn)步;但對(duì)自然語言理解而言,仍然沒有到位!淺層理解中層理解深層理解8/13/202218骨架捕獲 自然語言認(rèn)知的基本技巧 人類對(duì)自然語言的理解(認(rèn)知)過程既有層次性,又有靈活性。重要的方法是“快速捕獲骨架”(剪枝技巧)。 (1)對(duì)淺顯而熟悉的部分一掃而過(其實(shí)就是剪枝),只對(duì)重要而又困難的部分才做必要的分析

10、。 (2)“必要的分析”主要是“骨架分析”:篇章的骨架,段落的骨架,語句的骨架。 (3)對(duì)于人來說,“一掃而過”也做了“語法-語義-語用”分析,只是因?yàn)槭煜ず腿菀?,做的極快(由下意識(shí)處理),以致自己都沒有意識(shí)到。8/13/202219全信息自然語言理解的基本模型預(yù)處理后處理語用分析語義分析語法分析全信息-知識(shí)庫合法骨架?符合目的?真實(shí)邏輯?+學(xué)習(xí)擴(kuò)展人工奠基8/13/202220 “基本模型”的特色1,目的性 明確地面向“理解”需求。4,開放性: 模型能夠適應(yīng)各種“理解”應(yīng)用;能夠隨著信息表示與處 理方法的進(jìn)步而不斷改進(jìn)自己的性能。2,包容性 包容了規(guī)則方法和統(tǒng)計(jì)方法兩種規(guī)范。在規(guī)則模式下,

11、序列是語句;在統(tǒng)計(jì)模式下,序列是特征集合。 而且可以包容其它基于語言行為特征的方法。3,靈活性 整體框架是語言學(xué)風(fēng)格,包含語法分析、語義分析和語 用分析;實(shí)際分析深度可依問題需求而有所不同。 模塊實(shí)現(xiàn)可以是規(guī)則的、統(tǒng)計(jì)的、規(guī)則統(tǒng)計(jì)交互補(bǔ)足的。 8/13/202221關(guān)于靈活性的一個(gè)說明統(tǒng)計(jì)分析OK?規(guī)則分析NY 根據(jù)實(shí)際問題求解的需要,規(guī)則方法與統(tǒng)計(jì)方法兩者可以靈活地互相調(diào)用和互相支持(嵌套)。OK?8/13/202222Applications of CIM-NLUInternetMobile Service IR AbstractContent Analyzer ML- DialogIE8

12、/13/202223三,研究的重點(diǎn)8/13/202224基本特色1,以中文為起始對(duì)象2,以“全信息自然語言理解”為基本方法3,以領(lǐng)域相關(guān)為研究基點(diǎn)4,以超越Semantic Web為基本目標(biāo)8/13/202225An Example for “The Base”Recalling The Concept “Tree” Form Content; Value The Structure of Information Base for RetrievalForm | Content; Value8/13/202226項(xiàng)語法特征語義特征語用特征#1#m#1#n#1#p項(xiàng)(概念,詞)以語句為單位以骨架為對(duì)象樹的深度有限(一)全信息的表示:全信息資源庫建設(shè)的框架8/13/202227(三)應(yīng)用:特定領(lǐng)域的智能網(wǎng) (基于理解/認(rèn)知的信息檢索網(wǎng)) CI-Web = CI-base NLU-SE(二)基于全信息理解的搜索引擎 核心技術(shù)參考基本模型:p.20 8/13/20

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論