改變科學研究思路的十個知識創(chuàng)新點_第1頁
改變科學研究思路的十個知識創(chuàng)新點_第2頁
改變科學研究思路的十個知識創(chuàng)新點_第3頁
改變科學研究思路的十個知識創(chuàng)新點_第4頁
改變科學研究思路的十個知識創(chuàng)新點_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、中國科技論文在線改變科學研究思路的十個知識創(chuàng)新點探索漢語理論建設及中文信息處理的新路鄒曉輝qhkjy519125 廣東珠海井岸橋東恒美花園 15-2 棟 201 號摘要 本文介紹字本位與中文信息處理的基礎(chǔ)廣東省優(yōu)秀科技專著出版基金會 2006專家論證通過正式資助將于 2007 年底/2008 年初出版發(fā)行貢獻的十個知識創(chuàng)新點,即:漢語及中文的基本原理, 信息和智的本質(zhì)定義及基本分類, 認知心理學雙語協(xié)同存儲原理, 形式理論的 受限原理, 序位邏輯原理及工具, 語言和知識的通用計算方法和量具, 生產(chǎn)式教學及協(xié)同智 能訓練體系,(產(chǎn)、學、研、教、用、算)一體化(知識信息數(shù)據(jù))管理。其重要性不僅在

2、于指出自然語言與機器語言的互換路徑, 除直接形式化之外還有間接形式化道路, 對漢語形 式理論建設和 中文信息處理及基于中文的知識處理而言, 后者更便捷而高效, 而且還在于改 變科學研究思路的十個知識創(chuàng)新點具有的整體功用。關(guān)鍵詞 漢語形式理論、 中文信息處理、基于中文的知識處理、 融智學的十個知識創(chuàng)新點1引言在過去幾年,基于語言學和信息學的融智學 (如字本位與中文信息處理的基礎(chǔ)) 研究取得了 長足進展 1 義項語匯典例( SVDE)的總量控制模型 ( CLSW-5 論文集 ) 1 ,重構(gòu)“概念分類體系”的新思 路與新方法 ( CLSW-6論文集) 2 ,優(yōu)化“語義信息處理”的新方法與實施例( C

3、LSW-6 論文集) 3 ,字本位與中文信息處理 4 ;2理性的標準的協(xié)同智能模型( CAAI-11 錄用) 5 ,融智學的觀點和方法( CAAI-11錄 用)6 ,信息學基礎(chǔ)研究 (信息科學交叉研究學術(shù)研討會 2005 北京) 7 和 Intelligence Means Information Processing (智意味著信息處理) Zou XiaoHui (VII International Ontology Congress: Real or Virtual: from Plato s Cave to Internet2006 ,10, Spain) 8 。然而也還有很多重要的問題

4、沒有得到滿意的解決如:3 不同的信息觀的分歧依然較大,信息本質(zhì)的理論探討仍在進行 9 ,漢語理論的本位問題仍未徹底解決 10 ,中文信息處理現(xiàn)有的三大流派 11 各自預期都 是至少還需要幾代人的努力才可望有所突破) ;4 國際范圍內(nèi)語言與知識的計量問題仍然存在;5 人類智力以及人工智能所涉及的智的概念的本質(zhì)似乎仍未搞清( )AI?2000 - 2007 。有鑒于此,本文系統(tǒng)地介紹了字本位與中文信息處理的基礎(chǔ)提出的十個知識創(chuàng)新點, 希望有助于改變漢語理論及中文信息處理的研究思路。它們體現(xiàn)的協(xié)同智能的觀點、原理和 方法至少可在“強人工智能”與“弱人工智能”之間

5、形成必要張力。人腦與電腦的雙腦結(jié)合2 及其相應的一整套“軟件和數(shù)據(jù)庫”系統(tǒng)實質(zhì)上是(k + 1 )雙文雙語協(xié)同智能計算系統(tǒng) 涉及拓廣的(包容大、小字符集的)形式語言、形式文法、形式體系、形式理論和形式科學。2 正文2.1 領(lǐng)域 字本位與中文信息處理,涉及語言學與信息學的一系列難題。這些問題中,最基礎(chǔ)的 是可否判斷(如字詞含義的消歧)與可否計算(如真實文本處理)兩類問題。解答前者是 人腦的擅長,解答后者是電腦的擅長。由于存在不可判斷( )與不可計算()這兩類超出人腦與電腦處理范圍的問題,因此筆者引入了(k + 1 )雙文雙語協(xié)同智能計算系統(tǒng),把問題轉(zhuǎn)化限制在可判斷 0,1 與可計算 0,1+00

6、,01,10,11+ +000 0, ,1111范圍以內(nèi)。于是,字本位與中文信息處理的基礎(chǔ)實際上就是融智學導論專門研究(狹義的)協(xié)同智能的概念、原理和方法及其典型實例的新型科學理論,涉及微觀語言學與 信息本體學兩個基礎(chǔ)分支。 融智學導論對理論融智學、 工程融智學和應用融智學的研究成果只做簡單介紹。2.2 特殊性中國科技論文在線同樣是研究自然語言,不同學科有不同的視角,基礎(chǔ)語言學站在人類智能主體立場, 采用自然人的視角;計算語言學站在人工智能代理立場,采用計算機的視角;融智學導論 站在( k + 1 )雙文雙語協(xié)同智能計算系統(tǒng)“第三智能”立場,采用人機分工協(xié)作的視角。所謂“第三智能”就是繼人腦智

7、能和電腦智能之后而出現(xiàn)的協(xié)同智能,其特征在于: “人際、人機、機際、機人”之間的“合理分工、優(yōu)勢互補,高度協(xié)作、優(yōu)化互動”協(xié)同智能的 16 字方針“合理分工、優(yōu)勢互補,高度協(xié)作、優(yōu)化互動”。2.3 重要性 自然語言與機器語言的互換主要是通過高級程序語言的中介而實現(xiàn)的。這條看似唯一 的(直接)形式化途徑與融智學導論的(間接)形式化道路相比,對英文信息處理而言是 殊途同歸,但是,對中文信息處理而言,前者就是“崎嶇小路”而后者才是“平坦大道”, 因為,現(xiàn)在基于小字符集的形式語言和形式文法,根本沒有考慮漢語的情形,更加不是為 基于大字符集的中文而構(gòu)造的,所以有必要為漢語及中文訂制相應的形式語言和形式文

8、法, 最好是能兼容大、小字符集的形式語言和形式文法。融智學導論(字本位與中文信息處理 的基礎(chǔ))正是從“第三智能”的角度來提出這個課題的。英文信息處理的事實證明,詞的 “粗分” 如:英語的十大詞類代詞、數(shù)詞、動詞、名詞、形容詞、副詞、冠詞、感嘆詞、介詞、連詞與“細分” 如:英文信息處理的 UCREL CLAWS5 Tagse,t UCREL CLAWS6 Tagset 和 UCREL CLAWS7 Tagset Here, UCRELm eans the University Centre for Computer Corpus Research on Language, and CLAWSm

9、eans the Constituent Likelihood Automatic Word-tagging System.是必需的。如果漢語的字與英語的詞能等價,那么,也就可直接套用 英文信息處理的做法,然而,問題在于漢語的字與英語的詞之間,不僅不具備等價關(guān)系, 而且,是兩個完全不同的對象語言體系,各自的思維模式也不同,因此中文信息處理不能 簡單地直接套用英文信息處理的做法,事實也證明此路根本走不通(中文信息處理現(xiàn)有的 三大流派各自的預期都是至少還需要幾代人的努力才可望有所突破)。而本專著所提出的 間接形式化道路頂多需要十年就可做到全面突破(而且其中每個階段都可有一個個具體的 驚人的大突破如

10、在漢語 “詞”的切分與標注的根本性問題上, 如在機器翻譯上, 等等) 。2.4 研究途徑從(k + 1 )雙文雙語協(xié)同智能計算系統(tǒng)的角度來看,解決漢語“詞”的切分與標注的 根本性問題,是從解析“字與字組的關(guān)系”入手的,首先,要給出“字”的形式化定義, 其次,要實現(xiàn)“字組”的數(shù)字化劃分,最后,要完成“(字的每個)義項”的字組化解釋。 具體做法可概括為:間接形式化、全域數(shù)碼化和雙文雙語化,其特征在于子全域和超子域 的進階層式化 這是以優(yōu)化的形式理論為支持的科學方法的一個關(guān)鍵之所在。2006 年 10月 2 至 6日西班牙)的科學論文題目。 IntelligenceMeans,而且有高效實用的( k

11、 + 1 )雙文雙語協(xié)同智能計算系統(tǒng)為具體實現(xiàn)手段。2.5 基本假設假設 1:如果腦與智不是一回事, 那么,就沒有必要等到徹底搞懂某一類腦才能理解智。假設 2:如果智意味著信息處理 Information Processing (智意味著信息處理) Zou Xiao Hui (in Zhu Hai, China),那么,理解智的關(guān)鍵就在于理解信息 (如數(shù)字 意義)。 假設 3:如果任何符號形式都可轉(zhuǎn)化為數(shù)字形式, 那么,語言形式也可轉(zhuǎn)化為數(shù)字形式。 假設 4:所謂理解, 其實是在全局中對局部的準確把握或認知, 如在參照系中確定序位。2.6 (根本上具有創(chuàng)新意義的知識)貢獻貢獻 1:發(fā)現(xiàn)并清楚地

12、論述了漢語及中文的基本原理字的迭交原理。圖 1 是“字的迭交原理” (字組的“粗分”與“細分”是其派生原理)示意圖。由圖 1 可直觀“字”這個概念的八個基本屬性,分別揭示了微觀語言學的文字、語音、 語義、語法、語用、字典、釋義元語和對象語言八個分支學科的研究對象。筆者提交第七屆國際本體學術(shù)大會可用解析法把“形字”和“音字”從“迭交”的“復合字”中分離出來 類似于“做(虛擬的)分體手術(shù)” ,首先分離“形字”和“音字” ,進而分離大、小字符集的“音字” 從而明確漢語中國科技論文在線及中文的“字”的形式特點:字(對象語言)具有一語雙文(大、小字符集兼容)的特征。 在傳統(tǒng)的“實字”與“虛字”的基礎(chǔ)上引

13、入“用字”和“ 解字”,不僅可形成“字組 方陣”,而且還可提煉出 “組字公式”,從而揭示出 “字與字組的關(guān)系” ,如“意 +義=意義” , 在形式上只是一個簡單的字符串公式,在內(nèi)容上卻是一個非常復雜而又十分重要的“組字 公式”,其中前字限制后字。 于是, 現(xiàn)在的問題也就集中到了什么是意義這個問題上面來了。西方哲學“語言轉(zhuǎn)向”以來,所有的科學預言和哲學反思幾乎全都止步于這個被稱為人文、社會和哲學等諸學科共同的核心問題或意義難題,竟然可用“意義=意 +義”這樣的10一個十分簡單的字符串公式直接地破題。這不能不說是漢語及中文一個非常獨特的功能至少在此超級難題的解釋上,英文不具備中文的這個優(yōu)點。中文有

14、自己獨特的(區(qū)別于小字符集的) 形式化途徑。鄒曉輝:重構(gòu)“概念分類體系”的新思路與新方法 ( CLSW-6 論文集 ) ISBM981-05-5217-3。這些發(fā)現(xiàn)是以往的漢語研究未曾注意更未曾上升到理論高度并形成體系的知識創(chuàng)新點。 其中區(qū)分“對象語言的字”和“釋義元語的字(作為構(gòu)造字組的基本結(jié)構(gòu)單位) ”甚至 就是漢語“字本位”理論 本該但是沒有(注意且上升到理論高度并形成體系) 。也未曾注意且更未曾上升到理論高度并形成體系的知識創(chuàng)新點。圖 1 (漢語及中文的基本原理)“字的迭交原理”示意圖貢獻 2:給出了信息的一般科學定義(即“信息本體”)及其最基本的分類:? (信息) = ? (義) +

15、 ? (文) + ? (意),其中, ? (文)含 ? (物)的外觀。? (義) = 可序位化的基本關(guān)系及其所構(gòu)成的結(jié)構(gòu)體系,? (文) = 可數(shù)字化的基本符號及其所構(gòu)成的形式體系,? (意) = 可屬性化的基本概念及其所構(gòu)成的學問體系,(普遍的) 信息是內(nèi)容上可概念化、 形式上可數(shù)字化、本質(zhì)上可序位化的范疇,可劃分 為概念、符號、關(guān)系三個基本范疇 理論融智學通論所述四大基本范疇: (物)載體; (意)概念、(文)符號、(義)關(guān)系 =信息 本體,其特例(如具體的信息)就是各種各樣特殊的信息。貢獻 3:給出了智以及智力或智能的本質(zhì)定義(即:智就是信息處理)及其基本分類。 (人們通常所說的) 智力

16、或智能, 其實就是(如某類) 腦所具有的信息處理能力的簡稱。 以生理的腦為載體(如人腦)的信息處理能力,即人腦智力; 以物理的腦為載體(如電腦)的信息處理能力,即電腦智能;以人腦與電腦合理分工、 優(yōu)勢互補, 高度協(xié)作、 優(yōu)化互動的信息處理能力, 即協(xié)同智能。 分別代表著智以及智力或智能的三種基本類型,其共性在于三者都具有信息處理能力, 其個性在于三者各自具有相互之間不同的特定的信息處理能力。貢獻 4:發(fā)現(xiàn)并清楚地論述了認知心理學雙文雙語信息處理與理解的協(xié)同存儲原理。 筆者在認知心理學雙語者研究兩個對立的學說即:單獨存儲模型與共同存儲模型。兩者都有各自相應的部分事實作為其理論的實踐支撐。的基礎(chǔ)之

17、上進一步提出了理論與實際更10111213吻合的新學說協(xié)同存儲模型 (以往的單獨存儲模型與共同存儲模型可分別被視為其特例 中兩個極端情形) 。采用成熟的計算機數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)在個性化與標準化有機統(tǒng)一的 策略指導下, 成功地實現(xiàn)了協(xié)同存儲模型的計算機模擬, 從而, 很好地解決了計算機輔助翻 譯或雙文雙語信息處理乃至知識管理的一系列常規(guī)難題。 不僅對機器翻譯和翻譯記憶技術(shù)的中國科技論文在線質(zhì)量提高具有明確的理論指導作用和實踐意義而且對語言與知識的定量處理很有效。貢獻 5:發(fā)現(xiàn)并清楚地論述了形式理論的受限原理:易判斷易計算原理。 筆者不僅對(基于小字符集的)形式理論進行了合理限制(即排除了不可判

18、斷的 與 不可計算的這兩類超出了人腦與電腦的常規(guī)信息處理范圍的情形),而且 , 嚴格地區(qū)分了 子全域 0,1 和超子域及其各個進階層式 0,1+00,01,10,11+ +000 0, ,1 111 , 從而為模式識別 (間接地包含其他各種符號的模式識別) 、語言理解(間接地包含自然語言 理解)和知識表達(含知識獲取與知識重用)等人工智能(如基于人腦智力的電腦智能)的 一系列難題在協(xié)同智能計算系統(tǒng)的條件下得以順利解決, 奠定了完全 (間接)形式化的基礎(chǔ)。貢獻 6:發(fā)現(xiàn)并清楚地論述了序位邏輯學的基本原理及其適用工具:雙列表分層集合。 筆者根據(jù)“信息基本定律”這一經(jīng)歷了 30 年經(jīng)驗證實和數(shù)理證明

19、以及眾多的國際國內(nèi) 著名學者舉世聞名的一個個特例(如數(shù)學的恒等變換及同解變形、形式語言的 S = np + vp 和數(shù)理邏輯的演繹推理) 的充分驗證的科學假設 14,構(gòu)造了雙列表分層集合的序位邏輯模型, 不僅可有效吸納數(shù)理邏輯、算術(shù)推演、謂詞邏輯和形式邏輯這些特殊的形式演繹體系,如: 通過左列表單一集合實現(xiàn)純形式的數(shù)學計算和推演, 而且還可針對實際需要進行相應的推廣 或擴充,如通過右列表實現(xiàn)由單列表單一集合向雙列表分層集合乃至多列表標志集合的語義 擴展或變換,從而可實現(xiàn)由簡單到復雜的邏輯推演和數(shù)學計算、統(tǒng)計乃至估算。也就是說, 邏輯學由哲學思辨到數(shù)學計算或推演進而再到計算機處理或再現(xiàn)的拓廣過程

20、由此發(fā)展到了 登峰造極的程度可實現(xiàn)人際、 人機、機際、機人的連通演繹乃至實用的相對完全歸納 (如 一個個受限范圍的完全歸納在更大的范圍之內(nèi)仍然是相對完全歸納) ,突顯了選域測序定位 這一序位邏輯學的基本法則, 為任何形式及內(nèi)容的信息判定與計算、 統(tǒng)計乃至估算所依據(jù)的 基準參照系和應對參照系的建立奠定了堅實的邏輯學基礎(chǔ)。貢獻 7:發(fā)現(xiàn)并清楚地論述了自然語言的通用計算方法和基本計量工具。 筆者依據(jù)形式信息的判定與計算、 統(tǒng)計乃至估算的融智學原理, 分別已把漢語及中文與 英語及英文的對象語言導入雙列表分層集合, 從而有效地建立了自然語言的通用計算方法和 基本計量工具( 1),對“詞”的切分與標注可做

21、到相對完全歸納(相當于窮舉語言知識)。貢獻 8:發(fā)現(xiàn)并清楚地論述了信息知識的通用計算方法和可擴展的計量工具。 筆者依據(jù)內(nèi)容信息的判定與計算、 統(tǒng)計乃至估算的融智學原理, 分別已把漢語及中文與 英語及英文的釋義元語導入雙列表分層集合, 從而有效地建立了自然語言的通用計算方法和 可擴展計量工具( 2);進而再導入多列表標志集合從而有效地建立了信息知識的通用計算 方法和可擴展的計量工具。 至此為止, 語言與知識的計量這一難題的解決雖有一個基于相對 完全歸納策略的系統(tǒng)解決方案(相當于必要條件), 但是, 似乎仍然缺乏某種讓它活起來的 保障措施(相當于充分條件),如確保協(xié)同智能得以實現(xiàn)的生產(chǎn)式教學和一體

22、化管理。貢獻 9:發(fā)明了 (區(qū)別于消費式教學的) 生產(chǎn)式教學方法以及相應的協(xié)同智能訓練體系。 貢獻 10:發(fā)明了(產(chǎn)、學、研、教、用、算)一體化(的知識信息數(shù)據(jù)的)管理方法。 這樣,也就為筆者發(fā)明的( k + 1)雙文雙語協(xié)同智能計算系統(tǒng)的推廣普及鋪平了道路。 3結(jié)語簡單的說,融智學的主題就是研究協(xié)同智能,如(k+1)雙文雙語協(xié)同智能計算系統(tǒng) 15。如果“智意味著信息處理” 16而“處理” 的八個基本步驟是清楚的, 那么,“什么是信息” 的問題也就成了一個更基礎(chǔ)的必須解決的重大問題。我們知道“語言形式與語義內(nèi)容(含知識) ”或“數(shù)據(jù)與知識”可視為信息這種現(xiàn)象的筆者為自己在 30 年前提出的這一

23、科學假設(信息基本定律: 的幾乎所有可以視為其特例的事實和理論(包含許多著名的理論) 15 即人腦和電腦有機結(jié)合而成的“雙腦” 。也就是我們常說的 1+12 在腦與智的問題上的具體體現(xiàn)。筆者提交 第七屆國際本體學術(shù)大會 ( 2006年10月2至6日西班牙)的科學論文題目。 Intelligence Means Information Processing (智意味著信息處理)Zou Xiao Hui (in Zhu Hai, China)1416同義并列,對應轉(zhuǎn)換)旁征博引了可驗證,在有限域內(nèi)至今沒有發(fā)現(xiàn)一個反例。中國科技論文在線形式與內(nèi)容兩個方面。因此, “語言與知識” 它們的根本難點在于語

24、言與知識的定性分析和定量計算或統(tǒng)計乃至估算。前者涉及(文化基因工程的) 文本(形式信息)基因系統(tǒng),后者涉及(文化基因工程的)知識(內(nèi)容信息)基因系統(tǒng)以及總體知識框架。也就自然成了融智學兩個主要分支研究領(lǐng)域, 涉及國內(nèi)外人工智能學界公認的自然語言理解 即(理論上叫做)計算語言學(含自然語言理解,如英文、中文等具體的自然語言信息處理的實踐)和知識工程 即(狹義的)人工智能(含知識的獲取、表達和重用)這兩個非常重要的研究領(lǐng)域 融智學實際上發(fā)現(xiàn)了“人腦(本身的)智能 路徑。其中,智是核心,協(xié)同智能計算系統(tǒng)是主干,。圖 2 是基于語言學與信息學的融智學研究對象的主題架構(gòu)示意圖。 (可融通融合的)智意味著信息處理語言形式與語義內(nèi)容(含知識) ”或“數(shù)據(jù)與知識”? (文) + ? (意) +? (義) = ? (信息) = ? (本體)蘊含 ? (物)的外觀形象和內(nèi)部結(jié)構(gòu)原理及其運動變化的法則物) = ? (載體)人腦電腦視聽硬件 +軟件1+k)協(xié)同智能(主體)k+1)協(xié)同智能(代理)計算系統(tǒng)形式信息)模式識別與語義(內(nèi)容信息)模式識別17自然語言理解(如中文信息處理)與知識工程(涉及知識獲取、知識表達與知識重用)圖 2“基于語言學與信息學的融智學研究對象的主題架構(gòu)”示意圖由圖 2 兩個大箭頭內(nèi)嵌的字詞解釋,讀者可洞悉上述融智學理論框架兩個基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論