




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
中文信息處理的應(yīng)用爭論報告在多元化的信息中,文字信息是一種最普遍的形式。例如:文件、信函、報表、記錄、印刷品等根本上承受文字表達(dá)的形式?!爸形男畔⑻幚怼?070年月流行起來的,實際上,自古以來,中文信息〔漢字從開頭編制第一部漢字字典和編寫第一篇文摘起就開頭了中文信息的分析與綜合處理的研“中文信息處理”加工、轉(zhuǎn)換、傳輸、復(fù)制、等各種處理的一項興的科學(xué)技術(shù)。其穿插性使之成為“信息科學(xué)”的分支;其綜合性應(yīng)用使之成為“系統(tǒng)工程”的一個實例。它涉及到語言文字學(xué)、計算機(jī)科學(xué)、信息科學(xué)、工程心理學(xué)、數(shù)理統(tǒng)計學(xué)、聲學(xué)、自動識別技術(shù)、人工智能、網(wǎng)絡(luò)技術(shù)、用。7020多年,完成了由初級階段向比較成熟階段的過渡,這是微電子技術(shù)和IT技術(shù)高速進(jìn)展以及迫切的應(yīng)用需求所促成的?,F(xiàn)在,很多移動都已具備中文菜單和顯示中文短信息功能,但都有缺陷,還不是真正意義上的“全中文”。只有當(dāng)它既能顯示中文又能輸入和處理中文,也就是說,能直接利用手機(jī)進(jìn)展中文輸入時,才可以說是“全中文”。然而,一般移動僅有數(shù)字鍵,這無疑對漢字?jǐn)?shù)字輸入法〔簡稱數(shù)字碼)WAP技術(shù)成為的熱點之時,連英文也面臨著需要編碼輸入的嚴(yán)峻事實。當(dāng)前,美國、日本及我國香港特區(qū)都在大力進(jìn)展一種雙向?qū)ず魴C(jī),它同時具有輸入功能,即,它同樣也面臨著中文處理問題。還有電子詞典,如何高效、標(biāo)準(zhǔn)化地利用電子字典查找漢字和單詞,也是只能各位信息處理應(yīng)當(dāng)解決的問題。信息家電也會是一個熱門話題,它也面臨著中文信息處理的問題。另外,從計算機(jī)本身的進(jìn)展來看,手持機(jī)〔包括PDA和汽車電腦〕和可佩帶式計算機(jī)的中文信息處理尚有諸多問題需要解決??膳鍘接嬎銠C(jī)還處于進(jìn)展初期,其應(yīng)用領(lǐng)域廣泛,尤其在軍事上有很大的用途,面臨軍事革命的挑戰(zhàn),我國在爭論其相應(yīng)設(shè)備時,首先遇到的就是中文信息處理問題。微軟和IBM信息處理。在計算機(jī)網(wǎng)絡(luò)方面,中文信息處理將具有更加寬闊的前景。高效的中文搜尋引擎、電子郵件、中文電子商務(wù)等技術(shù)均與中文信息處理親熱相關(guān)。移動、信息終端等電子設(shè)備入方面,硬件的進(jìn)一步微型化、連續(xù)語音識別、噪聲背景下的語音識別以及漢語口語理解等都是亟待解決的難點。手寫漢字識別技術(shù)方面,聯(lián)機(jī)狀態(tài)下的筆寫入方式,通常的麻煩就是寫得快了,或字與字之間的停頓太短,會將兩個單字拼湊成一個字,又成了錯字。盡管有調(diào)整轉(zhuǎn)變手寫速度“快速、中速、慢速”等技術(shù)措施,有用中卻使人感到頻繁換用鼠標(biāo)時的不便乃至產(chǎn)生厭煩心情而不愿使用了。非特定的脫機(jī)手寫漢字識別的困難則更多。因此,在今后數(shù)十年內(nèi),中文鍵盤輸入方法任然會是處于主導(dǎo)地位的輸入技術(shù)。文字信息的表現(xiàn)形式是多元化的。文字信息是大多數(shù)信息表現(xiàn)形式的根底,而文字信的各種治理系統(tǒng)和效勞性系統(tǒng)。20世紀(jì)中期以來的事,它包含有輸入、存儲、處理、傳送、輸出等環(huán)節(jié)。下面著重介紹輸入和輸出兩個環(huán)節(jié)。漢字的輸入技術(shù)。單字、詞匯和語句的鍵盤輸入〔1〕專用型的中鍵盤或大鍵盤整字輸入方式大鍵盤:一鍵一字輸入方式。中鍵盤:一鍵多字輸入方式?!?〕通用小鍵盤拼音方式:利用字音編碼輸入。漢語拼音方式:全拼音方式。雙拼方式。拼形方式:利用字形特征編碼輸入。筆畫筆形式偏旁部首式字形構(gòu)造式混合式。音形混合:以音為主,以形為輔形音混合:以形為主,以音為輔手寫輸入方式語音輸入方式掃描方式方式漢字的輸出技術(shù)漢字的輸出有多種方式屏幕顯示:顯像管顯示器、液晶顯示器;打印機(jī):針打式、噴墨式、激光打??;語音輸出;繪圖儀;機(jī)。漢字輸入輸出所必需的漢字庫計算機(jī)系統(tǒng)中存儲漢字字形信息的字庫,字庫分為三種類型:點陣字庫;(2)矢量字庫;曲線字庫:整字輪廓字庫、壓縮字庫。中文信息處理根底理論方面的爭論內(nèi)容漢字識別〔包括印刷字體、限制性手寫字體及一般手寫字體〕;漢語語音識別〔包括語音波形編碼和解碼、語音的分解與合成〕;漢語自然語言的理解與處理;漢語的機(jī)器翻譯;中文文獻(xiàn)的自動訂正、自動標(biāo)引和自動文摘;漢字的單字、詞匯使用頻度的爭論;漢語的詞語、語法、語料庫爭論;中文信息處理應(yīng)用平臺爭論;漢字編碼理論爭論;漢字編碼方法爭論;漢字編碼方案評測標(biāo)準(zhǔn)爭論。中文文獻(xiàn)信息處理工作內(nèi)容利用各種編輯軟件進(jìn)展編輯排版。利用制表軟件編制各種表格。利用數(shù)據(jù)庫軟件建立各種各樣的文獻(xiàn)信息數(shù)據(jù)庫及其他各種應(yīng)用軟件系統(tǒng),例如理系統(tǒng)、檢索系統(tǒng);出版社、書店的集成式治理系統(tǒng)、檢索系統(tǒng);各種書刊文獻(xiàn)、檔案的自動分類系統(tǒng)、自動編文摘系統(tǒng)或其他的智能式文獻(xiàn)處理系統(tǒng)。應(yīng)用中文的各種治理系統(tǒng)和效勞性系統(tǒng)國家各部門、廠礦企業(yè)、銀行、醫(yī)院、酒店的治理系統(tǒng),專家系統(tǒng),信息詢問檢索系統(tǒng),電化教學(xué)系統(tǒng),遠(yuǎn)程教育系統(tǒng),電子印刷排版系統(tǒng),辦公自動化系統(tǒng),翻譯系統(tǒng),通信系統(tǒng),財會系統(tǒng),售票系統(tǒng),詢問效勞系統(tǒng),系統(tǒng)等等,多不勝數(shù)。隨著計算機(jī)信息處理應(yīng)用范圍的擴(kuò)大,中文信息處理技術(shù)還將逐步深入和提高。中文信息處理的特點是與西文信息處理相比較而言的,特點和任務(wù)是相互聯(lián)系的。下面從文字、詞匯、語音、語法以及軟硬件系統(tǒng)等方面作一下介紹。一、中文信息處理的特點〔一〕大字符集“小字符集”。例如:拉丁字母2633個;日文假名號稱“五十音圖”48個,平假9610個元音字母,1424個;4026個字母。漢字屬于“大字符集350070006萬。千百年來,代有遞增:從東漢末年的《說文解字》到清代《康熙字典》,1500多年的時間9353470433007000多字。1994年《中華字典》制造了字典收字?jǐn)?shù)量之最——86000個。國家標(biāo)準(zhǔn)《信息處理交換用漢字編碼字符集.根本集》〔GB2312-80〕共收漢字圖形676313053〔CJK〕收字20902個。這僅僅是中國〔包括臺灣〕、日本、韓國,當(dāng)前電腦中所使用的漢字。要實現(xiàn)“全漢字”的信息處理大目標(biāo),單是漢字庫的研制就任重道遠(yuǎn)?!捕尘幋a方案眾多使用字母數(shù)字鍵盤輸入漢字信息,必需通過漢字編碼。由于漢字是形音義的統(tǒng)一體,編碼時所承受的信息類型不同,會有不同的編碼規(guī)章和方案。因此,無論從編碼的角度,還是從使用者的角度,都面臨多樣化的選擇?!踩承误w多樣,構(gòu)造簡單“橫”“豎”“撇”“點”“折”存在多種筆形變體。如:“千”、“面”、“令”、“木”、“才”等字中的“撇”,“方”、“房”、“放”、“芳”、“游”等字中的“方”。漢字構(gòu)造層疊錯落,筆畫、字根、偏旁、部首、部件、字元,見仁見智,難以統(tǒng)一,這些漢字字庫的研制以及字形的標(biāo)準(zhǔn)化都帶來了相當(dāng)打的困難。〔四〕漢字方言分歧嚴(yán)峻現(xiàn)代漢語有七大方言區(qū),每個方言區(qū)內(nèi)又有次方言區(qū),次方言區(qū)下還有不同的方言點。一般話普及應(yīng)用水平遠(yuǎn)未到達(dá)語音識別、人機(jī)對話所要求的標(biāo)準(zhǔn)化和標(biāo)準(zhǔn)化的程度。因此,方言語音分歧成為語音信息處理的瓶頸?!参濉惩衄F(xiàn)象突出41256763個漢字計算,每個音節(jié)約16.454678132.7個?!擦硶婧袥]有分詞標(biāo)志西方承受拼音文字,書面上詞與詞之間用空格加以分隔,因此很簡潔進(jìn)展詞匯的統(tǒng)計分析和認(rèn)知處理。〔七〕漢語沒有形態(tài)漢語的詞無論沖當(dāng)什么成分,構(gòu)成什么關(guān)系,詞形本身沒有任何變化,只有依靠虛詞、語序進(jìn)展語法分析,不利于計算機(jī)的處理?!舶恕吃~的兼類與活用簡單詞類劃分不一,存在大量“兼類”?!簿拧痴Z法規(guī)章多有例外詞語搭配缺乏標(biāo)準(zhǔn)化的約束,人們習(xí)慣于意會而不留意形式標(biāo)志的規(guī)章?!彩称缌x現(xiàn)象突出詞匯歧義原來是語言中的一個比較普遍的現(xiàn)象。二、中文信息處理的展望中文信息處理三十年來的進(jìn)展,在幾個重要領(lǐng)域,如漢字編碼、漢字語音模式識別、字型技術(shù)中文電子辭典,計算機(jī)關(guān)心翻譯、全文檢索等方面,都取得了舉世矚目的成就。由于距離。將來中文信息處理的創(chuàng)進(jìn)展,概括起來主要有以下幾個方面:〔一〕信息化當(dāng)代世界已經(jīng)進(jìn)入信息網(wǎng)絡(luò)化時代,全面信息化是社會進(jìn)展和科技進(jìn)步的主流。信息處理技術(shù)的水平反映了一個國家和民族的生存力量、生存質(zhì)量、綜合競爭力。在這樣一個時代,充分必要的信息和先進(jìn)的信息處理技術(shù)都是極其重要的資源,假設(shè)不把握它、掌握它和利用它,無論對個人還是對整個社會,都將是一種悲劇。因此,一切競爭都集中反映在信息的獵取、傳輸、處理和運用技術(shù)上。應(yīng)當(dāng)把推動社會全面信息化作為中文信息處理根底應(yīng)用爭論的首要任務(wù)?!捕持悄芑瘡挠嬎銠C(jī)實現(xiàn)由數(shù)據(jù)處理到信息處理跨越的那一刻,就竭力信息工程界的先驅(qū)者們開頭了計算靈巧能化的爭論。雖然歷史不長,但是,初始化的靈感與沖動給人們描述了奇特而迷人的前景。機(jī)器人戰(zhàn)勝國際象棋冠軍的實例,演示了計算靈巧能在與“個體人”的智能之間的一次較量,證明白計算機(jī)能夠戰(zhàn)勝“個體人”。從這個意義上說,計算靈巧能是具有無限前景的一個領(lǐng)域。計算機(jī)到底能不能獲得智能,如何獲得智能,以及計算靈巧能與人類智能的同質(zhì)性和異質(zhì)性,等等,盡管目前還沒有答案,但可以確定地說,計算機(jī)人工智能與語言文字信息處理智能化親熱相關(guān)。應(yīng)當(dāng)充分生疏到,中文信息處理智能化與我國的社會進(jìn)展、科技進(jìn)步、文化教育、經(jīng)濟(jì)場關(guān)系到民族和國家生存、進(jìn)展的競爭中,只能前進(jìn),不能后退,只能成功,不能失敗?!踩彻こ袒瘜W(xué)問經(jīng)濟(jì)是計算機(jī)信息革命引發(fā)的概念,語言應(yīng)用爭論成果的產(chǎn)品化和市場化是學(xué)問系。中國人對國外軟件硬件產(chǎn)品和技術(shù)漢化的過程,存在一個消化理解和改造創(chuàng)的問題。理領(lǐng)域,主動漢化與兼容,開放了全方位、友好界面的系統(tǒng)攻關(guān),不斷推出訪用便利、效勞周到、技術(shù)含量高的包括簡繁兼容、中日韓漢字兼容等的應(yīng)用系統(tǒng),成為市場的主流產(chǎn)品。著對我國中文信息處理軟件行業(yè)的生存和進(jìn)展、對中文信息處理技術(shù)的進(jìn)步和數(shù)據(jù)安全等,都是一個巨大的挑戰(zhàn)。〔四〕國際化中國擁有世界四分之一的人口,中國改革開放和經(jīng)濟(jì)騰飛不僅轉(zhuǎn)變了中國人民的生活水平和生存方式,也使中國的和平崛起戰(zhàn)略在全球一體化大潮中直接間接的影響和轉(zhuǎn)變著世界。中文信息處理技術(shù)已成為世界矚目的熱點。單純從經(jīng)濟(jì)目的動身,也足以吸引世界興旺國家信息工程界有識之士的目光。微軟、IBM等多家外國計算機(jī)公司在我國設(shè)立爭論所,聘用我國信息處理人才,在漢字編碼、漢字識別、語音識別等很多領(lǐng)域,投入巨額經(jīng)費,從事中文信息處理智能化的爭論。事實證明,中國要走向世界,中文也要走向世界,國際化是鮮紅
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 蘭考三農(nóng)職業(yè)學(xué)院《簡明藝術(shù)學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年山西貨運從業(yè)資格證模擬考試0題及答案
- 六盤水師范學(xué)院《嵌入式系統(tǒng)設(shè)計C(實驗)》2023-2024學(xué)年第二學(xué)期期末試卷
- 江蘇省宿豫區(qū)實驗高中2024-2025學(xué)年高三下學(xué)期學(xué)業(yè)質(zhì)量監(jiān)測(期末)語文試題含解析
- 上饒師范學(xué)院《量化交易理論與實務(wù)實驗》2023-2024學(xué)年第二學(xué)期期末試卷
- 吉林省吉林市第十六中學(xué)2025屆初三下學(xué)期生物試題模擬試題含解析
- 下期湖南岳陽市城區(qū)2024-2025學(xué)年全國中考預(yù)測試題含解析
- 江蘇省宿遷地區(qū)2024-2025學(xué)年六年級下學(xué)期模擬數(shù)學(xué)試題含解析
- 四川三河職業(yè)學(xué)院《西方文學(xué)名著導(dǎo)讀》2023-2024學(xué)年第二學(xué)期期末試卷
- 江西省南昌一中學(xué)2025屆初三復(fù)習(xí)質(zhì)量監(jiān)測(五)生物試題含解析
- 高中語文高考名篇名句默寫專項練習(xí)(九年高考真題)(附參考答案答題技巧)
- 機(jī)械制圖國家標(biāo)準(zhǔn)
- 汽車吊起重吊裝方案-
- 文藝心理學(xué)課件
- 陰囊疾病超聲診斷課件
- 信息資產(chǎn)及分級管理程序
- 信用修復(fù)授權(quán)委托書
- T-CREA 010-2022 保溫裝飾板外墻外保溫工程技術(shù)標(biāo)準(zhǔn)
- GA∕T 1729-2020 保安防衛(wèi)棍-行業(yè)標(biāo)準(zhǔn)
- 綜合部崗位廉潔風(fēng)險點及防范措施匯總表
- 燈具成品檢驗報告
評論
0/150
提交評論