




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第三章漢字編碼原理第三節(jié) 漢字編碼原理一、什么是漢字編碼 漢字外碼:漢字的字母數(shù)字代碼 計算機人機界面:鍵盤 字母 數(shù)字 控制符號 功能鍵位二、漢字編碼的歷史發(fā)展 廣義的漢字編碼是從漢字字書的編撰算起的。因為字典的編撰,離不開字的排序和檢索。 字典是供人來*查閱,編碼輸入法是讓機器到字庫中去查找。都是按照某種規(guī)則排列和檢索漢字*的。 可以說,早期的漢字排字檢字法就是漢字編碼的早期形式。比如, 筆畫部首法、四角號碼法、拼音查字法、筆形查字法等。最早的漢字代碼 年清政府創(chuàng)辦電報局,由丹麥人設計的漢字電報碼。它的方法是將電報用的漢字按照筆畫順序由少到多排列成一個字表。 使用的字數(shù)不到一萬,就以字的順
2、序號作該字的代碼。第一個字的代碼就是,第五個字的代碼就是,第個字的代碼就是。 電報碼一直使用到今天,經過不斷的修訂完善成為標準電碼本。 十個數(shù)字如果轉換為二進制表示,則只需四位二進制單位。這樣,用“嘀嗒”兩種狀態(tài)就可以傳輸漢字了。 電報碼的特點是“字”“碼”一一對應,沒有重碼。 缺點是難以記憶,非經過專門訓練無法使用。三、編碼原理 、確定編碼對象 漢字的總字數(shù)有萬多,現(xiàn)代漢語常用的也有萬左右。信息交換用漢字編碼字符集基本集根據(jù)各種統(tǒng)計數(shù)據(jù)確定收入漢字個。這些漢字就是一個編碼對象的數(shù)量級。 “大字符集” 包括大陸、臺灣、日本、韓國所使用的全部漢字的集合。有0902字。 數(shù)量不同,有關參數(shù)也不同。
3、、確定碼元類型和數(shù)量 碼元是用來作為漢字代碼的元素。例如, 電報碼的碼元就是這十個阿拉伯數(shù)字。 碼元的種類和數(shù)量與編碼容量、以及碼長、重碼數(shù)等指標直接相關。 比如電報碼,采用十個數(shù)目字作碼元,四位碼長的編碼容量至多個漢字,從到。超過萬字就是出現(xiàn)重碼,否則就必須增加碼長。 一般的編碼方案多采用個英文字母作碼元, 也有的在這個基礎上再增加個數(shù)目字,使碼元數(shù)增加到個的方案, 還有的把字母鍵盤區(qū)的其它功能鍵也利用上的。 這種需要增加碼元數(shù)的方案多數(shù)是形碼方案。、確定編碼規(guī)則 理想的規(guī)則是“字碼意義對應” 、規(guī)則簡單,好學易記,沒有復雜的條件限制或特例情況。 實際上最難做到。 比如按形排序,同筆畫數(shù)的字
4、很多,同筆畫的字當中,起筆相同的也不少,甚至筆順相同的也有。究竟誰先誰后,難以給出一個標準。 按音排序也有個同音字的先后問題。同音、同調、同筆畫數(shù)的漢字再按什么條件排先后,都是難題。 人為地增加許多規(guī)定,勢必增加用戶的學習量。、編制碼表 所謂碼表就是“字”“碼”對照表。 按照確定的編碼規(guī)則將基本集中的全部漢字逐個給出正確的代碼,形成一個字碼對照表。、編制軟件、上機實現(xiàn) 這部分是軟件人員的工作。軟件人員根據(jù)編碼規(guī)則和碼表, 設計一個查字管理程序,經過調試,準確無誤,就可以投入使用。 至此,一個漢字編碼系統(tǒng)就完成了從設計到實現(xiàn)的整個過程。四、漢字編碼的技術參數(shù)指標 漢字編碼是一個理論與實踐性都很強
5、的課題,而最重要的是它的實踐性,也即在實際應用中的效果。 因為這是要解決漢字信息處理的第一個“人機界面”,所以,幾乎全部技術指標都與“人”密切相關。 在“人服從機器”還是“機器服從人”這個問題上,曾經有過一個認識過程。 開始為了使機器能夠處理漢字,主要是從機器出發(fā)的,重點考慮機器的特點和條件,較少考慮人的特點和需要。 后來才將立腳點轉移到“人”這方面來,將許多困難都留給機器,使機器對人服務得友好、周到,人的操作變得輕松、愉快。什么是理想的編碼 、規(guī)則簡單。 一般具有中等文化水平的人不需要經過專門培訓就可以通過“自學”完全掌握。 如果能夠利用人的常識和知識,如果這種常識和知識中涉及或包括了關于漢
6、字的基本知識, 編碼規(guī)則應當簡化到不需要特殊的規(guī)則的地步。、碼元數(shù)量少 一般不超過個,即個字母外加個數(shù)字鍵。最好只使用個字母鍵。 這樣,對于人來說記憶量減少,對于機器來說,在鍵盤管理方面較好處理。、碼長短 每個漢字的代碼不超過四碼。如果采用簡碼和不等長碼處理的話, 平均碼長應當在碼以下。、編碼容量具有可擴展性 漢字信息處理除了基本集的個漢字外,隨著實際應用的發(fā)展,不可避免地出現(xiàn)繁體漢字的問題以及大字符集的問題。 理想的漢字編碼應當在不增加或少增加規(guī)則的基礎上,就能夠使編碼容量擴展到繁體漢字或更大的范圍。、采用詞語編碼 應具有足夠的詞匯編碼容量。詞語碼最長不超過碼。 應該給用戶提供足夠的詞庫擴展
7、空間和擴展手段,使用戶能夠方便自如地根據(jù)自己的需要增加用戶詞匯。、重碼率低 一般用戶可以實現(xiàn)“盲打”,即不用看鍵盤(有一定的鍵盤基礎的情況下)和提示行就能夠輸入漢字。 只有能實現(xiàn)盲打,才能提高輸入速度。、服務功能 系統(tǒng)能提供方便周到的自學檢索服務功能。例如, 對規(guī)則的訓練指導、查詢疑難字,容錯處理、允許模糊輸入等等。、具有廣泛的適應性 適合不同年齡層次、不同地域、不同文化背景的人學習使用, 同時,又能適應各種類型的輸入,比如 “照打”、“想打”、“聽打”、“盲打”等。第四節(jié)漢字編碼類型、流水碼 流水碼的特點是: 碼元只有個阿拉伯數(shù)字; 一般多為等長四碼,有效數(shù)字不足四位的在前面加零補足四位;
8、字、碼一一對應,沒有重碼; 字、碼之間沒有理據(jù)性,就是沒經過專門訓練不能做到“見字識碼”;、拼音碼 是以漢字的讀音屬性為編碼依據(jù),采用鍵盤上的拉丁字母做為碼元的編碼方法。又分為 “全拼音碼”、 “簡化拼音碼”、 “雙拼音碼”三種。 一般不加聲調。全拼音碼的特點 碼元為個拉丁字母; 與教學、社會應用的拼音規(guī)則完全一致,只要會拼音的人就會編碼,能夠作到“見字識碼”; 因為是“按音編碼”,怎么讀就怎么輸入,便于思路的連續(xù)性,適于“想打”即寫作者邊想邊打的方式; 為不等長碼,最長的如“裝”“創(chuàng)”“雙”音節(jié)都是碼; 重碼較多,有的音節(jié)多達上百個重碼,多次翻頁,很不方便;簡化拼音碼 主要為了解決碼長過長的
9、問題,減少擊鍵次數(shù),提高輸入速度,在拼寫規(guī)則上加以簡化處理,將雙字母聲母“”“”“”以及許多兩字母以上的復韻母都各用一個字母代替。比較常用的如前面介紹的所配置的拼音碼。 簡化拼音碼的特點,除了比全拼音碼減少碼長外,其余與全拼音碼都一樣。但是,因為,增加了字母替換規(guī)則,所以,就比全拼音碼增加了學習量。雙拼音碼 根據(jù)漢字傳統(tǒng)的“反切”拼音的原理,采用一聲一韻的字母拼寫形式,進一步將每字的碼長減少到兩碼。 雙拼音碼的特點是: 碼元為個拉丁字母; 較復雜的聲母、韻母替換規(guī)則,須經過一段時間的學習才能掌握; 重碼仍然與普通音碼一樣多; 由于碼長短可以提高輸入速度;標調拼音碼 漢語是有聲調的語言,漢語的聲
10、調是一個重要的“音位”,具有重要的辨義功能。有一種樂器叫做“雷琴”,可以只用“音高”就能模擬漢語的句子。這個例子足以說明漢語聲調的重要性。 拼音碼為了降低重碼率,采用標調的辦法,這樣的拼音碼,我們稱之為“標調拼音碼”。 漢語的音節(jié)是有數(shù)的:不加聲調只有個,加聲調則有個左右。 漢字共有萬個。收在基本集中的有個。 不加聲調平均每個音節(jié)約有個重碼,加上重碼分布的不平衡,個別的音節(jié)就有幾十甚至上百個; 如果加上聲調,平均每個音節(jié)只有不到個重碼了。 在漢語拼音方案中規(guī)定了“陰平、陽平、上聲、去聲”四種聲調的調號,調號的位置要標在一個 音 節(jié) 的 主 要 元 音 的 上 面 。 比 如 ,“”等。雖然字庫
11、中做好了帶調號的主要元音的字模點陣,但是鍵盤上卻沒有相應的鍵位,所以,采用通用鍵盤輸入漢字就無法輸入調號,所以只好采用變通的辦法。 漢語拼音歷史上標調的方法有三種:符號標調法、數(shù)字標調法和字母標調法。符號標調法 年注音字母公布時采用小圓圈標調,以一個拼音音節(jié)的四個角表示四個不同的聲調,叫做“四聲點法”或叫“點角法”。后來,改用現(xiàn)在的調號來表示。數(shù)字標調法 比如用、分別表示一聲、二聲、三聲、四聲,將表示調號的數(shù)字放在一個音節(jié)的末尾。 在實際使用當中,又有一些變通的處理辦法。比如, 挑選出一個含字數(shù)最多的聲調,作為“默認值”,用“零位”表示,即用不加調號來表示該調號。其余的分別加上數(shù)字調號,實際上
12、等于只增加了三個調號符號。 這樣作可以縮短碼長,減少擊鍵次數(shù)。采用這種方法的編碼方案如山東煙臺唐懋寬的“聲數(shù)碼”就是其中較有代表性的一個。字母標調法 在具體做法上各有不同。這種方法在漢語拼音方案的設計過程中就有人試驗過, 其中比較有代表性的例子是“國語羅馬字拼音方案”等?!皣_”的聲調表示法 陰平(包括輕聲)用基本形式; 陽平濁音半濁音聲母()用基本形式; “”、“”作韻頭時改為、,如: 黃、元、今, 但是,單獨作韻母時則用雙字母表示,如: 皮、湖; 開口韻在元音后加“”,如 拔、達、啥;上聲 單元音連寫,如閃,版、比; 復韻母“”改“ ” 、 “ ” 改“”,如檢、廣、百、好; 、四韻采用連
13、寫法,如北、手、姐、妥;去聲 韻尾改寫:改為、改為、改為、改為、改為或,如在、占、勝; 采用字母標調的漢字編碼方案如山東青島丁天鐸的“漢語輔助字編碼方案”。拼音編碼的瓶頸 同音字繁多,影響輸入 新華字典中,讀SHI音的字有72個, 漢語詞典中,讀YI音的字有164個。 同音詞也影響編碼輸入 Shi-shi的詞就有如下的24條: 失實、失時、詩史、失事、 失勢、施事、實施、時時、 事事、時事、時勢、時世、 時式、史詩、史實、試試、 誓師、事實、適時、事勢、 逝世、世事、視事、實時 形碼 字“形”具有“音”和“義”都無法比擬的唯一性。 字“形” 圖形信息豐富,可供采用。 字“形”不受不同口音、不同
14、國家的影響。 形碼主要根據(jù)漢字的字形特征信息進行編碼。 漢字的形體分析有筆畫、字根、結構方式、部位特征等。 從不同的角度選擇特征信息、設計編碼規(guī)則,就形成了不同類型的編碼方案。筆畫筆形碼 以漢字的基本筆畫特征為取碼依據(jù),參考筆順、部位特征等信息的編碼方案統(tǒng)稱為“筆畫筆形碼”。 這類編碼方案的基本方法是, 首先確定漢字的基本筆畫數(shù),一般有“五種”、“六種”或“八種”不等, 然后確定這些基本筆畫的固定順序,給每種筆畫一個順序代號。 按照寫字時筆順的先后就可以將一個漢字轉換成筆畫代碼的線性排列。 例如,假設確定的漢字基本筆畫為“橫、豎、撇、捺、點、折”這樣的六種,并且代號依次為“、”, 這時,任何一
15、個漢字都可以轉換成用這六個數(shù)字組成的“數(shù)字串”來表示了。如:“中”,“國”等。筆畫筆形碼的特點 碼元數(shù)少; 規(guī)則極其簡單,幾乎沒有記憶量; 平均碼長過長,因為漢字的平均筆畫約為劃,基本集中筆畫最多的“齄”有劃。所以,單純用筆畫編碼由于碼長過長而降低了實用價值。 由于有些字的筆順缺乏統(tǒng)一和規(guī)范,在具體編碼時會出現(xiàn)二義性情況;字根碼 漢字是可以分析的,從說文解字開始,漢字就有兩分法的傳統(tǒng),就有所謂“獨體”“合體”之說。至今仍沿用的“部首查字法”實際上就是將漢字拆分成有限數(shù)量的結構單位,依此作為漢字檢索的依據(jù)和途徑。字根碼的特點 克服表音碼不知讀音就不會編碼的缺點,同時也避免了漢語方言對拼音碼的干擾
16、。即使不認識的漢字也能根據(jù)字根給出正確的編碼; 重碼率比音碼大幅度降低; 規(guī)則較復雜,包括拆字、取碼、確定字根代碼等都有許多硬性規(guī)定的規(guī)則; 學習量較大,尤其是字根與鍵位的對應關系難學難記。通常要把一、二百個字根安排在個鍵位上不經過專門訓練無法使用。一般學習期要周到一個月; 因漢字的拆分沒有統(tǒng)一的標準和規(guī)范,在字根的數(shù)量、大小、拆分方法、名稱等方面都沒有標準。各個編碼方案的作者按照自己的認識去做,這些做法又與傳統(tǒng)的漢字教學有許多不同,因此,給用戶造成許多困惑。字根碼的瓶頸 部首只是漢字分析結果的一部分。 傳統(tǒng)的漢字分析結果有偏旁、部首、聲符、形符等名稱。 它們之間雖然有區(qū)別,但是尚缺乏統(tǒng)一的稱
17、呼。比如說“偏旁”包括“部首”,但又有“左偏右旁”之說; 又比如,上下結構的字,部首在上部,該怎么稱呼它的結構成分呢; 而且一個漢字去掉部首之后的部分,該叫什么名稱呢。 許多表形碼的作者自發(fā)地使用“字元”、“字素”、“構件”、“部件”、“構字成份”、“筆畫組合”、“字根”等名稱。這些名稱的稱謂對象并沒有根本的區(qū)別。經研討,大家基本傾向于使用“字根”的名稱。本書就用“字根”一詞作為筆畫與漢字之間的成份的稱呼。所以,字根碼就包括了所有進行漢字拆分的編碼方案。 大小、標準都不同。比如“韶”字有分成“ 音 ” “ 召 ” 二 根 的 , 也 有 分 成“立”“日”“刀”“口”四根的。字形特征碼 利用漢
18、字的結構特征信息對漢字進行的編碼叫做“字形特征碼”。如“四角號碼”、“三角號碼”、“高低筆號編碼”等。 字形特征碼的編碼依據(jù)是漢字部位信息量分布不平衡的特點。這使?jié)h字作為圖形符號,在識別和使用中具有“模糊識別”的特點,就是說,在一個字中總有些部位的筆畫、結構成分所含有的信息量大、成為重要的區(qū)別性特征;而有些筆畫和結構成分的信息量很少,區(qū)別性意義不大,在識別過程中往往被忽略。在編碼規(guī)則上,就選取具有區(qū)別性特征的部位的信息進行編碼。字形特征碼的特點 除了具有形碼的不受字音影響的特點外,也克服了筆畫筆形碼受筆順的限制、字根碼拆分標準不統(tǒng)一等二義性的干擾; 規(guī)則相對簡單; 碼元少,碼長不長,所以重碼較
19、多,為了區(qū)別重碼,只好增加規(guī)則或增加碼長;、音形結合碼 漢字是一個形、音、義的統(tǒng)一體。漢字的信息特征分布在字形、字音、字義方面。在編碼實踐中,人們逐漸認識到,單純的按“音”或按“形”編碼都不很理想,都不符合“近字性”原則。從漢字本身分析,同音字的原因主要在于漢字形旁的辨義功能;而具有相同的部首的一批漢字的區(qū)別性特征在于讀音的不同。顯然,字音和字形都是漢字的重要區(qū)別性特征,二者都不可缺少。 字音屬性主要有聲、韻、調,字形屬性有筆畫、字根、部位、結構特征等。而筆畫、字根也可以有“形”、有“音”、有“名稱”。因此,究竟利用哪些特征信息來編碼,實在大有資源潛力。這也是造成漢字編碼多樣化的一個重要原因。
20、聲形碼 以漢字的語音特征為主、以字形信息為輔的編碼叫做“聲形碼”。比如,一組同音字中再用該字的偏旁讀音的聲母作為區(qū)別碼。這種重碼字的區(qū)別碼是有理據(jù)的,可以不必特別記憶。此外也可以用字形的結構特征或某一個部位的特征等作為區(qū)別碼,都屬于聲形碼。因為是兼顧了字音與字形兩種信息,所以,每種信息都取其中的一部分而不是全部。比如,也可以先取整個字的聲母,再將該字一分為二,分別取各部分的讀音的聲母,組成這個字的編碼。聲形碼的特點 因為不是字音的全部信息,所以容許使用者發(fā)音不準,比如只取聲母,發(fā)不準韻母的用戶也照樣能用; 基本符合漢字使用習慣,如平時所說的“人言為信”、“弓長張”、“立早章”則“信”的編碼就是
21、“”、“張”的編碼是“”、“章”的編碼是“”。 因為使用了字形信息,所以,在編碼的同時,破壞了語言思維的連續(xù)性,不便于“想打”,而且難以提高速度; 字形屬性信息仍然由于缺乏統(tǒng)一標準而干擾取碼。形聲碼 以形為主以音為輔的編碼叫做“形聲碼”。字形屬性一般多分析出字根,再根據(jù)字根的讀音特征,按音編碼。例如,組成“韶”字的幾個字根的讀音分別是“、”若取這些字根的讀音的首字母可以組成“”四個字母代碼。這就是“韶”字的形聲碼。當然,形聲碼的取碼規(guī)則各有不同的特點,形成各類大同小異的形聲碼。形聲碼的特點 避免了記憶復雜的字根鍵位分布對應關系,按讀音確定字根代碼,比形碼大大地減少了學習記憶量; 以字形信息為主
22、,利用的信息量大,重碼率相對少; 基本保留了形碼不受方音干擾的優(yōu)點,對于不認識的漢字,拆成字根后就都能認識了;聲形義結合碼 除了字形和讀音信息之外,還有的方案作者利用漢字的意義信息來編碼,目的是進一步區(qū)別重碼,作到“全息編碼”。所謂“意義”信息其實只是“義類”信息,即漢字所表示的意義的大類。這種對漢字“義類”的認識來源于說文解字。 許慎在說文解字中分析出的個部首都具有表“義類”的功能。個部首的排列依據(jù)也不是象今天似的按筆畫多少,而是按“意義”。 關于部首表義的研究一直沒有間斷,在清代達到了一個高峰。所以,漢字的意義屬性的確屬于漢字屬性的一部分。 現(xiàn)代漢字已經不斷地“符號化”了,究竟具有多少表義性,大可疑問。因此,利用意義屬性給漢字編碼,就應當考慮意義信息的比重、客觀理據(jù)性和可接受性。 聲形義結合碼的例子如郭秀珍的“聲韻部形碼”,在意義類型上,將部首分成“ 自 然 ” “ 生 物 ” “ 生 理 ” “ 生活”“余類”五大類。臺灣的“倉頡輸入法”將“倉頡字母 ” 分 成 “ 哲 理類”“筆畫類”“人身類”“字形類”四大類。聲形義結合碼的特點 綜合利用漢字的形、聲
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 金屬餐具的供應鏈管理優(yōu)化考核試卷
- 紡織行業(yè)的經濟價值考核試卷
- 計算機網絡設計與實施相關試題及答案
- 公路施工決策分析試題及答案
- 數(shù)據(jù)庫安全策略與用戶管理試題及答案
- 鉆探設備在寶石礦勘查中的技術要求考核試卷
- 液體乳品物流與供應鏈優(yōu)化策略考核試卷
- 計算機三級考試中心知識回顧與試題及答案
- 計算機在多媒體信息處理與內容分發(fā)考核試卷
- 行政管理理論基礎知識試題及答案
- 餐飲員工入職登記表
- GA 1808-2022軍工單位反恐怖防范要求
- -衛(wèi)生資格-副高-護理學-副高-章節(jié)練習-??谱o理學-內科疾病患者護理(多選題)(共42題)
- 一帶一路 匠心織竹-計劃書
- Unit 1 Extended reading Eating in China 公開課-高中英語牛津譯林版(2020)選擇性必修第一冊
- 大腳丫和玻璃鞋
- 施工組織課程設計完整
- GB/T 5271.1-2000信息技術詞匯第1部分:基本術語
- GB/T 22271.1-2021塑料聚甲醛(POM)模塑和擠出材料第1部分:命名系統(tǒng)和分類基礎
- GB 14934-2016食品安全國家標準消毒餐(飲)具
- CA6140車床撥叉加工工藝及工裝設計
評論
0/150
提交評論