![漢字字符編碼的發(fā)展_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/11/0d51b87e-0062-4fa1-a1ba-943c562c04aa/0d51b87e-0062-4fa1-a1ba-943c562c04aa1.gif)
![漢字字符編碼的發(fā)展_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/11/0d51b87e-0062-4fa1-a1ba-943c562c04aa/0d51b87e-0062-4fa1-a1ba-943c562c04aa2.gif)
![漢字字符編碼的發(fā)展_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/11/0d51b87e-0062-4fa1-a1ba-943c562c04aa/0d51b87e-0062-4fa1-a1ba-943c562c04aa3.gif)
![漢字字符編碼的發(fā)展_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/11/0d51b87e-0062-4fa1-a1ba-943c562c04aa/0d51b87e-0062-4fa1-a1ba-943c562c04aa4.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、漢字字符編碼的發(fā)展關(guān)鍵詞:漢字字符 編碼 問題 發(fā)展階段摘要:作為一名中國人,尤其是一名計(jì)算機(jī)學(xué)者,了解漢字字符編碼的發(fā)展是非常必要的。相對西文字符集的定義,漢字編碼字符集的定義主要有兩大困難:選字難和排序難。選字難是因?yàn)闈h字字量大(包括簡體字、繁體字、日本漢字、韓國漢字),而字符集空間有限。排序難是因?yàn)闈h字可有多種排序標(biāo)準(zhǔn)(拼音、部首、筆畫等等),而具體到每一種排序標(biāo)準(zhǔn),往往還存在不少爭議,如對一些漢字還沒有一致認(rèn)可的筆畫數(shù)。因此,漢字字符編碼的發(fā)展的道路是曲折的、坎坷的,遇到不少的困難,雖然現(xiàn)在還有一些是沒解決的,但目前的情況還算是比較穩(wěn)定。As a Chinese person, par
2、ticularly a computer scholars, learn about the development of Chinese character encoding is very necessary. The definition of relative Western language character set, the definition of a coded character set mainly in the two major difficulties: choice difficult, and sorting. Choice difficult because
3、 the word so much Chinese characters (including the simplified Chinese, traditional Chinese, Japanese, Korean, and Chinese) character set of the space is limited. Sorting difficult because Chinese characters can have multiple sort criteria (phonetic, radical, strokes, and so on), and specific to eac
4、h type of sorting standards, often a lot of controversy, as well as on some Chinese characters there is no agreement approved by the strokes. Therefore, the development of Chinese character encoding is tortuous and difficult, you experience a lot of difficulties, although some unsolved, it is relati
5、vely stable. 漢字出現(xiàn)過的問題:漢字內(nèi)部碼問題 用二進(jìn)制代碼來表示字符和漢字是現(xiàn)代信息交換中通用的手段,它除廣泛應(yīng)用于通信(電報(bào)、電傳等數(shù)據(jù)通信,如GB 8565-88信息處理文本通信用編碼字符集)外,還在計(jì)算機(jī)中得到普遍使用。在計(jì)算機(jī)中使用的字符和漢字的代碼,通常為內(nèi)碼。目前的計(jì)算機(jī)系統(tǒng),無論是硬件還是軟件都是基于西文字符集(如ASCII)設(shè)計(jì)生產(chǎn)的,而大多數(shù)漢字字符集中的漢字編碼都與機(jī)內(nèi)原有西文字符編碼發(fā)生了沖突,有兩種解決的方法: (1)保持原有西文字符編碼,修改漢字編碼; (2)將西文字符和漢字統(tǒng)一編碼,即原有西文字符的編碼也要修改。 如ISO 10646就采用了第二種方法
6、,可以說徹底解決了各個(gè)文種的字符(包括漢字)的機(jī)內(nèi)碼問題。 但第二種方法無法繼續(xù)使用已有的計(jì)算機(jī)系統(tǒng),幾乎全部工作都要從頭開始。目前使用更多的是上述的第一種方法。為了讓更多的文字進(jìn)入現(xiàn)有的計(jì)算機(jī)系統(tǒng),可以采用“一碼對多字”的技術(shù):即同一個(gè)機(jī)內(nèi)碼在不同情況下表示不同的字符(這些不同的字符往往有密切的聯(lián)系)。這樣的系統(tǒng)大都設(shè)置了切換鍵,用來選取系統(tǒng)的當(dāng)前環(huán)境。下列是一些漢字的編碼簡明對照表這些漢字取自國標(biāo)(GB 2312-80)中的分級與排列內(nèi)容,漢字區(qū)位碼用阿拉伯?dāng)?shù)字表示,每個(gè)漢字對應(yīng)4個(gè)數(shù)字。凹 1628 八 1643 白 1655 班 1664 碧 1744 博 1809 不 1827 擦
7、1833才 1837 參 1846 藏 1856 草 1861 測 1866 茶 1872 拆 1880 產(chǎn) 1890長 1904 抄 1913 車 1921 的 2136 等 2140 大 2083 而 2288 發(fā) 2302凡 2318 方 2329 符 2391 改 2436 個(gè) 2486 根 2489 更 2492 功 2506夠 2527 古 2537 華 2710 計(jì) 2838 佳 2849 科 3138 良 3328 媽 3472年 3674 陪 3767 巧 3941 日 4053 生 4190 凸 4525 文 4636 儀 5039與字庫相聯(lián)系的兩個(gè)重要問題:一是字體,二是
8、輸入法。字體:現(xiàn)在Windows95/98/NT/ME及Windows 2000簡體中文版雖然都支持GBK編碼方案,但所提供的四種顯示、打印字體中,只有宋體、黑體支持21003個(gè)漢字,仿宋、楷體只支持GB2312-80的6763個(gè)漢字,給用戶帶來不便。漢字的輸入法:字庫更新了,輸入法碼表的字詞也應(yīng)該作相應(yīng)更改。但微軟為我們提供的輸入法卻還是老面孔,存在著不少缺陷。所以我們建議輸入法的研制者能根據(jù)GB/18031-2000信息技術(shù)數(shù)字鍵盤漢字輸入通用要求和國家語言文字規(guī)范標(biāo)準(zhǔn)適時(shí)地更新,使之更加實(shí)用,更加科學(xué)規(guī)范。漢字編碼的歷史階段:一、各自為政,多碼并存的階段(1)GB碼。20年前GB2312
9、-80的公布、各種漢字輸入法和漢字編輯軟件的研制成功,使計(jì)算機(jī)處理中文信息變?yōu)楝F(xiàn)實(shí)。GB碼全稱是GB2312-80 信息交換用漢字編碼字符集基本集。這個(gè)字符集是1980公布的。在研制過程中,既參考了第一批異體字整理表(1955)、簡化字總表(1964)和印刷通用漢字字形表(1965)等漢字規(guī)范標(biāo)準(zhǔn),又兼顧了當(dāng)時(shí)信息處理的實(shí)際需要,以漢字頻度的高低、構(gòu)詞能力的強(qiáng)弱、實(shí)際用處的大小為原則進(jìn)行選字,共漢字6763個(gè),其中一級字3755,按拼音排序,二級字3008,按偏旁排序;收錄符號682個(gè)。GB2312選定能容納數(shù)萬漢字的中西文兼容的編碼體系。用兩個(gè)七位字節(jié)表示漢字的編碼方案。設(shè)定若干編碼集合,每
10、個(gè)可容納8836個(gè)字符,這樣只要選用幾個(gè)集合,就能解決全部漢字編碼的問題。 GB2312-80是第一個(gè)漢字信息技術(shù)標(biāo)準(zhǔn),也是我國信息技術(shù)領(lǐng)域內(nèi)重要的基礎(chǔ)標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)的制定和應(yīng)用為規(guī)范、推動(dòng)中文信息化進(jìn)程起了很大作用。有人稱GB2312-80字符集是“漢字信息技術(shù)的秦始皇”1,這話一點(diǎn)兒也不過分。這個(gè)字符集廣泛運(yùn)用國內(nèi)DOS軟件和簡體Windows 3.2中。GB2312只是對廣泛通用的漢字進(jìn)行編碼,它適用于一般漢字信息處理系統(tǒng)的要求。繼GB2312之后,又?jǐn)U充制定了幾個(gè)輔助集:第一輔助集:GB 12345-1990第二輔助集:GB/T 7589-1987第三輔助集:GB 13131-1991第
11、四輔助集:GB/T 7590-1987第五輔助集:GB 13132-1991 基本集和第二、第四輔助集是簡化字體;第一、三、五輔助集是繁體字集。同時(shí),基本集與輔一集、輔二集、輔三集、輔四集與輔五集中的漢字分別有簡、繁體的一一對應(yīng)關(guān)系,也即第一、三、五輔助集分別是基本集、第二、四輔助集是繁體字影射集,并且簡/繁體字在兩個(gè)字符集中同碼(個(gè)別簡/繁關(guān)系為一對多的漢字除外)。這幾個(gè)輔助集標(biāo)準(zhǔn),共收了約四萬個(gè)漢字,它們形成了漢字交換碼的標(biāo)準(zhǔn)系列。比如1990年制定的繁體字的編碼標(biāo)準(zhǔn)GB12345-90信息交換用漢字編碼字符集第一輔助集,目的在于規(guī)范必須使用繁體字的各種場合,以及古籍整理等。該標(biāo)準(zhǔn)共收錄6
12、866個(gè)漢字(比GB2312多103個(gè)字,其它廠商的字庫大多不包括這些字),純繁體的字2200余個(gè)。(2)BIG5編碼BIG5碼是雙字節(jié)編碼方案,其中第一個(gè)字節(jié)的值在OXAO-OXFE之間,第二個(gè)字節(jié)在OX40-OX7E和OXA1-OXFE之間。BIG5收錄13461個(gè)漢字和符號,包括:符號408個(gè),編碼位置A140-A3BE。常用字5401個(gè),編碼位置A440-C67E,包括臺灣教育部頒布的常用國字標(biāo)準(zhǔn)字體表的全部漢字4808個(gè),臺灣教科書常用字587個(gè),異體字6個(gè)。次常用字7652個(gè),編碼位置C940-F9D5,包括臺灣教育部頒布的次常用國字標(biāo)準(zhǔn)字體表的全部漢字6341個(gè),罕用國字標(biāo)準(zhǔn)字體
13、表中使用頻率較高的字1311個(gè)。BIG5是是目前臺灣、香港地區(qū)普遍使用的一種繁體漢字的編碼標(biāo)準(zhǔn)。此外日、韓等漢字文化圈國家,由于存在各自的利益,在漢字交換碼標(biāo)準(zhǔn)各唱各的戲,形成了多碼并存、互不兼容的局面,給漢字信息交換帶來了相當(dāng)?shù)幕靵y。80年代中期,西文已在信息高速公路上加速前行,漢字卻仍在信息高速公路上開著拖拉機(jī)。二、統(tǒng)一編碼,世界大同階段國際標(biāo)準(zhǔn)組織于1984年4月成立ISO/IEC JTC1/SC2/WG2工作組,針對各國文字、符號進(jìn)行統(tǒng)一性編碼。1993年國際標(biāo)準(zhǔn)化組織發(fā)布了ISO/IEC 10646-1信息技術(shù)通用多八位編碼字符集第一部分體系結(jié)構(gòu)與基本多文種平面,奠定了漢字國際統(tǒng)一編
14、碼的基礎(chǔ)。HZ碼:HZ碼是在Internet上廣泛使用的一種漢字編碼。ISO2022CJK碼:IOS2022是國際標(biāo)準(zhǔn)組織(ISO)為各種語言字符制定的編碼標(biāo)準(zhǔn)。采用二個(gè)字節(jié)編碼,其中漢語編碼稱ISO2022 CN,日語、韓語的編碼分別稱JP、KR。一般將三者合稱CJK碼。目前CJK碼主要在Internet網(wǎng)絡(luò)中使用。影響最大的是以下三種編碼:(1)Unicode編碼(Universal Multiple Octet Coded Character Set)1991年美國跨國公司成立Unicode Consortium,并于1991年10月與WG2達(dá)成協(xié)議,采用同一編碼字集。目前Unicode
15、是采用16位編碼體系,其字符集內(nèi)容與ISO10646的BMP(Basic Multilingual Plane)相同。Unicode是一種用于使網(wǎng)頁和軟件界面中的文本具有全球可讀性的編碼格式。這項(xiàng)標(biāo)準(zhǔn)利用向它所支持的24種語言中的每一個(gè)字符分配惟一的代碼發(fā)揮作用。2)GB13000.1標(biāo)準(zhǔn)及GBK編碼ISO/IEC 10646-1為世界各民族文字統(tǒng)一編碼,架起了一座橋梁。為了取得電腦時(shí)代的“書同文”,我國等同采用此標(biāo)準(zhǔn)制定了GB 13000.1-1993。該標(biāo)準(zhǔn)于1992年公布,采用了全新的多文種編碼體系。它收錄了1986年重新發(fā)表的簡化字總表和1988年公布的現(xiàn)代漢語通用字表的全部規(guī)范漢字,
16、完全兼容GB2312-80標(biāo)準(zhǔn),與國際標(biāo)準(zhǔn)ISO/IEC10646-1對應(yīng)接軌,并包含了臺灣BIG5編碼中的所有漢字,共有漢字和偏旁21003個(gè)。由于其新的編碼體系與現(xiàn)有多數(shù)操作系統(tǒng)和外部設(shè)備不兼容,所以它的實(shí)現(xiàn)仍需要有一個(gè)過程,目前還不能完全解決我國當(dāng)前應(yīng)用的迫切需要。(3)GB 18030-2000標(biāo)準(zhǔn)GB 18030-2000全稱是信息技術(shù)信息交換用漢字編碼字符集基本集的擴(kuò)充,由信息產(chǎn)業(yè)部和原國家質(zhì)量技術(shù)監(jiān)督局于2000年3月17日聯(lián)合發(fā)布,作為國家強(qiáng)制性標(biāo)準(zhǔn)自發(fā)布之日起實(shí)施。標(biāo)準(zhǔn)起草組經(jīng)過反復(fù)斟酌和驗(yàn)證,提出了標(biāo)準(zhǔn)制定原則與GB 2312信息處理交換碼所對應(yīng)的事實(shí)上的內(nèi)碼標(biāo)準(zhǔn)兼容,在字匯上支持GB 13000.1的全部中、日、韓(CJK)統(tǒng)一漢字字符和全部CJK擴(kuò)充A的字符,并且確定了編碼體系和27484個(gè)漢字,形成兼容性、擴(kuò)展性、前瞻性兼?zhèn)涞姆桨?。該?biāo)準(zhǔn)采用單字節(jié)、雙字節(jié)和四字節(jié)三種方式對字符編碼。單字節(jié)部
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代環(huán)保材料在建筑領(lǐng)域的應(yīng)用前景
- 現(xiàn)代交通工具設(shè)計(jì)中傳統(tǒng)文化的融入方式
- 基坑安全專項(xiàng)方案
- 現(xiàn)代東方風(fēng)洗浴中心的節(jié)能環(huán)保裝修方案
- 2024年春九年級化學(xué)下冊 第9單元 溶液 實(shí)驗(yàn)活動(dòng)5 一定溶質(zhì)質(zhì)量分?jǐn)?shù)的氯化鈉溶液的配制說課稿 (新版)新人教版
- 2023三年級英語下冊 Unit 1 Animals on the farm Lesson 3 Fish and Birds說課稿 冀教版(三起)
- 2023二年級數(shù)學(xué)上冊 一 加與減第1課時(shí) 誰的得分高配套說課稿 北師大版
- 2025蓄電池產(chǎn)品及零部件檢驗(yàn)合同書
- 《5 奇形怪狀的熱帶魚(圖形工具)》說課稿-2023-2024學(xué)年清華版(2012)信息技術(shù)一年級上冊
- 2024秋五年級英語上冊 Module 2 Unit 1 What did you buy說課稿 外研版(三起)
- 充電樁知識培訓(xùn)課件
- 2025年七年級下冊道德與法治主要知識點(diǎn)
- 2025年交通運(yùn)輸部長江口航道管理局招聘4人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 老年髖部骨折患者圍術(shù)期下肢深靜脈血栓基礎(chǔ)預(yù)防專家共識(2024版)解讀
- 汽車電氣設(shè)備檢測與維修中職全套教學(xué)課件
- 幼兒園大班數(shù)學(xué)PPT課件2、3、4的分解與組成
- API682機(jī)械密封沖洗方案(中文)課件
- 七年級上冊英語完形填空、閱讀理解綜合訓(xùn)練100題(含參考答案)
- DB35T 1345-2013蘭壽系列金魚養(yǎng)殖技術(shù)規(guī)范
- 祛痘產(chǎn)品原料配方與消費(fèi)者祛痘方案選擇建議
- 年產(chǎn)一萬噸蓖麻項(xiàng)目可行性論證報(bào)告
評論
0/150
提交評論