第五章中文信息處理_第1頁
第五章中文信息處理_第2頁
第五章中文信息處理_第3頁
第五章中文信息處理_第4頁
第五章中文信息處理_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、第五章第五章 中文信息處理中文信息處理5.25.2 中文信息在計算機內(nèi)的表示中文信息在計算機內(nèi)的表示在計算機內(nèi)表示中文信息的最早在IBM、富士通、日立等計算機生產(chǎn)廠家的計算機中開始,但采用的編碼形式互不兼容。為了能使?jié)h字能夠在計算機中通行,國際標(biāo)準(zhǔn)組織(ISO)、國際電子電氣工程師協(xié)會(IEEE)以及各個使用漢字的國家和地區(qū),在計算機技術(shù)發(fā)展中,都制定了各種各樣的漢字編碼字符集。 ISO/IEC 2022定義了七位代碼和八位代碼的空間及其代碼空間擴充的技術(shù)。絕大多數(shù)計算機系統(tǒng)所采用的字符集,都是以ISO/IEC 2022為基礎(chǔ)的。一般漢字在計算機內(nèi)部的表示都是通過擴充編碼長度實現(xiàn)的。漢字的幾種

2、通行名稱漢字的幾種通行名稱 Hanzi,Hantsu,漢字 Ideographic character,表意字符,中文字符 Kanji-日文中的叫法 Hanja-朝鮮文中的叫法 CJK-中日韓通用字符集 UnihanISO/IEC 2022ISO/IEC 2022單八位代碼空間圖單八位代碼空間圖 ISO/IEC 2022ISO/IEC 2022單八位代碼空間圖單八位代碼空間圖 00-31(十六進制為00H-1FH)為第一個控制字符集C0H的編碼區(qū)域 32(十六進制為20H)為Space 127(十六進制為7FH)為DELETE符; 128-160(十六進制為80H-A0H)為第二個控制字符集C

3、1的編碼區(qū)域 33-126 ( GL ) 和161-254 (GR) 則是兩個圖形字符的編碼區(qū)域漢字在漢字在ISO/IEC 2022ISO/IEC 2022空間中的位置空間中的位置 ISO/IEC 2022ISO/IEC 2022的體系結(jié)構(gòu)特點的體系結(jié)構(gòu)特點 代碼空間狹小,凡是C0, C1控制字符相關(guān)的空間都回避不用;漢字編碼沒有利用80 (十六進制) 以上的空間。 按國家/地區(qū)分別編碼。 需要一整套復(fù)雜的指明/調(diào)用的控制功能來區(qū)分代碼空間中的字匯。漢字代碼漢字代碼 漢字內(nèi)碼是真實世界的漢字信息在計算機系統(tǒng)中的最基本表示。 根據(jù)漢字信息在計算機內(nèi)部使用的目的和存儲的方式,漢字代碼有各種不同的形

4、式和稱謂。 最常使用的有交換碼和內(nèi)碼等。 漢字交換碼漢字交換碼 漢字交換碼是用于信息交換的漢字代碼。 可以用雙字節(jié)、3字節(jié)和4字節(jié)表示。 漢字交換碼一般不能直接用于信息處理。例如,在GB2312中,“碼”字的交換碼為十六進制的42h/6Bh。無法與ASCII碼的“Bk”相區(qū)別。 在實際使用中,交換碼必須轉(zhuǎn)換為機內(nèi)碼。 但是在國際標(biāo)準(zhǔn)ISO/IEC 10646和Unicode中,交換碼與處理碼可以是一致的,因為此時的ASCII碼也采用雙字節(jié)表示。漢字區(qū)位碼漢字區(qū)位碼 漢字區(qū)位碼是漢字交換碼的另一種表示形式。 在GB2312中,漢字交換碼所占的方陣大小為9494,若縱向定義為區(qū)號(取值范圍為十進制

5、數(shù)的0-94),橫向定義為位號(取值范圍為十進制數(shù)的0-94),則兩個坐標(biāo)明確了一個漢字的位置。區(qū)號和位號的編號都是從1開始,到94結(jié)束。 例如,在GB2312-80中,“ 碼”字所在的區(qū)號為“34”,位號為“75”,故其區(qū)位碼為“3475”。GB2312-80漢字編碼 國標(biāo)交換碼: 問題:信息通信中,漢字的區(qū)位碼與通信使用的控制碼(00H1FH)發(fā)生沖突。 解決方案:為了避免漢字區(qū)位碼與通信控制碼的沖突,ISO2022規(guī)定,每個漢字的區(qū)號和位號必須分別加上32(即二進制0010 0000)。 經(jīng)過這樣處理得到的代碼稱為漢字的“國標(biāo)交換碼”(簡稱交換碼)。因此,“大”字的交換碼是: 00110

6、100 01110011。漢字區(qū)位碼漢字區(qū)位碼漢字機內(nèi)碼漢字機內(nèi)碼 用于信息處理的漢字代碼,也稱漢字處理碼。 漢字的內(nèi)碼長度可以不同,通常漢字內(nèi)碼是雙字節(jié)。 對于單字節(jié)操作系統(tǒng)內(nèi)核,漢字代碼為了與ASCII碼相區(qū)別,往往把兩字節(jié)(至少把第一個字節(jié))的最高位(Bit 7)置為1。GB2312-80漢字編碼 機內(nèi)碼: 問題:文本中的漢字與西文字符經(jīng)常是混合在一起使用的,漢字信息如不予以特別的標(biāo)識,它與單字節(jié)的標(biāo)準(zhǔn)ASCII碼就會混淆不清。 解決方法:把一個漢字看作兩個擴展ASCII碼,使表示GB2312漢字的兩個字節(jié)的最高位(b7)都等于“1”。這種高位為l的雙字節(jié)(16位)漢字編碼就稱為GB23

7、12漢字的“機內(nèi)碼”,又稱內(nèi)碼。如:“大”字的內(nèi)碼是:10110100 11110011(B4F3)漢字機內(nèi)碼漢字機內(nèi)碼交換碼、交換碼、 區(qū)位碼和內(nèi)碼關(guān)系區(qū)位碼和內(nèi)碼關(guān)系在GB2312-80中,交換碼、 區(qū)位碼、處理碼之間存在著簡單的轉(zhuǎn)化關(guān)系。設(shè)交換碼為JH(J為高位,H為低位,為十六進數(shù)),區(qū)位碼為QW(Q為區(qū)號,W為位號,為十進制數(shù)),處理碼為CL(C為高位,L為低位,為十六進制數(shù)),則:J=Q+32 -再轉(zhuǎn)換為十六進制數(shù)H=W+32 -再轉(zhuǎn)換為十六進制數(shù)C=J+80HL=H+80H漢字編碼字符集漢字編碼字符集按照一組無歧義的規(guī)則而定義的漢字字匯的有序集合。其中每一個漢字與它的代碼表示之間

8、具有一一對應(yīng)關(guān)系。在信息處理技術(shù)中漢字編碼字符集用于漢字信息的表示、交換、傳輸、處理、存儲、輸入及顯示。在國際標(biāo)準(zhǔn)化組織ISO的定義中,“無歧義的規(guī)則”很重要,制定這些規(guī)則的目的是為了確保編碼的唯一性,避免重碼。漢字編碼的關(guān)系漢字編碼的關(guān)系GBK95GB231280GB1234590GFF00FF00 FF00FF00 FF00FF27484漢字20902漢字6763漢字2個擴充的漢字字符集 GB2312GBK-95GB18030-2000虛線外的漢字,4字節(jié)表示常用漢字編碼字符集常用漢字編碼字符集主要漢字主要漢字( (文字文字) )編碼標(biāo)準(zhǔn)與規(guī)范編碼標(biāo)準(zhǔn)與規(guī)范 AS

9、CII(英文) GB2312 GBK GB13000 GB18030 BIG5 Shift_JIS ISO/IEC 10646 UnicodeASCIIASCII碼碼 美國信息交換標(biāo)準(zhǔn)編碼(“美標(biāo)”) 用從0到127的128個數(shù)字來代表信息的規(guī)范編碼 包括33個控制碼,一個空格碼,和94個形象碼形象碼中包括了英文大小寫字母,阿拉伯?dāng)?shù)字,標(biāo)點符號等 國際上大部分電腦的通用編碼國標(biāo)、區(qū)位國標(biāo)、區(qū)位國標(biāo):中華人民共和國國家標(biāo)準(zhǔn)信息交換用漢字編碼 GB 2312 80(信息交換用漢字編碼字符集 基本集(又稱為GB0) GB 13000 93(信息技術(shù) 通用多八位編碼字符集(UCS)第一部分) GB 1

10、8030-2000 (信息技術(shù) 信息交換用漢字編碼字符集 基本集的擴充 )國標(biāo)(GB2312-80)表(基本表)把七千余漢字、以及標(biāo)點符號、外文字母等,排成一個94行、94列的方陣每一橫行叫一個“區(qū)”,每個區(qū)有九十四個“位”一個漢字在方陣中的坐標(biāo),稱為該字的“區(qū)位碼”例如“中”字在方陣中處于第區(qū)第位,它的區(qū)位碼就是5448區(qū)位碼表區(qū)位碼表區(qū)位碼來源于信息交換用漢字編碼字符集(基本集)國家標(biāo)準(zhǔn)(GB2312-80),該標(biāo)準(zhǔn)收漢字6763個,第一級3755個,位于16至55區(qū),55區(qū)的最后5個字符沒有定義;第二級3008個,位于56至87區(qū)第一級漢字按照漢語拼音字母順序排列,同音字以筆形順序橫(一

11、)、直(丨)、撇(丿)、點(丶)、折(乙)為序。起筆相同按第二筆,依次類推。第二級漢字按部首排序,本標(biāo)準(zhǔn)采用的部首與一般字典用的部首基本相同,略有改變。部首次序及同部首字按筆劃數(shù)排列,同筆劃數(shù)的字以筆形順序橫(一)、直(丨)、撇(丿)、點(丶)、折(乙)為序。起筆相同按第二筆,依次類推。查表時先查區(qū)號,再查行、列,例如:“、”是0102,“藹”是1610。區(qū)位碼表區(qū)位碼表( (GB2312-80)GB2312-80)1-9區(qū):682個符號(2、4、5、6、7、8、9區(qū)有空位164個) 包括:一般符號(間隔、標(biāo)點、運算、制表)202個 序號60個 數(shù)字22個 希臘字母48個 俄文字母66個 漢語

12、拼音26個 拉丁字母52個 日文假名169個 漢語注音37個10-15區(qū):空88-94區(qū):空16-87區(qū):6763個漢字 16-55區(qū):一級漢字3755個 55區(qū)有5個空位,從89-94 56-87區(qū):二級漢字3008個 一級漢字按照音、筆形排列 二級漢字按照部首排列例例01 區(qū) 1 2 3 4 5 6 7 8 9 02 區(qū) 1 2 3 4 5 6 7 8 9 0 、 。 0 1 “ ” 1 2 2 3 【 】 3 4 4 5 5 6 6 7 7 8 8 9 9 例例09 區(qū) 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 例例16區(qū) 1 2 3 4 5 6 7 8

13、 9 17區(qū) 1 2 3 4 5 6 7 8 9 0 啊 阿 埃 挨 哎 唉 哀 皚 癌 0 薄 雹 保 堡 飽 寶 抱 報 暴 1 藹 矮 艾 礙 愛 隘 鞍 氨 安 俺 1 豹 鮑 爆 杯 碑 悲 卑 北 輩 背 2 按 暗 岸 胺 案 骯 昂 盎 凹 敖 2 貝 鋇 倍 狽 備 憊 焙 被 奔 苯 3 熬 翱 襖 傲 奧 懊 澳 芭 捌 扒 3 本 笨 崩 繃 甭 泵 蹦 迸 逼 鼻 4 叭 吧 笆 八 疤 巴 拔 跋 靶 把 4 比 鄙 筆 彼 碧 蓖 蔽 畢 斃 毖 5 耙 壩 霸 罷 爸 白 柏 百 擺 佰 5 幣 庇 痹 閉 敝 弊 必 辟 壁 臂 6 敗 拜 稗 斑 班 搬 扳

14、 般 頒 板 6 避 陛 鞭 邊 編 貶 扁 便 變 卞 7 版 扮 拌 伴 瓣 半 辦 絆 邦 幫 7 辨 辯 辮 遍 標(biāo) 彪 膘 表 鱉 憋 8 梆 榜 膀 綁 棒 磅 蚌 鎊 傍 謗 8 別 癟 彬 斌 瀕 濱 賓 擯 兵 冰 9 苞 胞 包 褒 剝 9 柄 丙 秉 餅 炳 例例54 區(qū) 1 2 3 4 5 6 7 8 9 55 區(qū) 1 2 3 4 5 6 7 8 9 0 幀 癥 鄭 證 芝 枝 支 吱 蜘 0 住 注 祝 駐 抓 爪 拽 專 磚 1 知 肢 脂 汁 之 織 職 直 植 殖 1 轉(zhuǎn) 撰 賺 篆 樁 莊 裝 妝 撞 壯 2 執(zhí) 值 侄 址 指 止 趾 只 旨 紙 2 狀 椎

15、 錐 追 贅 墜 綴 諄 準(zhǔn) 捉 3 志 摯 擲 至 致 置 幟 峙 制 智 3 拙 卓 桌 琢 茁 酌 啄 著 灼 濁 4 秩 稚 質(zhì) 炙 痔 滯 治 窒 中 盅 4 茲 咨 資 姿 滋 淄 孜 紫 仔 籽 5 忠 鐘 衷 終 種 腫 重 仲 眾 舟 5 滓 子 自 漬 字 鬃 棕 蹤 宗 綜 6 周 州 洲 謅 粥 軸 肘 帚 咒 皺 6 總 縱 鄒 走 奏 揍 租 足 卒 族 7 宙 晝 驟 珠 株 蛛 朱 豬 諸 誅 7 祖 詛 阻 組 鉆 纂 嘴 醉 最 罪 8 逐 竹 燭 煮 拄 矚 囑 主 著 柱 8 尊 遵 昨 左 佐 柞 做 作 坐 座 9 助 蛀 貯 鑄 筑 9 例例56

16、區(qū) 1 2 3 4 5 6 7 8 9 57 區(qū) 1 2 3 4 5 6 7 8 9 0 亍 丌 兀 丐 廿 卅 丕 亙 丞 0 佟 佗 伲 伽 佶 佴 侑 侉 侃 1 鬲 孬 噩 丨 禺 丿 匕 乇 夭 爻 1 侏 佾 佻 儕 佼 儂 侔 儔 儼 儷 2 卮 氐 囟 胤 馗 毓 睪 鼗 丶 亟 2 俅 俚 俁 俜 俑 俟 俸 倩 偌 俳 3 鼐 乜 乩 亓 羋 孛 嗇 嘏 仄 厙 3 倬 倏 倮 倭 俾 倜 倌 倥 倨 僨 4 厝 厴 厥 廝 靨 贗 匚 叵 匭 匱 4 偃 偕 偈 偎 傯 僂 儻 儐 儺 傺 5 匾 賾 卦 卣 刂 刈 刎 剄 刳 劌 5 僖 儆 僭 僬 僦 僮 儇 儋 仝

17、 氽 6 剴 剌 剞 剡 剜 蒯 剽 劂 劁 劐 6 佘 僉 俎 龠 汆 糴 兮 巽 黌 馘 7 劓 冂 罔 亻 仃 仉 仂 仨 仡 仫 7 囅 夔 勹 匍 訇 匐 鳧 夙 兕 亠 8 仞 傴 仳 伢 佤 仵 倀 傖 伉 佇 8 兗 亳 袞 袤 褻 臠 裒 稟 嬴 蠃 9 佞 佧 攸 佚 佝 9 羸 冫 冱 冽 冼 例例86 區(qū) 1 2 3 4 5 6 7 8 9 87 區(qū) 1 2 3 4 5 6 7 8 9 0 觥 觫 觶 訾 謦 靚 雩 靂 雯 0 鰲 鰭 鰨 鰥 鰩 鰳 鰾 鱈 鰻 1 霆 霽 霈 霏 霎 霪 靄 霰 霾 齔 1 鳘 鳙 鱖 鱔 鱒 鱧 靼 鞅 韃 鞒 2 齟 齙 齠 齜

18、 齦 齬 齪 齷 黽 黿 2 鞔 韉 鞫 鞣 鞲 鞴 骱 骰 骷 鶻 3 鼉 隹 隼 雋 雎 雒 瞿 讎 銎 鑾 3 骶 骺 骼 髁 髀 髏 髂 髖 髕 髑 4 鋈 鏨 鍪 鏊 鎏 鐾 鑫 魷 魴 鲅 4 魅 魃 魘 魎 魈 魍 魑 饗 饜 餮 5 鲆 鲇 鱸 穌 鮒 鱟 鮐 鮭 鮚 鮪 5 饕 饔 髟 髡 髦 髯 髫 髻 髭 髹 6 鮞 鱭 鮫 鲞 鱘 鯁 鱺 鰱 鰹 鰣 6 鬈 鬏 鬢 鬟 鬣 麼 麾 縻 麂 麇 7 鰷 鯀 鯊 鯇 鯽 鯖 鯪 鯫 鯡 鯤 7 麈 麋 麒 鏖 麝 麟 黛 黜 黝 黠 8 鯧 鲴 鯢 鯰 鯛 鲺 鯔 鲼 鰈 鱷 8 黟 黢 黷 黧 黥 黲 黯 鼢 鼬 鼯 9

19、 鰍 鰒 鰉 鳊 鳋 9 鼴 鼷 鼽 鼾 齄 國標(biāo)、區(qū)位、國標(biāo)、區(qū)位、“準(zhǔn)國標(biāo)準(zhǔn)國標(biāo)”、機內(nèi)碼、機內(nèi)碼94:美標(biāo)中形象碼的總數(shù),33-126 漢字區(qū)、位碼各加上32,就會與美標(biāo)形象碼的范圍重合,稱為該字的“國標(biāo)碼”,與其相對應(yīng)的兩個美標(biāo)符號,為該字的“國標(biāo)符” 如何區(qū)分國標(biāo)符與美標(biāo)符:國標(biāo)碼的兩個數(shù)字各加上128,稱“準(zhǔn)國標(biāo)”或“機內(nèi)碼”機內(nèi)碼=(區(qū)位碼)H + 8080H +2020HBIG-5BIG-5 Big5編碼是臺灣地區(qū)信息業(yè)常用的漢字編碼字符集的一種代碼空間,可直接用作處理碼。 臺灣、香港、澳門等地使用 取碼范圍: 高位:0 x81-0 xfe 低位:0 x40-0 x70,0 x

20、a1-0 xfe Big5編碼空間在一個94*157的矩陣中。Big5有94個區(qū),每個區(qū)有157個位,因此最多可以容納14758個碼元。 Big5中收錄了13494個字符(其中,13053個漢字和441個非漢字圖形字符)。ISO/IEC 10646ISO/IEC 10646 一個國際標(biāo)準(zhǔn)編號,國際標(biāo)準(zhǔn)化組織(ISO)1993年正式頒布 英文全稱:Information technology - Universal Multiple - Octet Coded Character Set,簡稱UCS 中文全稱:信息技術(shù)-通用多八位編碼字符集,亦稱大字符集 宗旨:全球所有文種統(tǒng)一編碼Unicode

21、Unicode英文Universal Code的縮略語統(tǒng)一編碼是對國際標(biāo)準(zhǔn)ISO/IEC 10646編碼的一種稱謂是一個企業(yè)聯(lián)盟集團的名稱,由美國的HP、Microsoft、IBM、Apple等幾家知名的大型計算機企業(yè)所組成,成立該集團的宗旨就是要推進多文種的統(tǒng)一編碼就內(nèi)容而言,Unicode和ISO/IEC 10646是一致的,并行的ISO10646/UnicodeISO10646/UnicodeISO10646的第0群組第0字面(群和面的值都為00h)稱為基本多語種文字面(Basic Multi-lingual Plane, BMP),其編碼字元與Unicode相同。ISO10646的BM

22、P和Unicode的編碼字符。ISO/IEC 10646中中CJK漢字組成漢字組成 CJK統(tǒng)一編碼漢字(20902) CJK擴充集A(6585) CJK擴充集B(4萬-)ISO 10646/UnicodeISO 10646/Unicode的實現(xiàn)及其重要意義的實現(xiàn)及其重要意義 在全球范圍內(nèi)建立起實時、無障礙的信息交換模式推動了漢字典籍的數(shù)字化為數(shù)字化圖書館的建立鋪平了道路為弘揚漢字文化提供了舞臺Single Binary技術(shù)的誕生:同一套基本程序用于多個語言環(huán)境的技術(shù)使?jié)h字關(guān)聯(lián)活起來:正-異關(guān)聯(lián)、中-日關(guān)聯(lián)、繁-簡關(guān)聯(lián),正-訛關(guān)聯(lián)以及古今、新舊字形關(guān)聯(lián)GBKGBK漢字內(nèi)碼擴展規(guī)范,Rules/Specifications defining the extensions of internal codes for Chinese ideograms為了推進Unicode的實施,同時也是為了向下兼容,由電子部與國家技術(shù)監(jiān)督局聯(lián)合頒布 在保持GB2312原貌的基礎(chǔ)上,將其字匯擴充與ISO 10646中的CJK等量,同時也包容了臺灣的工業(yè)標(biāo)準(zhǔn)Big5碼漢字,此外還為用戶留了1894個碼位的自定義區(qū) 2字節(jié)漢字編碼 在內(nèi)碼上兼容GB2312-80 在字匯上兼容GB13000/ISO10646 是GB2312向GB13000過渡的中間代碼 收錄21886個漢字和符號GB18030-20

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論