




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1字符編碼2提綱一計算機中字符的表示(ASCII碼)二計算機中中文字符的表示3概述在計算機中,各種信息都是以二進制編碼的形式存在不管是文字、圖形、聲音、動畫,還是電影等信息,在計算機中都是以0和1組成的二進制代碼表示計算機之所以能區(qū)別這些不同的信息,是因為它們采用的編碼規(guī)則不同比如:同樣是文字,英文字母與漢字的編碼規(guī)則就不同,前者采用單字節(jié)的ASCII碼,后者采用雙字節(jié)的漢字內(nèi)碼但隨著需求的變化,這兩種編碼有被統(tǒng)一的UNICODE碼(由Unicode協(xié)會開發(fā)的能表示幾乎世界上所有書寫語言的字符編碼標準)所取代的趨勢一、計算機中字符的表示(ASCII碼)ASCII(AmericanStandardCodeforInformationInterchange,美國標準信息交換碼)規(guī)定了常用的數(shù)字、字符的編碼。標準ASCII碼采用7位二進制編碼,對應的ISO標準為ISO646標準,最多可以表示128個字符。每個字符可以用一個字節(jié)表示,字節(jié)的最高位為0。5ASCII碼表(二進制)
高3位低4位0000010100111001011101110000NULDLESP0@P`p0001SOHDC1!1AQaq0010STXDC2"2BRbr0011ETXDC3#3CScs0100EOTDC4$4DTdt0101ENQNAK%5EUeu0110ACKSYN&6FVfv0111BELETB’7GWgw1000BSCAN(8HXhx1001HTEM)9IYiy1010LFSUB*:JZjz1011VTESC+;K[k{1100FFFS,<L\l|1101CRGS-=M]m}1110SORS.>N^n~1111SIUS/?O_oDEL基本ASCII碼字符的分類顯示字符范圍為33~126,共94個,指能從鍵盤輸入、可以顯示和打印的字符。
控制字符范圍是0~32和127,共34個,主要用于控制輸入、輸出設備。6字符ASCII編碼十進制值控制字符0000,0000—0001,1111和0111,11110—90011,0000—0011,1001
48—57A—Z0100,0001—0101,101065—90a—z0110,0001—0110,101097—122符號其余基本ASCII碼字符的內(nèi)容解讀基本ASCII碼字符內(nèi)容第0~31號及第127號共33個,為非打印字符,是控制字符或通訊專用字符,如控制符:LF(換行)、CR(回車)、FF(換頁)、DEL(刪除)、BEL(振鈴)等;通訊專用字符:SOH(文頭)、EOT(文尾)、ACK(確認)等。第32~126號共95個可打印字符,其中第33個(32號)為空格,第48~57號為0~9十個阿拉伯數(shù)字;65~90號為26個大寫英文字母,97~122號為26個小寫英文字母,第127個(126號)為“~”,其余為一些標點符號、運算符號等。
從鍵盤上按鍵輸入“CHINA”的字串,傳送進計算機的,則是01000011、01001000、01001001、01001110、01000001這五個二進制數(shù)字串。
比較字符ASCII碼值的大小
空格<標點符號<數(shù)字<大寫字母<小寫字母
十進制數(shù)字符號的ASCII碼值與其二進制值的區(qū)別10ASCII碼表示vs.
二進制表示int型數(shù)10000的表示內(nèi)存存儲形式0010011100010000二進制形式0011000100110000001100000011000000110000ASCII形式文本存儲形式10000213+210+29+28+24=8192+1024+512+256+16關于最高位若在該位置1,可表示一些特殊的符號(圖形符)由于ASCII碼只用了字節(jié)的七個位,最高位并不使用,所以后來又將最高的一個位也編入這套編碼碼中,成為八個位的延伸ASCII(ExtendedASCII)碼,這套內(nèi)碼加上了許多外文和表格等特殊符號,成為目前常用的編碼。
若將傳送數(shù)據(jù)的該位置1,則用于數(shù)據(jù)傳輸校驗雖然標準ASCII碼是7位編碼,但由于計算機基本處理單位為字節(jié)(1byte=8bit),所以一般仍以一個字節(jié)來存放一個ASCII字符。每一個字節(jié)中多余出來的一位(最高位)在計算機內(nèi)部通常保持為0(在數(shù)據(jù)傳輸時可用作奇偶校驗位)。1112關于數(shù)據(jù)傳輸?shù)钠媾夹r炘谟嬎銠C的存儲單元中,一個ASCII碼值占一個字節(jié)(8個二進制位),其最高位(b7)用作奇偶校驗位。所謂奇偶校驗,是指在代碼傳送過程中用來檢驗是否出現(xiàn)錯誤的一種方法,一般分奇校驗和偶校驗兩種。奇校驗規(guī)定:正確的代碼一個字節(jié)中1的個數(shù)必須是奇數(shù),若非奇數(shù),則在最高位b7添1;偶校驗規(guī)定:正確的代碼一個字節(jié)中1的個數(shù)必須是偶數(shù),若非偶數(shù),則在最高位b7添1。14ASCII碼表基本集(2,10,8,16進制)
ASCII碼表的擴展集EASCII擴展ASCII編碼(ExtendedASCII,延伸美國標準信息交換碼)是將基本ASCII碼由7位擴充為8位,表示256個字符。
基本ASCII碼:最高位為0,稱為基本ASCII碼;
擴充的ASCII碼:最高位為1,擴充部分編碼范圍為10000000~11111111,相應的十進制數(shù)為128~255
用ASCII碼組成的文件,稱為“文本文件”,其擴展名為.TXT。1516ASCII碼表的擴展集17ASCII碼表基本集+擴展集(16進制)MicrosoftWindowsIBMPCDOS18
二、計算機中中文字符的表示
漢字交換碼
又稱“國標碼”,即GB2312-1980,是中華人民共和國國家標準漢字交換編碼。
漢字信息在計算機內(nèi)部也是以二進制方式存放。由于漢字數(shù)量多,用一個字節(jié)的128種狀態(tài)不能全部表示出來,因此在1981年我國頒布的《信息交換用漢字編碼字符集—基本集》,即準GB2312-80方案中規(guī)定用兩個字節(jié)的十六位二進制表示一個漢字,每個字節(jié)都只使用低7位(與ASCII碼相同),即有128×128=16384種狀態(tài)。
19
二、計算機中中文字符的表示
漢字交換碼
由于ASCII碼的34個控制代碼在漢字系統(tǒng)中也要使用,為不致發(fā)生沖突,不能作為漢字編碼,128除去34只剩94種,所以漢字編碼表的大小是94×94=8836,用以表示國標碼規(guī)定的漢字6763個(一級漢字,是最常用的漢字,按漢語拼音字母順序排列,共3755個;二級漢字,屬于次常用漢字,按偏旁部首的筆劃順序排列,共3008個),數(shù)字、字母、符號等682個,共7445個。
20二、計算機中中文字符的表示
漢字交換碼
國家標準將每個漢字和圖形符號的兩個字節(jié)分別用兩位的十進制編碼(不足補0),前字節(jié)的編碼稱為區(qū)碼,后字節(jié)的編碼稱為位碼,排列在一個94行94列的二維代碼表中,形成區(qū)位碼表。如“?!弊衷诙S代碼表中處于17區(qū)第03位,區(qū)位碼即為1703D
。把區(qū)位碼按一定的規(guī)則轉(zhuǎn)換成的二進制代碼叫做信息交換碼(簡稱國標碼)。21二、計算機中中文字符的表示
漢字交換碼國標碼并不等于區(qū)位碼,它是由區(qū)位碼稍作轉(zhuǎn)換得到,其轉(zhuǎn)換方法為:先將十進制區(qū)碼和位碼轉(zhuǎn)換為十六進制的區(qū)碼和位碼,這樣就得了一個與國標碼有一個相對位置差(20H)的代碼;再將這個代碼的第一個字節(jié)和第二個字節(jié)分別加上20H,就得到國標碼。如:“?!弊值膰鴺舜a為(3123)H,它是經(jīng)過下面的轉(zhuǎn)換得到的:
國標碼很少直接使用。22GB碼簡介國標碼(GB)是指1981年我國公布的國家標準《信息交換用漢字編碼字符集-基本集》,包含:
簡化漢字,符號,字母,日文假名,共7445個字符;
其中包含了6763個漢字,并分作兩級:
一級為常用字,3755個,按照拼音排序
二級為次常用字,3008個,按照部首排序。23GB碼的編碼空間一個字符的國標碼由兩個部分組成,分別是該字符的區(qū)號和位號。GB碼規(guī)定共有94個區(qū),每個區(qū)中有94個位。
編碼空間為:94*94=8836個碼位
1~9區(qū)是西文字母、數(shù)字、日文假名、圖形符號
16~87區(qū)是漢字區(qū),其中
16~55區(qū)是一級漢字(40*94-5=3755個)
56~87區(qū)是二級漢字(32*94=3008個)
10~15,88~94區(qū)是用戶自定義區(qū)24GB碼區(qū)位示例01區(qū)78位25GB碼區(qū)位示例(續(xù))26GB碼區(qū)位示例(續(xù))27GB碼區(qū)位示例(續(xù))28GB碼區(qū)位示例(續(xù))29二、計算機中中文字符的表示
漢字內(nèi)碼就是漢字在計算機內(nèi)部所使用的編碼。當將漢字通過使用外碼輸入到計算機中后,計算機為了識別漢字,必須將漢字的外碼轉(zhuǎn)換為漢字的內(nèi)碼,以便處理和存儲漢字信息。在計算機系統(tǒng)中,通常使用兩個字節(jié)來表示一個漢字的內(nèi)碼。
30二、計算機中中文字符的表示
漢字內(nèi)碼
由于國標碼不能直接存儲在計算機內(nèi),為方便計算機內(nèi)部處理和存儲漢字,又區(qū)別于ASCII碼,將國標碼中的每個字節(jié)在最高位改設為1,這樣就形成了在計算機內(nèi)部用來進行漢字的存儲、運算的編碼叫機內(nèi)碼(或漢字內(nèi)碼,或內(nèi)碼)。內(nèi)碼既與國標碼有簡單的對應關系,易于轉(zhuǎn)換,又與ASCII碼有明顯的區(qū)別,且有統(tǒng)一的標準(內(nèi)碼是惟一的)。
31二、計算機中中文字符的表示
漢字內(nèi)碼國標碼是漢字信息交換的標準編碼,但因其前后字節(jié)的最高位為0,與ASCII碼發(fā)生沖突,如“保”字,國標碼為31H和23H(區(qū)位碼為1103H),而西文字符“1”和“#”的ASCII碼也分別為31H和23H?,F(xiàn)假如內(nèi)存中有兩個字節(jié)為31H和23H,這到底是一個漢字,還是兩個西文字符“1”和“#”?于是就出現(xiàn)了二義性。32二、計算機中中文字符的表示
漢字內(nèi)碼
顯然,國標碼是不可能在計算機內(nèi)部直接采用的。于是,漢字的機內(nèi)碼采用變形國標碼。其變換方法為:將國標碼的每個字節(jié)都加上128(80H),即將每個字節(jié)的最高位由0改1,其余7位不變?;?qū)^(qū)碼和位碼各加A0H(十進制160)。如:“?!弊值膰鴺舜a為3123H,前字節(jié)為00110001B,后字節(jié)為00100011B,高位分別改1為10110001B和10100011B
,即為B1A3H,因此,“?!弊值臋C內(nèi)碼就是B1A3H。33二、計算機中中文字符的表示
漢字輸入碼
無論是區(qū)位碼或國標碼都不利于輸入漢字,為方便漢字的輸入而制定的漢字編碼,稱為漢字輸入碼,又稱“外碼”,即各種輸入法編碼方案。常見的輸入法有以下幾類:
按漢字的排列順序形成的編碼(流水碼):如區(qū)位碼;
按漢字的讀音形成的編碼(音碼):如全拼、簡拼、雙拼等;
按漢字的字形形成的編碼(形碼):如五筆字型、鄭碼等;
按漢字的音、形結(jié)合形成的編碼(音形碼):如自然碼、智能ABC。
輸入碼在計算機中必須轉(zhuǎn)換成機內(nèi)碼,才能進行存儲和處理。34二、計算機中中文字符的表示
漢字字形碼(輸出碼)
漢字字形碼是對漢字的形狀進行二進制編碼,主要用來顯示或打印漢字,是表示漢字字形的字模數(shù)據(jù),常用點陣、矢量函數(shù)等方式表示。
為了將漢字在顯示器或打印機上輸出,把漢字按圖形符號設計成點陣圖,就得到了相應的點陣代碼—字形碼。
全部漢字字形碼的集合叫漢字字庫。漢字庫可分為軟字庫和硬字庫。軟字庫以文件的形式存放在硬盤上,現(xiàn)多用這種方式,硬字庫則將字庫固化在一個單獨的存儲芯片中,再和其它必要的器件組成接口卡,插接在計算機上,通常稱為漢卡。
35二、計算機中中文字符的表示
漢字字形碼(輸出碼)用于顯示的字庫叫顯示字庫。顯示一個漢字一般采用16×16點陣或24×24點陣或48×48點陣。已知漢字點陣的大小,可以計算出存儲一個漢字所需占用的字節(jié)空間。例:用16×16點陣表示一個漢字,就是將每個漢字用16行,每行16個點表示,一個點需要1位二進制代碼,16個點需用16位二進制代碼(即2個字節(jié)),共16行,所以需要16行×2字節(jié)/行=32字節(jié),即16×16點陣表示一個漢字,字形碼需用32字節(jié)。
即:字節(jié)數(shù)=點陣行數(shù)×點陣列數(shù)/8
用于打印的字庫叫打印字庫,其中的漢字比顯示字庫多,而且工作時也不像顯示字庫需調(diào)入內(nèi)存。
36二、計算機中中文字符的表示
漢字字形碼(輸出碼)可以這樣理解,為在計算機內(nèi)表示漢字而統(tǒng)一的編碼方式形成漢字編碼叫內(nèi)碼(如國標碼),內(nèi)碼是惟一的。為方便漢字輸入而形成的漢字編碼為輸入碼,屬于漢字的外碼,輸入碼因編碼方式不同而不同,是多種多樣的。為顯示和打印輸出漢字而形成的漢字編碼為字形碼,計算機通過漢字內(nèi)碼在字模庫中找出漢字的字形碼,實現(xiàn)其轉(zhuǎn)換。
例1:已知漢字“春”的國標碼為343AH,求其機內(nèi)碼。
機內(nèi)碼=區(qū)位碼+A0A0H=國標碼+8080H=343AH+8080H=B4BAH
例2:用24×24點陣來表示一個漢字(一點為一個二進制位),則2000個漢字需要多少KB容量?
(24×24/8)×2000/1024=140.7KB≈141KB
二、計算機中中文字符的表示
漢字字形碼(輸出碼)37二、計算機中中文字符的表示
漢字字形碼(輸出碼)
38漢字“中”的16×16點陣的字形及字形編碼(a)16×16點陣字形表示(b)16×16點陣字形編碼表示40三、計算機中其它中文字符集簡介GB2312GBKBig5Unicode漢字是一個大字符集《說文解字》(東漢)收錄9353字《玉篇》(南朝)收錄16,917字《廣韻》(宋代)收字26,194字《字匯》(明朝)收錄33,197字《康熙字典》(清朝)收錄47,043字《漢語大字典》(1992年)收錄超過5.6萬字41GBK碼GBK碼是GB-2312的擴展GBK向下與GB2312編碼兼容,向上支持ISO10646.1國際標準。ISO10646是國際標準化組織ISO公布的一個編碼標準,即UniversalMultilpe-OctetCodedCharacterSet(簡稱UCS),大陸譯為《通用多八位編碼字符集》,臺灣譯為《廣用多八位元編碼字元集》,它與Unicode組織的Unicode編碼完全兼容。ISO10646.1是該標準的第一部分《體系結(jié)構(gòu)與基本多文種平面》。我國1993年以GB13000.1國家標準的形式予以認可(即GB13000.1等同于ISO10646.1)。42GBK碼(續(xù))ISO10646是一個包括世界上各種語言的書面形式以及附加符號的編碼體系。其中的漢字部分稱為“CJK統(tǒng)一漢字”(C指中國,J指日本,K指朝鮮)。CJK的中國部分,包括了源自中國大陸的GB2312、GB12345、《現(xiàn)代漢語通用字表》等法定標準的漢字和符號,以及源自臺灣的CNS11643標準中第1、2字面(基本等同于BIG-5編碼)、第14字面的漢字和符號。43GBK碼的編碼空間GBK采用雙字節(jié)表示,總體編碼范圍為8140-FEFE,
首字節(jié)在81-FE之間,尾字節(jié)在40-FE之間,其中xx7F為空??傆?3940個碼位,共收入21886個漢字和圖形符號,其中漢字(包括部首和構(gòu)件)21003個,圖形符號883個。
GB的編碼范圍:A1A0–F7FE
首字節(jié):A1-F7,尾字節(jié):A0-FE44GBK碼的字符分布1.漢字區(qū)。包括:
a.GB2312漢字區(qū)。即GBK/2:B0A1-F7FE。收錄GB2312漢字6763個,按原順序排列。
b.GB13000.1擴充漢字區(qū)。包括:
(1)GBK/3:8140-A0FE。收錄GB13000.1中的CJK漢字6080個。
(2)GBK/4:AA40-FEA0。收錄CJK漢字和增補的漢字8160個。CJK漢字在前,按UCS代碼大小排列;增補的漢字(包括部首和構(gòu)件)在后,按《康熙字典》的頁碼/字位排列。2.圖形符號區(qū)。包括:
a.GB2312非漢字符號區(qū)。即GBK/1:A1A1-A9FE。其中除GB2312的符號外,還有10個小寫羅馬數(shù)字和GB12345增補的符號。計符號717個。
b.GB13000.1擴充非漢字區(qū)。即GBK/5:A840-A9A0。BIG-5非漢字符號、結(jié)構(gòu)符和“○”排列在此區(qū)。計符號166個。3.用戶自定義區(qū):分為(1)(2)(3)三個小區(qū)。
(1)AAA1-AFFE,碼位564個。
(2)F8A1-FEFE,碼位658個。
(3)A140-A7A0,碼位672個。第(3)區(qū)盡管對用戶開放,但限制使用,因為不排除未來在此區(qū)域增補新字符的可能性。45BIG5碼BIG-5碼是通行于臺灣、香港地區(qū)的一個繁體字編碼方案,俗稱“大五碼”。Big-5是一個雙字節(jié)編碼方案,其第一字節(jié)在A0~FE之間,第二字節(jié)在40~7E和A1~FE之間。因此,其第一字節(jié)的最高位是1,第二字節(jié)的最高位則可能是1,也可能是0。46Big-5碼字符分布1.符號408個,A140~A3FE(實際止于A3BF,末尾有空白位置)。2.漢字13053個,分為常用字和次常用字兩部分,各部分中的漢字按筆劃/部首排列。其中:
a.常用字5401個,編碼位置為A440~C67E。包括臺灣教育部頒布的《常用國字標準字體表》中的全部漢字4808個,臺灣國中國小教科書常用字587個,異體字6
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國木制臺鐘市場調(diào)查研究報告
- 2025年中國有機硅外墻漆數(shù)據(jù)監(jiān)測研究報告
- 2025屆河北省金太陽-邢襄聯(lián)盟高三上學期開學考(25-05C)-物理試題(含答案)
- 2025至2031年中國精拋迷你套塑柄扁嘴鉗行業(yè)投資前景及策略咨詢研究報告
- 2025-2030年中國三腳架行業(yè)市場前景規(guī)模分析及未來趨勢預測研究報告
- 肇慶市實驗中學高中生物三:55生態(tài)系統(tǒng)的物質(zhì)循環(huán)導學案
- 肇慶市實驗中學高中歷史三:第課中國古代的科學技術(shù)教案
- 新疆奎屯市第八中學2025年初三第二學期期中練習(一模)化學試題試卷含解析
- 新疆維吾爾自治區(qū)阿克蘇市農(nóng)一師高級中學2025年學術(shù)聯(lián)盟高三教學質(zhì)量檢測試題考試(二)歷史試題試卷含解析
- 【高中++語文】《阿Q正傳(節(jié)選)》課件+統(tǒng)編版高二語文選擇性必修下冊
- 分紅險、萬能險銷售資質(zhì)考試真題模擬匯編(共763題)
- 高等數(shù)學同濟第七版上冊課后習題答案(全套)
- 魚臺工程運河杯匯報材料
- GB/T 16895.25-2022低壓電氣裝置第7-711部分:特殊裝置或場所的要求展覽、展示及展區(qū)
- 磚砌蓄水池施工方案(模板)
- 《運營管理》案例庫
- 煤礦安全監(jiān)控系統(tǒng)設備管理報廢制度
- 機關事業(yè)單位退休人員養(yǎng)老金領取資格確認表
- 2019阿那亞金山嶺中心小鎮(zhèn)生活手冊
- 第五屆“國藥工程杯”全國大學生制藥工程設計競賽
- 人體穴位與天體對應解密
評論
0/150
提交評論