計算機數(shù)據(jù)與編碼_第1頁
計算機數(shù)據(jù)與編碼_第2頁
計算機數(shù)據(jù)與編碼_第3頁
計算機數(shù)據(jù)與編碼_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、計算機數(shù)據(jù)與編碼1.6.1 信息和數(shù)據(jù)信息是人們對客觀世界的認識,即對客觀世界的一種反映。數(shù)據(jù)是表達現(xiàn)實世界中各種信息的一組可以記錄、可以識別的記號或符號。它是信息的載體,是信息的具體表現(xiàn)形式。數(shù)據(jù)形式可以是字符、符號、表格、聲音、圖像等。數(shù)據(jù)可以在物理介質上記錄或傳輸,并通過輸入設備傳送給計算機處理加工。數(shù)據(jù)的單位分為以下幾種:1) 位(bit)計算機中最小的數(shù)據(jù)單位 二進制的一個數(shù)位,稱為比特位,簡稱位。1位二進制只能表示兩種狀態(tài),即0或1。n位二進制能表示2n種狀態(tài)2) 字節(jié)(Byte)相鄰8個比特位組成一個字節(jié),用B表示。字節(jié)是計算機中用來表示存儲容量大小的基本單位。1B = 8bit

2、s1KB = 210B = 1024B1MB = 220B = 1024KB1GB = 230B = 1024MB1TB = 240B = 1024GB3) 字(Word)在計算機中作為一個整體被存取、傳送、處理的二進制數(shù)位叫做一個字,每個字中二進制位數(shù)的長度,稱為字長。用8位字長表示一個整數(shù)與用16位字長表示一個整數(shù),其所表示的數(shù)的上限和下限是不一樣的。字長所占位數(shù) 其所表示的數(shù)的范圍8 -128 127 即:-27 (27 - 1)16 -32768 32767 即:-215 (215 - 1)32 -2147483648 2147483647 即:-231 (231 - 1)1.6.2

3、數(shù)字化信息編碼在計算機內(nèi)部,可用物理器件的高低電平代表二進制的“0”和“1”,另外,脈沖的正負極性,晶體管的導通和截止都可以用來表示二進制的“0”和“1”。由于二進制只有兩個狀態(tài),數(shù)據(jù)的傳輸和處理不容易出錯,另外二進制數(shù)的記數(shù)、加減法運算規(guī)則較為簡單,可用開關電路實現(xiàn),且二進制的“0”和“1”正好與邏輯命題的兩個值“真”和“假”相對應,為計算機種中實現(xiàn)邏輯運算和邏輯判斷提供了便利的條件。所以,在計算機中,廣泛采用的是只有“0”和“1”兩個基本符號組成的基二碼,或稱為二進制碼。計算機最重要的功能是處理信息,這些信息包括數(shù)值、文字、圖形、符號、圖象、聲音等,所有這些信息都必須經(jīng)過編碼,轉換成計算機

4、能夠識別和處理的二進制碼的形式才能夠被存儲、傳送和加工。BCD碼是二進制編碼的十進制數(shù)(Binary Coded Decimal)的簡寫。有四位 BCD碼、六位BCD碼和擴展的BCD碼三種。(1)非數(shù)值數(shù)據(jù)的表示1) 字符數(shù)據(jù)的表示ASCII碼(America Standard Code for Information Interchage)是美國標準信息交換碼,被國際化組織指定為國際標準,分為7位和8位兩種版本。國際通用的是7位ASCII碼,它已對大、小寫英文字母、阿拉伯數(shù)字、標點符號及控制符等特殊符號編碼,共128個字符。表中特殊符號的意義如下:NUL 空白SOH 標題開始STX 正文開始

5、EXT 正文結束EOT 傳輸結束ENQ 詢問ACK 承認BEL 告警BS 退格HT 橫向列表LF 換行VT 垂直列表FF 換頁CR 回車SO 移位輸出SI 移位輸入SP 空格DLE 轉義DC1 設備控制1DC2 設備控制2DC3 設備控制3DC4 設備控制4NAK 否認SYN 空轉同步ETB 信息組傳送結束CAN 作廢EM 紙盡SUB 取代ESC 擴展FS 文字分隔符GS 組分隔符RS 記錄分隔符US 單元分隔符DEL 刪除(2) 漢字的表示漢字與英文的主要區(qū)別: 1) 英文是拼音文字,漢字是表意文字。英文字母只有26個,漢字多達5萬個以上,常用漢字也有6000多個。 2) 漢字的同音字很多,

6、一個音往往會有幾個甚至幾十個字。3) 英文排序簡單,漢字排序非常復雜,而且與文字本身沒有本質聯(lián)系。開發(fā)一個完善的中文信息處理系統(tǒng)必須解決以下三個主要問題: (1) 漢字輸入 (2) 漢字輸出 (3) 漢字與西文的兼容性漢字的編碼和表示 1)漢字交換碼(國標碼) 漢字交換碼(國標碼)主要用于漢字信息交換。國標碼:以國家標準局1980年頒布的信息交換用漢字編碼字符集"基本集(代號為GB2312 80)規(guī)定的漢字交換碼作為國家標準漢字編碼。 GB2312 80中共有7445個字符符號: 漢字符號6763個 一級漢字3755個(按漢語拼音字母順序排列) 二級漢字3008個(按部首筆劃順序排列

7、) 非漢字符號682個 GB2312 80規(guī)定,所有的國標碼漢字及符號組成一個94 94的方陣。在此方陣中,每一行稱為一個"區(qū)",每一列稱為一個"位"。這個方陣實際上組成一個有94個區(qū)(編號由01到94),每個區(qū)有94個位(編號由01到94)的漢字字符集。 一個漢字所在的區(qū)號和位號的組合就構成了該漢字的"區(qū)位碼"。其中,高兩位為區(qū)號,低兩位為位號。這樣區(qū)位碼可以唯一地確定某一漢字或字符;反之,任何一個漢字或符號都對應一個唯一的區(qū)位碼,沒有重碼。 區(qū)位碼分布情況如下:區(qū) 號 內(nèi) 容 1區(qū) 鍵盤上沒有的各種符號 2區(qū) 各種序號 3區(qū) 鍵盤

8、上的各種符號(按中文方式給出) 4 -5區(qū) 日文字母 6區(qū) 希臘字母 7區(qū) 俄文字母 8區(qū) 標識拼音聲調(diào)的母音及拼音字母名稱 9區(qū) 制表符號 10- 15區(qū) 未用 16-55區(qū) 一級漢字(按拼音字母順序排列) 56- 87區(qū) 二級漢字(按部首筆劃順序排列) 88- 94區(qū) 自定義漢字 由上可以看出,所有漢字與符號的94個區(qū),可以分為四個組:1 -15區(qū):為圖形符號區(qū)。其中1 9區(qū)為標準符號區(qū);10 15區(qū)為自定義符號區(qū)。16 -55區(qū):為一級漢字區(qū),包含3755個漢字。這些區(qū)中的漢字按漢語拼音順序排序,同音字按筆畫順序列出。56 -87區(qū):為二級漢字區(qū),包含3008個漢字。這些區(qū)中的漢字是按部

9、首筆劃順序排序的。88 -94區(qū):為自定義漢字區(qū)。國標碼規(guī)定,每個漢字(包括非漢字的一些符號)由2字節(jié)代碼表示。每個字節(jié)的最高位為0,只使用低7位,而低7位的編碼中又有34個適用于控制用的,這樣每個字節(jié)只有27 - 34 = 94個編碼用于漢字。2個字節(jié)就有94 94=8836個漢字編碼。在表示一個漢字的2個字節(jié)中,高字節(jié)對應編碼表中的行號,稱為區(qū)號;低字節(jié)對應編碼表中的列號,稱為位號。漢字國標碼的范圍用二進制表示是: 00100001 00100001 01111110 01111110 (1+32)10 (1+32)10 (94+32)10 (94+32)10 7位ASCII碼是128個字

10、符組成的字符集。其中編碼值0 31(00000000 00011111)不對應任何印刷字符,通常稱為控制符,用于計算機通信中的通信控制或對計算機設備的功能控制。編碼值32(00100000)是空格字符SP。編碼值127(1111111)是刪除字符DEL。漢字國標碼的起始二進制位置選擇00100001即(33)10是為了跳過ASCII碼的32個控制字符和空格字符。所以,漢字國標碼的高位和低位分別比對應的區(qū)位碼大(32)10或(00100000)2或(20)H,即: 國標碼高位 = 區(qū)碼 + 20H (H表示十六進制) 國標碼低位 = 位碼 + 20H2) 漢字機內(nèi)碼(內(nèi)碼)(漢字存儲碼) 漢字機

11、內(nèi)碼(內(nèi)碼)(漢字存儲碼)的作用是統(tǒng)一了各種不同的漢字輸入碼在計算機內(nèi)部的表示。 為了將漢字的各種輸入碼在計算機內(nèi)部統(tǒng)一起來,就有了專用于計算機內(nèi)部存儲漢字使用的漢字機內(nèi)碼,用以將輸入時使用的多種漢字輸入碼統(tǒng)一轉換成漢字機內(nèi)碼進行存儲,以方便機內(nèi)的漢字處理 漢字機內(nèi)碼是在計算機內(nèi)部存儲、處理的代碼。計算機既要處理漢字,又要處理英文。因此計算機必須能區(qū)別漢字字符和英文字符。英文字符的的機內(nèi)碼是最高為為0的8位ASCII碼。為了不與7位ASCII碼發(fā)生沖突,把國標碼每個字節(jié)的最高位由0改為1,其余位不變的編碼作為漢字字符的機內(nèi)碼。漢字機內(nèi)碼的范圍用二進制表示是: 10100001 10100001

12、 11111110 11111110 機內(nèi)碼的高位和低位比對應的國標碼的高位和低位大(128)10或(10000000)2或(80)H 即: 機內(nèi)碼高位 = 國標碼高位 + 80H 機內(nèi)碼低位 = 國標碼低位 + 80H 又因為: 國標碼高位 = 區(qū)碼 + 20H 國標碼低位 = 位碼 + 20H 所以: 機內(nèi)碼高位 = 區(qū)碼 + A0H 機內(nèi)碼低位 = 位碼 + A0H 也就是說,機內(nèi)碼高位和機內(nèi)碼低位分別比對應的區(qū)碼和位碼大(160)10或(10100000)2或(A0)H 例如:漢字"啊"的區(qū)位碼為"1601",其中區(qū)碼為(16)10或(10)H,

13、位碼為(01)10或(01)H。 則: 機內(nèi)碼高位 = 10H + A0H = B0H 機內(nèi)碼低位 = 01H + A0H = A1H 所以: 機內(nèi)碼= B0A1H 3) 漢字輸入碼(外碼)漢字輸入碼(外碼)是為了通過鍵盤字符把漢字輸入計算機而設計的一種編碼。 英文輸入時,相輸入什么字符便按什么鍵,輸入碼和機內(nèi)碼一致。漢字輸入時,可能要按幾個鍵才能輸入一個漢字。 漢字輸入方案有成百上千個,但是這千差萬別的外碼輸入進計算機后都會轉換成統(tǒng)一的內(nèi)碼。 漢字輸入方案大致可分為以下4種類型:(1) 音碼:如全拼、雙拼、微軟拼音等 (2) 形碼:如五筆字型、鄭碼、表形碼等 (3) 音形碼:如智能ABC、自然碼等(4) 數(shù)字碼:如區(qū)位碼、電報碼等4) 漢字字形碼(輸出碼)漢字字形碼(輸出碼)用于漢字的顯示和打印,是漢字字形的數(shù)字化信息。 漢字的內(nèi)碼是用數(shù)字代碼來表示漢字,但是為了在輸出時讓人們看到漢字,就必須輸出漢字的字形。在漢字系統(tǒng)中,一般采用點陣來表示字形。 16 *16漢字點陣示意 16 * 16點陣字形的字要使用32個字節(jié)(16 * 16/8=32)存儲,24 * 24點陣字形的字要使用72個字節(jié)(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論