




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
3.5文字的表示及處理主要內(nèi)容:西文字符編碼漢字編碼漢字的輸入和輸出文本處理文字的表示及處理13.5文字的表示及處理主要內(nèi)容:文字的表示及處理11.ASCII碼
ASCII碼,即美國標(biāo)準(zhǔn)信息交換碼(AmericanStandardCodeforInformationInterchange),使用7個二進(jìn)位對字符進(jìn)行編碼。一、西文字符編碼文字的表示及處理21.ASCII碼一、西文字符編碼文字的表示及處理2
基本的ASCII字符集共有128個字符95個可打印字符(常用字母、數(shù)字、標(biāo)點符號)33個控制字符(不可直接顯示或打印)
特殊字符的ASCII碼空格(32)、A(65)、a(97)、0(48)
下面為ASCII代碼表:文字的表示及處理3基本的ASCII字符集共有128個字符文字的表示及處理3標(biāo)準(zhǔn)ASCII字符集及其碼表b6b5b4b3b2b1b0
012345670123456789ABCDEFb6b5b4b3b2b1b001101001101011控制字符文字的表示及處理4標(biāo)準(zhǔn)ASCII字符集及其碼表b6b5b40123456789ABCDEF控制字符01234567b3b2b1b0
b6b5b4文字的表示及處理50123456789ABCDEF控制字符0b3b2b1b每個字符用標(biāo)準(zhǔn)規(guī)定的7位二進(jìn)制數(shù)表示,在機內(nèi)占一個字節(jié)(最高位為0)。
如:字符“A”的ASCII碼為:字符“0”的ASCII碼為:
(00110000)2
或(48)10、(60)8、(30)16(01000001)2
或(65)10、(101)8、(41)16文字的表示及處理6每個字符用標(biāo)準(zhǔn)規(guī)定的7位二進(jìn)制數(shù)表示,在機內(nèi)占一個字要求:
1.會比較ASCII字符的大?。ò雌銩SCII碼值)空格<0~9<A~Z<a~z2.會推算同組字符ASCII碼值如A的ASCII值(十進(jìn)制)為65,則B、C…的ASCII值分別為66、67…文字的表示及處理7要求:文字的表示及處理7定義方式:
用8位二進(jìn)制數(shù)位表示一個字符的擴充二-十進(jìn)制交換碼.特點:每個字符對應(yīng)一個字節(jié),共256種說明:有很多編碼沒有使用,保留做為擴充2.EBCDIC碼文字的表示及處理8定義方式:2.EBCDIC碼文字的表示及處理8二、漢字編碼1981年,國家標(biāo)準(zhǔn)局頒布了《信息交換用漢字編碼字符集-基本集》(GB2312-80)(國標(biāo)碼)。
組成:(1)第一部分:字母、數(shù)字和各種符號,包括拉丁字母、俄文、日文平假名與片假名、希臘字母、漢語拼音等共682個(統(tǒng)稱為GB2312圖形符號)1.GB2312-80漢字編碼文字的表示及處理9二、漢字編碼1981年,國家標(biāo)準(zhǔn)局頒布了《信息交換用漢(2)第二部分:一級常用漢字,共3755個, 按漢語拼音排列(3)第三部分:二級常用漢字,共3008個, 按偏旁部首排列
漢字共6763個字符共7445個文字的表示及處理10(2)第二部分:一級常用漢字,共3755個,文字的表示及處理一級漢字(3755個)二級漢字(3008個)(擴充使用)字母、數(shù)字和各種符號 ………………19423位號…………191655568794區(qū)號(按漢語拼音排列)(按偏旁部首排列)拉丁字母、俄文、日文平假名與片假名、希臘字母、漢語拼音等共682個共6763個漢字和682個符號,每個漢字或符號都有一個確定位置,該位置的區(qū)號和位號就是這個漢字的“區(qū)位碼”1.GB2312-80漢字編碼GB2312-80字符集文字的表示及處理11字母、數(shù)字和各種符號19423位號
區(qū)位碼:GB2312-80是一個二維代碼表,有94行、94列,漢字在代碼表中的位置用它所處的行號、列號表示。行號區(qū)號列號位號1.GB2312-80漢字編碼文字的表示及處理12區(qū)位碼:GB2312-80是一個二維代碼表,有94行例如:“大”字的區(qū)號20,位號83,區(qū)位碼是2083 用2個字節(jié)表示為:
000101000101001183列20行大文字的表示及處理13例如:83列20行大文字的表示及處理13國標(biāo)交換碼(國標(biāo)碼):問題:信息通信中,漢字的區(qū)位碼與通信使用的控制碼(00H~1FH)發(fā)生沖突。解決方案:為了避免漢字區(qū)位碼與通信控制碼的沖突,每個漢字的區(qū)號和位號必須分別加上32。得到的代碼稱為漢字的“國標(biāo)交換碼”1.GB2312-80漢字編碼文字的表示及處理14國標(biāo)交換碼(國標(biāo)碼):1.GB2312-80漢字編碼文字的例如:“大”字的區(qū)號20,位號83
區(qū)位碼:2083
國標(biāo)交換碼:52115(+32)二進(jìn)制表示為:0001010001010011二進(jìn)制表示為:0011010001110011文字的表示及處理15例如:“大”字的區(qū)號20,位號83二進(jìn)制表示為:0001機內(nèi)碼:問題:文本中的漢字與西文字符經(jīng)常是混合在一起使用的,漢字信息如不予以特別的標(biāo)識,它與單字節(jié)的標(biāo)準(zhǔn)ASCII碼就會混淆不清。解決方法:使表示GB2312漢字的兩個字節(jié)的最高位(b7)都置為“1”。這種漢字編碼,稱為GB2312漢字的“機內(nèi)碼”。1.GB2312-80漢字編碼文字的表示及處理16機內(nèi)碼:1.GB2312-80漢字編碼文字的表示及處理16例如:“大”字
區(qū)位碼:2083 二進(jìn)制表示為:0001010001010011
國標(biāo)交換碼:52115(+32)二進(jìn)制表示為:0011010001110011
機內(nèi)碼:180243 (+128)二進(jìn)制表示為:1011010011110011(B4F3)區(qū)位碼+32=國標(biāo)碼國標(biāo)碼+128=機內(nèi)碼文字的表示及處理17例如:“大”字區(qū)位碼+32=國標(biāo)碼文字的表示及處理1問題:GB2312-80只有6763個漢字,使用時功能不夠。解決方法:1995年發(fā)布GBK,全稱為《漢字內(nèi)碼擴展規(guī)范》GBK字符集中一共有21003個漢字和883個圖形符號,它與GB2312國標(biāo)漢字字符集及其內(nèi)碼保持兼容。組成:共收入21886個漢字和圖形符號(21003個漢字,883個圖形符號)2.GBK漢字內(nèi)碼擴展規(guī)范文字的表示及處理18問題:GB2312-80只有6763個漢字,使用時功能不夠。GBK編碼區(qū)分三個部分:漢字區(qū)(21003個漢字)、圖形符號區(qū)、用戶自定義區(qū)GBK每一個字符都采用雙字節(jié)表示總體編碼范圍為:8140H—FEFEH,共23940個碼位;首字節(jié)范圍:81H—FEH(二進(jìn)制最高位為1);尾字節(jié)范圍:40H—FEH(二進(jìn)制最高位可以為0或1);GBK漢字內(nèi)碼擴充規(guī)范文字的表示及處理19GBK編碼區(qū)分三個部分:GBK漢字內(nèi)碼擴充規(guī)范文字的表示及處目的:統(tǒng)一的多文本處理環(huán)境,實現(xiàn)所有字符在同一字符集中統(tǒng)一編碼途徑:UCS:ISO/IEC10646(通用多8位編碼字符集)
Unicode:統(tǒng)一碼或聯(lián)合碼,與UCS完全等同的工業(yè)標(biāo)準(zhǔn)優(yōu)點:編碼空間極大(4個字節(jié)),能容納足夠多的各種字符集(13億字符)3.UCS/Unicode漢字編碼文字的表示及處理20目的:統(tǒng)一的多文本處理環(huán)境,實現(xiàn)所有字符在同一字符集中統(tǒng)一編缺點:4字節(jié)的字符編碼使存儲空間浪費嚴(yán)重克服:UCS-2是雙字節(jié)編碼,共有字符49194個,其中包括:歐洲及中東地區(qū)使用的拉丁字母、音節(jié)文字各種標(biāo)點符號、數(shù)學(xué)符號、技術(shù)符號、幾何形狀、箭頭及其他符號中、日、韓(CJK)統(tǒng)一編碼的漢字文字的表示及處理21缺點:4字節(jié)的字符編碼使存儲空間浪費嚴(yán)重文字的表示及處理21GB18030-2000編碼標(biāo)準(zhǔn)在GB2312和GBK編碼標(biāo)準(zhǔn)的基礎(chǔ)上進(jìn)行了擴充,采用單字節(jié)、雙字節(jié)和四字節(jié)三種方式對字符編碼,因此該標(biāo)準(zhǔn)的漢字有27000多個。包括全部中、日、韓統(tǒng)一字符集和CJK漢字?jǐn)U充的所有字符。4.GB18030-2000編碼文字的表示及處理22GB18030-2000編碼標(biāo)準(zhǔn)在GB2312和GBIG5碼是臺灣、香港等地使用的漢字繁體的編碼標(biāo)準(zhǔn),它用雙字節(jié)進(jìn)行編碼。BIG5收錄了13461個漢字和符號。5.BIG5編碼文字的表示及處理23BIG5碼是臺灣、香港等地使用的漢字繁體的編碼標(biāo)準(zhǔn),幾種漢字編碼的對比GBK00FF00FF20902漢字00FF00FF6763漢字GB231200FF00FF27484漢字GB18030GB2312GBKGB18030UCS-2(Unicode)6763個漢字(簡體字)21003個漢字(包括GB2312漢字在內(nèi))27000多漢字(包括GBK漢字和CJK及其擴充中的漢字)2萬多漢字雙字節(jié)存儲和表示,每個字節(jié)的最高位均為“1”雙字節(jié)存儲和表示,第1個字節(jié)的最高位必為“1”部分雙字節(jié)、部分4字節(jié)表示(UTF-8編碼)1字節(jié)、2字節(jié)、3字節(jié)等不等長編碼編碼不兼容!保持向下兼容文字的表示及處理24幾種漢字編碼的對比GBK00
人工輸入:通過鍵盤、手寫筆或語音輸入方式輸入字符
自動輸入:將紙介質(zhì)上的文本通過識別技術(shù)自動轉(zhuǎn)換為文字的編碼三、漢字的輸入輸出1.漢字輸入文字的表示及處理25人工輸入:通過鍵盤、手寫筆或語音輸入方式輸入字符三、漢文本信息的輸入人工輸入自動識別輸入鍵盤輸入聯(lián)機手寫輸入語音輸入印刷體識別手寫體識別文字的表示及處理26文本信息的輸入人工輸入自動識別輸入鍵盤輸入聯(lián)機手寫輸入語音輸鍵盤輸入編碼:漢字字?jǐn)?shù)很多,無法與鍵盤上的鍵一一對應(yīng),因此必須使用一個或幾個鍵來表示漢字,這就需要對漢字進(jìn)行編碼。(1)鍵盤輸入文字的表示及處理27鍵盤輸入編碼:(1)鍵盤輸入文字的表示及處理27漢字輸入編碼的分類拼音編碼:如:智能ABC,紫光拼音缺點:同音字引起的重碼多,需增加選擇操作字形編碼:將漢字的字形分解歸類而給出的編碼方法,重碼少、輸入速度較快,如:五筆字形法和表形碼等缺點:編碼規(guī)則不易掌握文字的表示及處理28漢字輸入編碼的分類文字的表示及處理28聯(lián)機手寫漢字識別系統(tǒng)構(gòu)成輸入、預(yù)處理、特征提取、分類、后處理、輸出需求的配件:專用的書寫板和筆(2)聯(lián)機手寫漢字識別(筆輸入)文字的表示及處理29聯(lián)機手寫漢字識別系統(tǒng)構(gòu)成(2)聯(lián)機手寫漢字識別(筆輸入)文工作過程:
在書寫板上書寫,書寫板將筆尖的運動按時間采樣,發(fā)送到計算機中,由軟件進(jìn)行識別,然后用該漢字(或符號)對應(yīng)的代碼進(jìn)行保存。例如:漢王筆正識率95℅~90℅,速度12字/秒文字的表示及處理30工作過程:在書寫板上書寫,書寫板將筆尖的運動按時間采樣,發(fā)目的:使計算機具有人的聽覺,是模式識別的分支語音識別的分類(按照不同的應(yīng)用及要求):孤立詞/連接詞/連續(xù)語音識別小詞匯量/中詞匯/大詞匯量語音識別特定人/限定人/非特定人語音識別最高目標(biāo):非特定人大詞匯量的連續(xù)語音識別技術(shù)(3)漢字語音識別文字的表示及處理31目的:使計算機具有人的聽覺,是模式識別的分支(3)漢字語脫機文字識別:對已經(jīng)印刷或?qū)懲甑奈淖诌M(jìn)行識別,自動輸入計算機并轉(zhuǎn)換為數(shù)字文本形式的一種技術(shù),也叫做漢字OCR(OpticalCharacterRecognition)。分類:印刷體OCR和手寫體OCR(4)脫機文字識別文字的表示及處理32脫機文字識別:對已經(jīng)印刷或?qū)懲甑奈淖诌M(jìn)行識別,自動漢字鍵盤輸入方法的比較類型原理舉例優(yōu)點缺點數(shù)字編碼使用一串?dāng)?shù)字來表示漢字電報碼區(qū)位碼僅使用10個數(shù)字鍵難記憶字音編碼把漢語的拼音作為漢字的輸入編碼智能ABC紫光微軟拼音輸入簡單易學(xué),適合于非專業(yè)人員重碼多,需增加選擇操作,不會漢語拼音或不知道讀音時無法使用字形編碼把漢字的部件或筆畫作為碼元,按照漢字結(jié)構(gòu)及其切分規(guī)則作為編碼依據(jù),確定每個漢字的輸入代碼五筆字形表形碼鄭碼重碼少、輸入速度較快,適合于專業(yè)錄入員、打字員使用缺乏統(tǒng)一的規(guī)范,編碼規(guī)則不易掌握音形編碼(或形音編碼)采用字音及字形兩種屬性作為碼元的漢字編碼輸入方法粵音輸入法同上同時要掌握音、形兩種取碼方法或規(guī)則,對普通用戶比較困難文字的表示及處理33漢字鍵盤輸入方法的比較類型原理舉例優(yōu)點缺點數(shù)字使用一串?dāng)?shù)字來
漢字的輸出過程:輸出機器內(nèi)部的漢字編碼,需要根據(jù)漢字編碼對應(yīng)的漢字字型碼進(jìn)行解釋,生成映像,最后再傳送到顯示器或打印機輸出。機內(nèi)漢字編碼字型碼打印輸出(顯示器/打印機)2.漢字輸出文字的表示及處理34漢字的輸出過程:輸出機器內(nèi)部的漢字編碼,需要根據(jù)漢字
漢字字型碼:用于漢字在顯示器或者打印機上輸出.
漢字字型碼表示形式分類:點陣表示形式矢量表示形式文字的表示及處理35漢字字型碼:用于漢字在顯示器或者打印機上輸出.文字的漢字字型表示形式:漢字字型碼用點陣表示16*16(占32個字節(jié))、24*24、48*48等漢字矢量表示存儲描述漢字輪廓特征的信息。如:Windows中TrueType技術(shù)即為該表示形式。輪廓描述輪廓點直線二次曲線點陣描述文字的表示及處理36漢字字型表示形式:輪廓描述輪廓點直線二次曲線點陣描述文字的表
字型庫:簡稱字庫,同一種字體的所有字符(例如GB2312中的7000多字符)的形狀描述信息的集合。不同的字體(如宋體、仿宋、楷體、黑體等)對應(yīng)不同的字庫。文字的表示及處理37字型庫:簡稱字庫,同一種字體的所有字符(例如GB231文本編輯的主要功能(了解)對字、詞、句、段落進(jìn)行添加、刪除、修改等操作字的處理:設(shè)置字體、字號、字的排列方向、間距、顏色、效果等三、文本編輯1.文本的編輯文字的表示及處理38文本編輯的主要功能(了解)三、文本編輯1.文本的編輯文字段落的處理:設(shè)置行距、段間距、段縮進(jìn)、對稱方式等頁面布局的處理:設(shè)置頁邊距、每頁行列數(shù)、分欄、頁眉、頁腳等“所見即所得”(WhatYouSeeIsWhatYouGet,簡稱WYSIWYG)文字的表示及處理39段落的處理:設(shè)置行距、段間距、段縮進(jìn)、對稱方式等文字的表示及文本處理內(nèi)容:字?jǐn)?shù)統(tǒng)計,字頻統(tǒng)計,簡/繁體相互轉(zhuǎn)換,漢字/拼音相互轉(zhuǎn)換詞語排序,詞語錯誤檢測,文句語法檢查自動分詞,詞頻統(tǒng)計,詞性標(biāo)注,詞義辨識,大陸/臺灣術(shù)語轉(zhuǎn)換2.文本的處理文字的表示及處理40文本處理內(nèi)容:2.文本的處理文字的表示及處理40文本壓縮,文本加密,文本著作權(quán)保護(hù)關(guān)鍵詞提取,文摘自動生成,文本分類文本檢索(關(guān)鍵詞檢索、全文檢索),文本過濾文語轉(zhuǎn)換(語音合成),文種轉(zhuǎn)換(機器翻譯)篇章理解,自動問答,自動寫作等2.文本的處理文字的表示及處理41文本壓縮,文本加密,文本著作權(quán)保護(hù)2.文本的處理文字的表示及(1)面向通信的文本處理軟件 計算機網(wǎng)絡(luò)上最普及的應(yīng)用是用電子郵件進(jìn)行通信。典型軟件:微軟公司的OutlookExpress,具有文字的增、刪、改以及字體、字號的設(shè)置功能,也可以設(shè)定一些簡單的格式和插入一些圖片。3.常用文本處理軟件文字的表示及處理42(1)面向通信的文本處理軟件3.常用文本處理軟件文字的表示及(2)面向辦公的文本處理軟件功能要求:文本制作的高效率、高質(zhì)量;軟件面向非專業(yè)用戶,易學(xué)好用;文本處理能力,既功能豐富,又操作簡單;排版功能。典型軟件:MS-Office、WPS2000文字的表示及處理43(2)面向辦公的文本處理軟件文字的表示及處理43(3)面向出版的文本處理軟件排版軟件的主要功能: 將文字、圖形和圖像等合理地安排在頁面內(nèi),使版面符合專業(yè)排版要求。典型排版軟件:方正集團(tuán)公司的“飛騰”排版軟件美國Adobe公司的PageMaker和PDFWriter文字的表示及處理44(3)面向出版的文本處理軟件文字的表示及處理44(4)面向網(wǎng)絡(luò)信息發(fā)布和電子出版的文本處理軟件 將文本制作成網(wǎng)頁發(fā)布到internet或作為電子圖書進(jìn)行出版典型處理軟件面向網(wǎng)絡(luò)信息發(fā)布的軟件MSFontpage、Word面向電子出版的軟件Adobe公司的AcrobatPDF格式文件文字的表示及處理45(4)面向網(wǎng)絡(luò)信息發(fā)布和電子出版的文本處理軟件文字的表示及處根據(jù)制作文本的用途分為純文本TXT豐富格式文本RTF根據(jù)軟件的使用不同DOC、PDF、WPS等3.常見文本類型文字的表示及處理46根據(jù)制作文本的用途分為3.常見文本類型文字的表示及處理46純文本:是由一連串的字符組成的,幾乎不包含任何其他格式信息和結(jié)構(gòu)信息。特性:呈現(xiàn)為一種線性結(jié)構(gòu),文件體積小,閱讀不受限制,幾乎所有的文字處理軟件都能識別和處理,沒有字體、字號的變化,不能插入圖片、表格等,不能建立超鏈接。由一串用于表達(dá)正文內(nèi)容的字符編碼所組成,幾乎不包含任何其他的格式信息和結(jié)構(gòu)信息(1)純文本.txt文字的表示及處理47純文本:是由一連串的字符組成的,幾乎不包含任何其他格式信
本書由南京大學(xué)出
B1BECAE9D3C9C4CFBEA9B4F3D1A7B3F6
版社(Publishing
B0E6C9E7285075626C697368696E67
HouseofNanjin
20486F757365206F66204E616E6A696E
gUniversity)出版
6720556E697665727369747929B3F6B0E6
文本的內(nèi)容文本在計算機中的表示文字的表示及處理48本書由文本的格式化(字型字號顏色)豐富格式文本(richtext、fancytext、formattedtext)RTF格式(不同軟件系統(tǒng)相互交互中間格式)多媒體文檔(MultimediaDocument)插入圖表公式聲音視頻...(2)豐富格式文本文字的表示及處理49文本的格式化(字型字號顏色)(2)豐富格式文本文字使用HTML語言描述為:<palign="center
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 染色加工質(zhì)量合同范本
- 就業(yè)合作咨詢業(yè)務(wù)協(xié)議書
- 智能設(shè)備使用保密協(xié)議書
- 隔油池合作合同范本
- 三人合伙租賃合同范本
- 宜興定向就業(yè)培養(yǎng)協(xié)議書
- T/CADBM 32-2021建筑外墻用水性多彩仿石涂料
- 體育培訓(xùn)行業(yè)合伙協(xié)議書
- 關(guān)聯(lián)企業(yè)利潤轉(zhuǎn)移協(xié)議書
- 汽車維修合伙合同范本
- 租賃法律知識講座課件
- 2025屆吉林省長春市高三質(zhì)量監(jiān)測(三)政治試題及答案
- GB/T 24894-2025動植物油脂甘三酯分子2-位脂肪酸組分的測定
- 2024年江蘇常州中考滿分作文《那么舊那樣新》8
- 4P營銷理論課件
- 省課題研究報告格式范文
- 《夏季養(yǎng)生保健常識》課件
- 2025年傳統(tǒng)建筑行業(yè)的智能門窗技術(shù)
- 2025版亞馬遜FBA物流倉儲及電商運營服務(wù)合同6篇
- 幕墻工程施工方案及述標(biāo)文件
- 《腦淀粉樣變性》課件
評論
0/150
提交評論