WH-T100-2023漢文古籍版式描述規(guī)范_第1頁(yè)
WH-T100-2023漢文古籍版式描述規(guī)范_第2頁(yè)
WH-T100-2023漢文古籍版式描述規(guī)范_第3頁(yè)
WH-T100-2023漢文古籍版式描述規(guī)范_第4頁(yè)
WH-T100-2023漢文古籍版式描述規(guī)范_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

WH棷T?湅湂湂—湆湂湆湇

漢文古籍版式描述規(guī)范

1范圍

本文件對(duì)漢文古籍版式描述進(jìn)行了規(guī)范,給出了版式描述的規(guī)范性要求。

本文件適用于對(duì)漢文古籍文本化加工結(jié)果的描述。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T3792—2021信息與文獻(xiàn)?資源描述

GB/T4894—2009信息與文獻(xiàn)?術(shù)語(yǔ)

GB/T18793—2002信息技術(shù)?可擴(kuò)展置標(biāo)語(yǔ)言(XML)1.0

GB/T21712—2008古籍修復(fù)技術(shù)規(guī)范與質(zhì)量要求

GB/T31219.2—2014圖書(shū)館館藏資源數(shù)字化加工規(guī)范第2部分:文本資源

3術(shù)語(yǔ)和定義

下列術(shù)語(yǔ)和定義適用于本文件。

3.1

古籍a(chǎn)ncientbooks

1911年以前(含1911年)在中國(guó)書(shū)寫(xiě)或印刷的書(shū)籍。

[來(lái)源:GB/T3792—2021,3.18]

3.2

書(shū)葉page

按文稿順序排列的書(shū)寫(xiě)、印制的單張紙葉。

[來(lái)源:GB/T21712—2008,2.9]

3.3

版框arectangularframeintowhichpagesengraving

書(shū)葉(3.2)正面圖文四邊的圍欄,一般指印刷的書(shū)。

[來(lái)源:GB/T21712—2008,2.10]

3.4

版心middleofpage

書(shū)葉(3.2)左右對(duì)折的正中、在折葉時(shí)取作中縫標(biāo)準(zhǔn)的條狀行格。雕版印刷的書(shū)籍版心通常印有書(shū)

名、卷次、葉碼,有的還印有一版文字總數(shù)、刊刻機(jī)構(gòu)以及刻工姓氏等。

[來(lái)源:GB/T21712—2008,2.11]

3.5

版式format

漢文古籍的版面格式。

1

WH棷T?湅湂湂—湆湂湆湇

3.6

版式XML文件?formatXMLfile

符合GB/T18793—2002要求,對(duì)具有同一樣式的書(shū)葉(3.2)共同擁有的版式(3.5)特點(diǎn)進(jìn)行描

述的XML文件。

3.7

文本?text

以字符、符號(hào)、詞、短語(yǔ)、段落、句子、表格或者其他字符排列形成的數(shù)據(jù),用于表達(dá)意義,其解釋基本

上取決于讀者對(duì)于某種自然語(yǔ)言或者人工語(yǔ)言的知識(shí)。

[來(lái)源:GB/T4894—2009,4.1.1.2.4]

3.8

圖像?image

用各種觀測(cè)系統(tǒng)以不同形式和手段觀測(cè)客觀世界而獲得的,可以直接或間接作用于人眼進(jìn)而產(chǎn)生視

知覺(jué)的實(shí)體。

[來(lái)源:GB/T31219.2—2014,3.3]

4基本原則

4.1客觀描述

對(duì)漢文古籍版式特點(diǎn)、文本內(nèi)容和位置、插圖大小和位置等內(nèi)容的描述客觀準(zhǔn)確。

有無(wú)版框、四周單邊、四周雙邊、左右雙邊、大小字等。

4.2描述唯一

每個(gè)書(shū)葉描述方式唯一,且每個(gè)描述數(shù)據(jù)解釋方式唯一,沒(méi)有歧義。擁有統(tǒng)一版式的多個(gè)書(shū)葉,版式

相關(guān)數(shù)據(jù)描述方式唯一,包括版框位置、版心位置、文本行數(shù)、每行文字?jǐn)?shù)、文字大小等。

4.3易實(shí)現(xiàn)

版式描述形式簡(jiǎn)單,使XML文件容易加工和解釋?zhuān)跐h文古籍文本后續(xù)更深層次加工使用。

4.4可擴(kuò)展

可對(duì)XML進(jìn)行擴(kuò)展以適應(yīng)更多的漢文古籍樣式,例如新的字符修飾樣式等。擴(kuò)展部分是新增加的

內(nèi)容,不使用已有的內(nèi)容代替,不與已有內(nèi)容發(fā)生邏輯沖突。

5漢文古籍版式描述

5.1概述

漢文古籍版式描述存放目錄可分為3個(gè)層級(jí):第一層級(jí)為書(shū)文件夾;第二層級(jí)為卷冊(cè)文件夾;第

三層級(jí)為書(shū)葉XML文件夾、書(shū)葉圖像文件夾及摳圖文件夾。其中,書(shū)文件夾和卷冊(cè)文件夾的命名可自

定義,書(shū)葉XML文件夾名稱(chēng)應(yīng)為“XML”,書(shū)葉圖像文件夾名稱(chēng)應(yīng)為“Image”,摳圖文件夾名稱(chēng)應(yīng)為

“Cutout”。存放目錄結(jié)構(gòu)見(jiàn)圖1:

2

WH棷T?湅湂湂—湆湂湆湇

圖1漢文古籍版式描述數(shù)據(jù)存儲(chǔ)目錄結(jié)構(gòu)示意圖

漢文古籍版式描述存放目錄中內(nèi)容應(yīng)符合以下要求:

a)??書(shū)文件夾存放一部書(shū)的所有數(shù)據(jù)。書(shū)文件夾下包括一個(gè)書(shū)XML文件和一個(gè)或者多個(gè)卷冊(cè)文

件夾。

b)?卷冊(cè)文件夾包括一個(gè)卷冊(cè)?XML文件、一個(gè)版式XML文件、一個(gè)XML文件夾、一個(gè)Image文件

夾和一個(gè)Cutout文件夾。

c)??卷冊(cè)XML文件描述卷冊(cè)包含的書(shū)葉和書(shū)葉的順序。

d)?版式?XML文件描述卷冊(cè)的版式信息。

e)??XML文件夾存放卷冊(cè)中的書(shū)葉XML文件。

f)??Image文件夾存放卷冊(cè)中的書(shū)葉原始圖像。

g)??Cutout文件夾存放卷冊(cè)中的所有插圖和集外字、模糊字的摳圖。

h)?漢文古籍版式描述數(shù)據(jù)保存在版式?XML和書(shū)葉XML中。

5.2基于XML的版式描述

5.2.1版式XML文件

版式XML文件用來(lái)統(tǒng)一描述卷冊(cè)中書(shū)葉的版式信息,有助于書(shū)葉樣式嚴(yán)格統(tǒng)一,其命名規(guī)則為:

Format.xml,版式XML文件的標(biāo)簽及其屬性見(jiàn)表1:

表1版式XML文件標(biāo)簽

屬性

XML標(biāo)簽名注解說(shuō)明樣例

屬性名稱(chēng)注解說(shuō)明

文檔類(lèi)型定義文檔version版本XML文件的版本<?xmlversion="1.0"

xml

定義版本編碼encoding編碼文字編碼encoding="utf-8"?>

root根節(jié)點(diǎn)根節(jié)點(diǎn)version版本版式XML文件的版本<rootversion="1.0">

定義一組

formats版式列表無(wú)無(wú)無(wú)<formats>

版式

3

WH棷T?湅湂湂—湆湂湆湇

表1版式XML文件標(biāo)簽(續(xù))

屬性

XML標(biāo)簽名注解說(shuō)明樣例

屬性名稱(chēng)注解說(shuō)明

版式的

name用戶對(duì)版式的命名

名稱(chēng)

根據(jù)版式的基準(zhǔn)DPI,可將

版式的

dpi版式中的像素值轉(zhuǎn)換為毫

基準(zhǔn)DPI

formats的米、厘米等物理長(zhǎng)度值<formatname="[光緒]順天府志

子節(jié)點(diǎn),定版式的"dpi="72"page_width="861.59"

format版式page_width版式書(shū)葉寬度的像素值

義一種版書(shū)葉寬page_height="770.40"page_fra

式版式的me="50.40,96.23,812.63,733.91">

page_height版式書(shū)葉高度的像素值

書(shū)葉高

版式的版式書(shū)葉版框的像素位置,

page_frame書(shū)葉版以“,”分隔開(kāi)的4個(gè)數(shù)值,

框位置依次代表左上右下的像素值

使用該版式的書(shū)葉id的范

書(shū)葉id圍,連續(xù)的書(shū)葉id使用“-”

page_id_range

版式作用確定哪些范圍連接起始和結(jié)束葉的id值,<using_pagepage_id_

using_page于哪些書(shū)書(shū)葉使用不連續(xù)時(shí)使用“,”連接range="2-23,25"odd_even="0"

葉該版式0:所有葉碼?/>

odd_even奇偶性1:奇數(shù)葉碼?

2:偶數(shù)葉嗎?

文本版式定義一組

text_formats無(wú)無(wú)無(wú)<text_formats>

列表文本版式

文本的矩形區(qū)域位置,屬性

文本的區(qū)

region值為矩形的左上右下4邊

域位置

的像素值以符號(hào)“,”連接

font_id字體ID字體列表中的一個(gè)字體ID

段落樣式段落樣式列表中的一個(gè)段

text_formatspara_style_id<text_formatregi

ID落樣式ID

的子節(jié)點(diǎn),on="421.07,114.00,442.20,218.44"

text_format文本版式

定義一個(gè)0:頭部對(duì)齊(橫排左對(duì)齊,?font_id="3"para_style_id="1"

文本版式豎排上對(duì)齊)alignment="0"direction="1"/>

alignment對(duì)齊方式1:居中對(duì)齊?

2:尾部對(duì)齊(橫排右對(duì)齊,?

豎排下對(duì)齊)

0:橫排?

direction文字方向

1:豎排?

定義一組

images圖像列表無(wú)無(wú)無(wú)<images>

圖像

版式圖像版式所需圖像的文件名,圖

images的name

的文件名像存放于Cutout文件夾中<imagename="上魚(yú)尾.jpg"regi

子節(jié)點(diǎn),定

image圖像圖像的矩形區(qū)域位置,屬性on="419.63,238.13,443.40,266.94"

義一個(gè)圖圖像的區(qū)

region值為矩形的左上右下4邊/>

像域位置

的像素值以符號(hào)“,”連接

定義一組

lines線段列表無(wú)無(wú)無(wú)<lines>

線段

start_point起始點(diǎn)起始點(diǎn)坐標(biāo)的像素值<linestart_

lines的子

point="287.63,282.15"end_

line線段節(jié)點(diǎn),定義end_point結(jié)束點(diǎn)結(jié)束點(diǎn)坐標(biāo)的像素值

point="307.12,282.15"

一條線段

weight線寬像素?cái)?shù)線寬weight="0.96"/>

4

WH棷T?湅湂湂—湆湂湆湇

表1版式XML文件標(biāo)簽(續(xù))

屬性

XML標(biāo)簽名注解說(shuō)明樣例

屬性名稱(chēng)注解說(shuō)明

矩形框定義一組

rectangles無(wú)無(wú)無(wú)<rectangles>

列表矩形框

rectangles屬性值為矩形框的左上

矩形框的<rectangleregi

子節(jié)點(diǎn),定region右下4邊的像素值以符號(hào)

rectangle矩形框區(qū)域位置on="731.07,189.00,1231.20,689.44"

義一個(gè)矩“,”連接

weight="1.05"/>

形框weight線寬像素?cái)?shù)線寬

middle_area_

版心寬度像素?cái)?shù)

width

內(nèi)外邊框距離,用“,”分

內(nèi)外邊框隔的4個(gè)值依次表示左上

box_space距離的像右下4個(gè)方向上內(nèi)外框線

素?cái)?shù)之間的距離,如果為0則表

示沒(méi)有內(nèi)框線

left_column_版心左側(cè)

版心左側(cè)行數(shù)<box_and_linemiddle_

num行數(shù)area_width="25.93"box_

right_column_版心右側(cè)space="4.80,4.80,4.80,4.80"left_

節(jié)點(diǎn)信息版心右側(cè)行數(shù)

num行數(shù)column_num="10"right_column_

邊框欄線為空時(shí),表

box_and_line從右向左按順序描述,用num="10"show_column_line="0

信息示無(wú)邊框

“,”分隔,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,

欄線

show_column_是否顯示0:不顯示?0,0"column_line_weight="0.96"

line欄線1:顯示?out_box_weight="5.27"inner_

允許值為空字符串,值為空box_weight="0.96"/>

時(shí)顯示所有欄線

column_line_

欄線寬欄線像素寬度

weight

out_box_

外邊框?qū)捦膺吙蛳袼貙挾?/p>

weight

inner_box_

內(nèi)邊框?qū)拑?nèi)邊框像素寬度

weight

定義一組

fonts字體列表無(wú)無(wú)無(wú)<fonts>

字體

id值從1開(kāi)始且唯一,用于

id字體ID區(qū)分字體,在使用該字體的

地方引用此id值

字體的名

name用戶對(duì)字體的命名

稱(chēng)

字體在字體文件中的名稱(chēng),

face字體類(lèi)型

加字符“@”表示豎排<fontid="1"name="大字

fonts的子字體大小,以像素為單詞,"face="@宋體"size="19.29"

size字號(hào)

font字體節(jié)點(diǎn),定義也是字體的高度值width_stretch_ratio="1.20"char_

一種字體width_stretch_字體寬度字體寬=size*width_stretch_space="0.00"location_type="0"

ratio縮放比例ratiostyle="7"/>

char_space字間距字與前一字之間的像素距離

0:字位于版框內(nèi)?

1:字位于版框外?

location_type位置類(lèi)型如果處于上文定義的版框

區(qū)域以外,則不用來(lái)進(jìn)行高

起計(jì)算

5

WH棷T?湅湂湂—湆湂湆湇

表1版式XML文件標(biāo)簽(續(xù))

屬性

XML標(biāo)簽名注解說(shuō)明樣例

屬性名稱(chēng)注解說(shuō)明

0:正常?

1:加粗?

2:斜體?

fonts的子4:加下劃線?

font字體節(jié)點(diǎn),定義style字體風(fēng)格8:陽(yáng)文?

一種字體16:陰文?

風(fēng)格可以疊加,如值為

1+2+4,表示文字加粗、斜

體,并且加下劃線

段落樣式定義一組

para_styles無(wú)無(wú)無(wú)<para_styles>

列表段落樣式

id值從1開(kāi)始且唯一,用于

段落樣

id區(qū)分段落樣式,在使用該段

式ID

落樣式的地方引用此id值

段落樣式

name用戶對(duì)段落樣式的命名

para_styles的名稱(chēng)<para_styleid="1"name="段

的子節(jié)點(diǎn),落樣式1"line_space="0.00"

para_style段落樣式行與前一行之間的像素距

定義一種line_space行間距head_space="18.08"tail_

段落樣式space="18.08"/>

首字距版像素?cái)?shù),計(jì)算高起邊框時(shí)用

head_space

框位置到

尾字距版

tail_space像素?cái)?shù)

框位置

5.2.2書(shū)葉XML文件

書(shū)葉XML文件用來(lái)描述漢文古籍每一個(gè)書(shū)葉的具體信息,具體XML標(biāo)簽和屬性見(jiàn)表2:

表2書(shū)葉XML文件標(biāo)簽

XML標(biāo)屬性

注解說(shuō)明樣例

簽名屬性名稱(chēng)注解說(shuō)明

version版本XML文件的版本

文檔類(lèi)型<?xmlversion="1.0"

xml定義文檔版本編碼

定義encoding="utf-8"?>

encoding編碼文字編碼

root根節(jié)點(diǎn)根節(jié)點(diǎn)version版本書(shū)葉XML文件的版本<rootversion="1.0">

書(shū)葉的書(shū)葉的id號(hào),從1開(kāi)始并且在全<pagepage_id="1"dpi="300"

page_id

id號(hào)書(shū)中具有唯一性page_width="3590.00"page_

height="3210.00"page_

page書(shū)葉描述書(shū)葉內(nèi)容

frame="226.00,401.00,

根據(jù)書(shū)葉的基準(zhǔn)DPI,可將書(shū)葉

書(shū)葉的基3374.00,3068.00"image_

dpi中的像素值轉(zhuǎn)換為毫米、厘米等

準(zhǔn)DPIname="001.jpg">

物理長(zhǎng)度值

6

WH棷T?湅湂湂—湆湂湆湇

表2書(shū)葉XML文件標(biāo)簽(續(xù))

XML標(biāo)屬性

注解說(shuō)明樣例

簽名屬性名稱(chēng)注解說(shuō)明

page_width書(shū)葉寬書(shū)葉寬度的像素值

page_height書(shū)葉高書(shū)葉高度的像素值

page書(shū)葉描述書(shū)葉內(nèi)容書(shū)葉版框的像素位置,以“,”分

書(shū)葉版框

page_frame隔開(kāi)的4個(gè)數(shù)值,依次代表左上

位置

右下的像素值

image_書(shū)葉圖像

書(shū)葉文件對(duì)應(yīng)的原圖的名稱(chēng)

name的名稱(chēng)

文本版式

format_定義一組文本版式

對(duì)應(yīng)的文無(wú)無(wú)無(wú)<format_texts>

texts對(duì)應(yīng)的文字

字列表

format_texts的子節(jié)

文本版式

format_點(diǎn),該文字的坐標(biāo)<format_text>[光緒]順天府

對(duì)應(yīng)的無(wú)無(wú)無(wú)

text及字體效果等從版志</format_text>

文字

式文件中取得

圖文區(qū)域

blocks定義一組圖文區(qū)域無(wú)無(wú)無(wú)<blocks>

列表

插圖的矩形區(qū)域位置,屬性值為

插圖區(qū)域<image_blockregion=

blocks的子節(jié)點(diǎn),region矩形的左上右下4邊的像素值以

image_插圖圖像位置"244.00,416.00,1748.00,

定義一個(gè)插圖圖像符號(hào)“,”連接

block區(qū)域3028.00"image_name="

區(qū)域image_插圖的圖

插圖圖像保存在Cutout文件夾中017-KT-001.jpg"/>

name像文件名

文本的矩形區(qū)域位置,屬性值為<text_block

blocks的子節(jié)點(diǎn),文本區(qū)域

text_block文本區(qū)域region矩形的左上右下4邊的像素值以region="3228.00,526.00,

定義一個(gè)文本區(qū)域位置

符號(hào)“,”連接3331.00,3017.00">

文本行的矩形區(qū)域位置,屬性值

文本行的

region為矩形的左上右下4邊的像素值

區(qū)域位置

以符號(hào)“,”連接

column_欄的索引文本行所屬欄的索引,從0開(kāi)始,<text_line

index值屬性信息為空時(shí)表示沒(méi)有分欄region="3228.00,526.00,

text_block的子節(jié)

3331.00,3017.00"column_

text_line文本行點(diǎn),定義一個(gè)文本0:橫排?

direction文字方向index="0"direction="1"

行1:豎排?

para_style_id="1"bussiness_

para_style_段落樣type="0">

段落樣式定義見(jiàn)版式文件

id式ID

bussiness_0:大字?

大小字

type1:小字?

7

WH棷T?湅湂湂—湆湂湆湇

表2書(shū)葉XML文件標(biāo)簽(續(xù))

XML標(biāo)屬性

注解說(shuō)明樣例

簽名屬性名稱(chēng)注解說(shuō)明

文本字符文本字符的矩形區(qū)域位置,屬性

region的區(qū)域值為矩形的左上右下4邊的像素

位置值以符號(hào)“,”連接

<char

text_line的子節(jié)點(diǎn),font_id字體ID字體定義見(jiàn)版式文件region="2478.00,2221.00,

char文本字符

定義一個(gè)文本字符rotation角度單個(gè)字符的旋轉(zhuǎn)角度2581.00,2319.00"font_id="1"

rotation="0">通</char>

表意文字

ids描述表意文字描述字符串

字符串

模糊字的矩形區(qū)域位置,屬性值

模糊字的<blur

text_line或format_region為矩形的左上右下4邊的像素值

區(qū)域位置region="1469.00,2820.00,

blur模糊字text的子節(jié)點(diǎn),定義以符號(hào)“,”連接

1572.00,2917.00"image_

一個(gè)模糊字

image_模糊字摳模糊字摳圖的圖像文件名,圖像name="006-BL-001.jpg"/>

name圖文件名保存在Cutout文件夾中

<bracketstyle="2"type="0">

0:加框?

<char

style括號(hào)風(fēng)格1:加中括號(hào)?

region="1727.00,323.00,

text_line或format_2:加八邊形?

1795.00,393.00"font_id="1"

text的子節(jié)點(diǎn),

rotation="0">通</char>

bracket括號(hào)char、gaiji或blur0:完整的一對(duì)括號(hào)?

<char

的父節(jié)點(diǎn),定義一1:頭括號(hào)?

region="1727.00,394.00,

對(duì)括號(hào)type括號(hào)類(lèi)型2:尾括號(hào)?

1795.00,464.00"font_id="1"

通過(guò)定義頭括號(hào)和尾括號(hào)的類(lèi)型,

rotation="0">州</char>

支持一對(duì)括號(hào)跨行、跨頁(yè)的情況

</bracket>

lines線段列表定義一組線段無(wú)無(wú)無(wú)<lines>

start_point起始點(diǎn)起始點(diǎn)坐標(biāo)的像素值<linestart_

lines的子節(jié)點(diǎn),定point="287.00,282.00"end_

line線段end_point結(jié)束點(diǎn)結(jié)束點(diǎn)坐標(biāo)的像素值

義一條線段point="307.00,282.00"

weight線寬像素?cái)?shù)線寬weig

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論