T-CPRA 2102.2-2024 中華文化素材庫技術(shù)要求 第2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求_第1頁
T-CPRA 2102.2-2024 中華文化素材庫技術(shù)要求 第2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求_第2頁
T-CPRA 2102.2-2024 中華文化素材庫技術(shù)要求 第2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求_第3頁
T-CPRA 2102.2-2024 中華文化素材庫技術(shù)要求 第2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求_第4頁
T-CPRA 2102.2-2024 中華文化素材庫技術(shù)要求 第2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

ICS35.240.01CCSL70T/CPRA2102.2—2024中華文化素材庫技術(shù)要求第2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求TechnicalrequirementsformaterialdatabaseofChineseculturePart2:Dataqualityrequirementsforimage-basedbooks中國公共關(guān)系協(xié)會(huì)文化大數(shù)據(jù)產(chǎn)業(yè)委員會(huì)發(fā)布I 2規(guī)范性引用文件 3術(shù)語和定義 3.1中華文化素材庫 3.2文化數(shù)字內(nèi)容 3.3文化資源數(shù)據(jù) 4總體要求 4.1數(shù)據(jù)范圍 4.2數(shù)據(jù)入庫格式 4.3數(shù)據(jù)命名原則 5圖片類書籍?dāng)?shù)據(jù)入庫流程 5.1入庫流程 6數(shù)據(jù)要求 6.1平面數(shù)據(jù) 6.2文本數(shù)據(jù) 6.3表格數(shù)據(jù) 6.4書籍?dāng)?shù)據(jù) 7數(shù)據(jù)屬性要求 7.1屬性基本要求 7.2屬性數(shù)據(jù)結(jié)構(gòu)要求 本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任。本文件由中國公共關(guān)系協(xié)會(huì)文化大數(shù)據(jù)產(chǎn)業(yè)委員會(huì)提出并歸口。本文件起草單位:北京郵電大學(xué)、北京玖揚(yáng)科技有限公司、伏羲云(北京)文化科技有限公本文件主要起草人:徐坤、高凱、趙海英、薛曉鵬、尹暉、侯小剛、徐鵬舉、曹明煒、周月、張煉、崔義娜、陳磊、劉志軍、李媛媛。1中華文化素材庫技術(shù)要求第2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求本文件規(guī)定了中華文化素材庫中圖片類書籍?dāng)?shù)據(jù)的質(zhì)量要求,包括圖片類書籍?dāng)?shù)據(jù)的入庫數(shù)據(jù)類型、質(zhì)量標(biāo)準(zhǔn)、以及相關(guān)的入庫流程等內(nèi)容。本文件適用于中華文化素材庫構(gòu)建過程中對(duì)于圖片類書籍?dāng)?shù)據(jù)的采集、處理、存儲(chǔ)、管理和應(yīng)2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T1.1-2020標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則T/CPRA1-2021國家文化大數(shù)據(jù)標(biāo)準(zhǔn)體系T/CPRA300-2023文化數(shù)字內(nèi)容分類與代碼T/CPRA301-2023文化資源數(shù)據(jù)分類與代碼3術(shù)語和定義下列術(shù)語和定義適用于本文件。3.1中華文化素材庫materialdatabaseofchineseculture以文化資源數(shù)字化成果為原料,集成運(yùn)用各種新技術(shù),萃取中華文化之要素,并分門別類標(biāo)簽化,進(jìn)而形成的可組合使用的素材庫。按照文化呈現(xiàn)要素中華文化素材庫可劃分為中華字庫、中華音庫、中華像庫、中華樂庫、中華舞庫、中華劇庫等。中華文化素材庫的來源是多元的,中國文化遺產(chǎn)標(biāo)本庫和中華民族文化基因庫的數(shù)據(jù)是重要來源,文化企事業(yè)單位已建成的文化藝術(shù)、新聞出版、廣播電視、網(wǎng)絡(luò)視聽、電影等數(shù)據(jù)庫,也是重要來源。相關(guān)數(shù)據(jù)通過國家文化專網(wǎng)實(shí)現(xiàn)共享。[來源:T/CPRA301-2023定義3.1.4]3.2文化數(shù)字內(nèi)容culturaldigitalcontent以數(shù)字形式存在的文化產(chǎn)品,一般以文字、圖片、音頻、視頻、多媒體和其他形式表現(xiàn)。通常包括傳統(tǒng)文化產(chǎn)品的數(shù)字化以及以數(shù)字形式存在的文化產(chǎn)品。國家文化大數(shù)據(jù)體系下文化數(shù)字內(nèi)容主要涵蓋中華優(yōu)秀傳統(tǒng)文化、革命文化和社會(huì)主義先進(jìn)文化等。文化數(shù)字內(nèi)容作為數(shù)字化文化生產(chǎn)線的產(chǎn)出,由文化大數(shù)據(jù)服務(wù)平臺(tái)管理與分發(fā),并通過文化體驗(yàn)設(shè)施和設(shè)備消費(fèi)。通常情況下,文化數(shù)字內(nèi)容又稱為文化數(shù)字產(chǎn)品、文化數(shù)字內(nèi)容產(chǎn)品等。[來源:T/CPRA300-2023定義3.1.1]23.3文化資源數(shù)據(jù)culturalresourcesdata對(duì)人類文化中傳承下來并可以傳播利用的文化(包括物質(zhì)的和非物質(zhì)的)進(jìn)行數(shù)字化采集后,所得到的用于識(shí)別和展現(xiàn)文化的圖像、文字、聲音、動(dòng)畫、影片、三維全景、三維模型等數(shù)據(jù)。國家文化大數(shù)據(jù)體系下文化資源數(shù)據(jù)主要包括中國文化遺產(chǎn)標(biāo)本庫、中華民族文化基因庫、中華文化素材庫中的數(shù)據(jù)。[來源:T/CPRA301-2023定義3.1.1]4總體要求4.1數(shù)據(jù)范圍中華文化素材庫中,圖片類書籍?dāng)?shù)據(jù)的入庫范圍包括:a)圖片類書籍相關(guān)素材,涵蓋但不限于與中華字庫、中華像庫等具有圖像特性關(guān)聯(lián)的子庫內(nèi)b)中國文化遺產(chǎn)標(biāo)本庫、中華民族文化基因庫中與圖片類書籍直接相關(guān)的數(shù)據(jù);c)文化企事業(yè)單位已建成的與圖片類書籍相關(guān)的數(shù)據(jù)資源,包括圖書館館藏的數(shù)字化書籍與期刊、文化研究機(jī)構(gòu)或高校出版的圖片類書籍與論文、電子書平臺(tái)的數(shù)字出版內(nèi)容,以及出版機(jī)構(gòu)或文化博物館等單位的圖書插圖、畫冊(cè)資源等。4.2數(shù)據(jù)入庫格式4.2.1平面數(shù)據(jù)表1平面數(shù)據(jù)格式數(shù)據(jù)類型數(shù)據(jù)格式.jpg、.png、.tiff、.bmp、.svg矢量圖.eps、.pdf4.2.2文本數(shù)據(jù)表2文本數(shù)據(jù)格式數(shù)據(jù)類型數(shù)據(jù)格式純文本富文本.docx、.rtf排版數(shù)據(jù).tex、.pdf4.2.3表格數(shù)據(jù)表3表格數(shù)據(jù)格式數(shù)據(jù)類型數(shù)據(jù)格式表格內(nèi)容.xls、.xlsx、.csv34.2.4書籍?dāng)?shù)據(jù)表4書籍?dāng)?shù)據(jù)格式數(shù)據(jù)類型數(shù)據(jù)格式書籍文檔.docx、.pdf、.epub4.3數(shù)據(jù)命名原則數(shù)據(jù)文件命名宜按照“數(shù)據(jù)類型+數(shù)據(jù)編號(hào)”兩部分進(jìn)行編碼,共16位,使用char字符進(jìn)行存儲(chǔ)。數(shù)據(jù)類型字段與命名所屬數(shù)據(jù)類型相關(guān),編碼對(duì)照表見表5。數(shù)據(jù)編號(hào)按照YYYY-MD-Number(2020-1201-00000001)的格式進(jìn)行編碼。該編碼規(guī)則不同的數(shù)據(jù)類型每天可添加一千萬個(gè)不同的數(shù)據(jù)。編碼規(guī)則見圖1。XXXXXXXX-XXXX-XXXXXXXXXXXX圖1命名編碼規(guī)則表5數(shù)據(jù)類型編碼對(duì)照表數(shù)據(jù)類型數(shù)據(jù)編碼平面數(shù)據(jù)PMSJ文本數(shù)據(jù)WBSJ表格數(shù)據(jù)BGSJ書籍?dāng)?shù)據(jù)SJSJ5圖片類書籍?dāng)?shù)據(jù)入庫流程5.1入庫流程圖片類書籍?dāng)?shù)據(jù)的入庫流程包括文化素材數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)類型與質(zhì)量校驗(yàn)、數(shù)據(jù)修改與優(yōu)化,以及最終的數(shù)據(jù)錄入。入庫流程旨在確保圖片類書籍?dāng)?shù)據(jù)符合文化素材庫的數(shù)據(jù)管理規(guī)范,具體流程如圖2所示。4!<>N<>合格Y↓合格合格Y圖2圖片類書籍?dāng)?shù)據(jù)入庫流程5.1.1文化素材數(shù)據(jù)準(zhǔn)備文化素材數(shù)據(jù)準(zhǔn)備包括以下步驟:a)素材數(shù)據(jù)采集:從圖片類書籍中提取與內(nèi)容相關(guān)的圖片、文字、表格等數(shù)據(jù),確保素材完整性;b)數(shù)據(jù)整理與清洗:按照中華文化素材庫的設(shè)計(jì)要求,對(duì)采集的素材數(shù)據(jù)進(jìn)行清理,包括刪除重復(fù)數(shù)據(jù)條目,避免冗余存儲(chǔ);填補(bǔ)缺失值,確保數(shù)據(jù)的完整性;糾正異常值,確保數(shù)據(jù)的準(zhǔn)確性與一致性等步驟;c)數(shù)據(jù)分類:根據(jù)圖片類書籍?dāng)?shù)據(jù)的屬性特征,將數(shù)據(jù)初步劃分為平面數(shù)據(jù)、文本數(shù)據(jù)、表格數(shù)據(jù)等類別,以便后續(xù)處理。5.1.2入庫前類型校驗(yàn)在素材數(shù)據(jù)入庫前,需進(jìn)行嚴(yán)格的數(shù)據(jù)類型校驗(yàn),具體包括:a)數(shù)據(jù)類型驗(yàn)證:依據(jù)素材的預(yù)期用途,對(duì)數(shù)據(jù)的格式和類型進(jìn)行校驗(yàn),確保其符合數(shù)據(jù)庫設(shè)計(jì)的接受范圍。具體數(shù)據(jù)類型要求參考4.2的相關(guān)內(nèi)容;b)不匹配數(shù)據(jù)處理:對(duì)于不符合類型規(guī)范的素材數(shù)據(jù),進(jìn)行必要的轉(zhuǎn)換與調(diào)整,確保數(shù)據(jù)類5型與標(biāo)準(zhǔn)一致;c)數(shù)據(jù)類型確認(rèn):校驗(yàn)無誤后,確認(rèn)素材數(shù)據(jù)的最終類型,以確保數(shù)據(jù)分類與數(shù)據(jù)庫需求一致。5.1.3入庫前質(zhì)量校驗(yàn)入庫前的質(zhì)量校驗(yàn)旨在確保素材數(shù)據(jù)符合質(zhì)量要求,具體步驟包括:a)數(shù)據(jù)類型確認(rèn):基于5.1.2的校驗(yàn)結(jié)果,明確數(shù)據(jù)的類型屬性;b)質(zhì)量校驗(yàn)內(nèi)容確定:按照素材數(shù)據(jù)的類型,制定具體的質(zhì)量校驗(yàn)標(biāo)準(zhǔn),如平面數(shù)據(jù)的分辨率、文本數(shù)據(jù)的完整性、表格數(shù)據(jù)的結(jié)構(gòu)化程度等,具體要求詳見6;c)執(zhí)行質(zhì)量校驗(yàn):依據(jù)校驗(yàn)標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行檢查,不符合質(zhì)量要求的數(shù)據(jù)標(biāo)記為“需修改”,通過質(zhì)量校驗(yàn)的數(shù)據(jù)進(jìn)入后續(xù)流程。5.1.4數(shù)據(jù)修改數(shù)據(jù)修改是對(duì)未通過質(zhì)量校驗(yàn)的素材數(shù)據(jù)進(jìn)行優(yōu)化和調(diào)整的關(guān)鍵步驟,具體包括以下內(nèi)容:a)問題定位與修正:識(shí)別數(shù)據(jù)中存在的具體問題(如圖像分辨率不足、文本內(nèi)容不完整或表格字段缺失),并依據(jù)質(zhì)量標(biāo)準(zhǔn)進(jìn)行修正或補(bǔ)充;b)一致性檢查:確保修改后的數(shù)據(jù)在格式、內(nèi)容和結(jié)構(gòu)上與數(shù)據(jù)庫要求保持一致,例如統(tǒng)一命名規(guī)則、字符編碼和字段順序等;c)記錄與復(fù)核:對(duì)修改過程及結(jié)果進(jìn)行記錄,并進(jìn)行二次校驗(yàn),確保所有調(diào)整后的數(shù)據(jù)符合入庫質(zhì)量要求。5.1.5數(shù)據(jù)錄入經(jīng)過類型校驗(yàn)、質(zhì)量校驗(yàn)和數(shù)據(jù)修改的圖片類書籍素材數(shù)據(jù),可進(jìn)行正式錄入,具體要求包括:a)錄入數(shù)據(jù)標(biāo)準(zhǔn)化:按照平面數(shù)據(jù)、文本數(shù)據(jù)、表格數(shù)據(jù)的分類,分別存儲(chǔ),并關(guān)聯(lián)其原始書籍;b)錄入元數(shù)據(jù)生成:生成包括數(shù)據(jù)標(biāo)識(shí)符、格式、存儲(chǔ)地址等在內(nèi)的標(biāo)準(zhǔn)元數(shù)據(jù),元數(shù)據(jù)規(guī)范參考7;c)數(shù)據(jù)存儲(chǔ)與備案:將錄入數(shù)據(jù)上傳至指定的存儲(chǔ)地址,并備案其入庫時(shí)間、修改記錄和版本信息,以便后續(xù)管理和追溯。6數(shù)據(jù)要求6.1平面數(shù)據(jù)表6平面數(shù)據(jù)質(zhì)量要求級(jí)別峰值信噪比(PSNR)信號(hào)失真率結(jié)構(gòu)相似度(SSIM)高質(zhì)量圖像≥30dB中等質(zhì)量圖像≥20dB且<30dB≥0.5且<0.8≥0.6且<0.85低質(zhì)量圖像<20dB66.2文本數(shù)據(jù)表7文本數(shù)據(jù)質(zhì)量要求級(jí)別缺失數(shù)據(jù)比率一致性檢驗(yàn)通過率平均誤差率高<5%一般≥5%且<10%≥95%且<99%≥5%且<10%差<95%≥10%6.3表格數(shù)據(jù)表8表格數(shù)據(jù)質(zhì)量要求級(jí)別缺失數(shù)據(jù)比率單元格完整率表格格式一致性數(shù)據(jù)準(zhǔn)確率高<5%≥99%一般≥5%且<10%≥95%且<98%≥90%且<95%≥95%且<99%差≥10%<95%<90%<95%6.4書籍?dāng)?shù)據(jù)表9表格數(shù)據(jù)質(zhì)量要求級(jí)別缺失數(shù)據(jù)比率元數(shù)據(jù)完整率格式一致性O(shè)CR識(shí)別準(zhǔn)確率高<3%≥95%≥99%一般≥3%且<7%≥95%且<98%≥90%且<95%≥95%且<99%差<95%<90%<95%7數(shù)據(jù)屬性要求7.1屬性基本要求數(shù)據(jù)屬性的基本要求是:a)每個(gè)數(shù)據(jù)體應(yīng)包含完整的屬性信息,確??勺匪菪耘c準(zhǔn)確性。詳細(xì)屬性信息要求見7.2。b)數(shù)據(jù)體樣本編號(hào)符合本標(biāo)準(zhǔn)定義,詳細(xì)定義見4.3。c)數(shù)據(jù)類型需匹配相應(yīng)的入庫格式(如圖像、文本等),并符合4.2提出的具體數(shù)據(jù)格式7.2屬性數(shù)據(jù)結(jié)構(gòu)要求屬性結(jié)構(gòu)應(yīng)滿足表10、表11、表12、表13要求,如下表所示。表10平面數(shù)據(jù)屬性結(jié)構(gòu)表設(shè)計(jì)序號(hào)字段名稱數(shù)據(jù)類型字段長度必填1名稱字符串300是2文化數(shù)據(jù)標(biāo)識(shí)符字符串是3來源書籍標(biāo)識(shí)符字符串是4來源書籍名稱字符串300是5描述字符串400是6服務(wù)類型字符串7貢獻(xiàn)者字符串300是78著作權(quán)人字符串是9載體受控詞是登記者字符串登記日期標(biāo)簽字符串否文件大小字符串格式字符串存儲(chǔ)地址字符串分辨率字符串文件MD5字符串版權(quán)登記號(hào)字符串否版權(quán)歸屬字符串否20版權(quán)開始時(shí)間否21版權(quán)結(jié)束時(shí)間否文本數(shù)據(jù)屬性結(jié)構(gòu)要求如下表所示。表11文本數(shù)據(jù)屬性結(jié)構(gòu)表設(shè)計(jì)序號(hào)字段名稱數(shù)據(jù)類型字段長度必填1名稱字符串300是2文化數(shù)據(jù)標(biāo)識(shí)符字符串是3來源書籍標(biāo)識(shí)符字符串是4來源書籍名稱字符串300是5描述字符串2000是6服務(wù)類型字符串7貢獻(xiàn)者字符串300是8著作權(quán)人字符串是9載體受控詞是登記者字符串登記日期標(biāo)簽字符串否文件大小字符串格式字符串語種受控詞是存儲(chǔ)地址字符串文件MD5字符串版權(quán)登記號(hào)字符串否版權(quán)歸屬字符串否20版權(quán)開始時(shí)間否21版權(quán)結(jié)束時(shí)間否表格數(shù)據(jù)屬性結(jié)構(gòu)要求如下表所示。表12表格數(shù)據(jù)屬性結(jié)構(gòu)表設(shè)計(jì)序號(hào)字段名稱數(shù)據(jù)類型字段長度必填81名稱字符串300是2文化數(shù)據(jù)標(biāo)識(shí)符字符串是3來源書籍標(biāo)識(shí)符字符串是4來源書籍名稱字符串300是5描述字符串400是6服務(wù)類型字符串7貢獻(xiàn)者字符串300是8著作權(quán)人字符串是9載體受控詞是登記者字

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論