數(shù)據(jù)質(zhì)量檢查模塊V0功能規(guī)范_第1頁
數(shù)據(jù)質(zhì)量檢查模塊V0功能規(guī)范_第2頁
數(shù)據(jù)質(zhì)量檢查模塊V0功能規(guī)范_第3頁
數(shù)據(jù)質(zhì)量檢查模塊V0功能規(guī)范_第4頁
數(shù)據(jù)質(zhì)量檢查模塊V0功能規(guī)范_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、CALIS學(xué)位論文和特色庫本地系統(tǒng)數(shù)據(jù)質(zhì)量檢查模塊V2.0功能規(guī)范CALIS管理中心2006年10月、概述«CALISOAIRecord格式和發(fā)布規(guī)范定義了“CALIS數(shù)據(jù)發(fā)布模式2"。對于該模式中的“數(shù)據(jù)質(zhì)量檢查模塊V2.0”,本文給出了具體功能規(guī)范。“數(shù)據(jù)質(zhì)量檢查模塊V2.0"(簡稱“數(shù)據(jù)質(zhì)量檢查模塊”)需作為學(xué)位論文或特色庫本地系統(tǒng)的一個(gè)組成部分。該模塊有兩種使用方式:方式1:該模塊用于對“CALIS數(shù)據(jù)發(fā)布模式2"中的OAI記錄文件(該文件遵循“CALISOAIRecordV2.0格式”,可以在同一條OAI記錄中同時(shí)包含元數(shù)據(jù)和數(shù)字對象)進(jìn)行校驗(yàn)

2、。方式2:本地系統(tǒng)在將數(shù)據(jù)送入OAI-DP之前,自動調(diào)用該模塊對擬發(fā)布的元數(shù)據(jù)和數(shù)字對象進(jìn)行質(zhì)量檢查和校驗(yàn)。數(shù)據(jù)質(zhì)量檢查模塊的使用者主要圖書館中學(xué)位論文或特色庫本地系統(tǒng)的系統(tǒng)管理員或者數(shù)據(jù)管理員。對于學(xué)位論文本地系統(tǒng),需設(shè)置一個(gè)系統(tǒng)參數(shù)“論文必備性校驗(yàn)分界日期(CALIS_ETD_verify_sep_date)”,若某篇學(xué)位論文的“論文授予日期”大于等于指定該分界日期,則采用“CALIS學(xué)位論文元數(shù)據(jù)必備性規(guī)則2”進(jìn)行校驗(yàn),否則采用“CALIS學(xué)位論文元數(shù)據(jù)必備性規(guī)則1”進(jìn)行校驗(yàn)。二、界面規(guī)范管理員首先使用本地系統(tǒng)的OAI文件導(dǎo)出模塊進(jìn)行OAI記錄文件(遵循“CALISOAIRecordV2

3、.0格式”)的導(dǎo)出。然后,管理員再使用“數(shù)據(jù)質(zhì)量檢查模塊”對OAI記錄文件中的數(shù)據(jù)在數(shù)據(jù)格式、必備性、一致性等方面進(jìn)行檢查和校驗(yàn)。校驗(yàn)無誤后,管理員才能將這些文件通過FTP上傳,或者通過OAI-DP自動對外發(fā)布。數(shù)據(jù)質(zhì)量檢查模塊的界面應(yīng)盡量簡單易操作,提示信息明確。該界面至少應(yīng)包含以下部分:1. oai記錄文件夾(文件名)輸入框,可以手工輸入要檢查文件存放的文件夾或文件名。2. oai記錄文件夾選擇按鈕,可以用可視對話框的方式選擇要檢查的文件夾或文件3. oai文件檢查按鈕4. 結(jié)果提示文字框數(shù)據(jù)質(zhì)量檢查模塊的界面如下圖所示:0Al記錄文件檢查:【依據(jù)CALISOAIRecordV2嘴式)F二

4、皿試佐時(shí)文件暗色庫,我幌I開始檢查檢查結(jié)果:QAI文件總數(shù):1020已檢查文件數(shù);560錯(cuò)誤文件數(shù);:3此女件夾下有下列文件不合格:oai3A3AEID-test2Fpap&r_BYQ0041Q720061)541003A5D3A44Z.oai.xml錯(cuò)誤稅房口1003:支律不符莒schemaiX3A211008X3ACALISJNAiMes(X2FCAUSJNAiL2da3f9de242006-0117Tm3A12X3A41Z.Mi.Mrnl錯(cuò)誤代網(wǎng)0101。:文件名解析的MwtalD與內(nèi)容MctalD不一致naiN明2110(ffi3ACALISwebsite-test2FCALI

5、SwebsiteG4cdO72Q0G-01-17T口9黑3Al0%3A35.oai.xml錯(cuò)誤代碼。2001:metadat最少必備一韁元素:(He;霞S圖1:數(shù)據(jù)質(zhì)量檢查模塊V2.0的界面示意【特別注意】對于學(xué)位論文本地系統(tǒng),參數(shù)CALIS_ETD_verify_sep_date(論文必備性校驗(yàn)分界日期)應(yīng)能由管理員統(tǒng)一配置。三、功能規(guī)范“數(shù)據(jù)質(zhì)量檢查模塊V2.0”對于“CALIS數(shù)據(jù)發(fā)布模式2”的OAI記錄文件進(jìn)行校驗(yàn)時(shí)可能會發(fā)現(xiàn)一些錯(cuò)誤,這些錯(cuò)誤提示應(yīng)遵循CALIS學(xué)位論文和特色庫本地系統(tǒng)的數(shù)據(jù)質(zhì)量檢查模塊的錯(cuò)誤代碼規(guī)范規(guī)范。“數(shù)據(jù)質(zhì)量檢查模塊V2.0”對OAI記錄文件的校驗(yàn)分為以下兩種

6、情形:1)用于對OAI記錄文件進(jìn)行校驗(yàn);2)與本地系統(tǒng)聯(lián)動,用于對OAI-DP中即將發(fā)布的OAI記錄數(shù)據(jù)進(jìn)行校驗(yàn)。3.1 對OAI記錄文件的校驗(yàn)對“OAI記錄文件”,按照“CALISOAIRecordV2.0格式”要求進(jìn)行校驗(yàn),該校驗(yàn)工作包括以下幾個(gè)方面:(1) 對OAIRecord文件名稱的校驗(yàn)(a)文件名稱是否采用以下拼接形式生成:“完整的MetalD”+“”+“導(dǎo)出時(shí)間戳”+“.oai.xml”這種校驗(yàn)的錯(cuò)誤代碼為01002A。(b) “完整的MetalD”部分是否采用以下拼接形式生成:“倉儲標(biāo)識”+“-”+“本地應(yīng)用系統(tǒng)前綴”+7”+“本地元數(shù)據(jù)標(biāo)識”這種校驗(yàn)的錯(cuò)誤代碼為01003A。

7、(c) ”完整的MetalD”部分是否進(jìn)行了application/x-www-form-urlencodedMIME格式轉(zhuǎn)換,型如:oai%3A%3Aetd-dr%2FA1002這種校驗(yàn)的錯(cuò)誤代碼為01003B。(d) “導(dǎo)出時(shí)間戳”部分是否為型如“2005-01-01T10:02:30Z”的20位零時(shí)區(qū)時(shí)間格式這種校驗(yàn)的錯(cuò)誤代碼為01004A。(e) “導(dǎo)出時(shí)間戳”部分是否進(jìn)行了application/x-www-form-urlencodedMIME格式轉(zhuǎn)換,型如:2005-01-01T10%3A02%3A30Z這種校驗(yàn)的錯(cuò)誤代碼為01004B。(f) OAIRecord文件名稱是否型如

8、:oai%3A%3Aetd-dr%2FA10022005-01-01T10%3A02%3A30Z.oai.xml這種校驗(yàn)的錯(cuò)誤代碼為01002B。(2) 對OAIRecord文件的內(nèi)容進(jìn)行校驗(yàn)(a) 用RecordSchema(record.xsd)校驗(yàn)XML文件是否合法,schema地址為:這種校驗(yàn)的錯(cuò)誤代碼為01009。(b) 取出record->header->identifier下的元數(shù)據(jù)標(biāo)識符的值,并同OAIRecord文件名稱中的“完整的MetaID”進(jìn)行比較,這兩個(gè)值應(yīng)該一致這種校驗(yàn)的錯(cuò)誤代碼為01010O(c) 取出record->header->dat

9、estamp下的元數(shù)據(jù)時(shí)間戳的值,該值應(yīng)該是一個(gè)20位的零時(shí)區(qū)時(shí)間值這種校驗(yàn)的錯(cuò)誤代碼為01011。(d) 取出record->metadata下的元數(shù)據(jù)XML片斷,對元數(shù)據(jù)內(nèi)容進(jìn)行校驗(yàn)a)該部分的元數(shù)據(jù),當(dāng)符合不同元數(shù)據(jù)格式時(shí),所使用的元數(shù)據(jù)Schema是不同的,所以,需要取出根元素的xsi:schemaLocation屬性值,并獲得其中包含的schema的地址,利用該schema對當(dāng)前元數(shù)據(jù)XML片斷進(jìn)行校驗(yàn)這種校驗(yàn)的錯(cuò)誤代碼為01012。b)根據(jù)對應(yīng)格式的元數(shù)據(jù)規(guī)范和著錄規(guī)則,逐一對各個(gè)元素和子元素修飾詞的必備性(1,1或1,8)和不可重復(fù)性(0,1或1,1)進(jìn)行校驗(yàn)對于學(xué)位論文系

10、統(tǒng),若該元數(shù)據(jù)的“論文授予日期”大于等于指定的“論文必備性校驗(yàn)分界日期”,則采用“CALIS學(xué)位論文元數(shù)據(jù)必備性規(guī)則2”進(jìn)行校驗(yàn),否則采用“CALIS學(xué)位論文元數(shù)據(jù)必備性規(guī)則1”進(jìn)行校驗(yàn)。對于特色庫,沒有上述分界日期。但type取值必須在專題特色庫信息資源名稱規(guī)范列表中取詞。對于學(xué)位論文,按照“CALIS學(xué)位論文元數(shù)據(jù)必備性規(guī)則1”進(jìn)行校驗(yàn)所用的錯(cuò)誤代碼為0200102001E;按照“CALIS學(xué)位論文元數(shù)據(jù)必備性規(guī)則2”進(jìn)行校驗(yàn)所用的錯(cuò)誤代碼為0200102001E。對于特色庫,這種校驗(yàn)的錯(cuò)誤代碼為0200102001E。c)當(dāng)語種元素(language)的編碼體系修飾詞為"sch

11、eme='ISO639-2時(shí),語種值必須符合ISO639-2(/iso639-2.html) 這種校驗(yàn)的錯(cuò)誤代碼為02009。d)當(dāng)與時(shí)間相關(guān)的元素或子元素修飾詞的編碼體系修飾詞為“scheme='W3C-DTF'”時(shí),其時(shí)間值必須符合W3C-DTF(/TR/NOTE-datetime) 這種校驗(yàn)的錯(cuò)誤代碼為020100yyyyyyyy-mmyyyy-mm-ddyyyy-mm-ddThh:mm:ssZ當(dāng)該元數(shù)據(jù)含有對應(yīng)的數(shù)字對象時(shí),需要在元數(shù)據(jù)中攜帶CALIS-OID(1)需要在元數(shù)據(jù)中攜帶CALIS-O

12、ID,型如:identifierscheme='CALIS-OID'>urn:CALIS:211011-ETD/C2005000001</identfier> 這種校驗(yàn)的錯(cuò)誤代碼為02001F。(2)需要在元數(shù)據(jù)中攜帶format(從«CALISMETS包結(jié)構(gòu)規(guī)范附注一中取值) 這種校驗(yàn)的錯(cuò)誤代碼為02001G。e) 當(dāng)含有CALIS-OID時(shí),CALIS-OID的構(gòu)成方式必須符合CALIS數(shù)字對象唯一標(biāo)識符命名規(guī)范中復(fù)雜對象CALIS-OID的命名方式,即型如:urn:CALIS:"+“高校館代碼或資源商代碼”+“-”+“本地集合名”+“

13、/”+“本地標(biāo)識”這種校驗(yàn)的錯(cuò)誤代碼為01015。f) 當(dāng)元數(shù)據(jù)中含有學(xué)科信息時(shí),需要提供相應(yīng)的學(xué)科代碼信息。i.對于教育部學(xué)科代碼,型如<subjectscheme='disciplineList'>教育部學(xué)科代碼</subject>-這種校驗(yàn)的錯(cuò)誤代碼為02008。ii.對于其他的學(xué)科代碼,采用相應(yīng)的學(xué)科代碼值表進(jìn)行校驗(yàn)(e)取出record->about下的METS包XML片斷,并按以下步驟對其進(jìn)行校驗(yàn)a) 利用METS1.3的Schema對METS數(shù)字對象文件進(jìn)行校驗(yàn),schema地址為:/standard

14、s/mets/version13/mets.xsd這種校驗(yàn)的錯(cuò)誤代碼為01014。b) 取出mets元素的屬性LABEL的值,該值必備,而且必須與OAIRecord文件的文件名稱中的“完整的MetaID”部分的值一致這種校驗(yàn)的錯(cuò)誤代碼為02007A。c) 取出mets元素的屬性O(shè)BJID的值,該值必備,而且必須元數(shù)據(jù)(metadata)中的CALIS-OID的值一致這種校驗(yàn)的錯(cuò)誤代碼為02007B。d) 取出mets元素的屬性PROFILE的值,該值有則必備這種校驗(yàn)的錯(cuò)誤代碼為02007C。e) 取出mets->metsHdr的屬性LASTMODDATE的值,如有數(shù)字對象(存在mets-

15、>file)則該值必備,而且必須為20位零時(shí)區(qū)時(shí)間這種校驗(yàn)的錯(cuò)誤代碼為02007D。3.2對OAI記錄數(shù)據(jù)的校驗(yàn)對“OAI記錄數(shù)據(jù)”,按照“CALISOAIRecordV2.0格式”要求進(jìn)行校驗(yàn),該校驗(yàn)工作包括以下幾個(gè)方面:(1) 對OAIRecord內(nèi)容進(jìn)行校驗(yàn)(a) 用OAI-PMHSchema(record.xsd)校驗(yàn)XML文件是否合法,schema地址為:http:/www.openarchives.Org/OAI/2.0/OAI-PMH.xsd這種校驗(yàn)的錯(cuò)誤代碼為01008。(b) 取出record->header->datestamp下的元數(shù)據(jù)時(shí)間戳的值,該值應(yīng)

16、該是一個(gè)20位的零時(shí)區(qū)時(shí)間值這種校驗(yàn)的錯(cuò)誤代碼為01011。(c) 取出record->metadata下的元數(shù)據(jù)XML片斷,對元數(shù)據(jù)內(nèi)容進(jìn)行校驗(yàn)f)該部分的元數(shù)據(jù),當(dāng)符合不同元數(shù)據(jù)格式時(shí),所使用的元數(shù)據(jù)Schema是不同的,所以,需要取出根元素的xsi:schemaLocation屬性值,并獲得其中包含的schema的地址,利用該schema對當(dāng)前元數(shù)據(jù)XML片斷進(jìn)行校驗(yàn)這種校驗(yàn)的錯(cuò)誤代碼為01012。g)根據(jù)對應(yīng)格式的元數(shù)據(jù)規(guī)范和著錄規(guī)則,逐一對各個(gè)元素和子元素修飾詞的必備性(1,1或1,8)和不可重復(fù)性(0,1或1,1)進(jìn)行校驗(yàn)對于學(xué)位論文系統(tǒng),若該元數(shù)據(jù)的“論文授予日期”大于等于

17、指定的“論文必備性校驗(yàn)分界日期”,則采用“CALIS學(xué)位論文元數(shù)據(jù)必備性規(guī)則2”進(jìn)行校驗(yàn),否則采用“CALIS學(xué)位論文元數(shù)據(jù)必備性規(guī)則1”進(jìn)行校驗(yàn)。對于特色庫,沒有上述分界日期。但type取值必須在專題特色庫信息資源名稱規(guī)范列表中取詞。對于學(xué)位論文:按照“CALIS學(xué)位論文元數(shù)據(jù)必備性規(guī)則1”進(jìn)行校驗(yàn)所用的錯(cuò)誤代碼為0200102001E;按照“CALIS學(xué)位論文元數(shù)據(jù)必備性規(guī)則2”進(jìn)行校驗(yàn)所用的錯(cuò)誤代碼為0200102001E。對于特色庫,這種校驗(yàn)的錯(cuò)誤代碼為0200102001E。h) 當(dāng)語種元素(language)的編碼體系修飾詞為"scheme='ISO639-2時(shí),

18、語種值必須符合ISO639-2(/iso639-2.html)這種校驗(yàn)的錯(cuò)誤代碼為02009。i) 當(dāng)與時(shí)間相關(guān)的元素或子元素修飾詞的編碼體系修飾詞為“scheme='W3C-DTF'”時(shí),其時(shí)間值必須符合W3C-DTF(/TR/NOTE-datetime)這種校驗(yàn)的錯(cuò)誤代碼為020100j) 當(dāng)該元數(shù)據(jù)含有對應(yīng)的數(shù)字對象時(shí),(1)需要在元數(shù)據(jù)中攜帶CALIS-OID,型如:identifierscheme='CALIS-OID'>urn:CALIS:211011-ETD/C2005000001</identfier>這種校驗(yàn)的錯(cuò)誤代碼為02001F。(2)需要在元數(shù)據(jù)中攜帶format(從«CALISMETS包結(jié)構(gòu)規(guī)范附注一中取值)這種校驗(yàn)的錯(cuò)誤代碼為02001G。k) 當(dāng)含有CALIS-OID時(shí),CALIS-OID的構(gòu)成方式必須符合CALIS數(shù)字對象唯一標(biāo)識符命名規(guī)范中復(fù)雜對象CALIS-OID的命名方式,即型如:urn:CALIS:"+“高校館代碼或資源商代碼”+“-”+“本地集合名”+“/”+“本地標(biāo)識”這種校驗(yàn)的錯(cuò)誤代碼為01015。l) 當(dāng)元數(shù)據(jù)中含

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論