標(biāo)準(zhǔn)解讀

《GB/T 33994-2017 信息和文獻 WARC文件格式》是中國國家標(biāo)準(zhǔn)之一,它規(guī)定了用于長期保存網(wǎng)頁和其他數(shù)字資源的WARC(Web ARChive)文件格式。該標(biāo)準(zhǔn)主要參考國際互聯(lián)網(wǎng)檔案館提出的相關(guān)規(guī)范,并結(jié)合國內(nèi)實際情況進行了適應(yīng)性調(diào)整,旨在為我國的信息資源長期保存提供技術(shù)支持。

WARC文件格式是一種用于存儲網(wǎng)絡(luò)爬蟲抓取結(jié)果或其他類型數(shù)字內(nèi)容的數(shù)據(jù)封裝格式。與早期使用的ARC文件格式相比,WARC增加了更多元化的記錄類型支持以及更豐富的元數(shù)據(jù)描述能力,能夠更好地滿足不同應(yīng)用場景下對數(shù)字資源歸檔的需求。

根據(jù)該標(biāo)準(zhǔn)定義,一個完整的WARC文件由一系列連續(xù)排列的WARC記錄組成,每個WARC記錄又包含了若干個部分:版本號、記錄頭、可選的內(nèi)容塊等。其中,記錄頭使用鍵值對形式來表示關(guān)于該條記錄的各種屬性信息;而內(nèi)容塊則用來存放實際捕獲到的數(shù)據(jù)內(nèi)容。此外,還允許在記錄之間插入填充字節(jié)以確保特定位置上的邊界對齊要求得到滿足。

對于每種類型的WARC記錄(如“響應(yīng)”、“請求”、“重定向”等),標(biāo)準(zhǔn)都給出了詳細(xì)的結(jié)構(gòu)說明及示例,以便于開發(fā)者理解和實現(xiàn)相應(yīng)的讀寫功能。同時,為了保證WARC文件能夠在不同系統(tǒng)間進行互操作,《GB/T 33994-2017》也明確了編碼規(guī)則、壓縮算法選擇等方面的指導(dǎo)原則。


如需獲取更多詳盡信息,請直接參考下方經(jīng)官方授權(quán)發(fā)布的權(quán)威標(biāo)準(zhǔn)文檔。

....

查看全部

  • 現(xiàn)行
  • 正在執(zhí)行有效
  • 2017-07-12 頒布
  • 2018-02-01 實施
?正版授權(quán)
GB/T 33994-2017信息和文獻WARC文件格式_第1頁
GB/T 33994-2017信息和文獻WARC文件格式_第2頁
GB/T 33994-2017信息和文獻WARC文件格式_第3頁
GB/T 33994-2017信息和文獻WARC文件格式_第4頁
免費預(yù)覽已結(jié)束,剩余28頁可下載查看

下載本文檔

GB/T 33994-2017信息和文獻WARC文件格式-免費下載試讀頁

文檔簡介

ICS3524030

A14..

中華人民共和國國家標(biāo)準(zhǔn)

GB/T33994—2017/ISO285002009

:

信息和文獻WARC文件格式

Informationanddocumentation—WARCfileformat

(ISO28500:2009,IDT)

2017-07-12發(fā)布2018-02-01實施

中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局發(fā)布

中國國家標(biāo)準(zhǔn)化管理委員會

GB/T33994—2017/ISO285002009

:

前言

本標(biāo)準(zhǔn)按照給出的規(guī)則起草

GB/T1.1—2009。

本標(biāo)準(zhǔn)使用翻譯法等同采用信息和文獻文件格式

ISO28500:2009《WARC》。

與本標(biāo)準(zhǔn)中規(guī)范性引用的國際文件有一致性對應(yīng)關(guān)系的我國文件如下

:

數(shù)據(jù)元和交換格式信息交換日期和時間表示法

———GB/T7408—2005(ISO8601:2000,

IDT)。

本標(biāo)準(zhǔn)做了下列編輯性修改

:

增加了縮略語見

———:LWS、MIME、US-ASCII(3.2);

為了增強易讀性在保留國際標(biāo)準(zhǔn)中示例的基礎(chǔ)上將部分示例替換為國內(nèi)示例見附錄

———,,(B)。

本標(biāo)準(zhǔn)由全國信息與文獻標(biāo)準(zhǔn)化技術(shù)委員會提出并歸口

(SAC/TC4)。

本標(biāo)準(zhǔn)起草單位國家圖書館中國科學(xué)院文獻情報中心中國國防科技信息中心中國科技信息研

:、、、

究所北京萬方數(shù)據(jù)股份有限公司

、。

本標(biāo)準(zhǔn)主要起草人毛雅君李春明吳振新真溱曲云鵬張曉丹張?zhí)m楊賀敦文杰張彪

:、、、、、、、、、。

GB/T33994—2017/ISO285002009

:

引言

每天網(wǎng)站和網(wǎng)頁從互聯(lián)網(wǎng)上產(chǎn)生或消失十多年來記憶存儲組織嘗試用網(wǎng)絡(luò)規(guī)模工具如網(wǎng)絡(luò)

,。,(

爬蟲尋找最適宜采集并跟蹤記錄海量的重要信息的方法與此同時記憶存儲組織對保存非網(wǎng)絡(luò)抓取

)。,

的數(shù)字化資源的需求也與日俱增如整套電子期刊或環(huán)境感應(yīng)設(shè)備生成的數(shù)據(jù)出現(xiàn)了一種需求即

(,)。,

希望能有一種文件格式通過一個文件簡單并安全地承載大量組成文件的數(shù)據(jù)對象以便進行存儲管

,,、

理和交換

網(wǎng)絡(luò)存檔文件格式提供了一個由多個資源記錄數(shù)據(jù)對象連接成一個長

WARC(WebARChive,)()

文件的協(xié)議其中每個資源記錄由一組簡單文本標(biāo)頭和任意數(shù)據(jù)內(nèi)容塊構(gòu)成格式是文

,。WARCARC

件格式的擴展格式將作為組織管理和儲存采集來自網(wǎng)絡(luò)和其他數(shù)以億計的數(shù)字資源的一種

。WARC、

標(biāo)準(zhǔn)可用于構(gòu)建收割如網(wǎng)絡(luò)爬蟲一種開源軟件管理訪問和交換內(nèi)容等各種應(yīng)用

,(Heritrix,)、、。

除了用記錄的原始內(nèi)容外擴展的格式還容納相關(guān)的二次級內(nèi)容如分配的元數(shù)據(jù)

ARC,WARC,、

縮減的重復(fù)檢測活動后期轉(zhuǎn)換及大型資源的切分等

、。

GB/T33994—2017/ISO285002009

:

信息和文獻WARC文件格式

1范圍

本標(biāo)準(zhǔn)規(guī)定了文件格式

WARC:

存儲來自于主流互聯(lián)網(wǎng)應(yīng)用層協(xié)議如和的有效載荷內(nèi)容和控制信息

———(HTTP、DNSFTP);

存儲與其他已存儲數(shù)據(jù)如主題分類語言編碼相關(guān)的任意元數(shù)據(jù)

———(、、);

支持?jǐn)?shù)據(jù)壓縮且保證數(shù)據(jù)記錄的完整性

———,;

存儲來自收割協(xié)議的全部控制信息如請求標(biāo)頭信息而不僅僅是響應(yīng)信息

———(),;

存儲與其他已存儲數(shù)據(jù)相關(guān)的數(shù)據(jù)轉(zhuǎn)換結(jié)果

———;

存儲與其他已存儲數(shù)據(jù)相關(guān)的重復(fù)監(jiān)測活動當(dāng)相同或者大體相似的資源出現(xiàn)時可以減少存

———(,

儲消耗

);

在不中斷當(dāng)前功能的情況下進行擴展

———;

支持對超長記錄在所需處進行截斷或分段操作

———。

2規(guī)范性引用文件

下列文件對于本文件的應(yīng)用是必不可少的凡是注日期的引用文件僅注日期的版本適用于本文

。,

件凡是不注日期的引用文件其最新版本包括所有的修改單適用于本文件

。,()。

數(shù)據(jù)元和交換格式信息交換日期和時間表示法

ISO8601(Dataelementsandinterchange

formats—Informationinterchange—Representationofdatesandtimes)

域名實現(xiàn)及標(biāo)準(zhǔn)

RFC1035(Domainnames—Implementationandspecification)

地址架構(gòu)

RFC1884IPV6(IPVersion6AddressingArchitecture)

多用途互聯(lián)網(wǎng)郵件擴展第部分互聯(lián)網(wǎng)消息正文的格式

RFC2045(MIME)1:[Multipurpose

InternetMailExtensions(MIME)PartOne:FormatofInternetMessageBodies]

分離域名解析系統(tǒng)信息

RFC2540(DNS)[DetachedDomainNameSystem(DNS)Information]

超文本傳輸協(xié)議

RFC2616—HTTP/1.1(HypertextTransferProtocol—HTTP/1.1)

互聯(lián)網(wǎng)消息格式

RFC2822(InternetMessageFormat)

的一種轉(zhuǎn)換格式

RFC3629UTF-8———ISO10646(UTF-8,atransformationformatofISO10646)

溫馨提示

  • 1. 本站所提供的標(biāo)準(zhǔn)文本僅供個人學(xué)習(xí)、研究之用,未經(jīng)授權(quán),嚴(yán)禁復(fù)制、發(fā)行、匯編、翻譯或網(wǎng)絡(luò)傳播等,侵權(quán)必究。
  • 2. 本站所提供的標(biāo)準(zhǔn)均為PDF格式電子版文本(可閱讀打?。?,因數(shù)字商品的特殊性,一經(jīng)售出,不提供退換貨服務(wù)。
  • 3. 標(biāo)準(zhǔn)文檔要求電子版與印刷版保持一致,所以下載的文檔中可能包含空白頁,非文檔質(zhì)量問題。

評論

0/150

提交評論