數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)交互格式設計_第1頁
數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)交互格式設計_第2頁
數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)交互格式設計_第3頁
數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)交互格式設計_第4頁
數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)交互格式設計_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、1數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)交互格式設計(廖華明)1.1 metadata繼承體系設計Metadata繼承體系定義因為系統(tǒng)必須容納各種類型的數(shù)據(jù),如音樂、動畫、影視、新聞、書籍等,這些信息不 但存儲的格式不同,而且需要描述的屬性內(nèi)容也很不一樣,它們適用的元信息標準也有一定 的差別。而且,一旦有新的信息類型加入,系統(tǒng)也對其提供相應的支持。因此系統(tǒng)必須支持 一種通用的、可擴充的metadata體系。Metadata繼承體系就是這樣一種體系結(jié)構(gòu)。數(shù)據(jù)類型可以按照一定的分類原則形成一種從普通到特殊的數(shù)據(jù)類型繼承系統(tǒng)。我們將 最普通的數(shù)據(jù)類型的屬性,也就是各種類型數(shù)據(jù)需要描述的屬性中最通用的部分抽取出來作 為基礎屬

2、性,然后將描述特殊類型數(shù)據(jù)的元信息字段作為擴充屬性,更特殊的類型將具有更 為特殊的擴充屬性。通用類型數(shù)據(jù)的元信息只包括基礎屬性,繼承通用類型的特殊類型數(shù)據(jù) 的元信息則既包括基礎屬性,又包括擴充屬性。這種通用與特殊數(shù)據(jù)的屬性關系就形成了 Metadata的繼承體系。1.1. 0版支持的Metadata繼承體系定義為:1層普通文獻(包括所有書籍、稿件等)2層視覺文獻(包括所有三維作品、動畫等)、音樂作品(包括MIDI音樂、MP3主m坐、 曰樂等)該體系在需要描述更細致的元信息時可進行擴展。Metadata存儲結(jié)構(gòu)定義1.1.0版Metadata采用二維表形式 存放,繼承體系 中普通文獻的元信 息用

3、數(shù)據(jù)表 T_fMetadata存放,第二層視覺文獻和音樂作品的擴充屬性分別由數(shù)據(jù)表T_sMetadata_1,T_sMetadata_2來存放。各數(shù)據(jù)表結(jié)構(gòu)如下:T fMetadata字段名類型長度生成方式說明GID(32 位)Int自動生成*連續(xù)編碼DCTitleChar string80自動獲取,手工編輯DCCreatorChar string80文檔的作者DCSubjectChar string80將DC.Title作為缺省提供關鍵詞DCDescriptionChar string200將文檔的開頭100字 符內(nèi)容作為缺省提供摘要DCPublisherChar string50出版商(對

4、于 Web page 指的是來源站點;對于傳 統(tǒng)出版物指的是出版 社。)DCDateDate系統(tǒng)提供缺省,手工 編輯出版時間。InfoClassIDChar string10該文檔的類型編號。VersionNumChar String10(system reserved)用 于 版本管理的版本號FormatInt自動識別*(system reserved)文檔物理類型,例如 HTML 頁面(0), Word 文 檔(1) , oracle 數(shù) 據(jù),Sqlserver數(shù) 據(jù),Access 數(shù)據(jù)(12)URLChar string500自動獲取SubMetaPointChar string100指

5、定子類型元信息擴展屬性表(T_sMetadata_1、T_sMetadata_2 等)T_sMetadata_1字段名類型長度生成方式說明GID(32 位)Int自動生成*連續(xù)編碼WorkTypeChar string100系統(tǒng)提供缺省,手 工編輯作品類型(油畫、水彩 等)。MaterialChar string10載體材料。TechniqueChar String100技術(shù)MeasurementsChar String10尺寸RepositoryNameChar String512收藏單位名稱RepositoryPlaceChar String512收藏地點RepositoryNumChar

6、 String10收藏號CurrentSiteChar String512現(xiàn)存地點NcultureChar String100民族/文化OtherChar String512風格/時期/派別/運動T_sMetadata_2字段名類型長度生成方式說明GID(32 位)Int自動生成*連續(xù)編碼MtypeChar string100系統(tǒng)提供缺省,手 工編輯作品類型(歌曲、戲曲、主m坐、 曰樂等)。PerformerChar string10表演者。Metadata繼承體系對應表(具體實現(xiàn)時可以采用配置文件)該表保存Metadata繼承體系與元信息存儲表之間的對應關系,表結(jié)構(gòu)為:字段名類型長度生成方式

7、說明DataTypeIDChar string10自動生成*數(shù)據(jù)類型編號DataTypeDesChar string100數(shù)據(jù)類型描述MetadataTableChar string512系統(tǒng)提供缺省該類型數(shù)據(jù)對應的 Metadata數(shù)據(jù)存儲表 (T_fMetadata 等)2信息分類體系存儲結(jié)構(gòu)設計1 .信息分類目錄結(jié)構(gòu)表T_ClassDirectory表結(jié)構(gòu)目錄項類型長度生成方式說明infoClassIDChar string10系統(tǒng)提供缺省,手工 編輯類型編號,系統(tǒng)內(nèi)唯一,子 類型編碼為父類型的編碼 加上該類型在其兄弟類型 中的編號。InfoClassNameChar string20手

8、工添加類型名稱ReadingPermitChar string400手工添加讀角色列表,分隔符為逗 號,缺省值為該類父節(jié)點的 相應值WritingPermitChar string400手工添加寫角色列表,分隔符為逗 號,缺省值為該類父節(jié)點的 相應值InfoClassDesChar string40手工添加對該類型的描述語句(包括 關鍵字等)BrowserTepChar string80手工添加瀏覽輸出模板文件名BrowserFieldsChar string8*40手工添加瀏覽輸出缺省字段列表,以 逗號分隔,缺省值為該類父 節(jié)點的相關值2.數(shù)據(jù)說明1.1.0版分類體系按照中圖分類法進行分類類

9、型編碼與信息類型一一對應,編碼原則:依照中圖分類法原則。例如:信息分類與編碼為 醫(yī)藥衛(wèi)生R預防醫(yī)學/衛(wèi)生學R1中國醫(yī)學R2基礎醫(yī)學R3臨床醫(yī)學R42數(shù)據(jù)導入(劉萍,王海波,廖華明)數(shù)據(jù)導入中的文件系統(tǒng)導入的詳細設計(劉萍)功能文件系統(tǒng)的導入是一個獨立的模塊,是為系統(tǒng)信息員提供的一種批量導入數(shù)據(jù) 的工具。文件系統(tǒng)的導入是指在節(jié)點服務器上,對已經(jīng)存在的文件系統(tǒng),指定目錄或文件, 提取文件的相應屬性,然后指定文件所屬的類別,將這些信息組成meta記錄,添加到 meta庫中。文件系統(tǒng)中所包含的文件的類型可以為多種,但現(xiàn)在只對html文件、txt文件抽取 subject信息,其余的沒有此字段信息。提取的

10、meta信息包括:文件的名字入到DCTitle 字段,文件的前若干字節(jié)(例如200字節(jié),100個漢字)入到摘要字段DCSubject字段 中,文件的日期入到DCData字段中。Meta庫中,記錄的GID字段為系統(tǒng)自動生成的 連續(xù)流,類別InfoClassID字段為文件導入時由信息員指定的。具體實現(xiàn)界面:用VC做類似于NT中的資源管理器的界面,頁面的左邊為當前系統(tǒng)的分類結(jié)構(gòu), 右邊為當前接點服務器的文件系統(tǒng)結(jié)構(gòu),利用鼠標的點擊和拖動來實現(xiàn)文件系統(tǒng)的導 入。文件的選中:當在文件系統(tǒng)結(jié)構(gòu)中的某個目錄或文件上按下鼠標左鍵時,目錄或文件被 選中,顏色變深。此時應保存選中的目錄名或文件名。類別的選中:當鼠

11、標拖動到頁面左邊的分類結(jié)構(gòu)中時,隨著它的移動,相應的分類應標 識被選中。當鼠標的左鍵被抬起時,最終的類別將被確定,此時應在T_ClassDirectory 表中查找此類對應的InfoClassID,保留此ID號,它就是將要導入的這批數(shù)據(jù)的類別, 也就是它們?nèi)氲絋_Metadata表中InfoClassID字段的內(nèi)容。文件導入的確認:當鼠標左鍵被抬起時,應彈出一個對話框,詢問是否將選中的目錄或 文件按選中的類別導入meta庫。對話框有“確認”和“取消”兩個按鈕。若按下“確 認”按鈕,則應馬上建立和T_Metadata表的連接,準備數(shù)據(jù)的入庫;若按下“取消” 按鈕,則返回原界面。文件meta信息的

12、提取和建立:當在確認框中按下“確認”后,系統(tǒng)開始對選中的文件 進行meta信息的提取。在操作系統(tǒng)返回的文件系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)中,首先判斷文件的類 型,若是html或txt類型的,則取回name、data域的內(nèi)容,另外打開文件,取出前 200個字節(jié)的內(nèi)容作為此文件的摘要subject;若不是這兩類文件,則只取name、date 域的內(nèi)容。GID字段的值加1。文件meta信息的入庫:用Insert等相關的數(shù)據(jù)庫操縱指令對T_Metadata表操作,逐條 的將由文件相關屬性形成的meta記錄插入表中。入庫的完成:當所有的文件記錄都已經(jīng)添加到T_Metadata表中后,系統(tǒng)應彈出信息框, 顯示“數(shù)據(jù)導入成

13、功”的信息。當點擊“OK”按鈕時,系統(tǒng)關閉與T_Metadata表的連 接,導入過程結(jié)束??紤]的問題除了可將本地節(jié)點服務器的文件系統(tǒng)導入以外,也可將其它節(jié)點服務器的相關內(nèi)容 導入,即可作成一個ftp工具?基于metadata繼承體系的數(shù)據(jù)導入工具( 王海波)1概述3. Metadata繼承體系定義因為系統(tǒng)必須容納各種類型的數(shù)據(jù),如音樂、動畫、影視、新聞、書籍等,這些信息不 但存儲的格式不同,而且需要描述的屬性內(nèi)容也很不一樣,它們適用的元信息標準也有一定 的差別。而且,一旦有新的信息類型加入,系統(tǒng)也對其提供相應的支持。因此系統(tǒng)必須支持 一種通用的、可擴充的metadata體系。Metadata繼

14、承體系就是這樣一種體系結(jié)構(gòu)。數(shù)據(jù)類型可以按照一定的分類原則形成一種從普通到特殊的數(shù)據(jù)類型繼承系統(tǒng)。我們將 最普通的數(shù)據(jù)類型的屬性,也就是各種類型數(shù)據(jù)需要描述的屬性中最通用的部分抽取出來作 為基礎屬性,然后將描述特殊類型數(shù)據(jù)的元信息字段作為擴充屬性,更特殊的類型將具有更 為特殊的擴充屬性。通用類型數(shù)據(jù)的元信息只包括基礎屬性,繼承通用類型的特殊類型數(shù)據(jù) 的元信息則既包括基礎屬性,又包括擴充屬性。這種通用與特殊數(shù)據(jù)的屬性關系就形成了 Metadata的繼承體系。整個系統(tǒng)可以用下圖表示:4.設計思路在目前以有的系統(tǒng)之上做一些修改完成此次的工作。具體來說,包括VB數(shù)據(jù)導入工具 界面的修改,向Metada

15、taAgent傳輸參數(shù)的修改以及MetadataAgent向數(shù)據(jù)庫中添加記 錄的修改。2具體修改方法2.1 VB數(shù)據(jù)導入工具界面的修改在數(shù)據(jù)映射的標簽中,給用戶提供所要輸入的數(shù)據(jù)屬于哪一類文獻的選擇。根據(jù)不同 的選擇,在原來的第一層的Metadata的基礎上,分別增加視覺文獻和音樂作品的擴充屬性 的輸入欄。2. 2向MetadataAgent傳輸參數(shù)的修改增加MetadataAgent對外的屬性接口,VB數(shù)據(jù)導入工具把用戶輸入的Meta數(shù)據(jù)分別 賦給MetadataAgent的屬性接口。2.3 MetadataAgent向數(shù)據(jù)庫中添加記錄的修改由于現(xiàn)在Metadata信息由三個表組成,Meta

16、dataAgent需要分別向此三個庫中分別添 加。即針對每個庫形成sql的添加數(shù)據(jù)庫記錄的語句,調(diào)用ADO對象來進行。通過鏈接分析批量導入數(shù)據(jù)(廖華明)該程序主要包括兩個部分的功能:鏈接分析批量導入數(shù)據(jù)1 .系統(tǒng)實現(xiàn)的假設條件鏈接相似性假設頁面中所有有效的鏈接(即與需求相關的鏈接)都具有相同的子字符串,或者都是 屬于某個確定的虛擬路徑。也就是具有某種程度的相似性,而且這種相似性是可以描述和判 別的。數(shù)據(jù)頁面可區(qū)分考慮到時間問題,1.1.0版假設鏈接層次體系中最終存放數(shù)據(jù)的頁面與存放層次信息的 頁面是可區(qū)分的,也就是存放層次信息的頁面不作為最終數(shù)據(jù)考慮,并且數(shù)據(jù)頁面可以通過 特殊標記進行區(qū)分的。

17、在以下的文檔中,存放層次信息的頁面稱為節(jié)點頁面,指向節(jié)點頁面 的鏈接稱為節(jié)點鏈接,存放最終數(shù)據(jù)的頁面稱為數(shù)據(jù)頁面,指向數(shù)據(jù)頁面的鏈接稱為數(shù)據(jù)鏈 接。該假設比較苛刻,在下一版本中將根據(jù)實際需求進行改進。3 元信息抽取同樣基于時間的考慮,1.1.0版在元信息的抽取上作如下簡化:HTML頁面的標題由標記對決定HTML頁面的摘要為有效信息(除去標記的數(shù)據(jù))的前50個字符Txt文件的摘要為文件內(nèi)容的前50個字符其它類型文件的標題即其文件名2.對象設計1鏈接分析器一一該對象對相關鏈接的關系進行分析,由此獲取鏈接間的層次關系。2. 1. 1對象屬性首鏈接一一需要進行分析的鏈接的首頁地址有效鏈接描述一一有效鏈

18、接共同包含的字符串2. 1. 2對象方法鏈接分析程序流程1)層次計數(shù)器1=0,當前層次為第0層2)生成頁面對象3)判斷當前頁面是否為數(shù)據(jù)頁面4)不是數(shù)據(jù)頁面,則5)鏈接計數(shù)器j=0,調(diào)用頁面對象的方法抽取出該頁面的所有鏈接和相應層次信息, 將有效鏈接壓入鏈接棧(計數(shù)器j遞增計數(shù))6)記錄當前鏈接為節(jié)點鏈接7)計數(shù)器I+18)是數(shù)據(jù)頁面,計數(shù)器I-19)調(diào)用頁面對象的數(shù)據(jù)導入方法進行數(shù)據(jù)導入操作10)記錄當前鏈接為數(shù)據(jù)鏈接11)鏈接棧是否空12)不空:彈出鏈接棧第一個鏈接作為當前鏈接,記錄其層次信息,轉(zhuǎn)至第2步13)空:結(jié)束循環(huán)鏈接還原將不完整的鏈接進行還原處理程序流程:1)通過參數(shù)獲取當前鏈接

19、層的虛擬路徑、根路徑2)分析當前鏈接的url,可能為以下幾種情況:相對于根路徑的url,直接由根路徑與url相接形成完整的url具有父目錄引用(。/)的url,則追蹤到最上層鏈接,再形成完整的url其他情況,則由當前鏈接層的虛擬路徑與當前鏈接的url相接形成完整的url 2. 2頁面對象2. 2. 1對象屬性當前鏈接一一指向頁面對象的鏈接2. 2. 2對象方法頁面初始化程序流程:1)通過socket獲取頁面內(nèi)容2)進行頁面分析3)如果為數(shù)據(jù)頁面,調(diào)用元信息抽取對象的方法抽取元信息,將頁面存放到相應 的目錄文件中4)如果為節(jié)點頁面,將頁面包含的鏈接存放到鏈接記錄文件中頁面類型程序流程:1)返回頁

20、面類型獲取鏈接程序流程:1)返回頁面包含的所有鏈接數(shù)據(jù)導入程序流程:1)建立元信息代理對象實例,調(diào)用該對象的數(shù)據(jù)導入方法進行數(shù)據(jù)導入3綜合檢索(姜吉發(fā),張一偉)中國數(shù)字圖書館之核心業(yè)務平臺的總體設計及其中綜合檢索模塊之詳細設計一、中國數(shù)字圖書館之建設背景1、什么是數(shù)字圖書館數(shù)字圖書館首先是指將館藏信息數(shù)字化并將這些數(shù)字化的圖書搬到網(wǎng)絡上去,用戶可以 通過一個統(tǒng)一的界面瀏覽或查詢這些圖書信息。其次,它必須通過網(wǎng)絡方式為用戶提供 傳統(tǒng)的圖書館能夠完成的所有功能。另外,隨著網(wǎng)絡技術(shù)的發(fā)展和用戶需求的增加與改 進,數(shù)字圖書館還要提供大量傳統(tǒng)意義上的圖書館沒法提供的許多動能,如各種各樣的 網(wǎng)站和網(wǎng)絡門戶

21、。2、數(shù)字圖書館的建設背景政府的積極參與為數(shù)字圖書館的建設提供了政治、法律和經(jīng)費保障。美國數(shù)字圖書館建設為我國數(shù)字圖書館建設提供了示范與參考。各大學和研究機構(gòu)為數(shù)字圖書館建設提供了相關的技術(shù)儲備。國內(nèi)多數(shù)圖書館都建有各自的圖書管理和借閱信息系統(tǒng)乃至自己的獨立數(shù)字圖書館系 統(tǒng),為我國數(shù)字圖書館的建設打下了人才、技術(shù)、數(shù)字化信息和信息系統(tǒng)等各方面的基 礎。Internet和WWW本身為數(shù)字圖書館的建設提供了技術(shù)驅(qū)動。Internet和WWW的普及使用為數(shù)字圖書館的建設提供了需求牽引。3、國家數(shù)字圖書館的體系結(jié)構(gòu)圖二核心業(yè)務平臺之搜索引擎之體系結(jié)構(gòu) 、流程圖三、綜合檢索的詳細設計1、什么是綜合檢索所

22、謂綜合檢索,就是對結(jié)構(gòu)化信息的結(jié)構(gòu)化檢索和非結(jié)構(gòu)化信息全文檢索的總稱。本系統(tǒng)中的綜合檢索包括三方面功能:。全文檢索。元信息的結(jié)構(gòu)化檢索。元信息的全文檢索2、全文檢索。是指數(shù)字圖書館用戶通過PORTAL輸入界面輸入一個關鍵字,系統(tǒng)將含有該關鍵 字的文擋返回給用戶。由于文擋信息及其索引分布于各個不同的子數(shù)字圖書館系統(tǒng),而每個子數(shù)字圖書館系統(tǒng) 均可提供全文檢索功能,故需將用戶的查詢請求分發(fā)到各個子數(shù)字圖書館系統(tǒng),之后各個系統(tǒng)在各自 的庫中并行查找,然后將結(jié)果返回到主PORTAL主PORTAL對結(jié)果進行合并并將合并結(jié)果提交給用 戶。該功能用一個COM組件實現(xiàn)。給組件實現(xiàn)查詢請求分發(fā)和返回結(jié)果合并之功能

23、。關鍵詞全文檢索請求的分發(fā)格式和檢索結(jié)果的回送以C/S方式進行請求分發(fā),主PORTAL是CLIENT,各個分PORTAL是SERVER。請 求格式為:查詢方式關鍵詞1關鍵詞2關鍵詞3結(jié)束符其中,查詢方式用數(shù)字表示,1表示與檢索,2表示或檢索,3表示詞間距檢索。結(jié)束符用$表示。每個字段之間用一個單字節(jié)空格隔開。檢索結(jié)果以字符串的形式返回。串中含有每篇文章的GID號,GID號之間以單字節(jié)空 格分開。3)元信息的結(jié)構(gòu)化檢索通過傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫檢索技術(shù)實現(xiàn)對元信息庫中特定字段的檢索功能。4)元信息的全文檢索將元數(shù)據(jù)庫中要進行全文檢索的每個記錄字段看作一個獨立的文檔,從中抽取之形成一 個新的文檔庫,對

24、該新文檔庫做全文索引,從而可以實現(xiàn)對元數(shù)據(jù)庫的全文檢索。4數(shù)據(jù)更新與傳輸,信息瀏覽(周立新,朱茂盛)數(shù)據(jù)更新與傳輸(周立新)節(jié)點引擎MDB數(shù)據(jù)實時傳輸器節(jié)點引擎MDB數(shù)據(jù)實時傳輸器包括Metadata變化的獲取、Metadata更新數(shù)據(jù)的傳輸?shù)?功能,輸入數(shù)據(jù)為節(jié)點端須更新的數(shù)據(jù),其算法流程為:INPUT:更新的Matadata數(shù)據(jù)OUPUT :傳輸成功,或失敗標志COMPUT讀入更新的Matadata數(shù)據(jù),將更新的Matadata數(shù)據(jù)存入緩沖區(qū)“NEW MATADATATABLE”;建立傳輸連接,啟動計時器;IF連接不成功THEN返回失敗標志;傳輸數(shù)據(jù);IF傳輸成功(收到應答)THEN返回成功標志,成功后的NEW MATADATA處理(如刪除)ELSE IF符合重傳條件THEN返回第3步EL

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論