版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據溯源研究綜述
1數據源總結1.1數據溯源和追蹤數據起源是一個新興的研究領域,起源于20世紀90年代,并從“數據公用事業(yè)”翻譯而來。最初,一些文獻被稱為數據編年史和數據檔案。在那之后,許多文獻被稱為數據起源,以具有跟蹤和再現數據的意義。在本文中,我們被稱為數據來源,即回歸函數的含義,并從應用的角度強調跟蹤過程和方法。目前,數據溯源還沒有公認的定義,因應用領域不同而定義各異.Simmhanetal將數據溯源定義為從源數據到數據產品的衍生過程信息;Bunemanetal在數據庫領域將其定義為“數據及其在數據庫間運動的起源”;Lanter在GIS中將其定義為:數據溯源是對目標數據衍生前的原始數據以及演變過程的描述;Greenwood等人對Lanter的定義進行拓展,認為數據溯源是一種元數據,用來記錄工作流演變過程、標注信息以及實驗過程等信息.在其它一些領域中還有其它一些叫法:如數據族系(DataLineage)、數據系譜(DataPedigree)、數據來源(DataOrigin)、數據世系等.戴超凡等將數據溯源定義為記錄原始數據在整個生命周期內(從產生、傳播到消亡)的演變信息和演變處理內容.我們認為,DataProvenance應該翻譯成“數據溯源”,強調的是一種溯本追源的技術,根據追蹤路徑重現數據的歷史狀態(tài)和演變過程,實現數據歷史檔案的追溯.1.2數據溯源技術國內關于數據溯源研究較少.戴超凡比較系統(tǒng)地研究了數據倉庫系統(tǒng)中數據溯源追蹤技術;劉喜平等總結了目前計算數據溯源的主要方法和應用;李亞子研究了數據溯源追蹤標注模式與描述模型,引入了數據溯源的7W模型;王黎維等研究了對象代理數據庫的科學工作流服務框架中的數據跟蹤模型,并提出了一種雙向指針機制的數據追蹤方法.李秀美研究了數據溯源本身特有的安全需求以及廣播的加密方案,構建了新的數據溯源安全模型.戴超凡等全面系統(tǒng)地做了數據溯源的綜述,介紹了數據溯源的基礎研究和開放環(huán)境下兩個典型的形式化模型.國外已經有很多大學和研究機構將數據溯源作為研究課題,引起很多專家學者的高度關注,我們將在下面詳述.ZhuoweiBaoetal開發(fā)了一種緊密而有效的可達性標簽方案用于解答有關運行在規(guī)定說明的工作流溯源的質疑.這種標簽方案在某種意義上來講是最優(yōu)的,因為它使用對數長度、在線時間運行并能回答任何常規(guī)時間中可達性問題.WenchaoZhouetal提出了ExSpan(可擴展的溯源感知的網絡系統(tǒng))設計與應用,ExSpan是在分布式環(huán)境中能有效進行網絡溯源的通用、可擴展框架平臺,并為網絡溯源存儲定義了一種分布式模型,用數據溯源的理念來解釋網絡中存在的各種狀態(tài),并提供了一種多功能網絡機制.GrigorisKarvounarakisetal提出了一種基于元組、半環(huán)溯源的ProQL(forProvenanceQueryLanguage)語言,能夠解決溯源存儲、維護和查詢等相關問題.國外對數據溯源的發(fā)展越來越重視,有多個國際會議以此為會議主題.比如:WorkshoponDataProvenanceandAnnotation(WDPA),WorkshopontheTheoryandPracticeofProvenance(TaPP),InternationalProvenanceandAnnotationWorkshop(IOAW)等.近年來,有一些研究者對數據溯源進行了綜述,現將相關的綜述與本文的區(qū)別描述如下:劉喜平等著重分析了數據起源計算的兩種方法:查詢反演法和標注法,強調了兩種方法的實現,比較了兩種方法的特點;然而,并沒有提到其它的計算方法,也沒有提出新的思維方式.本文在介紹數據溯源計算方法時,比較了反向查詢法和標注法的優(yōu)缺點,針對標注法需要額外的存儲開銷,提出標注內容列存儲的思想.還提到以下幾種數據溯源方法:通用的數據追蹤方法,雙向指針追蹤法,利用圖論思想和專用查詢語言追蹤法,以位向量存儲定位等方法.Yogesh的綜述中提出了四個數據溯源分類標準,認為數據溯源是元數據的一種,用于跟蹤數據演變的過程,強調數據溯源在科學領域和商業(yè)領域的重要性.戴超凡的綜述中,只介紹了兩種比較典型的模型,即開放的數據起源模型OPM和Provenir模型.而本文涵蓋了此兩種模型外還介紹了另外5種模型,系統(tǒng)全面的介紹了近年來數據溯源的各種模型,而且,提出了一種異構數據的數據溯源模型圖,比較符合當今數據所具有的異構、分布等特點.數據世系管理技術研究綜述中將數據世系主要分為模式級和實例級演化過程,以模式級和實例級數據世系的表示、查詢?yōu)橹骶€綜述了數據世系的發(fā)展歷程,并提出四個熱點研究方向分別是:數據空間中的數據世系、不確定數據的世系管理、工作流世系管理、數據世系的挖掘和可視化.而本文以數據溯源模型為主,綜述了近年來比較典型的模型,提出了異構數據的模型圖.在介紹熱點方向時認為數據溯源的安全問題以及統(tǒng)一業(yè)界標準也屬于數據溯源的研究熱點方向.本文第一節(jié)對數據溯源進行概述.第二節(jié)討論了數據溯源模型,在前人研究的基礎上提出了異構數據的數據溯源模型.第三節(jié)分析了數據溯源的計算方法并提出了使用列存儲節(jié)省存儲空間的思想.第四節(jié)闡述數據溯源的應用,并對每個方向的應用加以實例說明.第五節(jié)介紹數據溯源的研究熱點和應用方向.最后對數據溯源技術的未來發(fā)展進行展望.2數據源模型2.1數據溯源信息的整合與存儲建立一個有效的數據模型是數據溯源技術關鍵所在,根據模型可以初步確定數據溯源的大體步驟,以及數據溯源的基本思路.戴超凡從數據溯源信息管理的角度出發(fā),提出了一種數據溯源模型,但是并沒有考慮數據的異構性,隨著數據規(guī)模的日益龐大以及數據結構的逐漸復雜,不考慮數據的異構特點將很難適合時代的需要,因此,上文提出的數據溯源模型只適合同構的數據溯源情形,并不適合于復雜數據.我們在此基礎上提出了異構數據的數據溯源概念,考慮到數據的異構分布的特性,在原有模型上加入異構分層的三維模型.我們采用以橫軸表示時間(t)、縱軸表示過程(p),z軸表示數據的異構分布特性.將數據溯源信息保存到不同的數據庫中,形成攜帶溯源信息的異構數據庫(如:Access,SQLServer、Oracle等),通過數據庫接口(ODBC、JDBC等)以及數據轉換工具匯聚成統(tǒng)一的目標數據庫.此時,目標數據庫攜帶了數據溯源信息.這個過程的逆過程所經歷的路徑能夠實現數據溯源的各種操作(如:數據追蹤、信息評估、過程重現等),從而,完成數據溯源的任務.表示了異構數據的溯源模型.這種模型由以下幾個部分組成:獲取信息部分、信息存儲部分、異構數據處理部分.信息獲取:數據溯源的實現過程中,溯源信息是關鍵,它記錄了數據如何能追蹤歷史的重要信息,根據這些信息可以追蹤數據的歷史檔案,重現數據的演變過程.然而,“溯源信息如何獲取?記錄哪些內容?”等問題一直沒有統(tǒng)一的答案.早期的研究往往只考慮某個數據項的來源,并不關注整個數據從哪里來,這樣只能追蹤局部數據的歷史根源,而達不到整個數據溯源的目的.除此之外,還把標注信息當作元數據一起保存于數據庫中以供查詢,這樣往往難以管理.隨著數據量的增大和研究的深入,Buneman等人逐漸改進和完善這種模式,提出why和where型provenance,后來又分出howprovenance等.然而,這種分類并不適合其它工作流領域,于是,Sudha等人提出一個7W模型,這種模型包括:who、when、where、how、which、what、why七個部分的內容.此模型雖然詳細且非常周全,但是需要一定的存儲開銷.信息存儲:劉喜平介紹了兩種數據溯源存儲方法:一種是基于RDBMS存儲方案,此方案是基于關系型數據,通過擴充屬性的方式來存儲溯源信息,即將溯源信息直接存儲在關系數據庫的二維表中.另一種是基于樹型文檔存儲方案.樹型存儲方案是將元組、屬性、溯源信息作為樹的結點來存儲,對于帶有標注的源數據需要在原樹型結構中增加一個子結點(provenance結點)用來表示信息的來源.并對每個帶標注的源數據都需添加一個href屬性,將其鏈接到源數據結點.要實現數據溯源,溯源信息的存儲非常關鍵.因為溯源信息需要存儲空間來存儲,存儲方式對數據溯源的性能起著關鍵性的作用.異構數據處理部分:隨著時間的推移和應用的需要,將產生各種各樣異構的數據源(比如:Access、SQLServer、Oracle等等).這種異構數據源如何實現數據溯源呢?這是業(yè)界一直想解決的一個重點和難點問題.應用程序想要操作不同類型的數據庫只需要調用數據庫訪問接口(ODBC、JDBC等)支持的函數,動態(tài)地鏈接到驅動程序上即可.再通過數據轉換工具形成統(tǒng)一的目標數據庫.數據溯源信息通過這種途徑就能傳遞到目標數據庫中.2.2流溯源信息模型目前,數據溯源模型主要有流溯源信息模型、時間-值中心溯源模型、四維溯源模型、開放的數據溯源模型、Provenir數據溯源模型、數據溯源安全模型,PrInt數據溯源模型等,這些模型都建立在不同領域、不同行業(yè).2008年5月王黎維等人發(fā)表的《集成對象代理數據庫的科學工作流服務框架中的數據跟蹤》中提出了一種部分物化中間數據模型,GrigorisKarvounarakisetal提供了一個高層次的圖形工具開發(fā)模型來檢索數據,而無需知道它的物理細節(jié).下面簡單介紹一下幾種模型.1.流溯源信息模型由6個相關實體構成,主要包括流實體(變化事件實體、元數據實體和查詢輸入實體)和查詢實體(變化事件實體、接收查詢輸入實體,包括元數據實體).實體間關系密切,通過這種密切的關系可以根據數據的溯源時間來推斷數據溯源.4.1數據庫中數據溯源追蹤追溯數據溯源的源頭可以從研究數據庫、數據倉庫開始.1991年,Lanter等人開發(fā)的LIP系統(tǒng),用于管理GIS數據的信息演變,可以稱之為數據溯源的開山鼻祖.數據庫應用中采取的追蹤方法主要是注釋法和反向查詢法.因為兩種方法各有其優(yōu)勢,注釋法管理簡單,DBNotes系統(tǒng)是其典型的代表;而反向查詢法追蹤簡單,典型的系統(tǒng)有Trio和Panda.所以經常采用兩種方法相結合的方式進行數據溯源的追蹤.但是,數據庫中傾向于采用反向查詢進行跟蹤.文獻首次提出利用反向查詢進行數據跟蹤的觀點.提出建立函數用反向查詢方式進行數據庫系統(tǒng)中的數據溯源追蹤,但是,他們的方法只局限在一個DBMS中,如果在多個DBMS中就無法實現數據溯源追蹤.論述了如何在關系數據庫中計算數據溯源的方法,從而解決了來自不同數據源的數據溯源問題.提出當數據在多個數據庫之間傳播處理時,由于源數據庫和目標數據庫之間不存在任何關聯(lián),無法實現跨數據庫的追蹤查詢.因此,單個DBMS中的數據溯源方法將無法在多數據庫中使用.為了解決在不同DBMS中數據轉換問題,Cui等人通過深入調查研究,提出了形式化的跟蹤法則,通過定義一系列轉換屬性,并根據這些屬性提出了一種新的追蹤方法.Grigorisetal開發(fā)了一種查詢語言(ProQL),為基于元組溯源———半環(huán)溯源采取最普通的形式,提出支持查詢語言對數據源的存儲、處理和索引方案,可以解決增量維護、信任評估、關鍵字搜索以及數據庫查詢概率回答等問題.下面對數據溯源在數據庫應用中幾種典型的系統(tǒng)做一下簡單的介紹:1.查詢檢索或處理變換DBNotes系統(tǒng)是非常典型的采用注釋方式存儲和管理的數據溯源系統(tǒng).系統(tǒng)為每個數據項都賦予了一個全局標識(ID),在查詢檢索或處理演變過程時,該系統(tǒng)提供了三種傳播注釋信息策略,以供用戶進行選擇.但系統(tǒng)的不足之處在于兩個方面的問題:1、等價查詢可能會得出不同的結果.2、不能實現非查詢類操作,比如統(tǒng)計、求和等方面.2.rio相關模型斯坦福大學研究的Trio系統(tǒng)非常具有代表性,此系統(tǒng)采用關系表描述及存儲.Trio是一個綜合管理系統(tǒng),實現了對傳統(tǒng)的關系數據庫管理系統(tǒng)加入數據溯源的管理.將數據、轉換、溯源有機的結合在一起.該模型支持基于SQL的查詢語言TriQL,是對關系模型的擴展,廣泛應用于科學數據、信息抽取、數據集成等領域.3.無縫合并數據溯源Panda系統(tǒng)目前正處于開發(fā)階段,還沒有投入到實用過程中,目標是整合基于數據和基于過程的兩種類型數據溯源,希望實現一個通用的獲取數據溯源、存儲、查詢于一體,方便靈活、可配置各種應用的開源系統(tǒng).無縫合并基于數據和過程的溯源,為用戶提供一個全方位的從細粒度到粗粒度的數據溯源模型,開發(fā)一種通用語言用于查詢和分析溯源信息.4.2數據溯源信息工作流的概念溯源于辦公自動化領域.根據一系列規(guī)則,把資料、文檔、信息以及任務在參與者之間傳遞,以達到某種目的.科學工作流是用來自動化科學研究過程的,而科研過程由一系列研究步驟組成,用來描述和控制科學實驗和過程的執(zhí)行,它是面向e-Science,服務于科學家,為他們提供更易分析和管理的數據.科學工作流采用數據驅動模式,在數據處理過程中,前一級的數據輸出成為下一級處理的數據輸入.而且,科學工作流的定義與設計都是動態(tài)的,整個任務序列是不確定的,需要根據前一個任務的處理結果來確定下一個任務.科學工作流強調數據的可信度,實現數據溯源對每一步的處理過程可信度存在較高的要求,對全程數據的變化需要進行監(jiān)控.早在1997年,Geo-opera系統(tǒng)就是數據溯源追蹤在工作流中的應用.實現了在分布式環(huán)境下的數據流、轉換過程和數據溯源追蹤等功能.工作流中的數據溯源信息能夠為用戶評估數據質量、重現實驗過程、挖掘潛在的數據關系等.06年和08年兩屆IPAW會議的主題都于工作流的數據溯源相關,數據溯源在這個領域的研究很受重視.ZhuoweiBaoetal利用框架標簽為工作流溯源設計了一種緊密而有效的可達性標簽方案,使用對數長度、線性時間運行、能夠回答幾乎所有的常規(guī)時間里的可達性查詢.ManishKumaretal為科學工作流溯源提供一種高效查詢圖形技術.獲取在工作流中數據溯源信息一般有兩種方法:1.日志法,即從日志文件中獲取比較簡單的溯源信息,不能實現工作流程的任意修改逆流,這種方法應用不多.2.將數據溯源信息記錄在工作流引擎設計中,以便進行管理.下面簡單介紹國際上比較成熟的科學工作流系統(tǒng).Kepler是由UCDavis、UCSantaBarbara等合作研制的,是開源的java程序系統(tǒng).構建于另一個開源可視化建模系統(tǒng)PtolemyII之上,為科學家提供了一個方便易用的工作平臺.通過記錄工作流執(zhí)行狀態(tài),可以重現整個操作的全過程.該系統(tǒng)是一個通用的自動工作流管理系統(tǒng),也是一個數據溯源管理系統(tǒng),能夠實現工作流的創(chuàng)建、運行和共享一體化,在數據溯源管理方面,通過跟蹤數據項以及數據聚合的歷史記錄,將結果反饋給用戶.Kepler系統(tǒng)允許科學家設計科學工作流,并使用基于網格的分布式計算方法執(zhí)行這些工作流.廣泛應用于地理學、生物信息學、化學等科學領域.用戶即使沒有計算機背景,也可以使用標準組件生成工作流,或者根據需求修改現有的工作流模型.該軟件集成了Matlab、R等數據分析軟件.2.實驗科學的立工作流系統(tǒng)Taverna系統(tǒng)由MyGrid團隊創(chuàng)建,受OMII-UK資助.由可用服務面板、工作流圖面板和高級模型瀏覽器三個主要部分組成.Taverna是一個開放源碼的獨立工作流管理系統(tǒng),用于在設計和執(zhí)行實驗科學的工作流程和助手工具套件.Taverna系統(tǒng)采用SCUFL來創(chuàng)建科學工作流,它定義的工作流,通過控制流模型來描述各種任務之間的關系,并利用控制結構(比如條件判斷、循環(huán)語句等)來處理科學研究各步驟的關系,進而跟蹤、溯源、重現工作流程中各步的狀態(tài).另外,工作流映射包括資源的發(fā)現和綁定兩個步驟,主要有手工和自動兩種方式,大部分科學工作流系統(tǒng)采用注冊表來保存增加的服務信息,Taverna系統(tǒng)采用手工方式,通過注冊表保存了大量的生物信息學的Web服務描述信息.3.核心網絡的連通性Triana系統(tǒng)是一種開源的、與平臺無關的分布式問題解決型環(huán)境,用java語言實現.Triana是圖形化應用環(huán)境,用戶可以方便地構建一個科學工作流.用戶可以通過拖動其組件形成一個結點,通過創(chuàng)建兩個結點間的連線構建其連通性.它是一個模塊化的體系結構,包括3個不同的組件:TS(TrianaService)、TCS(TrianaControllerService)、TGUI(TrianaUserInterface).通過TGUI可以訪問其它運行TS的機器.TCS是一個控制指定Triana網絡的服務,它可以選擇自己運行或指定其它可用的TS執(zhí)行.因此,一個TGUI可以控制多個Triana網絡實現其分布式管理.通過Triana系統(tǒng)來進行數據溯源可以將分布于各個TS中的數據利用TGUI來統(tǒng)一分析、跟蹤和管理.Triana能夠將數據溯源應用于信號、文本、圖片等方面的處理.4.基于數據的工作流系統(tǒng)該系統(tǒng)提供給用戶一個基于Web的安全可靠、簡單易用的工具,用于監(jiān)視數據密集型科學實驗的全過程,通過Web服務器、FTP、SRB等多種方式獲取科學數據,并通過VML/SVG可視化操作界面,定制滿足需求的工作流實例,提交給后臺的Kelper/PtolemyII工作流引擎服務器,經過對所獲取的數據調用專用的處理軟件(包括NCL、Matlab、CDO等)進行綜合分析,最終得到所需要的可視化結果,從而實現數據的狀態(tài)重現、數據跟蹤.以上的系統(tǒng)有一個相同的特點:實現工作流的數據溯源、重現實驗過程、追蹤數據的歷史檔案,可以集成數據分析軟件實現數據的分析和挖掘.其中,Kepler系統(tǒng)能夠實現重現整個實驗過程的功能,為科學實驗的錯誤查詢、數據質量評估以及數據追蹤等方面做出了巨大的貢獻.Taverna系統(tǒng)主要通過控制流模型來定義各任務之間的關系,并利用控制結構來處理科學研究每個步驟的關系.Triana系統(tǒng)是一個模塊化結構,由不同的組件組成,通過拖動組件形成結點,通過連線確定其關系.4.3數據溯源技術數據溯源在其它領域中應用也非常廣泛,如:管理GIS數據中元數據,更加智能管理無線傳感網絡中的數據,更加安全地傳輸網絡數據,能夠使存儲系統(tǒng)智能化和人性化,Wiki管理系統(tǒng),開源代碼版本管理.數據溯源的一個應用是如何進行視圖維護與更新.視圖維護與更新都是涉及到基表與視圖的相互聯(lián)系,即基表數據發(fā)生變化,如何修改視圖?如果視圖數據被用戶修改,又如何定位到基表進行元組的修改?研究了如何根據數據溯源來進行視圖的更新.文獻研究了視圖中元組的刪除操作如何轉換為基表中元組的刪除操作.5云計算和存儲環(huán)境的安全體系數據世系管理技術研究綜述,提出4個熱點研究方向分別是:數據空間中的數據世系、不確定數據的世系管理、工作流世系管理、數據世系的挖掘和可視化.我們認為,隨著云計算和存儲環(huán)境的不斷發(fā)展,數據溯源的安全問題變的越來越重要;為了更好地推廣數據溯源技術的應用,迫切需要建立統(tǒng)一的數據溯源的業(yè)界標準.5.1數據溯源的安全與方便修改數據的安全是用戶使用數據的最起碼要求,也是一些核心數據(涉及國家軍隊秘密信息)所必需考慮的安全隱患問題.數據的安全勿庸置疑,數據溯源信息本身也是數據,同樣存在安全問題.由于某些領域需要數據共享才能達到目的,而且還需要實時更新和變遷,這就無法用常規(guī)的數據保護方法來確保數據的安全.數據溯源技術在很多領域已得到廣泛應用,但是,數據本身的安全以及溯源數據的安全是數據溯源技術發(fā)展的前提和基礎.如何解決數據溯源信息的安全與方便修改是這一領域存在的問題.5.2數據溯源的標準化目前,很多學者提出了自己的數據溯源模型和框架.但是,都存在一定的局限性,大多數溯源管理系統(tǒng)都是在一個獨立的系統(tǒng)內部實現溯源管理的.但數據如何在多個、分布式系統(tǒng)之間轉換或傳播,沒有形成統(tǒng)一的業(yè)界標準.只有存在統(tǒng)一的標準,數據溯源的相關系統(tǒng)才能形成標準的接口,以模塊化的形式應用于其它領域.標準不統(tǒng)一嚴重影響了數據溯源技術的發(fā)展,所以統(tǒng)一標準是亟待解決的問題之一.6數據溯源安全模型本文系統(tǒng)地總結了數據溯源的發(fā)展及數據溯源的模型、方法和應用,介紹了數據溯源在數據庫、工作流和其它方面的應用,并以舉例的方式進行論述.對數據溯源的標注法和逆置函數反向查詢法進行了比較,列出其各自的優(yōu)缺點.針對標注法需要大量的存儲空間來存儲溯源信息這一缺點,提出了一種基于列存儲的標注思想.本文還提出了一種異構數據的溯源模型,適用于分布式異構數據的數據追蹤.數據溯源是一個新興的領域、研究時間短,還有很多地方不夠完善,第五節(jié)中的熱點研究方向同樣存在很多難題需要攻克,我們相信未來數據溯源技術一定會蓬勃發(fā)展.2.BowersS提出的Time-ValueCentric(TVC)模型又稱時間-值中心溯源模型,是一種簡單有效的溯源模型.由于過去的溯源模型無論是基于標注的還是基于過程的溯源模型都用于面向交易的系統(tǒng)中,并不適合高容量特定需求以及連續(xù)的醫(yī)療流.于是,提出支持醫(yī)療領域數據源特點的TVC模型專門處理醫(yī)療事件流的溯源信息.根據數據中的時間戳和流ID號來推斷醫(yī)療事件的序列和原始數據的痕跡.3.四維溯源模型是由YogeshL.Simmhan等人提出.此模型將溯源看成一系列離散的活動集,這些活動發(fā)生在整個工作流生命周期中,并由四個維度(時間、空間、層和數據流分布)組成.四維溯源模型通過時間維區(qū)分標注鏈中處于不同活動層中的多個活動,進而通過追蹤發(fā)生在不同工作流組件中的活動,捕獲工作流溯源和支持工作流執(zhí)行的數據溯源.4.開放的數據溯源模型OPM在首屆InternationalProvenanceandAnnotationWorkshop(IPAW)會議中,與會者對數據溯源的描述產生了一些共同的觀念,并提出了一種原始的數據模型.后來,南安普頓大學等組織整理了會議的主要思想并發(fā)表了題為“TheOpenProvenanceModel”文章,文中提及的模型基本形成業(yè)界信息交換標準,定義一些具體的格式和協(xié)議就能應用到實際當中.當然,還需考慮與其它模型的兼容問題,文獻Hiddersetal中提出了一種將NCR模型映射到OPM模型的自動轉換方法.5.Provenir數據溯源模型2008年,在由Freire和Moreau組織的第二屆IPAW會議中,Sahoo等人提出了Provenir數據溯源模型,該模型使用W3C標準對模型加以邏輯描述,考慮了數據庫和工作流兩個領域的具體細節(jié),從模型、存儲到應用等方面形成了一個完整的體系,成為首個完整的數據溯源管理系統(tǒng).用分類的方式闡明它們之間的相互關系.該模型提供對數據產生歷史的元數據、原數據、修改元數據等功能,并使用物化視圖的方法有效解決了數據溯源的存儲問題.6.數據溯源安全模型數據溯源技術能夠溯本追源,通過其起源鏈的記錄信息來實現追源的目的,但是記錄信息本身也是數據.因此,同樣存在安全隱患,為了防止有人惡意篡改數據溯源中起源鏈的相關信息,李秀美等2010年研究了數據溯源的安全模型,利用密鑰樹再生成的方法并引入時間戳參數,有效地防止某人惡意篡改溯源鏈中的溯源記錄,對數據對象在生命周期內修改行為的記錄按時間先后組成溯源鏈,用文檔來記載數據的修改行為,當進行各種操作時,文檔隨著數據的演變而更新其內容,通過對文檔添加一些無法修改的參數比如:時間戳、加密密鑰、校驗和等來限制操作權限,保護溯源鏈的安全.7.PrInt數據溯源模型PrInt是一種支持實例級數據一體化進程的數據溯源模型.該模型主要集中解決一體化進程系統(tǒng)中不允許用戶直接更新異構數據源而導致數據不一致的問題.由PrInt提供的再現性是基于日志記錄的,并將數據溯源納入一體化進程.以上七種模型是比較經典的模型,其中,對于前三種模型而言,流模型和時間-值模型沒有明確指出對W7模式的支持,只有四維模型支持動態(tài)構建數據溯源圖,能根據一系列溯源事件以及數據結點和服務結點所構成的數據流邊來構建.存在的不足之處在于形成過程不直接,難于理解.后面幾種模型是從不同的角度,不同層次,針對數據溯源的某種特性而建立起來的模型.隨著時間的推移,數據溯源模型會越來越多,但基本上都將從如何實現溯源的目的以及其本身的安全方面著手,以上幾種模型除了數據溯源安全模型是介紹溯源鏈本身的安全外,其它幾種模型都是建立在如何實現溯本追源的基礎上的,但,每種模型各具其特點,風格不盡相同.另外,還有人提出DNA雙螺旋結構的數據溯源模型,利用DNA復雜結構與數據溯源進行類比,將DNA中的兩條鏈分別代表數據序列和操作序列,連接兩條鏈間的堿基代表關聯(lián)數據和操作的屬性.通過這種對應關系建立起一種DNA雙螺旋結構模型.建立了數據模型之后,以下介紹數據溯源的方法.3逆置追蹤數據溯源目前,數據溯源追蹤的主要方法有標注法和反向查詢法.除此之外,還有通用的數據追蹤方法,雙向指針追蹤法,利用圖論思想和專用查詢語言追蹤法,以及文獻提出以位向量存儲定位等方法.標注法是一種簡單且有效的數據溯源方法,使用非常廣泛.通過記錄處理相關的信息來追溯數據的歷史狀態(tài),即用標注的方式來記錄原始數據的一些重要信息,如背景、作者、時間、出處等,并讓標注和數據一起傳播,通過查看目標數據的標注來獲得數據的溯源.Sudha等人提出的7W模型,就是采用標注法,事先標記并攜帶溯源信息完成數據溯源的模型,被稱為eager方法.采用標注法來進行數據溯源雖然簡單,但存儲標注信息需要額外的存儲空間.反向查詢法,有的文獻也稱逆置函數法.由于標注法并不適合細粒度數據,特別是大數據集中的數據溯源,于是,提出了逆置函數反向查詢法,此方法是通過逆向查詢或構造逆向函數對查詢求逆,或者說根據轉換過程反向推導,由結果追溯到原數據的過程.這種方法是在需要時才計算所以又叫l(wèi)azzy方法.詳細論述了數據庫中逆置追蹤數據溯源的機制.反向查詢法關鍵是要構造出逆向函數,逆向函數構造的好與壞直接影響查詢的效果以及算法的性能,與標注法相比,它比較復雜,但需要的存儲空間比標注法要小.下面將標注法與查詢法進行比較,列出其優(yōu)缺點.標注法的優(yōu)點:實現簡單,容易管理,其缺點:只適合小型系統(tǒng),對于大型系統(tǒng)而言很難為細粒度的數據提供詳細的數據溯源信息,因為很細可能導致元數據比原始數據還多,需要額外的存儲空間,對存儲造成很大的壓力,而且效率低.逆置函數反向查詢法的優(yōu)點:追蹤比較簡單,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 蘇科版八年級物理下冊《第八章力與運動》單元檢測卷及答案
- 人教版七年級數學下冊全冊導學案
- 《誡子書》復習課
- 中小學機房作品管理系統(tǒng)的開發(fā)與應用研究
- 高一化學二第二章第二節(jié)化學能與電能練習
- 2024屆安徽省巢湖市某中學高考仿真模擬化學試卷含解析
- 2024高中地理第3章地理信息技術應用第4節(jié)數字地球精練含解析湘教版必修3
- 2024高中物理第二章交變電流第六節(jié)變壓器達標作業(yè)含解析粵教版選修3-2
- 2024高中語文第一單元以意逆志知人論世湘夫人訓練含解析新人教版選修中國古代詩歌散文欣賞
- 綿陽市高中2022級(2025屆)高三第二次診斷性考試(二診)歷史試卷(含答案)
- 《視頻壓縮基礎》課件
- 2025南方財經全媒體集團校園招聘63人高頻重點提升(共500題)附帶答案詳解
- 《A機場公司人力資源管理工作實踐調研報告》2600字(論文)
- 社工人才培訓計劃實施方案
- 四年級數學(上)計算題專項練習及答案
- 6、水平四+田徑18課時大單元計劃-《雙手頭上前擲實心球》
- 軍事理論(2024年版)學習通超星期末考試答案章節(jié)答案2024年
- 青島版科學四年級下冊課程綱要
- 部編人教版六年級下冊語文1-6單元作文課件
- NB/T 11434.5-2023煤礦膏體充填第5部分:膠凝材料技術要求
評論
0/150
提交評論