基于OOXML的演示文稿溯源及編輯過程恢復方法研究_第1頁
基于OOXML的演示文稿溯源及編輯過程恢復方法研究_第2頁
基于OOXML的演示文稿溯源及編輯過程恢復方法研究_第3頁
基于OOXML的演示文稿溯源及編輯過程恢復方法研究_第4頁
基于OOXML的演示文稿溯源及編輯過程恢復方法研究_第5頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于OOXML的演示文稿溯源及編輯過程恢復方法研究微軟公司的0伍ce系列軟件自發(fā)布以來被廣泛應用于文檔的編寫、演示、統(tǒng)計等領(lǐng)域,PowerPoint是其中一款演示文稿軟件。PowerPoint的普遍使用使得大量商業(yè)機密及創(chuàng)意產(chǎn)品資料以電子文檔的形式保存,然而由于電子文檔易復制、易修改的特性,與電子文檔相關(guān)的知識產(chǎn)權(quán)糾紛頻繁發(fā)生。在與電子文檔相關(guān)的知識產(chǎn)權(quán)糾紛中,文檔的來源性和編輯過程檢測是檢驗的重點?,F(xiàn)有的方法多為通過WinHex等二進制讀取軟件從文件底層讀取文件信息,達到檢測來源及恢復編輯過程的目的。而0伍ce系列軟件自2007版本之后采用了OOXMLc2(Open 0伍ce XML)格式存

2、儲文件,OOXML是一種以XML為基礎(chǔ)并以ZIP格式壓縮的電子文件規(guī)范,其將文檔屬性、文檔內(nèi)容、圖表、圖片、音視頻文件以及文檔之間的關(guān)系等打包在一起,大大提高了文檔的可恢復性。本文結(jié)合其獨特的XML格式,提出了PowerPoint2010基于OOXML的來源檢測及編輯過程恢復的方法。1 技術(shù)原理1.1 演示文稿文件結(jié)構(gòu)分析演示文稿文件采用ZIP格式壓縮,修改其后綴名為ZIP´即可對其進行解壓縮。解壓縮后的PPTX文件夾由四部分組成,其中包括三個文件夾:_rels、docProps、ppt,以及一個xml文件:.xml。_rels文件夾中只有一個rels文件,它定義了部件之間

3、的關(guān)聯(lián)關(guān)系,是解析整個包時要瀏覽的第一個文件。docProps文件夾包含三個文件:docPropsappxml描述了軟件版本、文檔頁數(shù)、字符總數(shù)等:docPropscorexml描述了作者、文檔創(chuàng)建時間、最后修改時間等:docPropsthumbnail.jpeg是演示文稿第一頁的縮略圖。ppt文件夾是PowerPoint獨有的目錄,包含著其特有的文檔信息。其中,pptVrels指定文檔部件的集合如何組合為一個文檔;pptmedia包含文檔中嵌入的圖片、音頻、視頻等多媒體文件;ppttheme描述了文檔使用的主題風格;pptslides是最重要的文件夾,它包含了每頁幻燈片的具體內(nèi)容及其關(guān)系文件

4、。其中,每一頁幻燈片都以一個獨立的xml文件格式存儲,這些xml文件的命名規(guī)律為slide+幻燈片序號xml;,與之對應的,pptslidesVrels文件夾中存放著各頁幻燈片的關(guān)系文件,這些關(guān)系文件的命名規(guī)律為slide幻燈片序號xmlrels;:最后,ppt文件夾的presentationxml文件負責將整個文件夾中的內(nèi)容串聯(lián)在一起形成一個完整的文檔。Content_types.xml定義包中各部分的內(nèi)容類型。1.2 PPTX文件來源性分析所謂文件的來源性分析,即通過對源文件與目標文件進行比較,判斷兩文件是否由同一文件復制而來。之前提到,幻燈片的具體內(nèi)容存儲在slide+幻燈片序號.xml

5、;文件中。分析PPTX文件是否同源,可從這些slide文件的內(nèi)容人手。由于xml文件以樹狀結(jié)構(gòu)存儲數(shù)據(jù)凹,以樹狀結(jié)構(gòu)解讀slide文件可以得到其根節(jié)點為,根節(jié)點包含兩個一級子節(jié)點p:cSld和。其中,用戶可在節(jié)點中創(chuàng)建形狀樹,也就是編輯幻燈片的具體內(nèi)容。是的子節(jié)點,如果幻燈片中插入了圖片、音頻、視頻等多媒體文件,里將存放這些多媒體文件的文件名及xml文檔賦予它們的ID號碼。中還包含著與同一級別的另一個子節(jié)點,xml文檔的用戶可以在該節(jié)點中存放自定義的數(shù)據(jù)。slide文件的樹形結(jié)構(gòu)如圖1所示。由樹形結(jié)構(gòu)圖可以看到,用戶自定義節(jié)點中存放了四級子節(jié)點,該節(jié)點擁有屬性val,該屬性的值可稱為幻燈片的c

6、reationID值。研究發(fā)現(xiàn),同一演示文稿中的各幻燈片的creationID值均不相同,且分別建立的兩個演示文稿文件,其對應頁幻燈片的creationID值也不相同。為探究由同一文件復制而來的演示文稿creationID值的變化規(guī)律,課題組進行了大量實驗。由實驗結(jié)果總結(jié)的規(guī)律如表1所示:由表1可以看出,如果演示文稿A由演示文稿B通過復制操作生成,不論對演示文稿B做內(nèi)容修改還是對幻燈片頁數(shù)進行增刪,只要演示文稿A中還存留有演示文稿B的任意張幻燈片,其留存的幻燈片就會保留演示文稿B中幻燈片的creationID值。圖2所示為samplepptx;、sample -副本pptx;和sample2.

7、pptx;中slidel.xml的內(nèi)容。其中,sample-副本.pptx;由sample.pptx;復制而來,并對內(nèi)容做了適當修改,sample2.pptx;為另外創(chuàng)建的文件??梢钥吹角皟蓚€文件擁有相同的creationID值(2338748835)而另外創(chuàng)建的文件slidelxml中的creationID值則完全不同(2411686777)。creationID值通常由8位以上數(shù)字組成,兩個creationID值完全相同的概率極低。因此,可以判定,演示文稿A如果含有與演示文稿B相同的creationID值,即可說明A與B同源。1.3 PPTX文件編輯順序分析所謂文件編輯順序分析,即以單個演

8、示文稿為分析對象,對演示文稿內(nèi)幻燈片及其多媒體內(nèi)容的增加、刪除等編輯過程進行還原。1.3.1演示文稿的編輯時間鏈之前提到,位于docProps文件夾下的corexml描述了文檔作者、創(chuàng)建時間以及最后修改時間等。研究發(fā)現(xiàn)xml中記錄的除了創(chuàng)建時間和修改時間之外,還有一個節(jié)點。經(jīng)過實驗,得到revlsion節(jié)點、創(chuàng)建時間及修改時間的變化規(guī)律如表2所示。由表2可以看出,revlsion節(jié)點記錄了演示文稿的版本號,即自創(chuàng)建以來修改過的次數(shù)。一個新建的pptx文檔,其版本號為1。對其進行修改得到的pptx文檔,其版本號將隨著修改次數(shù)遞增。圖3所示的是演示文稿samplepptx的原文件及其修改一次后的c

9、orexml內(nèi)容。因此,從revlsion的數(shù)值可以判斷出文檔的編輯次數(shù)。顯然,revlsion較小的演示文稿的編輯順序先于revlsion較大的演示文稿,結(jié)合修改時間即可得到文件編輯的時間鏈。1.3.2幻燈片及其多媒體內(nèi)容的添加次序之前提到,pptpresentationxml文件負責將整個演示文稿串聯(lián)在一起。該xml文件的根節(jié)點是,其下的一級子節(jié)點中存儲著若干二級子節(jié)點即演示文稿中的幻燈片列表,節(jié)點中存儲幻燈片的標識號(id)和索引號(r:id)。通過該索引號可在pptVrelspre-sentationxmlrels文件中查詢到pptslides文件夾下對應的幻燈片的名稱。如果幻燈片中插

10、入了多媒體文件,這些多媒體文件的信息將儲存在pptslidesslide幻燈片序號xml;的節(jié)點。如圖1所示,節(jié)點包含三個子節(jié)點-、,其中,中存儲了xml文件賦予該多媒體文件的名字(name)和標識號(id),則存儲了索引號(r:embed),通過索引號可以在pptslidesVrels關(guān)系文件中查詢多媒體文件的存儲路徑??梢钥闯?,無論是幻燈片本身還是幻燈片中添加的多媒體文件,都擁有各自的標識號(id),經(jīng)過實驗,本文總結(jié)出幻燈片ID與多媒體ID的變化規(guī)律,如表3所示。由表3可以看出,隨著幻燈片的增加,幻燈片的ID隨之遞增。首張幻燈片的ID值默認為256;,第二張幻燈片則為257;,以此類推。

11、而當刪除其中某個幻燈片時,其他幻燈片的ID值并不會發(fā)生改變。同樣的,隨著幻燈片中插入多媒體文件數(shù)量的增加,多媒體文件的ID值也呈遞增,幻燈片中加入的首個多媒體文件的ID值默認為4;,第二個多媒體文件為5;,以此類推,當刪除其中某個多媒體文件時,其他多媒體文件的ID值也不會發(fā)生改變。因此,完全可以由幻燈片ID和多媒體文件ID分析出幻燈片及其多媒體文件的插入順序及刪除情況。如圖4所示,在samplepptx中先后添加三張幻燈片,其幻燈片ID分別為256;、257;、258;,刪除第二張幻燈片,可以發(fā)現(xiàn)幻燈片ID出現(xiàn)斷層。如圖5所示,在samplepptx的第一張幻燈片中先后插入三張圖片,其多媒體文

12、件ID分別為4;、5;、6;,刪除第二張圖片,可以發(fā)現(xiàn)多媒體文件ID出現(xiàn)斷層。2 系統(tǒng)功能基于第二節(jié)所述原理,課題組使用VBNET語言實現(xiàn)了0伍ce PowerPoint 2010溯源及多媒體編輯順序分析工具。系統(tǒng)分為來源分析模塊和多媒體文件分析模塊。兩個模塊的設計流程如圖6-7所示。為了測試系統(tǒng)的功能,課題組首先創(chuàng)建了一個單頁的演示文稿文件圖片實驗pptx;,并在第一頁插入了三張圖片。復制圖片實驗pptx;得到圖片實驗副本pptx;,打開副本并刪除三張圖片中的第二張。圖8顯示的是系統(tǒng)對兩個演示文稿的來源性分析結(jié)果。從結(jié)果可以清晰地看出兩個演示文稿來源相同,且文件2(圖片實驗pptx)的創(chuàng)建早于文件1(圖片實驗副本pptx)。打開圖片實驗pptx,對幻燈片1進行分析,幻燈片1中的多媒體文件添加次序如圖7所示??梢钥闯龌脽羝?中的多媒體文件序號從4;開始,順序遞增至6;。打開圖片實驗副本pptx,對幻燈片1進行分析?;脽羝?中的多媒體文件添加次序如圖9所示??梢钥闯龌脽羝?中的多媒體文件序號從4;開始,但缺少了序號為5;的節(jié)點。結(jié)合來源性分析可以判斷,文件1為文件2復制所得,并在文件2的基礎(chǔ)上刪除了圖片4;。參考文獻:【1】羅文華孫道寧Office Word文檔溯源方法研究警察技 術(shù),20

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論