基于指紋的中文文檔復(fù)制檢測技術(shù)課件_第1頁
基于指紋的中文文檔復(fù)制檢測技術(shù)課件_第2頁
基于指紋的中文文檔復(fù)制檢測技術(shù)課件_第3頁
基于指紋的中文文檔復(fù)制檢測技術(shù)課件_第4頁
基于指紋的中文文檔復(fù)制檢測技術(shù)課件_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于指紋的中文文檔復(fù)制檢測技術(shù)1基于指紋的中文文檔復(fù)制檢測系統(tǒng)基于指紋的中文文檔復(fù)制檢測系統(tǒng) 基于指紋的中文文檔復(fù)制檢測技術(shù)2主要內(nèi)容應(yīng)用背景應(yīng)用背景1研究意義研究意義2研究方法研究方法3基于指紋的中文文檔復(fù)制檢測技術(shù)3應(yīng)用背景文檔剽竊文檔剽竊internetinternet為人們提供了為人們提供了前所未有的便利前所未有的便利, ,我們可以方我們可以方便、快捷獲得和傳遞信息,它便、快捷獲得和傳遞信息,它推動著高科技不斷向前發(fā)展。但推動著高科技不斷向前發(fā)展。但是,信息資源的易獲性和開放性也是,信息資源的易獲性和開放性也有不利方面,它使剽竊有機(jī)可乘,有不利方面,它使剽竊有機(jī)可乘,剽竊越來越容易,越

2、來越猖獗;剽竊越來越容易,越來越猖獗;剽竊侵犯了著作者的著作權(quán),剽竊侵犯了著作者的著作權(quán),嚴(yán)重影響了科學(xué)文化的嚴(yán)重影響了科學(xué)文化的健康發(fā)展健康發(fā)展。titleadd your texttitleadd your text互聯(lián)網(wǎng)重復(fù)網(wǎng)頁互聯(lián)網(wǎng)重復(fù)網(wǎng)頁互聯(lián)網(wǎng)上的信息資源正互聯(lián)網(wǎng)上的信息資源正在以指數(shù)級增長,重復(fù)網(wǎng)頁在以指數(shù)級增長,重復(fù)網(wǎng)頁日益增多,很多網(wǎng)頁都存在多個日益增多,很多網(wǎng)頁都存在多個版本。因此搜索引擎經(jīng)常檢索出版本。因此搜索引擎經(jīng)常檢索出具有相同信息的重復(fù)網(wǎng)頁。這樣既具有相同信息的重復(fù)網(wǎng)頁。這樣既浪費了查詢者很多寶貴的查詢時浪費了查詢者很多寶貴的查詢時間,降低了檢索效率間,降低了檢索效率

3、. .去除重復(fù)去除重復(fù)網(wǎng)頁成為了搜索引擎技術(shù)網(wǎng)頁成為了搜索引擎技術(shù)中一項很有意義的中一項很有意義的工作工作. .基于指紋的中文文檔復(fù)制檢測技術(shù)4研究意義在數(shù)字圖書館數(shù)字圖書館里文檔主要以電子形式存在,所以很容易被拷貝,經(jīng)常出現(xiàn)剽竊論文的現(xiàn)象,這種現(xiàn)象必須解決,否則信息所有者不愿意將寶貴的信息發(fā)布到圖書館中,而且這些剽竊的文檔占有存儲空間。在數(shù)字圖書館中加入復(fù)制檢測技術(shù)可以檢測出剽竊文檔,保護(hù)信息所有者的知識產(chǎn)權(quán)。信息檢索信息檢索在進(jìn)行信息檢索信息檢索時總是希望盡快找到準(zhǔn)確的內(nèi)容,一篇文檔很有可能以多種格式存在,檢索時可能返回多個結(jié)果,這就降低了檢索效率且浪費網(wǎng)絡(luò)資源。如果在提交此結(jié)果之前我們先

4、加入一個復(fù)制檢測系統(tǒng)來優(yōu)先索引網(wǎng)頁,如果新的網(wǎng)頁被發(fā)現(xiàn)與已經(jīng)索引的網(wǎng)頁相似度很大,那么不再提交此網(wǎng)頁。 現(xiàn)在存在很多網(wǎng)上論文提交網(wǎng)上論文提交系統(tǒng),在論文提交后,編輯們要處理兩個問題:一是提交的論文與別人在以前的會議、雜志、學(xué)術(shù)報告上有多大的相似性;另外,還要檢查現(xiàn)在提交的論文與作者本人以前發(fā)表論文有多少不同。 數(shù)字圖書館數(shù)字圖書館基于指紋的中文文檔復(fù)制檢測技術(shù)5復(fù)制檢測又稱剽竊檢測(plagiarism detection),就是判斷一個文件的內(nèi)容是否抄襲、剽竊或者復(fù)制于另外一個或者多個文件,剽竊不僅僅意味著原封不動地照搬還包括對原文內(nèi)容的移位交換、同義詞替換、改變說法重述等。復(fù)制檢測的定義基

5、于指紋的中文文檔復(fù)制檢測技術(shù)6v 2006年,namoh kang等從剽竊模式的角度進(jìn)行文本復(fù)制檢測的研究,描述了文本復(fù)制檢測從難到易的檢測層次(如下面圖),該模式按照難易程度將文本復(fù)制檢測分為各個層次的檢測,提出一個基于剽竊模式的更為精確的文本復(fù)制檢測系統(tǒng)。易文檔復(fù)制段落復(fù)制句子復(fù)制詞的移位變換句子結(jié)構(gòu)改變改變說法重述文檔復(fù)制檢測的難易程度難基于指紋的中文文檔復(fù)制檢測技術(shù)7現(xiàn)有的文檔復(fù)制檢測方法v 基于詞頻統(tǒng)計的方法v 基于hash文本塊的方法v 基于語義知識的方法基于指紋的中文文檔復(fù)制檢測技術(shù)8研究現(xiàn)狀v基于詞頻統(tǒng)計的文檔復(fù)制檢測方法 把文檔表示成以詞為元素組成的向量,根據(jù)每個詞出現(xiàn)的頻率

6、與逆文本頻率賦以相應(yīng)的權(quán)值,再通過點積或者余弦等方式度量文檔間的相似度。具有代表性的詞頻統(tǒng)計方法為1995年美國stanford大學(xué)提出的scam (stanford copy analysis method)模型、1997年香港理工大學(xué)建立的check原型、西安交通大學(xué)2001年提出的cdsdg(copying detection system of digital goods)系統(tǒng)和2006年提出的高頻模型hfm(heavy frequency model)。缺點缺點: (1)基于詞頻統(tǒng)計的文檔復(fù)制檢測方法雖然廣泛應(yīng)用于文本聚類、信息檢索等領(lǐng)域,但是它并不適用于文檔復(fù)制檢測技術(shù); (2)只

7、能檢測出兩篇文檔之間的相似度,不能發(fā)現(xiàn)一篇文檔同時復(fù)制多篇文檔的行為; (3) 檢測結(jié)果準(zhǔn)確率不高,誤差大。 基于指紋的中文文檔復(fù)制檢測技術(shù)9研究現(xiàn)狀v基于hash文本塊的文檔復(fù)制檢測方法 從文檔中選取一些字符串,然后把字符串映射為hash表中的數(shù)值,這些數(shù)值被稱為“指紋”。通過統(tǒng)計hash表中相同的指紋數(shù)目或者比率來得出文檔間的重疊度。具有代表性的hash文本塊方法為1994年arizona亞利桑那州立大學(xué)提出的sif工具、1995年stanford大學(xué)開發(fā)的cops(copy detection system)系統(tǒng)、2000年monostori等人建立的mdr(match detect r

8、eveal)原型系統(tǒng)和2003年芝加哥大學(xué)提出的winnowing算法。優(yōu)點:算法簡單、運(yùn)算速度快缺點:缺點: 該類方法實際上只是進(jìn)行簡單的字符串匹配,因此只能檢測出完全相同的全部或部分復(fù)制文本,以及移位變換的復(fù)制文本,無法發(fā)現(xiàn)復(fù)雜復(fù)制方式,如同義詞替換、改變說法重述等。 基于指紋的中文文檔復(fù)制檢測技術(shù)10研究現(xiàn)狀v基于語義知識的文檔復(fù)制檢測方法 從計算語言學(xué)領(lǐng)域出發(fā),試圖通過各種形式化的方法表示出文本的語義特征,從而度量文檔間的重疊度。 現(xiàn)存的基于語義知識的文檔復(fù)制檢測方法為2005年大連理工大學(xué)金博等人提出的基于語義理解的文本相似度算法。該算法以知網(wǎng)的概念描述為基礎(chǔ),改進(jìn)了現(xiàn)存的詞語相似度

9、的計算公式,并將詞語相似度計算推廣到段落范圍,進(jìn)而將這種段落相似度計算推廣到篇章相似度計算。 缺點:缺點:能夠發(fā)現(xiàn)的文檔復(fù)制方式有限,檢測結(jié)果的準(zhǔn)確率不理想。基于指紋的中文文檔復(fù)制檢測技術(shù)11基于指紋的文檔復(fù)制檢測系統(tǒng)基于指紋的文檔復(fù)制檢測系統(tǒng)v 計算指紋v 比較指紋分詞文檔按段落分塊按句子分塊計算句子指紋計算段落指紋計算文檔指紋文檔指紋相同文檔1各粒度指紋文檔2各粒度指紋句子指紋相同段落指紋相同分詞nnn文檔1與2完全相同文檔1與2段落相同文檔1與2句子相同yyy基于指紋的中文文檔復(fù)制檢測技術(shù)12基于指紋的文檔復(fù)制檢測系統(tǒng)基于指紋的文檔復(fù)制檢測系統(tǒng)e.g. 高校是培養(yǎng)人才的基地。大學(xué)生是高校

10、思想政治教育的主體。以人為本是高校思想政治工作必備的理念。 以人為本是社會主義市場經(jīng)濟(jì)和時代發(fā)展的需要?,F(xiàn)代社會是政治經(jīng)濟(jì)科技教育文化和生活變化發(fā)展極其迅捷的時代。造成了更加激烈的社會競爭,現(xiàn)代社會知識經(jīng)濟(jì)初見端倪。 高校/是/培養(yǎng)/人才/的/基地。大學(xué)生/是/高校/思想政治教育/的/主體。以人為本/是/高校/思想政治工作/必備/的/理念。 以人為本/是/社會主義/市場經(jīng)濟(jì)/和/時代/發(fā)展/的/需要?,F(xiàn)代/社會/是/政治經(jīng)濟(jì)科技/教育/文化/和/生活/變化發(fā)展/極其/迅捷/的/時代。造成/了/更加/激烈/的/社會/競爭,現(xiàn)代/社會/知識經(jīng)濟(jì)/初見端倪。 分詞分詞按照按照段落段落劃分劃分基于指紋

11、的中文文檔復(fù)制檢測技術(shù)13基于指紋的文檔復(fù)制檢測方法基于指紋的文檔復(fù)制檢測方法 高校/是/培養(yǎng)/人才/的/基地。大學(xué)生/是/高校/思想政治教育/的/主體。以人為本/是/高校/思想政治工作/必備/的/理念。 以人為本/是/社會主義/市場經(jīng)濟(jì)/和/時代/發(fā)展/的/需要。現(xiàn)代/社會/是/政治經(jīng)濟(jì)科技/教育/文化/和/生活/變化發(fā)展/極其/迅捷/的/時代。造成/了/更加/激烈/的/社會/競爭,現(xiàn)代/社會/知識經(jīng)濟(jì)/初見端倪。 高校/是/培養(yǎng)/人才/的/基地。大學(xué)生/是/高校/思想政治教育/的/主體。以人為本/是/高校/思想政治工作/必備/的/理念。 高校/是/培養(yǎng)/人才/的/基地。大學(xué)生/是/高校/思

12、想政治教育/的/主體。按照按照句子句子劃分劃分以人為本/是/高校/思想政治工作/必備/的/理念。 基于指紋的中文文檔復(fù)制檢測技術(shù)14基于指紋的文檔復(fù)制檢測方法基于指紋的文檔復(fù)制檢測方法高校/是/培養(yǎng)/人才/的/基地。令asc(高校)=0; asc(是)=1; asc(培養(yǎng))=2; asc(人才)=3; asc(的)=4; asc(基地)=5; 計算句子指紋計算句子指紋hp(w1w2wn)=(w1bn-1+w2bn-2+wn-1b1+wn) mod p 令b=2,p=最大的素數(shù), n=6hp(高校/是/培養(yǎng)/人才/的/基地)=025+ 124 + 223 + 322 + 421 + 520= 5

13、2hp(大學(xué)生/是/高校/思想政治教育/的/主體)=30大學(xué)生/是/高校/思想政治教育/的/主體。以人為本/是/高校/思想政治工作/必備/的/理念。 hp(以人為本/是/高校/思想政治工作/必備/的/理念)=20基于指紋的中文文檔復(fù)制檢測技術(shù)15基于指紋的文檔復(fù)制檢測方法基于指紋的文檔復(fù)制檢測方法段落指紋:hp(s1s2sn)=(s1bn-1+s2bn-2+sn-1b1+wn) mod p 令b=2,p=最大的素數(shù)。hp(s1)= 52, hp(s1)= 30, hp(s1)= 20, p1:p1: 高校/是/培養(yǎng)/人才/的/基地。大學(xué)生/是/高校/思想政治教育/的/主體。以人為本/是/高校/

14、思想政治工作/必備/的/理念。 hp(p1)=(s1bn-1+s2bn-2+sn-1b1+sn) mod p = 5222+ 3021 + 2020 = 308 以人為本/是/社會主義/市場經(jīng)濟(jì)/和/時代/發(fā)展/的/需要?,F(xiàn)代/社會/是/政治經(jīng)濟(jì)科技/教育/文化/和/生活/變化發(fā)展/極其/迅捷/的/時代。造成/了/更加/激烈/的/社會/競爭,現(xiàn)代/社會/知識經(jīng)濟(jì)/初見端倪。 p2:p2:hp(p2)=566計算段落指紋計算段落指紋基于指紋的中文文檔復(fù)制檢測技術(shù)16基于指紋的文檔復(fù)制檢測方法基于指紋的文檔復(fù)制檢測方法p1:p1: 高校/是/培養(yǎng)/人才/的/基地。大學(xué)生/是/高校/思想政治教育/的/主體。以人為本/是/高校/思想政治工作/必備/的/理念。 以人為本/是/社會主義/市場經(jīng)濟(jì)/和/時代/發(fā)展/的/需要?,F(xiàn)代/社會/是/政治經(jīng)濟(jì)科技/教育/文化/和/生活/變化發(fā)展/極其/迅捷/的/時代。造成/了/更加/激烈/的/社會/競爭,現(xiàn)代/社會/知識經(jīng)濟(jì)/初見端倪。 p2:p2:hp(p2)=566hp(p1p2)=(p1bn-1+p2bn-2+

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論