


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
一種高效的文本信息查重算法
0適當(dāng)刪除重復(fù)信息隨著電子商務(wù)的發(fā)展,網(wǎng)絡(luò)中充滿了越來越多的信息??紤]到自己的利益,許多公司經(jīng)常使用各種手段發(fā)布大量重復(fù)信息(或類似信息)。這些重復(fù)發(fā)布的信息會造成各商家在網(wǎng)絡(luò)廣告方面投入與產(chǎn)出的不公平。為此,我們需要通過各種途徑準(zhǔn)確高效地查找、歸類這些信息并予以適當(dāng)處理。目前在各個商業(yè)化的電子商務(wù)網(wǎng)站中,大多數(shù)信息的發(fā)布是需要人工審核的。通常,審核員需要通過一定的記憶,把重復(fù)信息找到,然后予以刪除。這種傳統(tǒng)的方法存在兩個缺陷:其一,每天成千上萬的數(shù)據(jù),通過大量的勞動密集型投入,致使審核成本劇增;其二,通過這種方法也不能有效地刪除重復(fù)信息。如果我們能找到一種合理的算法把類似的信息歸并在一起排序,將會極大地提高信息審核員的勞動效率和降低審核成本。但是,大規(guī)模的文本相似比較,是相當(dāng)耗時的,在實(shí)時環(huán)境下,甚至是根本無法忍受的。如果每千條信息比較需要花費(fèi)一分鐘的時間,這就違背我們的意圖了。尤其是在一個基于Web的應(yīng)用,這樣的性能將會把WebServer拖跨。我們需要尋求一個效率更高的算法,以解決重復(fù)信息(或相似信息)的歸類排序問題。1有條件進(jìn)入實(shí)驗(yàn)對象把“選取”打造成“個人成本”文本信息的相似性常常用俄國科學(xué)家VladimirLevenshtein在1965年提出的Levenshtein距離來衡量。根據(jù)Levenshtein距離可以計(jì)算將一個短語轉(zhuǎn)化成另一個短語時所需執(zhí)行的插入、刪除和置換的次數(shù)。比如,要將“good”變成“goods”,只需要輸入一個字符(“s”),因此它們之間的距離是“1”。四個字母中取一個就是25%(距離通常相對于短語來計(jì)算),采用這種方法的CAT工具用75%來表示這兩個詞之間的相似性。該算法主要應(yīng)用于DNA分析、拼字檢查、語音辨識和抄襲偵測等。該算法比較適合英語之類的拉丁語系而不適合中文。另外,該算法的性能也有問題。筆者測試過,選擇了1000條常規(guī)的商業(yè)信息,第一條和其他999條信息比較,發(fā)現(xiàn)需要將近1秒的時間。如果要做相互比較,基本是行不通了。盡管Levenshtein有一些改進(jìn)的算法,但是從性能上來說,在最糟糕的情況下仍然表現(xiàn)出一樣的算法復(fù)雜度。2算法的時間復(fù)雜度假如兩個具有足夠長度的字符串s1,s2是相似的,那么s1的部分內(nèi)容必定出現(xiàn)在s2中。即:..s1≌s2,則{s1(0)|s1(1)|s1(2)|s1(3)…|s1(n)}∈s2,其中s1(0)、s1(1)、s1(2)、s1(3)、…、s1(n)是s1的子串。假設(shè)1由于我們只需把相似的信息歸類在一起供人工審核,故不必考慮兩個字符串是否完成相同的問題,當(dāng)s1中有k(k<<n)個子串存在于s2中,即可認(rèn)為該兩字符串是相似的,可以在排序上把他們歸并在一起?,F(xiàn)在分析該算法的時間復(fù)雜度,定義問題如下:有N{N1,N2…Nn}條中文文本信息,所有文本的平均長度m,通過相互比較,把類似的文本信息分組排列成一組。如果被判定是重復(fù)的信息,不再參與接下去的相互比較。例如,當(dāng)N1和N2…Nn比較,得到2條與其相似信息(N2,N3),那么接下去的比較應(yīng)該是N4與N5…Nn。以此類推,直到所有的比較結(jié)束。可以更一般地描繪這個比較行為:初始條件:參與比較的文本信息集合為N={N1,N2,…,Nn},比較結(jié)果集合為P。1)N1與{N2,N3…Nn}比較得到與N1相似的文本信息加入比較結(jié)果集合P;2)N=N-P,返回步驟1,直到N=Φ由于不同的文本信息集合所比較的結(jié)果P是不固定的,可能是P=N,也可能是P=Φ。在此,僅討論最壞的情況下的算法時間復(fù)雜度問題,即N{N1,N2,…,Nn}沒有任何的一條信息是重復(fù)的。則:1)模式串長度(即字符串的切分長度)為L,則si與sj比較的時間復(fù)雜度為0((m+L)k),其中k為sj中參與比較的子串個數(shù);2)n條文本信息相互比較的次數(shù)為n-1,n-2,…,1,比較的總次數(shù)為n(n-1)/2。整個算法的時間復(fù)雜度為O(kn(m+L)(n-1)/2)。其中,關(guān)于字符串模式匹配的算法,可以采用KMP字符串模式匹配算法,該算法的時間復(fù)雜度約為O(m+L),m和L分別是存儲文本和模式串?dāng)?shù)組的最大索引。3模型生成和算法根據(jù)以上理論模型,在生產(chǎn)實(shí)際中,我們要解決以下問題:1)如何切分被比較的字符串,即L的長度怎么確定;2)如何確定假設(shè)1中的k值。經(jīng)過多次測試,發(fā)現(xiàn)當(dāng)L=14、k=10時,既能滿足較高的性能要求,又能保證較高的正確率(可達(dá)到90%以上)。具體做法如下:初始條件:參與比較的文本信息集合為N={N1,N2,…,Nn},比較結(jié)果集合為P。1)把整個電子商務(wù)的Web網(wǎng)頁過濾掉所有HTML標(biāo)記和ASCII碼符號,得到一個比較干凈的不影響內(nèi)容含義的文本信息集;2)當(dāng)Nj與Ni比較時(j≠i且1≤j≤n),Ni作為待比較的字符串,把Nj劃成10個模式串(Nj1,Nj2,Nj3,Nj4,Nj5,Nj6,Nj7,Nj8,Nj9,Nj10),如果文本長度大于14,則截去多余部分,采用KMP算法進(jìn)行比較;3)將與Ni相似的文本信息加入比較結(jié)果集合P;4)N=N-P,返回步驟2,直到N=Φ4編碼與實(shí)現(xiàn)下面給出該算法的基于java語言實(shí)現(xiàn)的代碼:5基于lenshte算法的查重算法該算法是針對某電子商務(wù)網(wǎng)站而研究的。測試表明,信息數(shù)量在100-1000條時,該算法十分有效,1000條的文本信息相互比較可控制在2秒之內(nèi)。信息數(shù)量超過1000條后,計(jì)算時間會大幅度上升,當(dāng)達(dá)到2000條時,計(jì)算時間約為1分鐘;同時信息數(shù)量若小于100條,亦不能體現(xiàn)出該算法的優(yōu)勢。對于精度而言,可以通過調(diào)整sampleLength,samplingCount,minMatches來達(dá)到目的。但該算法對于過短信息(少于1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 自行車服務(wù)在歷史文化街區(qū)的融合考核試卷
- 花卉種植的園林景觀植物養(yǎng)護(hù)考核試卷
- 2025年工業(yè)爐窯的新型燃燒裝置項(xiàng)目建議書
- 橡膠板在電梯門擋板中的安全性能考核試卷
- 品牌營銷實(shí)際流程策劃
- 環(huán)保專業(yè)知識課件
- 中醫(yī)骨傷科學(xué)多媒體課件-中醫(yī)骨傷科學(xué)
- 2025年石英玻璃纖維套管項(xiàng)目建議書
- 福建高二考試試題及答案
- 嘉定國資委考試試題及答案
- 高考英語閱讀理解題干、選項(xiàng)及近五年高頻詞匯
- 廣東省華附、省實(shí)、廣雅、深中2025屆高三四校聯(lián)考語文試題與答案
- 骨科專業(yè)培訓(xùn)計(jì)劃及總結(jié)
- 2025年河北省職業(yè)院校技能大賽工業(yè)互聯(lián)網(wǎng)集成應(yīng)用參考試題庫(含答案)
- 鋼結(jié)構(gòu)鋼筋大棚施工方案
- 《春夏中醫(yī)養(yǎng)生》課件
- 機(jī)械通氣患兒的觀察與護(hù)理
- 2021年婦產(chǎn)科主治醫(yī)師資格考試題庫(含答案)
- 2024年短劇拍攝及制作協(xié)議版
- 《福建省城鎮(zhèn)道路清掃保潔作業(yè)指導(dǎo)價》
- 初級社會工作實(shí)務(wù)考試歷年考試真題(含答案)
評論
0/150
提交評論