![[碩士論文精品]基于p2p的中文搜索引擎的研究與應(yīng)用_第1頁(yè)](http://file.renrendoc.com/FileRoot1/2017-12/8/bb06f7da-be1d-4259-9e58-d0ba5c47a7ac/bb06f7da-be1d-4259-9e58-d0ba5c47a7ac1.gif)
![[碩士論文精品]基于p2p的中文搜索引擎的研究與應(yīng)用_第2頁(yè)](http://file.renrendoc.com/FileRoot1/2017-12/8/bb06f7da-be1d-4259-9e58-d0ba5c47a7ac/bb06f7da-be1d-4259-9e58-d0ba5c47a7ac2.gif)
![[碩士論文精品]基于p2p的中文搜索引擎的研究與應(yīng)用_第3頁(yè)](http://file.renrendoc.com/FileRoot1/2017-12/8/bb06f7da-be1d-4259-9e58-d0ba5c47a7ac/bb06f7da-be1d-4259-9e58-d0ba5c47a7ac3.gif)
![[碩士論文精品]基于p2p的中文搜索引擎的研究與應(yīng)用_第4頁(yè)](http://file.renrendoc.com/FileRoot1/2017-12/8/bb06f7da-be1d-4259-9e58-d0ba5c47a7ac/bb06f7da-be1d-4259-9e58-d0ba5c47a7ac4.gif)
![[碩士論文精品]基于p2p的中文搜索引擎的研究與應(yīng)用_第5頁(yè)](http://file.renrendoc.com/FileRoot1/2017-12/8/bb06f7da-be1d-4259-9e58-d0ba5c47a7ac/bb06f7da-be1d-4259-9e58-d0ba5c47a7ac5.gif)
已閱讀5頁(yè),還剩69頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
[碩士論文精品]基于p2p的中文搜索引擎的研究與應(yīng)用.pdf 免費(fèi)下載
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
南京郵電大學(xué)碩士研究生學(xué)位論文摘要摘要P2P搜索引擎是一種基于P2P網(wǎng)絡(luò)結(jié)構(gòu)的全文檢索引擎,它是網(wǎng)絡(luò)技術(shù)研究中的一個(gè)新興領(lǐng)域,現(xiàn)有的P2P搜索技術(shù)在如何面對(duì)大規(guī)模的網(wǎng)絡(luò)節(jié)點(diǎn)保持系統(tǒng)的穩(wěn)定性、可靠性,減少對(duì)超級(jí)節(jié)點(diǎn)的依賴及對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)共享資源的發(fā)現(xiàn)、索引、復(fù)雜搜索、深度搜索等方面還存在一些不足,本文在如何實(shí)現(xiàn)網(wǎng)絡(luò)穩(wěn)定可靠、對(duì)超級(jí)節(jié)點(diǎn)依賴少及高效的對(duì)資源進(jìn)行發(fā)現(xiàn)索引、支持復(fù)雜搜索、中文處理和深度搜索等方面進(jìn)行了深入的研究。針對(duì)傳統(tǒng)中文分詞算法的缺陷,本文提出了一種基于X一樹結(jié)構(gòu)的中文分詞算法CSECHSPLITOR,CSECHSPLITOR算法首先在X樹結(jié)構(gòu)初始節(jié)點(diǎn)查找酋字哈希值,再根據(jù)首字孩子節(jié)點(diǎn)指針在基于有序表的孩子節(jié)點(diǎn)上查找后繼元素,通過(guò)對(duì)比基于哈希表的新詞詞庫(kù),動(dòng)態(tài)移動(dòng)首字指針,解析出數(shù)據(jù)中有效的分詞單位。在CSECHSPLITOR基礎(chǔ)上本文設(shè)計(jì)并實(shí)現(xiàn)了配套的全文檢索系統(tǒng);針對(duì)傳統(tǒng)P2P搜索技術(shù)所采用的網(wǎng)絡(luò)結(jié)構(gòu)不足,提出了一種改進(jìn)的三層半分布混合式P2P網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)結(jié)構(gòu)將系統(tǒng)網(wǎng)絡(luò)節(jié)點(diǎn)按功能劃分為引導(dǎo)節(jié)點(diǎn)、超級(jí)節(jié)點(diǎn)、普通節(jié)點(diǎn),并擴(kuò)展引導(dǎo)節(jié)點(diǎn)與超級(jí)節(jié)點(diǎn)定義采用純P2P模式連接的子網(wǎng)絡(luò),盡最大可能的避免傳統(tǒng)模式下由于超級(jí)節(jié)點(diǎn)失效而導(dǎo)致局部網(wǎng)絡(luò)失效的問(wèn)題,結(jié)合三層混合式半分布P2P網(wǎng)絡(luò)結(jié)構(gòu)與全文檢索系統(tǒng)的基礎(chǔ)上實(shí)現(xiàn)了一種基于P2P的中文搜索引擎P2PCHINESESEARCHENGINEP2PCSE。通過(guò)構(gòu)建了一個(gè)基于局域網(wǎng)的實(shí)驗(yàn)環(huán)境,對(duì)P2PCSE系統(tǒng)中文分詞算法的效率、準(zhǔn)確度,P2PCSE系統(tǒng)網(wǎng)絡(luò)的可靠性、可擴(kuò)展性及P2PCSE系統(tǒng)資源搜索的覆蓋深度、準(zhǔn)確度、滿意度進(jìn)行了詳細(xì)的測(cè)試。實(shí)驗(yàn)結(jié)果表明P2PCSE系統(tǒng)具有網(wǎng)絡(luò)穩(wěn)定可靠、資源覆蓋廣,支持復(fù)雜搜索的優(yōu)點(diǎn)。關(guān)鍵字對(duì)等網(wǎng)絡(luò),中文分詞,搜索引擎露家郾毫大學(xué)矮套掰究生學(xué)譴論文AB爨弦蘸ABSTRACTFOROVERCOMINGTHEDISADVANTAGESINTHETRADITIONALCHINESEWORDSEGMENTATIONALGORITHM,AXTREEBASEDCHINESEWORDSEGMENTATIONALGORITHMCSECHSPLITORISPROPOSEDINTHISPAPERIFFIRSTLYLOOKUPTHEHASHVALUEOFTHEFIRSTWORDINTHEINITIALNODEOFTHEXTREE,THENSUBSEQUENTELEMENTSINCHILDNODEBASEDONORDEREDLISTACCORDINGTOPOINTEROFTHEFIRSTWORD|SCHILDNODEBYCOMPARINGTHENEWWORDSDICTIONARYBASEDONTHEHASHTABLEANDDYNARNICLYMOVINGTHEPOINTEROFTHEFIRSTWORD,EFFECTIVEWORDSEGMENTATIONCANBEPARSEDACOMPATIBLEFULLTEXTRETRIEVALSYSTEMISALSOIMPLEMENTEDBASEDONCSECHSPLITORTOIMPROVENETWORKSTRUCTUREOFTHETRADITIONALP2PSEARCHINGTECHNOLOGY,THISPAPERALSOPROPOSEDALLIMPROVEDDISTRIBUTIONOFTHETHREESEMIHYBRIDP2PNETWORK0DOTSP2PNETWORK,WHICHDEFINESTHENETWORKNODESASGUIDINGNODES,SUPERNODESANDNORMALNODESACCORDINGTOTHEIRFUNCTIONS。THEGAIDINGNODESANDSUPERNODESAREORGANIZEDASASUBNETWORKWITHPUREP2PMODEL。INTHEFOUNDATIONOFMOTSP2孫聯(lián)N,ORKANDFULLTEXTSEARCHINGSYSTEM,AP2PBASEDP2PCHINESESEARCHINGENGINEP2PCSEISSETUPBYBUILDINGALANBASEDEXPERIMENTALENVIRONMENT,TESTSFOREVALUATINGP2PCSESEFFICIENCY,ACCURACY,RELIABILITY,ACALABILITYANDTHEDEPTHCOVERAGE,SATISFACTION,INITSRESOUROCSEARCHINGARECONDUCTEDTHERESULTSSHOWTHATTHEP2PCSESYSTEMISSTABLEANDRELIABLEINNETWORKING,ANDALSOSUPPORTSCOMPLEXIBLESEARCHING。KEYWORDSP2P,CHINESEWORDSEGMENTATION,SEARCHENGINE南京郵電大學(xué)學(xué)位論文原創(chuàng)性聲明本入聲驥所至交的學(xué)位論文是我介入在導(dǎo)薅指替下進(jìn)行韻研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含萁縫入已經(jīng)發(fā)表或撰篤過(guò)贍研究戒暴,也不毽含麓獲得南京郵穰大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書藤使用過(guò)韻材料。與我一同工作的同志對(duì)本研究所傲的任何貢獻(xiàn)均旺在論文中作了明確的說(shuō)明并表示了謝意。研究生簽名單日期繹南京郵電大學(xué)學(xué)位論文使用授權(quán)聲明南隸齠毫大學(xué)、率國(guó)科學(xué)技術(shù)瘩感研究所、國(guó)家霉書馕有投傈警本人所送交學(xué)位論文的復(fù)印件和電子文檔,可以采用影印、縮印或其它復(fù)制手段保存論文。本文電予文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。除在保密期內(nèi)的保密論文努,兔誨論文被查窩幫借闋,可戮公布頂點(diǎn)集合礦P,10IS伽1;邊的集合E島10SFSN,OJSQ1,F(xiàn)CHILDNEXTCHARPSFINDNEXTCHARKEY,F(xiàn)ISRTPCHILD;IFNEXTCHARPFI1DELPRCVIOUSPARTICUNIT,PARTICARRAY;ADDCURRENTPANICUNIKPANICARRAY;FISRTPGETORIGINALPOSCURRENTPARTICUNIT,SENTENCE;ELSEIFMATCHNEWWORDNEWWORDSHASHTABLE,CURRENTPARTICUNITADDCURRENTPARTICUNIT,PARTICARRAY;FISRTPGETORIGINALPOSCURRENTPARTICUNIT,SENTENCE;ELSERETURNFALSE;FISRTPFH嬲HTABJEFINDFISRTPCHARCODE;南京郵電大學(xué)碩士研究生學(xué)位論文第四章P2PCSE系統(tǒng)全文檢索實(shí)現(xiàn)從X一樹的結(jié)構(gòu)及上述步驟我們可以看出,CSECHSPLITOR查找算法每一次查找過(guò)程可以分為兩步,第一步是在首字哈希表中FHASHTABLE查找首字的過(guò)程,時(shí)間復(fù)雜度為OI,第二步為在首字指針?biāo)负⒆庸?jié)點(diǎn)的有序表中查找后繼字及重復(fù)第二步的過(guò)程。據(jù)詞庫(kù)建立時(shí)候的統(tǒng)計(jì)數(shù)據(jù)顯示,孩子節(jié)點(diǎn)有序表的平均長(zhǎng)度為5。而首字哈希表所有子樹的平均高度為3。假如一個(gè)句子的長(zhǎng)度為N,那么它的中文分詞處理時(shí)間復(fù)雜度最好的情況下為D,平均情況為0CC16,在最壞的情況下,時(shí)間復(fù)雜度也遠(yuǎn)小于ON2。43系統(tǒng)文件處理模塊P2PCSE中文件處理模塊負(fù)責(zé)索引解析共享文件夾下所有文件數(shù)據(jù),同時(shí)監(jiān)控該文件夾處理新增或失效文件數(shù)據(jù),進(jìn)一步與服務(wù)器超級(jí)節(jié)點(diǎn)數(shù)據(jù)同步。文件處理模塊索引流程如下STEPL首先對(duì)共享文件按照表42對(duì)文件各項(xiàng)參數(shù)進(jìn)行提取。STEP2對(duì)需要進(jìn)行中文分詞處理的文件內(nèi)容通過(guò)調(diào)用對(duì)應(yīng)文件數(shù)據(jù)提取方法獲取文件內(nèi)容,進(jìn)一步調(diào)用分詞模塊處理分析。STEP3保存數(shù)據(jù)準(zhǔn)備與超級(jí)節(jié)點(diǎn)進(jìn)行索引數(shù)據(jù)同步。表42文件處理歸類表文件類型文件文件分詞處理分詞處文件數(shù)據(jù)提取方法大小名稱文件名理文件內(nèi)容TXTJ0PARSETXTFILENASEDOC0,PARSEDOCFILENAMEHTM,PARSEHTMLFILENAMEPDF0,XVSDXPDF0XRARJ,XCMD0PARSECMDFILENAMEBAT0PARSEBATFILENAMEPY4PARSEPYFI1ENAMEMP3,PARSEMP3FILENAME南京郵電大學(xué)碩士研究生學(xué)位論文第四章P2PCSE系統(tǒng)全文檢索實(shí)現(xiàn)W8VXRXRMVBXACCXAVL,XMP4,XGIF_XJPG,XPNG0XPSDXSWF,0XFLY,XEXE,XTTFXDLL1TXBASH,PARSEBSHFIIENAMEXMLPARSEXMLFILENAMEASP0,PARSEASPFILENAMEPAP,PARSEPHPFIIENAME無(wú)文件名,X因篇幅所限,本表未列舉出所有擴(kuò)展文件類型P2PCSE文件處理模塊對(duì)處理后的結(jié)果數(shù)據(jù)采用XML文檔格式存儲(chǔ),其數(shù)據(jù)結(jié)構(gòu)如表43所示。表43P2PCSE索引數(shù)據(jù)規(guī)格式索引數(shù)據(jù)眥格式示范FILESIZEFILEFULIPATHCFILEFULLPATH38南京郵電大學(xué)碩士研究生學(xué)位論文第四章P2PCSE系統(tǒng)全文檢索實(shí)現(xiàn)KEYFORFI1ENAMEKEYLKEY2|L0。各字段含義P2PCSEFILFILETYPFILESIZFILEFULLPATKEYFORFI1ENAMKEYSFORCONTENSYNCHRONIZEFLAEEEHETG文件節(jié)點(diǎn)文件類文件大文件全路徑文件名關(guān)鍵字文件內(nèi)容關(guān)鍵是否完成同步標(biāo)型小字志系統(tǒng)文件處理模塊只在普通節(jié)點(diǎn)上激活運(yùn)行,利用P2PCSE普通節(jié)點(diǎn)的資源完成對(duì)共享文件的索引,從而減輕超級(jí)節(jié)點(diǎn)的壓力。文件索引核心處理算法使用偽碼描述如下VOIDPARSESHAREDFILESSHAREDDIRECTORYFORFILEINSHAREDDIRECTORYFILEPROPERTYGETFILEPROPERTYFILE11對(duì)不同類型的文件按照表42規(guī)定的要求對(duì)文件名稱和內(nèi)容進(jìn)行解析和分詞處理。IFFILEPROPERTYNEWFILEXMLNEWFILEXML;11生成新的空X甩文檔NEWFILEXMLWRITEFTFIIEPROPERTYFIIETYPE寫入文件類型NEWFILEXMLWRITEFFPFILEPROPERTYFILEFULLPATH寫入文件全路徑NEWFILEXMLVRRITEFNFIIEPROPERTYFILENAME寫入文件名稱NEWFILEXMLWRITEFSFILEPROPERTYFILESIZE寫入文件大小NEWFILEXMLWRITEKFFNFILEPROPERTYKEYFORFILENAME寫入經(jīng)過(guò)分詞處39南京郵電大學(xué)碩士研究生學(xué)位論文第四章P2PCSE系統(tǒng)全文檢索實(shí)現(xiàn)理的文件名稱關(guān)鍵字NEWFILEXMLWRITEKFFCFIIEPROPERTYKEYSFORCONTENT寫入經(jīng)過(guò)分詞處理的文件內(nèi)容關(guān)鍵字NEWFILEXMLEND0ELSECONTINUE44系統(tǒng)文件索引儲(chǔ)存查詢模塊P2PCSE系統(tǒng)中文件索引儲(chǔ)存查詢模塊是為P2PCSE系統(tǒng)提供共享文件全文檢索數(shù)據(jù)儲(chǔ)存,節(jié)點(diǎn)查詢搜索服務(wù)的核心模塊。在整個(gè)系統(tǒng)中起關(guān)鍵的作用。普通節(jié)點(diǎn)關(guān)鍵字請(qǐng)求將通過(guò)分詞模塊處理分解為一個(gè)或者多個(gè)分詞單位,然后請(qǐng)求超級(jí)節(jié)點(diǎn)對(duì)該自治簇所有共享文件索引進(jìn)行查詢。綜合目前儲(chǔ)存解決方案,P2PCSE系統(tǒng)文件索引儲(chǔ)存模塊可以采用如下方案XML文件儲(chǔ)存方式自定義二進(jìn)制文件儲(chǔ)存方式關(guān)系數(shù)據(jù)庫(kù)儲(chǔ)存方式以MYSQL為代表通過(guò)綜合數(shù)據(jù)測(cè)試分析對(duì)三種方案得出表43所示表43P2PCSE索引存儲(chǔ)解決方案比較存儲(chǔ)類型查詢需要轉(zhuǎn)化線程安全查詢速度數(shù)據(jù)大小限制并發(fā)支持嘰文件否否慢無(wú)限制不支持白定義二進(jìn)制是否慢無(wú)限制不支持關(guān)系數(shù)據(jù)庫(kù)否是快大于100G支持考慮到P2PCSE網(wǎng)絡(luò)模型對(duì)超級(jí)節(jié)點(diǎn)及引導(dǎo)節(jié)點(diǎn)可能的最大并發(fā)請(qǐng)求,根據(jù)表5L,以IOOW節(jié)點(diǎn)規(guī)模P2PCSE網(wǎng)絡(luò),平均每個(gè)超級(jí)節(jié)點(diǎn)維護(hù)2000普通節(jié)點(diǎn)為例。該網(wǎng)絡(luò)將有500個(gè)超級(jí)節(jié)點(diǎn),在最壞的情況下,某超級(jí)節(jié)點(diǎn)將接受22000次并發(fā)搜索請(qǐng)求。這就要求索引存儲(chǔ)查詢方案必須支持大規(guī)模并發(fā),而且查詢速度快的。通過(guò)上面綜合分析,P2PCSE系統(tǒng)采用開源的關(guān)系數(shù)據(jù)庫(kù)MYSQL方式存儲(chǔ)自治簇共享文南京郵電大學(xué)碩士研究生學(xué)位論文第四章P2PCSE系統(tǒng)全文檢索實(shí)現(xiàn)件索引數(shù)據(jù)數(shù)據(jù)。在P2PCSE系統(tǒng)中普通節(jié)點(diǎn)綜合分詞系統(tǒng)及文件屬性處理系統(tǒng)索引本機(jī)共享文件,在初始化和更新的情況下發(fā)送索引數(shù)據(jù)給超級(jí)節(jié)點(diǎn)。超級(jí)節(jié)點(diǎn)只負(fù)責(zé)存儲(chǔ)自治簇普通節(jié)點(diǎn)的經(jīng)過(guò)分詞處理后的關(guān)鍵字索引,超級(jí)節(jié)點(diǎn)本身不執(zhí)行分詞處理過(guò)程。其中負(fù)責(zé)存儲(chǔ)對(duì)應(yīng)自治簇共享文件索引數(shù)據(jù)的核心表AUTONOMY_CLUSTERPARA如表44所示,AUTONOMYCLUSTERKEY如表45所示。表44共享文件參數(shù)儲(chǔ)存表FILEIDPEERIDFILETYPEFILESIZEFILE_FULLPATHFILE_NAMEKEY文件ID所在普文件類型文件大小文件全路徑文件名經(jīng)分詞處表主鍵通節(jié)點(diǎn)理后的關(guān)鍵字列ID表表45共享文件內(nèi)容關(guān)鍵字儲(chǔ)存表KEYIDFILEIDPEERIDKEY_LIST表主鍵文件ID,普通節(jié)點(diǎn)ID,外鍵分詞單位列表用。,”分隔外鍵45本章小結(jié)在第三章P2PCSE系統(tǒng)設(shè)計(jì)方案分析的基礎(chǔ)上對(duì)系統(tǒng)關(guān)鍵全文檢索的實(shí)現(xiàn)做了詳細(xì)分析。綜合分析了全文檢索子系統(tǒng)的模型,提出了一種基于X一樹的中文分詞算法CSECHSPLITOR,對(duì)其模型及算法進(jìn)行了詳細(xì)的定義和實(shí)現(xiàn)。對(duì)全文檢索子系統(tǒng)按照功能劃分為分詞處理模塊、文件處理模塊、索引儲(chǔ)存查詢模塊并分別對(duì)其進(jìn)行詳細(xì)介紹和實(shí)現(xiàn)。毒褒蛞電大學(xué)矮蛩究生學(xué)位論文第五掌P2PCSE系統(tǒng)弼終縫穩(wěn)實(shí)濺第五章P2PCSE系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)第三章對(duì)P2PCSE系統(tǒng)總體設(shè)計(jì)做了詳細(xì)的分析,其中對(duì)P2PCSE系統(tǒng)的關(guān)鍵部分一網(wǎng)絡(luò)結(jié)構(gòu)做了分析,為本章重點(diǎn)分析并實(shí)現(xiàn)系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)做了鋪墊。本章開篇首先介紹P2PCSE系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)模整,將網(wǎng)絡(luò)巾節(jié)點(diǎn)按照功能劃分為弓L導(dǎo)節(jié)點(diǎn)、超級(jí)節(jié)點(diǎn)、普通節(jié)點(diǎn)并分別進(jìn)行定義,對(duì)節(jié)點(diǎn)間網(wǎng)絡(luò)連接模型進(jìn)行分析。在此基礎(chǔ)上對(duì)實(shí)現(xiàn)P2PCSE系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)的關(guān)鍵部分分別進(jìn)行介紹和實(shí)現(xiàn)。51系統(tǒng)網(wǎng)絡(luò)模型P2PCSE系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)基于改進(jìn)的三層混合式半分布兩絡(luò),其模型結(jié)構(gòu)如圖爭(zhēng)重所示,網(wǎng)絡(luò)中節(jié)點(diǎn)根據(jù)節(jié)點(diǎn)硬件及網(wǎng)絡(luò)性能分為普通節(jié)點(diǎn)NNODE,超級(jí)節(jié)點(diǎn)SNODE,同時(shí)另外設(shè)置一個(gè)引導(dǎo)節(jié)點(diǎn)GNODE。其中孳L導(dǎo)節(jié)點(diǎn)及超級(jí)節(jié)點(diǎn)都為一臺(tái)或者多臺(tái)最多LO臺(tái)普通踅或者服務(wù)器構(gòu)成的網(wǎng)絡(luò),其模型結(jié)構(gòu)如圖52所示,子網(wǎng)絡(luò)節(jié)點(diǎn)間采用全分布非結(jié)構(gòu)化連接。實(shí)行贏相索引備份,增強(qiáng)系統(tǒng)健壯性,防止某點(diǎn)出現(xiàn)故障時(shí)候?qū)е抡麄€(gè)或者局部網(wǎng)絡(luò)失效,對(duì)搜索請(qǐng)求進(jìn)行動(dòng)態(tài)分配。引導(dǎo)節(jié)點(diǎn)與超級(jí)節(jié)點(diǎn)間采用中心化拓?fù)浞绞竭B接。引導(dǎo)節(jié)點(diǎn)負(fù)責(zé)新節(jié)點(diǎn)加入時(shí)候動(dòng)態(tài)分配超級(jí)節(jié)點(diǎn),超級(jí)節(jié)點(diǎn)的維護(hù),超級(jí)節(jié)點(diǎn)失效時(shí)重新分配超級(jí)節(jié)點(diǎn)給普通節(jié)點(diǎn)。超級(jí)節(jié)點(diǎn)與附近的一定覯模的普通節(jié)點(diǎn)構(gòu)成一個(gè)自治的節(jié)點(diǎn)簇,簇肉采用傳統(tǒng)的集中目錄式結(jié)構(gòu),其模型緒構(gòu)如圖53所示,超級(jí)節(jié)點(diǎn)負(fù)責(zé)儲(chǔ)存索引該簇內(nèi)所有普通節(jié)點(diǎn)數(shù)據(jù)索引,提供數(shù)據(jù)查詢,信息中轉(zhuǎn)服務(wù),P2PCSE網(wǎng)絡(luò)中超級(jí)節(jié)點(diǎn)聞采用純P2P網(wǎng)絡(luò)結(jié)構(gòu)連接。普逶節(jié)點(diǎn)提供P2PCSE系統(tǒng)隧終共享文件來(lái)源,負(fù)責(zé)對(duì)各囊節(jié)點(diǎn)共享文件數(shù)據(jù)進(jìn)行梭索,并與其所在的自治簇超級(jí)節(jié)點(diǎn)進(jìn)行索引數(shù)據(jù)同步。在P2PCSE系統(tǒng)中,為了避免超級(jí)節(jié)點(diǎn)間搜索請(qǐng)求轉(zhuǎn)發(fā)造成網(wǎng)絡(luò)數(shù)據(jù)堵塞及最壞情況下某超級(jí)節(jié)點(diǎn)超出極限值,規(guī)定P2PCSE系統(tǒng)中每個(gè)超級(jí)節(jié)點(diǎn)最多接受3000個(gè)并發(fā)搜索請(qǐng)求,超出限制返回服務(wù)不可用標(biāo)志,直接拒絕請(qǐng)求。南京自學(xué)砸研究學(xué)位論立第五章P2PCSE幕統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)普通節(jié)點(diǎn)普通節(jié)點(diǎn)普通節(jié)點(diǎn)普通節(jié)點(diǎn)普通節(jié)點(diǎn)普通節(jié)點(diǎn)普通節(jié)點(diǎn)普通節(jié)點(diǎn)普通節(jié)點(diǎn)圖51P2PCSE改進(jìn)的三層混合網(wǎng)絡(luò)結(jié)構(gòu)模型節(jié)點(diǎn)圖52P2P匕SE系統(tǒng)中超級(jí)節(jié)點(diǎn)及引導(dǎo)節(jié)點(diǎn)結(jié)構(gòu)JJ一,、|、參自京郵電學(xué)碩究生學(xué)位論立第五章P2PCSE系統(tǒng)月培結(jié)構(gòu)實(shí)幺啦、籮閏53P2PCS5系統(tǒng)自治簇結(jié)構(gòu)模型P2PCSE兩層混合網(wǎng)絡(luò)模型中,在10萬(wàn)規(guī)模普通節(jié)點(diǎn)的網(wǎng)絡(luò)中,經(jīng)過(guò)統(tǒng)計(jì)節(jié)點(diǎn)共享文件總數(shù)平均在3000個(gè)以內(nèi),每個(gè)文件經(jīng)過(guò)P2PCSE索引模塊處理后的索引數(shù)據(jù)約為05K見下文,每個(gè)節(jié)點(diǎn)的索引數(shù)據(jù)平均在3000051500K15H,假如每個(gè)超級(jí)節(jié)點(diǎn)負(fù)責(zé)維護(hù)1000個(gè)普通節(jié)點(diǎn)的文件索引數(shù)據(jù),每個(gè)超級(jí)節(jié)點(diǎn)負(fù)責(zé)維護(hù)的索引數(shù)據(jù)總量將在15M1000I5G左右。那么我們可以計(jì)算出超級(jí)節(jié)點(diǎn)的個(gè)數(shù)為10000100010個(gè)從下表我們可以看出不同規(guī)模網(wǎng)絡(luò)的所需超級(jí)節(jié)點(diǎn)總數(shù)及索引總數(shù)據(jù)。表51不同規(guī)模廂絡(luò)超級(jí)節(jié)點(diǎn)數(shù)目及索引敷據(jù)分析類型規(guī)模10萬(wàn)I00萬(wàn)1000萬(wàn)5000萬(wàn)方案一每個(gè)超紐節(jié)點(diǎn)維護(hù)500個(gè)普通節(jié)點(diǎn)超級(jí)節(jié)點(diǎn)數(shù)目20020000100,000索引數(shù)據(jù)大小750W75叫750H方案二每個(gè)超級(jí)節(jié)點(diǎn)維護(hù)1000個(gè)普通節(jié)點(diǎn)超紐節(jié)點(diǎn)數(shù)目10,000100000索引敫據(jù)大小L5G15G方案三每個(gè)超紐節(jié)點(diǎn)維護(hù)2000個(gè)醬通節(jié)點(diǎn)超級(jí)節(jié)點(diǎn)數(shù)目500500050000索引數(shù)據(jù)大小3G3G方案四每個(gè)超級(jí)節(jié)點(diǎn)維護(hù)5000個(gè)普通節(jié)點(diǎn)南京郵電大學(xué)碩士研究生學(xué)位論文第五章P2PCSE系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)超級(jí)節(jié)點(diǎn)數(shù)目20200200020,000索引數(shù)據(jù)大小75G75G75G75G方案五每個(gè)超級(jí)節(jié)點(diǎn)維護(hù)10000個(gè)普通節(jié)點(diǎn)超級(jí)節(jié)點(diǎn)數(shù)目10100100010,000索引數(shù)據(jù)大小15G15G15G15G從上表看出每個(gè)節(jié)點(diǎn)維護(hù)大于等于2000個(gè)普通節(jié)點(diǎn)的對(duì)超級(jí)節(jié)點(diǎn)的索引存儲(chǔ)壓力是適中和可取的。在P2PCSE系統(tǒng)中,采用表3I中的方案三。每個(gè)超級(jí)節(jié)點(diǎn)維護(hù)2000個(gè)普通節(jié)點(diǎn)。在P2PCSE系統(tǒng)中三層混合網(wǎng)絡(luò)結(jié)構(gòu)中每個(gè)超級(jí)節(jié)點(diǎn)負(fù)責(zé)維護(hù)2000個(gè)普通節(jié)點(diǎn),每個(gè)超級(jí)節(jié)點(diǎn)最大索引數(shù)據(jù)為3G。52P2PCSE系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)在P2PCSE系統(tǒng)設(shè)計(jì)方案中對(duì)網(wǎng)絡(luò)結(jié)構(gòu)分析的基礎(chǔ)上,本節(jié)對(duì)實(shí)現(xiàn)P2PCSE網(wǎng)絡(luò)結(jié)構(gòu)模型的關(guān)鍵處理方法進(jìn)行了詳細(xì)分析及實(shí)現(xiàn),下面將一一介紹關(guān)鍵處理辦法細(xì)節(jié)。521對(duì)超級(jí)節(jié)點(diǎn)產(chǎn)生的處理超級(jí)節(jié)點(diǎn)是對(duì)應(yīng)自治簇的核心,在P2PCSE中通過(guò)特定條件選擇超級(jí)節(jié)點(diǎn)。普通節(jié)點(diǎn)在加入網(wǎng)絡(luò)前,先計(jì)算自身硬件及網(wǎng)絡(luò)性能是否滿足超級(jí)節(jié)點(diǎn)的性能要求,然后提示用戶該節(jié)點(diǎn)適合成為超級(jí)節(jié)點(diǎn)。再得到用戶許可后,發(fā)送申請(qǐng)成為超級(jí)節(jié)點(diǎn)的請(qǐng)求REQUESTSNODE,DATA參數(shù)包含節(jié)點(diǎn)的網(wǎng)絡(luò)地址,性能評(píng)估,系統(tǒng)引導(dǎo)節(jié)點(diǎn)接受到該信息后,經(jīng)過(guò)綜合評(píng)估,對(duì)符合成為超級(jí)節(jié)點(diǎn)的請(qǐng)求予以成功回復(fù)REPLY,否則拒絕ERROR,該普通節(jié)點(diǎn)接受到反饋信息后,根據(jù)信息類別設(shè)置自身為超級(jí)節(jié)點(diǎn)或者設(shè)置為超級(jí)節(jié)點(diǎn)子節(jié)點(diǎn),或者重新申請(qǐng)加入網(wǎng)絡(luò)。該過(guò)程用程序偽碼描述為VOIDREQUCSTIONSNODEDATA例斷節(jié)點(diǎn)綜合性能是否滿足要求RESULTPEERFITFORSNODEBYPERFORMANCEO;IFRESULTMINSTAND申請(qǐng)成為超級(jí)節(jié)點(diǎn)45南京郵電大學(xué)碩士研究生學(xué)位論文第五章P2PCSE系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)RESPONSESENDDATATONNODE,DATA;IFRESPONSE一REPLY設(shè)置為超級(jí)節(jié)點(diǎn),或者為超級(jí)節(jié)子節(jié)點(diǎn)SETASSNODE0;顯示超級(jí)節(jié)點(diǎn)相關(guān)信息SHOWSNODELNF00;ELSE顯示不符合原因SHOWERRORINFOO;申請(qǐng)加入網(wǎng)絡(luò)JOINPEERID;ELSE申請(qǐng)加入網(wǎng)絡(luò)JOINPEERID;522對(duì)新節(jié)點(diǎn)加入的處理和現(xiàn)有的DHT一樣,P2PCSE網(wǎng)絡(luò)中新節(jié)點(diǎn)的加入至少要知道一個(gè)活動(dòng)節(jié)點(diǎn)的地址IP,端口,而這個(gè)已知節(jié)點(diǎn)在本系統(tǒng)中設(shè)置為系統(tǒng)引導(dǎo)節(jié)點(diǎn)。新節(jié)點(diǎn)加入時(shí),首先向系統(tǒng)引導(dǎo)節(jié)點(diǎn)發(fā)送連接請(qǐng)求JOIN,引導(dǎo)節(jié)點(diǎn)收到請(qǐng)求后根據(jù)已經(jīng)維護(hù)的超級(jí)節(jié)點(diǎn)列表選取合適的超級(jí)節(jié)點(diǎn)返回REPLY,其中DATA包括超級(jí)節(jié)點(diǎn)地址,否則引導(dǎo)節(jié)點(diǎn)NNODE因?yàn)楣?jié)點(diǎn)已經(jīng)登陸或其他不適合登陸原因拒絕新節(jié)點(diǎn)請(qǐng)求,返回給新節(jié)點(diǎn)ERROR,DATA包含具體登陸失敗信息。當(dāng)新節(jié)點(diǎn)成功收到引導(dǎo)節(jié)點(diǎn)的REPLY信息后,根據(jù)DATA參數(shù)中提供的超級(jí)節(jié)點(diǎn)地址信息向該超級(jí)節(jié)點(diǎn)發(fā)送JOIN,DATA參數(shù)包含自身地址參數(shù),超級(jí)節(jié)點(diǎn)接受連接返回REPLY,DATA參數(shù)包含歡迎及該自治簇相關(guān)信息。新節(jié)點(diǎn)成功加入網(wǎng)絡(luò)。否則收到ERROR數(shù)據(jù),申請(qǐng)加入網(wǎng)絡(luò)失敗,其流程如圖54南M電學(xué)硬研究生位論文第五章I2PCSE系統(tǒng)M結(jié)構(gòu)實(shí)現(xiàn)所示再種走敗信息新節(jié)點(diǎn)許通節(jié)點(diǎn)普通節(jié)點(diǎn)普通節(jié)點(diǎn)圖54新節(jié)點(diǎn)加入流程圖523對(duì)普通節(jié)點(diǎn)失效和退出的處理在用戶關(guān)閉P2PCSE程序時(shí)候,程序向該節(jié)點(diǎn)所屬自治簇中超級(jí)節(jié)點(diǎn)發(fā)送PEER0UIT請(qǐng)求對(duì)應(yīng)超級(jí)節(jié)點(diǎn)收到該請(qǐng)求后,將DT參數(shù)所代表的節(jié)點(diǎn)中自身節(jié)點(diǎn)列表中刪除,并返回REPLY數(shù)據(jù),程序收到該信息后,正常退出。由于網(wǎng)絡(luò)中斷等原因在客戶端還未來(lái)得及向?qū)?yīng)超級(jí)節(jié)點(diǎn)發(fā)送退出請(qǐng)求時(shí),該節(jié)點(diǎn)在此情況下屬于失效節(jié)點(diǎn),在P2PCSE系統(tǒng)中,存在一種判斷節(jié)點(diǎn)是否有效機(jī)制,在自治簇中,超級(jí)節(jié)點(diǎn)每30分鐘采用多線程方式向自身所維護(hù)的普通節(jié)點(diǎn)列表發(fā)送PING數(shù)據(jù)目標(biāo)節(jié)點(diǎn)接受到該命令后,如果程序正常運(yùn)行立即返回ALIVE數(shù)據(jù)表明節(jié)點(diǎn)正常運(yùn)行。如果節(jié)點(diǎn)超時(shí)投有返回,超級(jí)節(jié)點(diǎn)判斷該節(jié)點(diǎn)失效同時(shí)將其從自身維護(hù)的節(jié)點(diǎn)列表中刪除。正常退出情況用程序偽碼描述為VOIDPEERQUITPEERID南京郵電大學(xué)碩士研究生學(xué)位論文第五章P2PCSE系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)SENDDATATOSNODC,PEERQUIT;PEEROUITDONE0;失效情況下超級(jí)節(jié)點(diǎn)判斷節(jié)點(diǎn)是否有效其偽碼描述如下VOIDCHKFEERSALIVEPEERLISTFORPEERINPEERLISTNEWTHREADCHKALIVE,PEER;VOIDCHKALIVEPEERTRYRESP0璐ES船DDATATOPEEP酣GDATA;IFRESPONSEDONOTHIN90;ELSEDELETEEXPIREDPEERPEER;EXEEPTIONTNNEOUTEDELETEEXPIRCDPECRPEER;524普通節(jié)點(diǎn)文件索引的實(shí)現(xiàn)當(dāng)節(jié)點(diǎn)成功加入網(wǎng)絡(luò)后,節(jié)點(diǎn)首先遍歷共享文件夾,利用P2PCSE全文檢索模塊索引歸類所有共享文件,進(jìn)而與超級(jí)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)同步。普通節(jié)點(diǎn)與自治簇超級(jí)節(jié)點(diǎn)文件索引信息交換包括兩種類型南京郵電大學(xué)碩士研究生學(xué)位論文第五章P2PCSE系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)文件增加或者更新當(dāng)普通節(jié)點(diǎn)初始化時(shí)候,或者普通節(jié)點(diǎn)共享文件夾中增加了新的文件或者文件內(nèi)容改變,為了讓自治簇超級(jí)節(jié)點(diǎn)保持對(duì)整個(gè)自治簇節(jié)點(diǎn)共享文件索引的完整及致性,該普通節(jié)點(diǎn)需要提交增加新文件或者更新文件的請(qǐng)求,該普通節(jié)點(diǎn)向?qū)?yīng)超級(jí)節(jié)點(diǎn)發(fā)送UPDATEFILE,DATA參數(shù)包括該普通節(jié)點(diǎn)網(wǎng)絡(luò)ID,更新或者增加動(dòng)作及更新或者增加的文件經(jīng)過(guò)PZPCSE索引模塊處理后的結(jié)果。超級(jí)節(jié)點(diǎn)接受該參數(shù)后根據(jù)網(wǎng)絡(luò)ID,更新或者增加動(dòng)作,進(jìn)行相應(yīng)更新數(shù)據(jù)或者增加數(shù)據(jù)操作,完成后返回REPLY成功信息,該普通節(jié)點(diǎn)標(biāo)志該記錄成功。否則由于超時(shí)或者網(wǎng)絡(luò)中斷原因該普通節(jié)點(diǎn)記錄該信息為未完成狀態(tài),等待10分鐘后重新重復(fù)以上過(guò)程。該過(guò)程程序偽碼描述如下VOIDUPDATEFILEDATARESPONSCSENDDATATOSNODE,DATA;IFRESPONSEMARKSUECCSS4LOCALFILEUPDATEDATA;ELSEMARKFAILFLA94LOEALFILCUPDATEATA;TTMEDELAYO;UPDATEFILCDATA;文件刪除或者失效當(dāng)用戶刪除或者移動(dòng)共享文件夾中某文件時(shí)候,自治簇超級(jí)節(jié)點(diǎn)需要維護(hù)該簇網(wǎng)絡(luò)共享文件索引的一致。該普通節(jié)點(diǎn)需要通告對(duì)應(yīng)超級(jí)節(jié)點(diǎn)某文件已失效,發(fā)送DELETEFILE,D觚A,DATA參數(shù)包括普通節(jié)點(diǎn)網(wǎng)絡(luò),失效文件標(biāo)志信息。對(duì)應(yīng)超級(jí)節(jié)點(diǎn)接受該參數(shù)后,找到對(duì)應(yīng)記錄后刪除,返回REPLY成功信息,該普通節(jié)點(diǎn)刪除對(duì)應(yīng)記錄,過(guò)程完成,否則記錄該操作未完成,等待一10分鐘后重復(fù)以上過(guò)程。49南京郵電大學(xué)碩士研究生學(xué)位論文第五章P2PCSE系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)該過(guò)程程序偽碼描述如下VOIDDELETEFILEDATARCSPONSESENDDATATOSNODE,DATA;IFRESPONSEMARKSUCCESS4LOCAIFILEDELETCDATA;ELSEMARKFAILFLA94LOCALFILEDELETEDATA;TTMEDELAY0;DELETCFILEDATA;525對(duì)文件搜索請(qǐng)求的處理當(dāng)某普通節(jié)點(diǎn)發(fā)出請(qǐng)求時(shí),請(qǐng)求將先發(fā)送到自治簇的超級(jí)節(jié)點(diǎn)QUERYDATA包含請(qǐng)求節(jié)點(diǎn)網(wǎng)絡(luò)ID,搜索關(guān)鍵字,最少文件數(shù)目限定,搜索超時(shí)限定值。超級(jí)節(jié)點(diǎn)搜索符合該關(guān)鍵字語(yǔ)義的文件記錄,如果結(jié)果未滿足請(qǐng)求節(jié)點(diǎn)設(shè)置的最少文件總數(shù),即搜索不充分的情況下,該超級(jí)節(jié)點(diǎn)根據(jù)請(qǐng)求節(jié)點(diǎn)設(shè)置的最大轉(zhuǎn)發(fā)限定值隨機(jī)轉(zhuǎn)發(fā)搜索請(qǐng)求給P2PCSE網(wǎng)絡(luò)中其他超級(jí)節(jié)點(diǎn),其他超級(jí)節(jié)點(diǎn)搜索到符合請(qǐng)求的記錄后根據(jù)DATA提供的請(qǐng)求節(jié)點(diǎn)網(wǎng)絡(luò)D,將結(jié)果發(fā)送給請(qǐng)求節(jié)點(diǎn)QUERYRESPONSE,DATA參數(shù)包含目標(biāo)文件信息,所處目標(biāo)節(jié)點(diǎn)網(wǎng)絡(luò)信息。請(qǐng)求節(jié)點(diǎn)接受搜索結(jié)果信息后將數(shù)據(jù)顯示,以供搜索者抉擇。該過(guò)程程序偽碼描述如下對(duì)超級(jí)節(jié)點(diǎn)端VOIDSEARCHDATA超級(jí)節(jié)點(diǎn)搜索數(shù)據(jù)庫(kù)所儲(chǔ)存的文件索引記錄RESPONSEP2PCSESEARCHERDATAKEYINFO;IFCHKRESULTFITREQUESTRESPONSE,DATAMINRECSET50南京郵電犬學(xué)碩士研究生學(xué)彼論文第五章P2PCS囂系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)SENDDATATODARAPEERID,RESPCINSE;ELSE緩篁搜索不充分的情況下轉(zhuǎn)發(fā)搜索請(qǐng)求RANDSENDDATATOSNODELIST,DATA;,對(duì)請(qǐng)求節(jié)點(diǎn)端VOIDQUERYDATASENDDATATOSNODE,DATA;RESULTQUERYRECCIVERDATASTLMEOUT;TFRESULTSHOWQUERYRESULTRESULT;ELSESHOWERRORLNFOO;5。3本章小結(jié)本章開篇系統(tǒng)的介紹了P2PCSE系統(tǒng)使用的蘭層混合式網(wǎng)絡(luò)結(jié)構(gòu)模型,并將節(jié)點(diǎn)按類別劃為普通節(jié)點(diǎn)、超級(jí)節(jié)點(diǎn)及引導(dǎo)節(jié)點(diǎn),對(duì)P2PCSE系統(tǒng)網(wǎng)絡(luò)紿構(gòu)各節(jié)點(diǎn)功能進(jìn)行了詳細(xì)定義。接羞對(duì)實(shí)現(xiàn)P2PCSE系統(tǒng)霹絡(luò)的各種主要功能進(jìn)行分析和設(shè)計(jì),并給粥了偽碼實(shí)現(xiàn)。本章和第四章是P2PCSE系統(tǒng)的關(guān)鍵部分,為第六章P2PCSE原型系統(tǒng)的實(shí)現(xiàn)打下了基礎(chǔ)。南京郵電大學(xué)碩士研究生學(xué)位論文第六章P2PCSE原型系統(tǒng)的實(shí)現(xiàn)與性能測(cè)試第六章P2PCSE原型系統(tǒng)的實(shí)現(xiàn)與性能測(cè)試在第三章對(duì)P2PCSE系統(tǒng)總體設(shè)計(jì)、第四章對(duì)全文檢索子系統(tǒng),第五章對(duì)網(wǎng)絡(luò)結(jié)構(gòu)等關(guān)鍵技術(shù)實(shí)現(xiàn)的基礎(chǔ)上,采用PYTHON語(yǔ)言實(shí)現(xiàn)了P2PCSE方案的原型系統(tǒng),本章主要對(duì)P2PCSE系統(tǒng)文件搜索的流程、用戶界面進(jìn)行詳細(xì)描述,詳細(xì)測(cè)試了P2PCSE系統(tǒng)中文分詞處理模塊并與常見中文分詞系統(tǒng)進(jìn)行對(duì)比,最后對(duì)P2PCSE系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)各方面性能進(jìn)行測(cè)試,得出P2PCSE系統(tǒng)性能總結(jié)。系統(tǒng)具體開發(fā)環(huán)境開發(fā)環(huán)境WINDOWSXPSP3CPUINTELPENTIUMDUALT2310146GHZ,2GDDR開發(fā)相關(guān)PYTHON25,WXPYTHON28界面語(yǔ)言LYSQL數(shù)據(jù)庫(kù)開發(fā)工具ECLIPSE系統(tǒng)運(yùn)行平臺(tái)WINDOWS,UNIX,LINUX,MAC等操作系統(tǒng)。61P2PCSE系統(tǒng)文件搜索流程在P2PCSE系統(tǒng)中普通節(jié)點(diǎn)初次運(yùn)行首先設(shè)置共享目錄,然后利用P2PCSE文件索引模塊全面索引本地共享文件,將其索引數(shù)據(jù)與該節(jié)點(diǎn)所在自治簇超級(jí)節(jié)點(diǎn)同步。普通節(jié)點(diǎn)執(zhí)行搜索請(qǐng)求,搜索請(qǐng)求將發(fā)送到該自治簇中的超級(jí)節(jié)點(diǎn),超級(jí)節(jié)點(diǎn)查詢數(shù)據(jù)庫(kù)中儲(chǔ)存索引數(shù)據(jù)表,返回請(qǐng)求結(jié)果,在結(jié)果總數(shù)不符合請(qǐng)求者要求的情況下,超級(jí)節(jié)點(diǎn)將請(qǐng)求隨機(jī)轉(zhuǎn)發(fā)個(gè)制定數(shù)目的其他超級(jí)節(jié)點(diǎn)。超級(jí)節(jié)點(diǎn)再搜索到數(shù)據(jù)后,根據(jù)請(qǐng)求信息將搜索結(jié)果返回給請(qǐng)求節(jié)點(diǎn),整個(gè)搜索過(guò)程完成。其具體流程如圖6L所示。自自電學(xué)碩士研兜生位論空第章P2PCSE原型I統(tǒng)的女現(xiàn)QN蛇I62系統(tǒng)用戶界面實(shí)現(xiàn)圖6LP2PCSE系統(tǒng)文件搜索流程圖STEP2普通肯點(diǎn)發(fā)送搜索請(qǐng)求,利用分詞模塊解析成有意義分詞單元,打包請(qǐng)求數(shù)據(jù)及相關(guān)參數(shù)發(fā)送給自精簇超級(jí)節(jié)點(diǎn)。TCPL程序初次運(yùn)行首先設(shè)置燕享目錄然后索引所有共享文件井與詼自治簇超緞節(jié)點(diǎn)進(jìn)行數(shù)據(jù)同步友好的用戶界面給用戶帶來(lái)良好的體驗(yàn),P2PCSE界面設(shè)計(jì)具體包括菜單部分,L3CO部分,搜索輸入框,功能按鈕部分及列表顯示部分。從而用使用者可以通過(guò)P2PCSE程序,方便的進(jìn)行系統(tǒng)設(shè)置、搜索數(shù)據(jù)、發(fā)送信息、預(yù)覽搜索結(jié)果、下載文件等。其中設(shè)置菜單可以讓用戶設(shè)置搜索結(jié)果總數(shù)范圍、共享日錄、及一些其他參數(shù)。P2PCSE設(shè)置共享文件目錄如圖62所示,節(jié)點(diǎn)加入網(wǎng)絡(luò)后界面如圖63所示,節(jié)點(diǎn)發(fā)送信息界面如圖64所示,節(jié)點(diǎn)接受到信息后如圖65所示,節(jié)點(diǎn)搜索文件后結(jié)果列表如圖66所示。南京郵電上學(xué)碩T研究生學(xué)位論文第六章P2PCSE原型系統(tǒng)的實(shí)現(xiàn)與性能鍘H圖62P2FCSE用戶設(shè)置共享文件目錄當(dāng)用戶運(yùn)行P2PCSE系統(tǒng)時(shí),如果是初次運(yùn)行,程序要求設(shè)置共享目錄。用戶也可以在程序運(yùn)行過(guò)程中點(diǎn)擊設(shè)置更改共享目錄地址。如圖62所示節(jié)點(diǎn)在成功加入網(wǎng)絡(luò)后得到本簇節(jié)點(diǎn)列表,共享目錄文件總數(shù)1066個(gè),因?yàn)橛脩魶]有開始搜索,搜索結(jié)果為0。南京電大學(xué)碩士研究生學(xué)位論文第六章P2PCSE原I統(tǒng)的宴理與性能刮T姘般關(guān)于|髦臻疊。T,I一尸暑尸亡墨E。曩P2P中文搜索引擎FQNIL開燃I。JJ、J匹圈匝蟹臣至亟同壓至至I0J警主機(jī)名彌節(jié)點(diǎn)地址文件名稱立獻(xiàn)D、B11258214484148814T8214B陀1惦。JT。零曩呵一二;R841498143盯12T8T12887129HNE108414682141日2143ET1E7124小履最10E21啦8T1256EEI1,圈63P2PCSE系統(tǒng)節(jié)點(diǎn)加網(wǎng)絡(luò)后節(jié)點(diǎn)列表如圖63所示,節(jié)點(diǎn)在成功加入網(wǎng)絡(luò)后獲得該自治簇所有節(jié)點(diǎn)信息。節(jié)點(diǎn)信息包括兩個(gè)部分主機(jī)名稱,節(jié)點(diǎn)IP地址。同時(shí)狀態(tài)欄顯示節(jié)點(diǎn)總數(shù)為18個(gè)。南京郵電大學(xué)磺研究生學(xué)位論I第六章P2PCSEK型系統(tǒng)的實(shí)現(xiàn)與性測(cè)T圖64P2PCSE系統(tǒng)節(jié)點(diǎn)發(fā)送信息界面P2PCSE系統(tǒng)允許節(jié)點(diǎn)間發(fā)送簡(jiǎn)單文字信息,如圖64所示節(jié)點(diǎn)SOPHIA選定主機(jī)名稱為IXAFEI的節(jié)點(diǎn),點(diǎn)擊發(fā)送信息,出現(xiàn)信息發(fā)送具體界面。點(diǎn)擊0K按鈕可以將信息發(fā)送出去點(diǎn)擊CANCLE按鈕將取消信息發(fā)送。南京電上學(xué)碩士研究生學(xué)位論立艷六章P2P圓E原型系統(tǒng)的實(shí)現(xiàn)與性眩捌Z置好。尸暑尸亡旨皇黲簿鎣P2P中文搜索引擎QOEH_|開抬插|。_。;。FII,圓匿睡飄曩囊曩I鹱按“州。87緊CHTA“EJIE5口刪_川LE4眺铘箱醪,J蓑纂攀薯。口葷I囊辮羹,PENCL010B4145。PH、LOLO82,14L7二盎謄、;冀;I留越贏。IU10LOE2143JJI101087123巢果101087124小屁援LDL082142月10108T12S節(jié)點(diǎn)敦坶奉地文陣1068,拽索結(jié)果O_J十一再刊蠲。9Q2Z。圖P5P2瞄E系統(tǒng)節(jié)點(diǎn)接受到信息后界面節(jié)點(diǎn)接受到其他節(jié)點(diǎn)的文字信息如圖65所示,信息將由彈出提示框顯示提示框標(biāo)題為發(fā)送信息來(lái)源節(jié)點(diǎn)的主機(jī)名稱和主機(jī)IP地址,點(diǎn)擊確定按鈕可以關(guān)閉信息。南京郵電大學(xué)頤士研究生學(xué)位論文第六章P2P岱E廈型系統(tǒng)的實(shí)現(xiàn)與性試FIELRSE薹I霉攀辮腳中文搜索引擎N誓謄鼗I;溪QUNIX燃R開始搜索I萋鬻霧I|燧圳I,黜III節(jié)贏。IF鬻譽(yù)鬣麟|犍送信息】I下娃件節(jié)點(diǎn)射表L跫伴獅舅J荔童薷Q“,|鴦5,UMX,001,婦LX噤10幔量5,1VNLXL18K5,IX001HLX115,駔IX,缸IXIMX瀚FJ0握5,ULX00I“XI2,皿IX,恤I棚L(fēng)腳蠊篡夏黧冀1旺5,00I,LXOB31MLX,L,ULXM12IK5,ULXDOLHLXI2“5MXIHLX女L2口5,1X,1X1HLX撤1L社,眥I,LHLX臻L(zhǎng)52,血1X,弧1刪1NHLX撤155K,1X001WLXL2“,1,HLXLBGK,一I,。0I,HLXIZ,鋤IX001,HLX撤L26K一X,1V丑LX擻23旺5,1“1,1FLX135,恤LX讓IXOEL仳LX辣1725,吐LX,1HLX撩096KJ,UNIX031,HLXJ1IX;I囂;盤孑器;鑒芝囂I囂8214BI皿LXI,VNLX女10LE塑I可點(diǎn)敲L吼萃地苴件106,攫露拮果T9L,以1卻呻2啦LO,培麓I63P2PCSE全文檢索子系統(tǒng)性能測(cè)試631中文分詞處理模塊性能測(cè)試在實(shí)驗(yàn)中我們選了多篇平均長(zhǎng)度為5004字包括空格的中文新聞內(nèi)容。然后用四種流行分詞處理辦法及CSECHSPLITOR對(duì)它進(jìn)行處理,來(lái)檢驗(yàn)基于X一樹的分詞處理性能,實(shí)驗(yàn)旦墮墅皇查蘭塑主堡墨蘭蘭堡堡苧墨查蘭堡豎璺型壘望墮壅翌皇絲墮翌蔓結(jié)果如圖67所示,其中”J”僅為了讀者容易分辨分詞單位所特加,經(jīng)過(guò)整理得出統(tǒng)計(jì)數(shù)據(jù)如表61所示圖67CSECKSPLITOR算法分詞處理結(jié)果圖表61刪SPLITOR分訶法與常見中文分詞法性能比較算法名稱算法描述平均耗時(shí)平均準(zhǔn)確度簡(jiǎn)單分詞法將文章按標(biāo)點(diǎn)符號(hào)隔開威句子460MS無(wú)標(biāo)準(zhǔn)分詞法將文章的中文字分成一個(gè)一個(gè)的單字50岫SU。分別用表6_2中新詞關(guān)鍵字,普通關(guān)鍵字備LO個(gè)進(jìn)行測(cè)試,并設(shè)置文件U等于I,統(tǒng)計(jì)平均結(jié)栗如表63所示表62測(cè)試用關(guān)鍵字表頦詞關(guān)鍵字。稀飯果醬走召弓最咔嚓醬紫8錯(cuò)飯飯片片斑竹水撩潛水員恐龍青蛙小強(qiáng)抓狂包予小蝦老鳥大蝦愛老虎油普通關(guān)鍵字時(shí)候敏銳發(fā)現(xiàn)房地產(chǎn)業(yè)存在泡沫經(jīng)濟(jì)滑藩費(fèi)盡周折說(shuō)服投資者穗倍美國(guó)房地聲市場(chǎng)危機(jī)保護(hù)獲利一本萬(wàn)利疑慮表63P2PCSE原型系統(tǒng)與相關(guān)系統(tǒng)綜合性能對(duì)比上述結(jié)果表明P2PCSE系統(tǒng)的搜索準(zhǔn)確度及滿意度是很高的,充分證明了P2PCSE系統(tǒng)鴦定義的全文檢索子系統(tǒng)模型及CSECHSPLITOR算法的正確、可行性。之所以準(zhǔn)確度和滿意度未能達(dá)到100,關(guān)鍵原因在于普通詞庫(kù)和新詞詞庫(kù)的收錄數(shù)量。理想狀態(tài)下普通詞庫(kù)及新詞詞庫(kù)收錄10096的數(shù)據(jù),理論上是可以準(zhǔn)確度和滿意度達(dá)到完美的結(jié)果。64P2PCSE網(wǎng)絡(luò)結(jié)構(gòu)性能及壓力測(cè)試測(cè)試環(huán)境教研室K機(jī)若干臺(tái),CPU因特爾奔騰酷睿雙核T2310146GHZ硬盤釉1206IDE內(nèi)存DDR22G系統(tǒng)WINDOWSXPSP3或UBUNTU8。掬網(wǎng)絡(luò)蜀域網(wǎng)1000MHUB。60南京郵電大學(xué)碩士研究生學(xué)位論文第六章P2PCSE原型系統(tǒng)的實(shí)現(xiàn)與性能測(cè)試采用四臺(tái)安裝有UBUNTU操作系統(tǒng)的普通PC中的兩臺(tái)組建P2PCSE系統(tǒng)引導(dǎo)節(jié)點(diǎn),另外兩臺(tái)組建一個(gè)超級(jí)節(jié)點(diǎn),在另外三臺(tái)安裝有UBUNTU操作系統(tǒng)的普通PC作為測(cè)試節(jié)點(diǎn)構(gòu)建P2PCSE網(wǎng)絡(luò),令節(jié)點(diǎn)性能壓力P內(nèi)存占用量CPU占用量2100,測(cè)試機(jī)器在無(wú)負(fù)載的情況下P平均為20。根據(jù)不同條件請(qǐng)求下得出不同P的取值,繪制出性能測(cè)試圖。641系統(tǒng)在新節(jié)點(diǎn)加入時(shí)性能分析利用PYTHON程序模擬新節(jié)點(diǎn)的加入不同并發(fā)數(shù)目時(shí)請(qǐng)求對(duì)系統(tǒng)引導(dǎo)節(jié)點(diǎn)的壓力進(jìn)行分析。PYTHON模擬程序分別模擬了O到30,000個(gè)節(jié)點(diǎn)同時(shí)并發(fā)發(fā)送加入網(wǎng)絡(luò)的請(qǐng)求給引導(dǎo)節(jié)點(diǎn)及超級(jí)節(jié)點(diǎn),同時(shí)隨機(jī)讓組成超級(jí)節(jié)點(diǎn)和引導(dǎo)節(jié)點(diǎn)的一臺(tái)PC斷開網(wǎng)絡(luò)。得出統(tǒng)計(jì)數(shù)據(jù)如圖68所示圖68新節(jié)點(diǎn)加入時(shí)節(jié)點(diǎn)綜合壓力測(cè)試其中Y軸代表節(jié)點(diǎn)的節(jié)點(diǎn)性能壓力參見64節(jié),X軸代表并發(fā)請(qǐng)求規(guī)模,單位為500。由圖68知新節(jié)點(diǎn)加入先對(duì)引導(dǎo)節(jié)點(diǎn)發(fā)起請(qǐng)求,引導(dǎo)節(jié)點(diǎn)全局配置超級(jí)節(jié)點(diǎn)信息,根據(jù)引導(dǎo)節(jié)點(diǎn)返回信息,新節(jié)點(diǎn)向超級(jí)節(jié)點(diǎn)發(fā)送加入請(qǐng)求并握手,該超級(jí)節(jié)點(diǎn)首先執(zhí)行判斷該節(jié)點(diǎn)是否屬于新節(jié)點(diǎn)還是以前連接成功后來(lái)因?yàn)榫W(wǎng)絡(luò)中斷、主動(dòng)下線等原因造成的重新連接。在該超級(jí)節(jié)點(diǎn)剩余維護(hù)能力范圍內(nèi),向請(qǐng)求節(jié)點(diǎn)發(fā)送準(zhǔn)許連接標(biāo)志等系列動(dòng)作。在P2PCSE系統(tǒng)中一個(gè)超級(jí)節(jié)點(diǎn)只負(fù)責(zé)維護(hù)2000個(gè)普通節(jié)點(diǎn),所以當(dāng)節(jié)點(diǎn)超過(guò)2000后,系統(tǒng)引導(dǎo)節(jié)點(diǎn)不再增加新節(jié)點(diǎn)給該超級(jí)節(jié)點(diǎn),超級(jí)節(jié)點(diǎn)性能保持為常數(shù)。在相同規(guī)模的新節(jié)點(diǎn)請(qǐng)求加入的過(guò)程中,超級(jí)節(jié)點(diǎn)比系統(tǒng)引導(dǎo)節(jié)點(diǎn)多執(zhí)行一些相關(guān)操作,故在0到2000的節(jié)點(diǎn)規(guī)模,超級(jí)節(jié)點(diǎn)壓力明顯大于系統(tǒng)引導(dǎo)節(jié)點(diǎn),系統(tǒng)測(cè)試結(jié)果與理論分析保持一致。通過(guò)上面的分析可以看出P2PCSE模型使用的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)超級(jí)節(jié)點(diǎn)及引導(dǎo)節(jié)點(diǎn)性能有61南京郵電犬學(xué)殛圭研究生學(xué)鐓論文第六露I2PCSE蒙型系統(tǒng)豹實(shí)現(xiàn)與性能測(cè)試好的平衡保護(hù)作用,即使并發(fā)達(dá)規(guī)模很大,也不會(huì)造成引導(dǎo)節(jié)點(diǎn)和超級(jí)節(jié)點(diǎn)的崩潰,在組成超級(jí)節(jié)點(diǎn)和引導(dǎo)節(jié)點(diǎn)的一臺(tái)PC斷開網(wǎng)絡(luò)的情況下,系統(tǒng)依然保持穩(wěn)定,相比傳統(tǒng)半分布式網(wǎng)絡(luò),P2PCSE系統(tǒng)更易擴(kuò)展、更穩(wěn)定同時(shí)超級(jí)節(jié)點(diǎn)及引導(dǎo)節(jié)點(diǎn)更加可靠。642系統(tǒng)在節(jié)點(diǎn)失效和退出時(shí)性能分析利用PYTHON程序模擬2000個(gè)普通節(jié)點(diǎn)首先加入翳絡(luò)與超級(jí)節(jié)點(diǎn)構(gòu)建成為一個(gè)自治簇。然后PYTHON程序模擬節(jié)點(diǎn)同時(shí)失效數(shù)目從0到2000,設(shè)置超級(jí)節(jié)點(diǎn)失效判斷機(jī)制時(shí)間間隔與該P(yáng)YTHON模擬程序同步。經(jīng)過(guò)綜合數(shù)據(jù)得出結(jié)果如圖伊9所示勞發(fā)規(guī)援圖6_9失效或退出時(shí)候節(jié)點(diǎn)壓力綜合測(cè)試其中Y軸代表節(jié)點(diǎn)的節(jié)點(diǎn)性能綜合壓力,X軸代表并發(fā)請(qǐng)求規(guī)模,單位為20。從圖6曲可以看嬲,相同數(shù)露的普通節(jié)點(diǎn)在失效麓情況下超級(jí)節(jié)點(diǎn)所占的性能明顯高手普通節(jié)點(diǎn)退出的情況,是因?yàn)槠胀ü?jié)點(diǎn)失效將由超級(jí)節(jié)點(diǎn)主動(dòng)發(fā)送基于UDP通訊的PING請(qǐng)求然艨等待返回結(jié)果或者超時(shí)結(jié)果,而普通節(jié)點(diǎn)退出則是超級(jí)節(jié)點(diǎn)被動(dòng)接受普通節(jié)點(diǎn)的退出請(qǐng)求,超級(jí)節(jié)點(diǎn)所執(zhí)行的主動(dòng)請(qǐng)求動(dòng)作對(duì)機(jī)器性麓消耗比被動(dòng)接受明顯要多很多。通過(guò)上面綜合分析及圖69可以看出,P2PCSE系統(tǒng)在節(jié)點(diǎn)失效和退出最壞的情況下,節(jié)點(diǎn)依然在一個(gè)安全范圍,可見P2PCSE系統(tǒng)具備良好的可靠性。643系統(tǒng)在普通節(jié)點(diǎn)同步文件索引時(shí)性能分析利用PYTHON程序模擬從O到2000個(gè)普通節(jié)點(diǎn)并發(fā)情況同時(shí)發(fā)送P2PCSE系統(tǒng)所規(guī)定的文件索弓LXML文件,單個(gè)索弓L飆文件大小為L(zhǎng)K情況下對(duì)自治簇超級(jí)節(jié)點(diǎn)及P2PCSE系統(tǒng)南京郵電大學(xué)碩士研究生學(xué)位論文第六章P2PCSE原型系統(tǒng)的實(shí)現(xiàn)與性能測(cè)試引導(dǎo)節(jié)點(diǎn)的性能壓力,得出統(tǒng)計(jì)數(shù)據(jù)如圖610所示拜毒疊|;善爹一J襄莖窿銎妻至薹妻到IIO葉一一一一I卜一J一卜一一一一1J4050OS1015笛衢嫣644系統(tǒng)在文件搜索請(qǐng)求時(shí)性能分析我們使用PC機(jī)中的一臺(tái),安裝UBUNTU操作系統(tǒng)作為超級(jí)節(jié)點(diǎn),使用PYTHON程序?qū)崿F(xiàn)一個(gè)模擬測(cè)試節(jié)點(diǎn)發(fā)送搜索請(qǐng)求,退出請(qǐng)求。因?yàn)槌?jí)節(jié)點(diǎn)間轉(zhuǎn)發(fā)請(qǐng)求和普通節(jié)點(diǎn)對(duì)超級(jí)節(jié)點(diǎn)的請(qǐng)求實(shí)際是一樣的,所以這個(gè)模擬節(jié)點(diǎn)可以模擬了10W節(jié)點(diǎn)規(guī)模的網(wǎng)絡(luò)到IOOW節(jié)點(diǎn)規(guī)模的網(wǎng)絡(luò)對(duì)每個(gè)超級(jí)節(jié)點(diǎn)的搜索性能。P2PCSE系統(tǒng)設(shè)計(jì)方案在10W節(jié)點(diǎn)規(guī)模的網(wǎng)絡(luò),平均每個(gè)超級(jí)節(jié)點(diǎn)維護(hù)2000個(gè)普通節(jié)點(diǎn),網(wǎng)絡(luò)中共有超級(jí)節(jié)點(diǎn)總數(shù)為50。在LOOW節(jié)點(diǎn)規(guī)模的網(wǎng)絡(luò)中,超級(jí)節(jié)點(diǎn)個(gè)數(shù)為500個(gè)。設(shè)10萬(wàn)到100萬(wàn)規(guī)模的P2PCSE網(wǎng)絡(luò)中超級(jí)節(jié)點(diǎn)數(shù)目為D。P2PCSE系統(tǒng)限制轉(zhuǎn)發(fā)過(guò)程中隨機(jī)轉(zhuǎn)發(fā)數(shù)目,同時(shí)限定每個(gè)超級(jí)節(jié)點(diǎn)同時(shí)最多接受3000并發(fā)請(qǐng)求,超出限制返回服務(wù)不可用標(biāo)志,直接拒絕請(qǐng)求。每個(gè)自治簇同時(shí)刻平均并發(fā)請(qǐng)求次數(shù)為C,C的范圍為0,2000,退出請(qǐng)求總數(shù)為Q,Q的范圍為0,2000即網(wǎng)絡(luò)中同時(shí)并發(fā)總數(shù)最大值為2000DC次。設(shè)搜索請(qǐng)求命令總數(shù)為Y,某超級(jí)節(jié)點(diǎn)接受到其他63。南京郵電大學(xué)碩士研究生學(xué)位論文第六章P2PCSE原型系統(tǒng)的實(shí)現(xiàn)與性能測(cè)試D個(gè)超級(jí)節(jié)點(diǎn)的轉(zhuǎn)發(fā)命令請(qǐng)求,Y與節(jié)點(diǎn)規(guī)模的關(guān)系為YDC2000。經(jīng)試驗(yàn)測(cè)試統(tǒng)計(jì)節(jié)點(diǎn)性能綜合壓力與并發(fā)規(guī)模如圖611所示圖6一11并發(fā)搜索時(shí)節(jié)點(diǎn)壓力綜合測(cè)試其中Y軸代表節(jié)點(diǎn)的性能綜合壓力,X軸代表并發(fā)請(qǐng)求規(guī)模,單位為50。從圖61L可以看出P2PCSE系統(tǒng)的搜索開銷與節(jié)點(diǎn)并發(fā)規(guī)模3000內(nèi)是以相同趨勢(shì)增長(zhǎng),隨著并發(fā)搜索請(qǐng)求包括其他超級(jí)節(jié)點(diǎn)轉(zhuǎn)發(fā)搜索請(qǐng)求的增加,超級(jí)節(jié)點(diǎn)所受壓力增大。當(dāng)來(lái)自普通節(jié)點(diǎn)及其他超級(jí)節(jié)點(diǎn)轉(zhuǎn)發(fā)的并發(fā)請(qǐng)求達(dá)到最大值的時(shí)候,超級(jí)節(jié)點(diǎn)壓力達(dá)到最大值。因?yàn)橄到y(tǒng)限定超級(jí)節(jié)點(diǎn)最大接受其并發(fā)搜索請(qǐng)求的最大值,隨著并發(fā)請(qǐng)求的繼續(xù)擴(kuò)大,節(jié)點(diǎn)壓力基本同系統(tǒng)設(shè)定的最大值時(shí)節(jié)點(diǎn)壓力相等,從圖上可以看出P2PCSE系統(tǒng)中超級(jí)節(jié)點(diǎn)的壓力不隨網(wǎng)絡(luò)規(guī)模的擴(kuò)大而擴(kuò)大,達(dá)到或超過(guò)系統(tǒng)設(shè)定安全并發(fā)值時(shí),節(jié)點(diǎn)壓力始終保持穩(wěn)定。從圖6II上可以看出,P2PCSE系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)方案相比傳統(tǒng)半分布式系統(tǒng)隨著并發(fā)請(qǐng)求的增加,超級(jí)節(jié)點(diǎn)壓力并不一直隨之增加以致節(jié)點(diǎn)崩潰,P2PCSE系統(tǒng)具有很高的可靠性和穩(wěn)定性。65本章小結(jié)本章開篇詳細(xì)分析了P2PCSE系統(tǒng)文件搜索流程,介紹了P2PCSE系統(tǒng)各種情況下的界面。對(duì)P2PCSE全文檢索子系統(tǒng)中的關(guān)鍵部分一中文分詞算法進(jìn)行了對(duì)比測(cè)試,對(duì)比采用CHORD模型的軟件進(jìn)行搜索的準(zhǔn)確度和滿意度測(cè)試,結(jié)果表明P2PCSE系統(tǒng)搜索準(zhǔn)度和滿意度比較突出。最后設(shè)定了模擬測(cè)試環(huán)境測(cè)試系統(tǒng)網(wǎng)絡(luò)在各種并發(fā)請(qǐng)求下的綜合性能,南京郵電大學(xué)碩士研究生學(xué)位論文第六章P2PCSE原型系統(tǒng)的實(shí)現(xiàn)與性能測(cè)試得出P2PCSE系統(tǒng)的在網(wǎng)絡(luò)具備穩(wěn)定、可靠、可擴(kuò)展的優(yōu)點(diǎn)。65南京郵電大學(xué)碩士研究生學(xué)位論文第七章論文總結(jié)與展望71全文總結(jié)第七章論文總結(jié)與展望本文針對(duì)中文搜索引擎技術(shù)及目前常見P2P搜索軟件的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行國(guó)內(nèi)外調(diào)研,提出了提出了一種基于X一樹結(jié)構(gòu)的中文分詞算法及改進(jìn)的三層混合式半分布網(wǎng)絡(luò)結(jié)構(gòu)并在兩者結(jié)合的基礎(chǔ)上實(shí)現(xiàn)了P2PCSE原型系統(tǒng)。文章主要完成了如卞幾個(gè)方面的具體工作。1詳細(xì)分析了中文搜索引擎技術(shù),并對(duì)影響中文搜索引擎搜索結(jié)果的關(guān)鍵技術(shù)中文分詞技術(shù)做了詳細(xì)的解析和研究,指出了傳統(tǒng)分詞方法的不足。2對(duì)比P2P模式與傳統(tǒng)CS模式的優(yōu)缺點(diǎn),歸納總結(jié)了常見P2P搜索技術(shù)采用網(wǎng)絡(luò)結(jié)構(gòu)模型,通過(guò)分析指出其缺陷。3給出P2PCSE系統(tǒng)的總體設(shè)計(jì),詳細(xì)劃分其模塊并進(jìn)行功能定義。對(duì)主要的通訊協(xié)議進(jìn)行分析及實(shí)現(xiàn)。4提出一種基于X樹結(jié)構(gòu)的中文分詞算法CSECHSPLITOR,對(duì)其進(jìn)行詳細(xì)的分析和算法實(shí)現(xiàn),結(jié)合分詞處理模塊、文件處理模塊、文件索引儲(chǔ)存查詢模塊實(shí)現(xiàn)了全文檢索子系統(tǒng)。5提出一種改進(jìn)的三層混合式半分布網(wǎng)絡(luò)結(jié)構(gòu),詳細(xì)分析了整體模型,給出節(jié)點(diǎn)定義及層與層之間的網(wǎng)絡(luò)連接方式。并對(duì)構(gòu)建該網(wǎng)絡(luò)模型的關(guān)鍵部分進(jìn)行了詳細(xì)的介紹和實(shí)現(xiàn)。6實(shí)現(xiàn)了P2PCSE原型系統(tǒng),分析了系統(tǒng)文件搜索流程,對(duì)各種情況下的系統(tǒng)界面進(jìn)行介紹。對(duì)CSECHSPLITOR算法性能,全文檢索子系統(tǒng)的準(zhǔn)確度與滿意度,及網(wǎng)絡(luò)結(jié)構(gòu)在各種并發(fā)請(qǐng)求的性能下分別進(jìn)行了測(cè)試,得出P2PCSE系統(tǒng)具備資源覆蓋廣、搜索結(jié)果準(zhǔn)、網(wǎng)絡(luò)可靠、穩(wěn)定、
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 民族信仰活動(dòng)方案
- 樓盤民俗活動(dòng)方案
- 殘疾人公益徒步活動(dòng)方案
- 沈陽(yáng)公司旅游活動(dòng)方案
- 江蘇銀行廳堂活動(dòng)方案
- 河南民俗策劃活動(dòng)方案
- 植物漂染活動(dòng)方案
- 母嬰店洗浴活動(dòng)方案
- 汽車美食活動(dòng)方案
- 漢堡店如何活動(dòng)方案
- 出租房退房協(xié)議(通用5篇)
- 婚前醫(yī)學(xué)檢查證明(含存根)
- 防靜電手環(huán)測(cè)試指導(dǎo)書
- GB/T 19806-2005塑料管材和管件聚乙烯電熔組件的擠壓剝離試驗(yàn)
- 社區(qū)工作者招聘考試筆試題庫(kù)大全(含答案詳解)
- 碼頭承包經(jīng)營(yíng)合同
- DB37T2367-2022《回彈法檢測(cè)砌筑砂漿抗壓強(qiáng)度技術(shù)規(guī)程》
- 對(duì)生活飲用水的衛(wèi)生監(jiān)督
- 2022江蘇省中央財(cái)政補(bǔ)貼型奶牛養(yǎng)殖保險(xiǎn)條款
- 樂(lè)山市口腔醫(yī)院門診牙科診所醫(yī)療機(jī)構(gòu)企業(yè)地址名單目錄
- WTO世界貿(mào)易組織概論期末復(fù)習(xí)題
評(píng)論
0/150
提交評(píng)論