【畢業(yè)學(xué)位論文】(Word原稿) 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn)-計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)搜索引擎與Web信息挖掘_第1頁
【畢業(yè)學(xué)位論文】(Word原稿) 大規(guī)模可擴(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn)-計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)搜索引擎與Web信息挖掘_第2頁
【畢業(yè)學(xué)位論文】(Word原稿) 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn)-計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)搜索引擎與Web信息挖掘_第3頁
【畢業(yè)學(xué)位論文】(Word原稿) 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn)-計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)搜索引擎與Web信息挖掘_第4頁
【畢業(yè)學(xué)位論文】(Word原稿) 大規(guī)模可擴(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn)-計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)搜索引擎與Web信息挖掘_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

北京大學(xué)碩士學(xué)位論文 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 1 碩士研究生學(xué)位論文 題目: 大規(guī)模可擴(kuò)展索引技術(shù)的 研究和系統(tǒng)實(shí)現(xiàn) 姓 名: 劉源 學(xué) 號: 10548185 院 系: 信息科學(xué)技術(shù)學(xué)院 專 業(yè): 計(jì)算機(jī)系統(tǒng)結(jié)構(gòu) 研究方向: 搜索引擎與 息挖掘 導(dǎo) 師: 李曉明 教授 二八年 五月 北京大學(xué)碩士學(xué)位論文 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 2 版權(quán)聲明 任何收存和保管本論文各種版本的單位和個(gè)人,未經(jīng)本論文作者同意,不得將本論文轉(zhuǎn)借他人,亦不得隨意復(fù)制、抄錄、拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)之問題,將可能承擔(dān)法律 責(zé)任。北京大學(xué)碩士學(xué)位論文 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 3 摘 要 隨著互聯(lián)網(wǎng)的發(fā)展,原始的數(shù)據(jù)庫系統(tǒng)無法滿足大數(shù)據(jù)量相關(guān)性檢索的需求。從而基于倒排表的索引系統(tǒng)越來越多的應(yīng)用在各項(xiàng)服務(wù)中。但是索引系統(tǒng)和數(shù)據(jù)庫系統(tǒng)一樣,有著較為復(fù)雜的內(nèi)部邏輯和外部行為,如何創(chuàng)建我們需要的索引系統(tǒng),如何優(yōu)化我們的索引系統(tǒng),是困擾很多索引系統(tǒng)構(gòu)建者和使用者的難題。 本文的研究范疇是用于信息檢索的索引系統(tǒng),通過一個(gè)真實(shí)的索引系統(tǒng)引系統(tǒng),本文從三個(gè)方面進(jìn)行分析和研究:對索引系統(tǒng)進(jìn)行功能模塊上的分析;對索引系統(tǒng)開發(fā)和使用中的性能問題的研究和分析;對一個(gè)實(shí)際系統(tǒng) 的系統(tǒng)實(shí)現(xiàn)的詳細(xì)。具體為: 1) 索引系統(tǒng)的模塊分析 本文詳細(xì)分析了作為一個(gè)復(fù)雜系統(tǒng)的索引系統(tǒng),其創(chuàng)建和使用都受到很多條件的制約。本文分析了索引系統(tǒng)的常見的需求,比如如何對原始的文檔集合進(jìn)行分析,如何設(shè)計(jì)索引內(nèi)部文檔的表示能力,索引如何創(chuàng)建,如何存儲等,劃分了一系列基本的功能模塊。 2) 索引系統(tǒng)的性能分析 因?yàn)樗饕到y(tǒng)的目的是快速的響應(yīng)檢索需求,所以效率問題一直是索引技術(shù)的核心問題。在模塊功能分析的基礎(chǔ)之上,本文進(jìn)一步分析了索引創(chuàng)建和檢索中常見的性能問題,提出了基本的解決方案。同時(shí),對于如何對索引系統(tǒng)進(jìn)行整體的和局部 的量化分析,引入了 則,嘗試給出一個(gè)指導(dǎo)實(shí)踐的經(jīng)驗(yàn)公式。 3) 引系統(tǒng)的實(shí)現(xiàn)分析 對于問題的分析,需要一個(gè)具體的系統(tǒng)進(jìn)行實(shí)踐。在深入研究天網(wǎng)搜索引擎已有的索引系統(tǒng)和相關(guān)索引系統(tǒng)基礎(chǔ)上,同時(shí)在大量閱讀了相關(guān)專業(yè)文獻(xiàn)之后,我們進(jìn)行了分析和研究,設(shè)計(jì)實(shí)現(xiàn)了 863課題支持的 文以系統(tǒng)的基本模塊和重要接口為核心,分析了系統(tǒng)的基本框架能力以及如何進(jìn)一步對系統(tǒng)進(jìn)行擴(kuò)充。 關(guān)鍵詞 :信息檢索,索引系統(tǒng),索引優(yōu)化,倒排表北京大學(xué)碩士學(xué)位論文 大規(guī)模可擴(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 4 is in is in of As its in to to it is of is of (1) To on of (2) To in of (3) To of (1) ue to of of it is by of In in as of of to to (2) ue to to is in In to in of of is in Q is to (3) n of is in is to is 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 5 目錄 摘 要 . 3 . 4 目錄 . 5 第一章 緒 論 . 9 引系統(tǒng)背景 . 9 聯(lián)網(wǎng)服務(wù)系統(tǒng) . 9 則 . 10 求快速查詢的場景 . 10 數(shù)據(jù)庫系統(tǒng)的比較 . 11 據(jù)庫系 統(tǒng)的能力 . 11 引系統(tǒng)和數(shù)據(jù)庫系統(tǒng)的異同 . 11 引系統(tǒng)的簡單用例 . 12 引系統(tǒng)基本模塊 . 13 引系統(tǒng)基本流程 . 13 文的主要工作 . 14 文的主要研究點(diǎn) . 14 文的主要?jiǎng)?chuàng)新點(diǎn) . 14 文組織結(jié)構(gòu) . 14 第二章 索引系統(tǒng)分析 . 15 引核心模塊分析 . 15 析模塊 . 15 檔表示模塊 . 15 儲模塊 . 18 引創(chuàng)建 . 18 儲鏡像的邏輯視圖 . 21 引檢索 . 22 規(guī)模索引專有模塊 . 23 縮模塊 . 23 存模塊 . 29 態(tài)索引 . 31 北京大學(xué)碩士學(xué)位論文 大規(guī)模可擴(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 6 本控制 . 32 存索引 . 34 布式索引 . 34 用性和可靠性與 則 . 35 引切分和索引冗余 . 37 對可用性和效率的解決方案 . 38 章小結(jié) . 38 第三章 索引優(yōu)化 . 39 引創(chuàng)建的優(yōu)化 . 39 建時(shí)期內(nèi)存壓縮 . 39 態(tài)索引二路歸并的塊合并時(shí)機(jī) . 40 索引多路歸并方法 . 41 引檢索效率的優(yōu)化 . 42 索時(shí)效率分析 . 42 用塊狀壓縮和 跳查來降低 用 . 42 用緩存機(jī)制來降低 . 46 引常數(shù) . 47 機(jī)的服務(wù)能力上限 . 47 體服務(wù)優(yōu)化 . 48 機(jī)索引常數(shù) . 49 章小結(jié) . 49 第 4 章 引系統(tǒng)框架 . 50 統(tǒng)目的 . 50 向搜索引擎服務(wù) . 50 擴(kuò)展性,可實(shí)驗(yàn)性 . 50 本模塊詳細(xì)分析 . 50 析模塊 . 51 檔表述模塊 . 52 儲模塊 . 53 縮模塊 . 54 存模塊 . 55 引模塊 . 56 引創(chuàng)建流程用例分析 . 59 引提供的檢索接口用例分析 . 61 北京大學(xué)碩士學(xué)位論文 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 7 第五章 總結(jié)和展望 . 64 文總結(jié) . 64 一步工作 . 64 參考文獻(xiàn) . 66 致謝 . 69 北京大學(xué)碩士學(xué)位論文 大規(guī)模可擴(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 圖表 1 互聯(lián)網(wǎng)服務(wù)系統(tǒng)示意圖 . 9 圖表 2 文檔集合和查詢集合 . 12 圖表 3 簡單索引流程 . 13 圖表 4 對頁面進(jìn)行分析 . 16 圖表 5 文檔倒排操作 . 18 圖表 6 倒排合并操作 . 19 圖表 7 并 . 20 圖表 8 并 . 21 圖表 9 檢索過程 . 22 圖表 10 縮 . 26 圖表 11 碼示例 . 27 圖表 12 壓縮時(shí)間對比 . 28 圖表 13 解壓時(shí)間對比 . 28 圖表 14 壓縮后長度對比 . 29 圖表 15 O 讀操作 . 29 圖表 16 三級緩存策略 . 30 圖表 17 索引創(chuàng) 建和服務(wù)分離 . 32 圖表 18 版本控制 . 33 圖表 19 內(nèi)存索引 . 34 圖表 20 索引數(shù)據(jù)切分 . 35 圖表 21 索引數(shù)據(jù)冗余 . 36 圖表 22 索引數(shù)據(jù)切分且冗余 . 36 圖表 23 二路合并 . 40 圖表 24 哨兵位和定長壓縮數(shù)據(jù) . 44 圖表 25 獨(dú)立跳查結(jié)構(gòu) . 44 圖表 26 使用跳查表進(jìn)行求交 . 45 圖表 27 不適用跳查表進(jìn)行求交 . 46 圖表 28 塊狀存儲 . 46 圖表 29 分析模塊結(jié)構(gòu)圖 . 51 圖表 30 存儲模塊結(jié)構(gòu)圖 . 53 圖表 31 壓縮模塊接口示意 . 54 北京大學(xué)碩士學(xué)位論文 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 9 第一章 緒 論 引系統(tǒng)背景 索引技術(shù)現(xiàn)在是一種在網(wǎng)絡(luò)服務(wù)中很常用的技術(shù)。在很多的信息檢索服務(wù)中,都會在數(shù)據(jù)量相對較大和反應(yīng)時(shí)間要求較短的情況下,考慮使用索引系統(tǒng)。其中現(xiàn)階段最常見的應(yīng)用就是搜索引擎系統(tǒng)。 文獻(xiàn) 2給出了索引系統(tǒng)的一個(gè)綜述,全面地描述了索引技術(shù)的基本問題和已有的解決方法。 聯(lián)網(wǎng)服務(wù)系統(tǒng) 對于大規(guī)模的互聯(lián)網(wǎng)的服務(wù)系統(tǒng),基本的系統(tǒng)構(gòu)架都如圖所示。 圖表 1 互聯(lián)網(wǎng)服務(wù)系統(tǒng)示意圖 服務(wù)機(jī)器會將用戶的請求(比如查詢請求),按照某種邏輯進(jìn)行劃分,分配到對應(yīng)的后臺機(jī)器上去。 后臺機(jī)器一般來說在數(shù)據(jù)結(jié)構(gòu),或者服務(wù)能力上是同構(gòu)的。比如,每臺都有同構(gòu)的數(shù)據(jù)庫表格,存儲的是單一一臺機(jī)器無法成功存儲的數(shù)據(jù)量。 服務(wù)機(jī)器最終會接受后臺機(jī)器集群的結(jié)果,給以 綜合計(jì)算,將最終用戶需要的信息返回。 北京大學(xué)碩士學(xué)位論文 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 10 則 當(dāng)需要對一個(gè)互聯(lián)網(wǎng)服務(wù)系統(tǒng)進(jìn)行分析和評價(jià)的時(shí)候,我們常常會陷入困境。因?yàn)楹推胀☉?yīng)用程序不同,我們很難對整體系統(tǒng)進(jìn)行精確的算法分析,以及應(yīng)用類似復(fù)雜度計(jì)算的分析手法。 我們面對的可能情況是: 硬件級別上的異構(gòu):我們的服務(wù)機(jī)器和后臺機(jī)器可能是不同的硬件系統(tǒng),擁有不同的計(jì)算能力 應(yīng)用上的差異:對于前端服務(wù)機(jī)器來說,需要處理的問題一般是負(fù)載均衡,結(jié)果合并和過濾等計(jì)算密集型任務(wù);后臺的機(jī)器則需要完成較多的數(shù)據(jù)讀取這類 為密集的任務(wù)。 在這樣的情況下,可以使用 則來幫助我們分析系統(tǒng)問題。 則將計(jì)算機(jī)的所有計(jì)算能力( 率,內(nèi)存速率, 率,網(wǎng)絡(luò)速率等)都看作是底層的數(shù)據(jù)流( 而我們提供的服務(wù)是一個(gè)一個(gè)的查詢操作( 在這種情況下,每秒鐘可以處理查詢的條數(shù)和每條查詢需要處理的數(shù)據(jù)的乘積就是我們的系統(tǒng)的服務(wù)能力。 公式 1 而我們整個(gè)系統(tǒng)的數(shù)據(jù)流提供能力的總和,應(yīng)該和上面的結(jié)果匹配。關(guān)于則的具體細(xì)節(jié),請 參考文獻(xiàn) 33。 求快速查詢的場景 對于互聯(lián)網(wǎng)服務(wù)系統(tǒng)來說,其面對的數(shù)據(jù)量都是巨大的。這樣的話,進(jìn)行快速的查詢和海量的數(shù)據(jù)就構(gòu)成了矛盾?,F(xiàn)在最常見的就是搜索引擎的檢索服務(wù),需要在非常短的時(shí)間內(nèi)( 1 秒左右),在非常大的數(shù)據(jù)量(億級別網(wǎng)頁, 找到符合某一類要求(比如包含查詢字串)的結(jié)果。文獻(xiàn) 7從信息檢索角度對基本的數(shù)據(jù)結(jié)構(gòu)和算法進(jìn)行分析。 比如,我們需要查找 北京大學(xué) 相關(guān)的內(nèi)容,在互聯(lián)網(wǎng)上,相關(guān)的網(wǎng)頁集合可能非常的大。并且用戶得到一定的反饋之后,可能繼續(xù)進(jìn)行檢索行為。因北京大學(xué)碩士學(xué)位論文 大規(guī)模可擴(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 11 此 ,我們應(yīng)該可以同時(shí)滿足在海量數(shù)據(jù)上的查找以及快速的反饋。 數(shù)據(jù)庫系統(tǒng)的比較 數(shù)據(jù)庫系統(tǒng)非常廣泛的被應(yīng)用于互聯(lián)網(wǎng)服務(wù)系統(tǒng)中,比如非常流行的 系統(tǒng)框架。同時(shí),大規(guī)模的分布式數(shù)據(jù)庫系統(tǒng)也得到了廣泛的應(yīng)用。索引系統(tǒng)和一般意義上的數(shù)據(jù)庫系統(tǒng)有著什么樣的不同呢?我們可以從其能力上進(jìn)行對比。 據(jù)庫系統(tǒng)的能力 數(shù)據(jù)庫系統(tǒng)的能力可以被其查詢語言 很好的描述,我們可以通過給出一個(gè)嚴(yán)謹(jǐn)?shù)?句來達(dá)到一個(gè)較為特定的目標(biāo)。 2 6; 從例子我們可以看出,查詢者有一個(gè)非常明確的目標(biāo),從 2 到 16 歲之間的 對于這條語句的執(zhí)行結(jié)果是: 所有的 符合要求的內(nèi)容都會返回,使得查詢者的 需求得到滿足。 另外一個(gè)較為讓人混淆的概念是數(shù)據(jù)庫中的索引,數(shù)據(jù)庫中的索引是一個(gè)邏輯意義上的索引結(jié)構(gòu),用來加快數(shù)據(jù)庫表的檢索速度而將一類數(shù)據(jù)建立了索引項(xiàng),這些數(shù)據(jù)一般來說不保證在物理上相鄰。從某些方面來說它更像書籍的索引。 引系統(tǒng)和數(shù)據(jù)庫系統(tǒng)的異同 而對于索引系統(tǒng)來說,他提供的檢索能力與數(shù)據(jù)庫系統(tǒng)是不同的。是基于相關(guān)性計(jì)算 得到的結(jié)果集合。所謂的 相關(guān)性 是說: 查詢和結(jié)果在某種程度上 相關(guān) ,比如查詢中的詞在結(jié)果中多次出現(xiàn)就是一種相關(guān)性。 一種最簡單的相關(guān)性模型就是向量空間模型( 他認(rèn)為查詢詞和文檔都是一些詞集合( 通過計(jì)算它們之間的向量夾角 可以得到他們之間的相似度。 對于 型,舉例如下。 文檔一 : 北京 大學(xué) 南門 文檔二 : 清華 大學(xué) 西門 北京大學(xué)碩士學(xué)位論文 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 12 查 詢 : 大學(xué) 南門 整體詞的集合: 北京 清華 大學(xué) 南門 西門 相似度(文檔一,查詢) = 向量夾角( (1, 0, 1, 1, 0), (0, 0, 1, 1, 0)) 相似度(文檔二,查詢) = 向量夾角( (0, 1, 1, 0, 1), (0, 0, 1, 1, 0)) 這樣的計(jì)算結(jié)果,我們可以看到文檔一和查詢的相似度比較大。 所以,對于索引來說,通過計(jì)算相關(guān)性的值來將索引文檔集合進(jìn)行排序,返回給用戶相關(guān)性最高的文檔。但是對于用戶來說,查詢詞所代表的意義是不明確的和有歧義的。比如 病毒 , 些歧義查詢,以及 北大主頁 這種導(dǎo)航性查詢, 怎么治療感冒 這類信息型查詢等等。用戶只是通過一些模糊的概念來選擇查詢,根據(jù)不同的需求瀏覽相關(guān)文檔,進(jìn)一步修正查詢詞,得到相關(guān)信息。 對應(yīng)于數(shù)據(jù)庫查詢的接口來說,這些 相關(guān)性 查詢很難轉(zhuǎn)換為規(guī)則的 時(shí)數(shù)據(jù)庫系統(tǒng)的一般行為是返回所有符合查詢邏輯的結(jié)果,這對于海量的文檔集合來說,也是不合實(shí)際的。 引系統(tǒng)的簡單用例 為了更加直觀的解釋索引系統(tǒng)的能力,我們可以構(gòu)造一個(gè)簡單的用例來說明。假設(shè)我們有以下三篇文檔,和兩組查詢詞。我們的 目標(biāo)是在文檔集合中找到查詢詞出現(xiàn)的文檔集。 圖表 2 文檔集合和查詢集合 北京大學(xué)碩士學(xué)位論文 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 13 整個(gè)的過程是將文檔集合進(jìn)行分析( 建立索引,然后可以提供對索引文件的檢索。整個(gè)流程可以簡單的由下圖表示。 圖表 3 簡單索引流程 引系統(tǒng)基本模塊 通過上述的用例,我們可以觀察到索引系統(tǒng)可以劃分為一些基本的功能模塊,比如: 從原始文檔到可索引文檔的分析模塊,將索引進(jìn)行存儲的模塊,索引建立的模塊以及 索引檢索的模快。 引系統(tǒng)基本流程 索引的基本流程可以說有兩個(gè)大模塊,索引的建立和索引的檢索。索引的北京大學(xué)碩士學(xué)位論文 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 14 建立就是把原始的文檔集合經(jīng)過分析后,創(chuàng)建索引鏡像;索引的檢索模塊是說對于用戶的檢索請求,在索引鏡像中找出相關(guān)的原始文檔集合。 文的主要工作 本文的主要工作有以下幾點(diǎn): 1. 分析索引系統(tǒng)的功能和框架。 2. 分析索引系統(tǒng)的系統(tǒng)優(yōu)化。 3. 給出一個(gè)索引系統(tǒng)的實(shí)現(xiàn)細(xì)節(jié)。 文的主要研究點(diǎn) 本文的主要研究點(diǎn)是針對大規(guī)模索引,如何使其在數(shù)據(jù)上擁有可擴(kuò)展能力,以及在代碼模塊上擁有可擴(kuò)展可替換能力; 以及如何進(jìn)行一個(gè)實(shí)際的索引系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn) 23, 26。 文的主要?jiǎng)?chuàng)新點(diǎn) 對于大規(guī)模索引來說,如何對索引系統(tǒng)的能力進(jìn)行分析是一個(gè)較為困難的任務(wù)。本文提出使用 則來對整個(gè)索引系統(tǒng)進(jìn)行框架性的分析,同時(shí)對于單個(gè)索引機(jī)器的分析,嘗試性的給出了 索引常數(shù) 的概念,即通過一個(gè)經(jīng)驗(yàn)公式,嘗試對單個(gè)機(jī)器的在索引上的運(yùn)算能力進(jìn)行建模。 文組織結(jié)構(gòu) 本文的章節(jié)按照如下方式安排: 第一章:即本節(jié)著重從背景和應(yīng)用的角度說明了索引系統(tǒng)的基本理論。 第二章:將會按照索引系統(tǒng)的功能劃分,詳細(xì)論述索引系 統(tǒng)在系統(tǒng)級別上每個(gè)模塊的作用和行為。 第三章:主要描述在實(shí)際過程中可能會遇到的性能的問題,以及如何去做優(yōu)化。 第四章:詳細(xì)的分析了天網(wǎng)的 統(tǒng)索引模塊的內(nèi)容,每一個(gè)模塊的關(guān)鍵接口和流程都會進(jìn)行描述,同時(shí)會通過兩個(gè)用例來展示索引模塊的兩個(gè)主要能力。 第五章:對本文的總結(jié)和進(jìn)一步工作的展望。北京大學(xué)碩士學(xué)位論文 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 15 第二章 索引系統(tǒng)分析 索引系統(tǒng)在功能上可以進(jìn)行劃分,得到彼此相關(guān)的一些模塊,這些模塊有些是基本的索引系統(tǒng)必須的,而有些是為了特殊的性能要求才需要的,我們逐一對這些模塊進(jìn)行分析。 引核心模塊分析 核心模塊的意思是說這些模塊在所有的索引應(yīng)用中都是必須的,主要包括了分析,文檔表示,存儲,索引,檢索幾個(gè)基本模塊。 析模塊 索引的分析模塊的主要作用是將外部的文檔格式轉(zhuǎn)換為一個(gè)單元( 序列。 其中單元( 需要索引的最小的成分。 般由其字串,在文檔中的偏移信息,以及類型信息等組成。在分析的過程中,可以識別出來一些需要的 者進(jìn)一步轉(zhuǎn)化一些 字串,如采用英文中的詞干提取( 術(shù),以及過濾掉一些常用無意義的詞匯( 對于分析后的信息,可以進(jìn)一步建立索引的文檔表示。 檔表示模塊 文檔表示是索引的最基本的模塊,它往往說明了索引的檢索粒度和能力。一般的索引系統(tǒng)都將文檔表示成為詞集合( 方式,盡管像 26,但是卻沒有對應(yīng)的檢索模塊。原因之一是像 樣的標(biāo)記性語言,它的結(jié)構(gòu)信息很多是用來表示視覺的展示,而不是表達(dá)內(nèi)容的相關(guān)性。 北京大學(xué)碩士學(xué)位論文 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 16 圖表 4 對頁面進(jìn)行分析 我們可以看到,在這個(gè)網(wǎng) 頁上有著通用的頁面信息( 標(biāo)題: 正文信息: 略 正文第一句: 正文內(nèi)鏈接文本信息: 和 鏈接信息: 左側(cè)的大量文本 從直覺上可以得知,上面的幾類文本在這個(gè)網(wǎng)頁中的重要性是不同的,需要分別標(biāo)識用來給檢索模塊提 供信息。對于文本的分類標(biāo)識,可以從兩個(gè)方面考慮,域( 附加信息( 域可以簡單的認(rèn)為是一種前綴信息,我們將類別和文本組成了二元組 來區(qū)別不同類型的文本。那么,上面的標(biāo)題文本在詞集合的行為下就可以表示成為 : 北京大學(xué)碩士學(xué)位論文 大規(guī)??蓴U(kuò)展索引技術(shù)的研究和系統(tǒng)實(shí)現(xiàn) 17 域信息會有什么樣的用處呢?一個(gè)最簡單的方式是可以在檢索階段賦予標(biāo)題域一個(gè)和正文域不同的權(quán)值。通常來說不同

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論