搜索引擎關(guān)鍵技術(shù)文本處理_第1頁
搜索引擎關(guān)鍵技術(shù)文本處理_第2頁
搜索引擎關(guān)鍵技術(shù)文本處理_第3頁
搜索引擎關(guān)鍵技術(shù)文本處理_第4頁
搜索引擎關(guān)鍵技術(shù)文本處理_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、搜索引擎關(guān)鍵技術(shù)文本處理 搜索引擎關(guān)鍵技術(shù)文本處理 本講稿對搜索引擎的關(guān)鍵技術(shù)進(jìn)行了概 述,著重討論了信息預(yù)處理技術(shù)中的文本處 理。 搜索引擎關(guān)鍵技術(shù)文本處理 信息收集和存儲技術(shù) 包括兩種方式:人工和自動(dòng)。 人工方式采用傳統(tǒng)的信息收集、分類、存儲、 組織和檢索的方法。 自動(dòng)方式通常是由網(wǎng)絡(luò)機(jī)器人來完成的。 一般來說,人工方式收集信息的準(zhǔn)確性要遠(yuǎn)優(yōu) 于“網(wǎng)絡(luò)機(jī)器人”,但其收集信息的效率及全 面性低于“網(wǎng)絡(luò)機(jī)器人”。 搜索引擎關(guān)鍵技術(shù)文本處理 2.信息預(yù)處理技術(shù) 信息預(yù)處理系統(tǒng)的主要工作是從抓取的網(wǎng)頁 中提取能夠代表網(wǎng)頁的屬性,并將這些屬性組成 網(wǎng)頁的對象,然后根據(jù)一定的相關(guān)度算法進(jìn)行計(jì) 算,得到

2、每一個(gè)網(wǎng)頁針對頁面內(nèi)容及鏈接每一個(gè) 關(guān)鍵詞的相關(guān)度,并用這些信息建立索引數(shù)據(jù)庫。 關(guān)鍵詞的提取 重復(fù)或轉(zhuǎn)載網(wǎng)頁的消除 鏈接分析 網(wǎng)頁重要程度的計(jì)算 搜索引擎關(guān)鍵技術(shù)文本處理 3.信息索引技術(shù) 信息索引就是創(chuàng)建文檔信息的特征記錄,以 便用戶能夠快速地檢索到所需信息。 信息語詞切分和語詞詞法分析 進(jìn)行詞性標(biāo)注及相關(guān)的自然語言處理 建立檢索項(xiàng)索引 檢索結(jié)果處理技術(shù) 搜索引擎關(guān)鍵技術(shù)文本處理 文本處理是指將網(wǎng)絡(luò)爬蟲搜集到的文 本信息進(jìn)行預(yù)處理,以便進(jìn)行網(wǎng)絡(luò)信息檢 索的下一個(gè)流程索引處理。 網(wǎng)頁噪聲去除 待處理網(wǎng)頁干凈網(wǎng)頁 詞匯分析 詞序列 詞干提取 排除停用詞 有用詞序列關(guān)鍵詞 HTML文檔預(yù)處理流程

3、 搜索引擎關(guān)鍵技術(shù)文本處理 文本處理的過程包括如下5個(gè)步驟: 文本的詞法分析 無用詞匯的刪除 詞干提取 索引詞條/詞干的選擇 構(gòu)造詞條的分類結(jié)構(gòu) 搜索引擎關(guān)鍵技術(shù)文本處理 詞法分析的過程是將字符串轉(zhuǎn)換成詞 條的過程,因此詞法分析的主要目的就是 識別文本中的詞條。 關(guān)于詞法分析,中英文存在較大的區(qū) 別,英文單詞有空格分隔,易于識別,而 中文文本以句子為自然分隔單位,要提取 出詞語來,需要復(fù)雜的分詞技術(shù)。 搜索引擎關(guān)鍵技術(shù)文本處理 在對英文進(jìn)行分詞的過程中,除了空 格分隔符,還有幾種特殊的情況要處理: 數(shù)字、連字符、標(biāo)點(diǎn)符號和字母的大小寫。 數(shù)字 數(shù)字一般不作為索引詞,因?yàn)槿绻麤] 有上下文的聯(lián)系,

4、它們的含義是模糊不清 的。 現(xiàn)在常用的做法是保留一些專門指出 的(通過與正規(guī)表達(dá)式的匹配)數(shù)字,而 將其他數(shù)字過濾掉。 搜索引擎關(guān)鍵技術(shù)文本處理 連字符 對連字符來說,也有兩難情況。 一種方法是將連字符都忽略掉,例如 state-of-the-art等同于state of the art。 但是,有些帶有連字符的單詞本身是一個(gè) 完整的單詞,如gilt-edged。 對于連字符的處理,目前常用的是首 先采用一定的規(guī)則選出那些對詞義有影響 的連字符號,然后將其他連字符都過濾掉。 搜索引擎關(guān)鍵技術(shù)文本處理 標(biāo)點(diǎn)符號 對于文本中的標(biāo)點(diǎn)符號,一般說來在 詞法分析過程中將被全部去除。但是,對 于那些成為單

5、詞中一部分的標(biāo)點(diǎn)符號來說, 又要慎重考慮是否刪除標(biāo)點(diǎn)。 另外一種特殊情況是程序片段出現(xiàn)在 文本中,這時(shí)就要區(qū)分變量x.id與xid了。 這種情況下,標(biāo)點(diǎn)符號應(yīng)該保留。 搜索引擎關(guān)鍵技術(shù)文本處理 字母的大小寫 字母的大小寫對于區(qū)分索引詞條來說 一般不是很重要,因此可以將文本中的所 有詞條都轉(zhuǎn)換成大寫或者小寫。 但是也存在特殊情況,例如對于描寫 UNIX命令的文檔,由于大小寫都是約定俗 成的,因此用戶并不希望改變文檔中的大 小寫。對于此種情況,就要特殊處理。 搜索引擎關(guān)鍵技術(shù)文本處理 中文分詞技術(shù)屬于自然語言處理技術(shù) 范疇,對于一句話,人可以通過自己的知 識來明白哪些是詞,哪些不是詞,但如何 讓計(jì)

6、算機(jī)也能理解?其處理過程就是分詞 算法。 與英文相比,中文詞與詞之間沒有分 界符,需要人為切分,而且漢語中存在大 量歧義現(xiàn)象,對幾個(gè)字分詞可能有好多種 結(jié)果,因此將中文分詞技術(shù)專門提出來做 詳細(xì)總結(jié)。 搜索引擎關(guān)鍵技術(shù)文本處理 單字切分 按照中文一個(gè)字、一個(gè)字地進(jìn)行分詞。 以這種方式切分出來的詞再進(jìn)入索引,稱 為字索引。 缺點(diǎn):隨著索引的增大,相應(yīng)索引條 目的內(nèi)容會不斷增大,嚴(yán)重影響效率。 搜索引擎關(guān)鍵技術(shù)文本處理 二分法 二分法是指每兩個(gè)字進(jìn)行一次切分。 該方法完全不考慮語義、語境,機(jī)械 地對語句進(jìn)行處理,不是很好的分詞方式。 詞庫分詞 該方法是用一個(gè)已經(jīng)建立好的詞的 集合(按某種算法)去匹

7、配目標(biāo),當(dāng)遇上 集合中已經(jīng)存在的詞時(shí),就將其切分出來, 是一種較理想的中文分詞方式。 搜索引擎關(guān)鍵技術(shù)文本處理 基于字符串匹配的分詞方法 該方法又叫做機(jī)械分詞方法,基本思 想是:截取一個(gè)字符串,把它與詞典中的 詞條進(jìn)行匹配,若在詞典中找到對應(yīng)的詞, 該字符串就被識別為一個(gè)詞。 按照掃描方向的不同,可分為正向匹 配和逆向匹配;按照不同長度優(yōu)先匹配的 情況,可分為最大匹配和最小匹配;按照 是否與詞性標(biāo)注過程相結(jié)合,可分為單純 分詞方法和分詞與標(biāo)注相結(jié)合的一體化方 法。 搜索引擎關(guān)鍵技術(shù)文本處理 主要思想:選取包含68個(gè)漢字的符 號串作為最大符號串,把最大符號串與詞 典中的單詞條目相匹配,如果不能匹

8、配, 就削掉最右邊一個(gè)漢字繼續(xù)匹配,直到在 詞典中找到相應(yīng)的單詞為止。 正向是指匹配方式從左向右。 例:“計(jì)算機(jī)科學(xué)和工程” 搜索引擎關(guān)鍵技術(shù)文本處理 其分詞過程與正向最大匹配法相同, 不同的是每次是從待處理語料的末尾開始 處理,每次匹配不成功時(shí)去掉的是前面一 個(gè)漢字,即匹配方向是從右到左。 FMM方法的錯(cuò)誤切分率為1/169, BMM方法的精度要高一些,其錯(cuò)誤切分率 為1/245。 搜索引擎關(guān)鍵技術(shù)文本處理 基本原理:分別用FMM法和BMM法進(jìn) 行正向和逆向的掃描和切分,通過比較兩 者的切分結(jié)果來決定正確的切分,而且可 以識別出分詞中的交叉歧義。但是對于正、 逆向的掃描結(jié)果一致但實(shí)際切分不正

9、確的 字段(如“結(jié)合成分子時(shí)”)仍不能正確 處理。 缺點(diǎn):時(shí)間復(fù)雜度增加,而且詞庫結(jié) 構(gòu)比一般的分詞詞庫要復(fù)雜很多。 搜索引擎關(guān)鍵技術(shù)文本處理 最少匹配算法FWM(Fewest Words Matching method) 該算法實(shí)現(xiàn)的分詞結(jié)果中含詞數(shù)最少。 設(shè)立切分標(biāo)識法 該算法的思想是:優(yōu)先在待分析字符 串中識別和切分出一些帶有明顯特征的詞, 以這些詞作為斷點(diǎn),可將原字符串分為較 小的串,然后用FMM或BMM法進(jìn)行細(xì)分。 例:“這種設(shè)計(jì)方法學(xué)的理論,不可 能有用” 搜索引擎關(guān)鍵技術(shù)文本處理 這種分詞方法是通過讓計(jì)算機(jī)模擬人 對句子的理解,達(dá)到識別詞的效果。 其基本思想就是在分詞的同時(shí)進(jìn)行句

10、 法、語義分析,利用句法信息和語義信息 來處理歧義現(xiàn)象。 該分詞方法需要使用大量的語言知識 和信息。由于漢語語言知識的籠統(tǒng)、復(fù)雜 性,難以將各種語言信息組織成機(jī)器可直 接讀取的形式,因此目前基于理解的分詞 系統(tǒng)還處在試驗(yàn)階段。 搜索引擎關(guān)鍵技術(shù)文本處理 從形式上看,詞是穩(wěn)定的字的組合, 因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次 數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字 與字相鄰共現(xiàn)的頻率或概率能夠較好地反 映成詞的可信度。 于是可以對語料中相鄰共現(xiàn)的各個(gè)字 的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn) 信息?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系 的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值 時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)

11、詞。 搜索引擎關(guān)鍵技術(shù)文本處理 歧義識別 歧義是指同樣的一句話,可能有兩種 或者更多的切分方法,這是由中文本身的 特性形成的。 包括: 交叉歧義,如“表面的”; 組合歧義,如“這個(gè)門把手壞了”; 真歧義,如“乒乓球拍賣完了”。 搜索引擎關(guān)鍵技術(shù)文本處理 由于中文信息檢索系統(tǒng)中的索引項(xiàng)是 基于一定的詞庫構(gòu)建而成的,定期更新, 那么對于一些沒有收入詞庫而用戶提交查 詢的新詞,檢索系統(tǒng)是無法按照用戶的本 意來識別這些新詞的。 人名、機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo) 名、簡稱、省略語等都可能是新詞,目前 新詞識別準(zhǔn)確率已經(jīng)成為評價(jià)一個(gè)分詞系 統(tǒng)好壞的重要標(biāo)志之一。 搜索引擎關(guān)鍵技術(shù)文本處理 在網(wǎng)頁或文檔集合

12、中出現(xiàn)頻率高于 80%的單詞通常被稱為無用詞或停用詞 (stopword),它們對文檔的含義沒有任 何意義,不具有很好的文檔區(qū)分能力,需 要被過濾、屏蔽掉。 刪除無用詞,一方面可以減小索引空 間,另一方面可以提高檢索精度,但也可 能會降低系統(tǒng)的召回率(查全率),使得 用戶不能查到自己需要的網(wǎng)頁。 搜索引擎關(guān)鍵技術(shù)文本處理 詞干是去除單詞的前綴和后綴后剩 下的部分。詞干提取就是把同詞干同義 的不同詞語中的相同部分提取出來。 優(yōu)點(diǎn) a.在一定程度上提高信息獲取的性能 b.縮小索引空間的大小 缺點(diǎn) 可能會有勿截,造成詞義的改變,影響 查詢的結(jié)果 搜索引擎關(guān)鍵技術(shù)文本處理 查表法 詞綴刪除法 后繼變化數(shù) N個(gè)字符列 應(yīng)用最多的,最實(shí)際的詞干提取方法 是去除詞綴法。 Porter算法是最著名的詞綴去除方法。 搜索引擎關(guān)鍵技術(shù)文本處理 并不一定對文檔中出現(xiàn)的所有詞條都 建立索引,而是選擇一些比較重要的詞條 來建立索引。 科技文獻(xiàn)一般由專家來選擇索引詞匯,方 法準(zhǔn)確,但需消耗大量人力; 另一種可選的方法是通過對文檔

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論