搜索引擎關(guān)鍵技術(shù)文本處理

上傳人：f*** IP屬地：廣東上傳時(shí)間：2021-07-13 格式：PPT 頁數(shù)：29 大?。?63KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩24頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、搜索引擎關(guān)鍵技術(shù)文本處理搜索引擎關(guān)鍵技術(shù)文本處理本講稿對搜索引擎的關(guān)鍵技術(shù)進(jìn)行了概述，著重討論了信息預(yù)處理技術(shù)中的文本處理。搜索引擎關(guān)鍵技術(shù)文本處理信息收集和存儲技術(shù) 包括兩種方式：人工和自動(dòng)。人工方式采用傳統(tǒng)的信息收集、分類、存儲、組織和檢索的方法。自動(dòng)方式通常是由網(wǎng)絡(luò)機(jī)器人來完成的。一般來說，人工方式收集信息的準(zhǔn)確性要遠(yuǎn)優(yōu) 于“網(wǎng)絡(luò)機(jī)器人”，但其收集信息的效率及全面性低于“網(wǎng)絡(luò)機(jī)器人”。搜索引擎關(guān)鍵技術(shù)文本處理 2.信息預(yù)處理技術(shù) 信息預(yù)處理系統(tǒng)的主要工作是從抓取的網(wǎng)頁中提取能夠代表網(wǎng)頁的屬性，并將這些屬性組成網(wǎng)頁的對象，然后根據(jù)一定的相關(guān)度算法進(jìn)行計(jì) 算，得到

2、每一個(gè)網(wǎng)頁針對頁面內(nèi)容及鏈接每一個(gè) 關(guān)鍵詞的相關(guān)度，并用這些信息建立索引數(shù)據(jù)庫。關(guān)鍵詞的提取重復(fù)或轉(zhuǎn)載網(wǎng)頁的消除鏈接分析網(wǎng)頁重要程度的計(jì)算搜索引擎關(guān)鍵技術(shù)文本處理 3.信息索引技術(shù) 信息索引就是創(chuàng)建文檔信息的特征記錄，以便用戶能夠快速地檢索到所需信息。信息語詞切分和語詞詞法分析進(jìn)行詞性標(biāo)注及相關(guān)的自然語言處理建立檢索項(xiàng)索引檢索結(jié)果處理技術(shù) 搜索引擎關(guān)鍵技術(shù)文本處理文本處理是指將網(wǎng)絡(luò)爬蟲搜集到的文本信息進(jìn)行預(yù)處理，以便進(jìn)行網(wǎng)絡(luò)信息檢索的下一個(gè)流程索引處理。網(wǎng)頁噪聲去除待處理網(wǎng)頁干凈網(wǎng)頁詞匯分析詞序列詞干提取排除停用詞有用詞序列關(guān)鍵詞 HTML文檔預(yù)處理流程

3、搜索引擎關(guān)鍵技術(shù)文本處理文本處理的過程包括如下5個(gè)步驟：文本的詞法分析無用詞匯的刪除詞干提取索引詞條/詞干的選擇構(gòu)造詞條的分類結(jié)構(gòu) 搜索引擎關(guān)鍵技術(shù)文本處理詞法分析的過程是將字符串轉(zhuǎn)換成詞條的過程，因此詞法分析的主要目的就是識別文本中的詞條。關(guān)于詞法分析，中英文存在較大的區(qū) 別，英文單詞有空格分隔，易于識別，而中文文本以句子為自然分隔單位，要提取出詞語來，需要復(fù)雜的分詞技術(shù)。搜索引擎關(guān)鍵技術(shù)文本處理在對英文進(jìn)行分詞的過程中，除了空格分隔符，還有幾種特殊的情況要處理：數(shù)字、連字符、標(biāo)點(diǎn)符號和字母的大小寫。數(shù)字數(shù)字一般不作為索引詞，因?yàn)槿绻麤] 有上下文的聯(lián)系，

4、它們的含義是模糊不清的。現(xiàn)在常用的做法是保留一些專門指出的（通過與正規(guī)表達(dá)式的匹配）數(shù)字，而將其他數(shù)字過濾掉。搜索引擎關(guān)鍵技術(shù)文本處理連字符對連字符來說，也有兩難情況。一種方法是將連字符都忽略掉，例如 state-of-the-art等同于state of the art。但是，有些帶有連字符的單詞本身是一個(gè) 完整的單詞，如gilt-edged。對于連字符的處理，目前常用的是首先采用一定的規(guī)則選出那些對詞義有影響的連字符號，然后將其他連字符都過濾掉。搜索引擎關(guān)鍵技術(shù)文本處理標(biāo)點(diǎn)符號對于文本中的標(biāo)點(diǎn)符號，一般說來在詞法分析過程中將被全部去除。但是，對于那些成為單

5、詞中一部分的標(biāo)點(diǎn)符號來說，又要慎重考慮是否刪除標(biāo)點(diǎn)。另外一種特殊情況是程序片段出現(xiàn)在文本中，這時(shí)就要區(qū)分變量x.id與xid了。這種情況下，標(biāo)點(diǎn)符號應(yīng)該保留。搜索引擎關(guān)鍵技術(shù)文本處理字母的大小寫字母的大小寫對于區(qū)分索引詞條來說一般不是很重要，因此可以將文本中的所有詞條都轉(zhuǎn)換成大寫或者小寫。但是也存在特殊情況，例如對于描寫 UNIX命令的文檔，由于大小寫都是約定俗成的，因此用戶并不希望改變文檔中的大小寫。對于此種情況，就要特殊處理。搜索引擎關(guān)鍵技術(shù)文本處理中文分詞技術(shù)屬于自然語言處理技術(shù) 范疇，對于一句話，人可以通過自己的知識來明白哪些是詞，哪些不是詞，但如何讓計(jì)

6、算機(jī)也能理解？其處理過程就是分詞算法。與英文相比，中文詞與詞之間沒有分界符，需要人為切分，而且漢語中存在大量歧義現(xiàn)象，對幾個(gè)字分詞可能有好多種結(jié)果，因此將中文分詞技術(shù)專門提出來做詳細(xì)總結(jié)。搜索引擎關(guān)鍵技術(shù)文本處理單字切分按照中文一個(gè)字、一個(gè)字地進(jìn)行分詞。以這種方式切分出來的詞再進(jìn)入索引，稱為字索引。缺點(diǎn)：隨著索引的增大，相應(yīng)索引條目的內(nèi)容會不斷增大，嚴(yán)重影響效率。搜索引擎關(guān)鍵技術(shù)文本處理二分法二分法是指每兩個(gè)字進(jìn)行一次切分。該方法完全不考慮語義、語境，機(jī)械地對語句進(jìn)行處理，不是很好的分詞方式。詞庫分詞該方法是用一個(gè)已經(jīng)建立好的詞的集合（按某種算法）去匹

7、配目標(biāo)，當(dāng)遇上集合中已經(jīng)存在的詞時(shí)，就將其切分出來，是一種較理想的中文分詞方式。搜索引擎關(guān)鍵技術(shù)文本處理基于字符串匹配的分詞方法該方法又叫做機(jī)械分詞方法，基本思想是：截取一個(gè)字符串，把它與詞典中的詞條進(jìn)行匹配，若在詞典中找到對應(yīng)的詞，該字符串就被識別為一個(gè)詞。按照掃描方向的不同，可分為正向匹配和逆向匹配；按照不同長度優(yōu)先匹配的情況，可分為最大匹配和最小匹配；按照是否與詞性標(biāo)注過程相結(jié)合，可分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。搜索引擎關(guān)鍵技術(shù)文本處理主要思想：選取包含68個(gè)漢字的符號串作為最大符號串，把最大符號串與詞典中的單詞條目相匹配，如果不能匹

8、配，就削掉最右邊一個(gè)漢字繼續(xù)匹配，直到在詞典中找到相應(yīng)的單詞為止。正向是指匹配方式從左向右。例：“計(jì)算機(jī)科學(xué)和工程” 搜索引擎關(guān)鍵技術(shù)文本處理其分詞過程與正向最大匹配法相同，不同的是每次是從待處理語料的末尾開始處理，每次匹配不成功時(shí)去掉的是前面一個(gè)漢字，即匹配方向是從右到左。 FMM方法的錯(cuò)誤切分率為1/169， BMM方法的精度要高一些，其錯(cuò)誤切分率為1/245。搜索引擎關(guān)鍵技術(shù)文本處理基本原理：分別用FMM法和BMM法進(jìn) 行正向和逆向的掃描和切分，通過比較兩者的切分結(jié)果來決定正確的切分，而且可以識別出分詞中的交叉歧義。但是對于正、逆向的掃描結(jié)果一致但實(shí)際切分不正

9、確的字段（如“結(jié)合成分子時(shí)”）仍不能正確處理。缺點(diǎn)：時(shí)間復(fù)雜度增加，而且詞庫結(jié) 構(gòu)比一般的分詞詞庫要復(fù)雜很多。搜索引擎關(guān)鍵技術(shù)文本處理最少匹配算法FWM（Fewest Words Matching method）該算法實(shí)現(xiàn)的分詞結(jié)果中含詞數(shù)最少。設(shè)立切分標(biāo)識法該算法的思想是：優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞，以這些詞作為斷點(diǎn)，可將原字符串分為較小的串，然后用FMM或BMM法進(jìn)行細(xì)分。例：“這種設(shè)計(jì)方法學(xué)的理論，不可能有用” 搜索引擎關(guān)鍵技術(shù)文本處理這種分詞方法是通過讓計(jì)算機(jī)模擬人對句子的理解，達(dá)到識別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句

10、法、語義分析，利用句法信息和語義信息來處理歧義現(xiàn)象。該分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復(fù)雜性，難以將各種語言信息組織成機(jī)器可直接讀取的形式，因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。搜索引擎關(guān)鍵技術(shù)文本處理從形式上看，詞是穩(wěn)定的字的組合，因此在上下文中，相鄰的字同時(shí)出現(xiàn)的次數(shù)越多，就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好地反映成詞的可信度。于是可以對語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì)，計(jì)算它們的互現(xiàn) 信息?；ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí)，便可認(rèn)為此字組可能構(gòu)成了一個(gè)

11、詞。搜索引擎關(guān)鍵技術(shù)文本處理歧義識別歧義是指同樣的一句話，可能有兩種或者更多的切分方法，這是由中文本身的特性形成的。包括：交叉歧義，如“表面的”；組合歧義，如“這個(gè)門把手壞了”；真歧義，如“乒乓球拍賣完了”。搜索引擎關(guān)鍵技術(shù)文本處理由于中文信息檢索系統(tǒng)中的索引項(xiàng)是基于一定的詞庫構(gòu)建而成的，定期更新，那么對于一些沒有收入詞庫而用戶提交查詢的新詞，檢索系統(tǒng)是無法按照用戶的本意來識別這些新詞的。人名、機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo) 名、簡稱、省略語等都可能是新詞，目前新詞識別準(zhǔn)確率已經(jīng)成為評價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。搜索引擎關(guān)鍵技術(shù)文本處理在網(wǎng)頁或文檔集合

12、中出現(xiàn)頻率高于 80%的單詞通常被稱為無用詞或停用詞（stopword），它們對文檔的含義沒有任何意義，不具有很好的文檔區(qū)分能力，需要被過濾、屏蔽掉。刪除無用詞，一方面可以減小索引空間，另一方面可以提高檢索精度，但也可能會降低系統(tǒng)的召回率（查全率），使得用戶不能查到自己需要的網(wǎng)頁。搜索引擎關(guān)鍵技術(shù)文本處理詞干是去除單詞的前綴和后綴后剩下的部分。詞干提取就是把同詞干同義的不同詞語中的相同部分提取出來。優(yōu)點(diǎn) a.在一定程度上提高信息獲取的性能 b.縮小索引空間的大小缺點(diǎn) 可能會有勿截，造成詞義的改變，影響查詢的結(jié)果搜索引擎關(guān)鍵技術(shù)文本處理查表法詞綴刪除法后繼變化數(shù) N個(gè)字符列應(yīng)用最多的，最實(shí)際的詞干提取方法是去除詞綴法。 Porter算法是最著名的詞綴去除方法。搜索引擎關(guān)鍵技術(shù)文本處理并不一定對文檔中出現(xiàn)的所有詞條都建立索引，而是選擇一些比較重要的詞條來建立索引。科技文獻(xiàn)一般由專家來選擇索引詞匯，方法準(zhǔn)確，但需消耗大量人力；另一種可選的方法是通過對文檔

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

搜索引擎關(guān)鍵技術(shù)文本處理

文檔簡介

溫馨提示

最新文檔

評論

搜索引擎關(guān)鍵技術(shù)文本處理

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔