Project 3 說(shuō)明及 評(píng)判標(biāo)準(zhǔn) - 北京大學(xué)_第1頁(yè)
Project 3 說(shuō)明及 評(píng)判標(biāo)準(zhǔn) - 北京大學(xué)_第2頁(yè)
Project 3 說(shuō)明及 評(píng)判標(biāo)準(zhǔn) - 北京大學(xué)_第3頁(yè)
Project 3 說(shuō)明及 評(píng)判標(biāo)準(zhǔn) - 北京大學(xué)_第4頁(yè)
Project 3 說(shuō)明及 評(píng)判標(biāo)準(zhǔn) - 北京大學(xué)_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Project 3 說(shuō)明及評(píng)判標(biāo)準(zhǔn)1提綱建索引查詢(xún)文檔2建索引:過(guò)程(1/3)預(yù)處理分詞抽取posting排序輸出3建索引:過(guò)程(2/3)1) 預(yù)處理全文檢索處理的對(duì)象是文字。因此,對(duì)于非純文本格式的文件,如HTML,PDF等,需要去掉其中的格式信息,轉(zhuǎn)換為純文本。假設(shè)文檔都是純文本的,不需要考慮非純文本格式的預(yù)處理過(guò)程2) 分詞/詞形變換相對(duì)于英文全文檢索,分詞是中文獨(dú)有的困難。由于詞與詞之間沒(méi)有明顯的邊界,需要使用分詞算法把句子分割成單詞的序列。在目前的技術(shù)條件下,分詞不能達(dá)到100%準(zhǔn)確,而分詞錯(cuò)誤會(huì)直接影響查詢(xún)效果。詞形變換:英文單詞的單復(fù)數(shù)、時(shí)態(tài)等分詞可以使用ICTCLAS的分詞工具

2、(最后補(bǔ)充里介紹),我們也會(huì)提供已經(jīng)分詞處理過(guò)的測(cè)試文檔集。4建索引:過(guò)程 (3/3)3) 抽取posting文檔-詞 自然關(guān)系的倒置過(guò)程,生成 詞-文檔把單詞和對(duì)應(yīng)的文檔編號(hào),出現(xiàn)位置相結(jié)合,生成三元組(posting)。4) 排序先按單詞(字典順序),其次文檔id,最后出現(xiàn)位置pos,對(duì)所有posting排序,產(chǎn)生倒排表。5) 輸出按順序?qū)⒌古疟韺?xiě)到磁盤(pán)上。5建索引:基本要求設(shè)計(jì)一個(gè)方便的方式讓用戶(hù)對(duì)指定文件或指定目錄下的文件建立索引你可以提供一個(gè)函數(shù)接口,讓用戶(hù)在程序中使用你的函數(shù)建立索引,比如:int Indexer:index(const char* srcDir, const ch

3、ar* destDir)提供一個(gè)命令行界面提供一個(gè)圖形界面C: index.exe D:/data D:/index6建索引:FAQ索引是動(dòng)態(tài)的還是靜態(tài)的?大家可以自由選擇。索引是否需要持久化,即寫(xiě)入硬盤(pán)?一個(gè)完整的檢索系統(tǒng)肯定需要索引的持久化,但是不作硬性要求,留作加分點(diǎn)。其他源數(shù)據(jù)是純文本格式,不需要考慮HTML、WORD等文件格式。不需要考慮英文的詞形轉(zhuǎn)換。7建索引:示例lucene索引結(jié)構(gòu) apple foo bar apple applet aqua foo .tii(in memory).tis docIds for apple docIds for applet proxs fo

4、r apple proxs for applet .frq.prx順序查找=8建索引:如何建立倒排文件對(duì)于較小的文檔集,可在完全在內(nèi)存中對(duì)其建立倒排索引,再寫(xiě)到文件中。當(dāng)文檔集很大時(shí),問(wèn)題就出現(xiàn)了:不可能在內(nèi)存中對(duì)所有的文檔建立倒排索引。于是,必須把文檔集分成若干塊,分塊建立索引。生成多個(gè)倒排文件后,再把它們歸并成一個(gè)大文件。如下圖所示:9建索引:歸并I-1I-2I-3I-6I-4I-5I-8I-74152I-1.2I-3.4I-5.6I-7.836I-1.4I-5.87I-1.810提綱建索引查詢(xún)文檔11查詢(xún):過(guò)程從倒排文件中查找分三個(gè)基本步驟:詞典的查找。注意每個(gè)查詢(xún)可能包含若干個(gè)詞。獲得

5、各個(gè)詞的posting列表對(duì)posting列表的處理。如處理詞的相鄰位置關(guān)系,布爾查詢(xún)等。12查詢(xún):基本要求必須設(shè)計(jì)并提供一個(gè)查詢(xún)接口,比如:Hits* Searcher:search(const string& queryString);orint Searcher:search(const string& queryString, Hits& hits);查詢(xún)結(jié)果必須起碼給出查詢(xún)到的文檔們的路徑。13查詢(xún):支持的基本查詢(xún)?cè)~查詢(xún)只有一個(gè)詞,比如,你在google里輸入 “中國(guó)”返回包含“中國(guó)”的文檔。最基礎(chǔ)的查詢(xún)方式。如何表示結(jié)果?簡(jiǎn)單布爾查詢(xún)AND操作:即詞查詢(xún)的結(jié)果做集合與運(yùn)算“中國(guó) A

6、ND 人民” 返回既包含“中國(guó)” 又包含“人民”的文檔。短語(yǔ)查詢(xún)“中國(guó)人民”即中國(guó) AND 人民,并且“中國(guó)”和“人民”這兩個(gè)詞的位置在文檔中是相鄰的。需要用到posting里的位置信息。14查詢(xún):可以考慮支持但不作要求的Ranked查詢(xún)對(duì)返回的結(jié)果排個(gè)序,把認(rèn)為重要的結(jié)果放在前面。如何排序?最簡(jiǎn)單原始的想法就是使用某個(gè)詞在文檔中出現(xiàn)的頻率?比如,對(duì)于詞查詢(xún):“中國(guó)”, “中國(guó)”在文檔1中出現(xiàn)了10次,在文檔2中出現(xiàn)了20次,在文檔3中出現(xiàn)了11次, 那么最后返回的結(jié)果應(yīng)該是:1. 文檔22. 文檔33. 文檔1TopK查詢(xún)返回前k條排序值最高的結(jié)果??梢岳枚褑??15提綱建索引查詢(xún)文檔16文

7、檔對(duì)基本功能的實(shí)現(xiàn)情況自己的特色系統(tǒng)實(shí)現(xiàn)接口描述程序界面建索引查詢(xún):比如查詢(xún)的函數(shù),簡(jiǎn)單的查詢(xún)語(yǔ)法用戶(hù)界面(如果有,大體描述下如何使用)索引結(jié)構(gòu)邏輯結(jié)構(gòu)物理結(jié)構(gòu)其他優(yōu)化重要算法過(guò)程的描述建索引算法查詢(xún)算法小組成員之間的詳細(xì)分工情況其他想法和心得17其他注意事項(xiàng)附加說(shuō)明:程序有誠(chéng)實(shí)代碼,最好每個(gè)文件都有,文檔有簽名(寫(xiě)明姓名,學(xué)號(hào)),每項(xiàng)占0.5分,如果沒(méi)有則扣分。文檔部分寫(xiě)明自己的設(shè)計(jì)思路,如果是有特色的設(shè)計(jì),一定要說(shuō)明,因?yàn)橹炭闯绦蚩赡軟](méi)有看出來(lái)。(比如:為了提高查詢(xún)速度,我采用了什么樣的獨(dú)特設(shè)計(jì))再次提醒,提交正確的文檔(正確作業(yè)(不要提交別的作業(yè)),編譯通過(guò),結(jié)果正確)18Thank You!19分詞補(bǔ)充:ICTCLAS中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究基礎(chǔ)上,耗時(shí)一年研制出了漢語(yǔ)詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)功能有:中文分詞;詞性標(biāo)注;未登錄詞識(shí)別。分詞正確率高達(dá)97%以上,未登錄詞識(shí)別召回率均高于90%,其中中國(guó)人名的識(shí)別召回率接近98%處

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論