搜索引擎開發(fā)培訓(xùn)課程提綱.ppt_第1頁(yè)
搜索引擎開發(fā)培訓(xùn)課程提綱.ppt_第2頁(yè)
搜索引擎開發(fā)培訓(xùn)課程提綱.ppt_第3頁(yè)
搜索引擎開發(fā)培訓(xùn)課程提綱.ppt_第4頁(yè)
搜索引擎開發(fā)培訓(xùn)課程提綱.ppt_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Find Real Matter,搜索引擎開發(fā)培訓(xùn)課程提綱,Find Real Matter,前導(dǎo)知識(shí),Core Java Java技術(shù)手冊(cè) 編譯原理 Modern compiler implementation in Java 概率論 應(yīng)用隨機(jī)過程:概率模型導(dǎo)論 數(shù)據(jù)結(jié)構(gòu) JAVA算法,Find Real Matter,了解搜索引擎,Google神話. 體驗(yàn)搜索引擎 把搜索范圍限定在網(wǎng)頁(yè)標(biāo)題中intitle. 把搜索范圍限定在特定站點(diǎn)中site. 把搜索范圍限定在url鏈接中inurl. 做自己的搜索(代碼) 實(shí)現(xiàn)制作索引的功能,實(shí)現(xiàn)搜索功能.,Find Real Matter,遍歷搜索引擎技術(shù),30分鐘實(shí)現(xiàn)的搜索引擎 . 準(zhǔn)備工作環(huán)境(10分鐘) . 編寫代碼(15分鐘) 發(fā)布運(yùn)行(5分鐘) 實(shí)現(xiàn)一個(gè)基于WEB結(jié)構(gòu)的搜索引擎。(代碼),Find Real Matter,網(wǎng)絡(luò)蜘蛛,全文索引結(jié)構(gòu) Nutch網(wǎng)絡(luò)搜索軟件 商業(yè)搜索引擎技術(shù)介紹 自己的網(wǎng)絡(luò)蜘蛛(代碼) 廣度遍歷 深度遍歷 正則表達(dá)式,Find Real Matter,BerkeleyDB,BerkeleyDB.原理與使用方法 B樹講解 基本API使用(代碼),Find Real Matter,抓取技術(shù),抓取網(wǎng)頁(yè) MP3 抓取 RSS 抓取 圖片抓取 垂直行業(yè)抓取 抓取數(shù)據(jù)庫(kù)中的內(nèi)容 抓取本地硬盤上的文件,Find Real Matter,提取文檔中的文本內(nèi)容,從HTML文件中提取文本 結(jié)構(gòu)化信息提取 網(wǎng)頁(yè)去噪 htmlparser的基本使用(代碼),Find Real Matter,正文提取,DOM樹原理 NekoHTML講解 NekoHTML簡(jiǎn)單應(yīng)用(代碼) NekoHTML用法的深入了解(代碼) 遞歸調(diào)用方法的使用,Find Real Matter,從非HTML文件中提取文本,TEXT文件 PDF文件 Word文件 Excel文件 PowerPoint文件 流媒體內(nèi)容提取,Find Real Matter,中文分詞處理,Lucene 中的中文分詞 Lietu中文分詞的使用 中文分詞的原理 正向最大匹配(代碼),Find Real Matter,查找詞典算法,數(shù)字搜索樹 Tire樹 Trie樹的生成過程(代碼) 使用Trie樹的常規(guī)的API(代碼) 理解Trie樹的平衡過程(代碼) Trie樹的改造以及應(yīng)用(代碼) 最佳前驅(qū)匹配(代碼) 語(yǔ)法解析樹,隱碼模型,發(fā)射概率概念 轉(zhuǎn)移概率概念 統(tǒng)計(jì)一個(gè)詞庫(kù)中的發(fā)射概率和轉(zhuǎn)移概(代碼) 隱碼模型的實(shí)際應(yīng)用(代碼),Find Real Matter,文檔排重,語(yǔ)義指紋 語(yǔ)義指紋的概念 語(yǔ)義指紋的實(shí)際應(yīng)用(代碼),Find Real Matter,中文關(guān)鍵詞提取,關(guān)鍵詞提取的基本方法 關(guān)鍵詞提取的設(shè)計(jì) 從網(wǎng)頁(yè)提取關(guān)鍵詞 關(guān)鍵詞提取的實(shí)際應(yīng)用(代碼),Find Real Matter,拼寫檢查,英文拼寫檢查 中文拼寫檢查 英文拼寫檢查的實(shí)際應(yīng)用(代碼),Find Real Matter,自動(dòng)摘要,自動(dòng)摘要技術(shù) 自動(dòng)摘要的設(shè)計(jì) 具體的應(yīng)用(代碼),Find Real Matter,自動(dòng)分類,自動(dòng)分類的接口定義 自動(dòng)分類的SVM方法實(shí)現(xiàn) 多級(jí)分類,Find Real Matter,自動(dòng)聚類,聚類的定義 K均值聚類方法 K均值實(shí)現(xiàn),Find Real Matter,語(yǔ)義搜索,準(zhǔn)備語(yǔ)義詞庫(kù) 把語(yǔ)義詞庫(kù)轉(zhuǎn)換成同義詞索引庫(kù) 在SynonymAnalyzer中使用同義詞索引庫(kù) 具體的代碼解析(代碼) JUnit 介紹,Find Real Matter,跨語(yǔ)言搜索,簡(jiǎn)繁轉(zhuǎn)換(代碼),Find Real Matter,Lucene 的索引庫(kù),理解 Lucene 的索引庫(kù)結(jié)構(gòu) 設(shè)計(jì)一個(gè)簡(jiǎn)單的索引庫(kù)(代碼),Find Real Matter,創(chuàng)建和維護(hù)索引庫(kù),創(chuàng)建索引庫(kù) 向索引庫(kù)中添加索引文檔 刪除索引庫(kù)中的索引文檔 更新索引庫(kù)中的索引文檔 索引的合并 索引的定時(shí)更新 索引的備份和恢復(fù) (以上部分均有實(shí)現(xiàn)代碼),Find Real Matter,優(yōu)化使用 Lucene,索引優(yōu)化 查詢優(yōu)化 實(shí)現(xiàn)字詞混合索引 定制Tokenizer 查詢大容量索引 (以上部分均有實(shí)現(xiàn)代碼),Find Real Matter,用戶界面設(shè)計(jì)與實(shí)現(xiàn),Lucene 搜索接口 搜索頁(yè)面設(shè)計(jì) 用于顯示搜索結(jié)果的 taglib 用于搜索結(jié)果分頁(yè)的 taglib 設(shè)計(jì)一個(gè)簡(jiǎn)單的搜索頁(yè)面 實(shí)現(xiàn)一個(gè)日文搜索項(xiàng)目的頁(yè)面設(shè)計(jì)(代碼),Find Real Matter,實(shí)現(xiàn)搜索接口,布爾搜索 指定范圍搜索 設(shè)置過濾條件 搜索結(jié)果排序 搜索頁(yè)面的索引緩存與更新 (以上部分均有實(shí)現(xiàn)代碼),Find Real Matter,關(guān)鍵詞高亮顯示,結(jié)合以前學(xué)習(xí)的內(nèi)容學(xué)會(huì)使用highlighter包(代碼) 理解其包中基本類的使用 實(shí)際應(yīng)用,Find Real Matter,實(shí)現(xiàn)多維視圖及相關(guān)搜索,實(shí)現(xiàn)多維視圖 bitsSet介紹 計(jì)算機(jī)中進(jìn)制轉(zhuǎn)換和位移介紹 MoreLikeThis的具體使用 (以上部分均有實(shí)現(xiàn)代碼),Find Real Matter,實(shí)現(xiàn)AJAX自動(dòng)完成,用AJAX技術(shù)設(shè)計(jì)搜索頁(yè)面(代碼),Find Real Matter,用Solr實(shí)現(xiàn)分布式搜索,Solr服務(wù)器端的配置與中文支持 把數(shù)據(jù)放進(jìn)Solr 從Solr刪除數(shù)據(jù) SolrJ客戶端搜索界面 Solr搜索結(jié)果優(yōu)化 Solr的.net客戶端 Solr的PHP客戶端,Find Real Matter,圖像的OCR識(shí)別,調(diào)用OCR識(shí)別圖像的過程 基于SVM的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論