走進(jìn)搜索引擎

上傳人：文*** IP屬地：廣東上傳時(shí)間：2023-06-16 格式：PPTX 頁數(shù)：69 大小：2.43MB 積分：11.88 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩64頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

讀書筆記模板走進(jìn)搜索引擎01思維導(dǎo)圖讀書筆記目錄分析內(nèi)容摘要精彩摘錄作者介紹目錄0305020406思維導(dǎo)圖搜索引擎搜索第章引擎內(nèi)容章節(jié)方法搜索網(wǎng)頁模型問題引擎信息參考文獻(xiàn)查詢系統(tǒng)排序數(shù)據(jù)本書關(guān)鍵字分析思維導(dǎo)圖內(nèi)容摘要內(nèi)容摘要本書由搜索引擎開發(fā)研究領(lǐng)域三位年輕的博士生精心編寫，作者們希望將自己對搜索引擎的理解和實(shí)際應(yīng)用相結(jié)合，讓未接觸過搜索引擎原理和方法的讀者也能輕松讀懂該書的大部分內(nèi)容。本書在第一版的基礎(chǔ)上，刪除了搜索引擎歷史等章節(jié)，并對錯(cuò)誤和不足進(jìn)行了修訂和補(bǔ)充，同時(shí)增加了潘雪峰編寫的第6章“搜索引擎日志分析”，花貴春編寫的第7章“排序?qū)W習(xí)(LearningtoRank)”和梁斌編寫的第8章“搜索引擎的性能調(diào)優(yōu)”三個(gè)主要章節(jié)，變更的內(nèi)容約占第一版的一半。讀書筆記讀書筆記有沒有檢索方法的詳細(xì)使用方法介紹，比如介紹檢索技巧的書呢，不是這種理論化的。巨復(fù)雜的搜索引擎，感覺書上說得個(gè)大概，只是復(fù)雜系統(tǒng)里的冰山一角。整體上介紹了搜索的方方面面，不過都是較為寬泛淺顯的介紹，沒有深入，對新手了解整個(gè)搜索有所幫助。終于看完了，前面還能看懂，后面排序模型部分就有點(diǎn)看不大懂了，讀此書還是需要一定的數(shù)學(xué)和統(tǒng)計(jì)學(xué)功底。介紹搜索引擎原理通俗易懂，第六章開始公式過多，不適合非專業(yè)人士閱讀。前面還行，后面比較注重算法講解，但是也蜻蜓點(diǎn)水的講，重點(diǎn)性突出的不強(qiáng)。里面部分內(nèi)容介紹得不夠通俗易懂，比起《這就是搜索引擎》復(fù)雜了些。非常好的一本書，詳細(xì)介紹了搜索引擎實(shí)現(xiàn)的各個(gè)算法，可能最新的引擎有所更新。SEO—大數(shù)據(jù)時(shí)代的淘金者讀《走進(jìn)搜索引擎》有感自2012年以來，人們越來越多地提到“大數(shù)據(jù)”，用這個(gè)詞來描述信息爆炸時(shí)代產(chǎn)生海量數(shù)據(jù)，并命名與之相關(guān)的技術(shù)發(fā)展。后臺(tái)的智能算法、分析能力、關(guān)聯(lián)性的挖掘并形成新的數(shù)據(jù)關(guān)聯(lián)才是大數(shù)據(jù)研究的關(guān)鍵。精彩摘錄精彩摘錄搜索引擎的結(jié)構(gòu)清晰，分工明確。按照各自的功能劃分，分為以下4大系統(tǒng)：（1）下載系統(tǒng)；（2）分析系統(tǒng)；（3）索引系統(tǒng)；（4）查詢系統(tǒng)。與其說搜索引擎是一個(gè)查詢系統(tǒng)，不如說它是一個(gè)用戶定義的信息聚合系統(tǒng)。通過用戶輸入的查詢關(guān)鍵詞，搜索引擎推測用戶的查詢意圖，然后快速地返回相關(guān)的查詢結(jié)果，供用戶選擇。而在搜索引擎的內(nèi)部會(huì)有兩種不同的形式，一種以頁庫的方式存儲(chǔ)；一種成為頁對象被存儲(chǔ)在索引庫中。影響速度的原因很多，例如分詞的效果、索引庫的效率、分布查詢的處理能力和查詢緩存的命中率頁有重大意義；權(quán)威性頁是那些處于蝴蝶結(jié)中部或者右部的頁，這類頁的反向鏈接數(shù)很多，而正向鏈接數(shù)相對較少，通常認(rèn)為這類頁比較重要。分析系統(tǒng)主要完成的工作包括信息抽取、頁消重、中文分詞和PageRank計(jì)算等目錄分析1.1搜索引擎概述1.3搜索引擎的4大系統(tǒng)1.2搜索引擎的主要需求第1章引言1.1搜索引擎概述1.1.1目錄式搜索引擎1.1.2全文搜索引擎1.1.3元搜索引擎（Meta-SearchEngine）1.2搜索引擎的主要需求1.2.1快1.2.2全1.2.3準(zhǔn)1.2.4穩(wěn)1.2.5省1.3搜索引擎的4大系統(tǒng)1.3.1搜索引擎的體系結(jié)構(gòu)2.1爬蟲的發(fā)展歷史2.2萬維及其頁分析2.3有關(guān)爬蟲的基本概念2.4頁抓取原理2.5頁庫12345第2章搜索引擎的下載系統(tǒng)參考文獻(xiàn)2.6下載系統(tǒng)回顧及未來發(fā)展第2章搜索引擎的下載系統(tǒng)2.1爬蟲的發(fā)展歷史2.1.1世界上第1個(gè)爬蟲2.1.2爬蟲的發(fā)展歷程2.2萬維及其頁分析2.2.1蝴蝶結(jié)型的萬維2.2.2萬維的直徑2.2.3萬維的規(guī)模及變化特征2.2.4頁的特征2.3有關(guān)爬蟲的基本概念2.3.1爬蟲2.3.2種子站點(diǎn)2.3.3URL2.3.4Backlinks2.4頁抓取原理2.4.1telnet和wget2.4.2從種子站點(diǎn)開始逐層抓取2.4.3不重復(fù)抓取策略2.4.4頁抓取優(yōu)先策略2.4.5頁重訪策略2.4.6Robots協(xié)議2.4.7其他應(yīng)該注意的禮貌性問題2.4.8重要性頁優(yōu)先抓取策略2.4.9抓取提速策略（合作抓取策略）3.1知識準(zhǔn)備3.2信息抽取及頁信息結(jié)構(gòu)化3.3頁查重3.4中文分詞第3章搜索引擎的分析系統(tǒng)3.5PageRank參考文獻(xiàn)3.6分析系統(tǒng)結(jié)構(gòu)圖第3章搜索引擎的分析系統(tǒng)3.1知識準(zhǔn)備3.1.1HTML語言3.1.2錨文本（anchortext）3.1.3半結(jié)構(gòu)化數(shù)據(jù)（semi-structureddata）3.2信息抽取及頁信息結(jié)構(gòu)化3.2.1頁結(jié)構(gòu)化的目標(biāo)3.2.2建立HTML標(biāo)簽樹3.2.3通過投票方法得到正文3.2.4頁結(jié)構(gòu)化過程回顧3.3頁查重3.3.1頁查重技術(shù)發(fā)展歷史3.3.2頁查重實(shí)現(xiàn)方法3.4中文分詞3.4.1什么是中文分詞3.4.2通過字典實(shí)現(xiàn)分詞3.4.3基于統(tǒng)計(jì)的分詞方法3.5PageRank3.5.1PageRank的來由3.5.2PageRank的基本想法3.5.3PageRank的計(jì)算公式3.5.4PageRank的計(jì)算方法4.1知識準(zhǔn)備4.2全文檢索4.3文檔編號4.4倒排索引4.5數(shù)據(jù)規(guī)模的估計(jì)12345第4章搜索引擎的索引系統(tǒng)4.6涉及存儲(chǔ)規(guī)模的一些計(jì)算參考文獻(xiàn)4.7倒排索引文件的創(chuàng)建過程第4章搜索引擎的索引系統(tǒng)4.1知識準(zhǔn)備4.1.1信息4.1.2索引4.1.3倒排索引、倒排表、臨時(shí)倒排文件、最終倒排文件4.1.4其他概念4.3文檔編號4.3.1編號的本質(zhì)4.3.2文檔編號的方法4.3.3游程編碼4.4倒排索引4.4.1經(jīng)典的倒排索引4.4.2正排索引（前向索引）4.4.3倒排索引4.5數(shù)據(jù)規(guī)模的估計(jì)4.5.1齊普夫法則4.5.2布爾檢索模型下的索引規(guī)模估計(jì)4.6涉及存儲(chǔ)規(guī)模的一些計(jì)算4.6.1正排表與倒排表的合并4.6.2多個(gè)臨時(shí)倒排文件的歸并4.6.3倒排索引分布式存儲(chǔ)4.6.4倒排文件緩存4.6.5倒排索引詞典統(tǒng)計(jì)信息的計(jì)算4.7倒排索引文件的創(chuàng)建過程4.7.1創(chuàng)建倒排表4.7.2計(jì)算統(tǒng)計(jì)信息5.1知識準(zhǔn)備5.2頁信息檢索5.3中文自動(dòng)摘要5.4生成搜索結(jié)果頁第5章搜索引擎的查詢系統(tǒng)5.5搜索結(jié)果頁的緩存5.6推測用戶查詢意圖5.7查詢系統(tǒng)的當(dāng)前熱點(diǎn)和發(fā)展方向參考文獻(xiàn)第5章搜索引擎的查詢系統(tǒng)5.1知識準(zhǔn)備5.1.1什么是信息熵5.1.2檢索和查詢的區(qū)別5.1.3檢索詞和查詢詞的區(qū)別5.1.4自動(dòng)文本摘要（AutomaticTextSummarization）5.2頁信息檢索5.2.1早期的檢索模型5.2.2向量空間模型（VectorSpaceModels）5.2.3關(guān)鍵詞權(quán)重的量化方法TF/IDF5.2.4搜索引擎采用的檢索模型5.2.5多文檔列表求交計(jì)算5.2.6檢索結(jié)果排序5.2.7堆排序5.3中文自動(dòng)摘要5.3.1自動(dòng)摘要的發(fā)展歷史5.3.2自動(dòng)摘要的含義和實(shí)現(xiàn)5.4生成搜索結(jié)果頁5.4.1生成搜索結(jié)果頁5.6推測用戶查詢意圖5.6.1查詢分類5.6.2推測信息類、事物類的查詢意圖5.7查詢系統(tǒng)的當(dāng)前熱點(diǎn)和發(fā)展方向5.7.1查詢系統(tǒng)的當(dāng)前熱點(diǎn)5.7.2查詢系統(tǒng)的發(fā)展方向6.1簡介6.2知識準(zhǔn)備6.3查詢?nèi)罩痉治?.4點(diǎn)擊日志分析第6章搜索引擎日志分析6.5隱私問題參考文獻(xiàn)6.6本章總結(jié)第6章搜索引擎日志分析6.1簡介6.1.1人機(jī)交互的記錄——日志6.1.2分析搜索引擎日志的意義6.1.3本章的主要內(nèi)容6.2知識準(zhǔn)備6.2.1二分圖模型（BipartiteModel）6.2.2圖模型（graphicalmodel）6.2.3LDA（LatentDirichletAllocation）模型6.2.4隨機(jī)游走（RandomWalk）6.2.5小結(jié)6.3查詢?nèi)罩痉治?.3.1查詢?nèi)罩镜膬?nèi)容6.3.2查詢詞頻統(tǒng)計(jì)6.3.3查詢詞提示（Suggestion）6.3.4命名實(shí)體（NamedEntity）類別識別6.3.5小結(jié)6.4點(diǎn)擊日志分析6.4.1點(diǎn)擊日志的內(nèi)容6.4.2查詢串提示（Suggestion）再分析6.4.3查詢和結(jié)果類別屬性傳遞6.4.4搜索結(jié)果相似性度量6.4.5查詢結(jié)果排序6.4.6點(diǎn)擊數(shù)據(jù)的稀疏性6.4.7小結(jié)6.5隱私問題6.5.1日志的兩面性6.5.2日志的安全使用6.5.3小結(jié)7.1排序概述7.2傳統(tǒng)的排序模型7.3排序?qū)W習(xí)簡介以及研究現(xiàn)狀7.4排序?qū)W習(xí)模型的應(yīng)用實(shí)例7.5排序?qū)W習(xí)方法的框架12345第7章排序?qū)W習(xí)（LearningtoRank）7.6評測數(shù)據(jù)集7.7排序?qū)W習(xí)模型簡介7.8排序?qū)W習(xí)模型性能比較7.9排序?qū)W習(xí)的研究方向7.10總結(jié)參考文獻(xiàn)010302040506第7章排序?qū)W習(xí)（LearningtoRank）7.2傳統(tǒng)的排序模型7.2.1查詢相關(guān)的排序模型7.2.2查詢無關(guān)的排序模型7.3排序?qū)W習(xí)簡介以及研究現(xiàn)狀7.3.1排序?qū)W習(xí)簡介7.3.2排序?qū)W習(xí)問題的研究現(xiàn)狀7.5排序?qū)W習(xí)方法的框架7.5.1參數(shù)設(shè)置7.5.2排序?qū)W習(xí)方法的框架7.6評測數(shù)據(jù)集7.6.1LETOR數(shù)據(jù)集7.6.2MicrosoftLearningtoRank數(shù)據(jù)集7.6.3YahooWebscope數(shù)據(jù)集7.7排序?qū)W習(xí)模型簡介7.7.1實(shí)例7.7.2Pointwise方法7.7.3Pairwise方法7.7.4Listwise方法7.7.53種排序方法的對比7.8排序?qū)W習(xí)模型性能比較7.8.1評測方法7.8.2排序模型性能的比較7.9排序?qū)W習(xí)的研究方向7.9.1標(biāo)準(zhǔn)標(biāo)注的自動(dòng)構(gòu)建7.9.2排序特征7.9.3半監(jiān)督學(xué)習(xí)/主動(dòng)學(xué)習(xí)7.9.4查詢相關(guān)的排序模型7.9.5利用用戶行為特征8.1系統(tǒng)調(diào)優(yōu)概述8.2瓶頸識別8.3涉及CPU的優(yōu)化方法8.4涉及內(nèi)存的優(yōu)化方法8.5涉及磁盤的優(yōu)化方法12345第8章搜索引擎的性能調(diào)優(yōu)參考文獻(xiàn)8.6涉及絡(luò)的優(yōu)化方法第8章搜索引擎的性能調(diào)優(yōu)8.3涉及CPU的優(yōu)化方法8.3.1上下文切換問題（contextswitching）8.3.2中斷和輪詢8.3.3CPU的Affinity問題8.3.4流水線問題8.4涉及內(nèi)存的優(yōu)化方法8.4.1概述8.4.2對換區(qū)8.4

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

走進(jìn)搜索引擎

文檔簡介

溫馨提示

最新文檔

評論

走進(jìn)搜索引擎

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔