下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
搜索引擎技術(shù)基礎(chǔ)_華中科技大學中國大學mooc課后章節(jié)答案期末考試題庫2023年對于基于統(tǒng)計的分詞方法,以下說法正確的是
參考答案:
相鄰的字出現(xiàn)的概率,遠遠大于單字出現(xiàn)的概率之和,則有可能成為一個詞_對常見詞的識別精度差,計算量大_可以結(jié)合上下文識別生詞_對需要分詞的材料進行分析,得到相應(yīng)的單字出現(xiàn)的概率
中文分詞方法可以分為
參考答案:
基于統(tǒng)計的分詞方法-統(tǒng)計語言模型_基于詞典(字符串匹配)的分詞方法_混合分詞方法
關(guān)于網(wǎng)絡(luò)爬蟲,下面說法不正確的是
參考答案:
網(wǎng)絡(luò)爬蟲的遍歷算法要盡量避免握手的次數(shù),減少通信開銷_分布式系統(tǒng)的通訊開銷是影響性能的關(guān)鍵_由成百上千甚至成千上萬臺服務(wù)器組成的分布式系統(tǒng)
評估搜索引擎質(zhì)量的指標包括
參考答案:
新_快_全_穩(wěn)
以下關(guān)于深度和廣度優(yōu)先遍歷算法表述正確的是
參考答案:
深度優(yōu)先效率較低_廣度優(yōu)先效率較高
搜索引擎的網(wǎng)頁的遍歷算法主要包括
參考答案:
廣度優(yōu)先_深度優(yōu)先
搜索引擎的結(jié)構(gòu)包括
參考答案:
檢索模塊_預(yù)處理模塊_網(wǎng)頁抓取模塊_用戶接口
以下搜索引擎的說法正確的是
參考答案:
根據(jù)一定的策略、運用特定的計算機程序搜集互聯(lián)網(wǎng)上的信息_搜索引擎通過蜘蛛或爬蟲獲取頁面信息_爬蟲是通過頁面間的鏈接關(guān)系自動獲取頁面信息_在對信息進行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)
搜索引擎獲得成功的原因是
參考答案:
簡單易用_互聯(lián)網(wǎng)上的海量數(shù)據(jù)
以下關(guān)于搜索引擎的表述,正確的是
參考答案:
在對信息進行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)_根據(jù)一定的策略、運用特定的計算機程序搜集互聯(lián)網(wǎng)上的信息_它是一種網(wǎng)上信息檢索工具,多以Web(萬維網(wǎng))站點形式存在
第一個全文字符檢索的搜索引擎是
參考答案:
WebCrawler
世界上第一個搜索引擎是
參考答案:
Wanderer/Wandex
利用分布式集群系統(tǒng)實現(xiàn)搜索引擎的優(yōu)點是
參考答案:
擴展性強_節(jié)約成本_高容錯性
基于內(nèi)容的視頻檢索涉及到
參考答案:
視頻分析_人工智能_圖像處理_音頻處理
基于內(nèi)容的多媒體搜索的需求包括
參考答案:
快速準確的訪問_個性化內(nèi)容創(chuàng)作與消費_內(nèi)容管理_基于內(nèi)容的檢索
基于文本的音頻(音樂)搜索可以通過音頻的哪些特征進行搜索
參考答案:
標題_專輯_類型_藝術(shù)家
關(guān)于圖像的相似性搜索,下面說法錯誤的是
參考答案:
查詢輸入為圖像的說明
關(guān)于基于標簽的圖像搜索,下面說法錯誤的是
參考答案:
標簽是通過網(wǎng)絡(luò)算法自動添加的
搜索引擎的主要組成部分有
參考答案:
預(yù)處理模塊_網(wǎng)頁抓取模塊_檢索模塊_用戶接口
和網(wǎng)頁中圖像相關(guān)的文本包括
參考答案:
圖像的標題_圖像周圍的文字
關(guān)于散列式搜索引擎,下面說法正確的是
參考答案:
對任何的索引詞準確地定位到具體的索引服務(wù)器,從而定位到正確的文檔服務(wù)器_設(shè)計簡單,抗壓能力強_根據(jù)關(guān)鍵詞Term對索引服務(wù)器和文檔服務(wù)器進行散列
可以解決散列式搜索引擎的缺點的方法有
參考答案:
混合式搜索引擎_緩存策略_備份策略
以下可以影響網(wǎng)頁排序的因素有
參考答案:
合理利用網(wǎng)頁的頁面版式,可提升網(wǎng)頁在搜索結(jié)果頁的排序位置_網(wǎng)頁中合適的錨文本會增加所在網(wǎng)頁和所指向網(wǎng)頁的重要程度
PageRank算法主要內(nèi)容包括
參考答案:
到一個頁面的超鏈接相當于對該頁投一票_一個有較多鏈入的頁面會有較高的等級,相反如果一個頁面沒有任何鏈入頁面,那么它沒有等級_把超鏈接關(guān)系作為一個“投票”動作,一個頁面的“得票數(shù)”由所有鏈向它的頁面的重要性來決定_一個頁面的PageRank是由所有鏈向它的頁面(“鏈入頁面”)的重要性經(jīng)過遞歸算法得到的,獲得較多投票的網(wǎng)頁質(zhì)量較高
關(guān)于PageRank算法,下面說法正確的是
參考答案:
用于衡量特定網(wǎng)頁相對其他網(wǎng)頁而言的重要程度_由LarryPage和SergeyBrin在20世紀90年代后期發(fā)明_PageRank算法思想是讓鏈接鏈“投票”_將對頁面的鏈接看成投票,實現(xiàn)了將鏈接價值概念作為排名因素
對于向量空間模型的查詢詞項不匹配的問題,可以使用的解決方法有
參考答案:
對用戶個體檢索偏好分析,提高信息檢索個性_對用戶整體搜索偏好和熱點分析,提高檢索實時性_根據(jù)語義對查詢詞進行擴展_充分利用錨文本(anchortext)信息
關(guān)于向量空間模型,下列說法正確的是
參考答案:
其英文縮寫是VSM_Salton等人1975在CommunicationsoftheACM中提出_一種文檔表示和相似性計算的工具_簡單、易于實現(xiàn)
向量空間模型的基本思想包括
參考答案:
從一篇文檔中抽取出n個關(guān)鍵詞,其中每個特征會根據(jù)某種算法計算其權(quán)重,這n維帶有權(quán)重的特征向量就用來表示這一篇文檔兩個文檔的相似度就是兩個空間圖的接近度_把每個文檔看做是由n維特征組成的一個向量_特征的定義可以采取不同方式,最常見的是以詞作為特征
關(guān)于布爾模型,下面說法正確的是
參考答案:
早期搜索引擎使用的檢索模型_基于布爾模型的檢索是通過集合的布爾運算,得到該檢索詞的返回文檔集合_包含邏輯與、邏輯或和邏輯非三種邏輯運算_基于集合論和布爾代數(shù)
搜索引擎的排序算法有
參考答案:
布爾模型_鏈接分析排序_向量空間模型
下面說法正確的是
參考答案:
搜索結(jié)果的順序至關(guān)重要_用戶對網(wǎng)頁的瀏覽視線呈"F"型_客觀公正的排序是衡量搜索引擎質(zhì)量的重要指標
關(guān)于圖像搜索,下面說法正確的是
參考答案:
基于文本的圖像搜索的本質(zhì)是文本搜索_基于標簽的圖像搜索是基于文本的圖像搜索的一種
關(guān)于搜索引擎的分布式存儲,下面說法正確的是
參考答案:
分布式存儲采用緩存機制,以提高搜索速度
分布式搜索引擎需要解決的核心問題包括
參考答案:
數(shù)據(jù)處理后的分布式存儲和管理_前端搜索服務(wù)的分布_分布的信息獲取、計算和數(shù)據(jù)統(tǒng)一
關(guān)于并行抓取,下面說法正確的是
參考答案:
并行抓取可減少網(wǎng)絡(luò)流量_并行抓取分為靜態(tài)策略和動態(tài)策略_動態(tài)策略利用一臺URLServer作為URL的提供者
關(guān)于倒排索引,下面說法正確的是
參考答案:
本地倒排是指按照doc分配所有的(term,doc)信息_全局倒排是指按照term分配所有的(term,doc)信息_倒排索引是由索引項和倒排表組成
分布式檢索的步驟包括
參考答案:
檢索_查詢分析_提交查詢_結(jié)果合并
關(guān)于分布式元搜索引擎,下面說法正確的是
參考答案:
分布式元搜
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年個人掛靠建筑公司工程質(zhì)量監(jiān)督與驗收合同4篇
- 遙感專題圖課程設(shè)計
- 2024跨界合作口罩定制協(xié)議范例
- 2024版文化旅游項目投資與運營合同
- 終止2025年度版權(quán)許可合同3篇
- 高中單詞背誦課程設(shè)計
- 麥當勞培訓課程設(shè)計
- .7.15.難治性感染抗菌治療的病例分析
- 2024版項目投資居間合同
- 2025年度槽罐車運輸安全培訓及資質(zhì)認證合同3篇
- 第7課《中華民族一家親》(第一課時)(說課稿)2024-2025學年統(tǒng)編版道德與法治五年級上冊
- 2024年醫(yī)銷售藥銷售工作總結(jié)
- 急診科十大護理課件
- 山東省濟寧市2023-2024學年高一上學期1月期末物理試題(解析版)
- GB/T 44888-2024政務(wù)服務(wù)大廳智能化建設(shè)指南
- 2025年上半年河南鄭州滎陽市招聘第二批政務(wù)輔助人員211人筆試重點基礎(chǔ)提升(共500題)附帶答案詳解
- 山東省濟南市歷城區(qū)2024-2025學年七年級上學期期末數(shù)學模擬試題(無答案)
- 國家重點風景名勝區(qū)登山健身步道建設(shè)項目可行性研究報告
- 投資計劃書模板計劃方案
- 《接觸網(wǎng)施工》課件 3.4.2 隧道內(nèi)腕臂安裝
- 2024-2025學年九年級語文上學期第三次月考模擬卷(統(tǒng)編版)
評論
0/150
提交評論