搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用_第1頁
搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用_第2頁
搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用_第3頁
搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用_第4頁
搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、    搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用    姚銀杰摘 要:本文對(duì)搜索引擎的工作原理進(jìn)行了探討,分析了搜索引擎技術(shù)在圖書館智能搜索中的應(yīng)用及改進(jìn)措施,希望通過本文的研究,有助于促進(jìn)搜索引擎技術(shù)在圖書館搜索中的應(yīng)用,為加強(qiáng)對(duì)搜索引擎技術(shù)的研究起到拋磚引玉的作用。關(guān)鍵詞:搜索引擎;智能搜索引擎;圖書館一、圖書館建立智能搜索引擎的必要性分析隨著各個(gè)高校規(guī)模的不斷擴(kuò)大,高校收藏的圖書、文獻(xiàn)資料的量越來越龐大,但是其傳統(tǒng)的搜索引擎所具有的功能是比較簡(jiǎn)單的,僅僅只能對(duì)書名、作者、年份等信息來進(jìn)行搜索,讀者往往需要從成千上萬條搜索結(jié)果中去挑選自己所想要的結(jié)果

2、,搜索體驗(yàn)較低。因此,運(yùn)用智能搜索引擎,能夠?yàn)樽x者提供專業(yè)性強(qiáng)、針對(duì)性強(qiáng)的搜索服務(wù),同時(shí)還能夠在內(nèi)容上進(jìn)行分類,對(duì)搜索結(jié)果根據(jù)檢索的關(guān)鍵詞進(jìn)行相關(guān)性排序,能夠大大節(jié)約讀者檢索的時(shí)間,提升高校圖書館的利用效率。二、智能搜索引擎的優(yōu)勢(shì)智能搜索引擎具有很多傳統(tǒng)搜索引擎不具備的優(yōu)勢(shì):其一,與互聯(lián)網(wǎng)的網(wǎng)頁數(shù)量相比,圖書館的書籍文獻(xiàn)資料要少得多,因此將每一本書當(dāng)做一個(gè)頁面來采取pagerank算法來進(jìn)行搜索,能夠大大減少檢索的時(shí)間。其二,圖書館中的信息一般都是由圖書館的工作人員通過手動(dòng)錄入的,每一本書的相關(guān)信息是比較全面的,因此在搜索結(jié)果中不會(huì)出現(xiàn)作弊的現(xiàn)象,例如重復(fù)關(guān)鍵詞。在這種情況下,能夠減少一些不必

3、要的設(shè)計(jì),建立起搜索引擎是相對(duì)簡(jiǎn)單的。其三,圖書館用戶對(duì)信息的檢索要求并不復(fù)雜,所給出的關(guān)鍵詞的集中度比較高,搜索引擎的接受度比較高。三、搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用(一)圖書館智能搜索的pagerank算法的設(shè)計(jì)1、個(gè)性化pagerank算法設(shè)計(jì)的基本思路pagerank在互聯(lián)網(wǎng)網(wǎng)頁的搜索應(yīng)用中,是通過蜘蛛(spider)從互聯(lián)網(wǎng)中獲得網(wǎng)頁,再以不同網(wǎng)頁之間相互鏈接的次數(shù)作為依據(jù),來對(duì)一個(gè)網(wǎng)頁的相關(guān)性進(jìn)行評(píng)價(jià)。pagerank在互聯(lián)網(wǎng)網(wǎng)頁搜索中的核心,是先把所有與關(guān)鍵詞相關(guān)的網(wǎng)頁進(jìn)行初始化評(píng)分,再根據(jù)不同網(wǎng)頁間鏈接次數(shù)的多少,把整體pagerank值在不同頁面間流動(dòng),在經(jīng)過多次的

4、迭代和多次的反復(fù)之后達(dá)到一個(gè)平衡的位置,再以pagerank值的高低來排序。在這種模式下,與關(guān)鍵詞相關(guān)性最高的結(jié)果一般會(huì)呈現(xiàn)在搜索界面上,但是pagerank值在分配的過程中沒有考慮用戶的個(gè)人喜愛以及歷史瀏覽。因此,在圖書館搜索引擎的設(shè)計(jì)中使用pagerank技術(shù),要充分考慮用戶的個(gè)人信息、喜好,來進(jìn)行pagerank評(píng)分,這種pagerank評(píng)分不僅要和書籍相關(guān)聯(lián),還要和用戶的個(gè)性化需求相互匹配,在具體的算法設(shè)計(jì)中可以參考傳統(tǒng)的pagerank算法,再將用戶個(gè)性化的要求加入進(jìn)來,進(jìn)行pagerank迭代,并對(duì)搜索結(jié)構(gòu)進(jìn)行個(gè)性化的排序。2、歷史評(píng)價(jià)及分類pagerank的計(jì)算歷史評(píng)價(jià)和網(wǎng)頁的人

5、氣值具有非常高的相似度,很容易計(jì)算出來,一般情況下,只是需要以用戶瀏覽此書籍的次數(shù)為依據(jù),就可以給出附加pagerank值。在這種算法下,是將所有的用戶看成了一個(gè)整體。而分類pagerank的計(jì)算過程是相對(duì)復(fù)雜的,她需要對(duì)專業(yè)書籍專業(yè)分類的情況進(jìn)行評(píng)價(jià),可以采取與上述用戶瀏覽書籍次數(shù)的多少來進(jìn)行給出個(gè)性化的pagerank值。由于每一本書都有自己獨(dú)特的分類方式,在處理分類中相關(guān)分類間的關(guān)系,可以通過pagerank值來傳遞。以用戶所選定的分類特征為依據(jù),將其作為pagerank源,再在各個(gè)分類之間讓pagerank值迭代,再以用戶的需求選擇來匹配相關(guān)性最高的分類圖書,可以聘請(qǐng)學(xué)校各個(gè)專業(yè)的學(xué)科

6、人士來處理,以他們的專業(yè)意見為標(biāo)準(zhǔn),來分配比較合理的阻尼系數(shù),同時(shí),這些阻尼系數(shù)還可以根據(jù)用戶的歷史瀏覽記錄來進(jìn)行一定的優(yōu)化,進(jìn)而使得所搜索的結(jié)果能夠更好地滿足用戶的需求。3、建立數(shù)組型pagerank不同的用戶有不同的需求,因此,在設(shè)計(jì)過程中,不能將pagerank值作為一個(gè)單一的情況來處理,而要注重搜索引擎的分類化與搜索引擎的個(gè)性化。將pagerank值進(jìn)行優(yōu)化處理,建立一個(gè)數(shù)組,當(dāng)然,這個(gè)數(shù)組是可以設(shè)計(jì)成一個(gè)多維的數(shù)組,其中包含有傳統(tǒng)的pagerank值、個(gè)性化的pagerank值、歷史評(píng)價(jià)的pagerank值、分類化的pagerank值等。圖書館智能搜索引擎,需要以用戶的需求為依據(jù),對(duì)

7、這一多維數(shù)組中的各項(xiàng)pagerank值進(jìn)行加權(quán)組合處理。用戶在進(jìn)行信息搜索的時(shí)候,可以根據(jù)自己的需求來進(jìn)行有優(yōu)先原則的搜索,使得所返回的搜索結(jié)果能夠體現(xiàn)用戶的不同特征的需求,進(jìn)而使得用戶在最短的時(shí)間獲得自己所需要的信息。(二)高校圖書館系統(tǒng)采用智能搜索引擎的改進(jìn)措施1、圖書館數(shù)據(jù)庫的改進(jìn)措施目前,各個(gè)高校的圖書信息查詢系統(tǒng)還需要對(duì)現(xiàn)有的數(shù)據(jù)庫進(jìn)行完善。需要增加一些新的數(shù)據(jù)庫,來保存書籍文獻(xiàn)資料的檢索相關(guān)性信息,這里面包含了現(xiàn)代書籍資料的電子化,學(xué)科分類、參考文獻(xiàn)、出版社、發(fā)表時(shí)間等信息的錄入。另外,還需要在圖書館傳統(tǒng)數(shù)據(jù)庫中添加一些新的字段來保存相關(guān)的pagerank值,建立和用戶相關(guān)的數(shù)據(jù)庫

8、用來保存用戶的個(gè)性化需求及用戶的瀏覽歷史記錄,進(jìn)而為對(duì)書籍文獻(xiàn)資料的相關(guān)性統(tǒng)計(jì)分析奠定基礎(chǔ),進(jìn)而得出關(guān)鍵詞的相關(guān)性結(jié)果。2、圖書館搜索引擎的改進(jìn)措施在傳統(tǒng)搜索中,用戶通過書名、作者、發(fā)表時(shí)間、出版社等信息來進(jìn)行檢索,搜索的結(jié)果需要sql語句作為支持,而要實(shí)現(xiàn)前文所述的智能搜索,便需要對(duì)這種搜索引擎進(jìn)行改進(jìn)。首先,搜索引擎要對(duì)用戶檢索時(shí)所輸入的關(guān)鍵詞或關(guān)鍵字進(jìn)行自然語言分析,進(jìn)而更加準(zhǔn)確地理解用戶所需要的信息,甚至,還要對(duì)用戶的語言習(xí)慣偏好進(jìn)行深入分析,例如,繁體字以及少數(shù)民族的文字等。同時(shí),要加入對(duì)pagerank值進(jìn)行迭代的功能,這樣使得搜索引擎可以根據(jù)用戶所提供的關(guān)鍵詞來以pagerank

9、值為依據(jù)來對(duì)返回的搜索結(jié)果進(jìn)行排序,使得搜索結(jié)果更加符合使用者的需求。3、構(gòu)建用戶信息反饋系統(tǒng)傳統(tǒng)搜索僅僅是對(duì)用戶的信息搜索結(jié)果的簡(jiǎn)單羅列,即用戶向搜索引擎提供所需要檢索的關(guān)鍵詞,搜索引擎在其數(shù)據(jù)庫中檢索相應(yīng)的信息,并呈現(xiàn)給用戶。而智能搜索引擎在圖書館的應(yīng)用,需要對(duì)搜索結(jié)果頁面的搜索結(jié)果進(jìn)行排序,而要使得這種排序更加滿足用戶的需求,就需要根據(jù)用戶的習(xí)慣、愛好、知識(shí)背景等信息,來重新分配pagerank值,提升用戶檢索的便捷性與有效性。四、結(jié)束語目前,我國很多高校在數(shù)字圖書館的建設(shè)還處于起步階段,而智能搜索引擎技術(shù)具有人機(jī)接口智能化、信息服務(wù)功能個(gè)性化、跨平臺(tái)多文檔處理等諸多傳統(tǒng)搜索不具備的優(yōu)勢(shì)。將其應(yīng)用于數(shù)字圖書館的建設(shè),具有重要的現(xiàn)實(shí)意義。隨著搜索引擎技術(shù)的不斷發(fā)展以及人們對(duì)信息檢索的需求的發(fā)展,搜索引擎的更新迭代速度將會(huì)更快,有必要加強(qiáng)對(duì)搜索引擎技術(shù)的研究。(作者單位:西安思源學(xué)院)參考

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論