下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、基于云計算的信息檢索技術(shù)一.概念介紹1.云計算(1) .云計算的定義目前,云計算沒有統(tǒng)一的定義,當(dāng)前云計算的定義主要包括如下幾種。1)維基百科:云計算將IT相關(guān)的能力以服務(wù)的方式提供給用戶,允許用戶在不了解提供服務(wù)的技術(shù)、沒有相關(guān)知識以及設(shè)備操作能力的情況下,通過Internet獲取需要的服務(wù)。2)中國云計算網(wǎng):云計算是分布式計算(DistributedComputing)、并行計算(ParallelComputing)和網(wǎng)格計算(GridComputing)的發(fā)展,或者說是這些科學(xué)概念的商業(yè)實現(xiàn)。3)云是一個包含大量可用虛擬資源(例如硬件、開發(fā)平臺以及I/OK務(wù))的資源池。這些虛擬資源可以根
2、據(jù)不同的負(fù)載動態(tài)地重新配置,以達(dá)到更優(yōu)化的資源利用率。這種資源池通常由基礎(chǔ)設(shè)施提供商按照服務(wù)等級協(xié)議(ServiceLevelAgreement,SLA床用用時付費(Pay-Per-Use,PPU方勺模式開發(fā)管理。對比上述定義,可以發(fā)現(xiàn),文獻(xiàn)6和文獻(xiàn)8中給出的定義的相似之處在于它們都提到了云計算提供服務(wù)。從云計算用戶的角度給出定義:即用戶在不了解具體實現(xiàn)的情況下通過Internet獲取服務(wù)。(2)云計算技術(shù)具有以下特點。1)云計算系統(tǒng)提供的是服務(wù)。服務(wù)的實現(xiàn)機制對用戶透明,用戶無需了解云計算的具體機制,就可以獲得需要的服務(wù)。2)用冗余方式提供可靠性。云計算系統(tǒng)由大量商用計算機組成集群向用戶提供
3、數(shù)據(jù)處理服務(wù)。隨著計算機數(shù)量的增加,系統(tǒng)出現(xiàn)錯誤的概率大大增加。在沒有專用的硬件可靠性部件的支持下,采用軟件的方式,即數(shù)據(jù)冗余和分布式存儲來保證數(shù)據(jù)的可靠性。3)高可用性。通過集成海量存儲和高性能的計算能力,云能提供較高的服務(wù)質(zhì)量。云計算系統(tǒng)可以自動檢測失效節(jié)點,并將失效節(jié)點排除,不影響系統(tǒng)的正常運行4)高層次的編程模型。云計算系統(tǒng)提供高層次的編程模型。用戶通過簡單學(xué)習(xí),就可以編寫自己的云計算程序,在“云”系統(tǒng)上執(zhí)行,滿足自己的需求?,F(xiàn)在云計算系統(tǒng)主要采用Map-Reduct真型.5)經(jīng)濟性。組建一個采用大量的商業(yè)機組成的集群相對于同樣性能的超級計算機花費的資金要少很多。6)服務(wù)多樣性。用戶可
4、以支付不同的費用,以獲得不同級別的服務(wù)等。(3)結(jié)論:為了更好地定義云計算,必須從云計算的服務(wù)使用者,服務(wù)提供者,組織方式,內(nèi)部實現(xiàn)機制等方面同時定義。根據(jù)現(xiàn)有定義的不足,本文定義云計算為:“云計算是由網(wǎng)格計算發(fā)展而來的,前臺采用用時付費的方式通過Internet向用戶提供服務(wù)。云系統(tǒng)后臺由大量的集群使用虛擬機的方式,通過高速互聯(lián)網(wǎng)絡(luò)互連,組成大型的虛擬資源池。這些虛擬資源可自主管理和配置。用數(shù)據(jù)冗余的方式保證虛擬資源的高可用性。并具有分布式存儲和計算、高擴展性、高可用性、用戶友好性等特征?!?4)云計算基本模型在圖1中的基本模型中,用戶通過用戶接口從云計算服務(wù)目錄中選擇一項自己需要的服務(wù),請
5、求被送給系統(tǒng)管理單元,并查找提高服務(wù)所需要的資源,然后調(diào)用ProvisioningTool從“云”中提取出所需的資源,雕刻出一朵特定的“云朵”來提供服務(wù)。其中Monitoringandmetering為可選單元,監(jiān)視“云”的使用情況,保存資源與特定用戶的歸屬關(guān)系,Servers“云”里面是由服務(wù)器互連構(gòu)成的一張大網(wǎng),由系統(tǒng)管理工具進(jìn)行管理,可進(jìn)行并行計算,通過虛擬技術(shù)實現(xiàn)最大化資源的利用并提供服務(wù)給用戶。2.基于云計算的檢索1 .介紹與原理云計算作為商業(yè)服務(wù)模式不僅影響了整個IT行業(yè)。同時給信息檢索帶來了巨大的影響,通過云計算平臺,將本來的一個單個的服務(wù)器連成了一個云,每個服務(wù)器變成了云中一個
6、個節(jié)點。從而組成了一個檢索成本低、信息資源利用率高、速度快的信息檢索系統(tǒng)。云計算技術(shù)給信息檢索帶來的影響主要表現(xiàn)在以下幾個方面。(1)存儲方式云計算采用的是一種叫做云存儲的存儲模式,云存儲將網(wǎng)絡(luò)中各類存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一個系統(tǒng)。云存儲主要是由4層組成:存儲層、基礎(chǔ)管理層、應(yīng)用接口層、訪問層。云存儲改變了過去的存儲模式,由過去獨自存儲模式轉(zhuǎn)變?yōu)橛蓴?shù)據(jù)中心集中管理。過去的數(shù)據(jù)大多存放在各個數(shù)據(jù)信息提供者自己的服務(wù)器上,而云存儲提供商采用集中的數(shù)據(jù)中心向用戶提供數(shù)據(jù)存儲服務(wù)。由一朵朵的存儲云連成了成片的存儲云群,用戶可以通過終端軟件對數(shù)據(jù)進(jìn)行訪問使
7、用,而不用知道這些數(shù)據(jù)是如何進(jìn)行存儲,存儲到哪,這也構(gòu)成了數(shù)據(jù)源異構(gòu)的現(xiàn)象,將使得信息檢索系統(tǒng)在對數(shù)據(jù)檢索的時候出現(xiàn)迷路的現(xiàn)象。(2)檢索模式傳統(tǒng)的信息檢索多采用的是集中用行式檢索,使得檢索系統(tǒng)的覆蓋面限.只能完成某一個領(lǐng)域或某一方面的信息檢索.采用的串行檢索也使得檢索效率低下,一旦檢索過程中某一環(huán)節(jié)出錯,將影響整個檢索過程。云將全球的數(shù)據(jù)集中放人了存在于云中的各個服務(wù)器中.如云數(shù)據(jù)中心、云存儲。信息檢索不再是單個的服務(wù)器或在單機上進(jìn)行檢索,而是需要面對多個存儲服務(wù)器。是一朵朵的云。這就不能再采用傳統(tǒng)的集中串行檢索,而需要對以前的檢索模式進(jìn)行相應(yīng)的改進(jìn)。云計算采用的是分布式并行計算方式,這種分
8、布式系統(tǒng)是由地域上分散、相對獨立但相互聯(lián)系和制約的種部分(子系統(tǒng)),通過網(wǎng)絡(luò)互聯(lián)構(gòu)成的完成特定功能的整體,是一種松耦合的MIMD(統(tǒng)在分布環(huán)境下的一種形式。系統(tǒng)中每一個分布節(jié)點都可以是一臺并行的計算機.這些計算機沒有主次之分,處于同一平等地位。是一種異構(gòu)結(jié)構(gòu)。并行計算是同一時間調(diào)用多個處理器來并發(fā)執(zhí)行計算,解決了目前中央處理器(CPU)運行速度接近上限的問題,大大提高了運算的速度。能對大規(guī)模的海量數(shù)據(jù)進(jìn)行運算處理。基于云計算的信息檢索系統(tǒng)中,當(dāng)用戶提出查詢要求,并將提問式提交給檢索代理,檢索代理將檢索提問式發(fā)送給了存在于云中的各個服務(wù)器,并對各個節(jié)點上的存儲服務(wù)器中的數(shù)據(jù)信息進(jìn)行分析排序.得出
9、相關(guān)度排在前列的服務(wù)器.并對這些存儲服務(wù)器進(jìn)行并行分布式檢索,將檢索結(jié)果重新整合按相關(guān)度進(jìn)行排序后傳到用戶檢索界面呈現(xiàn)在用戶面前.大大提高了檢索能力和檢索速度。2 .基于云計算的信息檢索的特點(1)成本低廉?;谠朴嬎愕男畔z索系統(tǒng)將數(shù)據(jù)管理的任務(wù)都交給了專門的數(shù)據(jù)管理中心集中管理,減少了硬件軟件的投入,降低了相應(yīng)的投入成本。(2)可利用資源多。由于各個檢索提供者可能將數(shù)據(jù)都放到了統(tǒng)一的數(shù)據(jù)中心。通過相互問的合作可以進(jìn)行資源共享,使檢索的數(shù)據(jù)源成倍地增加,可以利用的資源也相應(yīng)增多。(3)檢索速度快。由于云計算采用的是分布式和并行技術(shù),新技術(shù)解決了由于計算機中央處理器(CPU)速度提高的瓶頸,大
10、大提高了信息檢索的速度。二.技術(shù)1 .現(xiàn)有技術(shù)的研究2 .云存儲的加密問題大規(guī)模高性能存儲系統(tǒng)安全需求,特別是云存儲應(yīng)用中,可擴展和高性能的存儲安全技術(shù),是推動網(wǎng)絡(luò)環(huán)境下的存儲應(yīng)用(如云存儲應(yīng)用)最根本的保證,已經(jīng)成為當(dāng)前網(wǎng)絡(luò)存儲領(lǐng)域的研究熱點。云存儲應(yīng)用中的存儲安全包括認(rèn)證服務(wù)、數(shù)據(jù)加密存儲、安全管理、安全日志和審計。(1)訪問控制服務(wù)實現(xiàn)用戶身份認(rèn)證、授權(quán),防止非法訪問和越權(quán)訪問。主要功能包括:用戶只能對經(jīng)管理員或文件所有者授權(quán)的許可文件進(jìn)行被許可的操作;管理員只能進(jìn)行必要的管理操作,如用戶管理、數(shù)據(jù)備份、熱點對象遷移,而不能訪問用戶加密了的私有數(shù)據(jù)。(2)加密存儲是對指定的目錄和文件進(jìn)行
11、加密后保存,實現(xiàn)敏感數(shù)據(jù)存儲和傳送過程中的機密性保護。(3)安全管理主要功能是用戶信息和權(quán)限的維護。如用戶帳戶注冊和注銷等,授權(quán)用戶、緊急情況下對用戶權(quán)限回收等。(4)安全日志和審計是記錄用戶和系統(tǒng)與安全相關(guān)的主要活動事件,為系統(tǒng)管理員監(jiān)控系統(tǒng)和活動用戶提供必要的審計信息。對用戶來說,在上述4類存儲安全服務(wù)中,存儲加密服務(wù)尤為重要。加密存儲是保證用戶私有數(shù)據(jù)在共享存儲平臺的機密性核心技術(shù)。隨著存儲系統(tǒng)和存儲設(shè)備越來越網(wǎng)絡(luò)化,存儲系統(tǒng)在保證敏感數(shù)據(jù)機密性的同時,必須提供相應(yīng)的加密數(shù)據(jù)共享技術(shù)。保護用戶隱私性要求存儲安全建立在對存儲系統(tǒng)的信任基礎(chǔ)之上。必須研究適用于網(wǎng)絡(luò)存儲系統(tǒng)的加密存儲技術(shù),提供
12、端到端加密存儲技術(shù)及密鑰長期存儲和共享機制,以確保用戶數(shù)據(jù)的機密性和隱私性,提高密鑰存儲的安全性、分發(fā)的高效性及加密策略的靈活性。在海量的加密信息存儲中,加密檢索是實現(xiàn)信息共享的主要手段,是加密存儲中必須解決的問題之一。2加密信息檢索技術(shù)對加密信息檢索的研究始于2003,Son/人提出加密數(shù)據(jù)搜索的實用算法,Son/人提出基于關(guān)鍵詞的公鑰加密算法,Park等人提出安全索引搜索算法。(1)線性搜索算法在線性搜索算法中,首先用對稱加密算法對明文信息加密。對于每個關(guān)鍵詞對應(yīng)的密文信息,生成一串長度小于密文信息長度的偽隨機序列,并生成一由偽隨機序列及密文信息確定的校驗序列。偽隨機序列的長度與檢驗序列長
13、度之和等于密文信息的長度。偽隨機序列及檢驗序列對密文信息再次加密。在搜索過程中,用戶提交明文信息對應(yīng)的密文信息序列。在服務(wù)器端,密文信息序列被線性地同每一段序列模2加。如果得到的結(jié)果滿足校驗關(guān)系,那么說明密文信息序列出現(xiàn),否則,說明密文信息不存在。線性搜索方法是一種一次一密的加密信息檢索算法,因此有極強抵抗統(tǒng)計分析的能力。但具有一個致命的缺點,即逐次匹配密文信息,這使得這種檢索方法在大數(shù)據(jù)集的情況下難以應(yīng)用。(2)基于關(guān)鍵詞的公鑰搜索基于關(guān)鍵詞的公鑰加密搜索算法由Bone侍人提出,其目的是可以在用戶端存儲、計算資源不足的情況下,通過訪問遠(yuǎn)端數(shù)據(jù)庫獲取數(shù)據(jù)信息。存儲、計算資源分布具有不對稱性,即
14、用戶的計算存儲能力不能實時滿足其需求。另一方面用戶在移動情況下存儲、索引數(shù)據(jù)的需求也有增加,比如Email服務(wù)等。在這種特定情況下,需要保護用戶的數(shù)據(jù)隱私。加密數(shù)據(jù)有多個不同來源,針對這一問題的解決方法是加密算法使用公鑰加密。算法的過程如下,首先生成公鑰、私鑰,然后對待存儲的明文關(guān)鍵詞用公鑰進(jìn)行加密,生成可搜索的密文信息。(3)安全索引安全索引由Park等人提出,解決了簡單索引方式易受統(tǒng)計攻擊的問題。其機制是每次加密所用的密鑰是事先生成的一組逆Has廿列,加密后的索引被放入布隆過濾器中。當(dāng)檢索的時候,首先用逆Has心列密鑰生成多個陷門,然后進(jìn)行布隆檢測。對返回的密文文檔解密即可得到所需檢索的文
15、檔。針對有新用戶加入、舊用戶退出的多用戶加密信息檢索,這是一種解決方法。但其存在的缺陷是需要生成大量的密鑰序列,隨著檢索次數(shù)的增加,每多進(jìn)行一次檢索,其計算復(fù)雜度均線性增加。這在實際應(yīng)用中很難被接受。在以上提到的多種加密信息檢索算法中,所用的檢索模型都是布爾模型,因而無法根據(jù)查詢與待檢索文檔的相關(guān)度進(jìn)行排序操作。在實際情況中,尤其是在數(shù)據(jù)規(guī)模較大的云存儲應(yīng)用中,包含某一查詢關(guān)鍵詞的文檔可能有很多個,如何在多個可能相關(guān)的文檔中找出最相關(guān)的一個或若干個文檔是需要解決的問題。對加密的文檔,是否可以應(yīng)用成熟的向量空間模型,進(jìn)而進(jìn)行相關(guān)排序,是一個開放的問題。(4)引入相關(guān)排序的加密搜索算法Swamin
16、athan人提出了保護隱私的排序搜索算法。在這一算法中,每一文檔中關(guān)鍵詞的詞頻都被保序加密算法加密。加密文檔被提交查詢給服務(wù)器端后,首先計算檢索出含有關(guān)鍵詞密文的加密文檔;然后對用保序算法加密的詞頻對應(yīng)的密文信息進(jìn)行排序處理;最后把評價值高的加密文檔返回給用戶,由用戶對其進(jìn)行解密。這一種方法可以在給定多個可能相關(guān)文檔的情況下對加密文檔進(jìn)行排序,進(jìn)而把最可能相關(guān)的文檔返回給用戶。但這一種算法首先不適用于一個查詢包含多個查詢詞的情況,其次算法只利用了文檔中的詞頻信息,無法利用詞的逆文檔頻率,進(jìn)而向量空間模型無法直接應(yīng)用。解決前一種問題的一種方法是用加法同態(tài)加密算法一I對詞頻信息進(jìn)行加密處理。2.基于云計算的信息檢索存在的問題(1)云安全問題云計算服務(wù)提供商既是數(shù)據(jù)計算服務(wù)的提供者,同時對用戶隱私又具有很大的潛在威脅。云計算帶來了一系列重要的問題,如用戶信息隱私權(quán)、數(shù)據(jù)安全、電信能力、政府的監(jiān)視、可靠性和數(shù)據(jù)管理方的責(zé)任等等。(2)知識產(chǎn)權(quán)問題由于云計算平臺各種數(shù)據(jù)都集巾存放在云計算提供商提供的數(shù)據(jù)中心里,云計算提供商成了第三方保管方,當(dāng)一些檢索系統(tǒng)對數(shù)據(jù)進(jìn)行檢索時.也可能由于云計算提供商權(quán)限設(shè)置或安全性能的缺陷.導(dǎo)致一些本不應(yīng)該被檢索到的具有知識產(chǎn)權(quán)的數(shù)據(jù)信息被檢索過來。(3)用戶權(quán)限由于云平臺下的數(shù)據(jù)資源大多委托第三方數(shù)據(jù)中心進(jìn)行管理,所以作為第三方的數(shù)據(jù)巾
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 福州軟件職業(yè)技術(shù)學(xué)院《智能制造創(chuàng)新創(chuàng)業(yè)實訓(xùn)智造創(chuàng)新工場認(rèn)知與數(shù)據(jù)管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南涉外經(jīng)濟學(xué)院《現(xiàn)代工程管理基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 深圳信息職業(yè)技術(shù)學(xué)院《大數(shù)據(jù)運維實驗》2023-2024學(xué)年第二學(xué)期期末試卷
- 衢州職業(yè)技術(shù)學(xué)院《心理咨詢基本技能訓(xùn)練(一)》2023-2024學(xué)年第二學(xué)期期末試卷
- 民辦萬博科技職業(yè)學(xué)院《鄉(xiāng)土地理齊魯風(fēng)貌》2023-2024學(xué)年第二學(xué)期期末試卷
- 長春信息技術(shù)職業(yè)學(xué)院《遙感軟件應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 江西服裝學(xué)院《海底構(gòu)造地質(zhì)學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 山西應(yīng)用科技學(xué)院《材料成型專業(yè)安全概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 蘇州工業(yè)職業(yè)技術(shù)學(xué)院《大學(xué)體育籃球》2023-2024學(xué)年第二學(xué)期期末試卷
- 二零二五年度籃球賽事球員合同續(xù)約談判合同
- 人教部編版小學(xué)五年級語文下冊 第三單元綜合性學(xué)習(xí)《我愛你,漢字》優(yōu)質(zhì)課教案
- 工廠主文件(新)
- 儀表基礎(chǔ)知識培訓(xùn).ppt課件
- 數(shù)據(jù)結(jié)構(gòu)英文教學(xué)課件:chapter2 Array
- 20以內(nèi)分成表算式x
- 井下探放水設(shè)計編制培訓(xùn)PPT課件
- 數(shù)據(jù)結(jié)構(gòu)英文教學(xué)課件:chapter9 Sorting
- 營養(yǎng)學(xué)緒論(精)
- 最新ICD-9手術(shù)編碼
- 軟件項目報價方法參考模板
- 國際形式發(fā)票模板
評論
0/150
提交評論