大數(shù)據(jù)庫下電子資源的有效利用_第1頁
大數(shù)據(jù)庫下電子資源的有效利用_第2頁
大數(shù)據(jù)庫下電子資源的有效利用_第3頁
大數(shù)據(jù)庫下電子資源的有效利用_第4頁
大數(shù)據(jù)庫下電子資源的有效利用_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)庫下電子資源的有效利用物理科學(xué)與技術(shù)學(xué)院2014級(jí)物理學(xué)基地班劉竹友0141121776目錄大數(shù)據(jù)庫下電子資源的有效利用 11、 研究依據(jù) 21.1、 問題背景 21.2、 研究意義 21.3、 研究現(xiàn)狀 32、 研究手段 42.1、關(guān)鍵理論技術(shù) 42.2、研究基本思路 92.3、研究框架 92.4、具體方案 113、 預(yù)期成果 123.1、理論成果 123.2、模型 124、 參考文獻(xiàn) 12

研究依據(jù)問題背景大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革。大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革。云計(jì)算主要為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場(chǎng)所和渠道,而數(shù)據(jù)才是真正有價(jià)值的資產(chǎn)。如今的數(shù)據(jù)已經(jīng)成為一種重要的戰(zhàn)略資產(chǎn),它就像新時(shí)代的石油一樣,極富開采價(jià)值。如果能夠看清大數(shù)據(jù)的價(jià)值并且迅速行動(dòng)起來,那么在未來的商業(yè)競(jìng)爭(zhēng)中占據(jù)會(huì)占得先機(jī)。大數(shù)據(jù)市場(chǎng)機(jī)會(huì)一部分集中在集中在各實(shí)體企業(yè)對(duì)海量數(shù)據(jù)處理、挖掘的應(yīng)用上,而這些應(yīng)用必然帶動(dòng)“數(shù)據(jù)存儲(chǔ)設(shè)備和提供解決方案”,“大數(shù)據(jù)的分析、挖掘和加工類企業(yè)”等環(huán)節(jié)的爆發(fā)性發(fā)展。雖然目前國(guó)內(nèi)數(shù)據(jù)庫、服務(wù)器、存儲(chǔ)設(shè)備等領(lǐng)域,仍是國(guó)際巨頭占絕對(duì)領(lǐng)先優(yōu)勢(shì),大數(shù)據(jù)應(yīng)用也還處在起步階段,但發(fā)展前景可以期待。而另一部分集中在各大高校圖書館電子資源的利用方面。目前信息量大、共享性強(qiáng)、不受空限制、更新及時(shí)、使用方便、檢索快捷的電子資源。已成為高校廣大師生教學(xué)、科研活動(dòng)中普遍使用的信息資源。目前,各高校圖書館為了滿足各學(xué)科、多層次讀者的信息需求,都購(gòu)買或自建了多個(gè)甚至幾十個(gè)網(wǎng)絡(luò)數(shù)據(jù)庫,各高校圖書館電子資源占館藏文獻(xiàn)的比例逐年增加,使得圖書館信息資源形成由單一型的紙質(zhì)圖書與電子文獻(xiàn)資源共存的局面。隨著數(shù)字圖書館的不斷發(fā)展,電子資源的建設(shè)與利用逐漸成為衡量一個(gè)圖書館實(shí)力的重要指標(biāo)。充分開發(fā)利用高校圖書館的電子信息資源,滿足廣大師生信息需求已成為圖書館文獻(xiàn)信息服務(wù)的重要形式。本文將以圖書館電子資源的有效利用為例,主要運(yùn)用文獻(xiàn)分析法,其中部分實(shí)例采用內(nèi)蒙古大學(xué)圖書館的實(shí)例及數(shù)據(jù),探究大數(shù)據(jù)庫下電子資源的有效利用。研究意義根據(jù)目前一份來自南京郵電大學(xué)的對(duì)讀者就“電子資源建設(shè)與利用的情況”進(jìn)行問卷調(diào)查,在對(duì)收回的問卷調(diào)查分析時(shí)發(fā)現(xiàn),讀者認(rèn)為目前圖書館已購(gòu)買的電子資源比較豐富的達(dá)53.8%.不夠豐富的達(dá)30.6%.96.2%的讀者認(rèn)為有必要申請(qǐng)各類數(shù)據(jù)庫的免費(fèi)試用。讀者經(jīng)常利用圖書館電子資源的達(dá)38.7%,不常利用的占53.5%,未利用過的占9.8%。不利用或不常利用電子資源的主要原因是不了解。33.7%的讀者認(rèn)為是校外訪問權(quán)限問題.30.1%的讀者認(rèn)為缺少必備的數(shù)據(jù)庫.27.6%的人是由于缺乏檢索知識(shí),還有一部分讀者是因?yàn)椴籸解數(shù)據(jù)資源內(nèi)容以及獲取原文的問題。而影響電子資源利用的因素主要有以下幾個(gè)方面:電子資源種類繁多質(zhì)量不高。不同的電子資源數(shù)據(jù)庫之問有重復(fù)和交叉等現(xiàn)象,造成讀者很難了解自己到底需要哪些電子資源:一些數(shù)據(jù)庫存在內(nèi)容少且不具備獨(dú)特性.?dāng)?shù)據(jù)來源的權(quán)威不高.?dāng)?shù)據(jù)更新不及時(shí),其檢索軟件功能較差等問題。由此造成讀者對(duì)電子資源信賴度降低。不愿意使用數(shù)據(jù)庫。、讀者的文獻(xiàn)檢索技能欠缺。近年來,雖然院校都開設(shè)了文獻(xiàn)檢索課,但文獻(xiàn)檢索與利用的教學(xué)多偏蓐于理論,缺乏實(shí)際操作,讀者的檢索技能往往得不到真正的提高,再加再加電子資源的使用較為復(fù)雜,每種電子資源都有其不同的使用規(guī)則和方法,包括不同的邏輯算符、位置算符、截詞符以及不同的檢索方法等。影響了讀者對(duì)電子資源的使用。電子資源的使用受到網(wǎng)絡(luò)環(huán)境的限翩。高校圖書館斥巨資購(gòu)買大量的電子資源.由于數(shù)據(jù)庫供應(yīng)商為保護(hù)自己的知識(shí)產(chǎn)權(quán)。一般都要求高校圖書館只向校園網(wǎng)IP地址范圍之內(nèi)開放;其次,由于學(xué)校設(shè)有分校區(qū)。不少分校的IP地址因跨網(wǎng)段不在校園網(wǎng)范圍之內(nèi);再著,大多數(shù)的專家學(xué)者和教師在校外居住,經(jīng)常外出講學(xué)和參加會(huì)議學(xué)術(shù)交流,這些合法用戶由于IP地址限制無法使用學(xué)校的電子資源,勢(shì)必會(huì)對(duì)其學(xué)習(xí)、教學(xué)和科研造成一些的影響。所以,針對(duì)以上限制電子資源的有效使用的因素,我們從大數(shù)據(jù)庫的角度來分析,以提高電子資源的有效使用具有極大的研究意義。研究現(xiàn)狀從20世紀(jì)70年代初開始.歐美發(fā)達(dá)國(guó)家相繼開始建立文獻(xiàn)數(shù)據(jù)庫.發(fā)行數(shù)據(jù)庫磁帶,或者通過計(jì)算機(jī)聯(lián)機(jī)開展服務(wù)。例如著名的Derwent專利數(shù)據(jù)庫和《化學(xué)文摘》(CA)的檢索數(shù)據(jù)庫磁帶,DIALOG聯(lián)機(jī)檢索數(shù)據(jù)庫、OCLC聯(lián)機(jī)書目數(shù)據(jù)庫等。80年代末,新的載體CD—ROM出現(xiàn)了,大量的檢索類期刊《生物學(xué)文摘》(BA)、《工程索引》(EI)、《化學(xué)文摘》(cA)、《科學(xué)文摘》(SA)等都出版了光盤版.許多著名的國(guó)際出版商Blackwell科學(xué)出版公司、Elsever出版集團(tuán)、wrlnger國(guó)際出版集團(tuán)將他們旗下的學(xué)術(shù)期刊制成CD—ROM.至于光盤版的圖書更是不計(jì)其數(shù)。繼光盤之后是數(shù)據(jù)庫鏡像,它的數(shù)據(jù)容量比光盤更大,服務(wù)能力更強(qiáng)。90年代中期,隨著互聯(lián)網(wǎng)的普及,大量的電子文獻(xiàn)轉(zhuǎn)為網(wǎng)絡(luò)出版.DIALOG、OCLC等專線聯(lián)機(jī)數(shù)據(jù)庫都轉(zhuǎn)向網(wǎng)絡(luò)服務(wù)。與此同時(shí),便攜式的電子圖書也誕生了。為此,圖書館的電子資源有光盤、數(shù)據(jù)庫鏡像和網(wǎng)絡(luò)版三大存在形式。國(guó)外的電子期刊和檢索數(shù)據(jù)庫較多采用網(wǎng)絡(luò)版的方式.例如Blackwell、EL-sever,springer等全文期刊數(shù)據(jù)庫,MEDLIN、DIALOG等大型檢索數(shù)據(jù)庫;有些大型檢索數(shù)據(jù)庫和國(guó)內(nèi)的大型電子書刊庫使用鏡像站方式,例如《生物學(xué)文摘》(BA)、《工程索引》(EI)、《化學(xué)文摘》(CA)數(shù)據(jù)庫,維普、萬方、清華同方全文期刊數(shù)據(jù)庫,超星電子圖書數(shù)據(jù)庫;小型檢索數(shù)據(jù)庫和電子圖書采用光盤形式。90年代后期網(wǎng)絡(luò)的發(fā)展.大大推進(jìn)了圖書館電子資源的使用,在局域網(wǎng)的支持下.無論網(wǎng)絡(luò)版、鏡像點(diǎn)或者光盤塔的電子文獻(xiàn)都能便捷地傳送到網(wǎng)絡(luò)的每個(gè)信息終端,讀者可以在自己的桌面上瀏覽電子文獻(xiàn)和檢索數(shù)據(jù)庫。與此同時(shí),圖書館的公共網(wǎng)絡(luò)服務(wù)也發(fā)展起來了,把電子資源掛到圖書館網(wǎng)頁上,向公眾開放,任何人可以隨時(shí)隨地上網(wǎng)瀏覽和檢索。圖書館電子資源服務(wù)朝著更加開放和更加方便的方向發(fā)展,贏得了廣大讀者的青睞。以內(nèi)蒙古大學(xué)圖書館為例,目前內(nèi)蒙古大學(xué)圖書館獨(dú)立建成了館藏漢文、英文、蒙古文等書目數(shù)據(jù)庫,特別是館內(nèi)的蒙古文特色數(shù)據(jù)庫、生命科學(xué)導(dǎo)航庫的建設(shè)成果和聯(lián)機(jī)編目數(shù)量在全國(guó)高校圖書館中排名前25名、45名和13名;共引進(jìn)購(gòu)入了ISI數(shù)據(jù)庫、SpringerLink數(shù)據(jù)庫、Apabi數(shù)字圖書館系統(tǒng)等18個(gè)數(shù)據(jù)庫,自建數(shù)據(jù)庫10個(gè),極大地豐富了圖書館的網(wǎng)絡(luò)文獻(xiàn)信息資源,成為內(nèi)蒙古自治區(qū)規(guī)模最大的網(wǎng)絡(luò)信息中心。伴隨著圖書館局域網(wǎng)的建成,圖書館絕大部分工作已經(jīng)基本上擺脫了傳統(tǒng)的手工作業(yè)方式,實(shí)現(xiàn)了網(wǎng)絡(luò)化的計(jì)算機(jī)管理。文獻(xiàn)采編工作由最初的單機(jī)管理到館內(nèi)局域網(wǎng)的運(yùn)行,進(jìn)而發(fā)展到互聯(lián)網(wǎng)上聯(lián)機(jī)編目,閱覽室采用了藏、借、閱一體化的布局模式,師生共用,絕大多數(shù)文獻(xiàn)資料在閱覽室實(shí)行了全開架的開放式管理;圖書文獻(xiàn)的查詢、讀者借閱文獻(xiàn)的管理、業(yè)務(wù)統(tǒng)計(jì)等工作也已實(shí)現(xiàn)了計(jì)算機(jī)自動(dòng)化管理,有效地提高了圖書館館藏文獻(xiàn)的利用率和讀者服務(wù)工作的科學(xué)管理水平。另外在我校開展的圖書館特舉辦數(shù)據(jù)庫系列講座,旨在介紹期刊、報(bào)紙、圖書、數(shù)據(jù)、視頻等多種形式的電子資源的使用方法,助力科研和教學(xué)。截止目前,已舉辦的數(shù)據(jù)庫講座有萬方數(shù)據(jù)庫、阿帕比電子教參書、阿帕比報(bào)紙全文庫、月旦知識(shí)庫、EBSCOhost數(shù)據(jù)庫、Emerald全文數(shù)據(jù)庫講座、Elsevier期刊數(shù)據(jù)庫。講座均由各文獻(xiàn)資源出版集團(tuán)培訓(xùn)講師講授,講授內(nèi)容含如何合理規(guī)劃時(shí)間進(jìn)行快速文獻(xiàn)調(diào)研,如何有序管理海量文獻(xiàn)信息,如何查找文獻(xiàn)信息之外的包括詞條概念、圖片等多角度的信息,講授內(nèi)容專業(yè)、精深、新穎。極大的提高了師生對(duì)數(shù)據(jù)庫電子資源的有效利用。研究手段2.1、關(guān)鍵理論技術(shù)技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。關(guān)鍵技術(shù)包括云計(jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)和感知技術(shù),處理過程包括采集、處理、存儲(chǔ)到形成結(jié)果。具體包括以下幾個(gè)方面:2.1.1、大數(shù)據(jù)系統(tǒng)的架構(gòu)大數(shù)據(jù)處理系統(tǒng)不管結(jié)構(gòu)如何復(fù)雜,采用的技術(shù)千差萬別,但是總體上總可以分為以下的幾個(gè)重要部分。大數(shù)據(jù)系統(tǒng)結(jié)構(gòu)如圖l所示。從數(shù)據(jù)處理的一般流程可以看到,在大數(shù)據(jù)環(huán)境下需要的關(guān)鍵技術(shù)主要針對(duì)海量數(shù)據(jù)的存儲(chǔ)和海量數(shù)據(jù)的運(yùn)算。傳統(tǒng)的關(guān)系數(shù)據(jù)庫經(jīng)過40年的發(fā)展已經(jīng)成為了一門成熟同時(shí)仍在不斷演進(jìn)的數(shù)據(jù)管理和分析技術(shù),結(jié)構(gòu)化查詢語言(sQL)作為存取關(guān)系數(shù)據(jù)庫的語言得到了標(biāo)準(zhǔn)化,其功能和表達(dá)能力也得到的不斷增強(qiáng)。但是,關(guān)系數(shù)據(jù)管理系統(tǒng)的擴(kuò)展性在互聯(lián)網(wǎng)環(huán)境下遇到了前所未有的障礙,不能勝任大數(shù)據(jù)分析的要求。關(guān)系數(shù)據(jù)管理模型追求的是高度的一致性和正確性??v向擴(kuò)展系統(tǒng),通過增加或者更換CPU、內(nèi)存、硬盤以擴(kuò)展單個(gè)節(jié)點(diǎn)的能力,終會(huì)遇到“瓶頸”。大數(shù)據(jù)的研究主要來源于依靠數(shù)據(jù)獲取商業(yè)利益的大公司。G009le公司作為全球最大的信息檢索公司,其走在了大數(shù)據(jù)研究的前沿。面對(duì)呈現(xiàn)爆炸式增加的因特網(wǎng)信息,僅僅依靠提高服務(wù)器性能已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足業(yè)務(wù)的需求。如果將各種大數(shù)據(jù)應(yīng)用比作“汽車”,支撐起這些“汽車”運(yùn)行的“高速公路”就是云計(jì)算。正是云計(jì)算技術(shù)在數(shù)據(jù)存儲(chǔ)、管理與分析等方面的支持,才使得大數(shù)據(jù)有用武之地。G009le公司從橫向進(jìn)行擴(kuò)展,通過采用廉價(jià)的計(jì)算機(jī)節(jié)點(diǎn)集群,改寫軟件,使之能夠在集群上并行執(zhí)行,解決海量數(shù)據(jù)的存儲(chǔ)和檢索功能。2006年Google首先提出云計(jì)算的概念。支撐Goo甜e公司各種大數(shù)據(jù)應(yīng)用的關(guān)鍵正是其自行研發(fā)的一系列云計(jì)算技術(shù)和工具。G00de公司大數(shù)據(jù)處理的三大關(guān)鍵技術(shù)為:Go091e文件系統(tǒng)GFs{”、M印Reduc一和Bigtabl一。Google的技術(shù)方案為其他的公司提供了一個(gè)很好的參考方案,各大公司紛紛提出了自己的大數(shù)據(jù)處理平臺(tái),采用的技術(shù)也都大同小異。下面將從支持大數(shù)據(jù)系統(tǒng)所需要的分布式文件系統(tǒng)、分布式數(shù)據(jù)處理技術(shù)、分布式數(shù)據(jù)庫系統(tǒng)和開源的大數(shù)據(jù)系統(tǒng)Had00p等方面介紹大數(shù)據(jù)系統(tǒng)的關(guān)鍵技術(shù)。2.1.2分布式文件系統(tǒng)文件系統(tǒng)是支持大數(shù)據(jù)應(yīng)用的基礎(chǔ)。G00l!le是有史以來唯一需要處理如此海量數(shù)據(jù)的大公司。對(duì)于G009le而言,現(xiàn)有的方案已經(jīng)難以滿足其如此大的數(shù)據(jù)量的存儲(chǔ),為此G009le提出了一種分布式的文件管理系統(tǒng)——GFS。GFs與傳統(tǒng)的分布式文件系統(tǒng)有很多相同的目標(biāo),比如,性能、可伸縮性、可靠性以及可用性。但是,GFS的成功之處在于其與傳統(tǒng)文件系統(tǒng)的不同。GFS的設(shè)計(jì)思路主要基于以下的假設(shè):對(duì)于系統(tǒng)而言,組件失敗是一種常態(tài)而不是異常。GFS是構(gòu)建于大量廉價(jià)的服務(wù)器之上的可擴(kuò)展的分布式文件系統(tǒng),采用主從結(jié)構(gòu)。通過數(shù)據(jù)分塊、追加更新等方式實(shí)現(xiàn)了海量數(shù)據(jù)的高效存儲(chǔ),如圖2所示給出了GFS體系結(jié)構(gòu)。但是隨著業(yè)務(wù)量的進(jìn)一步變化,GFS逐漸無法適應(yīng)需求。Google對(duì)GFS進(jìn)行了設(shè)計(jì),實(shí)現(xiàn)了Colosuss系統(tǒng),該系統(tǒng)能夠很好地解決GFS單點(diǎn)故障和海量小文件存儲(chǔ)的問題。除了G00—e的GFS,眾多的企業(yè)和學(xué)者也從不同的方面對(duì)滿足大數(shù)據(jù)存儲(chǔ)需求的文件系統(tǒng)進(jìn)行了詳細(xì)的研究。微軟開發(fā)的cosmospl支撐其搜索、廣告業(yè)務(wù)。。類GFS的分布式文件系統(tǒng)主要針對(duì)大文件而設(shè)計(jì),但是在圖片存儲(chǔ)等應(yīng)用場(chǎng)景中,文件系統(tǒng)主要存儲(chǔ)海量小文件,F(xiàn)acebook為此推出了專門針對(duì)海量小文件的文件系統(tǒng)Haystac妒l,通過多個(gè)邏輯文件共享同一個(gè)物理文件,增加緩存層、部分元數(shù)據(jù)加載到內(nèi)存等方式有效地解決了海量小文件存儲(chǔ)的問題。是一種大規(guī)模、安全可靠的,具備高可靠性的集群文件系統(tǒng),由suN公司開發(fā)和維護(hù)。該項(xiàng)目主要的目的就是開發(fā)下一代的集群文件系統(tǒng),可以支持超過10000個(gè)節(jié)點(diǎn),數(shù)以拍字節(jié)的數(shù)量存儲(chǔ)系統(tǒng)。2.1.3、分布式數(shù)據(jù)處理系統(tǒng)大數(shù)據(jù)的處理模式分為流處理和批處理兩種”。“l(fā)。流處理是直接處理,批處理采用先存儲(chǔ)再處理。流處理將數(shù)據(jù)視為流,源源不斷的數(shù)據(jù)形成數(shù)據(jù)流。當(dāng)新的數(shù)據(jù)到來即立即處理并返回所需的結(jié)果。大數(shù)據(jù)的實(shí)時(shí)處理是一個(gè)極具挑戰(zhàn)性的工作,數(shù)據(jù)具有大規(guī)模、持續(xù)到達(dá)的特點(diǎn)。因此,如果要求實(shí)時(shí)的處理大數(shù)據(jù),必然要求采用分布式的方式,在這種情況下,除了應(yīng)該考慮分布式系統(tǒng)的一致性問題,還將涉及到分布式系統(tǒng)網(wǎng)絡(luò)時(shí)延的影響,這都增加了大數(shù)據(jù)流處理的復(fù)雜性。目前比較有代表性的開源流處理系統(tǒng)主要有:Twiner的stom,coogle公司2004年提出的MapReduce編程模型是最具代表性的批處理模型。MapReduce架構(gòu)的程序能夠在大量的普通配置的計(jì)算機(jī)上實(shí)現(xiàn)并行化處理。這個(gè)系統(tǒng)在運(yùn)行時(shí)只關(guān)心如何分割輸入數(shù)據(jù),在大量計(jì)算機(jī)組成的集度,集群中計(jì)算機(jī)的錯(cuò)誤處理,管理集群中的計(jì)算機(jī)之間必要的通信。對(duì)于有些計(jì)算,由于輸入數(shù)據(jù)量的巨大,想要在可接受的時(shí)間內(nèi)完成運(yùn)算,只有將這些計(jì)算分布在成百上千的主機(jī)上。這種計(jì)算模式對(duì)于如何處理并行計(jì)算、如何分發(fā)數(shù)據(jù)、如何處理錯(cuò)誤需要大規(guī)模的代碼處理,使得原本簡(jiǎn)單的運(yùn)算變得難以處理。MapReduce就是針對(duì)上述問題的一種新的設(shè)計(jì)模型。M印Reduce模型的主要貢獻(xiàn)就是通過簡(jiǎn)單的接口來實(shí)現(xiàn)自動(dòng)的并行化和大規(guī)模的分布式計(jì)算,通過使用MapReduce模型接口實(shí)現(xiàn)在大量普通的Pc上的高性能計(jì)算。MapReduce編程模型的原理:利用一個(gè)輸入鍵一值(Key廠value)對(duì)集合來產(chǎn)生一個(gè)輸出的ke丫/value對(duì)集合。MapReduce庫的用戶用兩個(gè)函數(shù)表達(dá)這個(gè)計(jì)算:Map和Reduce。用戶自定義的Map函數(shù)接受一個(gè)輸入的key,value值,然后產(chǎn)生一個(gè)中間key/value對(duì)集合。MapReduce庫把所有具有相同中間key值的value值集合在一起傳遞給Reduce函數(shù)。用戶自定義的Reduce函數(shù)接收一個(gè)中間kev的值和相關(guān)的一個(gè)value值的集合。Reduce函數(shù)合并這些value值,形成一個(gè)較小的value值集合,如圖3所示。MapReduce的提出曾經(jīng)遭到過一系列的指責(zé)和詬病。數(shù)據(jù)專家Stonebmker就認(rèn)為MapReduce是一個(gè)巨大的倒退,指出其存取沒有優(yōu)化、依靠蠻力進(jìn)行數(shù)據(jù)處理等問題。但是隨著M印Reduce在應(yīng)用上的不斷成功,以其為代表的大數(shù)據(jù)處理技術(shù)還是得到了廣泛的關(guān)注。研究人員針對(duì)M印Reduce進(jìn)行了深入的研究,目前針對(duì)MapReduce性能提升研究主要有以下幾個(gè)方面:多核硬件與GPu上的性能提高;索引技術(shù)與連接技術(shù)的優(yōu)化;調(diào)度技術(shù)優(yōu)化等。在MapReduce的易用性的研究上,研究人員正在研究更為高層的、表達(dá)能力更強(qiáng)的語言和系統(tǒng),包括Yalloo的Pig、Micmsoft的LINQ、Hive等。除了G00de的M印Reduce,YurdlongGu等人設(shè)計(jì)實(shí)現(xiàn)了SectorandSphere云計(jì)算平臺(tái)””,包括Sector和sphere兩部分。sector是部署在廣域網(wǎng)的分布式系統(tǒng),sphere是建立在Sector上的計(jì)算服務(wù)。sphere是以sector為基礎(chǔ)構(gòu)建的計(jì)算云,提供大規(guī)模數(shù)據(jù)的分布式處理。sphere的基本數(shù)據(jù)處理模型如圖4所示。針對(duì)不同的應(yīng)用會(huì)有不同的數(shù);Sphere統(tǒng)一地將它們以數(shù)據(jù)流的形式輸入。為了便于大規(guī)模地并行計(jì)算,首先需要對(duì)數(shù)據(jù)進(jìn)行分割,分割后的數(shù)據(jù)交給SPE執(zhí)行。sPE是Sphere處理引擎,是Sphere的基本運(yùn)算單元。除了進(jìn)行數(shù)據(jù)處理外sPE還能起到負(fù)載平衡的作用,因?yàn)橐话闱闆r下數(shù)據(jù)量遠(yuǎn)大于sPE數(shù)量,當(dāng)前負(fù)載較重的SPE能繼續(xù)處理的數(shù)據(jù)就較少,反之則較多,如此就實(shí)現(xiàn)了系統(tǒng)的負(fù)載平衡。2.1.4、分布式數(shù)據(jù)庫系統(tǒng)傳統(tǒng)的關(guān)系模型分布式數(shù)據(jù)庫難以適應(yīng)大數(shù)據(jù)時(shí)代的要求,主要的原因有以下幾點(diǎn):規(guī)模效應(yīng)帶來的壓力。大數(shù)據(jù)時(shí)代的數(shù)據(jù)遠(yuǎn)遠(yuǎn)超出單機(jī)處理能力,分布式技術(shù)是必然的選擇。傳統(tǒng)的數(shù)據(jù)庫傾向于采用縱向擴(kuò)展的方式,這種方式下性能的增加遠(yuǎn)低于數(shù)據(jù)的增加速度。大數(shù)據(jù)采用數(shù)據(jù)庫系統(tǒng)應(yīng)該是橫向發(fā)展的,這種方式具有更好的擴(kuò)展性。數(shù)據(jù)類型的多樣性和低價(jià)值密度性。傳統(tǒng)的數(shù)據(jù)庫適合結(jié)構(gòu)清晰,有明確應(yīng)用目的的數(shù)據(jù),數(shù)據(jù)的價(jià)值密度相對(duì)較高。在大數(shù)據(jù)時(shí)代數(shù)據(jù)的存在的形式是多樣的,各種半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)是大數(shù)據(jù)的重要組成部分。如何利用如此多樣、海量的低價(jià)值密度的數(shù)據(jù)是大數(shù)據(jù)時(shí)代數(shù)據(jù)庫面臨的重要挑戰(zhàn)之一。設(shè)計(jì)理念的沖突。關(guān)系數(shù)據(jù)庫追求的是“一種尺寸適用所有”,但在大數(shù)據(jù)時(shí)代不同的應(yīng)用領(lǐng)域在數(shù)據(jù)理性、數(shù)據(jù)處理方式以及數(shù)據(jù)處理時(shí)間的要求上千差萬別。實(shí)際處理中,不可能存在一種統(tǒng)一的數(shù)據(jù)存儲(chǔ)方式適應(yīng)所有場(chǎng)景。2.1.5大數(shù)據(jù)系統(tǒng)的開源實(shí)現(xiàn)平臺(tái)除了商業(yè)化的大數(shù)據(jù)處理方案,還有一些開源的項(xiàng)目也在積極的加入到大數(shù)據(jù)的研究當(dāng)中。Hadoop瞄’是一個(gè)開源分布式計(jì)算平臺(tái),它是MapReduce計(jì)算機(jī)模型的載體。借助于Hadoop,軟件開發(fā)者可以輕松地編出分布式并行程序,從而在計(jì)算機(jī)集群上完成海量數(shù)據(jù)的計(jì)算。Intel公司給出了一種Hadoop的開源實(shí)現(xiàn)方案,如圖6所示。在該系統(tǒng)中HDFs是與GFS類似的分布式文件系統(tǒng),它可以構(gòu)建從幾臺(tái)到幾千臺(tái)常規(guī)服務(wù)器組成的集群,并提供高聚合輸入輸出的文件讀寫訪問。Bigtable類似的分布式、按列存儲(chǔ)的、多維表結(jié)構(gòu)的實(shí)時(shí)分布式數(shù)據(jù)庫??梢蕴峁┐髷?shù)據(jù)量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的高度讀寫操作。Hive㈣是基于Hadoop的大數(shù)據(jù)分布式數(shù)據(jù)倉庫引擎。它可以將數(shù)據(jù)存放在分布式文件系統(tǒng)或分布式數(shù)據(jù)庫中,并使用sQL語言進(jìn)行海量信息的統(tǒng)計(jì)、查詢和分析操作。zooKeepe嚴(yán)1是針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。它可以維護(hù)系統(tǒng)配置、群組用戶和命名等信息。sqoop㈣提供高效在Had00p和結(jié)構(gòu)化數(shù)據(jù)源之間雙向傳送數(shù)據(jù)的連接器組件。它將數(shù)據(jù)傳輸任務(wù)轉(zhuǎn)換為分布式Map任務(wù)實(shí)現(xiàn),在傳輸過程中還可以實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換等功能。Flume田I是分布式、高可靠的和高可用的日志采集系統(tǒng),它用來從不同源的系統(tǒng)中采集、匯總和搬移大量日志數(shù)據(jù)到一個(gè)集中式的數(shù)據(jù)存儲(chǔ)中。2.2、研究基本思路以往談及大的數(shù)據(jù)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。如今把“大數(shù)據(jù)”作為一個(gè)專有名詞提及,通常指的是解決問題的一種方法,即通過收集和整理生產(chǎn)生活中方方面面的數(shù)據(jù),然后對(duì)其進(jìn)行整理、挖掘、分析、處理,進(jìn)而從中獲得有用的價(jià)值信息。雖然通常意義上的大數(shù)據(jù)解決方案描述了一種通常的行為,但要實(shí)現(xiàn)這種通常的行為,往往會(huì)遇到諸多技術(shù)和硬件上的問題。一個(gè)顯而易見的問題就是:大數(shù)據(jù)包絡(luò)萬象,而且像音頻、文本信息、視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)正以突飛猛進(jìn)的速度增長(zhǎng),加上移動(dòng)互聯(lián)網(wǎng)的普及所帶來的如位置、生活信息等富含價(jià)值的數(shù)據(jù),現(xiàn)有的,或者傳統(tǒng)的對(duì)數(shù)據(jù)的處理手段和硬件配置已越來越跟不上數(shù)據(jù)發(fā)展的步伐。在電子資源的利用中,這種問題就顯得尤為明顯,其具體表現(xiàn)在以下幾方面:數(shù)據(jù)庫來源需要擴(kuò)展。雖然現(xiàn)在例如阿帕比電子教參書、阿帕比報(bào)紙全文庫、月旦知識(shí)庫、EBSCOhost數(shù)據(jù)庫、Emerald全文數(shù)據(jù)庫講座、Elsevier期刊數(shù)據(jù)庫等大型數(shù)據(jù)庫均可利用,但部分外文網(wǎng)數(shù)據(jù)庫國(guó)內(nèi)還不可以閱覽,或有償閱覽或閱覽后無法下載。這都使得數(shù)據(jù)庫內(nèi)容受限。數(shù)據(jù)庫限制較多?,F(xiàn)在大部分高校的文獻(xiàn)閱覽都是在校內(nèi)ID才可以,但如果學(xué)生或老師回到家,或者有事急需論文的查找,這時(shí)就顯得尤為不便。另外下載的權(quán)限也有很多限制,例如內(nèi)蒙古大學(xué)圖書館的部分期刊圖書就僅提供在線閱讀,而且一次申請(qǐng)的頁數(shù)也有限制。搜索內(nèi)容不明確,不細(xì)致化。數(shù)據(jù)缺少權(quán)威化。搜索方法較為復(fù)雜,缺少智能化,針對(duì)所需要的文獻(xiàn)需要較長(zhǎng)時(shí)間才能的到想要的論文。數(shù)據(jù)需要存儲(chǔ),存儲(chǔ)需要設(shè)備,存儲(chǔ)設(shè)備的容量和可擴(kuò)展性以及讀取的速度成為了一大問題(容量問題)2.3、研究框架來源更加廣泛化,發(fā)表論文周期縮短2、數(shù)據(jù)分類詳細(xì)化,改變搜索方式3、限制減少化,提供可在指定ID范圍之外的信息檢索2.4、具體方案大數(shù)據(jù)的解決方案不同于純粹云計(jì)算的解決方案,雖然云計(jì)算帶來了看上去更便宜的處理能力和存儲(chǔ)能力,但對(duì)于往往都有相當(dāng)數(shù)量級(jí)規(guī)模的大數(shù)據(jù)應(yīng)用而言,在基礎(chǔ)架構(gòu)上巧妙地整合和部分的集中,反而能更好地解決安全性、可靠性、穩(wěn)定性和綠色環(huán)保的需要。針對(duì)研究思路中提出的問題,我們提出如下解決方案:1、對(duì)現(xiàn)有電子資源的進(jìn)行整合。電子信息資源的整合,可有效促進(jìn)電子資源的有序化。有序化的方式表現(xiàn)在兩個(gè)方面,一是加強(qiáng)分散在不同數(shù)據(jù)庫之中、具有某種關(guān)聯(lián)的電子信息資源的有序化。按照全文電子期刊的期刊名稱字母順序排列或數(shù)據(jù)庫按學(xué)科內(nèi)容分類進(jìn)行重新整合,整合成一個(gè)互動(dòng)、互連的有機(jī)整體。建立跨庫的一站式檢索平臺(tái),實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫的跨庫榆索。從而提高檢索效率和資源的利用率。二足加強(qiáng)對(duì)分散在網(wǎng)絡(luò)之中的。原本雜亂無序的零散電子信息資源的數(shù)據(jù)整合.將分布在各網(wǎng)站上的有關(guān)符合本院校某一科研專題的信息進(jìn)行查找、篩選、分類和整理,然后以專題導(dǎo)航的形式放在一個(gè)網(wǎng)站上為讀者提供服務(wù)。2、利用VPN技術(shù)實(shí)現(xiàn)圖書館電子資源遠(yuǎn)程訪問。開設(shè)校外訪問電子資源的有效途徑。方便家住校外的師生使用.而利用VPN(虛擬專用網(wǎng))技術(shù)可以實(shí)現(xiàn)讀者在校外對(duì)校內(nèi)圖書館信息資源的遠(yuǎn)程訪問,它是一種安全可靠、切實(shí)可行的解決方案。如采用SSLVPN技術(shù),管理員可以根據(jù)遠(yuǎn)程用戶的身份和權(quán)限為其分配可訪問的各種電了源.通過行為跟蹤引擎.可以查看遠(yuǎn)程接入用戶的所有訪問記錄,進(jìn)一步了解電子資源的訪問情況,實(shí)時(shí)地掌握流量信息,避免下載超量等問題。從而實(shí)現(xiàn)了對(duì)訪問的實(shí)時(shí)監(jiān)控和有效管理。另外,數(shù)據(jù)庫有并發(fā)用戶數(shù)限制,讀者往往很難順暢地登錄和使用,需要加強(qiáng)對(duì)讀者的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論