圖書(shū)館大數(shù)據(jù)模型_第1頁(yè)
圖書(shū)館大數(shù)據(jù)模型_第2頁(yè)
圖書(shū)館大數(shù)據(jù)模型_第3頁(yè)
圖書(shū)館大數(shù)據(jù)模型_第4頁(yè)
圖書(shū)館大數(shù)據(jù)模型_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

精選優(yōu)質(zhì)文檔-----傾情為你奉上精選優(yōu)質(zhì)文檔-----傾情為你奉上專(zhuān)心---專(zhuān)注---專(zhuān)業(yè)專(zhuān)心---專(zhuān)注---專(zhuān)業(yè)精選優(yōu)質(zhì)文檔-----傾情為你奉上專(zhuān)心---專(zhuān)注---專(zhuān)業(yè)圖書(shū)館大數(shù)據(jù)模型“大數(shù)據(jù)(BigData)”是繼Web2.0之后和云計(jì)算一起被媒體最關(guān)注的詞匯組合,并正在引起信息科技領(lǐng)域越來(lái)越多的關(guān)注熱潮。IBM、EMC、Oracle、Microsoft等IT巨頭幾乎都已投身到了大數(shù)據(jù)的軟硬件技術(shù)整合、大數(shù)據(jù)信息處理的技術(shù)供應(yīng)研究開(kāi)發(fā)之中,力求在新一輪的信息競(jìng)爭(zhēng)環(huán)境中占據(jù)主動(dòng),并搶得戰(zhàn)略先機(jī)與技術(shù)制高點(diǎn)。圖書(shū)館作為社會(huì)的知識(shí)信息服務(wù)中心,使得社會(huì)對(duì)圖書(shū)館所提供的服務(wù)要求更為苛刻,潛在的知識(shí)挖掘、知識(shí)評(píng)價(jià)、數(shù)據(jù)分析等增值服務(wù)需求已經(jīng)開(kāi)始顯現(xiàn)。利用大數(shù)據(jù)技術(shù)去挖掘、識(shí)別、組織與分析隱含在讀者行為中的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)信息,尋找他們的隱形訴求進(jìn)而改進(jìn)圖書(shū)館的服務(wù),達(dá)到圖書(shū)館資源、服務(wù)與讀者需求的雙向理想控制已成為大數(shù)據(jù)時(shí)代圖書(shū)館提高服務(wù)體系的組織水平、推動(dòng)行業(yè)發(fā)展與制度建設(shè)的捷徑之一。一、大數(shù)據(jù)概念(一)大數(shù)據(jù)的定義維基百科的定義是:“大數(shù)據(jù)(BigData),或稱(chēng)巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類(lèi)所能解讀的信息?!盵1]也就是說(shuō),由于所涉及的數(shù)據(jù)規(guī)模巨大,以至于利用目前的主要軟件工具,在可允許的時(shí)間范圍內(nèi),達(dá)到查詢(xún)檢索、下載獲取、加工處理、數(shù)據(jù)管理,并有效的整理成為對(duì)用戶(hù)有用的數(shù)據(jù)資源已經(jīng)變的非常困難。美國(guó)互聯(lián)網(wǎng)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長(zhǎng)50%,每?jī)赡瓯銓⒎环壳笆澜缟?0%以上的數(shù)據(jù)都是近幾年產(chǎn)生的。大數(shù)據(jù)時(shí)代最大的轉(zhuǎn)變就是人們放棄對(duì)事物因果關(guān)系的渴求,取而代之的是更加關(guān)注相關(guān)關(guān)系,對(duì)人類(lèi)的認(rèn)知方式和與世界交流的方式都提出了全新的挑戰(zhàn)。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)就是資產(chǎn)已經(jīng)成為人們的共識(shí)。(二)大數(shù)據(jù)的特點(diǎn)分析員道格.萊尼(DougLaney)曾在麥塔集團(tuán)(METAGroup,現(xiàn)為高德納)的一份研究報(bào)告中指出大數(shù)據(jù)的三個(gè)特點(diǎn):量(Volume,數(shù)據(jù)大小)、速(Velocity,數(shù)據(jù)輸入輸出的速度)與多變(Variety,多樣性),合稱(chēng)“3V”。另外,以IDC為代表的業(yè)界認(rèn)為滿足“4V”(Volume、Velocity、Variety、Value,即種類(lèi)多、流量大、容量大、價(jià)值高)指標(biāo)的數(shù)據(jù)才可稱(chēng)為大數(shù)據(jù)。但無(wú)論是“3V”還是“4V”,其本質(zhì)都是對(duì)大數(shù)據(jù)中的“大”的理解與闡釋。大數(shù)據(jù)的單條數(shù)據(jù)并無(wú)太多價(jià)值,但匯集龐大的單條數(shù)據(jù)集則蘊(yùn)含著巨大的財(cái)富,將已有?Y構(gòu)化(如關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)中的數(shù)據(jù)),半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)(如文檔、文本、圖片、XML、HTML、各類(lèi)報(bào)表、圖像和音頻/視頻信息等)進(jìn)行融合和分析后,會(huì)挖掘出很多新的業(yè)務(wù)信息。二、圖書(shū)館大數(shù)據(jù)(一)圖書(shū)館的大數(shù)據(jù)類(lèi)型進(jìn)行大數(shù)據(jù)分析首先要擁有大數(shù)據(jù),圖書(shū)館本身?yè)碛械拇髷?shù)據(jù)主要包括:1.圖書(shū)館的數(shù)字化資源。經(jīng)過(guò)數(shù)字圖書(shū)館的多年建設(shè),圖書(shū)館擁有大量的數(shù)據(jù)庫(kù)資源、電子書(shū)資源紙質(zhì)圖書(shū)電子化的數(shù)字資源,以及各種音頻、視頻資源,這些資源在總量上很大而且增長(zhǎng)速度也比較快,它們是圖書(shū)館大數(shù)據(jù)的重要組成部分。[2]2.社交網(wǎng)絡(luò)時(shí)代出現(xiàn)的大量非結(jié)構(gòu)化數(shù)據(jù)。在門(mén)戶(hù)網(wǎng)站、搜索引擎時(shí)代之后,社交網(wǎng)絡(luò)時(shí)代已經(jīng)到來(lái)。隨之而來(lái)產(chǎn)生了大量的非結(jié)構(gòu)化數(shù)據(jù),通過(guò)大數(shù)據(jù)分析技術(shù)可以將這些數(shù)據(jù)進(jìn)行收集分析,得出讀者的興趣偏好。伴隨著社交網(wǎng)絡(luò)、移動(dòng)圖書(shū)館、物聯(lián)網(wǎng)等概念的興起,今后來(lái)自讀者的各種信息將越來(lái)越多,我們將在讀者使用圖書(shū)館服務(wù)的過(guò)程中收集讀者的地理位置、搜索歷史、搜索時(shí)間等信息,這些很多是非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),挖掘讀者偏好,為其提供最有用的信息。3.讀者使用歷史所形成的非結(jié)構(gòu)化數(shù)據(jù)。在圖書(shū)館里不管是各種數(shù)據(jù)庫(kù)資源,還是紙質(zhì)資源,以及各種學(xué)生的信息都是我們的大數(shù)據(jù)。但是這些并不是大數(shù)據(jù)的全部,只是其中的一部分。比如他們對(duì)于數(shù)據(jù)庫(kù)的檢索歷史、瀏覽歷史、數(shù)據(jù)使用方向及使用方法等信息。伴隨著移動(dòng)互聯(lián)時(shí)代的到來(lái),將從手機(jī)、平板電腦、筆記本等諸多移動(dòng)終端中收集到讀者的個(gè)人信息、方位信息、瀏覽信息等各種不同的數(shù)據(jù),這才真正構(gòu)成了圖書(shū)館完整的大數(shù)據(jù)采集。(二)圖書(shū)館大數(shù)據(jù)的幾個(gè)主要來(lái)源1.RFID射頻數(shù)據(jù):RFID嵌入到圖書(shū)館相關(guān)資源中,實(shí)現(xiàn)資源的跟蹤及分析。比如圖書(shū)芯片和借閱卡芯片的相關(guān)數(shù)據(jù),來(lái)優(yōu)化圖書(shū)布局和館藏結(jié)構(gòu)。什么資源使用的多,哪個(gè)時(shí)段流通更頻繁,資源的處理效率如何等,都對(duì)圖書(shū)館資源的利用率和采購(gòu)渠道至關(guān)重要。2.傳感器數(shù)據(jù):通過(guò)分布在圖書(shū)館不同位置或環(huán)境中的傳感器對(duì)所處環(huán)境和資源進(jìn)行的感知,不斷生成的數(shù)據(jù),由于長(zhǎng)時(shí)間積累所產(chǎn)生的數(shù)據(jù)量也非常巨大。結(jié)合物聯(lián)網(wǎng)技術(shù),可以提升自動(dòng)化設(shè)備的智能化處理能力。3.社交網(wǎng)絡(luò)交互數(shù)據(jù):隨著社交網(wǎng)絡(luò)應(yīng)用的逐步推廣,社交網(wǎng)絡(luò)所產(chǎn)生的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過(guò)以往任何一個(gè)信息傳播媒介,毫無(wú)疑問(wèn),它將會(huì)成為未來(lái)很長(zhǎng)一段時(shí)間內(nèi),大數(shù)據(jù)最為主要的來(lái)源之一。該渠道可以更多地結(jié)合第三方商業(yè)數(shù)據(jù)接口,來(lái)完成數(shù)據(jù)匯集。4.移動(dòng)互聯(lián)數(shù)據(jù):移動(dòng)互聯(lián)網(wǎng)及移動(dòng)互聯(lián)技術(shù)的不斷完善,使得圖書(shū)館可以通過(guò)WIFI定位、流量監(jiān)控等方式,靈活獲取移動(dòng)電子設(shè)備、人員、資源、用戶(hù)行為和需求等信息,并對(duì)這些信息進(jìn)行實(shí)時(shí)分析,從而幫助我們開(kāi)展有效的智能輔助決策。[3]三、大數(shù)據(jù)應(yīng)用(一)實(shí)現(xiàn)針對(duì)不同讀者的個(gè)性化服務(wù)圖書(shū)館讀者具有人數(shù)眾多、年齡不同、專(zhuān)業(yè)方向不同等特點(diǎn)給圖書(shū)館提出了不同的個(gè)性化要求。而大數(shù)據(jù)的應(yīng)用就在于加強(qiáng)用戶(hù)研究與交互數(shù)據(jù)的利用,并基于對(duì)用戶(hù)數(shù)據(jù)的分析,從中提取有價(jià)值的信息,建立用戶(hù)模型,針對(duì)不同用戶(hù)提供針對(duì)性服務(wù)。[4]圖書(shū)館里大量的用戶(hù)行為產(chǎn)生的數(shù)據(jù),如用戶(hù)查詢(xún)書(shū)目產(chǎn)生的OPAC日志,用戶(hù)流通日志,電子資源檢索瀏覽下載產(chǎn)生的日志及流量數(shù)據(jù),這些數(shù)據(jù)中除了用于記錄讀者的個(gè)人信息外,還隱藏著許多重要的信息,因此可通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘分析、知識(shí)發(fā)現(xiàn)、只能代理等技術(shù),描述用戶(hù)的行為,準(zhǔn)確定位讀者需求,向讀者提供主動(dòng)式推送服務(wù),滿足其個(gè)性化的智能服務(wù)。(二)提供研究動(dòng)向以及研究熱點(diǎn)的變化圖書(shū)館可以通過(guò)對(duì)讀者數(shù)據(jù)的收集匯總,進(jìn)行大數(shù)據(jù)分析,可以在宏觀上分析相關(guān)領(lǐng)域科研熱點(diǎn)的動(dòng)向,為科研人員、科研部門(mén)的決策者服務(wù),讓他們更快的洞察最新的科研走向,以及相關(guān)研究領(lǐng)域其他科研人員的研究進(jìn)展。通過(guò)大數(shù)據(jù)的分析,提升圖書(shū)館在科研領(lǐng)域中的作用,與此同時(shí)為科研人員提供更多有價(jià)值的研究策略信息。(三)為采編部門(mén)和數(shù)據(jù)庫(kù)采購(gòu)部門(mén)提供資源評(píng)價(jià)意見(jiàn)(四)用戶(hù)流失分析及價(jià)值分析在當(dāng)今信息技術(shù)發(fā)展的洪流中,價(jià)值質(zhì)疑、技術(shù)障礙、管理僵化、人員隊(duì)伍適應(yīng)變化敏感性低等重大問(wèn)題已經(jīng)嚴(yán)重困制約著圖書(shū)館的發(fā)展,圖書(shū)館的社會(huì)地位與存在價(jià)值正在不斷的弱化,用戶(hù)正在向其他文化信息機(jī)構(gòu)流失。我們通過(guò)大數(shù)據(jù)分析能夠讓圖書(shū)館清晰把握用戶(hù)的信息需求及意愿,分析出用戶(hù)的信息行為及其知識(shí)應(yīng)用能力,有利于圖書(shū)館對(duì)用戶(hù)的信息需求以及信息行為偏好進(jìn)行預(yù)測(cè),架構(gòu)以讀者個(gè)性化服務(wù)為核心的信息服務(wù)體系。[5]大數(shù)據(jù)技術(shù)加強(qiáng)了圖書(shū)館對(duì)于讀者研究與交互數(shù)據(jù)分析、利用的能力,從海量數(shù)據(jù)中挖掘有用信息,建立用戶(hù)檔案與模型,在精確劃分讀者類(lèi)別的基礎(chǔ)上,進(jìn)行跟蹤服務(wù)、知識(shí)關(guān)聯(lián)服務(wù)、先覺(jué)性服務(wù),提高用戶(hù)體驗(yàn),增加圖書(shū)館信息服務(wù)的競(jìng)爭(zhēng)力,從而留住用戶(hù)。(五)建立新型知識(shí)服務(wù)引擎技術(shù)引擎是圖書(shū)館信息服務(wù)的技術(shù)核心,如何利用大數(shù)據(jù)技術(shù)構(gòu)建圖書(shū)館的新型知識(shí)服務(wù)引擎,將會(huì)是未來(lái)幾年內(nèi)圖書(shū)館情報(bào)領(lǐng)域信息技術(shù)研究的主要內(nèi)容。[6]新型知識(shí)服務(wù)引擎包括資源及學(xué)術(shù)搜索引擎、資源及服務(wù)推薦引擎、知識(shí)服務(wù)社區(qū)實(shí)體(包括用戶(hù)及資源)行為智能分析引擎、用戶(hù)知識(shí)需求預(yù)測(cè)引擎、及多維度信息資源獲取、組織、分析及決策引擎等。例如美國(guó)Hiptype公司將大數(shù)據(jù)分析技術(shù)來(lái)分析電子書(shū)讀者閱讀習(xí)慣和喜好,這也是國(guó)內(nèi)外圖書(shū)情報(bào)領(lǐng)域首例利用大數(shù)據(jù)技術(shù)構(gòu)建知識(shí)服務(wù)社區(qū)實(shí)體(包括用戶(hù)及資源)行為智能分析引擎。(六)建立知識(shí)服務(wù)及業(yè)務(wù)建設(shè)的風(fēng)險(xiǎn)模型通過(guò)分析資源,包括知識(shí)資源、網(wǎng)絡(luò)資源、信息資源、軟件資源及服務(wù)資源等的實(shí)時(shí)狀態(tài)來(lái)預(yù)測(cè)未來(lái)可能出現(xiàn)的故障及?稻葑試純贍艸魷值耐槐溆氬ǘ?,幫助圖書(shū)館預(yù)先制訂好應(yīng)對(duì)措施、策略以及圖書(shū)館的各類(lèi)風(fēng)險(xiǎn)評(píng)估模型。同時(shí),如前所述,傳感器數(shù)據(jù)也是未來(lái)大數(shù)據(jù)的主要來(lái)源之一,此類(lèi)數(shù)據(jù)將為圖書(shū)館獲取大量的圖書(shū)館人文環(huán)境、自然環(huán)境以及技術(shù)環(huán)境的多維度數(shù)據(jù),借助大數(shù)據(jù)技術(shù)分析、預(yù)測(cè)建立有針對(duì)性的各類(lèi)圖書(shū)館風(fēng)險(xiǎn)評(píng)估模型,實(shí)現(xiàn)圖書(shū)館管理的優(yōu)化升級(jí),保持圖書(shū)館穩(wěn)定的運(yùn)行狀態(tài)。四、概念轉(zhuǎn)變數(shù)字

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論