基于云計(jì)算的海量數(shù)據(jù)挖掘-_第1頁(yè)
基于云計(jì)算的海量數(shù)據(jù)挖掘-_第2頁(yè)
基于云計(jì)算的海量數(shù)據(jù)挖掘-_第3頁(yè)
基于云計(jì)算的海量數(shù)據(jù)挖掘-_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于云計(jì)算的海量數(shù)據(jù)挖掘摘要在一個(gè)信息爆炸的時(shí)代,基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù)很好地滿足了用戶對(duì)于數(shù)據(jù)庫(kù)中可理解知識(shí)的精準(zhǔn)認(rèn)識(shí)。依靠網(wǎng)絡(luò)資源,云計(jì)算提供了一種動(dòng)態(tài)可伸縮的虛擬性資源模式,實(shí)現(xiàn)了用戶按使用率付費(fèi)。云計(jì)算在節(jié)約資源和提高信息化上具有應(yīng)用價(jià)值。MapReduce是一種云計(jì)算環(huán)境下的并行計(jì)算模型,在數(shù)據(jù)挖掘方面具有很大技術(shù)優(yōu)勢(shì)。此外,要很好地應(yīng)用基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù),我們還需關(guān)注虛擬機(jī)遷移、服務(wù)器整合、能耗管理、流量管理與分析、軟件框架和存儲(chǔ)技術(shù)與數(shù)據(jù)管理等的關(guān)鍵問(wèn)題。【關(guān)鍵詞】云計(jì)算海量數(shù)據(jù)挖掘研究1 前言我們正處于一個(gè)信息爆炸的時(shí)代,現(xiàn)在大約每隔十八個(gè)月的時(shí)間全球的數(shù)據(jù)量就

2、會(huì)翻一倍,而且數(shù)據(jù)總量還呈現(xiàn)不斷增加的趨向。海量的數(shù)據(jù)為企業(yè)或者個(gè)人帶來(lái)了各種便利,但是也帶來(lái)了甄別、選擇有價(jià)值數(shù)據(jù)的難度。而云計(jì)算平臺(tái)正好契合了對(duì)此類高效挖掘數(shù)據(jù)的要求,它擁有高度虛擬化和高可用化的優(yōu)勢(shì),可以對(duì)資源進(jìn)行動(dòng)態(tài)的調(diào)度和分配。因此,融合云計(jì)算技術(shù)和數(shù)據(jù)挖掘技術(shù)無(wú)疑是一套很好的解決方案。目前,基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù)已經(jīng)開始走向商業(yè)應(yīng)用階段,其中以谷歌實(shí)驗(yàn)室提出的MapReduce 并行計(jì)算模型最具代表性。它具有顯著的數(shù)據(jù)處理效率,可以為各類企業(yè)提供有效的數(shù)據(jù)挖掘服務(wù),能為企業(yè)提高增效節(jié)支提供助力。2 云計(jì)算2.1 云計(jì)算的定義云計(jì)算是一種依靠互聯(lián)網(wǎng)提供動(dòng)態(tài)可伸縮的虛擬性資源的模

3、式,它充分發(fā)揮了互聯(lián)網(wǎng)的資源優(yōu)勢(shì),把互聯(lián)網(wǎng)上暫時(shí)閑置的資源加以了合理配置。它是一種全新的理念,是按照使用量付費(fèi)的新型模式。通過(guò)設(shè)立計(jì)算資源的共享池,它整合了互聯(lián)網(wǎng)上的各種計(jì)算資源,實(shí)現(xiàn)了快速、按需和廉價(jià)地提供服務(wù)。因此,對(duì)于用戶而言,完全不必知道誰(shuí)是真正的服務(wù)提供者,也無(wú)需關(guān)心支持云計(jì)算的服務(wù)器等基礎(chǔ)設(shè)施是如何工作和管理的。目前,云計(jì)算主要存在三種主要的商業(yè)模式,它們是軟件即服務(wù)(SaaS,平臺(tái)即服務(wù)(Paas和基礎(chǔ)架構(gòu)即服務(wù)(IaaS。2.2 云計(jì)算的應(yīng)用價(jià)值云計(jì)算具有很大的使用價(jià)值。首先,云計(jì)算通過(guò)對(duì)互聯(lián)網(wǎng)上的服務(wù)器的集群,對(duì)各類資源進(jìn)行篩選整理并根據(jù)客戶的實(shí)際需求加以有針對(duì)性的提供,從而

4、極大地節(jié)約了資源。這對(duì)于用戶和云計(jì)算運(yùn)營(yíng)商來(lái)講都能節(jié)省大量的資源,提供了很大的便利。同時(shí),相比大型計(jì)算機(jī)的單獨(dú)運(yùn)作,云計(jì)算在大數(shù)據(jù)處理,特別是深層數(shù)據(jù)挖掘和整合方面具有無(wú)與倫比的優(yōu)勢(shì)。以計(jì)算資源池為依托,云計(jì)算可以處理海量數(shù)據(jù)和超大型文件資料。2.3 云計(jì)算環(huán)境下的并行計(jì)算模型谷歌實(shí)驗(yàn)室提出的MapReduce概念是一個(gè)分布式并行編程的模型或者說(shuō)是技術(shù)框架,可用于并行處理大規(guī)模的數(shù)據(jù)。它的主要技術(shù)思路是先將一個(gè)MapReduce的數(shù)據(jù)處理作業(yè)分解為若干個(gè)能夠獨(dú)立運(yùn)行的Map任務(wù),把任務(wù)分配給不同的計(jì)算機(jī)去執(zhí)行,生成各自獨(dú)立的統(tǒng)一格式的某種中間文件,然后由Reduce任務(wù)合并這些Map任務(wù),并最

5、終獲得一個(gè)輸出文件。3 基于云計(jì)算的海量數(shù)據(jù)挖掘3.1 數(shù)據(jù)挖掘簡(jiǎn)單地說(shuō),數(shù)據(jù)挖掘就是對(duì)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)過(guò)程。它是在海量的數(shù)據(jù)中找到新型的、有效的或是可能有用的并能被人類理解的模式的一個(gè)過(guò)程。對(duì)于企業(yè)用戶而言,他們希望獲得看似混沌的海量數(shù)據(jù)中可理解的那部分知識(shí),而且希望這類知識(shí)是非常精準(zhǔn)的,比如一些電商用戶希望了解他們服務(wù)的客戶群體的行為模式和偏好等。3.2 云計(jì)算數(shù)據(jù)挖掘服務(wù)的優(yōu)勢(shì)總體而言,基于云計(jì)算的海量數(shù)據(jù)挖掘具有四方面的優(yōu)勢(shì)。(1基于云計(jì)算的海量數(shù)據(jù)挖掘采用分布式數(shù)據(jù)挖掘的方式,效率非常高,而且是實(shí)時(shí)動(dòng)態(tài)開展的。因此,它的應(yīng)用面非常廣泛,能夠滿足不同類型、不同規(guī)模的組織形態(tài)的需求。它

6、既能為中小型用戶節(jié)約大量的資金成本,提高工作效率,又能幫助大型企業(yè)用戶緩解特定數(shù)據(jù)處理的需求對(duì)于大型計(jì)算機(jī)的技術(shù)依賴性。(2對(duì)于用戶而言,基于云計(jì)算的海量數(shù)據(jù)挖掘使用起來(lái)非常簡(jiǎn)便。由于云計(jì)算分布式的數(shù)據(jù)處理模式,用戶不必考慮數(shù)據(jù)劃分和數(shù)據(jù)分配等繁瑣的數(shù)據(jù)挖掘處理的過(guò)程。(3基于云計(jì)算的海量數(shù)據(jù)挖掘提高了原有機(jī)器設(shè)備的利用率水平,通過(guò)服務(wù)器集成和協(xié)同工作提高了處理大數(shù)據(jù)的能力。而且,它的資源利用的可伸縮性非常靈活,并具有很高的容錯(cuò)能力。(4基于云計(jì)算的海量數(shù)據(jù)挖掘把應(yīng)用的門檻放得很低,實(shí)現(xiàn)了數(shù)據(jù)挖掘技術(shù)上的資源共享,回應(yīng)了市場(chǎng)的急切需求。3.3 云計(jì)算技術(shù)在海量數(shù)據(jù)挖掘過(guò)程中的關(guān)鍵問(wèn)題要很好地實(shí)

7、現(xiàn)云計(jì)算技術(shù)在海量數(shù)據(jù)挖掘中的作用,還需要妥善解決虛擬機(jī)遷移、服務(wù)器整合、能耗管理、流量管理與分析、軟件框架和存儲(chǔ)技術(shù)與數(shù)據(jù)管理這六方面的關(guān)鍵問(wèn)題。(1實(shí)現(xiàn)虛擬機(jī)遷移是為了回避熱點(diǎn),減輕數(shù)據(jù)負(fù)載,使數(shù)據(jù)處理處于減壓平衡的狀態(tài)。但是,由于目前的技術(shù)水平限制,系統(tǒng)的靈活性還尚顯不足,回避熱點(diǎn)有時(shí)較難做到。此外,一些服務(wù)器的數(shù)據(jù)負(fù)載能力無(wú)法與高效的遷移需要相匹配。(2通過(guò)服務(wù)器整合,讓高頻與低頻錯(cuò)位配置,能夠把能耗壓縮到最低。但是,這種理想的狀況常常會(huì)被資源利用的動(dòng)態(tài)性所打斷,從而出現(xiàn)瞬時(shí)的信息擁堵情況的發(fā)生。(3能耗成本在云計(jì)算運(yùn)營(yíng)中的占比非常高,大致超過(guò)了一半的成本支出。4 結(jié)語(yǔ)?之,傳統(tǒng)的數(shù)據(jù)挖掘方式已經(jīng)無(wú)法滿足用戶的需求,而云計(jì)算技術(shù)對(duì)于海量數(shù)據(jù)挖掘和數(shù)據(jù)處理方面具有極大的優(yōu)勢(shì)。通過(guò)對(duì)云計(jì)算關(guān)鍵技術(shù)問(wèn)題的解決,云計(jì)算在海量數(shù)據(jù)挖掘上必能有更大的作為。參考文獻(xiàn)1巴濟(jì)慈.基于云計(jì)算的海量數(shù)據(jù)挖掘處理與研究D.長(zhǎng)春:長(zhǎng)春理工大學(xué),2013.2賀瑤,王文慶,薛飛.基于云計(jì)算的海量數(shù)據(jù)挖掘研究J.計(jì)算機(jī)技術(shù)與發(fā)展

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論