云計算在數(shù)據(jù)挖掘技術(shù)中的應(yīng)用_第1頁
云計算在數(shù)據(jù)挖掘技術(shù)中的應(yīng)用_第2頁
云計算在數(shù)據(jù)挖掘技術(shù)中的應(yīng)用_第3頁
云計算在數(shù)據(jù)挖掘技術(shù)中的應(yīng)用_第4頁
云計算在數(shù)據(jù)挖掘技術(shù)中的應(yīng)用_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第第頁云計算在數(shù)據(jù)挖掘技術(shù)中的應(yīng)用摘要:伴隨信息技術(shù)的不斷發(fā)展,WEB數(shù)據(jù)挖掘技術(shù)也隨之不斷完善和成熟,逐漸被廣泛運用于各行各業(yè),其發(fā)揮的作用不容小覷。云計算是信息存儲的重大改革,很大程度提升了信息存儲的容量和安全性能。本文基于云計算的應(yīng)用現(xiàn)狀和技術(shù)分析,結(jié)合WEB數(shù)據(jù)挖掘技術(shù)的發(fā)展情況,對以云計算為基礎(chǔ)的WEB數(shù)據(jù)挖掘技術(shù)展開深入研究,從而間接推動信息技術(shù)的發(fā)展。

關(guān)鍵詞:WEB數(shù)據(jù)挖掘技術(shù);云計算;現(xiàn)狀;應(yīng)用

0引言

互聯(lián)網(wǎng)的出現(xiàn)和發(fā)展很大程度改變了人類的生活習(xí)慣,與之有關(guān)的網(wǎng)絡(luò)和互聯(lián)網(wǎng)信息也日益豐富和復(fù)雜。一般而言,WEB發(fā)揮著在大數(shù)據(jù)庫中提煉有用信息的功能,而WEB挖掘技術(shù)則發(fā)揮著從挖掘出的信息之間發(fā)現(xiàn)其相關(guān)性和怎樣將其應(yīng)用于具體問題解決之中的功能。目前,大量數(shù)據(jù)很難在一臺計算機上進行處理分析,為了滿足技術(shù)進步和社會發(fā)展的需求,云計算隨之出現(xiàn)并快速發(fā)展,其憑借較強的信息存儲能力、安全性能以及數(shù)據(jù)處理分析能力等,受到各行各業(yè)的廣泛關(guān)注。

1云計算的應(yīng)用現(xiàn)狀和技術(shù)分析

1.1應(yīng)用現(xiàn)狀

WEB的發(fā)展經(jīng)過了一個漫長的過程,隨著信息技術(shù)的發(fā)展和電子商務(wù)的興起,人們對互聯(lián)網(wǎng)的應(yīng)用日益頻繁和依賴性日益加強,掀起了一股WEB2.0的發(fā)展熱潮。對于互聯(lián)網(wǎng)企業(yè)而言,信息需求分析能力已成為衡量企業(yè)競爭水平的重要指標(biāo),特別是根據(jù)用戶需求建設(shè)的這類網(wǎng)站,比如視頻網(wǎng)站就需通過數(shù)據(jù)分析來進行網(wǎng)站功能設(shè)計。總之,云計算的產(chǎn)生和應(yīng)用有效解決了網(wǎng)絡(luò)技術(shù)的一些發(fā)展難題。在國內(nèi)網(wǎng)民數(shù)量巨大且持續(xù)增長的背景下,越來越多的大型企業(yè)通過云計算來進行數(shù)據(jù)加工處理和分析應(yīng)用。

1.2技術(shù)特征

通常來講,云計算主要針對數(shù)據(jù)管理,主要對象是數(shù)據(jù)信息,其和信息技術(shù)有顯著差異,具體有以下幾點:(1)廣泛性。存儲技術(shù)是云計算的關(guān)鍵技術(shù)之一,采取分布式存儲模式來提升存儲容量和存儲安全性,且性價比較高,實用性較強;(2)數(shù)據(jù)管理能力較強。云計算可實時監(jiān)控大數(shù)據(jù),可隨時隨地進行數(shù)據(jù)處理分析,同時可有目的地篩選出有用數(shù)據(jù)信息,技術(shù)先進,效率較高;(3)編程技術(shù)的先進性。技術(shù)元素是衡量云計算能否滿足客戶需求的重要指標(biāo),是維持云計算系統(tǒng)正常運轉(zhuǎn)的核心元素,由此可見,編程技術(shù)所發(fā)揮的作用無可取代。當(dāng)前,Map-Reduce編程技術(shù)應(yīng)用最為廣泛,初期以樹狀結(jié)構(gòu)呈現(xiàn),分支之后還需其他編程技術(shù)來維護;(4)虛擬技術(shù)的應(yīng)用。虛擬技術(shù)在云計算中的應(yīng)用較多,這是由于虛擬技術(shù)能有效配置網(wǎng)絡(luò)資源,脫離各分支系統(tǒng)獨立存在,在將各分支系統(tǒng)獨立化的同時,還將數(shù)據(jù)信息也分割成大量的獨立部分。這種模式使得云計算系統(tǒng)的彈性較大,能靈活運用動態(tài)的虛擬資源,有效降低成本費用,提高網(wǎng)絡(luò)資源管理的安全性。

2WEB數(shù)據(jù)挖掘技術(shù)的發(fā)展

2.1WEB數(shù)據(jù)挖掘技術(shù)的定義

WEB數(shù)據(jù)挖掘技術(shù)是結(jié)合WEB、信息技術(shù)、網(wǎng)絡(luò)技術(shù)等對挖掘信息進行全面分析處理,WEB和數(shù)據(jù)挖掘的有效融合反映了較強的綜合性,主要可分為基于內(nèi)容、架構(gòu)、應(yīng)用等幾種WEB數(shù)據(jù)挖掘技術(shù)。就內(nèi)容方面而言,是在WEB環(huán)境下,通過人工模式從相關(guān)文件夾中提煉有用信息;就架構(gòu)方面而言,是采取人工方式挖掘不同的數(shù)據(jù)結(jié)構(gòu),再采取有關(guān)手段來提煉有用信息;就應(yīng)用方面而言,是將挖掘主體存儲在日志文件之中,再據(jù)此來挖掘出站點的用戶信息。因此,所謂的數(shù)據(jù)挖掘,即采取有關(guān)技術(shù)來提煉WEB文檔中的有用信息,并據(jù)此來分析預(yù)測其未來發(fā)展趨勢??偠灾?,WEB挖掘技術(shù)并非是一項簡單的技術(shù),而是多種技術(shù)的有效融合和廣泛應(yīng)用。

2.2WEB數(shù)據(jù)挖掘技術(shù)的種類

通常來講,關(guān)于WEB數(shù)據(jù)挖掘技術(shù)的種類有多種分類依據(jù),一般是根據(jù)其對象類別劃分為基于內(nèi)容、架構(gòu)、應(yīng)用的三種WEB數(shù)據(jù)挖掘技術(shù)。就內(nèi)容角度而言,其主要對象是WEB文檔中數(shù)據(jù)信息,比如提煉出的圖像、音頻、視頻等具體信息,且還可細分為純文本數(shù)據(jù)挖掘和多媒體數(shù)據(jù)挖掘兩種;就結(jié)構(gòu)角度而言,其主要對象是數(shù)據(jù)架構(gòu),發(fā)揮著區(qū)分數(shù)據(jù)架構(gòu)是組織架構(gòu)還是頁面架構(gòu)的功能,并且還要對數(shù)據(jù)鏈進行詳細分類,對WEB數(shù)據(jù)挖掘技術(shù)的效率和準確性的提升有顯著作用;就應(yīng)用角度而言,通過對WEB文檔中的數(shù)據(jù)信息進行具體分析處理,來對用戶類型進行詳細分類,進而挖掘出更多的潛藏用戶。

2.3WEB數(shù)據(jù)挖掘技術(shù)的流程

通常情況下,WEB挖掘技術(shù)的流程會受到較多元素的作用,和傳統(tǒng)數(shù)據(jù)挖掘方式相比,其對象和手段有顯著變化,所以其流程也有所差異。如何將數(shù)據(jù)挖掘技術(shù)和WEB相結(jié)合是目前該技術(shù)發(fā)展的主要難題,這是因為WEB數(shù)據(jù)挖掘技術(shù)并非是有關(guān)技術(shù)的簡單應(yīng)用,而是一個有機整體,需要經(jīng)過檢索信息、選擇信息、分析信息等一系列流程。檢索信息是對WEB文檔中的數(shù)據(jù)信息或網(wǎng)站上的日志、新聞等內(nèi)容進行查詢分析;選擇信息是對上一環(huán)節(jié)查詢到的信息進行篩選辨別,去掉一些無用的數(shù)據(jù)信息,并對有用信息進行初步分析;分析信息是對待處理的數(shù)據(jù)信息進行深入的篩選辨別,提煉出有價值的數(shù)據(jù)信息。關(guān)于WEB數(shù)據(jù)挖掘的整個流程,不僅需要自動化設(shè)備的輔助,還需要人工辨別的支持。

3云計算在WEB數(shù)據(jù)挖掘技術(shù)中的應(yīng)用初探

3.1以云計算為基礎(chǔ)的WEB數(shù)據(jù)挖掘系統(tǒng)架構(gòu)

WEB數(shù)據(jù)挖掘系統(tǒng)架構(gòu)是由幾個節(jié)點相互關(guān)聯(lián)形成的,云計算發(fā)揮著使WEB數(shù)據(jù)挖掘系統(tǒng)架構(gòu)各節(jié)點相互作用的功能,從而促進WEB數(shù)據(jù)挖掘系統(tǒng)的完善化,具體架構(gòu)圖如圖1所示。主控節(jié)點是用戶和其他節(jié)點關(guān)聯(lián)的中樞紐帶;算法節(jié)點則負責(zé)保證數(shù)據(jù)分析的相關(guān)算法支撐,類似于一個算法數(shù)據(jù)庫;數(shù)據(jù)節(jié)點則是一個存儲數(shù)據(jù)的大數(shù)據(jù)庫;服務(wù)節(jié)點則發(fā)揮著控制任務(wù)進程和反饋分析結(jié)果的功能。(1)服務(wù)層。服務(wù)層是一個結(jié)合用戶需求通過WEB數(shù)據(jù)挖掘技術(shù)來進行數(shù)據(jù)分析,同時將結(jié)果反饋給用戶的過程;(2)控制層??刂茖邮峭ㄟ^主控節(jié)點來根據(jù)用戶具體需求分析,選出最恰當(dāng)?shù)乃惴ǔ绦?,保證算法程序和信息數(shù)據(jù)的契合度;(3)存儲層。存儲層主要發(fā)揮著存儲使用的算法程序、用戶需求和最終反饋結(jié)果的功能。存儲層有效降低了原始數(shù)據(jù)或算法丟失的可能性,即使是系統(tǒng)故障,后續(xù)也可在數(shù)據(jù)和算法存儲層找到相關(guān)的信息數(shù)據(jù)并且具有可恢復(fù)性;(4)業(yè)務(wù)處理層。業(yè)務(wù)處理層將數(shù)據(jù)庫中的原始信息通過主控節(jié)點來進行初步分配,在數(shù)據(jù)進行分析處理之后,再由服務(wù)節(jié)點將分析結(jié)果反饋到主控節(jié)點。

3.2以云計算為基礎(chǔ)的WEB數(shù)據(jù)挖掘算法程序

一般情況下,以云計算為基礎(chǔ)的WEB數(shù)據(jù)挖掘算法程序的基本步驟如下:(1)結(jié)合用戶需求來明確可信度,這種用戶需求通常是通過WEB網(wǎng)頁傳遞過來的;(2)WEB網(wǎng)頁客戶端向主控節(jié)點發(fā)出服務(wù)指令,數(shù)據(jù)節(jié)點會向主控節(jié)點傳遞原始數(shù)據(jù),同時將服務(wù)節(jié)點分析的結(jié)果反饋到主控節(jié)點;(3)主控節(jié)點將信息數(shù)據(jù)傳遞給算法節(jié)點,從算法程序數(shù)據(jù)庫中選出最優(yōu)的數(shù)據(jù)挖掘算法程序,再分配至各服務(wù)節(jié)點;(4)各服務(wù)節(jié)點會有目的的篩選數(shù)據(jù),并對信息數(shù)據(jù)進行整理分類,通過Apriori算法得到數(shù)據(jù)庫的頻集;(5)將分析結(jié)果反饋至主控節(jié)點,獲取整體數(shù)據(jù)庫的頻集,再將其傳遞至各服務(wù)節(jié)點,提高節(jié)點上的頻集準確性。如此反復(fù),再將服務(wù)節(jié)點的分析結(jié)果反饋至主控節(jié)點,從而提高整體頻集的準確性;(6)主控節(jié)點將最終結(jié)果反饋給用戶。

3.3算法結(jié)果分析

算法程序結(jié)果的檢驗有賴于實驗數(shù)據(jù)的支持,據(jù)分析結(jié)果顯示,算法效率和信息量的關(guān)系成正相關(guān),并且傳遞時間有差異,算法程序的傳輸時間要少于數(shù)據(jù)傳輸時間。與一般算法相比,WEB數(shù)據(jù)挖掘算法有顯著不同,可通過改變其他算法來獲得新算法程序?;谠朴嬎愕腤EB數(shù)據(jù)挖掘算法是一個整體算法,各節(jié)點聯(lián)系較強,有效避免了有效關(guān)聯(lián)規(guī)則遺漏的問題。

4結(jié)語

總而言之,WEB數(shù)據(jù)挖掘技術(shù)是對通過WEB文檔或其他網(wǎng)絡(luò)手段提煉的信息進一步加工處理、分析運用的技術(shù),其可結(jié)合人們的生活習(xí)慣和模式來掌握人們的具體需要?;ヂ?lián)網(wǎng)的發(fā)展使得網(wǎng)絡(luò)信息量呈幾何式增長,對信息存儲容量和數(shù)據(jù)分析能力的需求也有所提高,怎樣突破技術(shù)限制來挖掘出有效的網(wǎng)絡(luò)信息是目前互聯(lián)網(wǎng)行業(yè)面臨的主要問題。而云計算較強的信息存儲能力和數(shù)據(jù)計算能力,使得其受到互聯(lián)網(wǎng)行業(yè)的充分重視。基于云計算的WEB數(shù)據(jù)挖掘技術(shù)可統(tǒng)一管理控制網(wǎng)絡(luò)資源,結(jié)合WEB數(shù)據(jù)挖掘系統(tǒng)來充分運用云計算的信息存儲能力和數(shù)據(jù)計算能力,從而提升互聯(lián)網(wǎng)信息資源的利用率。

參考文獻

[1]孫雪凌.?dāng)?shù)據(jù)科學(xué)在高校學(xué)風(fēng)治理工作中的應(yīng)用探索[J].無線互聯(lián)科技,2016(17):129-132.

[2]沈軍霞,葛坤.新時期ERP系統(tǒng)應(yīng)用與實踐探討[J].無線互聯(lián)科技,2016(17):23-26.

[3]王光煒,薛玉倩.基于云計算的數(shù)據(jù)挖掘平臺[J].內(nèi)蒙古科技與經(jīng)濟,2016(19):65-69.

[4]張玨,陳莉,田建學(xué).面向零售業(yè)的關(guān)聯(lián)規(guī)則挖掘的研究與實現(xiàn)[J].計算機技術(shù)與發(fā)展,2016(10):146-150.

[5]邵傳飛.基于數(shù)據(jù)挖掘的兵棋推演數(shù)據(jù)分析方法研究[J].通訊世界,2016(21):245-247.

[6]劉占敏,劉津伊,賈蓓.FP-Growth算法在學(xué)生成績分析中的應(yīng)用[J].信息與電腦(理論版),2016(13):85-87.

[7]高瑜,仝衛(wèi)國.基于關(guān)聯(lián)規(guī)則的一次風(fēng)機故障預(yù)警方法研究[J].電力科學(xué)與工程,2016(10):46-49.

[8]王麗格.大數(shù)據(jù)時代下的數(shù)據(jù)挖掘和分析探究[J].科技展望,2016(30):201-203.

[9]熊伯安.基于大數(shù)據(jù)時代的數(shù)據(jù)挖掘及分析[J].電子世界,2016(20):51-53.

[10]謝邦昌,斯介生.大數(shù)據(jù)分析中軌跡數(shù)據(jù)挖掘

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論