基于spark實時交易數(shù)據(jù)分析_第1頁
基于spark實時交易數(shù)據(jù)分析_第2頁
基于spark實時交易數(shù)據(jù)分析_第3頁
基于spark實時交易數(shù)據(jù)分析_第4頁
基于spark實時交易數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

目錄TOC\o"1-2"\h\u摘要 摘要隨著經(jīng)濟的不斷增長,我國各方面的水平也得到了很大的提升,特別是在生產(chǎn)方面的提升,我們的生產(chǎn)方式不在是以傳統(tǒng)的生產(chǎn)方式為主,生產(chǎn)方式從傳統(tǒng)的模式轉(zhuǎn)變?yōu)樽詣由a(chǎn)為主,利用spark技術(shù)數(shù)據(jù)分析就是其中之一,而且對于這些數(shù)據(jù)的分析,被運用得越來越廣泛。spark技術(shù)其實是一個數(shù)據(jù)分析的框架,利用spark技術(shù),能夠為我們減少一系列的麻煩,提高了我們的工作效率,利用spark技術(shù),我們可以根據(jù)自己的需求,來設(shè)置我們所需要的數(shù)據(jù)進行分析,spark技術(shù)的設(shè)計主要有四個模塊,分別是:數(shù)據(jù)源、輸入模型、模型訓(xùn)練及校對和日志查看。本文通過對spark的實時交易數(shù)據(jù)平臺設(shè)計進行分析,從spark的實時交易數(shù)據(jù)平臺設(shè)計出發(fā),針對設(shè)計spark的實時交易問題,得出了以下結(jié)論和參考意見。關(guān)鍵詞:生產(chǎn)方式;spark技術(shù);數(shù)據(jù)分析;實時交易

AbstractWiththecontinuousgrowthoftheeconomy,thelevelofvariousaspectsofourcountryhasbeengreatlyimproved,especiallyinproduction,ourproductionmodeisnotthetraditionalproductionmode,productionmodefromthetraditionalmodetoautomaticproduction,usingsparktechnologydataanalysisisoneofthem,andfortheanalysisofthesedata,isusedmoreandmorewidely.Thesparktechnologyisactuallyadataanalysisframework,usingsparktechnology,canreduceaseriesoftrouble,improveourworkefficiency,usingsparktechnology,wecansettherequireddataanalysisaccordingtoourneeds,sparktechnologydesignmainlyhasfourmodules,respectively:datasource,inputmodel,modeltrainingandproofreadingandlogview.Throughanalyzingthedesignofthereal-timetradingdataplatformofspark,wedrawthefollowingconclusionsandreferenceopinionsbasedonthedesignofspark,andstartingfromthereal-timetradingdataplatformdesignofspark.Keywords:productionmode;sparktechnology;dataanalysis;real-timetrading

第1章緒論spark技術(shù)通過數(shù)據(jù)分析,就會實現(xiàn)透明化,因為通過spark技術(shù),對于客戶來說就比較透明。隨著經(jīng)濟的發(fā)展,我們在很多領(lǐng)域中也得到了提升,經(jīng)濟基礎(chǔ)決定上層建筑,只有把經(jīng)濟發(fā)展好,我們才能在其它領(lǐng)域發(fā)展起來,而我們的生產(chǎn)方式也得到了改變,就比如說數(shù)據(jù)分析一樣,最初的時候,我們對于數(shù)據(jù)分析都是利用記錄的方式,通過人工來完成,而現(xiàn)在,數(shù)據(jù)分析是依靠智能化來完成的,就比如說,我們利用spark技術(shù),對數(shù)據(jù)分析,就減少了很多環(huán)節(jié),對于工作人員來說,也是比較快捷的,這樣在工作效率方面就得到了很大的提升。當(dāng)今時代,是一個大數(shù)據(jù)時代,對于大數(shù)據(jù)而言,數(shù)據(jù)分析對于我們來說,是非常重要的,因為大數(shù)據(jù)時代就相當(dāng)于是信息時代,對于信息時代而言,就是各方面的信息都是利用網(wǎng)絡(luò)來記錄,就比如說我們把汽車開去審車完成之后,就會有電子檔為我們記錄審車信息,就不需要在進行把檢查標(biāo)準(zhǔn)貼在車上。spark技術(shù)給我們帶來了很多便利,減少了一些不必要的流程和麻煩。1.1研究背景在當(dāng)今社會,經(jīng)濟水平不斷提升,人類的生活水平也得到了提高,記得我國剛成立之初,只是為了解決溫飽問題,而很多人還是吃不上飯,現(xiàn)在,我們卻要以奔小康為主,說明了我們的生活水平得到了提升,而如今,由于經(jīng)濟發(fā)展,使得我們無論是在生產(chǎn)方面還是在科技方面,都得到了很大的提升。如今,我們在很多方面對于互聯(lián)網(wǎng)的利用越來越大,很多數(shù)據(jù)分析都是通過計算機來完成的,而利用得很好的是weka系統(tǒng),它是在java上開發(fā)出來的,通過這個工具,就能夠為我們進行數(shù)據(jù)分析。其中Hadoop的誕生就是為進行數(shù)據(jù)分析,而MapReduce引擎也是一樣,也是為對數(shù)據(jù)進行分析,它們?yōu)閿?shù)據(jù)分析提供了很好的條件。其中MapReduce一開始并不被人們接受,后來因為進入到互聯(lián)網(wǎng)之后,才開始被人們接受,它其實是一種長時間運作的,而且比較容易擴展。spark技術(shù)其實是為了補足MapReduce技術(shù)的,因為spark技術(shù)并沒有MapReduce的一些缺點存在,它保持了容易擴展的優(yōu)勢,為數(shù)據(jù)分析提供了更有利的條件,對于數(shù)據(jù)分析,也是越來越快。1.2國內(nèi)外研究現(xiàn)狀對于spark技術(shù),國內(nèi)外的研究是不一樣的,對于我國而言,由于我國的人口比較多,這樣在很多時候,對于人口的統(tǒng)計就會有很多問題,我們需要的數(shù)據(jù)就會變得非常大,而我國的電商平臺主要是淘寶,而淘寶每天的購買力都是非常龐大的,這樣就會形成難以對數(shù)據(jù)進行統(tǒng)計和分析。每次雙十一的時候,電商交易額都會做統(tǒng)計,而統(tǒng)計的這些數(shù)字是非常龐大的,而通過Pehtaho的Kettle進行數(shù)據(jù)分析,這樣就會有很多功能,為我們帶來很多方便,為我們在分析數(shù)據(jù)方面提供了有利條件。而國外對于數(shù)據(jù)分析而言,起步是比較早的,尤其是美國,在1993年的時候,美國每年都會對數(shù)據(jù)挖掘技術(shù)進行研究和討論,這個討論會議被成為KDD。數(shù)據(jù)挖掘在國際上是被廣泛使用的,被用于很多領(lǐng)域,比如說:醫(yī)療、金融、電信等方面,而且美國在汽車方面有全球最大的汽車互聯(lián)網(wǎng),因為美國不管是經(jīng)濟方面、科技方面還是生產(chǎn)技術(shù)方面,在世界上都是處于領(lǐng)先地位的。第2章相關(guān)理論技術(shù)spark技術(shù)其實是為了對數(shù)據(jù)分析,通過上述分析,我們了解到,通過spark技術(shù),可以為我們解決很多東西,現(xiàn)在是信息時代,對于信息時代而言,數(shù)據(jù)分析就顯得很重要。當(dāng)今社會,全球人口越來越多,各種數(shù)據(jù)分析就非常重要。2.1PureMVCWeb系統(tǒng)設(shè)計MVC是很重要的,PureMVC是分為層次的,其中被分為了模型層、視圖層、最后就是控制層,它是由這三個層次組成,它的設(shè)計是非常模塊化的。其中MVC模式是少不了Model、View、Com,它們是統(tǒng)一管理,管理方式是由一個單列類管理的,創(chuàng)建也是通過其他方面來實現(xiàn)的,主要是通過Facade實現(xiàn)的,之后就提供一系列的數(shù)據(jù)支持,然后為我們實現(xiàn)一些操作,比如說像啟停和初始化等,都是通過它來完成的。2.2元數(shù)據(jù)理論對于元數(shù)據(jù)的理解,從廣義上來說,它是用來定義數(shù)據(jù)的,主要是被用作數(shù)據(jù)分析,其實就是很多業(yè)務(wù)通過數(shù)據(jù)分析得出來的,就比如在我們推廣廣告的過程中,是需要對數(shù)據(jù)進行分析的,就比如說你每天投放的廣告有多少展示,然后又有多少點擊,然后轉(zhuǎn)化是多少,這些都是非常重要的,如果說展示不高,那么問題是出自什么地方,如如果展示很高但是卻沒有點擊,那么肯定是你的廣告不夠吸引人,如果點擊很高,轉(zhuǎn)化卻很低,說明了廣告活動并不吸引人,我們只有每天通過數(shù)據(jù)分析,才能總結(jié)出很多問題,針對問題,我們才能解決好問題所在,就像元數(shù)據(jù)一樣。2.3Sparkspark其實是一個針對解決大數(shù)據(jù)計算問題而設(shè)計的,它本身就沒有延遲,很有效的解決了Mepreduce的問題,因為Mepreduce只能夠做離線分析和反復(fù)訪問的鍵盤問題。對于spark而言,它的概念就是RDD,RDD其實代表了多臺機器上的集合,就像函數(shù)一樣,它是有很多個區(qū)間一樣,而每一個區(qū)間所代表的東西都是不一樣的,spark除了這個概念,其實它還有一個概念。spark另一個概念為DAG有向無還圖,它其實是描述RDD的依賴關(guān)系的,當(dāng)我們輸入A和B時,就會有兩個RDD,輸入之后,它就會進行轉(zhuǎn)化,轉(zhuǎn)化并不是每個都對應(yīng)的,一個RDD可能會有多個結(jié)果。第3章需求分析基于spark其實就是一種數(shù)據(jù)分析,而近年來,數(shù)據(jù)分析對于我們而言,是非常重要的,我們生活中和工作中,對于數(shù)據(jù)分析就顯得相當(dāng)重要,就比如說我們在淘寶上購買的產(chǎn)品,就需要實時更新數(shù)據(jù),更新包裹的地址,一般情況下,包裹每到一個地方,物流就會自動更新,讓我們能夠更方便的了解包裹的情況,其實什么時候到,什么時候發(fā)貨,這些都是很重要,因為只有通過數(shù)據(jù)分析,我們才能夠了解我們購買的東西,通過分析得出,我們的包裹是否需要退貨,是否正常運轉(zhuǎn)。基于spark技術(shù)的數(shù)據(jù)分析,對于我們來說,是不可缺少的,對我們生活中方方面面都是影響很大的。3.1分析系統(tǒng)需求基于spark的數(shù)據(jù)系統(tǒng)分析,它和其他數(shù)據(jù)分析系統(tǒng)是有很多差異的,很多人對于數(shù)據(jù)分析的理解,認(rèn)為數(shù)據(jù)分析主要是輸入、輸出還有處理?;趕park的數(shù)據(jù)分析主要針對數(shù)據(jù)處理問題,數(shù)據(jù)處理問題并不只是單純的數(shù)據(jù)處理,而是包括了比較傳統(tǒng)的數(shù)據(jù)處理,其實有:過濾、轉(zhuǎn)化和加載等方面,它還能夠自行計算,數(shù)據(jù)分析中,對于數(shù)據(jù)計算問題也是非常有必要的。3.2分析系統(tǒng)可行性本次設(shè)計利用了Flash,利用Flash就能夠?qū)崿F(xiàn)瀏覽器的可擴展性,可能很多人都知道,F(xiàn)lash是基于RIA,而且它的相應(yīng)速度比較快,在某些方面提高了客戶的體驗,所以這個設(shè)計在技術(shù)方面是可行的。對于客戶而言,在感知方面是很好的,頁面的風(fēng)格比較一致,而且整體的設(shè)計是比較簡單大方的,對于客戶就會有很強的體驗感,操作就比較可行。本設(shè)計,對于客戶的管理,是很有意義的,因為客戶在操作之后,就會留下相應(yīng)的信息,管理是可行的。第4章系統(tǒng)設(shè)計基于spark對于數(shù)據(jù)分析是很重要的,設(shè)計過程中,系統(tǒng)設(shè)計就顯得比較重要,就像一個軟件的設(shè)計,前期對于系統(tǒng)設(shè)計,是非常重要的,首先要考慮到它的功能,需要實現(xiàn)的是什么,進入系統(tǒng)的畫面,這些都是很重要的。4.1系統(tǒng)架構(gòu)規(guī)劃其實系統(tǒng)的設(shè)計就是為了完成數(shù)據(jù)分析,主要任務(wù)就是通過UI來實現(xiàn)的,系統(tǒng)架構(gòu)如下圖4.1所示:圖4.1:系統(tǒng)結(jié)構(gòu)通過架構(gòu),我們得出了本系統(tǒng)一共被分為兩部分,有元數(shù)據(jù)系統(tǒng)和數(shù)據(jù)分析系統(tǒng),它們各司其職。元數(shù)據(jù)系統(tǒng)主要完成的是把我們需要的元數(shù)據(jù)進行配置,數(shù)據(jù)分析系統(tǒng)就是分析數(shù)據(jù),為我們處理一些數(shù)據(jù)。4.2程序設(shè)計思想與原則設(shè)計首先要做到簡單大方,整體風(fēng)格要保持一致。設(shè)計的思想方面,元數(shù)據(jù)要遵從客戶,遵從它的使用習(xí)慣,對于前臺來說,要利用到PureMVC,后臺則要利用Service,還有就是Dao的結(jié)構(gòu),它的代碼如下圖所示:圖4.2:類圖4.3頁面功能設(shè)計本次設(shè)計的頁面功能如下圖所示:圖4.3:頁面功能設(shè)計4.4系統(tǒng)詳細設(shè)計元數(shù)據(jù)是本次系統(tǒng)設(shè)計的核心,它有很多子系統(tǒng),這些子系統(tǒng)則是單獨運行的,還有就是要有一些輔助功能。系統(tǒng)設(shè)計中,是需要數(shù)據(jù)源管理的,除了數(shù)據(jù)源以為,還包括了輸入模型管理等,具體設(shè)計如下圖所示:圖4.4.1:數(shù)據(jù)處理功能圖圖4.4.2:數(shù)據(jù)管理源模塊圖4.4.3:輸入模型管理模塊圖4.4.4:模型訓(xùn)練流程圖4.4.5:模型訓(xùn)練與校驗?zāi)K圖4.4.6:算法設(shè)計第5章系統(tǒng)實現(xiàn)通過上述分析,我們得出了基于spark技術(shù)對于數(shù)據(jù)分析的重要性是不言而喻的,系統(tǒng)也是為了實現(xiàn)數(shù)據(jù)分析,數(shù)據(jù)處理已經(jīng)數(shù)據(jù)輸入等,通過設(shè)計,為我們實現(xiàn)了進行快速分析數(shù)據(jù),快速處理一系列的數(shù)據(jù)問題。5.1代碼開發(fā)規(guī)范代碼開發(fā)是有流程的,對于系統(tǒng)設(shè)計,代碼編寫就非常重要,代碼就相當(dāng)于一篇文章主要表達的意思是什么,文章的結(jié)構(gòu)是什么,對于本次系統(tǒng)設(shè)計,代碼編寫之前,我們要考慮的是系統(tǒng)的功能有什么,需要為我們解決的是什么問題等。5.2系統(tǒng)登錄和首頁系統(tǒng)登錄是有登錄入口的,一般Facade就是程序入口,一般情況下,首次登錄都會進入到默認(rèn)模塊,界面會彈出logo,排列方法則是橫排列的方法,具體如下所示:圖5.2:登錄界面5.3輸入模型管理管理系統(tǒng)當(dāng)中,是有輸入模型的,頁面的設(shè)計和數(shù)據(jù)分析是大同小異的,系統(tǒng)設(shè)計中,除了有基本信息之外,還是需要一個模型的,這個模型綁定了數(shù)據(jù)源的,很多人會認(rèn)為,有很多信息是需要手動填入的,其實并不是,編輯輸入模型如下圖所示:圖5.3:編輯輸入模型第6章結(jié)論本文通過了基于spark數(shù)據(jù)分析系統(tǒng)的設(shè)計和實現(xiàn)進行研究和分析,系統(tǒng)的設(shè)計為我們解決了很多問題,通過spark數(shù)據(jù)分析,使我們在數(shù)據(jù)分析中帶來了很多方便,為我們解決了一系列的數(shù)據(jù)分析問題,而系統(tǒng)設(shè)計的理念也有很多優(yōu)點:1)為我們解決了傳統(tǒng)的代碼編寫問題,設(shè)計和使用更靈活。2)利用spark增加了集群節(jié)點,還為我們提供了擴展問題。3)為我們提供了很多方便,數(shù)據(jù)分析減少延遲。

參考文獻[1]TomWhites著華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院譯.Haoop權(quán)威指南[M].清華大學(xué)出版社,2015[2]謝桂蘭羅省賢.基于HadoopMapReduce模型的應(yīng)用研究[J].微型機與應(yīng)用,2010,29(8):4-7.[3]MichaelSteinbach,VipinKumar著.范明,范宏建譯.數(shù)據(jù)挖掘?qū)д揫M].人民郵電出版社,2011.[4]欒麗華,吉根林

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論