版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章互聯(lián)網(wǎng)大數(shù)據(jù)概述1.1認(rèn)識(shí)大數(shù)據(jù)1.2常用大數(shù)據(jù)處理、分析工具介紹1.1認(rèn)識(shí)大數(shù)據(jù)1.1.1大數(shù)據(jù)的定義大數(shù)據(jù),是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的具有海量、高增長(zhǎng)率和多樣化等特點(diǎn)的信息資產(chǎn)。簡(jiǎn)而言之,大數(shù)據(jù)就是數(shù)據(jù)量非常大、數(shù)據(jù)種類繁多、無法用常規(guī)歸類方法應(yīng)用計(jì)算的數(shù)據(jù)集成。大數(shù)據(jù)的本質(zhì)意義就是對(duì)數(shù)據(jù)進(jìn)行專業(yè)化的處理而不在于數(shù)據(jù)信息的龐大。我們可以把大數(shù)據(jù)比作工廠,而生產(chǎn)效率是其中的關(guān)鍵,關(guān)鍵是提高對(duì)數(shù)據(jù)這個(gè)原材料的“加工能力”,同時(shí),通過“深加工”實(shí)現(xiàn)數(shù)據(jù)的持續(xù)“增值”。第1章互聯(lián)網(wǎng)大數(shù)據(jù)概述1.1認(rèn)識(shí)大數(shù)據(jù)1.1.2大數(shù)據(jù)的特征1.?dāng)?shù)據(jù)體量極為巨大截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,而歷史上全人類說過的所有話的數(shù)據(jù)量大約是5EB(1EB=210PB)。2.?dāng)?shù)據(jù)類型繁多包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。3.價(jià)值密度低價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。數(shù)據(jù)總量越大,無效冗余的數(shù)據(jù)則越多。4.處理速度快(1)傳統(tǒng)企業(yè)數(shù)據(jù)。(2)機(jī)器和傳感器數(shù)據(jù)。(3) 社交數(shù)據(jù)。第1章互聯(lián)網(wǎng)大數(shù)據(jù)概述1.1認(rèn)識(shí)大數(shù)據(jù)1.1.3未來十年大數(shù)據(jù)分析的發(fā)展趨勢(shì)(1)公有云供應(yīng)商正擴(kuò)大其影響力。(2)公有云優(yōu)于私有云的優(yōu)勢(shì)繼續(xù)擴(kuò)大。(3)加速融合以讓企業(yè)實(shí)現(xiàn)商業(yè)價(jià)值。(4)大數(shù)據(jù)初創(chuàng)公司將越來越復(fù)雜的人工智能(AI)注意應(yīng)用程序推向市場(chǎng)。(5)新興解決方案逐漸替代傳統(tǒng)方法。(6)Hadoop的穩(wěn)定地位。(7)打包的大數(shù)據(jù)分析應(yīng)用程序正變得越來越廣泛。第1章互聯(lián)網(wǎng)大數(shù)據(jù)概述1.2常用大數(shù)據(jù)處理、分析工具介紹1.2.1大數(shù)據(jù)的存儲(chǔ)工具1.日立公司的產(chǎn)品日立在提供了一些大數(shù)據(jù)產(chǎn)品以外,更與Pentaho軟件公司合作開發(fā)了大數(shù)據(jù)分析工具、日立超級(jí)橫向擴(kuò)展平臺(tái)(HSP)、HSP技術(shù)架構(gòu)以及日立視頻管理平臺(tái)(VMP)。2.DDN的產(chǎn)品DataDirectNetworks(DDN)有一批面向大數(shù)據(jù)存儲(chǔ)的解決方案。3.SpectraBlackPearlSpectraLogic公司的BlackPearl深度存儲(chǔ)網(wǎng)關(guān)為基于SAS(串行連接SCSI)的磁盤、SMR(瓦楞式堆疊磁盤)降速磁盤或磁帶提供了對(duì)象存儲(chǔ)接口,所有這些技術(shù)都可以放在存儲(chǔ)環(huán)境中BlackPearl的后面。第1章互聯(lián)網(wǎng)大數(shù)據(jù)概述1.2常用大數(shù)據(jù)處理、分析工具介紹1.2.1大數(shù)據(jù)的存儲(chǔ)工具4.KaminarioK2Kaminario公司提供了另一種大數(shù)據(jù)存儲(chǔ)平臺(tái),其全閃存陣列正在許多大數(shù)據(jù)應(yīng)用領(lǐng)域找到一席之地。5.Caringo公司的產(chǎn)品Caringo公司旨在發(fā)掘數(shù)據(jù)的價(jià)值,解決在其中產(chǎn)生的一系列問題,并大規(guī)模保護(hù)、管理、組織和搜索數(shù)據(jù)。6.InfogixInfogix企業(yè)數(shù)據(jù)分析平臺(tái)基于五項(xiàng)核心功能:數(shù)據(jù)質(zhì)量、事務(wù)監(jiān)控、均衡及協(xié)調(diào)、身份匹配、行為分析以及預(yù)測(cè)模型。第1章互聯(lián)網(wǎng)大數(shù)據(jù)概述1.2常用大數(shù)據(jù)處理、分析工具介紹1.2.1大數(shù)據(jù)的存儲(chǔ)工具7.Avere混合云Avere提供了另一種大數(shù)據(jù)存儲(chǔ)方案,其Avere混合云部署在混合云基礎(chǔ)設(shè)施中的各種用例。8.DriveScale大數(shù)據(jù)通常需要存儲(chǔ)在本地磁盤上,這意味著為了在大數(shù)據(jù)集群的規(guī)模不斷擴(kuò)大時(shí),能實(shí)現(xiàn)效率和擴(kuò)展性,就需要保持計(jì)算和存儲(chǔ)之間的邏輯關(guān)系。9.HedvigHedvig分布式存儲(chǔ)平臺(tái)提供了一個(gè)統(tǒng)一性的解決方案,就是在綜合降低成本的同時(shí)存儲(chǔ)的性能得到大幅的提升,以支持任何應(yīng)用程序、虛擬機(jī)管理程序、容器或云。10.NimbleNimble存儲(chǔ)預(yù)測(cè)閃存平臺(tái)據(jù)說可顯著提高分析應(yīng)用和大數(shù)據(jù)工作負(fù)載的性能。第1章互聯(lián)網(wǎng)大數(shù)據(jù)概述1.2常用大數(shù)據(jù)處理、分析工具介紹1.2.2大數(shù)據(jù)的軟件開發(fā)工具1.ApacheHiveHive提供了一種簡(jiǎn)單的類似SQL的查詢語言——HiveQL,這為熟悉SQL的用戶查詢數(shù)據(jù)提供了方便。2.JaspersoftBI套件Jaspersoft包是一個(gè)通過數(shù)據(jù)庫列生成報(bào)表的開源軟件。3.1010data1010data是一個(gè)分析型云服務(wù),旨在為華爾街的客戶提供服務(wù),甚至包括NYSEEuronext(紐約泛歐證券交易所)、游戲和電信的客戶。4.ActianActian(也稱IngresCorp)擁有超過1萬客戶而且正在擴(kuò)增。第1章互聯(lián)網(wǎng)大數(shù)據(jù)概述1.2常用大數(shù)據(jù)處理、分析工具介紹1.2.2大數(shù)據(jù)的軟件開發(fā)工具5.PentahoBusinessAnalytics從某種意義上說,Pentaho與Jaspersoft相比,盡管Pentaho開始于報(bào)告生成引擎,但它目前通過簡(jiǎn)化從新來源中獲取信息的過程來支持大數(shù)據(jù)處理。6.PlacedAnalytics利用腳本語言以及API,PlacedAnalytics能夠提供針對(duì)移動(dòng)和網(wǎng)絡(luò)應(yīng)用的詳細(xì)用戶行為分析,包括用戶使用時(shí)間和地理位置信息。7.ClouderaCloudera正在努力為開源Hadoop提供支持,同時(shí)將數(shù)據(jù)處理框架延伸到一個(gè)全面的“企業(yè)數(shù)據(jù)中心”范疇,這個(gè)數(shù)據(jù)中心可以作為首選目標(biāo)和管理企業(yè)所有數(shù)據(jù)的中心點(diǎn)。第1章互聯(lián)網(wǎng)大數(shù)據(jù)概述1.2常用大數(shù)據(jù)處理、分析工具介紹1.2.2大數(shù)據(jù)的軟件開發(fā)工具8.KeenIOKeenIO是個(gè)強(qiáng)大的移動(dòng)應(yīng)用分析工具,開發(fā)者只需要簡(jiǎn)單到一行代碼,就可以跟蹤他們想要的關(guān)于他們應(yīng)用的任何信息。9.TalendOpenStudioTalend工具用于協(xié)助進(jìn)行數(shù)據(jù)質(zhì)量、數(shù)據(jù)集成和數(shù)據(jù)管理等方面的工作。10.ApacheSparkApacheSpark是Hadoop開源生態(tài)系統(tǒng)的新成員,它提供了一個(gè)比Hive更快的查詢引擎,因?yàn)樗蕾囉谧约旱臄?shù)據(jù)處理框架而不是依靠Hadoop的HDFS(Hadoop分布式文件系統(tǒng))服務(wù)。第1章互聯(lián)網(wǎng)大數(shù)據(jù)概述1.2常用大數(shù)據(jù)處理、分析工具介紹1.2.3大數(shù)據(jù)的挖掘工具1.RapidMinerRapidMiner是一個(gè)用于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和分析的試驗(yàn)環(huán)境,同時(shí)用于研究真實(shí)世界的數(shù)據(jù)挖掘。2.WEKAWEKA(WaikatoEnvironmentforKnowledgeAnalysis,懷卡托智能分析環(huán)境)是一款非常復(fù)雜的數(shù)據(jù)挖掘工具,它支持幾種經(jīng)典的數(shù)據(jù)挖掘任務(wù),顯著的數(shù)據(jù)預(yù)處理、集群、分類、回歸、虛擬化以及功能選擇。3.R軟件R軟件是另一種較為流行的GNU開源數(shù)據(jù)挖掘工具,作為一款用于統(tǒng)計(jì)分析和圖形化的計(jì)算機(jī)語言及分析工具,為了保證性能,它主要是由C語言和FORTRAN語言編寫的。第1章互聯(lián)網(wǎng)大數(shù)據(jù)概述1.2常用大數(shù)據(jù)處理、分析工具介紹1.2.3大數(shù)據(jù)的挖掘工具4.Orange數(shù)據(jù)挖掘軟件Orange是一個(gè)基于組件的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)軟件套裝,它的功能、界面友好且很強(qiáng)大,具有快速而又多功能的可視化編程前端,以便瀏覽數(shù)據(jù)分析和可視化,其綁定了Python以進(jìn)行腳本開發(fā)。5.KNIMEKNIME(KonstanzInformationMiner,康斯坦茨信息挖掘工具)是一款開源的進(jìn)行數(shù)據(jù)集成、數(shù)據(jù)分析、數(shù)據(jù)處理的綜合平臺(tái)。6.JHepWorkJHepWork是一種為科學(xué)家、工程師和學(xué)生所設(shè)計(jì)的免費(fèi)的開源數(shù)據(jù)分析框架,其主要是用開源庫來創(chuàng)建一個(gè)數(shù)據(jù)分析環(huán)境,并提供了豐富的用戶接口,以此來和那些收費(fèi)的軟件競(jìng)爭(zhēng)。第1章互聯(lián)網(wǎng)大數(shù)據(jù)概述1.2常用大數(shù)據(jù)處理、分析工具介紹1.2.3大數(shù)據(jù)的挖掘工具7.NLTKNLTK(NaturalLanguageToolKit,自然語言工具包)最適用于語言處理任務(wù),因?yàn)樗梢蕴峁┮粋€(gè)語言處理工具,包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)抓取、情感分析等各種語言處理任務(wù)。8.PentahoPentaho為數(shù)據(jù)集成、業(yè)務(wù)分析以及大數(shù)據(jù)處理提供一個(gè)全面的平臺(tái)。第1章互聯(lián)網(wǎng)大數(shù)據(jù)概述1.2常用大數(shù)據(jù)處理、分析工具介紹1.2.4大數(shù)據(jù)的可視化工具(1)Jupyter:大數(shù)據(jù)可視化的一站式商店。Jupyter是一個(gè)開源項(xiàng)目,通過十多種編程語言實(shí)現(xiàn)大數(shù)據(jù)分析、可視化和軟件開發(fā)的實(shí)時(shí)協(xié)作(2)Tableau:AI、大數(shù)據(jù)和機(jī)器學(xué)習(xí)應(yīng)用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024股權(quán)合作經(jīng)營(yíng)合同版
- 2025年度智能門禁系統(tǒng)升級(jí)改造合同3篇
- 2024年某農(nóng)業(yè)公司與農(nóng)產(chǎn)品加工企業(yè)就農(nóng)產(chǎn)品采購(gòu)的合同
- 2025年度智能信息化車間生產(chǎn)承包合同范本3篇
- 2025年度新型草坪材料采購(gòu)合同3篇
- 2024年版短期汽車租賃協(xié)議范本版B版
- 2024幼兒園教師勞務(wù)合同及教學(xué)成果評(píng)估范本2篇
- 2025年度文化產(chǎn)業(yè)財(cái)產(chǎn)抵押擔(dān)保投資合同3篇
- 2024年鋼構(gòu)建筑油漆工程專業(yè)承包合同
- 2024年高速公路養(yǎng)護(hù)司機(jī)勞務(wù)雇傭合同范本3篇
- 農(nóng)業(yè)合作社章程范本
- 痛風(fēng)性關(guān)節(jié)炎 課件
- 2休閑食品市場(chǎng)營(yíng)銷策劃案1
- 全國(guó)高校第三輪學(xué)科評(píng)估按大學(xué)匯總
- 酒店砌體專項(xiàng)施工方案
- 建設(shè)工程施工合同 GF—2017—0201
- 部編版小學(xué)語文五年級(jí)下冊(cè)第四單元教學(xué)計(jì)劃及單元分析
- 進(jìn)水口快速閘門液壓?jiǎn)㈤]機(jī)安裝施工方案
- 法道(FADAL)機(jī)床設(shè)備維修知識(shí)講座
- 職校生個(gè)人簡(jiǎn)歷自薦信范文模板
- 雙電源STS靜態(tài)換轉(zhuǎn)開關(guān)輸入配電系統(tǒng)解決方案
評(píng)論
0/150
提交評(píng)論