開源大數(shù)據(jù)行業(yè)熱點(diǎn)洞察報(bào)告_第1頁(yè)
開源大數(shù)據(jù)行業(yè)熱點(diǎn)洞察報(bào)告_第2頁(yè)
開源大數(shù)據(jù)行業(yè)熱點(diǎn)洞察報(bào)告_第3頁(yè)
開源大數(shù)據(jù)行業(yè)熱點(diǎn)洞察報(bào)告_第4頁(yè)
開源大數(shù)據(jù)行業(yè)熱點(diǎn)洞察報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2024年開源大數(shù)據(jù)行業(yè)發(fā)展洞察報(bào)告CONTENTS目

錄01大數(shù)據(jù)開源工具發(fā)展背景02大數(shù)據(jù)開源工具熱力趨勢(shì)03大數(shù)據(jù)工具熱力值說(shuō)明2大數(shù)據(jù)開源工具發(fā)展背景0134?2024.10iResearch

Inc.大數(shù)據(jù)技術(shù)的行業(yè)應(yīng)用來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。醫(yī)療保健預(yù)測(cè)分析用于病人護(hù)理:預(yù)測(cè)病人入院情況,優(yōu)化資源分配臨床決策支持:通過(guò)數(shù)據(jù)聚合增強(qiáng)治療建議人群健康管理:分析數(shù)據(jù)以跟蹤疾病爆發(fā)并針對(duì)性干預(yù)制造業(yè)預(yù)測(cè)性維護(hù):預(yù)測(cè)設(shè)備故障以減少停機(jī)時(shí)間供應(yīng)鏈優(yōu)化:利用數(shù)據(jù)洞察改善物流和需求預(yù)測(cè)質(zhì)量控制:實(shí)時(shí)監(jiān)控生產(chǎn)以確保產(chǎn)品質(zhì)量金融服務(wù)欺詐檢測(cè):監(jiān)控交易以識(shí)別和防止欺詐風(fēng)險(xiǎn)管理:通過(guò)全面數(shù)據(jù)分析增強(qiáng)信用評(píng)分客戶細(xì)分:針對(duì)性分析客戶,開發(fā)有針對(duì)性的產(chǎn)品能源與公用服務(wù)智能電網(wǎng)管理:通過(guò)需求預(yù)測(cè)改善負(fù)載平衡預(yù)測(cè)性資產(chǎn)維護(hù):安排維護(hù)以防止停電可再生能源預(yù)測(cè):優(yōu)化可再生能源的接入電網(wǎng)零售客戶個(gè)性化檢視:根據(jù)購(gòu)買歷史定制營(yíng)銷活動(dòng)庫(kù)存管理:通過(guò)準(zhǔn)確預(yù)測(cè)需求優(yōu)化庫(kù)存水平價(jià)格優(yōu)化:利用競(jìng)爭(zhēng)者分析和市場(chǎng)分析動(dòng)態(tài)定價(jià)產(chǎn)品電信客戶流失預(yù)測(cè):識(shí)別不滿意的客戶以降低流失率網(wǎng)絡(luò)優(yōu)化:分析流量以更好地分配網(wǎng)絡(luò)資源欺詐預(yù)防:檢測(cè)賬單和使用數(shù)據(jù)中的異常情況大數(shù)據(jù)技術(shù)應(yīng)用廣度與深度持續(xù)加大,成為決定企業(yè)競(jìng)爭(zhēng)力的重要因素十多年來(lái),隨著大數(shù)據(jù)技術(shù)的演進(jìn)與成熟,其在經(jīng)濟(jì)領(lǐng)域中的應(yīng)用也在拓展并持續(xù)深化。目前,在包括醫(yī)療保健、零售、金融服務(wù)、制造業(yè)、電信、能源與公共服務(wù)的各主要行業(yè)中,大數(shù)據(jù)技術(shù)在精細(xì)管理、趨勢(shì)預(yù)測(cè)、風(fēng)險(xiǎn)識(shí)別、決策支持等場(chǎng)景中發(fā)揮著越來(lái)越重要的作用。數(shù)字時(shí)代背景下,數(shù)據(jù)已成為企業(yè)核心資產(chǎn),而大數(shù)據(jù)技術(shù)則是對(duì)這項(xiàng)資產(chǎn)開發(fā),利用,賦能企業(yè)的重要手段,越來(lái)越多的企業(yè)認(rèn)識(shí)到用對(duì)、用好大數(shù)據(jù)技術(shù)將決定自身的行業(yè)競(jìng)爭(zhēng)力。大數(shù)據(jù)技術(shù)在各主要行業(yè)中的典型應(yīng)用場(chǎng)景5?2024.10iResearch

Inc.來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。來(lái)源:中國(guó)信通院云計(jì)算開源產(chǎn)業(yè)聯(lián)盟,中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)《全球開源生態(tài)洞察報(bào)告(2024年)》,艾瑞咨詢研究院自主研究及繪制。?2024.10

iResearch

Inc. 大數(shù)據(jù)工具的開源6420大數(shù)據(jù)技術(shù)領(lǐng)域開源生態(tài)成熟度雷達(dá)圖技術(shù)流行度108創(chuàng)新轉(zhuǎn)化能力法律合規(guī)安全能力技術(shù)穩(wěn)定性技術(shù)生產(chǎn)力大數(shù)據(jù)領(lǐng)域具備較好的技術(shù)穩(wěn)健性,以Hadoop、Spark、Flink等為代表的傳統(tǒng)大數(shù)據(jù)產(chǎn)品已趨于成熟新型開源大數(shù)據(jù)工具不斷向個(gè)性化、定制化發(fā)展,如大數(shù)據(jù)框架中加入AI類庫(kù),以及如Uber、Netflix、Spotify等企業(yè)根據(jù)自身特定業(yè)務(wù)貢獻(xiàn)新的適用于具體應(yīng)用場(chǎng)景的大數(shù)據(jù)工具開源趨勢(shì)下,大數(shù)據(jù)傳統(tǒng)工具已經(jīng)成熟,個(gè)性化新型工具不斷加入狹義上的開源大數(shù)據(jù)工具是指在開源大生態(tài)下,專注于解決海量、多類型數(shù)據(jù)的連接、存儲(chǔ)、管理等功能的工具集合。但從搭建大數(shù)據(jù)平臺(tái)角度出發(fā),通常還需要加入AI類組件以幫助數(shù)據(jù)分析,云原生工具以實(shí)現(xiàn)容器編排,另外關(guān)系型及各類非關(guān)系型數(shù)據(jù)庫(kù)被視為大數(shù)據(jù)的基礎(chǔ),由此得到廣義上的大數(shù)據(jù)工具套件。本報(bào)告將以廣義大數(shù)據(jù)工具為研究對(duì)象,對(duì)其進(jìn)行分析。開源生態(tài)下狹義與廣義大數(shù)據(jù)工具前端框架組件庫(kù)功能插件制作平臺(tái)解決方案操作系統(tǒng)桌面操作系統(tǒng)服務(wù)器操作系統(tǒng)云操作系統(tǒng)IoT操作系統(tǒng)數(shù)據(jù)庫(kù)關(guān)系型數(shù)據(jù)庫(kù)鍵值數(shù)據(jù)庫(kù)向量數(shù)據(jù)庫(kù)時(shí)序數(shù)據(jù)庫(kù)圖數(shù)據(jù)庫(kù)大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)管理數(shù)據(jù)連接中間件服務(wù)器中間件通訊中間件Web中間件安全中間件人工智能數(shù)據(jù)集智能算法庫(kù)訓(xùn)練平臺(tái)AI引擎云原生微服務(wù)中間件容器技術(shù)及編排網(wǎng)絡(luò)服務(wù)6?2024.10iResearch

Inc.數(shù)據(jù)管理數(shù)據(jù)查詢與連接流處理與消息處理數(shù)據(jù)組織,版本控制,數(shù)據(jù)治理數(shù)據(jù)集間的查詢、整合、控制實(shí)時(shí)調(diào)控?cái)?shù)據(jù)管道及事件流數(shù)據(jù)存儲(chǔ)數(shù)據(jù)框架數(shù)據(jù)庫(kù)指導(dǎo)數(shù)據(jù)如何存儲(chǔ)及序列化為分布式數(shù)據(jù)處理提供核心能力結(jié)構(gòu)及非結(jié)構(gòu)化數(shù)據(jù)主存儲(chǔ)系統(tǒng)開源大數(shù)據(jù)工具的分類及功能來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。1數(shù)據(jù)編排在線分析數(shù)據(jù)流自動(dòng)化編排、監(jiān)控并處理,實(shí)現(xiàn)數(shù)據(jù)有效利用 大數(shù)據(jù)集的快速聚合、查詢與實(shí)時(shí)分析機(jī)器學(xué)習(xí)運(yùn)維自動(dòng)化部署、監(jiān)控及管理機(jī)器學(xué)習(xí)模型的運(yùn)營(yíng)平臺(tái)記錄及監(jiān)控?cái)?shù)據(jù)可視化監(jiān)控?cái)?shù)據(jù)基礎(chǔ)設(shè)施健康情況,追蹤指標(biāo)表現(xiàn) 將數(shù)據(jù)洞察可視化展現(xiàn)按功能類型分為5層11模塊,合理的工具選型是搭建大數(shù)據(jù)平臺(tái)的前提大數(shù)據(jù)工具組件是大數(shù)據(jù)技術(shù)輸出的載體,數(shù)字化與智能化時(shí)代下,一套完整的大數(shù)據(jù)工具可以分為基礎(chǔ)層、數(shù)據(jù)連接層、編排與分析層、人工智能層、監(jiān)控及可視化層共5層,包括儲(chǔ)存格式、數(shù)據(jù)框架,數(shù)據(jù)庫(kù)、數(shù)據(jù)管理、數(shù)據(jù)查詢與連接、流處理與消息管理、數(shù)據(jù)編排、在線分析、機(jī)器學(xué)習(xí)運(yùn)維、記錄及監(jiān)控、數(shù)據(jù)可視化11個(gè)模塊。大數(shù)據(jù)工具層級(jí)圖是對(duì)大數(shù)據(jù)工具的總覽,開源工具林林總總,企業(yè)應(yīng)先解各個(gè)工具的定位與功能,根據(jù)自身需求牟定工具類型,再進(jìn)行具體工具的選型。開源大數(shù)據(jù)工具層級(jí)圖監(jiān)控及可視化層可視化展現(xiàn)系統(tǒng)健康情況,幫助理解數(shù)據(jù)洞察結(jié)論人工智能層為以機(jī)器學(xué)習(xí)為代表的各類AI的運(yùn)行提供基礎(chǔ)服務(wù)編排及分析層實(shí)現(xiàn)大數(shù)據(jù)的自動(dòng)化、實(shí)時(shí)處理及分析數(shù)據(jù)連接層管理數(shù)據(jù)的連接、流動(dòng)、查詢等數(shù)據(jù)治理任務(wù)基礎(chǔ)層數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理,確?;A(chǔ)設(shè)施的可擴(kuò)展性23457大數(shù)據(jù)開源工具熱力趨勢(shì)02熱力趨勢(shì)(1/12):數(shù)據(jù)存儲(chǔ)開源大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)工具熱力圖2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024沿二進(jìn)制存儲(chǔ)、列存儲(chǔ)、云上數(shù)據(jù)湖的路徑演化,多樣化容納數(shù)據(jù)類型2024上半年熱力值8.447.717.647.537.027.026.895.855.465.355.064.724.683.380.78列存儲(chǔ)格式適應(yīng)重任務(wù)下的數(shù)據(jù)分析查詢Parquet,

ORC二進(jìn)制和結(jié)構(gòu)化格式針對(duì)數(shù)據(jù)序列化進(jìn)行優(yōu)化Avro,Thrift,Protocol

Buffers云原生數(shù)據(jù)格式云上數(shù)據(jù)湖DeltaLake,Iceberg,

Hudi來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.8①②③熱力趨勢(shì)(2/12):框架大數(shù)據(jù)框架隨數(shù)據(jù)量的擴(kuò)大以及處理速度需求提升而迭代;進(jìn)入大模型時(shí)代,大數(shù)據(jù)框架進(jìn)而整合模型開發(fā)組件開源大數(shù)據(jù)框架熱力圖實(shí)時(shí)計(jì)算、內(nèi)存計(jì)算流處理、批流一體Spark,Flink,

Storm分布式計(jì)算及存儲(chǔ)批處理Hadoop:HDFS+Mapreduce8.806.505.785.755.634.974.843.0520142015201620172018201920202021202220232024AI函數(shù)庫(kù)支持模型訓(xùn)練、微調(diào)Ray,MLlib(Spark)①②③2024上半年熱力值來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.9熱力趨勢(shì)(3/12):數(shù)據(jù)庫(kù)

-

之一數(shù)據(jù)庫(kù)種類逐漸豐富,支持云原生、大模型開發(fā)訓(xùn)練及實(shí)時(shí)分析開源大數(shù)據(jù)數(shù)據(jù)庫(kù)熱力圖(1-15)2022

2023

2024?

云原生數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)管理處理半結(jié)構(gòu)、非結(jié)構(gòu)型數(shù)據(jù)Cassandra,MongoDB,

HBaseAI相關(guān)——向量數(shù)據(jù)庫(kù)高效管理、查詢嵌入向量Milvus,

Weaviate①為基于云的高性能數(shù)據(jù)分析優(yōu)化

②CockroachDB,

TiDB③7.016.996.876.256.116.015.715.605.535.485.485.455.395.385.182009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

20212024上半年熱力值來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.10熱力趨勢(shì)(3/12):數(shù)據(jù)庫(kù)

-之二數(shù)據(jù)庫(kù)種類逐漸豐富,支持云原生、大模型開發(fā)訓(xùn)練及實(shí)時(shí)分析開源大數(shù)據(jù)數(shù)據(jù)庫(kù)熱力圖(16-31)2024上半年熱力值5.024.384.264.084.023.863.863.753.623.543.303.152.992.960.700.522009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

202120222023

2024來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.11熱力趨勢(shì)(4/12):數(shù)據(jù)管理隨系統(tǒng)復(fù)雜性提升,數(shù)據(jù)管理更注重?cái)?shù)據(jù)血緣,版本控制及流程自動(dòng)化開源大數(shù)據(jù)數(shù)據(jù)管理工具熱力圖?

數(shù)據(jù)質(zhì)量/一致性保證、版本控制自動(dòng)化驗(yàn)證,可回溯Great_Expectations,

LakeFS①②③7.577.557.516.045.775.465.413.863.673.663.140.702012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024數(shù)據(jù)目錄及數(shù)據(jù)治理 ?

元數(shù)據(jù)治理,數(shù)據(jù)血緣快速精準(zhǔn)查找、正確使用數(shù)據(jù)資產(chǎn) ?

洞察數(shù)據(jù)關(guān)系,數(shù)據(jù)價(jià)值挖掘CKAN,

Metacat ?

Amundsen,DataHub,

Atlas2024上半年來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.12熱力值9.02熱力趨勢(shì)(5/12):查詢與連接從批量到實(shí)時(shí),從單一數(shù)據(jù)源到跨系統(tǒng)多元數(shù)據(jù),從關(guān)系型數(shù)據(jù)到非關(guān)系型數(shù)據(jù),工具的進(jìn)化讓數(shù)據(jù)查詢更迅速、更靈活、更絲滑開源大數(shù)據(jù)查詢與連接工具熱力圖?

對(duì)于分布式數(shù)據(jù)的快速查詢做優(yōu)化?

實(shí)時(shí)查詢,實(shí)時(shí)分析基于Hadoop框架的大數(shù)據(jù)查詢使用SQL語(yǔ)句進(jìn)行低延時(shí)批量查詢?

多數(shù)據(jù)源多數(shù)據(jù)類型統(tǒng)一聯(lián)合查詢?

使用一套查詢語(yǔ)句及統(tǒng)一界面①②③2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 20242024上半年熱力值8.458.207.727.026.494.533.843.782.872.64?

Hive,Pig,

Presto來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.?

Druid,

Impala?

Beam,Trino,

Drill13熱力趨勢(shì)(6/12):流處理及消息管理由簡(jiǎn)單的消息處理功能發(fā)展為功能復(fù)雜適應(yīng)混合場(chǎng)景的數(shù)據(jù)管理工具開源大數(shù)據(jù)流處理及消息管理工具熱力圖消息隊(duì)列、訂閱/發(fā)布、日志聚合 ?

分布式架構(gòu)簡(jiǎn)單消息系統(tǒng)中處理少量實(shí)時(shí)數(shù)據(jù)云原生、事件驅(qū)動(dòng)架構(gòu)混合負(fù)載+多租戶+地域復(fù)制①?

實(shí)時(shí)數(shù)據(jù)+高吞吐量+低容錯(cuò)率

②③2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

20242024上半年?

RabbitMQ,

ActiveMQ來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.?

Kafka,NiFi,

Debezium?

Pulsar,

Memphis14熱力值7.087.026.506.406.376.015.515.255.024.974.673.713.483.253.221.60熱力趨勢(shì)(7/12):編排大數(shù)據(jù)編排工具的演變反映了數(shù)據(jù)工作流不斷變化的需求和復(fù)雜性開源大數(shù)據(jù)編排工具熱力圖①②③2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024批處理過(guò)程、簡(jiǎn)單任務(wù)依賴 ?

基于有向無(wú)環(huán)圖構(gòu)建任務(wù)關(guān)系 ?

將數(shù)據(jù)管道視為軟件資產(chǎn)集中式調(diào)度器管理任務(wù)的執(zhí)行 ?

模塊化架構(gòu)并與云服務(wù)集成 ?

數(shù)據(jù)血緣追蹤,推動(dòng)團(tuán)隊(duì)協(xié)作2024上半年熱力值8.386.956.926.886.565.745.665.605.284.603.183.041.860.89?

Luigi來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.?

Airflow,

argo?

Dagster,DolphinScheduler15熱力趨勢(shì)(8/12):在線分析由對(duì)數(shù)據(jù)的批量抓取分析發(fā)展為云原生可處理高并發(fā)的實(shí)時(shí)數(shù)據(jù)分析開源大數(shù)據(jù)在線分析工具熱力圖?

簡(jiǎn)化查詢處理過(guò)程,實(shí)時(shí)動(dòng)態(tài)分析列存儲(chǔ),矢量化執(zhí)行ClickHouse,Trino,Doris查詢處理結(jié)構(gòu)化、預(yù)聚合數(shù)據(jù)準(zhǔn)實(shí)時(shí)抓取查詢數(shù)據(jù),分布式結(jié)構(gòu)Druid,Pinot,

Kylin8.288.117.997.877.546.945.585.212.412013 20142015201620172018201920202021202220232024云原生架構(gòu),內(nèi)存計(jì)算實(shí)時(shí)高并發(fā)數(shù)據(jù)分析?

StarRocks,Databend,

DuckDB①②③2024上半年熱力值來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.16熱力趨勢(shì)(9/12):機(jī)器學(xué)習(xí)運(yùn)維

-之一由基礎(chǔ)開發(fā)生命管理發(fā)展為以AI專有性能指標(biāo)為核心設(shè)置的工具生態(tài)體系開源大數(shù)據(jù)機(jī)器學(xué)習(xí)運(yùn)維工具熱力圖(1-11)端到端的ML流程編排與自動(dòng)化支持本地與云環(huán)境Kubeflow,Polyaxon?

基礎(chǔ)模型開發(fā)跟蹤、可視化及部署8.818.447.657.597.297.176.416.135.775.625.542018201920202021202220232024?

實(shí)時(shí)模型服務(wù),AI優(yōu)先功能:可解釋性、公平性、漂移檢測(cè)?

BentoML,ZenML,

Ollama未與云融合,編排與自動(dòng)化能力有限①M(fèi)laflow,DVC,

Pachyderm②③2024上半年熱力值來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.17熱力趨勢(shì)(9/12):機(jī)器學(xué)習(xí)運(yùn)維

-之二由基礎(chǔ)開發(fā)生命管理發(fā)展為以AI專有性能指標(biāo)為核心設(shè)置的工具生態(tài)體系開源大數(shù)據(jù)機(jī)器學(xué)習(xí)運(yùn)維工具熱力圖(12-23)2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 20245.434.914.744.704.624.243.771.931.470.650.540.442024上半年熱力值來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.18熱力趨勢(shì)(10/12):記錄與監(jiān)測(cè)由簡(jiǎn)單的日志管理及可視化發(fā)展為集日志、指標(biāo)、追蹤為一體數(shù)據(jù)觀測(cè)棧開源大數(shù)據(jù)記錄與監(jiān)測(cè)工具熱力圖構(gòu)建更強(qiáng)大的指標(biāo)評(píng)估系統(tǒng)實(shí)時(shí)、主動(dòng)監(jiān)測(cè)與預(yù)警Prometheus,

Grafana集中式日志管理與分析提供日志搜索能力及可視化界面Elasticsearch,Logstash,

Graylog8.917.897.886.976.606.546.526.506.505.004.644.243.96201020112012201320142015201620172018201920202021202220232024?

擴(kuò)展性更強(qiáng),效率更優(yōu)①②與其他大數(shù)據(jù)處理組件無(wú)縫結(jié)合

③SigNoz,OpenTelemetry2024上半年熱力值來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.19熱力趨勢(shì)(11/12):可視化由靜態(tài)、本地化解決方案向高互動(dòng)性、云化、融合AI能力的方向演進(jìn)開源大數(shù)據(jù)可視化工具熱力圖?

互動(dòng)性可視化、儀表盤靜態(tài)可視化,基礎(chǔ)繪圖與桌面環(huán)境或某些編程語(yǔ)言整合ggplot2,Matplotlib,

Seaborn支持多用戶協(xié)作,加入AI能力與大數(shù)據(jù)架構(gòu)、數(shù)倉(cāng)深度融合Superset,Kibana,Redash①與數(shù)據(jù)實(shí)時(shí)互動(dòng),基于網(wǎng)絡(luò)部署

②Metabase,Bokeh,

Plotly③2024上半年熱力值9.157.967.805.485.435.405.275.164.783.633.633.341.912008 2009 2010 2011 2012201320142015 2016 2017 2018 201920202021 2022 2023 2024來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.20熱力趨勢(shì)(12/12):數(shù)據(jù)安全實(shí)時(shí)威脅檢測(cè)和響應(yīng)網(wǎng)絡(luò)流量的深度包檢測(cè)Falco,Suricata日志分析與事件關(guān)聯(lián)基本的入侵檢測(cè)能力(日志監(jiān)控)OSSEC,

Sentry細(xì)粒度的訪問控制策略集中的安全策略管理Cilium,Ranger,

Knox①②③2024上半年熱力值8.808.385.574.934.524.183.673.512011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024從基礎(chǔ)安全和監(jiān)控能力發(fā)展到高級(jí)威脅檢測(cè),最終實(shí)現(xiàn)全面的訪問管理和數(shù)據(jù)治理開源大數(shù)據(jù)安全組件工具熱力圖來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.21開源大數(shù)據(jù)工具熱力趨勢(shì)總結(jié)由于不同時(shí)期的技術(shù)挑戰(zhàn)與應(yīng)用需求促使大數(shù)據(jù)工具的迭代與豐富來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.22開源大數(shù)據(jù)工具發(fā)展時(shí)間圖201320142015201620172018201920202021202220232024實(shí)時(shí)數(shù)據(jù)處理互聯(lián)網(wǎng)企業(yè)對(duì)高通量、實(shí)時(shí)數(shù)據(jù)流的處理需求批流一體批流數(shù)據(jù)需整合統(tǒng)一而非后者替代前者數(shù)據(jù)湖及滄湖一體解決數(shù)據(jù)湖數(shù)據(jù)質(zhì)量、一致性、實(shí)時(shí)性等問題機(jī)器學(xué)習(xí)組件整合大模型時(shí)代管理機(jī)器學(xué)習(xí)生命周期(實(shí)驗(yàn)、再現(xiàn)及部署)數(shù)據(jù)存儲(chǔ)及擴(kuò)展性解決分布式數(shù)據(jù)庫(kù)的擴(kuò)展性及高時(shí)延聯(lián)邦查詢?cè)诙鄻訑?shù)據(jù)集間進(jìn)行查詢而不移動(dòng)數(shù)據(jù)與云原生整合云原生架構(gòu)下更高效、自動(dòng)化的管理容器數(shù)據(jù)編目及治理數(shù)據(jù)量上升后,需要工具對(duì)其發(fā)掘、歸納并翻譯數(shù)據(jù)查詢與分析解決數(shù)據(jù)查詢緩慢、不及時(shí)的問題數(shù)據(jù)安全集中性安全管理、細(xì)粒度訪問控制云廠商開源大數(shù)據(jù)工具支持度比較在34個(gè)地理區(qū)域內(nèi)運(yùn)營(yíng)108個(gè)可用區(qū)計(jì)劃在墨西哥、新西蘭、沙特阿拉伯王國(guó)、泰國(guó)、中國(guó)臺(tái)灣和AWS歐盟主權(quán)云增加18個(gè)可用區(qū)和6個(gè)AWS區(qū)域擁有超過(guò)410個(gè)邊緣站點(diǎn)與本地區(qū)域自研ARM架構(gòu)Graviton處理器為云原生工作任務(wù)高度定制,使AWS更具成本效益、更節(jié)能、更高效相較于x86芯片,Graviton3可達(dá)到60%的能耗提升,

Graviton2

可達(dá)到最高30%的性能提升對(duì)開源大數(shù)據(jù)工具提供廣泛支持,為主流大數(shù)據(jù)框架提供托管服務(wù)AWS生態(tài)中的如EMR,MSK等服務(wù)與大數(shù)據(jù)開源工具無(wú)縫結(jié)合AWS兼容各類開源數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)湖,通過(guò)Glue與Athena可以輕松查詢或轉(zhuǎn)換各類開源格式的數(shù)據(jù)服務(wù)范圍涵蓋包括64

個(gè)區(qū)域在內(nèi)的共140個(gè)國(guó)家共有175個(gè)邊緣節(jié)點(diǎn)基于Intel及AMD芯片搭建云服務(wù)通過(guò)HDInsight與Databricks將開源大數(shù)據(jù)工具與Azure整合,為用戶處理結(jié)構(gòu)及非結(jié)構(gòu)化數(shù)據(jù)提供統(tǒng)一平臺(tái)Azure

Synapse也將基于Spark的分析原生地整合進(jìn)來(lái)在38個(gè)區(qū)域中的115個(gè)節(jié)點(diǎn)運(yùn)營(yíng)(包括本地節(jié)點(diǎn)與邊緣節(jié)點(diǎn))正在另外13個(gè)區(qū)域加緊布局,但總體上在歐美之外的區(qū)域布局較少主要基于Intel及AMD芯片搭建云服務(wù)提供第三方廠商Ampere

設(shè)計(jì)的AltraARM架構(gòu)芯片第三方芯片尚未能與自身云平臺(tái)進(jìn)行深度整合BigQuery是完全托管的數(shù)據(jù)倉(cāng)庫(kù),支持多種開源數(shù)據(jù)格式,同時(shí)支持與開源框架整合進(jìn)行高階數(shù)據(jù)分析通過(guò)

GKE

支持容器化工作負(fù)載,

在Kubernetes集群上調(diào)度開源大數(shù)據(jù)應(yīng)用,管理復(fù)雜的大數(shù)據(jù)管道來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.23基礎(chǔ)設(shè)施覆蓋度、云計(jì)算成本及效用以及開源配套服務(wù)是影響客戶在利用開源工具自建大數(shù)據(jù)平臺(tái)時(shí)選型底層云平臺(tái)的主要因素基礎(chǔ)設(shè)施覆蓋度:云廠商更廣闊的基礎(chǔ)設(shè)施覆蓋度意味著客戶在進(jìn)行大數(shù)據(jù)處理時(shí)的延遲時(shí)間更少,并可以選擇本地化的部署方式,這對(duì)于需要低延時(shí)以及數(shù)據(jù)駐留合規(guī)性要求更為嚴(yán)格的國(guó)際化用戶尤為重要。云計(jì)算成本與效用:大數(shù)據(jù)的處理需要耗費(fèi)海量計(jì)算資源,因此計(jì)算效率與成本效益是客戶的重要考量因素。定制化核心基礎(chǔ)硬件能夠從底層增強(qiáng)云計(jì)算效率,從成本及能耗角度看也會(huì)帶來(lái)顯著提升。開源配套服務(wù):云平臺(tái)對(duì)于開源大數(shù)據(jù)工具更廣泛的配套服務(wù)以及更深度的融合決定了客戶利用開源工具構(gòu)建大數(shù)據(jù)平臺(tái)的難易度與開發(fā)成本,客戶更傾向于使用開源友好度高的云平臺(tái)服務(wù)。綜合比較AWS,Azure與GCP三大全球性云廠商,AWS在基礎(chǔ)設(shè)施覆蓋的廣度、云計(jì)算優(yōu)化的深度、以及生態(tài)中開源配套服務(wù)的豐富度上均有一定優(yōu)勢(shì),與當(dāng)下處理復(fù)雜數(shù)據(jù)類型、重分析呈現(xiàn)的大數(shù)據(jù)熱點(diǎn)開發(fā)組件契合度較高,是大數(shù)據(jù)云基礎(chǔ)平臺(tái)的優(yōu)質(zhì)選擇?;A(chǔ)設(shè)施覆蓋度 云計(jì)算成本與效用 開源配套服務(wù)24大數(shù)據(jù)工具熱力值說(shuō)明03說(shuō)明(1/2):熱力值意義及數(shù)據(jù)采集來(lái)源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?2024.10iResearch

Inc.25熱力值意義本報(bào)告中所指熱力趨勢(shì)是從開發(fā)者視角所做的研究判斷,通過(guò)對(duì)開發(fā)者圍繞開源社區(qū)相關(guān)行為的定量分析,綜合得到熱力值,是開發(fā)者對(duì)該開源大數(shù)據(jù)工具的關(guān)注、參與、討論、貢獻(xiàn)的綜合體現(xiàn)。因此開源大數(shù)據(jù)工具的熱力值越高,代表該工具能夠更快速的迭代,受到更精細(xì)的優(yōu)化打磨。從應(yīng)用視角看,該開源工具更易被使用,并在應(yīng)用場(chǎng)景中被廣泛推開,即熱力值由開發(fā)者端傳導(dǎo)至應(yīng)用端。事實(shí)上,許多開源大數(shù)據(jù)工具的應(yīng)用者同時(shí)也是開發(fā)者,他們針對(duì)實(shí)踐中的問題持續(xù)優(yōu)化大數(shù)據(jù)工具,將解決方案回饋至開發(fā)社區(qū)?;A(chǔ)數(shù)據(jù)【數(shù)據(jù)來(lái)源】GH

Archive:

https:///;

Github

Stars

Explorer:

https://emanuelef.github.io/daily-stars-explorer【數(shù)據(jù)采集時(shí)間】起始時(shí)間為最早有記錄時(shí)間,終止時(shí)間為2024年6月30日【數(shù)據(jù)采集對(duì)象】開源大數(shù)據(jù)工具所對(duì)應(yīng)的Github代碼倉(cāng)(

Repository

),而非對(duì)應(yīng)的Github項(xiàng)目(

Project

)【選取范圍及指標(biāo)意義】指標(biāo)選取范圍為GH

Archive可提供的17類Github事件,事件定義遵循GH

Archive中對(duì)應(yīng)的屬性說(shuō)明?!局笜?biāo)選定邏輯】基于開發(fā)者在開源社區(qū)(Github)中的基礎(chǔ)行為,選取Star、Fork、Issue、Commit、Pull

Request五項(xiàng)核心指標(biāo),其他Github事件或?yàn)榇宋孱愂录膹膶偈录?,或其本身一般性屬性較低。以下表格為GH

Archive

中所列舉的

17

類事件,

標(biāo)色事件

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論