版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
2024年開源大數(shù)據(jù)行業(yè)發(fā)展洞察報告CONTENTS目
錄01大數(shù)據(jù)開源工具發(fā)展背景02大數(shù)據(jù)開源工具熱力趨勢03大數(shù)據(jù)工具熱力值說明2大數(shù)據(jù)開源工具發(fā)展背景0134大數(shù)據(jù)技術的行業(yè)應用來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。醫(yī)療保健預測分析用于病人護理:預測病人入院情況,優(yōu)化資源分配臨床決策支持:通過數(shù)據(jù)聚合增強治療建議人群健康管理:分析數(shù)據(jù)以跟蹤疾病爆發(fā)并針對性干預制造業(yè)預測性維護:預測設備故障以減少停機時間供應鏈優(yōu)化:利用數(shù)據(jù)洞察改善物流和需求預測質量控制:實時監(jiān)控生產以確保產品質量金融服務欺詐檢測:監(jiān)控交易以識別和防止欺詐風險管理:通過全面數(shù)據(jù)分析增強信用評分客戶細分:針對性分析客戶,開發(fā)有針對性的產品能源與公用服務智能電網(wǎng)管理:通過需求預測改善負載平衡預測性資產維護:安排維護以防止停電可再生能源預測:優(yōu)化可再生能源的接入電網(wǎng)零售客戶個性化檢視:根據(jù)購買歷史定制營銷活動庫存管理:通過準確預測需求優(yōu)化庫存水平價格優(yōu)化:利用競爭者分析和市場分析動態(tài)定價產品電信客戶流失預測:識別不滿意的客戶以降低流失率網(wǎng)絡優(yōu)化:分析流量以更好地分配網(wǎng)絡資源欺詐預防:檢測賬單和使用數(shù)據(jù)中的異常情況大數(shù)據(jù)技術應用廣度與深度持續(xù)加大,成為決定企業(yè)競爭力的重要因素十多年來,隨著大數(shù)據(jù)技術的演進與成熟,其在經濟領域中的應用也在拓展并持續(xù)深化。目前,在包括醫(yī)療保健、零售、金融服務、制造業(yè)、電信、能源與公共服務的各主要行業(yè)中,大數(shù)據(jù)技術在精細管理、趨勢預測、風險識別、決策支持等場景中發(fā)揮著越來越重要的作用。數(shù)字時代背景下,數(shù)據(jù)已成為企業(yè)核心資產,而大數(shù)據(jù)技術則是對這項資產開發(fā),利用,賦能企業(yè)的重要手段,越來越多的企業(yè)認識到用對、用好大數(shù)據(jù)技術將決定自身的行業(yè)競爭力。大數(shù)據(jù)技術在各主要行業(yè)中的典型應用場景5來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。來源:中國信通院云計算開源產業(yè)聯(lián)盟,中國通信標準化協(xié)會《全球開源生態(tài)洞察報告(2024年)》,艾瑞咨詢研究院自主研究及繪制。
大數(shù)據(jù)工具的開源6420大數(shù)據(jù)技術領域開源生態(tài)成熟度雷達圖技術流行度108創(chuàng)新轉化能力法律合規(guī)安全能力技術穩(wěn)定性技術生產力大數(shù)據(jù)領域具備較好的技術穩(wěn)健性,以Hadoop、Spark、Flink等為代表的傳統(tǒng)大數(shù)據(jù)產品已趨于成熟新型開源大數(shù)據(jù)工具不斷向個性化、定制化發(fā)展,如大數(shù)據(jù)框架中加入AI類庫,以及如Uber、Netflix、Spotify等企業(yè)根據(jù)自身特定業(yè)務貢獻新的適用于具體應用場景的大數(shù)據(jù)工具開源趨勢下,大數(shù)據(jù)傳統(tǒng)工具已經成熟,個性化新型工具不斷加入狹義上的開源大數(shù)據(jù)工具是指在開源大生態(tài)下,專注于解決海量、多類型數(shù)據(jù)的連接、存儲、管理等功能的工具集合。但從搭建大數(shù)據(jù)平臺角度出發(fā),通常還需要加入AI類組件以幫助數(shù)據(jù)分析,云原生工具以實現(xiàn)容器編排,另外關系型及各類非關系型數(shù)據(jù)庫被視為大數(shù)據(jù)的基礎,由此得到廣義上的大數(shù)據(jù)工具套件。本報告將以廣義大數(shù)據(jù)工具為研究對象,對其進行分析。開源生態(tài)下狹義與廣義大數(shù)據(jù)工具前端框架組件庫功能插件制作平臺解決方案操作系統(tǒng)桌面操作系統(tǒng)服務器操作系統(tǒng)云操作系統(tǒng)IoT操作系統(tǒng)數(shù)據(jù)庫關系型數(shù)據(jù)庫鍵值數(shù)據(jù)庫向量數(shù)據(jù)庫時序數(shù)據(jù)庫圖數(shù)據(jù)庫大數(shù)據(jù)數(shù)據(jù)存儲數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)管理數(shù)據(jù)連接中間件服務器中間件通訊中間件Web中間件安全中間件人工智能數(shù)據(jù)集智能算法庫訓練平臺AI引擎云原生微服務中間件容器技術及編排網(wǎng)絡服務6數(shù)據(jù)管理數(shù)據(jù)查詢與連接流處理與消息處理數(shù)據(jù)組織,版本控制,數(shù)據(jù)治理數(shù)據(jù)集間的查詢、整合、控制實時調控數(shù)據(jù)管道及事件流數(shù)據(jù)存儲數(shù)據(jù)框架數(shù)據(jù)庫指導數(shù)據(jù)如何存儲及序列化為分布式數(shù)據(jù)處理提供核心能力結構及非結構化數(shù)據(jù)主存儲系統(tǒng)開源大數(shù)據(jù)工具的分類及功能來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。1數(shù)據(jù)編排在線分析數(shù)據(jù)流自動化編排、監(jiān)控并處理,實現(xiàn)數(shù)據(jù)有效利用 大數(shù)據(jù)集的快速聚合、查詢與實時分析機器學習運維自動化部署、監(jiān)控及管理機器學習模型的運營平臺記錄及監(jiān)控數(shù)據(jù)可視化監(jiān)控數(shù)據(jù)基礎設施健康情況,追蹤指標表現(xiàn) 將數(shù)據(jù)洞察可視化展現(xiàn)按功能類型分為5層11模塊,合理的工具選型是搭建大數(shù)據(jù)平臺的前提大數(shù)據(jù)工具組件是大數(shù)據(jù)技術輸出的載體,數(shù)字化與智能化時代下,一套完整的大數(shù)據(jù)工具可以分為基礎層、數(shù)據(jù)連接層、編排與分析層、人工智能層、監(jiān)控及可視化層共5層,包括儲存格式、數(shù)據(jù)框架,數(shù)據(jù)庫、數(shù)據(jù)管理、數(shù)據(jù)查詢與連接、流處理與消息管理、數(shù)據(jù)編排、在線分析、機器學習運維、記錄及監(jiān)控、數(shù)據(jù)可視化11個模塊。大數(shù)據(jù)工具層級圖是對大數(shù)據(jù)工具的總覽,開源工具林林總總,企業(yè)應先解各個工具的定位與功能,根據(jù)自身需求牟定工具類型,再進行具體工具的選型。開源大數(shù)據(jù)工具層級圖監(jiān)控及可視化層可視化展現(xiàn)系統(tǒng)健康情況,幫助理解數(shù)據(jù)洞察結論人工智能層為以機器學習為代表的各類AI的運行提供基礎服務編排及分析層實現(xiàn)大數(shù)據(jù)的自動化、實時處理及分析數(shù)據(jù)連接層管理數(shù)據(jù)的連接、流動、查詢等數(shù)據(jù)治理任務基礎層數(shù)據(jù)存儲、數(shù)據(jù)處理,確保基礎設施的可擴展性23457大數(shù)據(jù)開源工具熱力趨勢02熱力趨勢(1/12):數(shù)據(jù)存儲開源大數(shù)據(jù)數(shù)據(jù)存儲工具熱力圖2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024沿二進制存儲、列存儲、云上數(shù)據(jù)湖的路徑演化,多樣化容納數(shù)據(jù)類型2024上半年熱力值8.447.717.647.537.027.026.895.855.465.355.064.724.683.380.78列存儲格式適應重任務下的數(shù)據(jù)分析查詢Parquet,
ORC二進制和結構化格式針對數(shù)據(jù)序列化進行優(yōu)化Avro,Thrift,Protocol
Buffers云原生數(shù)據(jù)格式云上數(shù)據(jù)湖DeltaLake,Iceberg,
Hudi來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。8①②③熱力趨勢(2/12):框架大數(shù)據(jù)框架隨數(shù)據(jù)量的擴大以及處理速度需求提升而迭代;進入大模型時代,大數(shù)據(jù)框架進而整合模型開發(fā)組件開源大數(shù)據(jù)框架熱力圖實時計算、內存計算流處理、批流一體Spark,Flink,
Storm分布式計算及存儲批處理Hadoop:HDFS+Mapreduce8.806.505.785.755.634.974.843.0520142015201620172018201920202021202220232024AI函數(shù)庫支持模型訓練、微調Ray,MLlib(Spark)①②③2024上半年熱力值來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。9熱力趨勢(3/12):數(shù)據(jù)庫
-
之一數(shù)據(jù)庫種類逐漸豐富,支持云原生、大模型開發(fā)訓練及實時分析開源大數(shù)據(jù)數(shù)據(jù)庫熱力圖(1-15)2022
2023
2024?
云原生數(shù)據(jù)庫非關系型數(shù)據(jù)庫管理處理半結構、非結構型數(shù)據(jù)Cassandra,MongoDB,
HBaseAI相關——向量數(shù)據(jù)庫高效管理、查詢嵌入向量Milvus,
Weaviate①為基于云的高性能數(shù)據(jù)分析優(yōu)化
②CockroachDB,
TiDB③7.016.996.876.256.116.015.715.605.535.485.485.455.395.385.182009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
20212024上半年熱力值來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。10熱力趨勢(3/12):數(shù)據(jù)庫
-之二數(shù)據(jù)庫種類逐漸豐富,支持云原生、大模型開發(fā)訓練及實時分析開源大數(shù)據(jù)數(shù)據(jù)庫熱力圖(16-31)2024上半年熱力值5.024.384.264.084.023.863.863.753.623.543.303.152.992.960.700.522009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
202120222023
2024來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。11熱力趨勢(4/12):數(shù)據(jù)管理隨系統(tǒng)復雜性提升,數(shù)據(jù)管理更注重數(shù)據(jù)血緣,版本控制及流程自動化開源大數(shù)據(jù)數(shù)據(jù)管理工具熱力圖?
數(shù)據(jù)質量/一致性保證、版本控制自動化驗證,可回溯Great_Expectations,
LakeFS①②③7.577.557.516.045.775.465.413.863.673.663.140.702012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024數(shù)據(jù)目錄及數(shù)據(jù)治理 ?
元數(shù)據(jù)治理,數(shù)據(jù)血緣快速精準查找、正確使用數(shù)據(jù)資產 ?
洞察數(shù)據(jù)關系,數(shù)據(jù)價值挖掘CKAN,
Metacat ?
Amundsen,DataHub,
Atlas2024上半年來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。12熱力值9.02熱力趨勢(5/12):查詢與連接從批量到實時,從單一數(shù)據(jù)源到跨系統(tǒng)多元數(shù)據(jù),從關系型數(shù)據(jù)到非關系型數(shù)據(jù),工具的進化讓數(shù)據(jù)查詢更迅速、更靈活、更絲滑開源大數(shù)據(jù)查詢與連接工具熱力圖?
對于分布式數(shù)據(jù)的快速查詢做優(yōu)化?
實時查詢,實時分析基于Hadoop框架的大數(shù)據(jù)查詢使用SQL語句進行低延時批量查詢?
多數(shù)據(jù)源多數(shù)據(jù)類型統(tǒng)一聯(lián)合查詢?
使用一套查詢語句及統(tǒng)一界面①②③2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 20242024上半年熱力值8.458.207.727.026.494.533.843.782.872.64?
Hive,Pig,
Presto來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?
Druid,
Impala?
Beam,Trino,
Drill13熱力趨勢(6/12):流處理及消息管理由簡單的消息處理功能發(fā)展為功能復雜適應混合場景的數(shù)據(jù)管理工具開源大數(shù)據(jù)流處理及消息管理工具熱力圖消息隊列、訂閱/發(fā)布、日志聚合 ?
分布式架構簡單消息系統(tǒng)中處理少量實時數(shù)據(jù)云原生、事件驅動架構混合負載+多租戶+地域復制①?
實時數(shù)據(jù)+高吞吐量+低容錯率
②③2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
2023
20242024上半年?
RabbitMQ,
ActiveMQ來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?
Kafka,NiFi,
Debezium?
Pulsar,
Memphis14熱力值7.087.026.506.406.376.015.515.255.024.974.673.713.483.253.221.60熱力趨勢(7/12):編排大數(shù)據(jù)編排工具的演變反映了數(shù)據(jù)工作流不斷變化的需求和復雜性開源大數(shù)據(jù)編排工具熱力圖①②③2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024批處理過程、簡單任務依賴 ?
基于有向無環(huán)圖構建任務關系 ?
將數(shù)據(jù)管道視為軟件資產集中式調度器管理任務的執(zhí)行 ?
模塊化架構并與云服務集成 ?
數(shù)據(jù)血緣追蹤,推動團隊協(xié)作2024上半年熱力值8.386.956.926.886.565.745.665.605.284.603.183.041.860.89?
Luigi來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?
Airflow,
argo?
Dagster,DolphinScheduler15熱力趨勢(8/12):在線分析由對數(shù)據(jù)的批量抓取分析發(fā)展為云原生可處理高并發(fā)的實時數(shù)據(jù)分析開源大數(shù)據(jù)在線分析工具熱力圖?
簡化查詢處理過程,實時動態(tài)分析列存儲,矢量化執(zhí)行ClickHouse,Trino,Doris查詢處理結構化、預聚合數(shù)據(jù)準實時抓取查詢數(shù)據(jù),分布式結構Druid,Pinot,
Kylin8.288.117.997.877.546.945.585.212.412013 20142015201620172018201920202021202220232024云原生架構,內存計算實時高并發(fā)數(shù)據(jù)分析?
StarRocks,Databend,
DuckDB①②③2024上半年熱力值來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。16熱力趨勢(9/12):機器學習運維
-之一由基礎開發(fā)生命管理發(fā)展為以AI專有性能指標為核心設置的工具生態(tài)體系開源大數(shù)據(jù)機器學習運維工具熱力圖(1-11)端到端的ML流程編排與自動化支持本地與云環(huán)境Kubeflow,Polyaxon?
基礎模型開發(fā)跟蹤、可視化及部署8.818.447.657.597.297.176.416.135.775.625.542018201920202021202220232024?
實時模型服務,AI優(yōu)先功能:可解釋性、公平性、漂移檢測?
BentoML,ZenML,
Ollama未與云融合,編排與自動化能力有限①Mlaflow,DVC,
Pachyderm②③2024上半年熱力值來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。17熱力趨勢(9/12):機器學習運維
-之二由基礎開發(fā)生命管理發(fā)展為以AI專有性能指標為核心設置的工具生態(tài)體系開源大數(shù)據(jù)機器學習運維工具熱力圖(12-23)2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 20245.434.914.744.704.624.243.771.931.470.650.540.442024上半年熱力值來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。18熱力趨勢(10/12):記錄與監(jiān)測由簡單的日志管理及可視化發(fā)展為集日志、指標、追蹤為一體數(shù)據(jù)觀測棧開源大數(shù)據(jù)記錄與監(jiān)測工具熱力圖構建更強大的指標評估系統(tǒng)實時、主動監(jiān)測與預警Prometheus,
Grafana集中式日志管理與分析提供日志搜索能力及可視化界面Elasticsearch,Logstash,
Graylog8.917.897.886.976.606.546.526.506.505.004.644.243.96201020112012201320142015201620172018201920202021202220232024?
擴展性更強,效率更優(yōu)①②與其他大數(shù)據(jù)處理組件無縫結合
③SigNoz,OpenTelemetry2024上半年熱力值來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。19熱力趨勢(11/12):可視化由靜態(tài)、本地化解決方案向高互動性、云化、融合AI能力的方向演進開源大數(shù)據(jù)可視化工具熱力圖?
互動性可視化、儀表盤靜態(tài)可視化,基礎繪圖與桌面環(huán)境或某些編程語言整合ggplot2,Matplotlib,
Seaborn支持多用戶協(xié)作,加入AI能力與大數(shù)據(jù)架構、數(shù)倉深度融合Superset,Kibana,Redash①與數(shù)據(jù)實時互動,基于網(wǎng)絡部署
②Metabase,Bokeh,
Plotly③2024上半年熱力值9.157.967.805.485.435.405.275.164.783.633.633.341.912008 2009 2010 2011 2012201320142015 2016 2017 2018 201920202021 2022 2023 2024來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。20熱力趨勢(12/12):數(shù)據(jù)安全實時威脅檢測和響應網(wǎng)絡流量的深度包檢測Falco,Suricata日志分析與事件關聯(lián)基本的入侵檢測能力(日志監(jiān)控)OSSEC,
Sentry細粒度的訪問控制策略集中的安全策略管理Cilium,Ranger,
Knox①②③2024上半年熱力值8.808.385.574.934.524.183.673.512011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024從基礎安全和監(jiān)控能力發(fā)展到高級威脅檢測,最終實現(xiàn)全面的訪問管理和數(shù)據(jù)治理開源大數(shù)據(jù)安全組件工具熱力圖來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。21開源大數(shù)據(jù)工具熱力趨勢總結由于不同時期的技術挑戰(zhàn)與應用需求促使大數(shù)據(jù)工具的迭代與豐富來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。22開源大數(shù)據(jù)工具發(fā)展時間圖201320142015201620172018201920202021202220232024實時數(shù)據(jù)處理互聯(lián)網(wǎng)企業(yè)對高通量、實時數(shù)據(jù)流的處理需求批流一體批流數(shù)據(jù)需整合統(tǒng)一而非后者替代前者數(shù)據(jù)湖及滄湖一體解決數(shù)據(jù)湖數(shù)據(jù)質量、一致性、實時性等問題機器學習組件整合大模型時代管理機器學習生命周期(實驗、再現(xiàn)及部署)數(shù)據(jù)存儲及擴展性解決分布式數(shù)據(jù)庫的擴展性及高時延聯(lián)邦查詢在多樣數(shù)據(jù)集間進行查詢而不移動數(shù)據(jù)與云原生整合云原生架構下更高效、自動化的管理容器數(shù)據(jù)編目及治理數(shù)據(jù)量上升后,需要工具對其發(fā)掘、歸納并翻譯數(shù)據(jù)查詢與分析解決數(shù)據(jù)查詢緩慢、不及時的問題數(shù)據(jù)安全集中性安全管理、細粒度訪問控制云廠商開源大數(shù)據(jù)工具支持度比較在34個地理區(qū)域內運營108個可用區(qū)計劃在墨西哥、新西蘭、沙特阿拉伯王國、泰國、中國臺灣和AWS歐盟主權云增加18個可用區(qū)和6個AWS區(qū)域擁有超過410個邊緣站點與本地區(qū)域自研ARM架構Graviton處理器為云原生工作任務高度定制,使AWS更具成本效益、更節(jié)能、更高效相較于x86芯片,Graviton3可達到60%的能耗提升,
Graviton2
可達到最高30%的性能提升對開源大數(shù)據(jù)工具提供廣泛支持,為主流大數(shù)據(jù)框架提供托管服務AWS生態(tài)中的如EMR,MSK等服務與大數(shù)據(jù)開源工具無縫結合AWS兼容各類開源數(shù)據(jù)倉庫與數(shù)據(jù)湖,通過Glue與Athena可以輕松查詢或轉換各類開源格式的數(shù)據(jù)服務范圍涵蓋包括64
個區(qū)域在內的共140個國家共有175個邊緣節(jié)點基于Intel及AMD芯片搭建云服務通過HDInsight與Databricks將開源大數(shù)據(jù)工具與Azure整合,為用戶處理結構及非結構化數(shù)據(jù)提供統(tǒng)一平臺Azure
Synapse也將基于Spark的分析原生地整合進來在38個區(qū)域中的115個節(jié)點運營(包括本地節(jié)點與邊緣節(jié)點)正在另外13個區(qū)域加緊布局,但總體上在歐美之外的區(qū)域布局較少主要基于Intel及AMD芯片搭建云服務提供第三方廠商Ampere
設計的AltraARM架構芯片第三方芯片尚未能與自身云平臺進行深度整合BigQuery是完全托管的數(shù)據(jù)倉庫,支持多種開源數(shù)據(jù)格式,同時支持與開源框架整合進行高階數(shù)據(jù)分析通過
GKE
支持容器化工作負載,
在Kubernetes集群上調度開源大數(shù)據(jù)應用,管理復雜的大數(shù)據(jù)管道來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。23基礎設施覆蓋度、云計算成本及效用以及開源配套服務是影響客戶在利用開源工具自建大數(shù)據(jù)平臺時選型底層云平臺的主要因素基礎設施覆蓋度:云廠商更廣闊的基礎設施覆蓋度意味著客戶在進行大數(shù)據(jù)處理時的延遲時間更少,并可以選擇本地化的部署方式,這對于需要低延時以及數(shù)據(jù)駐留合規(guī)性要求更為嚴格的國際化用戶尤為重要。云計算成本與效用:大數(shù)據(jù)的處理需要耗費海量計算資源,因此計算效率與成本效益是客戶的重要考量因素。定制化核心基礎硬件能夠從底層增強云計算效率,從成本及能耗角度看也會帶來顯著提升。開源配套服務:云平臺對于開源大數(shù)據(jù)工具更廣泛的配套服務以及更深度的融合決定了客戶利用開源工具構建大數(shù)據(jù)平臺的難易度與開發(fā)成本,客戶更傾向于使用開源友好度高的云平臺服務。綜合比較AWS,Azure與GCP三大全球性云廠商,AWS在基礎設施覆蓋的廣度、云計算優(yōu)化的深度、以及生態(tài)中開源配套服務的豐富度上均有一定優(yōu)勢,與當下處理復雜數(shù)據(jù)類型、重分析呈現(xiàn)的大數(shù)據(jù)熱點開發(fā)組件契合度較高,是大數(shù)據(jù)云基礎平臺的優(yōu)質選擇。基礎設施覆蓋度 云計算成本與效用 開源配套服務24大數(shù)據(jù)工具熱力值說明03說明(1/2):熱力值意義及數(shù)據(jù)采集來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。25熱力值意義本報告中所指熱力趨勢是從開發(fā)者視角所做的研究判斷,通過對開發(fā)者圍繞開源社區(qū)相關行為的定量分析,綜合得到熱力值,是開發(fā)者對該開源大數(shù)據(jù)工具的關注、參與、討論、貢獻的綜合體現(xiàn)。因此開源大數(shù)據(jù)工具的熱力值越高,代表該工具能夠更快速的迭代,受到更精細的優(yōu)化打磨。從應用視角看,該開源工具更易被使用,并在應用場景中被廣泛推開,即熱力值由開發(fā)者端傳導至應用端。事實上,許多開源大數(shù)據(jù)工具的應用者同時也是開發(fā)者,他們針對實踐中的問題持續(xù)優(yōu)化大數(shù)據(jù)工具,將解決方案回饋至開發(fā)社區(qū)。基礎數(shù)據(jù)【數(shù)據(jù)來源】GH
Archive:
https:///;
Github
Stars
Explorer:
https://emanuelef.github.io/daily-stars-explorer【數(shù)據(jù)采集時間】起始時間為最早有記錄時間,終止時間為2024年6月30日【數(shù)據(jù)采集對象】開源大數(shù)據(jù)工具所對應的Github代碼倉(
Repository
),而非對應的Github項目(
Project
)【選取范圍及指標意義】指標選取范圍為GH
Archive可提供的17類Github事件,事件定義遵循GH
Archive中對應的屬性說明?!局笜诉x定邏輯】基于開發(fā)者在開源社區(qū)(Github)中的基礎行為,選取Star、Fork、Issue、Commit、Pull
Request五項核心指標,其他Github事件或為此五類事件的從屬事件,或其本身一般性屬性較低。以下表格為GH
Archive
中所列舉的
17
類事件,
標色事件為本報告選取的五項基礎指標。
事
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年海南省建筑安全員《C證》考試題庫
- 2025四川省建筑安全員《A證》考試題庫
- 民航英語口語總復習課件
- 【大學課件】官方單據(jù)公務證書
- 專利申請實務
- 最小公倍數(shù) 比較課件
- 小古文-大禹治水課件
- 《展覽品牌策劃》課件
- 2025年中國男褲行業(yè)市場前景預測及投資戰(zhàn)略研究報告
- 《慢性阻塞性肺疾患》課件
- 2025年日歷A4紙打印
- 儲能投資方案計劃書
- 麥克納姆輪的設計
- HG∕T 4286-2017 搪玻璃換熱管
- 2025中考英語備考專題10 閱讀理解之說明文(北京中考真題+名校模擬)
- 二年級上冊100道口算題大全(全冊完整版18份每份100道)
- HJ212-2017污染物在線監(jiān)控(監(jiān)測)系統(tǒng)數(shù)據(jù)傳輸標準
- 電力外線施工方案
- 基于Android平臺人臉識別系統(tǒng)的設計與實現(xiàn)
- 【供應鏈視角下的光明乳業(yè)存貨管理問題研究9700字】
- 部編版小學語文五年級上冊第四單元《古詩三首》教學教案
評論
0/150
提交評論