




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)庫(kù)發(fā)展研究報(bào)告(2023年)2023年7月目 錄版權(quán)聲明 I一、數(shù)據(jù)庫(kù)產(chǎn)業(yè)發(fā)展情況綜述 1(一)數(shù)據(jù)庫(kù)產(chǎn)業(yè)及市場(chǎng) 1(二)數(shù)據(jù)庫(kù)產(chǎn)品及服務(wù) 2從時(shí)間看,全球數(shù)據(jù)庫(kù)發(fā)展經(jīng)歷兩輪熱周期 2從地域看,美國(guó)和中國(guó)是全球數(shù)據(jù)庫(kù)產(chǎn)業(yè)的主力軍 4從類型看,非關(guān)系型數(shù)據(jù)庫(kù)在全球范圍占比略大 4從模式看,開源模式在全球范圍內(nèi)發(fā)展勢(shì)頭迅猛 6(三)數(shù)據(jù)庫(kù)支撐體系 8創(chuàng)新方面,非關(guān)系型是熱點(diǎn),我國(guó)創(chuàng)新實(shí)力不斷增強(qiáng) 8標(biāo)準(zhǔn)方面,我國(guó)數(shù)據(jù)庫(kù)產(chǎn)業(yè)標(biāo)準(zhǔn)引領(lǐng)作用初見成效 10二、數(shù)據(jù)庫(kù)技術(shù)發(fā)展情況綜述 12(一)助力用戶降本增效 12交易分析一體化支撐多類業(yè)務(wù) 12多模處理一體化實(shí)現(xiàn)一庫(kù)多用 14數(shù)據(jù)湖倉(cāng)一體化降低存算成本 16軟硬協(xié)同一體化提升系統(tǒng)性能 18AI與數(shù)據(jù)庫(kù)融合迸發(fā)無(wú)限潛力 20云計(jì)算成為數(shù)據(jù)庫(kù)重要驅(qū)動(dòng)力 23(二)技術(shù)融合護(hù)航數(shù)據(jù)要素安全流通 26隱私計(jì)算保障密態(tài)數(shù)據(jù)安全流通 26區(qū)塊鏈技術(shù)賦能數(shù)據(jù)資產(chǎn)高度可信 27圖聯(lián)邦學(xué)習(xí)技術(shù)打破圖數(shù)據(jù)孤島 29(三)技術(shù)革新賦能新興業(yè)務(wù)場(chǎng)景 31AI大模型催生向量數(shù)據(jù)庫(kù)新應(yīng)用 31圖分析技術(shù)洞察數(shù)據(jù)連接新價(jià)值 33時(shí)空數(shù)據(jù)庫(kù)釋放時(shí)空數(shù)據(jù)新潛能 35三、數(shù)據(jù)庫(kù)行業(yè)應(yīng)用情況綜述 36(一)金融行業(yè)核心系統(tǒng)改造升級(jí)進(jìn)度加快 36(二)電信行業(yè)三類系統(tǒng)適配遷移加速推進(jìn) 37(三)制造業(yè)數(shù)據(jù)庫(kù)創(chuàng)新應(yīng)用具備廣闊空間 39四、總結(jié)與展望 41圖目錄圖1 2022-2027年中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模及增速 1圖2 2021-2023中國(guó)公有云和本地部署數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模 2圖4 全球數(shù)據(jù)庫(kù)企業(yè)開展業(yè)務(wù)時(shí)間 3圖5 中國(guó)數(shù)據(jù)庫(kù)企業(yè)開展業(yè)務(wù)時(shí)間 3圖6 全球數(shù)據(jù)庫(kù)產(chǎn)品類型分布 5圖7 中國(guó)數(shù)據(jù)庫(kù)產(chǎn)品類型分布 6圖8 全球現(xiàn)存開源數(shù)據(jù)庫(kù)的開源時(shí)間 7圖9 中國(guó)現(xiàn)存開源數(shù)據(jù)庫(kù)的開源時(shí)間 7圖10 2020-2022年VLDB、ICDE和SIGMOD論文分布情況 8圖11 2022年VLDB、ICDE和SIGMOD論文關(guān)鍵詞云圖 9圖12 2020-2022年中國(guó)高校及企業(yè)學(xué)術(shù)會(huì)議論文貢獻(xiàn)情況 10圖13 CCSATC601數(shù)據(jù)庫(kù)領(lǐng)域標(biāo)準(zhǔn)化工作體系 11圖14 四類HTAP數(shù)據(jù)庫(kù)技術(shù)架構(gòu)示意圖 13圖15 數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)演進(jìn)圖 16圖16 FPGA與GPU技術(shù)發(fā)展歷程示意圖 19圖17 GDBMS系統(tǒng)全景圖 20圖18 AIGC為數(shù)據(jù)庫(kù)運(yùn)維提供建議的示例 21圖19 AIGC為數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)提供建議的示例 22圖20 AIGC對(duì)數(shù)字進(jìn)行判斷的示例 23圖21 一種計(jì)算、內(nèi)存、存儲(chǔ)三層解耦架構(gòu)示意圖 25圖22 全密態(tài)數(shù)據(jù)庫(kù)發(fā)展歷程圖 27圖23 業(yè)界防篡改數(shù)據(jù)庫(kù)方案對(duì)比 29圖24 一種圖聯(lián)邦數(shù)據(jù)庫(kù)方案架構(gòu)示例 30圖25 一種圖聯(lián)邦數(shù)據(jù)庫(kù)應(yīng)用架構(gòu)示例 30圖26 向量數(shù)據(jù)庫(kù)關(guān)鍵技術(shù)及應(yīng)用場(chǎng)景示意 32圖27 圖計(jì)算平臺(tái)分類方式及典型產(chǎn)品 33圖28 GNN模型的一般設(shè)計(jì)流程 34圖29 國(guó)內(nèi)外典型時(shí)空數(shù)據(jù)庫(kù)產(chǎn)品 35圖30 電信行業(yè)數(shù)據(jù)庫(kù)部署方式分布 38表目錄表1HTAP關(guān)鍵技術(shù)總覽與優(yōu)缺點(diǎn)比較 13表2多模數(shù)據(jù)庫(kù)擴(kuò)展策略 14表3數(shù)據(jù)湖支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)產(chǎn)品能力對(duì)比 17表4數(shù)據(jù)倉(cāng)庫(kù)支持?jǐn)?shù)據(jù)湖產(chǎn)品能力對(duì)比 18表5防篡改數(shù)據(jù)庫(kù)典型產(chǎn)品 28表6向量數(shù)據(jù)庫(kù)企業(yè)投融資情況 32表7電信行業(yè)支撐體系三大域分析 37表8制造行業(yè)典型系統(tǒng)及數(shù)據(jù)庫(kù)類型分布情況 39《數(shù)據(jù)庫(kù)發(fā)展研究報(bào)告(《數(shù)據(jù)庫(kù)發(fā)展研究報(bào)告(2023年)》PAGEPAGE10一、數(shù)據(jù)庫(kù)產(chǎn)業(yè)發(fā)展情況綜述當(dāng)前,全球產(chǎn)業(yè)生態(tài)加速變革,產(chǎn)品形態(tài)日益豐富;我國(guó)產(chǎn)業(yè)熱度持續(xù)升溫,創(chuàng)新能力不斷增強(qiáng)。市場(chǎng)規(guī)模不斷增高,產(chǎn)品提供商以中美兩國(guó)為主;非關(guān)系型數(shù)據(jù)庫(kù)產(chǎn)品是產(chǎn)業(yè)關(guān)注熱點(diǎn)、產(chǎn)品數(shù)量占比過(guò)半;開源模式影響力再次增大,我國(guó)開源業(yè)態(tài)不斷成熟。(一)數(shù)據(jù)庫(kù)產(chǎn)業(yè)及市場(chǎng)(以下簡(jiǎn)來(lái)源:CCSATC601,2023年6月圖12022-2027年中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模及增速據(jù)CCSATC601833億美59.7403.6占全球7.2%1。預(yù)計(jì)到2027年,中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)總規(guī)模將達(dá)到1286.8億元,市場(chǎng)年復(fù)合增長(zhǎng)率(CAGR)為26.1%。來(lái)源:CCSATC601,2023年6月圖22021-2023中國(guó)公有云和本地部署數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模據(jù)CCSATC6012022年中國(guó)公有云數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模為219.152021年增速51.6%,184.452021有云和本地部署模式市場(chǎng)規(guī)模分別占總市場(chǎng)54.3%45.7%,2022202359.8%323.16億元,本地部署模式市場(chǎng)17.8%217.24(二)數(shù)據(jù)庫(kù)產(chǎn)品及服務(wù)從時(shí)間看,全球數(shù)據(jù)庫(kù)發(fā)展經(jīng)歷兩輪熱周期1《中華人民共和國(guó)2022年國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)公報(bào)》,國(guó)家統(tǒng)計(jì)局,2022年全年人民幣平均匯率為1美元兌6.7261元人民幣。來(lái)源:CCSATC601,2023年6月圖4全球數(shù)據(jù)庫(kù)企業(yè)開展業(yè)務(wù)時(shí)間從2060年8021世紀(jì)后,PC互聯(lián)網(wǎng)逐步向移動(dòng)互聯(lián)2010-2019年進(jìn)入發(fā)展高峰期,新興企業(yè)不斷成立。這十年間,一共出現(xiàn)了230家企業(yè),全球48.7%的數(shù)據(jù)庫(kù)企業(yè)均成立于這一時(shí)期。來(lái)源:CCSATC601,2023年6月圖5中國(guó)數(shù)據(jù)庫(kù)企業(yè)開展業(yè)務(wù)時(shí)間中國(guó)數(shù)據(jù)庫(kù)產(chǎn)業(yè)始于20世紀(jì)末,并在2013年后迎來(lái)繁榮發(fā)展。截止2023年6月,我國(guó)數(shù)據(jù)庫(kù)產(chǎn)品提供商共150家,2022年新增企業(yè)數(shù)量仍然突破兩位數(shù),較2021年增速12.8%。2014-2022近十年時(shí)期迎來(lái)發(fā)展的高峰,其中2015年、2018-2022年每年企業(yè)新增數(shù)量均為兩位數(shù),六年期間一共有89家企業(yè)成立,占總數(shù)比例59.3%。從地域看,美國(guó)和中國(guó)是全球數(shù)據(jù)庫(kù)產(chǎn)業(yè)的主力軍CCSATC601統(tǒng)計(jì),20236472157150家,占33.3%31.8%655款。美國(guó)和中國(guó)的24223836.9%36.3%。北京為我國(guó)數(shù)據(jù)庫(kù)產(chǎn)業(yè)貢獻(xiàn)主要力量。中國(guó)150家數(shù)據(jù)庫(kù)廠商80、15、12、8個(gè)。天津、南京、廣州、成都4從類型看,非關(guān)系型數(shù)據(jù)庫(kù)在全球范圍占比略大來(lái)源:CCSATC601,20236月圖6全球數(shù)據(jù)庫(kù)產(chǎn)品類型分布全球數(shù)據(jù)庫(kù)產(chǎn)品數(shù)量整體分布呈現(xiàn)以非關(guān)系型及混合型數(shù)據(jù)庫(kù)為主。CCSATC601統(tǒng)計(jì)分析,截止20236月,全球數(shù)據(jù)庫(kù)產(chǎn)品共有655653309個(gè),非關(guān)系型數(shù)據(jù)34447.3%52.7%。非關(guān)系型數(shù)據(jù)庫(kù)中,鍵82535223.8%15.4%15.1%。來(lái)源:CCSATC601,20236月圖7中國(guó)數(shù)據(jù)庫(kù)產(chǎn)品類型分布我國(guó)數(shù)據(jù)庫(kù)產(chǎn)品數(shù)量呈現(xiàn)以關(guān)系型為主,非關(guān)系型數(shù)據(jù)庫(kù)為輔1568265.5%34.5%24241010依次占比29.3%、29.3%、12.2%和12.2%。從模式看,開源模式在全球范圍內(nèi)發(fā)展勢(shì)頭迅猛來(lái)源:CCSATC601,2023年6月圖8全球現(xiàn)存開源數(shù)據(jù)庫(kù)的開源時(shí)間20909052-3200626840.9%2011-202015959.3%的開源來(lái)源:CCSATC601,2023年6月圖9中國(guó)現(xiàn)存開源數(shù)據(jù)庫(kù)的開源時(shí)間20104282.4%17.6%29個(gè),1369.0%31.0%2017年之后迎來(lái)發(fā)展高峰。2017年至今,297成產(chǎn)品采用Apache2.0秀的開源項(xiàng)目。從國(guó)外看,AWS開源其搜索型數(shù)據(jù)庫(kù)產(chǎn)品ArcadeDB和向量數(shù)據(jù)庫(kù)QdrantSystemsMariaDB\hEdgelessDB,內(nèi)存數(shù)據(jù)緩存系統(tǒng)Dragonfly以及端到端云原生數(shù)據(jù)庫(kù)SurrealDB正式從國(guó)內(nèi)看,分析型數(shù)據(jù)庫(kù)公司鼎石縱橫和杭州石原子分別開StarRocksStoneDB,諾司時(shí)空開源其時(shí)序數(shù)據(jù)庫(kù)產(chǎn)品CnosDB,螞蟻集團(tuán)陸續(xù)開源單機(jī)版圖數(shù)據(jù)庫(kù)和圖計(jì)算引擎TuGraph。(三)數(shù)據(jù)庫(kù)支撐體系來(lái)源:CCSATC601,2023年6月圖102020-2022年VLDB、ICDE和SIGMOD論文分布情況VLDB、SIGMODICDE三個(gè)數(shù)據(jù)庫(kù)領(lǐng)域權(quán)威的學(xué)術(shù)會(huì)議研究方向看,當(dāng)前關(guān)系型數(shù)據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)研究?jī)?nèi)容數(shù)量占比相當(dāng),非關(guān)系型數(shù)據(jù)庫(kù)研究方向成為熱點(diǎn)。VLDB為例,2020-202211081483非關(guān)系型數(shù)據(jù)庫(kù)論文分別占三年論文總數(shù)量的1613。SIGMOD87、87350篇,關(guān)系型和非關(guān)17%。ICDE75、85574和來(lái)源:CCSATC601,2023年6月圖112022年VLDB、ICDE和SIGMOD論文關(guān)鍵詞云圖邦學(xué)習(xí)、差分隱私、云原生等等。此外,數(shù)據(jù)庫(kù)領(lǐng)域如HTAP、內(nèi)來(lái)源:CCSATC601,2023年6月圖122020-2022年中國(guó)高校及企業(yè)學(xué)術(shù)會(huì)議論文貢獻(xiàn)情況我國(guó)在全球三大數(shù)據(jù)庫(kù)領(lǐng)域?qū)W術(shù)會(huì)議的影響力持續(xù)提升。高校及企業(yè)在ICDE43.15%44.68%和23.81%27.17%40.70%,2022202210標(biāo)準(zhǔn)方面,我國(guó)數(shù)據(jù)庫(kù)產(chǎn)業(yè)標(biāo)準(zhǔn)引領(lǐng)作用初見成效20211010以)來(lái)源:CCSATC601,2023年6月圖13CCSATC601數(shù)據(jù)庫(kù)領(lǐng)域標(biāo)準(zhǔn)化工作體系(WG4)。201530項(xiàng)標(biāo)準(zhǔn),逐步構(gòu)建以數(shù)據(jù)庫(kù)產(chǎn)品、服務(wù)和應(yīng)產(chǎn)品能力方面,從關(guān)系型和非關(guān)系型,構(gòu)建了基礎(chǔ)能力、性能和穩(wěn)定性的技術(shù)標(biāo)準(zhǔn);圍繞規(guī)劃設(shè)計(jì)、實(shí)施部署和運(yùn)維運(yùn)營(yíng),推出國(guó)內(nèi)首個(gè)面向數(shù)據(jù)庫(kù)服務(wù)的團(tuán)體A-,圍繞數(shù)據(jù)庫(kù)應(yīng)用遷移和SQL中《數(shù)據(jù)庫(kù)應(yīng)用遷移服務(wù)能力分級(jí)要求》(標(biāo)準(zhǔn)編號(hào):T/CCSA2022行業(yè)應(yīng)用方面,面向數(shù)據(jù)庫(kù)應(yīng)用方內(nèi)部運(yùn)維管理團(tuán)隊(duì),推出《數(shù)據(jù)庫(kù)運(yùn)維管理能力成熟度模型》。CCSATC601見證了我國(guó)數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)二、數(shù)據(jù)庫(kù)技術(shù)發(fā)展情況綜述數(shù)據(jù)要素時(shí)代,數(shù)據(jù)規(guī)模爆發(fā)式增長(zhǎng)對(duì)數(shù)據(jù)庫(kù)技術(shù)提出了新的AI);2)護(hù)航數(shù)據(jù)要素安全流通(隱私計(jì)算保障密態(tài)數(shù)據(jù)安全流通,區(qū)塊鏈(AI。(一)助力用戶降本增效供給側(cè)通過(guò)六類優(yōu)化方式,助力數(shù)據(jù)庫(kù)性能不斷提升,以及運(yùn)維、應(yīng)用成本降低。交易分析一體化支撐多類業(yè)務(wù)HTAP(HybridTransaction/AnalyticalProcessing,混合事務(wù)分析處理)的概念是指同時(shí)支持OLTP和OLAP場(chǎng)景。該技術(shù)可以實(shí)現(xiàn)一個(gè)平臺(tái)上同時(shí)處理多個(gè)數(shù)據(jù)任務(wù),支撐海量并發(fā)連接復(fù)雜混合負(fù)載,提升系統(tǒng)彈性,降低開發(fā)運(yùn)維復(fù)雜度和成本,提升數(shù)據(jù)使用粒度,提高組織數(shù)據(jù)處理的效率。目前,業(yè)界主流的HTAP技術(shù)架構(gòu)按存儲(chǔ)類型劃分,主要分為主行存儲(chǔ)與內(nèi)存型列存儲(chǔ)、分布式行存與列存副本、單機(jī)磁盤型行存與分布式列存,以及主列存與增量型行存四種形態(tài)2。來(lái)源:HTAP數(shù)據(jù)庫(kù)關(guān)鍵技術(shù)綜述圖14HTAP數(shù)據(jù)庫(kù)技術(shù)架構(gòu)示意圖在技術(shù)實(shí)現(xiàn)方面,HTAP在數(shù)據(jù)組織、數(shù)據(jù)同步、查詢優(yōu)化和資源調(diào)度等方面仍需持續(xù)突破。這些技術(shù)的解決方法在各種指標(biāo)上表1HTAP關(guān)鍵技術(shù)總覽與優(yōu)缺點(diǎn)比較HTAP技術(shù)類別關(guān)鍵技術(shù)代表性產(chǎn)品主要優(yōu)點(diǎn)主要缺點(diǎn)數(shù)據(jù)組織技術(shù)基于主行存的內(nèi)存列選擇MySQLHeatwaveOracle事務(wù)性能高分析性能低基于負(fù)載驅(qū)動(dòng)的行列混合存儲(chǔ)/存儲(chǔ)代價(jià)低系統(tǒng)復(fù)雜度高數(shù)據(jù)同步技術(shù)基于內(nèi)存增量表與內(nèi)存型列存的數(shù)據(jù)同步Oracle,SQLServer,SAPHANA性能高擴(kuò)展性低基于增量日志與持久化列存的數(shù)據(jù)同步TiDB,F1Lightning擴(kuò)展性高合并代價(jià)高查詢優(yōu)化技術(shù)混合行/列存儲(chǔ)掃描TiDB,SQLServer分析性能搜索空間2張超,李國(guó)良,馮建華,張金濤.HTAP數(shù)據(jù)庫(kù)關(guān)鍵技術(shù)綜述.軟件學(xué)報(bào),2023,34(2):761–785.高大異構(gòu)CPU/GPU硬件加速RateupDB,Caldera分析性能高事務(wù)性能低面向HTAP負(fù)載的索引技術(shù)/事務(wù)性能高內(nèi)存空間大資源調(diào)度技術(shù)基于負(fù)載驅(qū)動(dòng)的資源調(diào)度SAPHANA,Siper性能高新鮮度低基于新鮮度驅(qū)動(dòng)的資源調(diào)度/新鮮度高性能不高來(lái)源:HTAP數(shù)據(jù)庫(kù)關(guān)鍵技術(shù)綜述在推廣應(yīng)用方面,HTAPHTAP將事務(wù)與分析處理相融合,需對(duì)數(shù)據(jù)庫(kù)的結(jié)構(gòu)進(jìn)行大規(guī)模修改,這也增加了系統(tǒng)復(fù)雜性。二是HTAPHTAP數(shù)據(jù)庫(kù)應(yīng)用需集成包括分布式系統(tǒng)、高可用性、并發(fā)控制等技術(shù),多模處理一體化實(shí)現(xiàn)一庫(kù)多用多模數(shù)據(jù)庫(kù)技術(shù)是在NoSQL不斷變化、RDBMS的擴(kuò)展性不佳等諸多因素導(dǎo)致越來(lái)越多的開發(fā)者選擇NoSQLNoSQL表2多模數(shù)據(jù)庫(kù)擴(kuò)展策略技術(shù)路徑數(shù)據(jù)庫(kù)管理系統(tǒng)存儲(chǔ)類型新存儲(chǔ)方式PostgreSQLrelationalSQLserverrelationalIBMDB2relationalOracleDBrelationalCassandracolumnCrateDBcolumnDynamoDBcolumnRiakkey/valueCosmosDBdocument原存儲(chǔ)模型擴(kuò)展MySQLrelationalVerticacolumnArangoDBdocumentMongoDBdocumentOrientDBgraphCacheobject原始存儲(chǔ)策略加新型接口Sinewrelationalc-treeACEkey/valueOracleNoSQLDatabasekey/valueCouchbasedocumentMarkLogicdocument來(lái)源:Multi-modelDatabases:ANewJourneytoHandletheVarietyofData201220172014至20192015至今的細(xì)分研究階段。1997年,IBMAlmadenResearchCenter發(fā)表了一篇論文系統(tǒng)性地介紹了Garlicsystem的實(shí)現(xiàn)。1998年美國(guó)的一篇專利系統(tǒng)性地提出管理多模型數(shù)據(jù)的統(tǒng)一數(shù)據(jù)庫(kù)管理系統(tǒng),該管理系統(tǒng)由物理存儲(chǔ)層、語(yǔ)義320122016年SergeAbiteboul3《Multi-modeldatabasemanagementsystemenginefordatabasehavingcomplexdatamodels》4《ResearchDirectionsforPrinciplesofDataManagement》《數(shù)據(jù)庫(kù)發(fā)展研究報(bào)告(《數(shù)據(jù)庫(kù)發(fā)展研究報(bào)告(2023年)》PAGEPAGE34之一。同年,陸嘉恒團(tuán)隊(duì)發(fā)表文章介紹了一款作者構(gòu)想的多模數(shù)據(jù)520196。2015數(shù)據(jù)湖倉(cāng)一體化降低存算成本(DataWarehouse)(DataLake)a來(lái)源:Databricks圖15數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)演進(jìn)圖ETL5《RoadMap:UDBMS:RoadtoUnificationforMulti-modelDataManagement》6《Multi-modelDatabases:ANewJourneytoHandletheVarietyofData》倉(cāng)庫(kù)中進(jìn)行商務(wù)分析及財(cái)務(wù)報(bào)表等工作。第一代數(shù)據(jù)倉(cāng)庫(kù)面臨的問(wèn)題是計(jì)算和存儲(chǔ)高度耦合使得平臺(tái)難以隨著數(shù)據(jù)量的增長(zhǎng)而不斷增長(zhǎng),另一方面是無(wú)法支持非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)平臺(tái)進(jìn)入到第二代,也是當(dāng)前最為流行的雙層架構(gòu)階段,但這類架構(gòu)存在難以保證數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)一致性等問(wèn)題。為了解決以上問(wèn)題,第三代數(shù)據(jù)平臺(tái)架構(gòu)湖倉(cāng)一體架構(gòu)應(yīng)運(yùn)而生。表3數(shù)據(jù)湖支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)產(chǎn)品能力對(duì)比時(shí)間公司產(chǎn)品優(yōu)勢(shì)缺陷2011HortonworksApacheAtlas數(shù)據(jù)血緣追蹤/2011HortonworksRanger數(shù)據(jù)權(quán)限安全數(shù)據(jù)湖中新引擎優(yōu)先Ranger,可能會(huì)產(chǎn)生安全漏洞2018NexflixIceberg提供MVCC等增強(qiáng)數(shù)倉(cāng)能力Iceberg作為插件方式HMS倉(cāng)管理能力大打折扣2018-2019Uber&DatabricksApacheHudi&DeltaLake增量文件格式以支Update/Insert務(wù)等數(shù)據(jù)倉(cāng)庫(kù)功能新功能打破了元數(shù)據(jù)湖多套引擎之間關(guān)于Hudi發(fā)明兩種表三中來(lái)源:CCSATC601,20236月湖倉(cāng)一體是一種開放式的數(shù)據(jù)管理架構(gòu),集數(shù)據(jù)湖的靈活性、可擴(kuò)展性優(yōu)勢(shì)以及數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)管理功能于一體。主括Snowflake,阿里云MaxCompute和亞馬遜Redshift持?jǐn)?shù)倉(cāng)的功能主要是通過(guò)功能性開發(fā)實(shí)現(xiàn),如多版本并發(fā)控制、自適應(yīng)Schema、提供文件級(jí)事務(wù)等來(lái)實(shí)現(xiàn)數(shù)倉(cāng)功能,這類產(chǎn)品以Databricks的DeltaLakeUber的ApacheHudi表4數(shù)據(jù)倉(cāng)庫(kù)支持?jǐn)?shù)據(jù)湖產(chǎn)品能力對(duì)比時(shí)間公司產(chǎn)品優(yōu)勢(shì)缺陷2017RedshiftRedshiftSpectrum支持?jǐn)?shù)倉(cāng)用戶訪問(wèn)S3數(shù)據(jù)湖的數(shù)據(jù)需要用戶在數(shù)倉(cāng)中通過(guò)創(chuàng)建外部表來(lái)將數(shù)據(jù)湖的開放存儲(chǔ)路徑納入數(shù)倉(cāng)的概念體系,無(wú)法完全自動(dòng)化創(chuàng)建外部表、添加分區(qū)等。生產(chǎn)使用中較為復(fù)雜。2018阿里云MaxCompute外表能力,支持訪問(wèn)包括OSS/OTS/RDS數(shù)據(jù)庫(kù)在內(nèi)的多種外部存儲(chǔ)來(lái)源:CCSATC601,2023年6月當(dāng)前,湖倉(cāng)一體作為一種新興技術(shù)架構(gòu),在企業(yè)落地方面還處于早期探索階段,在部署方面仍面臨多重挑戰(zhàn)。一方面是由于團(tuán)隊(duì)缺乏前期數(shù)據(jù)治理經(jīng)驗(yàn),另一方面湖倉(cāng)一體的高度復(fù)雜性使得湖倉(cāng)之間存在如何協(xié)同的問(wèn)題。怎樣打通兩套系統(tǒng)存儲(chǔ)、保證元數(shù)據(jù)一致性、確保湖倉(cāng)之間不同引擎數(shù)據(jù)交叉引用、如何保障數(shù)據(jù)安全等問(wèn)題仍是湖倉(cāng)一體未來(lái)發(fā)展過(guò)程中亟待解決的問(wèn)題。軟硬協(xié)同一體化提升系統(tǒng)性能計(jì)算機(jī)軟件和硬件的發(fā)展相輔相成、并行不悖,硬件技術(shù)的創(chuàng)新或產(chǎn)品成本變化,不僅會(huì)給傳統(tǒng)的計(jì)算機(jī)體系結(jié)構(gòu)和系統(tǒng)帶來(lái)影響,也給系統(tǒng)軟件,特別是數(shù)據(jù)庫(kù)系統(tǒng)帶來(lái)了新的機(jī)遇。一方面,伴隨著硬件技術(shù)發(fā)展數(shù)據(jù)庫(kù)技術(shù)不斷進(jìn)步,另一方面在數(shù)據(jù)庫(kù)架構(gòu)方面,硬件技術(shù)的發(fā)展也不斷推進(jìn)著數(shù)據(jù)庫(kù)在分布式、云原生等方面的快速發(fā)展。此外,硬件技術(shù)的發(fā)展也促進(jìn)了數(shù)據(jù)庫(kù)與其它新興技術(shù)的融合,提升了數(shù)據(jù)庫(kù)安全性和智能性。來(lái)源:中興通訊股份有限公司,2023年6月圖16FPGA與GPU技術(shù)發(fā)展歷程示意圖數(shù)據(jù)庫(kù)技術(shù)方面,新型硬件使得數(shù)據(jù)庫(kù)在數(shù)據(jù)計(jì)算、數(shù)據(jù)存儲(chǔ)GPUFPGA、專用芯片等,可以實(shí)現(xiàn)并行優(yōu)化、事務(wù)并發(fā)控制、查詢加速、數(shù)據(jù)NVM的出現(xiàn)和發(fā)展,內(nèi)存和外存的界限變得模糊,存儲(chǔ)及索引設(shè)計(jì)得到CXL能表現(xiàn)和CPU,新型硬件對(duì)于不同架構(gòu)類型的數(shù)據(jù)庫(kù)產(chǎn)生不同影響。一是使得集中式關(guān)系型數(shù)據(jù)庫(kù)網(wǎng)絡(luò)架構(gòu)更加便捷、建設(shè)成本更加低廉。二是使得分布式數(shù)據(jù)庫(kù)、云原生數(shù)據(jù)庫(kù)等具來(lái)源:GPU數(shù)據(jù)庫(kù)核心技術(shù)綜述圖17GDBMS系統(tǒng)全景圖GPU計(jì)算為核心的數(shù)據(jù)庫(kù)技術(shù)(GDBMS)受到廣泛GDBMS按照商業(yè)模式分為研究原型(R-GDBMS:forresearch)和商用系統(tǒng)(C-GDBMS:forcommercial)兩大類,其中商用GDBMS支持GPU計(jì)算的傳統(tǒng)數(shù)據(jù)庫(kù)、二是非內(nèi)存型GDBMS使用GPU完成全部或者大部分?jǐn)?shù)據(jù)庫(kù)關(guān)系運(yùn)算、三是內(nèi)存行GDBMS內(nèi)存型GDBMS7。AI與數(shù)據(jù)庫(kù)融合迸發(fā)無(wú)限潛力AI2023年AIGCAI式AI7裴威,李戰(zhàn)懷,潘巍.GPU數(shù)據(jù)庫(kù)核心技術(shù)綜述.軟件學(xué)報(bào),2021,32(3):859?885.程度簡(jiǎn)化人員操作,提高開發(fā)、運(yùn)維、分析的效率。2022年12月,數(shù)據(jù)庫(kù)自動(dòng)化和優(yōu)化平臺(tái)OtterTune宣布推出OtterTuneV1.5,2023Databricks將大型語(yǔ)言模型(LLMs)SQL和MLflow2.3,國(guó)內(nèi)Bytebase5月推出基于對(duì)話式交互的SQL客戶SQLChatSQL互相轉(zhuǎn)換的數(shù)據(jù)庫(kù)開發(fā)工具Chat2DB。另一方面,多模態(tài)數(shù)據(jù)存儲(chǔ)和計(jì)算的需求隨著大語(yǔ)言模型出現(xiàn)而劇增,向量數(shù)據(jù)庫(kù)在構(gòu)建基于大語(yǔ)言模型的行業(yè)智能應(yīng)用中扮演著重要角色。2023Qdrant、Pinecone、Weaviate、Milvus等特化的向量數(shù)據(jù)庫(kù)備受關(guān)注外,許多數(shù)據(jù)庫(kù)廠商也開始在原有產(chǎn)品上拓展向量檢索的能力,2023年以來(lái),AWSRDSPostgreSQL和阿里云PostgreSQL1415版本新增支持pgvectorRocksetCosmosDB隨著以ChatGPT為代表的AIGC業(yè)者不斷思考AIGCAIGC來(lái)源:CCSATC601,2023年6月圖18AIGC為數(shù)據(jù)庫(kù)運(yùn)維提供建議的示例數(shù)據(jù)庫(kù)開發(fā)與分析方面,數(shù)據(jù)庫(kù)開發(fā)者和數(shù)據(jù)分析師可以通過(guò)SQL開發(fā)與操作。數(shù)據(jù)庫(kù)性能優(yōu)化方面來(lái)看,AIGC技術(shù)可以對(duì)數(shù)據(jù)對(duì)象或查詢語(yǔ)句進(jìn)行優(yōu)化,提供一些通用性建議,同時(shí)可以根據(jù)具體來(lái)源:CCSATC601,2023年6月圖19AIGC為數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)提供建議的示例技術(shù)可以幫助DBA面來(lái)看,用戶可以根據(jù)自身需求用自然語(yǔ)言進(jìn)行場(chǎng)景描述,技術(shù)能夠提出推薦的數(shù)據(jù)庫(kù)選型建議。當(dāng)用戶向大語(yǔ)言模型提供一定性能要求后,AIGC技術(shù)還可以反饋推薦的規(guī)格和潛在架構(gòu)優(yōu)化來(lái)源:CCSATC601,2023年6月圖20AIGC對(duì)數(shù)字進(jìn)行判斷的示例AIGC技術(shù)十分消耗算力,未來(lái)硬件發(fā)展使得數(shù)據(jù)庫(kù)算力不斷提升的同時(shí),也會(huì)進(jìn)一步激發(fā)數(shù)據(jù)庫(kù)潛能。此外,最近同樣火熱的向量數(shù)據(jù)庫(kù)迅速發(fā)展,有效支持多模態(tài)數(shù)據(jù)的存儲(chǔ)、索引和查詢。隨著近幾年大語(yǔ)言模型(LLM)的發(fā)展也擴(kuò)展了向量數(shù)據(jù)庫(kù)的應(yīng)用場(chǎng)景,AI4DB技術(shù)將會(huì)更快地在向量數(shù)據(jù)庫(kù)中落地。云計(jì)算成為數(shù)據(jù)庫(kù)重要驅(qū)動(dòng)力云被視為數(shù)字化轉(zhuǎn)型的高度戰(zhàn)略性平臺(tái),云計(jì)算成為數(shù)據(jù)庫(kù)發(fā)展的重要驅(qū)動(dòng)力。數(shù)據(jù)庫(kù)產(chǎn)品及生態(tài)工具上云成為趨勢(shì),從全球范目前,ElasticsearchMongoDBDatabricksSnowflakeCleverCloud、Aiven等公有云廠商開展合作。從國(guó)內(nèi)范圍看,近兩年部分?jǐn)?shù)據(jù)庫(kù)產(chǎn)品及生態(tài)公司如新數(shù)科技ShinDataDMP、沃趣科技QFusion、飛輪科技SelectDB、玖章算術(shù)Ninedata、濤思數(shù)據(jù)TDengine技NebulaGraphDBaaSDBaaS提供彈性靈活的數(shù)據(jù)庫(kù)管理解決方案,助力企業(yè)降本增DBaaSOracleMongoDB谷歌、阿里巴巴、SAP、RedisLabs、IBM、騰訊、EnterpriseDB、RackspaceDatabaseServiceforAzure,旨在為其共同客戶的應(yīng)用遷移上云降低復(fù)雜性,更是為OCI(OracleCloudInfrastructure)在DBaaS方面與AWS的競(jìng)爭(zhēng)提供支撐。根據(jù)Forrester調(diào)查數(shù)據(jù)顯示8,33%的全球基礎(chǔ)設(shè)施業(yè)務(wù)決策者已經(jīng)在生產(chǎn)環(huán)境中部署DBaaSDBaaS技術(shù)的普及和成熟,DBaaS供應(yīng)商逐步提供一些創(chuàng)新功能。例如通過(guò)人工智能技術(shù)實(shí)現(xiàn)數(shù)據(jù)庫(kù)部署、運(yùn)維、管理全流程的自動(dòng)化,減少人為干預(yù)的同時(shí)加快部署,幫助企業(yè)迅速構(gòu)建和支持龐大且更復(fù)雜的業(yè)務(wù)應(yīng)用程序和操作型系統(tǒng)。速發(fā)展,云原生數(shù)據(jù)庫(kù)取得不斷進(jìn)步。越來(lái)越多的云原生數(shù)據(jù)庫(kù)通過(guò)存儲(chǔ)計(jì)算分離架構(gòu),實(shí)現(xiàn)資源池化和極致彈性,具備高擴(kuò)展性、高可用性、跨地域規(guī)模、低成本等優(yōu)勢(shì),可為用戶提供真正具備秒級(jí)智能彈性擴(kuò)容能力、隨需而動(dòng)的云原生數(shù)據(jù)庫(kù)服務(wù)。云原生數(shù)據(jù)庫(kù)Serverless關(guān)鍵技術(shù)以底層池化資源為基礎(chǔ),利用RDMA高性能8《TheForresterWave?:Database-As-A-Service,Q22019》高性能、低成本的Serverless能力。ServerlessAPI形式提供,無(wú)需運(yùn)維同時(shí)用戶也無(wú)需關(guān)注后端使用情況。服務(wù)還能實(shí)現(xiàn)是實(shí)時(shí)彈性擴(kuò)縮容,用戶可以像使用自來(lái)水一樣按使用量進(jìn)行付費(fèi)。最初的云數(shù)據(jù)庫(kù)主要是模仿線下數(shù)據(jù)庫(kù)使用方式,為用戶提供數(shù)據(jù)庫(kù)托管服務(wù)。但云上主機(jī)的型號(hào)選擇并不靈活,很難根據(jù)用戶業(yè)務(wù)及資源需求進(jìn)行協(xié)調(diào)。云原生數(shù)據(jù)庫(kù)計(jì)算和存儲(chǔ)分離的架構(gòu)很Serverless些Serverless來(lái)源:《Serverless數(shù)據(jù)庫(kù)技術(shù)研究報(bào)告》圖21一種計(jì)算、內(nèi)存、存儲(chǔ)三層解耦架構(gòu)示意圖云原生數(shù)據(jù)庫(kù)可以廣泛應(yīng)用在可變工作負(fù)載或不可預(yù)測(cè)的工作負(fù)載場(chǎng)景中,使得用戶無(wú)需按峰值容量或平均容量預(yù)置,從而避免公有云廠商發(fā)布數(shù)據(jù)管理服務(wù)助力數(shù)據(jù)價(jià)值不斷放大,數(shù)據(jù)庫(kù)企業(yè)收購(gòu)初創(chuàng)公司布局IDE202212re:Invent全球大會(huì)上推出數(shù)據(jù)管理服務(wù)Amazon2020Databricks和ClickHouse后收購(gòu)數(shù)據(jù)庫(kù)生態(tài)工具廠商Compass、RedashArctype。國(guó)內(nèi)PingCAP創(chuàng)始人也投資了數(shù)據(jù)庫(kù)開發(fā)工具企業(yè)Bytebase。各廠商著力打造自己的數(shù)據(jù)庫(kù)IDE(二)技術(shù)融合護(hù)航數(shù)據(jù)要素安全流通數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)要素被列為和土地、資本、技術(shù)和勞動(dòng)力并列的第五大生產(chǎn)要素。在交易流通過(guò)程中數(shù)據(jù)要素的安全如何保障成為當(dāng)前技術(shù)決策者重點(diǎn)關(guān)注的問(wèn)題。數(shù)據(jù)安全與數(shù)據(jù)流通的關(guān)系好比矛與盾,更多地流通意味著更多的數(shù)據(jù)通道暴露,也為數(shù)據(jù)安全帶來(lái)更大挑戰(zhàn)。隱私計(jì)算、區(qū)塊鏈及圖技術(shù)等與數(shù)據(jù)庫(kù)技術(shù)的結(jié)合為數(shù)據(jù)流通提供了更加安全可靠的解決方案。隱私計(jì)算保障密態(tài)數(shù)據(jù)安全流通隱私計(jì)算技術(shù)與數(shù)據(jù)庫(kù)相結(jié)合產(chǎn)生的全密態(tài)數(shù)據(jù)庫(kù)能夠解決數(shù)據(jù)全生命周期的隱私保護(hù)問(wèn)題,使得系統(tǒng)無(wú)論在何種環(huán)境下,數(shù)據(jù)在傳輸、運(yùn)算以及存儲(chǔ)的各個(gè)環(huán)節(jié)始終都處于密文狀態(tài)。全密態(tài)數(shù)據(jù)庫(kù)是指能夠提供對(duì)應(yīng)用透明的加解密能力,在數(shù)據(jù)庫(kù)系統(tǒng)中數(shù)據(jù)的全生命周期以密文形式進(jìn)行處理,同時(shí)密鑰掌握在授權(quán)用戶手中的數(shù)據(jù)庫(kù)管理系統(tǒng)。當(dāng)數(shù)據(jù)擁有者在客戶端完成數(shù)據(jù)加密并發(fā)送給服務(wù)端后,在攻擊者(包括黑客、超級(jí)用戶等任何角色)借助系統(tǒng)脆弱點(diǎn)竊取用戶數(shù)據(jù)的狀態(tài)下仍然無(wú)法獲得有效的價(jià)值信息,從而起到保護(hù)數(shù)據(jù)隱私的作用。來(lái)源:CCSATC601,2023年6月圖22全密態(tài)數(shù)據(jù)庫(kù)發(fā)展歷程圖目前,全密態(tài)數(shù)據(jù)庫(kù)發(fā)展尚處于早期階段。2022年,CCSATC601GaussDB、阿里云PolarDB以及螞蟻科技集團(tuán)的螞蟻鏈數(shù)鏡產(chǎn)品較為成熟,其中華為云全密態(tài)數(shù)據(jù)庫(kù)已在華為公司流程ITERP區(qū)塊鏈技術(shù)賦能數(shù)據(jù)資產(chǎn)高度可信近年來(lái),隨著數(shù)據(jù)資產(chǎn)可信流動(dòng)的需求不斷增強(qiáng),業(yè)界對(duì)于數(shù)據(jù)全向追蹤管理、防止數(shù)據(jù)篡改與作弊、實(shí)現(xiàn)多方認(rèn)同的需求越來(lái)越迫切。區(qū)塊鏈技術(shù)具有數(shù)據(jù)防篡改、數(shù)據(jù)可追溯、信息全透明、多方地位平等以及數(shù)據(jù)可共享的技術(shù)特征,是數(shù)據(jù)資產(chǎn)可信流動(dòng)的必要技術(shù)保障,是數(shù)字世界不可或缺的根基。區(qū)塊鏈技術(shù)能夠很好地彌補(bǔ)當(dāng)前數(shù)據(jù)庫(kù)缺乏防篡改能力、無(wú)法驗(yàn)證篡改行為、不具備抗抵賴性等問(wèn)題,二者相結(jié)合形成的多方可信防篡改數(shù)據(jù)庫(kù)技術(shù)方案能夠更好地保障云上數(shù)據(jù)可信運(yùn)維。表5防篡改數(shù)據(jù)庫(kù)典型產(chǎn)品企業(yè)名稱產(chǎn)品名稱特性華為GaussDB(foropenGauss)保障數(shù)據(jù)在云上的增、刪、改全生命周期可追溯、可校驗(yàn),為數(shù)據(jù)完整性提供更強(qiáng)有力的保護(hù),極大降低用戶使用門檻和業(yè)務(wù)切換的難度,全方位實(shí)時(shí)保障企業(yè)數(shù)據(jù)安全。阿里云Lindorm防篡改數(shù)據(jù)庫(kù)不可抵賴等完整性保證能力,并可結(jié)合三方簽名服務(wù)使數(shù)據(jù)具備司法效力。結(jié)合Lindorm自身寬表、時(shí)序、計(jì)算、搜索、時(shí)空等多模引擎能力,在金融政企、供應(yīng)鏈、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)等領(lǐng)域,提供一體化、全方位、高可信的解決方案。微軟SQLServer通過(guò)實(shí)現(xiàn)加密保護(hù)和提供安全衛(wèi)士(SecuritySentinel)支持防止數(shù)據(jù)篡改,同時(shí)提供身份驗(yàn)證、授權(quán)、審計(jì)、角色管理等安全控制功能OracleOracleDatabase身份驗(yàn)證、審計(jì)和訪問(wèn)控制等多種安全特性,可幫助用戶實(shí)現(xiàn)防篡改和數(shù)據(jù)保護(hù)。IBMIBMDB2必須的域限制等,同時(shí)還支持訪問(wèn)控制和審計(jì),以提高數(shù)據(jù)的安全性。來(lái)源:CCSATC601,2023年6月目前數(shù)據(jù)庫(kù)與區(qū)塊鏈相結(jié)合的技術(shù)主要分為兩類技術(shù)路徑,一是單中心賬本方案,采用區(qū)塊鏈技術(shù)增強(qiáng)數(shù)據(jù)庫(kù)防篡改特性,可以通過(guò)加密驗(yàn)證,不可變且透明,易用性較高。二是多方共識(shí)防篡改方案(即聯(lián)盟鏈):有準(zhǔn)入機(jī)制的多方參與聯(lián)盟鏈,聯(lián)盟鏈成員使用多方共識(shí)共同維護(hù)鏈上數(shù)據(jù),使用數(shù)據(jù)庫(kù)增加數(shù)據(jù)存儲(chǔ)、處理能力。業(yè)界主要技術(shù)方案包括僅插入賬本、可更新賬本以及聯(lián)盟鏈方案。來(lái)源:華為云計(jì)算技術(shù)有限公司圖23業(yè)界防篡改數(shù)據(jù)庫(kù)方案對(duì)比未來(lái),區(qū)塊鏈技術(shù)與數(shù)據(jù)庫(kù)技術(shù)結(jié)合將產(chǎn)生更多火花。區(qū)塊鏈技術(shù)和數(shù)據(jù)庫(kù)技術(shù)與可信硬件、高性能共識(shí)、KMS、零知識(shí)證明等技術(shù)不斷融合,硬件可信賬本、多方可信數(shù)據(jù)庫(kù)、三方可信賬本以及端側(cè)可信賬本等新興技術(shù)將會(huì)為信息技術(shù)發(fā)展帶來(lái)更多機(jī)會(huì)。圖聯(lián)邦學(xué)習(xí)技術(shù)打破圖數(shù)據(jù)孤島圖聯(lián)邦技術(shù)是為了解決數(shù)據(jù)孤島、隱私保護(hù)和數(shù)據(jù)安全問(wèn)題提出的概念,在保護(hù)用戶隱私和公司數(shù)據(jù)的前提下,更好地發(fā)揮數(shù)據(jù)(Graph圖24一種圖聯(lián)邦數(shù)據(jù)庫(kù)方案架構(gòu)示例(Metcalfe’slaw)9素的制約,傳統(tǒng)的圖數(shù)據(jù)庫(kù)?能緩解企業(yè)內(nèi)部部門之間的“數(shù)據(jù)孤”圖25一種圖聯(lián)邦數(shù)據(jù)庫(kù)應(yīng)用架構(gòu)示例9一個(gè)網(wǎng)絡(luò)的價(jià)值等于該網(wǎng)絡(luò)內(nèi)節(jié)點(diǎn)數(shù)的平方。即一個(gè)網(wǎng)絡(luò)的價(jià)值和這個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)的平方成正比。圖聯(lián)邦數(shù)據(jù)庫(kù)可以應(yīng)用于社交網(wǎng)絡(luò)分析、推薦系統(tǒng)、金融風(fēng)險(xiǎn)管理、生命科學(xué)等場(chǎng)景。目前,圖聯(lián)邦數(shù)據(jù)庫(kù)在應(yīng)用方面仍面臨數(shù)據(jù)安全、法律合規(guī)以及底層數(shù)據(jù)庫(kù)性能方面的挑戰(zhàn)。如何在保證數(shù)據(jù)安全、保證合法合規(guī)的前提下進(jìn)行數(shù)據(jù)共享,是圖聯(lián)邦數(shù)據(jù)庫(kù)需要解決的重點(diǎn)問(wèn)題之一。(三)技術(shù)革新賦能新興業(yè)務(wù)場(chǎng)景近年來(lái),隨著人工智能、云計(jì)算等技術(shù)不斷發(fā)展,以及組織數(shù)2023AI大模型催生向量數(shù)據(jù)庫(kù)新應(yīng)用文本、圖像、音視頻等海量的非結(jié)構(gòu)化數(shù)據(jù)占數(shù)據(jù)總量不斷上2025模型(LLM)LLM中,向量數(shù)據(jù)庫(kù)可用于存儲(chǔ)LLM(Embeddings)。通過(guò)存儲(chǔ)數(shù)十億個(gè)表示LLM來(lái)源:CCSATC601,20236月圖26向量數(shù)據(jù)庫(kù)關(guān)鍵技術(shù)及應(yīng)用場(chǎng)景示意隨著向量數(shù)據(jù)庫(kù)關(guān)注度持續(xù)上升,眾多傳統(tǒng)數(shù)據(jù)庫(kù)企業(yè)陸續(xù)投70%在一級(jí)市場(chǎng)上獲得眾多投資者青睞。國(guó)內(nèi)愛可生向量數(shù)據(jù)庫(kù)TensorDB完成與昇騰AIAI完成深度優(yōu)化,達(dá)到索引速度10倍提升的效果。表6向量數(shù)據(jù)庫(kù)企業(yè)投融資情況產(chǎn)品名稱所屬組織產(chǎn)品發(fā)布時(shí)間投融資日期MilvusZilliz2019年開源202286000萬(wàn)美元融資Vearch京東2019年10月/TensorDB愛可生2020年2021年完成B輪融資近億人民幣Om-iBASE聯(lián)匯科技2020年2022年1月完成B++輪融資PineconePinecone2021年4月2023年4月B輪融資1億美元WeaviateWeaviate2020年5月2023年4月B輪融資5千萬(wàn)美元QdrantQdrant2023年2月2023年4月750萬(wàn)美金種子融資ChromaChroma2023年2月2023年4月1800萬(wàn)美金融資來(lái)源:CCSATC601,2023年6月復(fù)用基礎(chǔ)設(shè)施、與GPU等硬件相結(jié)合、與Huggingface、OpenAI等大模型生態(tài)對(duì)接和標(biāo)量執(zhí)行引擎研發(fā)等方面不斷向更加完善的向圖分析技術(shù)洞察數(shù)據(jù)連接新價(jià)值隨著數(shù)據(jù)自身豐富度不斷增加,數(shù)據(jù)之間的關(guān)聯(lián)性以及如何有效分析和處理數(shù)據(jù)之間的復(fù)雜關(guān)系成為從業(yè)人員研究的重點(diǎn)。當(dāng)前圖分析技術(shù)研究熱點(diǎn)主要聚焦在圖計(jì)算以及圖神經(jīng)網(wǎng)絡(luò)兩個(gè)方面。來(lái)源:CCSATC601,20236月圖27圖計(jì)算平臺(tái)分類方式及典型產(chǎn)品Synchronous模型和Pregel模型。BSP模型是一種同步計(jì)算模型,將計(jì)算任務(wù)劃Pregel模型是一種異步計(jì)算模型,將計(jì)算任務(wù)劃分成多個(gè)迭代步驟,每個(gè)來(lái)源:Graphneuralnetworks:Areviewofmethodsandapplications圖28GNN模型的一般設(shè)計(jì)流程圖神經(jīng)網(wǎng)絡(luò)(GNN)也是當(dāng)前圖機(jī)器學(xué)習(xí)最火的分類之一。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)主要是基于歐幾里得空間的向量數(shù)據(jù),其輸入數(shù)據(jù)是經(jīng)過(guò)預(yù)處理后的向量,通過(guò)層層傳遞計(jì)算,最終輸出一個(gè)預(yù)測(cè)結(jié)果。而在圖數(shù)據(jù)中,節(jié)點(diǎn)之間的關(guān)系通常是非線性的,所以需要一種能夠處理圖數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型,即圖神經(jīng)網(wǎng)絡(luò),它主要應(yīng)用于節(jié)點(diǎn)分類、圖分類、鏈接預(yù)測(cè)等任務(wù)中。盡管GNN在諸多領(lǐng)域取得巨大成就,但GNN模型在在魯棒性、可解釋性、圖預(yù)訓(xùn)練以及復(fù)雜圖結(jié)構(gòu)方面仍面臨多重挑戰(zhàn)10。目前,一些圖數(shù)據(jù)庫(kù)已提供原生的圖分析能力,無(wú)需將數(shù)據(jù)導(dǎo)出到外部計(jì)算平臺(tái),在圖數(shù)據(jù)庫(kù)內(nèi)部即可完成圖分析任務(wù)。相比于依賴外部計(jì)算平臺(tái)的架構(gòu),原生的圖分析可以免去同外部計(jì)算平臺(tái)進(jìn)行數(shù)據(jù)導(dǎo)入和導(dǎo)出的巨大開銷,同時(shí)將計(jì)算的實(shí)時(shí)性由天或小時(shí)級(jí)別提高至分鐘級(jí)甚至秒級(jí)。隨著算力不斷提升以及大模型技術(shù)持10JieZhou,GanquCui,ShengdingHu,ZhengyanZhang,ChengYang,ZhiyuanLiu,LifengWang,ChangchengLi,MaosongSun,Graphneuralnetworks:Areviewofmethodsandapplications,AIOpen,Volume1,2020,Pages57-81,ISSN2666-6510.續(xù)發(fā)展,圖計(jì)算技術(shù)與圖神經(jīng)網(wǎng)絡(luò)技術(shù)將會(huì)讓圖數(shù)據(jù)的價(jià)值進(jìn)一步得到釋放。時(shí)空數(shù)據(jù)庫(kù)釋放時(shí)空數(shù)據(jù)新潛能時(shí)空數(shù)據(jù)指在統(tǒng)一的時(shí)空參考下地球或者其它星體上的所有與80%的11來(lái)源:CCSATC601,20236月圖29國(guó)內(nèi)外典型時(shí)空數(shù)據(jù)庫(kù)產(chǎn)品時(shí)空數(shù)據(jù)庫(kù)主要針對(duì)矢量、柵格、瓦片、軌跡、三維模型和激各家數(shù)據(jù)庫(kù)廠商也面向不同需求開出了不同的引擎。國(guó)外如Refractions基于PostgreSQLPostGIS可以對(duì)矢量、柵格及三維模型數(shù)據(jù)進(jìn)行處理,OracleSpatial可以對(duì)全量空間數(shù)據(jù)類型進(jìn)行處理。國(guó)內(nèi)以阿里云Ganos引擎和星環(huán)Spacture為代表,在傳統(tǒng)數(shù)11Franklin,CarlandPaulaHane,“AnintroductiontoGIS:linkingmapstodatabases,”Database.15(2)April,1992,17-22.據(jù)庫(kù)基礎(chǔ)上增加了對(duì)于時(shí)空數(shù)據(jù)的動(dòng)態(tài)感知能力,更好地對(duì)于時(shí)空數(shù)據(jù)進(jìn)行處理分析以支撐決策。時(shí)空數(shù)據(jù)庫(kù)能夠通過(guò)一庫(kù)統(tǒng)管的方式對(duì)于不同格式的數(shù)據(jù)進(jìn)行2023處理、與AIGC三、數(shù)據(jù)庫(kù)行業(yè)應(yīng)用情況綜述數(shù)據(jù)庫(kù)是應(yīng)用系統(tǒng)運(yùn)行的關(guān)鍵基礎(chǔ)軟件,近些年隨著各行業(yè)數(shù)字化轉(zhuǎn)型不斷加速,我國(guó)數(shù)據(jù)庫(kù)正朝著由邊緣系統(tǒng)至核心系統(tǒng)、由重點(diǎn)行業(yè)向全行業(yè)應(yīng)用鋪開,下文以金融、電信及制造業(yè)為例,分別闡述我國(guó)數(shù)據(jù)庫(kù)應(yīng)用創(chuàng)新實(shí)踐情況。(一)金融行業(yè)核心系統(tǒng)改造升級(jí)進(jìn)度加快數(shù)據(jù)庫(kù)作為金融系統(tǒng)的核心基礎(chǔ)設(shè)施,歷經(jīng)數(shù)十年發(fā)展,為金從技術(shù)架構(gòu)看,金融行業(yè)使用的數(shù)據(jù)庫(kù)仍以集中式為主,分布式數(shù)據(jù)庫(kù)在中大型金融機(jī)構(gòu)形成了有力補(bǔ)充?!督鹑跇I(yè)數(shù)據(jù)庫(kù)供應(yīng)鏈安全發(fā)展報(bào)告(2022)》調(diào)研數(shù)據(jù)顯示,集中式數(shù)據(jù)庫(kù)在金融業(yè)總90%,集中式數(shù)據(jù)庫(kù)在金融科技數(shù)字化進(jìn)程中扮演重要角色。金融行業(yè)分布式數(shù)據(jù)庫(kù)總體占比達(dá)到7%,銀行業(yè)超過(guò)了17%,證券業(yè)和保險(xiǎn)業(yè)相對(duì)較低。此外,金融業(yè)逐步開始探索應(yīng)用云數(shù)據(jù)庫(kù),且主要以私有云為主,《金融業(yè)數(shù)據(jù)庫(kù)供應(yīng)鏈安全發(fā)展報(bào)告(2022)》調(diào)研數(shù)據(jù)顯示,云數(shù)據(jù)庫(kù)在金融業(yè)占比大致在3.97%。金融行業(yè)在近幾年的數(shù)據(jù)庫(kù)遷移改造中,集中式數(shù)據(jù)庫(kù)仍發(fā)揮著重要作用,新技術(shù)分布式和云原生成為新選擇,共同推進(jìn)了數(shù)據(jù)庫(kù)在金融行業(yè)的廣泛應(yīng)用實(shí)踐。除此之外,以圖數(shù)據(jù)庫(kù)為代表的新型數(shù)據(jù)庫(kù)近
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小課題申報(bào)書范例
- 課題申報(bào)研究計(jì)劃書模板
- 課題申報(bào)書查重
- 課題項(xiàng)目申報(bào)書怎么找
- 中醫(yī)護(hù)理課題申報(bào)書范文
- 課題申報(bào)書的撰寫及案例
- 決策咨詢課題申報(bào)書
- 合同范例去買
- 別墅商用租賃合同范本
- 語(yǔ)文課題的申報(bào)書
- 山東省淄博市周村區(qū)(五四制)2023-2024學(xué)年七年級(jí)下學(xué)期期中考試英語(yǔ)試題
- 2024至2030年中國(guó)蜜柚行業(yè)市場(chǎng)發(fā)展現(xiàn)狀及潛力分析研究報(bào)告
- 高達(dá)模型市場(chǎng)需求與消費(fèi)特點(diǎn)分析
- XX小學(xué)法治副校長(zhǎng)(派出所民警)法制教育課講稿
- 盤盤轉(zhuǎn)轉(zhuǎn)制作國(guó)風(fēng)標(biāo)簽(課件)六年級(jí)下冊(cè)勞動(dòng)
- 人音版音樂一年級(jí)上冊(cè)第3課《國(guó)旗國(guó)旗真美麗》說(shuō)課稿
- 《工程勘察設(shè)計(jì)收費(fèi)標(biāo)準(zhǔn)》(2002年修訂本)-工程設(shè)計(jì)收費(fèi)標(biāo)準(zhǔn)2002修訂版
- 腸系膜上動(dòng)脈栓塞護(hù)理查房課件
- DL∕T 2528-2022 電力儲(chǔ)能基本術(shù)語(yǔ)
- 產(chǎn)品研發(fā)指導(dǎo)專家聘用協(xié)議書
- 【正版授權(quán)】 IEC 60268-5:2003/AMD1:2007 EN-FR Amendment 1 - Sound system equipment - Part 5: Loudspeakers
評(píng)論
0/150
提交評(píng)論