AI行業(yè)專題研究報(bào)告_第1頁
AI行業(yè)專題研究報(bào)告_第2頁
AI行業(yè)專題研究報(bào)告_第3頁
AI行業(yè)專題研究報(bào)告_第4頁
AI行業(yè)專題研究報(bào)告_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

AI行業(yè)專題研究報(bào)告1.向量數(shù)據(jù)庫是什么:存儲(chǔ)向量的數(shù)據(jù)庫1.1.向量:AI的核心AI的全流程其實(shí)都是圍繞著向量的數(shù)學(xué)運(yùn)算。向量在人工智能(AI)中扮演著非常重要的角色,尤其在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域。以下是向量與AI的一些關(guān)系(來自O(shè)penAI):1、數(shù)據(jù)表示:在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中,數(shù)據(jù)通常以向量形式表示。例如,圖像可以表示為像素值的向量,文本可以表示為詞向量或句子向量;2、詞嵌入:在自然語言處理(NLP)中,詞嵌入技術(shù)(如Word2Vec,GloVe和BERT)將詞語轉(zhuǎn)換為多維向量,這有助于捕捉詞語之間的語義關(guān)系。這些向量表示可用于文本分類、情感分析、機(jī)器翻譯等任務(wù);3、神經(jīng)網(wǎng)絡(luò)權(quán)重:在深度學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置通常以向量和矩陣的形式存儲(chǔ)。在訓(xùn)練過程中,優(yōu)化算法(如梯度下降)會(huì)不斷更新這些權(quán)重向量,以最小化損失函數(shù);4、向量運(yùn)算:許多機(jī)器學(xué)習(xí)算法,如支持向量機(jī)(SVM)、K-近鄰(KNN)和主成分分析(PCA)等,都涉及到向量間的距離計(jì)算、內(nèi)積計(jì)算或其他向量運(yùn)算。這些運(yùn)算有助于找到數(shù)據(jù)中的模式或者對(duì)數(shù)據(jù)進(jìn)行分類;5、優(yōu)化和梯度:在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中,優(yōu)化算法(如梯度下降和Adam)通常使用梯度(一種向量),來更新模型參數(shù),從而找到損失函數(shù)的最小值。這有助于改進(jìn)模型的性能;6、強(qiáng)化學(xué)習(xí):在強(qiáng)化學(xué)習(xí)中,智能體使用向量表示狀態(tài)和動(dòng)作。例如,Q學(xué)習(xí)和深度Q網(wǎng)絡(luò)(DQN)中的Q值函數(shù)會(huì)輸出一個(gè)動(dòng)作向量,智能體根據(jù)這個(gè)向量選擇最佳動(dòng)作??傊蛄繉?duì)于AI至關(guān)重要。無論是之前的CNN、RNN模型還是當(dāng)前火熱的Transformer,內(nèi)部的數(shù)據(jù)流轉(zhuǎn)其實(shí)都是向量的處理和變化。而高維空間向量所隱含的海量信息也造就了AI應(yīng)用的非凡潛力。單就數(shù)據(jù)而言,只有向量化之后的數(shù)據(jù)才能被AI模型所分析。數(shù)據(jù)能夠被分類為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),其中,結(jié)構(gòu)化數(shù)據(jù)一般指可以使用關(guān)系型數(shù)據(jù)庫表示和存儲(chǔ)、可以用二維表來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù),典型的結(jié)構(gòu)化數(shù)據(jù)例如成績單、工資單等;非結(jié)構(gòu)化數(shù)據(jù)沒有固定的結(jié)構(gòu),包括文本、圖像、蛋白質(zhì)結(jié)構(gòu)、地理空間信息和物聯(lián)網(wǎng)數(shù)據(jù)流等。在人工智能時(shí)代,目前主流的對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理和處理的方法是,利用RNN或Transformer等嵌入模型(EmbeddingModel),將非結(jié)構(gòu)化數(shù)據(jù)的語義內(nèi)容轉(zhuǎn)化為高維、密集的向量嵌入(VectorEmbeddings),即多維向量,并直接對(duì)這些嵌入進(jìn)行存儲(chǔ)、處理。非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為嵌入后,其語義的相似性能夠通過向量空間點(diǎn)的距離進(jìn)行量化表示,并進(jìn)行常見的機(jī)器學(xué)習(xí)操作,如聚類、分類、推薦等。1.2.向量化:技術(shù)已經(jīng)充分?jǐn)U散向量化技術(shù)已經(jīng)十分成熟,并且存在大量的開源解決方案。盡管向量化這個(gè)詞對(duì)于大多數(shù)普通民眾而言較為陌生,但實(shí)際該技術(shù)早已成熟(目前大量應(yīng)用的Word2Vec發(fā)表在2013年),在不同的領(lǐng)域,存在不同的向量化的方案。需要注意的是,不同的領(lǐng)域,如文字、圖片、視頻等,向量化的技術(shù)是不同的。這些技術(shù)可以是諸如OpenAI等大模型廠商提供,也可以是諸如HuggingFace等中間層提供,當(dāng)然還有大量第三方廠商/開源提供。向量化數(shù)據(jù)有著高昂的計(jì)算成本,因此尋求存儲(chǔ)成本替代是必須的。向量化數(shù)據(jù)的計(jì)算成本主要來自數(shù)據(jù)預(yù)處理、特征提取和向量化表示的生成。這些過程通常涉及大量復(fù)雜數(shù)學(xué)運(yùn)算,如矩陣乘法、特征變換和統(tǒng)計(jì)計(jì)算等。在處理大規(guī)模數(shù)據(jù)集和高維數(shù)據(jù)時(shí),這些運(yùn)算可能會(huì)消耗大量的計(jì)算資源和時(shí)間。此外,許多機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法都需要對(duì)向量化數(shù)據(jù)進(jìn)行復(fù)雜的計(jì)算,如梯度下降、聚類和神經(jīng)網(wǎng)絡(luò)訓(xùn)練。這些計(jì)算任務(wù)通常需要強(qiáng)大的硬件支持,如高性能CPU和GPU,以及專用的深度學(xué)習(xí)加速器。相比之下,存儲(chǔ)成本主要受向量化數(shù)據(jù)的規(guī)模和維度影響。雖然高維向量和大規(guī)模數(shù)據(jù)集確實(shí)會(huì)導(dǎo)致存儲(chǔ)需求的增加,但存儲(chǔ)技術(shù)的不斷發(fā)展使得存儲(chǔ)成本相對(duì)較低。例如,現(xiàn)代硬盤和固態(tài)硬盤的存儲(chǔ)容量越來越大,同時(shí)價(jià)格也逐漸降低。此外,通過使用稀疏向量表示和數(shù)據(jù)壓縮技術(shù),我們可以進(jìn)一步降低存儲(chǔ)成本。更重要的是,隨著云計(jì)算技術(shù)的普及,企業(yè)和個(gè)人用戶可以按需購買存儲(chǔ)空間,使得存儲(chǔ)成本變得更加可承受。相比之下,計(jì)算資源的按需購買通常價(jià)格較高,尤其是在需要強(qiáng)大計(jì)算能力的場景中。綜上所述,向量化數(shù)據(jù)所需的計(jì)算成本遠(yuǎn)高于存儲(chǔ)成本。這主要是因?yàn)橛?jì)算任務(wù)通常涉及大量復(fù)雜數(shù)學(xué)運(yùn)算,而存儲(chǔ)成本可以通過優(yōu)化技術(shù)和云計(jì)算服務(wù)得到有效控制。1.3.向量數(shù)據(jù)庫:專門用來存儲(chǔ)和查詢向量的數(shù)據(jù)庫向量數(shù)據(jù)庫是專門用來存儲(chǔ)和查詢向量的數(shù)據(jù)庫。向量數(shù)據(jù)庫是一種專門用于存儲(chǔ)、管理、查詢、檢索向量(Vectors)的數(shù)據(jù)庫,主要應(yīng)用于人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域。同傳統(tǒng)數(shù)據(jù)庫相比,向量數(shù)據(jù)庫不僅能夠完成基本的CRUD(添加、讀取查詢、更新、刪除)、元數(shù)據(jù)過濾、水平縮放等操作,還能夠?qū)ο蛄繑?shù)據(jù)進(jìn)行更快速的相似性搜索。目前AI主流的大模型如Transformer、Clip、GPT等均能夠?qū)⑽谋?、圖像等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為高維向量,而伴隨大模型應(yīng)用場景的擴(kuò)展,這些高維向量數(shù)據(jù)的存儲(chǔ)、檢索將顯著帶動(dòng)向量數(shù)據(jù)庫的市場需求。向量數(shù)據(jù)庫的工作流程包括以下步驟:1、向量數(shù)據(jù)的存儲(chǔ):向量數(shù)據(jù)通常是高維的數(shù)值型數(shù)據(jù),如圖像特征向量、文本詞向量等;向量數(shù)據(jù)庫使用基于向量的存儲(chǔ)結(jié)構(gòu),以便快速查詢和處理;2、向量索引:向量數(shù)據(jù)庫使用PQ、LSH或HNSW等算法為向量編制索引,并將向量映射到數(shù)據(jù)結(jié)構(gòu),以便更快地進(jìn)行搜索;3、向量查詢:向量數(shù)據(jù)庫將查詢向量與數(shù)據(jù)庫中的向量進(jìn)行比較,從而找到最近鄰的向量;4、查詢結(jié)果的返回:向量數(shù)據(jù)庫返回查詢結(jié)果,通常包括與給定向量最相似的向量列表、向量之間的相似度得分等信息;該環(huán)節(jié)可以使用不同的相似性度量對(duì)最近鄰重新排序。向量數(shù)據(jù)庫能夠通過向量搜索(VectorSearch),實(shí)現(xiàn)更為高效、準(zhǔn)確的執(zhí)行和結(jié)果輸出。當(dāng)前主流的數(shù)據(jù)庫檢索采用關(guān)鍵詞搜索(KeywordSearch)的方式,將搜索關(guān)鍵詞與數(shù)據(jù)庫中的值進(jìn)行匹配,根據(jù)詞匯相似性、單詞出現(xiàn)的頻率,得到輸出結(jié)果。關(guān)鍵詞檢索的缺點(diǎn)在于,其對(duì)于語義相同、表達(dá)方式不同的文本理解能力較差,且不具備多模態(tài)或多語言的檢索能力。向量搜索利用神經(jīng)網(wǎng)絡(luò)模型,將對(duì)象(如文本和圖像)和查詢表示為高維向量,采用K近鄰法(KNN,K-NearestNeighbor)或近似臨近算法(ANN,ApproximateNearingNeighbor),計(jì)算目標(biāo)對(duì)象與數(shù)據(jù)庫中向量嵌入的距離(通常采用余弦距離、歐氏距離等方法)以表示兩者的相似度,并按照向量的相似度進(jìn)行排序,返回結(jié)果。同關(guān)鍵詞搜索相比,向量搜索能夠?qū)崿F(xiàn)對(duì)語義更為精準(zhǔn)的理解,在多模態(tài)、不同語言等環(huán)境下能夠輸出更為準(zhǔn)確的結(jié)果。例如:英文的Capital可以指“資本”或者“首都”,“從中國去美國”和“從美國去中國”存在方向,傳統(tǒng)的數(shù)據(jù)庫不能很好地解決這些問題。向量數(shù)據(jù)庫的主要特點(diǎn)和優(yōu)勢(shì)包括:1、高效的相似性搜索:向量數(shù)據(jù)庫通過優(yōu)化的索引結(jié)構(gòu)和查詢算法,能夠在大規(guī)模向量數(shù)據(jù)集中快速地找到與給定查詢向量相似的向量。這有助于實(shí)現(xiàn)實(shí)時(shí)或近實(shí)時(shí)的搜索和推薦功能;2、靈活的向量表示:向量數(shù)據(jù)庫通常支持各種向量表示方法,包括稠密向量(如詞嵌入)和稀疏向量(如詞袋模型和TF-IDF)。這使得向量數(shù)據(jù)庫可以處理各種類型的數(shù)據(jù),如文本、圖像、音頻和視頻等;3、可擴(kuò)展性:向量數(shù)據(jù)庫通常具有良好的可擴(kuò)展性,可以在多個(gè)計(jì)算節(jié)點(diǎn)上分布式存儲(chǔ)和查詢向量數(shù)據(jù)。這使得向量數(shù)據(jù)庫可以應(yīng)對(duì)大規(guī)模數(shù)據(jù)集和高并發(fā)查詢的需求;4、高級(jí)查詢功能:向量數(shù)據(jù)庫通常提供豐富的查詢功能,如相似性搜索、近似最近鄰查詢、向量加權(quán)查詢等。這使得向量數(shù)據(jù)庫在各種應(yīng)用場景中具有較高的靈活性和實(shí)用性。2.向量數(shù)據(jù)庫有什么用:給AI插上騰飛的翅膀2.1.拓展大模型的邊界:向量數(shù)據(jù)庫的核心應(yīng)用向量數(shù)據(jù)庫一個(gè)很重要的功能是拓展大模型的邊界。邊界又分為時(shí)間邊界和空間邊界。時(shí)間邊界的擴(kuò)展指的是向量數(shù)據(jù)庫能夠使得大模型LLM擁有“長期記憶”。眾所周知,目前的大模型(無論是NLP領(lǐng)域的GPT系列還是CV領(lǐng)域的ResNET系列)都是預(yù)先訓(xùn)練Pretrain的大模型,有著非常明晰的訓(xùn)練截止日Cut-offDate。這導(dǎo)致這些模型對(duì)于訓(xùn)練截止日之后發(fā)生的事情一無所知。而信息的價(jià)值隨著時(shí)間的流逝呈現(xiàn)出指數(shù)級(jí)下降,這也使得LLM在很多場景的適用性有限。隨著向量數(shù)據(jù)庫的引入,其內(nèi)部存儲(chǔ)的最新的信息向量能夠極大地拓展大模型的應(yīng)用邊界。向量數(shù)據(jù)庫可以使得大模型保持準(zhǔn)實(shí)時(shí)性,提高大模型的適用性,并使得大模型能夠動(dòng)態(tài)調(diào)整。也就是說,向量數(shù)據(jù)庫使得大模型的長期記憶得到了可能。例如,假設(shè)一個(gè)預(yù)訓(xùn)練的新聞?wù)P驮?021年底完成了訓(xùn)練。然而,到了2023年,許多新聞事件和趨勢(shì)已經(jīng)發(fā)生了變化。為了使大模型能夠處理這些新信息,可以使用向量數(shù)據(jù)庫來存儲(chǔ)和查詢2023年的新聞文章向量。通過這種方式,大模型可以根據(jù)最新的數(shù)據(jù)生成更準(zhǔn)確和相關(guān)的摘要。同樣,在推薦系統(tǒng)中,預(yù)訓(xùn)練的大模型可能無法識(shí)別新用戶和新產(chǎn)品的特征。通過向量數(shù)據(jù)庫,可以實(shí)時(shí)更新用戶和產(chǎn)品的特征向量,從而使大模型能夠根據(jù)最新的信息為用戶提供更精準(zhǔn)的推薦。此外,向量數(shù)據(jù)庫還可以支持實(shí)時(shí)監(jiān)測和分析。例如,在金融領(lǐng)域,預(yù)訓(xùn)練的股票預(yù)測模型可能無法獲取訓(xùn)練截止日期之后的股票價(jià)格信息。通過將最新的股票價(jià)格向量存儲(chǔ)在向量數(shù)據(jù)庫中,大模型可以實(shí)時(shí)分析和預(yù)測未來股票價(jià)格走勢(shì)。還有就是在客服領(lǐng)域,向量數(shù)據(jù)庫將使得大模型可以追溯到對(duì)話的開始。空間邊界的擴(kuò)展指的是向量數(shù)據(jù)庫能夠協(xié)助解決目前企業(yè)界最擔(dān)憂的大模型泄露隱私的問題。用戶給出的Prompt可能會(huì)包含一些敏感信息。根據(jù)媒體報(bào)道,員工A用ChatGPT幫自己查一段代碼的bug,而這段源代碼與半導(dǎo)體設(shè)備測量數(shù)據(jù)有關(guān);員工B想用ChatGPT幫自己優(yōu)化一段代碼,就直接將與產(chǎn)量和良品率記錄設(shè)備相關(guān)的一段代碼輸入了其中;員工C則先用AI語音助手NaverClova將自己的會(huì)議錄音轉(zhuǎn)成文字,再用ChatGPT幫他總結(jié)一下會(huì)議內(nèi)容,做成摘要。這些行為直接導(dǎo)致了三星關(guān)鍵數(shù)據(jù)的泄露。而ChatGPT本身其實(shí)也出現(xiàn)過隱私泄露事件,使得有一小部分的對(duì)話歷史/支付數(shù)據(jù)會(huì)被其他用戶查看。這些數(shù)據(jù)都極為敏感。通過本地部署,向量數(shù)據(jù)庫能夠在很大程度上解決這個(gè)問題。向量數(shù)據(jù)庫本地部署后可以存儲(chǔ)企業(yè)有關(guān)的大量隱私數(shù)據(jù)。在本地部署或者專有云部署大模型后,通過特別的Agent大模型可以在有保護(hù)的情況下訪問向量數(shù)據(jù)庫的隱私數(shù)據(jù),進(jìn)而可以在不向外網(wǎng)暴露公司的隱私的情況下,使得公司的業(yè)務(wù)得到大模型的助力。2.2.多模態(tài)搜索:向量數(shù)據(jù)庫的拿手好戲向量數(shù)據(jù)庫自帶多模態(tài)功能,這意味著它能夠通過機(jī)器學(xué)習(xí)方法處理和理解來自不同源的多種模態(tài)信息,如文本、圖像、音頻和視頻等。數(shù)據(jù)向量化過程使得這些不同模態(tài)數(shù)據(jù)的內(nèi)部隱藏信息得以暴露,進(jìn)而為多模態(tài)應(yīng)用提供支持。一個(gè)典型的應(yīng)用場景是多語言搜索。向量數(shù)據(jù)庫支持跨語言的信息檢索,用戶可以使用英語、法語、中文等多種語言搜索圖書庫,而無需事先對(duì)書名進(jìn)行多語言翻譯處理。這得益于向量表示能夠捕捉到語義相似性,使得來自不同語言的查詢和內(nèi)容能夠相互匹配。此外,向量數(shù)據(jù)庫還可以實(shí)現(xiàn)跨模態(tài)搜索,例如讓用戶用文字來搜索圖片。假設(shè)用戶用俄文搜索“藍(lán)色的鞋子”,盡管商品的標(biāo)題和描述都是英語,但向量數(shù)據(jù)庫仍然能夠返回顏色為藍(lán)色的鞋子商品的結(jié)果。這是因?yàn)橄蛄繑?shù)據(jù)庫能夠識(shí)別出不同模態(tài)數(shù)據(jù)之間的語義關(guān)聯(lián),進(jìn)而實(shí)現(xiàn)跨模態(tài)的信息檢索。2.3.近似搜索:給向量數(shù)據(jù)庫帶來巨大的商業(yè)化潛力即使不考慮需要LLM支持的邊界拓展型應(yīng)用和多模態(tài)搜索,近似搜索功能就可以給向量數(shù)據(jù)庫帶來巨大的商業(yè)化潛力。向量數(shù)據(jù)庫的近似搜索(ApproximateNearestNeighborSearch,簡稱ANNS)是一種在高維數(shù)據(jù)中查找與給定查詢向量相似的項(xiàng)的搜索方法。這種搜索方法的目標(biāo)是找到距離查詢向量最近的數(shù)據(jù)點(diǎn),即“最近鄰”。在向量數(shù)據(jù)庫中,數(shù)據(jù)經(jīng)過向量化處理后,每個(gè)數(shù)據(jù)點(diǎn)都會(huì)被表示為高維空間中的一個(gè)向量。當(dāng)我們需要查找與某個(gè)查詢向量相似的數(shù)據(jù)點(diǎn)時(shí),近似搜索算法會(huì)在這個(gè)高維空間中快速定位到與查詢向量距離較近的數(shù)據(jù)點(diǎn)。這種相似性度量通?;谙蛄恐g的距離(如歐氏距離、余弦相似性等)。由于在高維空間中進(jìn)行精確的最近鄰搜索非常耗時(shí),所以通常采用近似方法來加速搜索過程。近似搜索主要依賴于一些特定的算法和數(shù)據(jù)結(jié)構(gòu),如Locality-SensitiveHashing(LSH)、HierarchicalNavigableSmallWorld(HNSW)、Annoy等。這些算法和數(shù)據(jù)結(jié)構(gòu)能夠在犧牲一定精度的前提下顯著加速搜索速度,從而實(shí)現(xiàn)在大規(guī)模高維數(shù)據(jù)中的高效查找。近似搜索有著巨大的商業(yè)化潛力:1、推薦系統(tǒng):通過利用近似搜索功能,向量數(shù)據(jù)庫可以幫助推薦系統(tǒng)為用戶提供更精準(zhǔn)、更個(gè)性化的內(nèi)容推薦。這可以顯著提高用戶滿意度和使用時(shí)長,進(jìn)而提升商業(yè)價(jià)值;2、文本挖掘:在自然語言處理領(lǐng)域,向量數(shù)據(jù)庫的近似搜索功能可以幫助快速檢索相關(guān)文檔、發(fā)現(xiàn)隱含的話題和關(guān)鍵信息。這對(duì)于新聞分析、競爭情報(bào)、法律(特別是判例法)和市場研究等領(lǐng)域具有顯著的商業(yè)價(jià)值;3、圖像檢索:向量數(shù)據(jù)庫可以運(yùn)用近似搜索功能在海量圖像庫中快速查找與給定圖像相似的圖像,這對(duì)于廣告、設(shè)計(jì)、版權(quán)等領(lǐng)域具有重要應(yīng)用價(jià)值。通過快速、準(zhǔn)確地找到相關(guān)圖像,企業(yè)可以降低成本、提高工作效率;4、語音識(shí)別和處理:近似搜索功能可以應(yīng)用于語音識(shí)別和處理領(lǐng)域,幫助企業(yè)在語音數(shù)據(jù)庫中快速匹配相似語音片段。這對(duì)于客戶服務(wù)、語音助手和自動(dòng)翻譯等應(yīng)用具有顯著的商業(yè)潛力;5、生物信息學(xué):在生物信息學(xué)領(lǐng)域,近似搜索可以幫助研究人員在基因序列、蛋白質(zhì)結(jié)構(gòu)等復(fù)雜數(shù)字?jǐn)?shù)據(jù)中查找相似性。這可以加速新藥研發(fā)、疾病診斷和基因治療等領(lǐng)域的進(jìn)展,從而創(chuàng)造巨大的商業(yè)機(jī)會(huì)。實(shí)際上,印尼最大的電商之一Tokopedia就已經(jīng)部署了向量數(shù)據(jù)庫進(jìn)行近似搜索。之前Tokopedia采用基于ElasticSearch的關(guān)鍵詞搜索,這種搜索很難提取出搜索關(guān)鍵詞的內(nèi)在含義,主要權(quán)重在于詞頻。通過從關(guān)鍵詞搜索轉(zhuǎn)為基于向量的近似搜索,Tokopedia能夠更好地滿足用戶的搜索需求,進(jìn)行更精準(zhǔn)的商品推薦,智能化水平提升了10倍,從而大幅度地提升財(cái)務(wù)指標(biāo)。3.市場空間:向量數(shù)據(jù)庫五百億美元藍(lán)海市場待引爆海量數(shù)據(jù)爆發(fā)產(chǎn)生巨大數(shù)據(jù)庫需求。在互聯(lián)網(wǎng)化趨勢(shì)下,數(shù)據(jù)量呈爆炸式增長,同時(shí)隨著數(shù)據(jù)大集中、數(shù)據(jù)挖掘、商業(yè)智能、協(xié)同作業(yè)等大數(shù)據(jù)處理技術(shù)的日趨成熟,數(shù)據(jù)價(jià)值呈指數(shù)上升趨勢(shì)。根據(jù)Stastista,2022年全球創(chuàng)建、使用和存儲(chǔ)的數(shù)據(jù)量約為97ZB,預(yù)計(jì)到2025年數(shù)據(jù)量將達(dá)到181ZB,2021-2025年全球數(shù)據(jù)量復(fù)合增長率約為23%。數(shù)據(jù)量的爆發(fā)式增長為數(shù)據(jù)存儲(chǔ)、處理帶來更為龐大的需求。全球數(shù)據(jù)庫市場規(guī)模仍處在高速成長期。根據(jù)Gartner數(shù)據(jù),2021年全球數(shù)據(jù)庫市場規(guī)模接近800億美元(5201億人民幣),同比增長約20.3%,五年內(nèi)已實(shí)現(xiàn)市場規(guī)模翻倍。根據(jù)研究,預(yù)計(jì)到2026年,全球數(shù)據(jù)庫市場規(guī)模將達(dá)到2086億美元,2021-2026年復(fù)合增長率達(dá)到21.13%。關(guān)系型數(shù)據(jù)庫仍然占市場主導(dǎo),靈活拓展與高并發(fā)能力助力NoSQL數(shù)據(jù)庫騰飛。根據(jù)IDC報(bào)告,2017年至2022年,非關(guān)系型數(shù)據(jù)庫(DDMS)市場規(guī)模年復(fù)合增長率為30.94%,而關(guān)系型數(shù)據(jù)庫(RDBMS)復(fù)合增長率僅8.12%;但從市場規(guī)模看,關(guān)系型數(shù)據(jù)庫仍然占據(jù)主導(dǎo),83%的數(shù)據(jù)庫市場由關(guān)系型數(shù)據(jù)庫構(gòu)成。根據(jù)ScaleGrid2019年統(tǒng)計(jì),關(guān)系型與非關(guān)系型數(shù)據(jù)庫的用戶規(guī)模分別為60.5%和39.5%。根據(jù)IMARC,2022年全球NoSQL市場規(guī)模將達(dá)到73億美元,預(yù)計(jì)2023-2028年復(fù)合增長率將達(dá)到29.92%。未來,Not-only-SQL類型數(shù)據(jù)庫市場規(guī)模的增速將持續(xù)領(lǐng)先于傳統(tǒng)關(guān)系型數(shù)據(jù)庫。向量數(shù)據(jù)庫或?qū)⒂瓉沓?00億美元市場?;炯僭O(shè):1、參考Gartner、IDC的市場規(guī)模數(shù)據(jù),2021年全球數(shù)據(jù)庫市場規(guī)模為800億美元;2、到2030年,全球數(shù)據(jù)庫市場規(guī)模以18%的年復(fù)合增長率增長,即2030年全球數(shù)據(jù)庫市場規(guī)模約為3548億美元;3、參考NoSQL、云服務(wù)數(shù)據(jù)庫的占比,同時(shí)考慮到AI的快速滲透,假設(shè)2030年,NoSQL數(shù)據(jù)庫中向量數(shù)據(jù)庫占比將達(dá)到50%;根據(jù)上述假設(shè)我們得出,預(yù)計(jì)到2030年,全球向量數(shù)據(jù)庫市場規(guī)?;?qū)⑦_(dá)到522億美元。中國向量數(shù)據(jù)庫市場空間或?qū)⑦_(dá)到253-949億元。根據(jù)中國信通院數(shù)據(jù),2021年中國數(shù)據(jù)庫市場規(guī)模約為309億元,占全球數(shù)據(jù)庫800億美元市場的比重約為5.94%;預(yù)計(jì)到2025年,中國數(shù)據(jù)庫市場規(guī)模為688億元,2020-2025年復(fù)合增長率為23.4%,占全球數(shù)據(jù)庫市場的比重約為6.14%。根據(jù)IDC,2020年中國數(shù)據(jù)量規(guī)模約為7.92ZB,占全球總量的18%;預(yù)計(jì)到2025年,中國數(shù)據(jù)量規(guī)模將增至48.6ZB,占全球數(shù)據(jù)量的27.8%。中國數(shù)據(jù)量在全球的占比遠(yuǎn)超數(shù)據(jù)庫市場規(guī)模占比,錯(cuò)配情況較為明顯。基于上述數(shù)據(jù),我們做出如下假設(shè):1、到2030年,中國數(shù)據(jù)庫市場將以20%的年復(fù)合增長率增長,對(duì)應(yīng)2030年市場規(guī)模1711億人民幣,占全球數(shù)據(jù)庫市場的7.4%;2、中國向量數(shù)據(jù)庫市場占全球比重的下限≈中國數(shù)據(jù)庫市場占全球數(shù)據(jù)庫市場的比重,即7.4%;3、到2030年,中國數(shù)據(jù)量占全球數(shù)據(jù)量規(guī)模的比重維持在2025年水平;4、中國向量數(shù)據(jù)庫市場占全球比重的上限≈中國數(shù)據(jù)量占全球數(shù)據(jù)量的比重,即28%;根據(jù)上述假設(shè)我們得出,預(yù)計(jì)到2030年,中國向量數(shù)據(jù)庫市場規(guī)模或?qū)⑦_(dá)到39-146億美元,對(duì)應(yīng)253-949億人民幣。需要特別指出的是,相比于傳統(tǒng)數(shù)據(jù)庫,向量數(shù)據(jù)庫其實(shí)不止有存儲(chǔ)功能,也有一定的計(jì)算屬性,因此其TAM是可以擴(kuò)大的。4.全球主流向量數(shù)據(jù)庫介紹目前全球已有的向量數(shù)據(jù)庫產(chǎn)品主要包括Pinecone、Milvus、Weaviate、Vespa等。其中,超過70%的向量數(shù)據(jù)庫選擇了開源,超過一半的向量數(shù)據(jù)庫具有云化部署的能力,大部分向量數(shù)據(jù)庫產(chǎn)品在進(jìn)行ANN相似性搜索時(shí)采用HNSW(HierarchicalNavigableSmallWorld)算法。向量數(shù)據(jù)庫公司普遍以初創(chuàng)型企業(yè)為主,在一級(jí)市場上普遍獲得較多投資者的青睞。4.1.PineconePinecone擁有技術(shù)背景雄厚的工程團(tuán)隊(duì),先后上架Google云和AWS并打開市場。2019年,Pinecone創(chuàng)始人EdoLiberty創(chuàng)立Hypercube.ai,提供基于深度學(xué)習(xí)的多媒體搜索解決方案;2021年初,Hypercube.ai正式轉(zhuǎn)化為Pinecone,專注于向量數(shù)據(jù)庫領(lǐng)域研發(fā)。團(tuán)隊(duì)多數(shù)工程師出自Google、Databricks、Splunk等知名科技企業(yè)。公司創(chuàng)始人兼首席執(zhí)行官EdoLiberty獲得耶魯大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位,曾擔(dān)任Yahoo的高級(jí)研究總監(jiān)和紐約地區(qū)Yahoo研究實(shí)驗(yàn)室的負(fù)責(zé)人,后加入AWS帶領(lǐng)團(tuán)隊(duì)構(gòu)建了尖端的機(jī)器學(xué)習(xí)算法、系統(tǒng)和服務(wù)。2022年12月起,Pinecone先后上架GoogleCloud和AWS,用戶可以在Marketplace購買并使用Pinecone,在不改變基礎(chǔ)架構(gòu)的前提下,將AI技術(shù)支持的搜索加入到應(yīng)用程序。Pinecone通過借助平臺(tái)流量逐步提升產(chǎn)品知名度,有望進(jìn)一步打開銷售渠道,搶占市場份額。Pinecone是一個(gè)閉源、全托管、僅使用簡單API的云原生向量數(shù)據(jù)庫,大致劃分為核心索引、容器分布(containerdistribution)、云管理層三部分。Pinecone核心索引負(fù)責(zé)將來自第三方數(shù)據(jù)源的高維向量轉(zhuǎn)換成ML可讀取的格式。容器分布確保數(shù)據(jù)庫在收到查詢、更新和嵌入指令后,以延遲低于50毫秒的運(yùn)行狀態(tài)處理負(fù)載平衡、進(jìn)行數(shù)據(jù)復(fù)制、管理命名空間、分割數(shù)據(jù)庫。云管理層使得用戶在不安裝硬件的情況下,僅通過創(chuàng)建索引并導(dǎo)入向量數(shù)據(jù)就可實(shí)現(xiàn)查詢。此外,用戶可以使用API隨時(shí)隨地更新、查詢向量索引。公司經(jīng)歷了三次重要技術(shù)創(chuàng)新:1)技術(shù)團(tuán)隊(duì)在保證托管系統(tǒng)穩(wěn)定運(yùn)行,元數(shù)據(jù)與圖像遍歷(graphtraversal)相結(jié)合等條件下,研發(fā)出動(dòng)態(tài)、可過濾的圖形索引;2)原RocksDB存儲(chǔ)引擎達(dá)到極限后,團(tuán)隊(duì)構(gòu)建了全新的“memkey”向量存儲(chǔ),其在大型數(shù)據(jù)庫對(duì)生成對(duì)象的存儲(chǔ)速度超RocksDB10倍,降低30%-50%的運(yùn)營成本;3)基于C++和Python產(chǎn)出的代碼庫問題不斷,團(tuán)隊(duì)最終決心在Rust中重新搭建數(shù)據(jù)庫和開發(fā)環(huán)境的架構(gòu),有效提高了開發(fā)速度并降低了運(yùn)營事件概率。Pinecone數(shù)據(jù)庫擁有4F特性:快速(Fast)、實(shí)時(shí)(Fresh)、可過濾(Filtered)、全托管(Fully)。即使有數(shù)十億規(guī)模的數(shù)據(jù)存儲(chǔ),依然可以保持極低的查詢延遲。在增加、編輯和刪除數(shù)據(jù)時(shí),實(shí)時(shí)更新索引。向量搜索與元數(shù)據(jù)過濾相結(jié)合,提高查詢結(jié)果的相關(guān)性。平臺(tái)保證穩(wěn)定、安全的運(yùn)行環(huán)境,產(chǎn)品入門簡單、使用便利。操作流程可劃分創(chuàng)建索引(Index)、連接索引、插入索引、使用索引四步。通過創(chuàng)建一個(gè)索引對(duì)象,通常為json格式的數(shù)據(jù),將向量嵌入和元數(shù)據(jù)寫入到索引中,然后調(diào)用索引對(duì)象的方法來執(zhí)行相似性搜索或其他操作。Pinecone還提供了一些預(yù)定義的索引類型(IndexType),如ImageSearch,TextSearch等,可以讓開發(fā)者更容易地開始特定的用例。定價(jià)標(biāo)準(zhǔn):當(dāng)前存在初學(xué)者、標(biāo)準(zhǔn)、企業(yè)級(jí)三種模式。初學(xué)者版本使用免費(fèi),但僅限創(chuàng)建一個(gè)索引與一個(gè)計(jì)劃;標(biāo)準(zhǔn)版本適用于任何規(guī)模的生產(chǎn)應(yīng)用程序,支持將向量數(shù)據(jù)庫保存在集合中,能夠進(jìn)行自由索引,每月收費(fèi)70美元起;企業(yè)版本能夠?qū)崿F(xiàn)標(biāo)準(zhǔn)版本中的所有功能,并支持多個(gè)可用區(qū)以及24/7/265專屬支持服務(wù),每月收費(fèi)104美元起。Pinecone一級(jí)市場獲1.38億美元融資,估值超7億美元。2021年7月,Pinecone種子輪收到1000萬美元投資,投資方WingVentureCapita;2022年3月底,公司A輪融資2800萬美元,MenloVentures領(lǐng)投,TigerGlobal、WingVentureCapital跟投,公司估值達(dá)到1.68億美元。2022年底,伴隨ChatGPT推出而引發(fā)生成式AI開發(fā)熱,作為LLM“海馬體”的向量數(shù)據(jù)庫需求激增,開發(fā)者、投資者紛紛涌入向量數(shù)據(jù)庫賽道。截至2023年4月,公司B輪獲AndreessenHorowitz、ICONIQGrowth、MenloVentures、WingVentureCapital投資超1億美元,三輪融資總額達(dá)到1.38億美元,投后估值已升至7.5億美元。4.2.MilvusMilvus向量數(shù)據(jù)庫由中國創(chuàng)業(yè)團(tuán)隊(duì)ZilliZ研發(fā),并于2019年面世。Zilliz成立于2017年,擁有超過100名員工。通過向量數(shù)據(jù)庫Milvus,Zilliz與Nvidia、IBM、微軟、AWS等公司建立合作。目前開源Milvus已成為業(yè)界領(lǐng)先的向量數(shù)據(jù)庫解決方案,有~18000個(gè)GitHubStar。Milvus是一個(gè)基于云原生、開源的自托管向量數(shù)據(jù)庫。Milvus數(shù)據(jù)庫包含以下特點(diǎn):易于使用:借助Milvus向量數(shù)據(jù)庫,使用者可以在不到一分鐘的時(shí)間內(nèi)創(chuàng)建大規(guī)模的相似性搜索服務(wù);SDK簡單直觀,也可用于各種不同的語言;速度快:Milvus具有較高的硬件效率,并提供先進(jìn)的索引算法,檢索速度可提升10倍;高可用性:Milvus向量數(shù)據(jù)庫已成功在一千多名企業(yè)用戶中進(jìn)行了實(shí)戰(zhàn)測試,通過對(duì)各個(gè)系統(tǒng)組件的廣泛隔離,Milvus具有較高的彈性和可靠性;高度可擴(kuò)展性:Milvus的分布式和高通量特性使其面對(duì)大規(guī)模向量數(shù)據(jù)時(shí)能夠提供高效的服務(wù);云原生:Milvus向量數(shù)據(jù)庫采用系統(tǒng)化的云原生方法,將計(jì)算與存儲(chǔ)分離,并允許使用者橫向、縱向擴(kuò)展;功能豐富:Milvus支持各種數(shù)據(jù)類型、具有屬性過濾的增強(qiáng)向量搜索、UDF支持、可配置的一致性級(jí)別、時(shí)間旅行等。為了增強(qiáng)彈性和靈活性,Milvus由存儲(chǔ)層和計(jì)算層組成。該系統(tǒng)包括四個(gè)級(jí)別:接入層AccessLayer:接入層由一組無狀態(tài)代理組成,充當(dāng)用戶的系統(tǒng)和端點(diǎn)的前端;協(xié)調(diào)器服務(wù)Coordinatorservice:協(xié)調(diào)器服務(wù)將任務(wù)分配給工作節(jié)點(diǎn),并充當(dāng)系統(tǒng)的大腦;工作器節(jié)點(diǎn)Workernodes:工作器節(jié)點(diǎn)充當(dāng)人類的手臂和腿,是一種啞執(zhí)行器,遵循協(xié)調(diào)器服務(wù)的指令并執(zhí)行用戶觸發(fā)的數(shù)據(jù)管理語言DML/數(shù)據(jù)定義語言DDL命令;存儲(chǔ)Storage:存儲(chǔ)是系統(tǒng)的骨骼,確保數(shù)據(jù)可持續(xù)性,包括元存儲(chǔ)、日志代理和對(duì)象存儲(chǔ)。Zilliz目前已進(jìn)入B輪融資階段,獲得投資總額超1.13億美元。2022年8月24日,Milvus的開發(fā)者公司Zilliz宣布,已在其最初4300萬美元B輪融資基礎(chǔ)上追加了6000萬美元的融資。本輪融資由沙特石油巨頭AramcoVentures旗下多元化增長基金ProsperVentures領(lǐng)投,現(xiàn)有投資者Temasek'sPavilionCapital(淡馬錫)、HillhouseCapital(高瓴)、5YCapital和YunqiCapital(云啟資本)跟投。本輪融資后,公司的總?cè)谫Y額達(dá)1.13億美元,融資將用于支持其云矢量數(shù)據(jù)庫的工程設(shè)計(jì)和上市工作。4.3.VespaVespa由Oath開發(fā),發(fā)布之初被定義為一款開源的“大數(shù)據(jù)處理和服務(wù)引擎”,。2003年2月2日,Yahoo以1億美元收購Vespa前身——挪威搜索引擎公司AlltheWeb;2017年9月28日,由Yahoo和AOL業(yè)務(wù)合并后誕生的公司Oath宣布開源Vespa,并將代碼托管于GitHub。Vespa能夠部署于本地或云上,能夠?qū)崿F(xiàn)不同類型的搜索功能。作為開源的應(yīng)用,Vespa應(yīng)用程序可以部署在本地或VespaCloud上,并可以接入Java組件和PythonAPI。部署完成后,Vespa能夠?qū)崿F(xiàn)基于傳統(tǒng)BM25的信息檢索、向量最近鄰搜索、機(jī)器學(xué)習(xí)模型服務(wù)、問答、內(nèi)容推薦等功能。目前Vespa已被應(yīng)用于Oath的多個(gè)產(chǎn)品,包括Y、YahooNews、YahooSports、YahooFinance、YahooGemini、Flickr等,每日可以處理數(shù)十億個(gè)用戶請(qǐng)求,為用戶返回基于數(shù)十億文檔得出的搜索結(jié)果和推薦內(nèi)容,并提供定制化內(nèi)容和廣告。Vespa由多個(gè)無狀態(tài)的Java容器集群和零個(gè)或多個(gè)存儲(chǔ)數(shù)據(jù)的內(nèi)容集群組成。無狀態(tài)容器集群包括傳入數(shù)據(jù)、查詢以及響應(yīng)的組件。這些組件提供包括索引轉(zhuǎn)換和查詢執(zhí)行的平臺(tái)功能,也可以提供應(yīng)用程序的中間件邏輯。容器集群將查詢和數(shù)據(jù)操作傳遞到內(nèi)容集群中的相應(yīng)節(jié)點(diǎn),也可以添加組件訪問來自外部服務(wù)的數(shù)據(jù)。內(nèi)容集群負(fù)責(zé)存儲(chǔ)數(shù)據(jù)并對(duì)數(shù)據(jù)執(zhí)行查詢和推理。查詢的范圍包括簡單數(shù)據(jù)查找、使用機(jī)器學(xué)習(xí)模型對(duì)數(shù)據(jù)進(jìn)行排序、以及對(duì)數(shù)據(jù)進(jìn)行分組和聚合。4.4.WeaviateWeaviate前身為SeMITechnology,成立于2019年,是一家全球性初創(chuàng)企業(yè)。目前Weaviate在荷蘭、美國、加拿大等地設(shè)有分支機(jī)構(gòu),擁有超過30名團(tuán)隊(duì)成員。Weaviate創(chuàng)始人BobvanLuijt與EtienneDilocker擁有10年以上的自由工程師經(jīng)歷,具有深厚的技術(shù)積累。Weaviate是一個(gè)低延遲的向量數(shù)據(jù)庫,對(duì)不同的媒體類型(文本,圖像等)具有開箱即用的支持。Weaviate提供語義搜索、問答提取、分類、定制化模型(PyTorch/TensorFlow/Keras)等功能,基于Go語言,能夠存儲(chǔ)對(duì)象和向量,并允許將向量搜索、結(jié)構(gòu)化篩選和云原生數(shù)據(jù)庫的容錯(cuò)能力相結(jié)合,且支持GraphQL、REST以及各種客戶端編程語言進(jìn)行訪問。Weaviate可進(jìn)行本地或云化部署,具有多種定價(jià)模式。Weaviate可提供SaaS以及混合SaaS的服務(wù),其中SaaS服務(wù)定價(jià)分為三類:標(biāo)準(zhǔn)、企業(yè)、關(guān)鍵商務(wù)型,起價(jià)分別為25/135/450美元/月,實(shí)際定價(jià)將伴隨向量存儲(chǔ)、搜索的維度的增長而提升。標(biāo)桿應(yīng)用場景

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論