版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
頁碼:頁碼:2/2核心技術(shù)頁碼:核心技術(shù)頁碼:3/2頁碼:4/223RAG+Agent:基于騰訊云ES與混元大模型構(gòu)建專屬AI助手背景概述隨著數(shù)據(jù)智能技術(shù)的不斷發(fā)展,以大語言模型(LLM)驅(qū)動的AIGC為代表的內(nèi)容生成技術(shù)已經(jīng)成為企業(yè)數(shù)據(jù)智能能力中不可或缺的一部分,但傳統(tǒng)的內(nèi)容生成技術(shù)存在信息更新不及時、垂直領(lǐng)域知識匱乏、模型幻覺等問題,如何推進大模型在各行業(yè)、各業(yè)務(wù)場景落地是各方普遍關(guān)注的問題,而檢索增強生成(Retrieval-AugmentedGeneration,RAG)技術(shù)則為此提供了有效的解決方案,成為數(shù)據(jù)智能時代的一大趨勢。RAG是一種結(jié)合了檢索和大語言模型內(nèi)容生成的技術(shù)方案,它通過引用外部知識庫,在用戶輸入Query時檢索出知識,然后讓模型基于可信的知識進行用戶回答。RAG具有較高的可解釋性和定制能力,可大幅降低大語言模型的幻覺,適用于問答系統(tǒng)、文檔生成、智能助手等多種自然語言處理任務(wù)中。本文將通過介紹騰訊云ES一站式RAG方案,演示如何通過結(jié)合騰訊云ES與混元大模型,快速構(gòu)建RAG應(yīng)用。頁碼:5/223騰訊云ES一站式RAG方案騰訊云ES是云端全托管海量數(shù)據(jù)檢索分析服務(wù),擁有高性能自研內(nèi)核,集成X-Pack,支持通過自治索引、存算分離、集群巡檢等特性輕松管理集群,也支持免運維、自動彈性、按需使用的Serverless模式。在自研內(nèi)核方面,騰訊云ES依托騰訊內(nèi)外部海量業(yè)務(wù)的運營經(jīng)驗,針對ES內(nèi)核進行了成本、性能、穩(wěn)定性、拓展性等方面的優(yōu)化,是亞太地區(qū)開源貢獻第一的團隊,使用騰訊云ES您可以高效構(gòu)建在線搜索、向量檢索、日志分析、運維監(jiān)控、智能問答等服務(wù)。在RAG方面,騰訊云ES支持了一站式向量檢索、文本+向量混合搜索、倒數(shù)排序融合、與大模型集成、GPU高性能推理、字段級別權(quán)限控制等能力,同時針對查詢性能做了大量優(yōu)化,有效的提升了數(shù)據(jù)檢索效率。頁碼:6/223當然,作為國內(nèi)公有云首個從自然語言處理、到向量生成/存儲/檢索、并與大模型集成的端到端一站式技術(shù)平臺,騰訊云ES也作為核心參編單位參與了由信通院組織的RAG標準制定,同時成為首個通過RAG權(quán)威認證的企業(yè)。AI助手構(gòu)建購買ES集群1、登錄騰訊云ES控制臺:/login?s_url=https%3A%2F%2Fconsole.cloud.t%2Fapi%2Fexplorer%3FProduct%3Dhunyuan%26Version%3D2023-09-01%26Action%3DChatCompletions(復(fù)制鏈接到瀏覽器打開)2、點擊「新建」頁碼:7/2233、產(chǎn)品類型選擇為:通用版頁碼:8/2234、選擇版本:計費模式為按量計費、ES版本為8.13.3、商業(yè)特性為白金版5、ES節(jié)點配置,測試環(huán)境可選擇為ES.S1(2核4G),節(jié)點數(shù)為2,磁盤為通用型SSD,磁盤容量為20GB6、其余配置選擇默認即可登錄Kibana頁碼:9/223訪問Kibana,設(shè)置公網(wǎng)訪問策略頁碼:10/2233、點擊Kibana公網(wǎng)訪問地址訪問Kibana部署embedding模型集群購買完成后,前往Kibana部署Embedding模型、創(chuàng)建知識庫索引與向量化管道1、開啟「節(jié)點出站訪問」,僅開啟數(shù)據(jù)節(jié)點即可,如有專用主節(jié)點,僅開啟專用主節(jié)點即可。(該功能為白名單,請聯(lián)系工單處理)注:如需上傳自定義模型或第三方平臺(如Huggingface)模型,可參考文檔:/elastic/eland(復(fù)制鏈接到瀏覽器打開)2、登錄Kibana之后,在左側(cè)導(dǎo)航欄找到「MachineLearning」功能頁碼:11/2233、進入模型管理頁面,并找到類型為「text_embedding」的模型4、如為未下載狀態(tài),選中模型,并點擊「Addtrainedmodel」,本次演示我們使用「.multilingual-e5-small_linux-x86_64」模型頁碼:12/2235、下載完成后,點擊部署頁碼:13/2236、為快速體驗,配置使用默認值即可創(chuàng)建索引與向量化管道1、點擊進入「Devtools」頁碼:14/2232、創(chuàng)建知識庫索引index-name為索引名稱,實際可按需命名頁碼:15/2233、創(chuàng)建推理管道,該管道可用于寫入數(shù)據(jù)時進行數(shù)據(jù)向量化頁碼:16/223上述管道,將字段「content、title」的內(nèi)容,調(diào)用.multilingual-e5-small_linux-x86_64模型向量化之后存儲到新的字段中。寫入知識庫數(shù)據(jù)通過BulkAPI批量寫入數(shù)據(jù),可將title、content、url的內(nèi)容替換為您實際的知識庫數(shù)據(jù)。頁碼:17/223調(diào)用混元大模型1、python文件命名為hunyuan.py2、安裝相關(guān)庫,參考如下,控制臺鏈接:/login?s_url=https%3A%2F%2F%2Fapi%2Fexplorer%3FProduct%3Dhunyuan%26Version%3D2023-09-01%26Action%3DChatCompletions(復(fù)制鏈接到瀏覽器打開)頁碼:18/2233、獲取SecretID、SecretKey,控制臺鏈接:/login?s_url=https%3A%2F%2F%2Fapi%2Fexplorer%3FProduct%3Dhunyuan%26Version%3D2023-09-01%26Action%3DChatCompletions(復(fù)制鏈接到瀏覽器打開)頁碼:19/223頁碼:20/223智能問答系統(tǒng)構(gòu)建1、安裝streamlit2、獲取ES訪問地址用戶名為elastic、密碼在創(chuàng)建集群時設(shè)置,用本地mac測試時,可開啟公網(wǎng)訪問,實際生產(chǎn)時,建議使用內(nèi)網(wǎng)訪問地址3、運行如下代碼(需與hunyuan.py在一個目錄下)頁碼:21/223頁碼:22/223在上述python文件的目錄下,使用如下命令運行系統(tǒng):生成的界面如下:頁碼:23/223總結(jié)本文通過介紹騰訊云ES一站式RAG方案,演示如何通過結(jié)合騰訊云ES與混元大模型,快速構(gòu)建RAG應(yīng)用。騰訊云ES憑借其在傳統(tǒng)PB級日志和海量搜索場景中積累的豐富經(jīng)驗,通過深度重構(gòu)底層系統(tǒng),成功地將多年的性能優(yōu)化、索引構(gòu)建和運營管理經(jīng)驗應(yīng)用于RAG領(lǐng)域,并積極探索向量召回與傳統(tǒng)搜索技術(shù)的融合之道,旨在充分發(fā)揮兩者的優(yōu)勢,為用戶提供更加精準、高效的搜索體驗。未來,騰訊云ES將持續(xù)深耕智能檢索領(lǐng)域,在成本、性能、穩(wěn)定性等方面持續(xù)提升,幫助客戶降本增效的同時實現(xiàn)業(yè)務(wù)價值持續(xù)增長,歡迎持續(xù)關(guān)注!騰訊云大數(shù)據(jù)將持續(xù)致力于為各行業(yè)客戶提供輕快、易用,智能的大數(shù)據(jù)平臺。頁碼:24/223揭秘萬億級日志與搜索平臺核心架構(gòu)巴黎賽事如火如荼,中國健兒在賽場上屢創(chuàng)佳績。作為賽事轉(zhuǎn)播的核心平臺,國內(nèi)頭部視頻媒體不僅提供了賽事直播,還推出了豐富的原創(chuàng)新媒體節(jié)目,平臺涵蓋賽程查詢、選手信息、獎牌榜、社區(qū)互動等功能,日均承載萬億量級的日志寫入與十億量級的在線搜索,總存儲規(guī)模達PB級。騰訊云ES基于自研內(nèi)核優(yōu)化和專家級服務(wù),成功扛下重任,保障了平臺的穩(wěn)定運行。萬億級日志分析平臺再大的流量也“打不崩”針對日志分析場景,騰訊云ES通過自研讀寫分離、存算分離、Serverless架構(gòu)、頁碼:25/223查詢并行化、定向路由等先進技術(shù),實現(xiàn)冷熱數(shù)據(jù)一體化搜索及彈性伸縮能力。其核心能力支撐了騰訊社交、內(nèi)容、娛樂等眾多業(yè)務(wù),經(jīng)歷了海量應(yīng)用的大規(guī)模實踐考驗,同時也服務(wù)了業(yè)界非常多有影響力的頭部企業(yè),幫助客戶顯著提升日志寫入性能和穩(wěn)定性,并降本30-80%。1.穩(wěn)定高可用(高并發(fā)寫入)平臺作為賽事最核心的觀看入口,寫入量達千萬級每秒,特別是在「樊振東對戰(zhàn)張本智和」、「乒乓球女單決賽」、「乒乓球男單決賽」、「羽毛球男雙決賽」等比賽中,寫入流量一度突增1倍以上,高并發(fā)數(shù)據(jù)寫入對底層服務(wù)穩(wěn)定性提出了極大考驗,一個穩(wěn)定可靠的架構(gòu)極為重要。騰訊云ES通過服務(wù)限流、異常容忍以及分布式線性擴展優(yōu)化,幫助平臺打造了固若金湯的健壯性架構(gòu)。那么,我們在這個過程中是如何保障整個日志系統(tǒng)的穩(wěn)定高可用的呢?在賽事從預(yù)熱、到開幕式、再到開賽以來,業(yè)務(wù)的突發(fā)增長有時候來的很突然,無法在前期做有效的評估。社區(qū)中的很多基于開源ES自建的用戶也遇到過類似的問題,由于沒有預(yù)估到業(yè)務(wù)突發(fā)的增長,并且在業(yè)務(wù)層沒有做好服務(wù)降級等機制,導(dǎo)致突發(fā)的寫入流量打崩了整個集群,使ES服務(wù)甚至整個業(yè)務(wù)長時間不可用。那么,在類似場景中,騰訊云ES是怎樣保障突增寫入流量下集群的穩(wěn)定性的呢?頁碼:26/223ES的寫入流程中,用戶的寫入請求先到達一個數(shù)據(jù)節(jié)點,即協(xié)調(diào)節(jié)點。然后由該協(xié)調(diào)節(jié)點將請求轉(zhuǎn)發(fā)給主分片所在節(jié)點進行寫入,主分片寫入完畢再由主分片轉(zhuǎn)發(fā)給從分片寫入,最后返回給客戶端寫入結(jié)果。右圖是更細節(jié)的寫入流程,而我們從堆棧中看到的寫入請求堆積的位置就是在紅色框中的接入層,節(jié)點掛掉的根因是協(xié)調(diào)節(jié)點的接入層內(nèi)存被打爆。頁碼:27/223針對這種高并發(fā)場景,我們的優(yōu)化方案是服務(wù)限流。除了要控制并發(fā)請求數(shù)量,還要精準地控制內(nèi)存資源,因為內(nèi)存資源不足是主要的矛盾。此外,限流方案要具備通用性,能作用于各個層級實現(xiàn)全鏈限流。在很多數(shù)據(jù)庫使用場景中,會采用從業(yè)務(wù)端或者獨立的proxy層配置相關(guān)的業(yè)務(wù)規(guī)則的限流方案,通過資源預(yù)估等方式進行限流。這種方式適應(yīng)能力弱,運維成本高,而且業(yè)務(wù)端很難準確預(yù)估資源消耗。ES原生版本本身有限流策略,是基于請求數(shù)的漏桶策略,通過隊列加線程池的方式實現(xiàn)。線程池大小決定了處理并發(fā)度,處理不完放到隊列,隊列放不下則拒絕請求。但是單純地基于請求數(shù)的限流不能控制資源使用量,而且只作用于分片級子請求的傳輸層,對于接入層無法起到有效的保護作用。原生版本也有內(nèi)存熔斷策略,但是在協(xié)調(diào)節(jié)點接入層并沒有做限制。我們的優(yōu)化方案是基于內(nèi)存資源的漏桶策略。我們將節(jié)點JVM內(nèi)存作為漏桶的資源,當內(nèi)存資源足夠的時候,請求可以正常處理;當內(nèi)存使用量到達一定閾值的時候,分區(qū)間階梯式平滑限流。例如上圖中淺黃色的區(qū)間限制寫入,深黃色的區(qū)間限制查詢,底部紅色部分作為預(yù)留buffer,預(yù)留給處理中的請求、merge等操作,以保證節(jié)點內(nèi)存的安全性。頁碼:28/223限流方案中的一個挑戰(zhàn)是如何實現(xiàn)平滑限流。單一的閾值限流很容易出現(xiàn)請求抖動,例如請求一上來把內(nèi)存打上去馬上觸發(fā)限流,而放開一點點請求又會涌進來把內(nèi)存打上去。我們的方案是設(shè)置高低限流閾值區(qū)間,在這個區(qū)間中,基于余弦變換實現(xiàn)請求數(shù)和內(nèi)存資源之間的平滑限流。當內(nèi)存資源足夠的時候,請求通過率為100%;當內(nèi)存到達限流區(qū)間逐步上升時,請求通過率隨之逐步下降;當內(nèi)存使用量下降時,請求通過率也會逐步上升,不會一把放開。通過實際測試,平滑的區(qū)間限流能在高壓力下保持穩(wěn)定的寫入性能。2.寫入性能優(yōu)化賽事的熱度持續(xù)上漲,且在某些時段,出現(xiàn)突然的增長,例如在「樊振東對戰(zhàn)張本智和」的比賽中,寫入流量一度突增50%,接近1300萬/秒的寫入。在千萬級TPS寫入的考驗下,騰訊云ES通過自研能力成功實現(xiàn)高并發(fā)寫入,輕松應(yīng)對高并發(fā)寫入流量。頁碼:29/223定向路由策略:在具體介紹定向路由前,先分析日志場景的特點以及開源ES的劣勢。日志場景一般寫多讀少,在大規(guī)模寫入與存儲的場景下,容易出現(xiàn)一些100+節(jié)點的ES集群。為了均衡各個節(jié)點的寫入壓力,一個索引會設(shè)置上百個主分片,均勻分布在各個節(jié)點上,這種設(shè)置在一些異常場景中,容易出現(xiàn)寫入拒絕并且CPU資源難以被有效利用。主要原因如下:頁碼:30/223·分片數(shù)量較多,容易出現(xiàn)長尾子請求,拖慢整個Bulk請求,繼而使得寫入隊列打滿?!げ鸱诌^多的子請求,導(dǎo)致磁盤IO次數(shù)過多,無法提升寫入吞吐,無法充分利用CPU。·節(jié)點間交互次數(shù)過多,消耗系統(tǒng)資源。通過分析ES的寫入流程,我們可以了解到一次Bulk批量寫入會把請求均分到所有的分片,個別的分片或節(jié)點卡頓就會拖慢整個Bulk請求,繼而寫入隊列被打滿,從而出現(xiàn)寫入拒絕。此外,拆分過多的子請求,會導(dǎo)致寫入吞吐量上不去,CPU也沒有被充分利用。還有一點是,主分片寫完之后再寫副本分片,會導(dǎo)致節(jié)點之間的交互次數(shù)過多,消耗了系統(tǒng)資源。騰訊云ES自研了BulkRouting定向路由策略,即為每個Bulk請求增加一個隨機的routing值,只路由到一個分片進行寫入。最終達到的優(yōu)化效果是:·相比開源ES提升寫入速度在20%以上。·顯著降低寫入拒絕率?!ね葘懭胨俣认翪PU使用率更低,CPU資源可以被有效利用。頁碼:31/2233.讀寫分離架構(gòu)讀寫分離是一種常見的數(shù)據(jù)庫架構(gòu)優(yōu)化策略,可用于提高數(shù)據(jù)庫系統(tǒng)的性能和可擴展性。原生ES的寫入方案,存在以下幾個問題:·默認情況下將數(shù)據(jù)寫入到ES是通過ES的bulk接口,ES需要在協(xié)調(diào)節(jié)點解析數(shù)據(jù)、將數(shù)據(jù)劃分到各個分片、請求轉(zhuǎn)發(fā)、解析文檔、主分片轉(zhuǎn)發(fā)請求給副本等工作。這樣做的缺點是網(wǎng)絡(luò)交互太多、每個分片吞吐量太低,導(dǎo)致寫入差強人意?!?shù)據(jù)寫入、存儲、查詢都在同一個節(jié)點上,對于寫多讀少的日志分析場景,難以頁碼:32/223實現(xiàn)快速擴容。騰訊云ES的讀寫分離方案,通過在協(xié)調(diào)節(jié)點提前基于LuceneAPI內(nèi)存構(gòu)建好Segment,然后轉(zhuǎn)發(fā)給具體索引分片,分片收到內(nèi)存Segment后定時追加到Lucene中,最終實現(xiàn)數(shù)據(jù)寫入?;趨f(xié)調(diào)節(jié)點構(gòu)建Segment,由于數(shù)據(jù)不直接落盤,整個寫入服務(wù)相當于無狀態(tài)。通過融合自研物理復(fù)制、內(nèi)存Merge、自研Mergepolicy等亮點技術(shù),騰訊云ES讀寫分離方案相比開源ES,可提升寫入吞吐性能5-20倍。“十億級”直播搜索平臺查的更快更穩(wěn)頁碼:33/2231.穩(wěn)定高可用(高并發(fā)大查詢)熱門賽事,如乒乓球、游泳、跳水、羽毛球等,相比一些較為冷門的比賽,往往觀看人數(shù)會有不同量級的增加。留言、互動等功能,在中國選手奪冠后,更是會出現(xiàn)流量突增的情況。例如「乒乓球男單決賽」這場比賽,光預(yù)約人數(shù)就達到將近100萬,在線觀看人數(shù)超過3000萬。賽程、選手、獎牌榜、節(jié)目庫、社區(qū)留言、互動等模塊的在線搜索業(yè)務(wù),對于性能、穩(wěn)定性的要求極高。那么,騰訊云ES是如何保障的呢?這里不得不提到自研的熔斷限流、步長限流、滑動窗口聚合能力?!と蹟嘞蘖鳎横槍Ω卟l(fā)大查詢場景,自研熔斷機制能在高負載時自動切斷部分低優(yōu)先級或高資源消耗的查詢請求,確保核心查詢請求的優(yōu)先處理,保障整體服務(wù)的穩(wěn)定性?!げ介L限流:通過動態(tài)調(diào)整請求步長,根據(jù)當前系統(tǒng)負載自動調(diào)整查詢請求的步長,以實現(xiàn)資源的最優(yōu)利用,確保在高負載情況下的查詢效率和響應(yīng)速度?!せ瑒哟翱诰酆希涸诓樵兙酆线^程中,引入滑動窗口機制,能夠更好地分攤計算壓力,避免因某一時刻的高并發(fā)查詢造成系統(tǒng)負載過重,從而提升整體的查詢性能。2.查詢性能優(yōu)化在內(nèi)核層面,騰訊云ES針對在線檢索場景的特點做了更多優(yōu)化,比如分片架構(gòu)頁碼:34/223優(yōu)化、查詢并行化、lucene查詢緩存鎖改造等,整體幫助搜索場景查詢性能提升3-10倍:·自適應(yīng)副本策略:ES分布式系統(tǒng)網(wǎng)絡(luò)調(diào)用多,如果遇到跨地區(qū)/AZ調(diào)用或者慢節(jié)點分片副本調(diào)用,就會導(dǎo)致查詢延遲高。騰訊云ES通過改進的本地自適應(yīng)副本選擇策略,其核心原理是:通過計算協(xié)調(diào)節(jié)點跟數(shù)據(jù)分片副本的查詢平均響應(yīng)時間、查詢隊列、查詢成功率,不斷地調(diào)整選擇延遲最低的副本進行查詢,來大幅降低搜索的延遲,并保障負載均衡?!げ樵儾眉簦篍S查詢模型是將查詢請求拆分成分片級的子請求轉(zhuǎn)發(fā)給各個分片并行執(zhí)行,最后在協(xié)調(diào)節(jié)點合并各個分片的結(jié)果,在每個分片內(nèi)部有多個segment。騰訊云ES通過對列存、數(shù)值索引、Terms等維度對segment進行提前裁剪跟合并收斂,減少隨機IO,優(yōu)化查詢性能?!げ樵儾⑿谢和ㄟ^極致壓榨空閑CPU資源,將ES的單個分片級請求拆分成多個子請求并行處理該分片下的segment或者docs,根據(jù)docs或者segment切分,每個線程只處理一部分docs或者segment,在數(shù)據(jù)節(jié)點合并每個線程的結(jié)果后再返回給協(xié)調(diào)節(jié)點,協(xié)調(diào)節(jié)點合并各個分片的結(jié)果返回給客戶端,從而達到性能倍數(shù)級的提升?!げ樵兙彺鎯?yōu)化:通過CBO策略,避免了查詢Cache操作導(dǎo)致查詢耗時10+倍的毛刺,并通過最小粒度的讀寫鎖提升了LRU緩存性能2倍+,并提交到官方Elasticsearch、Lucene社區(qū),得到社區(qū)的認可跟點贊。在此次巴黎賽事中,國內(nèi)頭部視頻媒體憑借騰訊云ES的強大技術(shù)支持,成功應(yīng)頁碼:35/223對了萬億級日志分析與十億級直播搜索的挑戰(zhàn)。通過服務(wù)限流、定向路由、讀寫分離等自研技術(shù)優(yōu)化,保障了直播平臺的高穩(wěn)定性和高性能;通過熔斷限流、步長限流、滑動窗口聚合等機制,確保了高并發(fā)大查詢場景下的查詢效率和響應(yīng)速度;通過分片架構(gòu)優(yōu)化、查詢并行化、lucene查詢緩存鎖改造等手段,顯著提升了查詢性能。目前,騰訊云ES作為云端全托管海量數(shù)據(jù)檢索分析服務(wù),擁有高性能自研內(nèi)核,是亞太地區(qū)對ES開源社區(qū)貢獻最多的第三方團隊,技術(shù)PR達200+,支持通過自治索引、存算分離、集群巡檢等特性輕松管理集群,也支持免運維、自動彈性、按需使用的Serverless模式。在實時檢索、日志分析、向量檢索、RAG等場景均有較多的優(yōu)化與實踐,被廣泛應(yīng)用于電商、零售、汽車、出行、金融、游戲等行業(yè),幫助客戶實現(xiàn)業(yè)務(wù)價值提升。面向AI時代,騰訊云ES也不斷探索,推出了一站式向量檢索與RAG方案,助力業(yè)務(wù)基于RAG能力實現(xiàn)智能化轉(zhuǎn)型。未來,騰訊云ES仍將不斷迭代,面向市場與用戶需求,不斷打磨技術(shù)和產(chǎn)品,持續(xù)輸出穩(wěn)定可靠的云端檢索分析服務(wù)。頁碼:36/223TBDS新一代數(shù)據(jù)湖倉架構(gòu)導(dǎo)讀:本次分享主題為TBDS新一代數(shù)據(jù)湖倉助力企業(yè)數(shù)據(jù)架構(gòu)升級。文中將介紹TBDS新一代數(shù)據(jù)湖倉產(chǎn)品的能力升級,以及TBDS新一代產(chǎn)品在企業(yè)數(shù)據(jù)架構(gòu)實時化、云原生化升級中的實踐。主要包括以下幾大部分:1.TBDS新一代數(shù)據(jù)湖倉架構(gòu)2.全新架構(gòu)全新體驗3.環(huán)境全面適配4.企業(yè)數(shù)據(jù)架構(gòu)升級實踐案例TBDS新一代數(shù)據(jù)湖倉架構(gòu)騰訊云大數(shù)據(jù)TBDS是一款依托騰訊多年海量數(shù)據(jù)處理經(jīng)驗,基于云原生技術(shù),泛Hadoop生態(tài)和最前沿的湖倉技術(shù)打造的可靠、安全、易用的大數(shù)據(jù)平臺。頁碼:37/223TBDS推出的新一代湖倉產(chǎn)品方案具備計算隔離強、存算按需伸縮、智能運維調(diào)優(yōu)等高可靠性。通過統(tǒng)一元數(shù)據(jù)和統(tǒng)一的安全機制,TBDS能夠顯著提升用戶的用數(shù)體驗,優(yōu)化使用成本,賦能多場景應(yīng)用,助力企業(yè)輕松駕馭各類工作負載,加速企業(yè)的數(shù)字化轉(zhuǎn)型。在新一代產(chǎn)品中,TBDS靈活地為用戶提供了兩種架構(gòu)下的大數(shù)據(jù)計算服務(wù),在現(xiàn)有的傳統(tǒng)架構(gòu)大數(shù)據(jù)集群之外,用戶可以無縫彈性擴展計算到新一代架構(gòu)的湖Lakehouse計算服務(wù)。新一代計算服務(wù)和傳統(tǒng)架構(gòu)的大數(shù)據(jù)集群間,通過TBDS提供的統(tǒng)一元數(shù)據(jù)和統(tǒng)一權(quán)限管控體系無縫對接,暢享計算無限伸縮的絲滑體驗。TBDS基于Lakehouse數(shù)據(jù)架構(gòu)打造的類數(shù)倉體驗的全景湖倉產(chǎn)品,具備全場景支持、計算隔離、存算資源按需彈性調(diào)度、智能調(diào)優(yōu)等高可靠特性,借助統(tǒng)一元數(shù)據(jù)以及統(tǒng)一權(quán)限體系,實現(xiàn)異構(gòu)集群數(shù)據(jù)互訪數(shù)據(jù)零搬遷,可大幅降低用戶頁碼:38/223整體使用成本。產(chǎn)品方案遵循開放標準設(shè)計,通過統(tǒng)一平臺實現(xiàn)入湖、存儲、計算、開發(fā)、管理等大數(shù)據(jù)業(yè)務(wù)核心流程的全面統(tǒng)一。能力可以總結(jié)為以下五大核心特點:·開放敏捷:我們提供開放接口和Serverless架構(gòu),實現(xiàn)快速接入,高度集成和開箱即用的體驗。·彈性伸縮:利用云原生架構(gòu)支持存儲和計算的極限伸縮。允許自定義彈性配置,實現(xiàn)資源共享和嚴格隔離間的平衡·混合負載:支持多種主流引擎,以滿足多樣化的工作負載,通過云原生跨級性調(diào)度,實現(xiàn)實時和離線任務(wù)的混合部署。頁碼:39/223·集約成本:安全加固,提供集中化的資源和權(quán)限管理,支持細粒度控制,確保數(shù)據(jù)流動和使用的安全性?!ぜ嫒萁y(tǒng)一:兼容經(jīng)典大數(shù)據(jù)平臺,以便于我們的業(yè)務(wù)升級,并通過統(tǒng)一元數(shù)據(jù)消除數(shù)據(jù)孤島,最大化業(yè)務(wù)價值。在當前場景下,用戶在構(gòu)建和應(yīng)用大數(shù)據(jù)服務(wù)時,通常面臨如下一系列挑戰(zhàn):·技術(shù)復(fù)雜性高:企業(yè)的基礎(chǔ)設(shè)施運營規(guī)劃、人才儲備等多方面都有著很高的要求,一個企業(yè)通常需要數(shù)名資深工程師組成的團隊才能管理運維一個數(shù)據(jù)湖系統(tǒng)?!み\維配套設(shè)施匱乏:企業(yè)匱乏數(shù)據(jù)遷移、容災(zāi)備份、監(jiān)控、異常告警等基礎(chǔ)設(shè)施?!べY源成本高:企業(yè)運營中對于計算存儲資源很難提前進行準確的估計,成本非常高?!ぜ夹g(shù)抗風(fēng)險能力弱:在技術(shù)能力方面,由于開源技術(shù)繁多,規(guī)范各異,企業(yè)難以頁碼:40/223應(yīng)對技術(shù)的高速迭代。為了更好的應(yīng)對挑戰(zhàn)。TBDS新一代湖倉架構(gòu)在產(chǎn)品應(yīng)用體驗上實現(xiàn)了全面的升級,產(chǎn)品更加輕、快且易用,同時也提供了更加安全、更加可靠的服務(wù)。應(yīng)用上,TBDS湖倉采用Serverless形態(tài),一次部署后,計算服務(wù)資源隨開隨用,按需伸縮,可靈活對接多種存儲服務(wù)。極致敏捷,貼身陪伴用戶的業(yè)務(wù)成長,同時TBDS提供從入湖到分析的全鏈路實施能力。新一代極速OLAP引擎能力全面升級,支撐業(yè)務(wù)查詢實現(xiàn)了3倍提速,助力用戶輕松升級T+1業(yè)務(wù)到實時業(yè)務(wù)。在日常業(yè)務(wù)當中,TBDS全新提供的智能運維診斷服務(wù),助力用戶實現(xiàn)從決策支撐、集群運維到業(yè)務(wù)應(yīng)用的全方面優(yōu)化。TBDS湖倉提供的AllinOne全景數(shù)據(jù)分析解決方案,可以為用戶提供全場景的數(shù)據(jù)分析解決方案,滿足海量數(shù)據(jù)的高性能分析、數(shù)據(jù)科學(xué)以及近實時流批一頁碼:41/223體和adhoc場景下的靈活聯(lián)邦分析,助力用戶高效構(gòu)建數(shù)據(jù)中臺和數(shù)據(jù)分析能業(yè)務(wù)應(yīng)用上,TBDS湖倉通過對數(shù)據(jù)湖的技術(shù)革新,全面助力用戶的業(yè)務(wù)提升。統(tǒng)一元數(shù)據(jù)和權(quán)限體系,讓用戶的找數(shù)用數(shù)體驗更加順暢,安全性進一步提升。同時,智能運維支持上層業(yè)務(wù)和底層運維多種資源的統(tǒng)一優(yōu)化,在入湖和存儲維度上,用戶可以充分享受TBDS在Lakehouse架構(gòu)升級所帶來的Zerocopy和NoETL的紅利。另外一方面,入湖能力進一步升級,支持業(yè)務(wù)數(shù)據(jù)的實時入湖,大大降低了數(shù)據(jù)存儲成本和業(yè)務(wù)應(yīng)用開發(fā)的復(fù)雜性。計算能力也進一步升級,流計算+新一代查詢加速引擎,讓業(yè)務(wù)更敏捷,充分發(fā)揮實時入戶能力以及實時性帶來的業(yè)務(wù)潛力。同時批計算支持近實時、小時級別的更新,極大地縮短我們的業(yè)務(wù)反應(yīng)時間。在多個金融客戶的場景當中,我們的全新架構(gòu)升級助力客戶發(fā)掘更多場景價值,在用戶的移動應(yīng)用程序、核心對賬系統(tǒng)、后臺風(fēng)控系統(tǒng)、用戶頁碼:42/223和人群畫像系統(tǒng),以及adhoc等查詢場景中實現(xiàn)了數(shù)據(jù)架構(gòu)的全面升級和持續(xù)業(yè)務(wù)優(yōu)化。接下來將展開介紹新一代TBDS湖倉架構(gòu)帶來的全新服務(wù)體驗。全新架構(gòu)全新體驗湖倉架構(gòu)作為大數(shù)據(jù)平臺的演進方向,已經(jīng)成為一個業(yè)界共識。這種新的架構(gòu)旨在解決傳統(tǒng)架構(gòu)下的諸多痛點,包括數(shù)據(jù)孤島、性能瓶頸、高并發(fā)和復(fù)雜查詢限制,以及實時性不足和彈性資源欠缺等問題。但是,當前業(yè)界的湖倉解決方案仍然面臨以下挑戰(zhàn):·架構(gòu)升級困難:受限于湖倉方案,技術(shù)實現(xiàn)和管理機制,用戶難以實現(xiàn)從傳統(tǒng)數(shù)據(jù)平臺架構(gòu)到新湖倉架構(gòu)的平滑過渡,導(dǎo)致新湖倉能力難以及時落地?!ぐ踩芸乩щy:湖倉一體場景下需要通過多引擎方式支持不同工作負載,但是傳統(tǒng)模式下數(shù)據(jù)權(quán)限跟引擎深度偶合,用戶需要進行多次授權(quán),用戶體驗差,管理上也缺少統(tǒng)一的數(shù)據(jù)和資源管理視圖?!み\維復(fù)雜:大數(shù)據(jù)體系對接的應(yīng)用場景復(fù)雜,同時,數(shù)據(jù)湖框架引發(fā)的小文件問題尚未得到徹底解決,增加了運維的難度。頁碼:43/223TBDS的新一代湖倉方案如何解決這些問題呢?TBDS提供的新一代統(tǒng)一元數(shù)據(jù)、統(tǒng)一權(quán)限服務(wù)和智能運維服務(wù)針對性地應(yīng)答了以上一系列用戶痛點。(1)統(tǒng)一元數(shù)據(jù)服務(wù)頁碼:44/223TBDS統(tǒng)一元數(shù)據(jù)服務(wù)的設(shè)計理念不僅保留了傳統(tǒng)架構(gòu)的穩(wěn)定性,還在保持技術(shù)先進性的同時,實現(xiàn)了與傳統(tǒng)架構(gòu)的無縫融合和深度兼容,有效解決了市場上同類產(chǎn)品在適應(yīng)既有業(yè)務(wù)需求方面的不足,可以助力企業(yè)在技術(shù)升級和業(yè)務(wù)轉(zhuǎn)型中的平穩(wěn)過渡,完美兼顧了創(chuàng)新和連續(xù)性。具體體現(xiàn)在以下三個方面?!ぴ陂_發(fā)層面,我們提供兼容Hive協(xié)議的統(tǒng)一訪問接口,使得舊業(yè)務(wù)代碼無需修改,便可在新湖倉架構(gòu)平臺上面運行,實現(xiàn)了完全兼容。·分析層面,基于統(tǒng)一元數(shù)據(jù)自動納管舊集群源數(shù)據(jù),可實現(xiàn)全域數(shù)據(jù)的無縫聯(lián)邦計算跟分析。·在管理層面,TBDS云湖倉通過虛擬集群技術(shù)實現(xiàn)跨多個Kubernetes資源的隔離和彈性伸縮,相較于Yarn提供了更加靈活的資源管理方案。(2)統(tǒng)一權(quán)限服務(wù)頁碼:45/223TBDS在安全訪問和用戶體驗方面也進行了全面的升級,提供了更強大的管理功能。主要亮點包括:統(tǒng)一身份認證,支持平臺和資源的深度融合,顯著簡化了權(quán)限分配流程,跨引擎數(shù)據(jù)授權(quán),通過權(quán)限僅綁定數(shù)據(jù)的機制,實現(xiàn)一次授權(quán),所有引擎生效,提高了數(shù)據(jù)的使用效率;細粒度權(quán)限控制,實現(xiàn)對功能數(shù)據(jù)和資源的統(tǒng)一,細粒度集中管控,既增強了平臺數(shù)據(jù)使用的安全性,又確保了數(shù)據(jù)流通共享的合規(guī)性和可控性。(3)平臺智能優(yōu)化同時,針對用戶在使用和運維大數(shù)據(jù)服務(wù)中的各類痛點,TBDS推出了全新的智能運維診斷服務(wù),來幫助用戶洞察、分析、定位和優(yōu)化大數(shù)據(jù)服務(wù)。橫向維度上,服務(wù)拓展了業(yè)務(wù)場景的支持,服務(wù)于數(shù)據(jù)開發(fā)工程師和業(yè)務(wù)分析師,提供更多引擎作業(yè)數(shù)據(jù)洞察能力,提升作業(yè)效率。縱向維度上,服務(wù)深挖系統(tǒng)運維優(yōu)化,服務(wù)于系統(tǒng)運維工程師,提供運維和資源洞察的能力,提升集群的穩(wěn)定性和整體的頁碼:46/223資源效率。最后再結(jié)合決策支撐模塊匯總的信息,TBDS全新智能運維診斷服務(wù),將以三維洞察和分析能力,支撐大數(shù)據(jù)業(yè)務(wù)和平臺運維的持續(xù)優(yōu)化提升。環(huán)境全面適配在服務(wù)升級之外,TBDS也在不斷增強對于國產(chǎn)化軟硬件環(huán)境的適配能力。TBDS平臺災(zāi)備產(chǎn)品模塊以及遷移工具全面兼容海光、鯤鵬、飛騰等國產(chǎn)CPU,同時也適配了麒麟、統(tǒng)信、TencentOS等滿足金融信創(chuàng)要求的操作系統(tǒng)。并且頁碼:47/223我們通過騰訊自研的KonaJDK在大數(shù)據(jù)領(lǐng)域的專項優(yōu)化,以及TBDS多年以來在信創(chuàng)大數(shù)據(jù)領(lǐng)域的經(jīng)驗沉淀,TBDS實現(xiàn)了對于國產(chǎn)軟硬件性能的極致優(yōu)化,可以最大化地發(fā)揮硬件性能潛力,充分保證業(yè)務(wù)的信創(chuàng)升級。TBDS同時提供了豐富的部署環(huán)境支持,支持在多種交付環(huán)境中進行快速部署。其中一個重要的升級是基于TCE平臺,新一代TBDS升級了完整的云數(shù)一體能力,統(tǒng)一對接TCE云平臺的資源和用戶體系,支持一鍵部署TBDS大數(shù)據(jù)服務(wù),免去了復(fù)雜的前期準備。我們更加深度支持聯(lián)動TCE上的各類云產(chǎn)品和云平臺服務(wù),統(tǒng)一企業(yè)的云資源,優(yōu)化大數(shù)據(jù)建設(shè)和使用成本,擴展我們大數(shù)據(jù)分析服務(wù)的應(yīng)用場景。頁碼:48/223企業(yè)數(shù)據(jù)架構(gòu)升級實踐案例在多個行業(yè)的頭部用戶當中,新一代TBDS平臺的能力已有成功的落地應(yīng)用案在某頭部保險公司,TBDS湖倉助力用戶實現(xiàn)了司內(nèi)的多個大數(shù)據(jù)湖的統(tǒng)一,并且實現(xiàn)了客戶核心業(yè)務(wù)的實時化改造,從T+1或小時級的業(yè)務(wù)升級成分鐘級。同時,結(jié)合騰訊WeData的數(shù)據(jù)開發(fā)治理能力,實現(xiàn)了客戶業(yè)務(wù)數(shù)據(jù)集成、開發(fā)、治理到數(shù)據(jù)資產(chǎn)盤點、資產(chǎn)運營的全鏈路無縫貫穿。頁碼:49/223在某頭部股份制銀行,新一代TBDS助力用戶全面實現(xiàn)了大數(shù)據(jù)平臺的信創(chuàng)國產(chǎn)化升級。通過TBDS,用戶實現(xiàn)了一系列新規(guī)劃的落地,包括大數(shù)據(jù)系統(tǒng)容災(zāi)能力的全面升級,大數(shù)據(jù)業(yè)務(wù)和系統(tǒng)優(yōu)化的智能化,以及集群內(nèi)X86和ARM硬件的混布。同時結(jié)合產(chǎn)品的靈活部署方案,解決了行內(nèi)數(shù)據(jù)的安全隔離需求和大規(guī)模集群的性能瓶頸限制,滿足了行內(nèi)全場景的業(yè)務(wù)訴求和未來業(yè)務(wù)升級的需求,實現(xiàn)了對于客戶未來業(yè)務(wù)長期發(fā)展支持的連續(xù)性。在未來,我們將繼續(xù)完善TBDS湖倉大數(shù)據(jù)平臺。在更多大數(shù)據(jù)場景的能力支撐和使用體驗優(yōu)化,并且探索更多新場景和性能優(yōu)化的方向,騰訊云大數(shù)據(jù)始終致力于為各行業(yè)客戶提供輕快、易用的智能化大數(shù)據(jù)平臺。頁碼:50/223騰訊云ES讀寫分離+存算分離新架構(gòu)解讀導(dǎo)讀:云計算和大數(shù)據(jù)作為現(xiàn)代企業(yè)基礎(chǔ)設(shè)施的核心部分,對于提高效率和降低成本至關(guān)重要。騰訊云大數(shù)據(jù)團隊始終致力于通過技術(shù)創(chuàng)新,提供高性價比的產(chǎn)品解決方案,以滿足企業(yè)的需求。圍繞性價比提升,騰訊云大數(shù)據(jù)首先推出了Meson高性能計算加速解決方案,目前可為EMR和DLC兩款數(shù)據(jù)湖產(chǎn)品帶來約2倍的基準性能提升。另外,在檢索分析服務(wù)ES上,我們基于讀寫分離、存算分離架構(gòu)升級,今年我們在日志場景可實現(xiàn)約10倍的性價比提升。更值得一提的是,我們今年也帶來了可進一步降低成本的全新產(chǎn)品形態(tài),包括EMR托管節(jié)點,以及ESServerless服務(wù)。文中將對相關(guān)細節(jié)做詳細講解。主要包括以下三部分:·Meson高性能計算引擎·ES日志場景10倍性價比提升·更靈活的產(chǎn)品形態(tài)Meson高性能計算引擎頁碼:51/223產(chǎn)品的性價比源于性能的不斷提升,在今年上半年,騰訊云大數(shù)據(jù)自研了一套高性能計算引擎通用解決方案——Meson。Meson是騰訊云大數(shù)據(jù)的通用高性能計算加速套件,整體圍繞極致軟件工程,加軟硬件一體加速和AI加持的設(shè)計理念,致力于打造通用化、套件化,適配騰訊云大數(shù)據(jù)全體系產(chǎn)品的通用計算加速底座。頁碼:52/223在騰訊云EMR以及DLC兩個數(shù)據(jù)湖產(chǎn)品中,基于Meson,目前我們已經(jīng)實現(xiàn)了完全兼容Spark的向量化加速能力,相比開源Spark性能提升可達到2.27倍。另外,在騰訊云檢索分析服務(wù)ES上,結(jié)合高性能計算引擎Meson解決方案,騰訊云ES成為了目前全球唯一支持GPU加速的ES服務(wù)。具體而言,我們與騰訊自研GPU技術(shù)紫霄軟硬結(jié)合,充分利用GPU的性能優(yōu)勢,顯著提高了ES向量生成和向量檢索的效率。ES日志場景10倍性價比提升騰訊云ES服務(wù)一直是日志、安全、檢索場景的開源首選方案,圍繞日志場景的成本優(yōu)化,騰訊云ES服務(wù)自主研發(fā)了讀寫分離、存算分離新架構(gòu)重大升級,整體可在日志場景中帶來最高10倍的性價比提升。頁碼:53/223在讀寫分離方面,基于資源隔離提升可用性的思路,騰訊云ES實現(xiàn)了全面優(yōu)于開源社區(qū)的讀寫分離性能,寫入性能最大提升10倍。另外,我們在自研ES新架構(gòu)上實現(xiàn)了基于騰訊云對象存儲的存算分離、熱數(shù)據(jù)實時下沉、按需卸載等能力,在業(yè)務(wù)實測中,可降低90%以上的存儲成本。接下來以一個具體的客戶案例來說明。頁碼:54/223A客戶在原社區(qū)版ES上需要50臺存算一體ES節(jié)點,而在騰訊云自研ES存算分離架構(gòu)下,可將計算節(jié)點縮減到5臺,存儲成本在SSD以及對象存儲的存算分離下可縮減90%。在此基礎(chǔ)上,如果結(jié)合使用共享讀寫分離,可進一步降低成本,相比社區(qū)原生ES架構(gòu),可實現(xiàn)十倍以上性價比。更靈活的產(chǎn)品形態(tài)除了性能以及架構(gòu)升級以外,騰訊云大數(shù)據(jù)一直致力于創(chuàng)新產(chǎn)品形態(tài),提供更靈活的產(chǎn)品使用模式。頁碼:55/223在騰訊云EMR產(chǎn)品上,近期推出了全新的托管節(jié)點資源類型,EMR托管節(jié)點實現(xiàn)了資源的全自動化運維和自動擴縮容,讓用戶可免運維的同時,顯著降低了計算資源的使用成本。相比于EMR產(chǎn)品傳統(tǒng)task或者core節(jié)點,全新推出的托管節(jié)點具備三大優(yōu)勢:首先是低成本,托管節(jié)點相比傳統(tǒng)EMR節(jié)點使用成本平均有30%的降低;第二是更易用,托管節(jié)點支持自動擴縮容,用戶無需為EMR集群配置復(fù)雜的機型彈性規(guī)則,平臺可以做到托管節(jié)點的自動伸縮;第三點是完全免運維,EMR托管節(jié)點具備故障自動替換機制,以及實時監(jiān)控、任務(wù)遷移等能力,當托管節(jié)點資源在遇到故障時,能夠迅速做出反應(yīng),確保集群和業(yè)務(wù)的穩(wěn)定性。在騰訊云檢索分析服務(wù)ES上,我們推出了ESServerless產(chǎn)品形態(tài),面向日志場景提供自動彈性,完全免運維的一站式日志分析解決方案。頁碼:56/223Serverless基于騰訊云自研的高可用存算分離架構(gòu),客戶根據(jù)實際訪問與存儲量計費,實現(xiàn)了業(yè)務(wù)負載與資源動態(tài)匹配的按需付費,可減少資源閑置所導(dǎo)致的成本支出,大幅降低成本;其次是提升易用性,ESServerless提供集群免運維、索引免運維、數(shù)據(jù)鏈路免運維的一站式場景化解決方案;第三是保持兼容性,ESServerless服務(wù)100%兼容開源ESAPI,兼容ELK生態(tài),可極大降低業(yè)務(wù)上云門檻,可在分鐘級實現(xiàn)業(yè)務(wù)落地。提供更優(yōu)性價比的產(chǎn)品解決方案,一直是騰訊云大數(shù)據(jù)致力投入的方向。通過高性能計算引擎Meson、全面的產(chǎn)品技術(shù)架構(gòu)升級,以及更加靈活易用的產(chǎn)品形態(tài),我們希望為客戶的降本增效目標注入更強大的驅(qū)動力。騰訊云大數(shù)據(jù)始終致力于為各行業(yè)客戶提供輕快、易用,智能的大數(shù)據(jù)平臺。頁碼:57/223湖倉架構(gòu)下存儲自動化治理實踐前言2020年,Lakehouse架構(gòu)被首先提出,區(qū)別于傳統(tǒng)數(shù)據(jù)倉庫,Lakehouse同時吸收了數(shù)據(jù)倉庫和數(shù)據(jù)湖的優(yōu)勢,試圖去融合數(shù)倉和數(shù)據(jù)湖這兩者的優(yōu)勢,通過將數(shù)倉構(gòu)建在數(shù)據(jù)湖上,使得存儲變得更為廉價和彈性,同時Lakehouse能夠有效地提升數(shù)據(jù)質(zhì)量,減小數(shù)據(jù)冗余,使數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家可以在同一個存儲中對數(shù)據(jù)進行操作,同時也能為數(shù)據(jù)平臺進行數(shù)據(jù)治理帶來更多的便利性。TBDS在過去幾年很好的支撐了各行業(yè)客戶業(yè)務(wù)在湖倉架構(gòu)下的落地,在數(shù)據(jù)的時效性、數(shù)據(jù)審計、數(shù)據(jù)降冷、數(shù)據(jù)查詢速度、數(shù)據(jù)存儲查詢成本等維度得到了全面的提升,然而隨著用戶對湖倉的使用場景越來越多樣化和規(guī)?;瑪?shù)據(jù)湖底層文件治理成本也隨之增高,一方面是用戶在湖倉架構(gòu)上使用的便利與高效,另一方面是湖倉架構(gòu)下萬億級文件治理帶來的運維成本,目前業(yè)界在數(shù)據(jù)湖存儲治理方面開源且易用的方案并不多,我們基于項目中的實戰(zhàn)經(jīng)驗,分享騰訊云TBDS在湖倉存儲自動化治理的解決方案,希望能對大家有所啟發(fā)和幫助。頁碼:58/223湖倉治理實踐背景當前,數(shù)據(jù)驅(qū)動業(yè)務(wù)決策已經(jīng)成為各行業(yè)客戶業(yè)務(wù)發(fā)展的共識,尤其是在互聯(lián)網(wǎng)、金融、新媒體等行業(yè),數(shù)據(jù)新鮮度成為數(shù)據(jù)質(zhì)量的重要衡量指標,越來越多的客戶開始將數(shù)據(jù)鏈路從傳統(tǒng)數(shù)倉T+1更新轉(zhuǎn)化為更加實時的數(shù)據(jù)架構(gòu),這里我們從某頭部金融客戶的湖倉架構(gòu)展開,其整體數(shù)據(jù)加工鏈路如下:在客戶的數(shù)據(jù)處理鏈路中,Iceberg/Hudi作為統(tǒng)一湖格式支撐著整個數(shù)據(jù)鏈路中各個環(huán)節(jié)數(shù)據(jù)的入湖出湖,承擔(dān)著重要的角色,取代了傳統(tǒng)的Hive驅(qū)動著整個數(shù)據(jù)鏈路。頁碼:59/223隨著數(shù)據(jù)湖使用規(guī)模的擴大,客戶在使用過程中也遇到了數(shù)據(jù)湖帶來的多個問題,過多的小文件會給HadoopHDFS的NameNode可用性上帶來嚴重的問題,同時也會在計算引擎?zhèn)葞泶罅康腎O和查詢速度的降低,同時數(shù)據(jù)湖ACID特性和高頻入湖也會導(dǎo)致數(shù)據(jù)湖元數(shù)據(jù)的膨脹,以及數(shù)據(jù)湖下表的生命周期管理等問題,這些都會影響湖倉在客戶側(cè)的落地,因此數(shù)據(jù)湖存儲優(yōu)化模塊是湖倉架構(gòu)下必不可少的模塊,也是湖倉生產(chǎn)落地過程中關(guān)鍵的部分?;诳蛻粼诤}架構(gòu)下的生產(chǎn)使用現(xiàn)狀,秉承開源優(yōu)先的原則,我們率先在TBDS中集成了開源數(shù)據(jù)湖優(yōu)化組件Amoro。得益于TBDS底座強大易用的OpenAPI,我們也在Amoro的集成上進行了開箱即用的增強來減少用戶使用的成本,同時保證內(nèi)核和社區(qū)對齊。與此同時為了將湖倉存儲優(yōu)化能力更好的落地客戶生產(chǎn)業(yè)務(wù),我們也對Amoro的內(nèi)核進行了大量的功能性和易用的改造,該部分會在下個章節(jié)的Luoshu相關(guān)優(yōu)化方案中展開。新一代的數(shù)據(jù)湖存儲治理解決方案數(shù)據(jù)湖存儲優(yōu)化方案的一個核心在于:為上層用數(shù)應(yīng)用提供一個合理的數(shù)據(jù)組織結(jié)構(gòu),為下層存儲基座提供一個精簡的數(shù)據(jù)存儲結(jié)構(gòu),同時為運維人員提供一個頁碼:60/223功能完備的數(shù)據(jù)管理系統(tǒng)。這一切都是為來簡化Lakehouse架構(gòu)在落地過程中開發(fā)和運維的復(fù)雜性,提供一個統(tǒng)一的數(shù)據(jù)處理層,同時支持離線批量處理和實時增量處理,滿足用戶對數(shù)據(jù)一致性的要求。3.1傳統(tǒng)業(yè)務(wù)實踐痛點·學(xué)習(xí)門檻高在客戶的生產(chǎn)環(huán)境中,我們發(fā)現(xiàn)傳統(tǒng)的開源數(shù)據(jù)湖存儲優(yōu)化方案在客戶側(cè)能很好的解決不同時效性的表的存儲優(yōu)化,特別是在小文件治理方面表現(xiàn)出色,同時能很好的進行優(yōu)化資源的配置和隔離,但是實現(xiàn)這一過程需要對組件內(nèi)核和運行機制比較熟悉,同時由于傳統(tǒng)的開源方案內(nèi)部引入了“資源組”等領(lǐng)域概念,并且內(nèi)部優(yōu)化資源服務(wù)于該資源組下面的所有表,在優(yōu)化過程中需要用戶控制每個表的資源使用配額,包對資源組資源實例的調(diào)整等。因此,數(shù)據(jù)湖存儲優(yōu)化方案中,在提供功能強大的優(yōu)化能力的同時,客戶對于優(yōu)化系統(tǒng)的易用性和高效的運維也存在比較迫切的需求?!べY源運維成本高傳統(tǒng)的開源方案內(nèi)部主要使用Spark,Flink任務(wù)來作為優(yōu)化資源重寫數(shù)據(jù)湖表來達到對表進行優(yōu)化的目的,通常情況下用戶在為表配合好邏輯優(yōu)化資源隊列頁碼:61/223后,用戶需要從業(yè)務(wù)角度出發(fā)為該優(yōu)化隊列配置足夠的資源,同時確保隊列下的計算資源穩(wěn)定運行來確保業(yè)務(wù)表的優(yōu)化正常穩(wěn)定執(zhí)行,但是由于缺少優(yōu)化資源隊列下表的統(tǒng)計信息無法對計算資源進行正確的評估,以及生產(chǎn)環(huán)境中優(yōu)化任務(wù)的穩(wěn)定性問題,通常保證隊列下表優(yōu)化的正常需要比較高的運維成本,難以達到理想的優(yōu)化狀態(tài)。因此,業(yè)界對一個能夠在統(tǒng)一解決數(shù)據(jù)湖存儲優(yōu)化的同時降低運營維護成本的數(shù)據(jù)湖優(yōu)化解決方案的需求日益迫切,在這種方案架構(gòu)下,用戶可以上層無感的進行使用,同時底層優(yōu)化組件具備良好的自適應(yīng)優(yōu)化和完備的資源自愈能力來滿足用戶落地數(shù)據(jù)湖過程中對高效運營的需求。3.2湖倉治理定位及特性分析構(gòu)建一個具備對數(shù)據(jù)湖文件中數(shù)據(jù)生命周期管理,數(shù)據(jù)文件治理,數(shù)據(jù)組織優(yōu)化的核心功能外,我們也需要在整體的數(shù)據(jù)湖優(yōu)化過程中具備對系統(tǒng)資源的整體管控,以及底層的優(yōu)化資源管控,和底層優(yōu)化資源的自適應(yīng)運維能力,來幫助用戶盡可能地降低在使用過程中的運維成本。頁碼:62/2233.3湖倉治理核心優(yōu)化方向從用戶使用角度出發(fā),我們除了需要為用戶提供完善的數(shù)據(jù)湖核心優(yōu)化能力之外,我們重點完善了整個方案中的運維成本較高的模塊,包括進行了Serverless化部署適配,同時將邏輯資源優(yōu)化組直接對接系統(tǒng)的資源管理模塊,自動化同步優(yōu)化資源組模塊,對于用戶在使用中復(fù)雜程度較高的優(yōu)化資源實例擴展,我們實現(xiàn)了根據(jù)用戶配置規(guī)則進行自動化拉起釋放機制,讓用戶擺脫了使用中的需要人工介入運維的過程。頁碼:63/223基于騰訊云TBDS在客戶側(cè)豐富的實踐經(jīng)驗,我們開始在Amoro的基礎(chǔ)上通過改造,賦能TBDS上一個功能全面易用的數(shù)據(jù)湖優(yōu)化組件,簡單描述我們的預(yù)期為:用戶只需要在工作臺編輯配置表的屬性配置,即可無感將該表托管給TBDS的數(shù)據(jù)管理優(yōu)化系統(tǒng),TBDS會根據(jù)預(yù)置策略全自動的托管該表的生命周期管理和優(yōu)化。3.4新架構(gòu)服務(wù)Luoshu的核心能力下面是TBDS增強版數(shù)據(jù)湖優(yōu)化管理服務(wù)Luoshu的整體架構(gòu),包含OptimizerMaintainer,ClusterManager,CommandCenter等核心新增模塊:頁碼:64/223由于自動化數(shù)據(jù)優(yōu)化核心在于表的生命周期全優(yōu)化托管,用戶只需關(guān)心業(yè)務(wù)相關(guān)語義,無需關(guān)心優(yōu)化組和優(yōu)化器具體的生命周期,因此,為了實現(xiàn)整個流程表優(yōu)化的自動化我們主要改造點為:·Serverless化。由于該組件服務(wù)于管控下的所有Hadoop集群,因此需要進行Serverless化來支持后期性能擴展,同時配合TBDS管控來實現(xiàn)Hadoop集群生命周期初始化過程中自動化的將Catalog相關(guān)信息注冊到Luoshu,實現(xiàn)為多集群提供存儲優(yōu)化服務(wù)。資·源統(tǒng)一管控。TBDS管控下所有用戶的資源隊列信息自動化同步到Luoshu中頁碼:65/223為用戶提供統(tǒng)一資源組視圖,對齊用戶在傳統(tǒng)Hadoop/K8s下的使用方式,同時支持優(yōu)化任務(wù)多集群提交,需要針對不同集群的湖文件,在進行優(yōu)化時將優(yōu)化資源提交到指定的計算集群,實現(xiàn)Luoshu的資源管控與傳統(tǒng)大數(shù)據(jù)使用同一套資源管控·優(yōu)化資源自適應(yīng)。Luoshu自動感知優(yōu)化隊列是否有表需要優(yōu)化,并根據(jù)用戶的資源模版自動拉起優(yōu)化任務(wù),并在沒有表需要優(yōu)化時主動釋放資源3.4.1Serverless化部署不同于社區(qū)的云原生方案,TBDS版本中我們進行進行了定制化的落地改造,主要基于以下出發(fā)點:·TBDS目前提供面向云原生的計算集群,但是考慮到大量的客戶主要計算資源依舊為yarn,所以云原生場景下依舊需要完整的支持Yarn作為主要的計算資源?!び捎赥BDS全棧支持IPv4/IPv6協(xié)議,在云原生場景下涉及多個外部接口,我們需要通過TBDS管控平臺獲取該Pod的專有IPv4與IPv6地址?!BDS可以同時納管多套Hadoop集群以及上面的計算引擎,同時各個集群自由支持IPv4,IPv6,雙棧等網(wǎng)絡(luò)協(xié)議棧,TBDS需要根據(jù)不同的Hadoop集群協(xié)議棧使用不同的通信協(xié)議?!樘嵘齼?yōu)化任務(wù)性能,我們也將TBDS內(nèi)部優(yōu)化版本Flink,Spark進行預(yù)置。同時TBDS目前提供了完備的OpenAPI,TBDS管控側(cè)的監(jiān)聽機制可以在頁碼:66/223Luoshu組件上,實現(xiàn)Catalog的自動化接入注冊,實現(xiàn)Hadoop創(chuàng)建過程中及聯(lián)化接入。3.4.2資源統(tǒng)一管控通常情況下,對于開源數(shù)據(jù)湖存儲優(yōu)化組件,用戶需要配置優(yōu)化隊列,并在后期拉起優(yōu)化器過程中使用該優(yōu)化隊列來聚合優(yōu)化資源,提供統(tǒng)一的資源視圖,但是實際使用過程中我們也發(fā)現(xiàn)部分問題:·該優(yōu)化資源隊列不同于yarn或k8s隊列,為內(nèi)部領(lǐng)域概念,在用戶使用過程中增加了理解成本·對于優(yōu)化資源隊列的創(chuàng)建需要單獨進行規(guī)劃設(shè)計,增加了額外的成本,在多集群的架構(gòu)下運維變得困難TBDS提供了統(tǒng)一的資源管理模塊,我們希望將優(yōu)化隊列概念對齊統(tǒng)一資源視圖中資源隊列的概念,減少用戶使用時的學(xué)習(xí)使用成本。因此我們也自動化的將TBDS的資源相關(guān)信息自動化的同步到了Luoshu側(cè)。同時為了進行不同集群的queue@cluster-id的形式,用于在后期進行調(diào)起任務(wù)的過程中去解析集群與資源組的信息。頁碼:67/223TBDS統(tǒng)一資源管理視圖TBDS統(tǒng)一資源管理編輯界面由于在實際客戶使用場景中,大數(shù)據(jù)的集群計算資源主要以Yarn資源為主,同時從客戶使用穩(wěn)定性角度出發(fā),我們優(yōu)先支持了Yarn資源來進行優(yōu)化,但同時也面臨一個問題,在一個Pod中如何根據(jù)指定的優(yōu)化器啟動命令完成向不同的集群提交優(yōu)化任務(wù),同時保證該任務(wù)可以正常的優(yōu)化并和傳統(tǒng)Hadoop的AZ部署時具備相同的優(yōu)化性能。為此我們對接TBDSOpenAPI實現(xiàn)了在單一POD可以根據(jù)指定資源組自動化的將優(yōu)化任務(wù)提交到指定的Yarn集群中,具體多集群遠程提交示意圖如下:頁碼:68/223其中主要需要實現(xiàn)了以下幾個關(guān)鍵功能:·自動化感知納管集群配置信息并同步至POD中?!ぶС之悩?gòu)網(wǎng)絡(luò)協(xié)議棧下提交Flink/Spark優(yōu)化任務(wù)?!ぶС肿詣踊R別生成優(yōu)化器提交命令上下文并提交至遠程指定Yarn集群中。通過以上的改造我們可用將用戶指定優(yōu)化隊列下的優(yōu)化任務(wù)提交到指定的遠程Yarn集群,同時保證優(yōu)化任務(wù)可以正確的建立心跳以及后續(xù)優(yōu)化任務(wù)拉取等流程。實現(xiàn)湖文件優(yōu)化的計算本地化。3.4.3優(yōu)化資源自適應(yīng)傳統(tǒng)的對數(shù)據(jù)湖表進行優(yōu)化需要用戶手動拉起優(yōu)化計算資源,并在表無需優(yōu)化時進行手動釋放,在實際的業(yè)務(wù)使用中,用戶需要頻繁的進行運維操作,同時優(yōu)化頁碼:69/223任務(wù)失敗時無法及時感知拉起會導(dǎo)致整個湖表的優(yōu)化狀態(tài)不符合預(yù)期,為此我們在Luoshu上實現(xiàn)了優(yōu)化任務(wù)的自動拉起釋放機制來確保用戶無需人工介入,全流程自動化感知操作?!?yōu)化任務(wù)自適應(yīng)拉起通常情況下用戶需要在指定的優(yōu)化隊列下手動拉起指定的優(yōu)化任務(wù),并在后續(xù)根據(jù)優(yōu)化時根據(jù)具體情況手動Kill掉優(yōu)化任務(wù)來釋放資源等,為了減少用戶的使用成本,我們也將該過程進行自動化。由于在Luoshu內(nèi)部,表的優(yōu)化信息通常會聚合在指定的優(yōu)化隊列下,同時保持連接的優(yōu)化器也會聚合在指定的優(yōu)化隊列下,我們通過檢測各個優(yōu)化隊列下的表信息以及優(yōu)化器信息來決定是否需要進行拉起優(yōu)化器?!?yōu)化任務(wù)自適應(yīng)釋放優(yōu)化任務(wù)自動釋放,主要在兩個場景下需要處理:1.優(yōu)化任務(wù)與Luoshu由于網(wǎng)絡(luò)隔離導(dǎo)致失聯(lián),同時Luoshu的自動拉起優(yōu)化器邏輯無法感知網(wǎng)絡(luò)隔離會導(dǎo)致頻繁拉起,該場景下需要使斷聯(lián)的優(yōu)化器主動自殺來避免耗盡所有機器隊列資源。2.優(yōu)化任務(wù)在指定隊列無優(yōu)化表的情況下默認會持續(xù)持有資源等待新的優(yōu)化任頁碼:70/223務(wù)生成,該場景下存在一定情況下的資源浪費,該情況下進行優(yōu)化任務(wù)的主動釋放時必要的,我們也在該場景下實現(xiàn)了優(yōu)化任務(wù)的主動釋放,其中部分代碼邏輯如下:總結(jié)與展望4.1業(yè)務(wù)使用效果目前我們已經(jīng)在騰訊云TBDS上線自動化數(shù)據(jù)湖優(yōu)化組件Luoshu,用戶只需為指定表配置使用的資源隊列,即可將該表全托管給TBDS優(yōu)化,為用戶提供更頁碼:71/223加易用的數(shù)據(jù)湖優(yōu)化體驗,減少用戶數(shù)據(jù)湖落地過程中使用運維成本。如下圖所示,用戶只需為表配置優(yōu)化資源隊列既可托管該表,由Luoshu負責(zé)該表的優(yōu)化以及生命周期管理。性能層面,目前在客戶的使用場景中,使用Luoshu單實例治理的Iceberg表數(shù)量穩(wěn)定在1W左右,Iceberg單表存儲最大50G左右,單表文件數(shù)最大多達17W,可確保整個數(shù)據(jù)湖使用達到平穩(wěn)狀態(tài),同時使用Luoshu進行自動化治理后,上層計算引擎在計算階段平均節(jié)省資源15%左右,大大減少了因為小文件過多導(dǎo)致的計算查詢無法完成的異常情況。使用體驗層面,使用Luoshu作為公共數(shù)據(jù)湖優(yōu)化組件,可以為同時為多套Hadoop集群上湖倉數(shù)據(jù)提供優(yōu)化服務(wù),用戶在使用過程中也無需進行除了表配頁碼:72/223置外的其他操作,即可無感知的對表進行優(yōu)化,無需在進行專職運維人員進行運維操作,極大的優(yōu)化了業(yè)務(wù)開發(fā)人員的使用體驗。4.2未來優(yōu)化方向在后續(xù)Luoshu的演進方向上,我們結(jié)合客戶的使用場景也會繼續(xù)進行一系列功能的增強和性能的優(yōu)化,主要包括:·優(yōu)化資源方面將自動化根據(jù)線上表優(yōu)化任務(wù)執(zhí)行統(tǒng)計信息自動化擴縮容優(yōu)化資源?!?yōu)化計劃生成方面將自動化識別巨量表,自動拉起單實例優(yōu)化任務(wù),來減小對其他表優(yōu)化的影響?!すδ軐用鎸Y(jié)合TBDS統(tǒng)一元數(shù)據(jù)服務(wù)將Index,Clustering等功能集成進入Luoshu實現(xiàn)湖倉智能加速,進一步提升上層計算引擎的查詢速度。后續(xù)我們也將繼續(xù)加強TBDSLuoshu在數(shù)據(jù)湖治理方面的能力,同時也將積極將這些功能回饋社區(qū),繼續(xù)推進湖倉一體架構(gòu)在更多的客戶業(yè)務(wù)中落地。騰訊云大數(shù)據(jù)始終致力于為各行業(yè)客戶提供輕快、易用,智能的大數(shù)據(jù)平臺。頁碼:73/223基于騰訊云BI構(gòu)建數(shù)據(jù)應(yīng)用底座引擎騰訊云BI作為新一代的數(shù)據(jù)分析BI,用戶只需要通過簡單的拖拽便能夠制作出豐富多樣的可視化信息,自由的對數(shù)據(jù)進行分析和探索。得益于積木式技術(shù)架構(gòu)設(shè)計,騰訊云BI可以作為企業(yè)的數(shù)據(jù)應(yīng)用消費引擎,支持通過低代碼的形式將數(shù)據(jù)接入,建模,數(shù)據(jù)分析,可視化,數(shù)據(jù)監(jiān)控以及推送等BI的一系列能力無縫融入到企業(yè)內(nèi)部系統(tǒng)中,幫助企業(yè)低成本的建設(shè)企業(yè)應(yīng)用系統(tǒng)中的數(shù)據(jù)應(yīng)用模塊。騰訊云BI能力矩陣頁碼:74/223多樣的系統(tǒng)集成方式在開始之前先可以先看一下客戶的集成效果(客戶將BI集成到自己的系統(tǒng)中作為數(shù)據(jù)分析及可視化的底座)??蛻粝到y(tǒng)集成案例話講回來,用戶通過什么方式實現(xiàn)上面的集成效果,騰訊云BI又是怎么幫助企業(yè)低成本建設(shè)數(shù)據(jù)應(yīng)用模塊的呢?我們給出的解決方案是通過提供sso/oauth的方式打通BI與企業(yè)系統(tǒng)的用戶體系使得BI成為業(yè)務(wù)自身系統(tǒng)矩陣的一份子,然后通過完備的開放API和SDK將BI的能力開放出去供其他系統(tǒng)進行調(diào)用。這樣一來使得BI支持低代碼進行數(shù)據(jù)分析可視化以及各種推送告警能力可以被直接遷移復(fù)用到業(yè)務(wù)中。接下來詳細介紹幾種集成方式。頁碼:75/223賬號體系集成賬號體系的集成融合是實現(xiàn)BI系統(tǒng)與業(yè)務(wù)自有軟件體系融合的基礎(chǔ)和關(guān)鍵能力之一。只有將自有系統(tǒng)的賬號體系登錄系統(tǒng)整合到一起,才能真正實現(xiàn)協(xié)同效應(yīng),將BI系統(tǒng)與業(yè)務(wù)自有軟件體系有機地結(jié)合,避免其成為孤立的服務(wù)存在。騰訊云BI提供了多種登錄方式,包括自有登錄、第三方賬號登錄和單點登錄等,這意味著您可以輕松地將騰訊云BI與您現(xiàn)有的業(yè)務(wù)賬號體系進行無縫連接,為業(yè)務(wù)系統(tǒng)與BI系統(tǒng)直接的互操作和協(xié)同提供支持?;隍v訊云BI賬號集成框架,已成功對接了面向外部私有化場景的坪山大數(shù)據(jù)門戶、虎牙OA、騰訊云私有化TCS、工體項目以及騰訊內(nèi)部OA,騰訊云等一系列用戶體系。頁碼:76/223騰訊云BI登錄框架BI自有登錄即使您不需要集成第三方登錄系統(tǒng),我們的BI平臺也提供了自有的登錄系統(tǒng),以確保用戶的便捷和安全。BI平臺支持多種登錄方式,包括賬號密碼和郵箱登錄。為了加強安全校驗,我們還提供了圖形驗證碼和短信驗證等方式。通過BI自有的登錄系統(tǒng),您可以方便地管理用戶賬號和登錄憑證,確保只有授權(quán)用戶能夠訪問系統(tǒng)。同時,我們的圖形驗證碼和短信驗證等安全措施,可以有效防止惡意登錄和未經(jīng)授權(quán)的訪問。其中短信驗證直接復(fù)用騰訊云短信平臺只需申請對應(yīng)產(chǎn)品使用權(quán)限即可服用無需額外開發(fā)。頁碼:77/223自有登錄通過騰訊云BI的登錄框架,任意一個登錄平臺只需要提供對應(yīng)的適配器實現(xiàn)即可完成對應(yīng)的賬號體系接入(適配器協(xié)議非常簡單)。嵌入分析集成在企業(yè)內(nèi)部系統(tǒng)中,通常存在大量的數(shù)據(jù)報表和交互分析頁面。按照傳統(tǒng)的開發(fā)方式,需要經(jīng)過運營、產(chǎn)品、設(shè)計、開發(fā)、測試和灰度上線等一系列流程來滿足正常需求的迭代開發(fā)。然而,通過騰訊云BI,產(chǎn)品可以自助完成整個頁面的配置,然后將配置好的頁面交給開發(fā)人員,開發(fā)人員只需將頁面嵌入到系統(tǒng)中即可,這樣綜合成本可以降低超過90%。相比傳統(tǒng)的數(shù)據(jù)應(yīng)用開發(fā)方式,這是一種徹底頁碼:78/223的轉(zhuǎn)變和提升。嵌入分析流程在嵌入分析過程中,解決數(shù)據(jù)安全問題是至關(guān)重要的。為了確保數(shù)據(jù)訪問不會越權(quán),數(shù)據(jù)信息不會擴散泄露。針對不同的場景提供了多種嵌入權(quán)限解決方案,以應(yīng)對這一問題。我們的目標是為用戶提供安全可靠的數(shù)據(jù)嵌入方案,保護數(shù)據(jù)免受未經(jīng)授權(quán)的訪問和泄露的風(fēng)險。嵌出頁權(quán)限控制頁碼:79/223儀表盤權(quán)限控制如果BI系統(tǒng)成功對接了宿主系統(tǒng)的賬號體系,可以直接利用BI自身的頁面權(quán)限管理模塊進行權(quán)限控制(由于處于同一賬號體系下,在BI上配置的權(quán)限在被集成的系統(tǒng)中會直接生效)。通過BI平臺,可以直接為用戶授權(quán)相應(yīng)的查看、編輯或下載等權(quán)限,以確保數(shù)據(jù)的安全和合規(guī)性。這樣一來,您可以方便地在BI平臺上進行權(quán)限管理,無需額外的復(fù)雜配置,提高了權(quán)限控制的效率和便捷性。權(quán)限管理行列權(quán)限控制在某些場景下,不同用戶對同一個頁面的數(shù)據(jù)有不同的訪問權(quán)限。例如,在銷售頁碼:80/223報表中,一線銷售只能查看自己的銷售數(shù)據(jù),而各級領(lǐng)導(dǎo)可以查看他們所管理的銷售數(shù)據(jù)。在這種情況下,僅僅依靠頁面級權(quán)限控制是不夠的。為了實現(xiàn)精準的權(quán)限控制,可以采用行列權(quán)限來限制用戶所能看到的數(shù)據(jù)結(jié)果。通過行權(quán)限控制,不同用戶只能看到符合其權(quán)限的數(shù)據(jù)。例如,一線銷售可以看到銷售人維度值為自身的數(shù)據(jù),而各級領(lǐng)導(dǎo)可以看到區(qū)域值為他們負責(zé)區(qū)域的數(shù)據(jù)(行列權(quán)限控制需要BI賬號體系與業(yè)務(wù)賬號體系進行融合,以確保權(quán)限的準確控制和數(shù)據(jù)的安全性)。行列權(quán)限處理流程頁碼:81/223行列權(quán)限配置界面自定義控制前面提到的方案均需要依賴統(tǒng)一的賬號體系,當然BI頁面嵌入到完全不相干的系統(tǒng)重也可以做到精細化的權(quán)限控制。若頁面相對固定且數(shù)據(jù)不敏感,可以通過BI平臺直接生成一個不鑒權(quán)的頁面鏈接嵌入到業(yè)務(wù)系統(tǒng)。頁碼:82/223普通嵌出對于那些對數(shù)據(jù)敏感且需要實現(xiàn)個性化訪問控制以及控制數(shù)據(jù)傳播范圍的場景,我們還提供了通過OpenAPI創(chuàng)建動態(tài)嵌入頁的解決方案。通過這種方式,嵌入系統(tǒng)可以根據(jù)當前觸發(fā)用戶的動態(tài)生成鏈接,并指定頁面的參數(shù)、有效時長和有效次數(shù)等信息。這樣一來,您可以實現(xiàn)千人千面的個性化訪問控制,確保每個用戶只能訪問其授權(quán)范圍內(nèi)的數(shù)據(jù)。同時,通過動態(tài)生成的鏈接,您可以有效地控制頁面的傳播范頁碼:83/223圍,確保數(shù)據(jù)的安全性和機密性。嵌出生成API(參考騰訊云BI文檔)我們能夠?qū)崿F(xiàn)這一效果的原因是,我們?yōu)槊總€分析鏈接創(chuàng)建了一個唯一且合法的令牌(token)。在這個令牌中,我們綁定了分享頁面的授權(quán)信息,包括頁面ID、變量的值信息、過期時間、可訪問次數(shù)等等。當用戶訪問分享頁面時,系統(tǒng)會要求用戶提供這個令牌作為唯一合法憑證進行訪問校驗。通過驗證令牌的有效性,我們可以確保只有授權(quán)用戶能夠訪問分享頁面,并且根據(jù)令牌中的授權(quán)信息限制訪問的范圍和權(quán)限。通過這種方式,我們能夠提供安全可靠的分享頁面訪問控制。每個令牌都是唯一的,并且包含了必要的授權(quán)信息,以確保數(shù)據(jù)的安全性和訪問的合法性。API集成除了嵌入式集成方式外,騰訊云BI還通過API提供了原子化能力的集成方式,以滿足更多的定制化需求。通過API,您可以更靈活地集成騰訊云BI的功能和服務(wù)。這種集成方式使您能頁碼:84/223夠根據(jù)具體需求,選擇性地調(diào)用和整合BI的各項能力,以實現(xiàn)更高的定制化和個性化。騰訊云BI在私有化以及公有云場景提供了兩套API解決方案,公有云采用了騰訊云平臺標準API框架,私有化場景提供了BI自有API框架。其中私有化環(huán)境下任意功能均可以開放API的形式調(diào)用。騰訊云BIAPI框架頁碼:85/223公有云API結(jié)語通過以上的介紹,相信大家對騰訊云BI的集成方式已經(jīng)有了充分的理解。我們可以看到,除了在BI平臺上使用BI的能力外,業(yè)務(wù)方還可以將BI作為自身的數(shù)據(jù)應(yīng)用底座引擎,通過集成BI的能力來快速構(gòu)建產(chǎn)品中的數(shù)據(jù)應(yīng)用模塊。當然,還有更多細節(jié)內(nèi)容等待大家親自實地體驗!我們歡迎您深入了解和體驗騰訊云BI的集成能力,以發(fā)掘更多的潛力和機會。無論是在BI平臺上使用BI的能力,還是將BI作為數(shù)據(jù)應(yīng)用底座引擎,我們都將為您提供全面的支持和技術(shù)指導(dǎo),以確保您的集成和應(yīng)用過程順利進行。騰訊云大數(shù)據(jù)始終致力于為各行業(yè)客戶提供輕快、易用,智能的大數(shù)據(jù)平臺。騰訊云ESRAG核心技術(shù)與應(yīng)用導(dǎo)讀:本文將介紹RAG標準和騰訊ES的技術(shù)實踐。主要內(nèi)容包括以下四大部分:1.RAG背景及標準制定2.ESRAG解決方案和優(yōu)勢3.騰訊云ESRAG能力增強4.騰訊云ESRAG應(yīng)用實踐分享嘉賓|任翔騰訊騰訊云大數(shù)據(jù)ES產(chǎn)品負責(zé)人編輯整理|張彬內(nèi)容校對|李瑤出品社區(qū)|DataFunRAG背景及標準制定頁碼:86/223頁碼:87/2231.搜索技術(shù)的演進在介紹RAG之前,首先來回顧一下搜索技術(shù)的演進,因為RAG與搜索技術(shù)的發(fā)展是緊密相關(guān)的。搜索是人們生活中的一個非?;A(chǔ)的需求,已滲透到生產(chǎn)生活的方方面面。在早期,真正的搜索技術(shù)問世之前,要檢索一些內(nèi)容通常要依靠分類管理。當時的檢索效率是非常低的,并且能夠檢索的數(shù)據(jù)規(guī)模也很小。直到倒排索引技術(shù)推出后,引發(fā)了一場革新,它推動了整個搜索效率的提升。倒排索引實現(xiàn)了秒級毫秒級的響應(yīng)速度,在TB甚至PB級的數(shù)據(jù)規(guī)模上快速查找反饋。然而倒排索引技術(shù)存在一個缺點,因為其本質(zhì)是基于關(guān)鍵字進行比較,所以還是限制在文本搜索的領(lǐng)域,對圖片、視頻的搜索無法實現(xiàn)。另外,它也無法很好地理解語義,比如搜索計算機和電腦這兩個詞,在關(guān)鍵字比較的維度里,它們會被認為是不一樣的。頁碼:88/223后來出現(xiàn)的向量化技術(shù)就很好地解決了語義理解的問題。向量化技術(shù)可以將文字或者圖片、視頻的特征進行提煉,形成多維向量。并通過在向量空間中計算這些向量之間的距離關(guān)系,比如歐式距離等,判斷兩個內(nèi)容之間的相關(guān)性。這樣就極大地拓展了搜索的范圍,可以支撐對圖片、視頻等多模態(tài)內(nèi)容的檢索。到此為止,仍屬于傳統(tǒng)搜索的范疇。因為在用戶提出一個問題之后,返回的還是一個結(jié)果的列表。需要用戶在這個結(jié)果列表里面自己去進行分析總結(jié),最后得到想要的答案。整體的效率仍然是比較低的,而實際上人們更希望搜索的反饋能夠直接給出問題的答案。隨著近年來AI技術(shù)的爆發(fā),Transformer等深度的基于注意力神經(jīng)網(wǎng)絡(luò)的技術(shù)的出現(xiàn),又一次革命性地推動了整個搜索技術(shù)的演進。如今,大模型已經(jīng)可以從非常海量數(shù)據(jù)中搜索我們問題相關(guān)的內(nèi)容,并且進行總結(jié)提煉,非常好地回答我們的問題。企業(yè)非常希望將這一技術(shù)進步應(yīng)用到實際生產(chǎn)中,然而實踐過程中我們發(fā)現(xiàn)仍存在著種種障礙。這就是RAG技術(shù)出現(xiàn)的原因,它可以作為一個橋梁幫助我們更好地解決搜索的問題。2.RAG檢索增強生成頁碼:89/223RAG的英文全稱為RetrievalAugmentedGeneration,即檢索增強生成。它是通過檢索一個外部的知識庫,來改善大模型的內(nèi)容生成效果。我們知道,大模型是一個預(yù)訓(xùn)練模型,是預(yù)先訓(xùn)練好的,這也帶來了一些問題,在訓(xùn)練好時,其知識也就停留在了那一刻,之后發(fā)生的事情它可能就不知道了。另外,大模型檢索的是互聯(lián)網(wǎng)上公開的一些信息,而它對企業(yè)或行業(yè)特有的一些知識是缺乏的。這些問題導(dǎo)致大模型常常出現(xiàn)幻覺。RAG技術(shù)就提供了一種方案,企業(yè)可以把本地的一些專業(yè)知識提交給大模型,而不需要投入海量的計算資源去重新做預(yù)訓(xùn)練,就可以讓大模型更好地回答專業(yè)領(lǐng)域的各種問題。RAG現(xiàn)在主要的應(yīng)用場景包括知識問答、智能客服、專家系統(tǒng)等等。頁碼:90/2233.信通院檢索增強生成RAG技術(shù)標準為了幫助企業(yè)了解如何搭建一個RAG應(yīng)用,信通院組織了四十余家企業(yè)共同編寫了《檢索增強生成(RAG)技術(shù)要求》標準。該標準包含了知識庫的構(gòu)建、知識的檢索、內(nèi)容生成、質(zhì)量評估、平臺能力等五大能力域,17個能力子域,50個能力項。這里特別值得提到的是,騰訊云是其中的一個核心企業(yè),也是首個通過RAG權(quán)威標準認證的企業(yè)。騰訊云ES是國內(nèi)公有云首個能夠?qū)崿F(xiàn)從自然語言處理到向量生成/存儲/檢索,并與大模型集成的端到端的一站式技術(shù)平臺。接下來將詳細介紹ESRAG解決方案。頁碼:91/223ESRAG解決方案和優(yōu)勢1.Elasticsearch(簡稱ES):海量數(shù)據(jù)搜索和分析引擎ES的全稱是Elasticsearch,它是全球目前排名第一的搜索引擎。在國內(nèi)應(yīng)用也非常廣泛。ES的一大特點是采用分布式,所以能夠處理海量數(shù)據(jù)。針對搜索方面,ES具有全文檢索、向量檢索以及RAG等關(guān)鍵搜索技術(shù)。2.ES在RAG領(lǐng)域的一站式解決方案頁碼:92/223ES在RAG領(lǐng)域的解決方案如上圖所示。一個傳統(tǒng)的用法就是當用戶有一個問題的時候,將問題直接提交給大模型,大模型根據(jù)自己的知識去給出回答。如果遇到企業(yè)私域信息,大模型不知道答案,那么ES就會通過RAG方案,將問題給到我們的知識庫。知識庫中不僅有文本,還會有圖片、視頻,我們會提前把這些內(nèi)容進行向量化。在檢索過程中,進行文本和向量的聯(lián)合召回,得到一個TopNlist。把這個list和用戶自己的問題一起構(gòu)成一個prompt,再提交給大模型。這時,大模型就可以很好地去回答這個問題了。3.ES擁有你所需的所有功能頁碼:93/223和目前其它一些技術(shù)方案不同的是,ES不需要依賴多個技術(shù)棧去配合,在一個ES技術(shù)棧里面就結(jié)合了向量生成、存儲、索引、檢索以及大模型等多項技術(shù),因此可以大幅降低成本。RAG的關(guān)鍵技術(shù)之一就是向量化。和傳統(tǒng)的向量數(shù)據(jù)庫相比,ES不僅可以實現(xiàn)向量的存儲和搜索向量的生成,同時還支持混合搜索、模型的靈活選擇和部署、聚合分析,以及基于權(quán)限的一些管理等等。4.向量轉(zhuǎn)換頁碼:94/223在ES中,向量轉(zhuǎn)換非常靈活。首先ES中包含內(nèi)置優(yōu)化的模型,比如ELSER和Multigual-e5。另外它也支持第三方模型,可以將第三方模型部署到ES上,也可以基于inferenceAPI,直接去調(diào)用在OpenAI和HuggingFace上的模型,實現(xiàn)在線的向量轉(zhuǎn)換。5.召回排序頁碼:95/223在召回排序方面,目前,對文本和向量混合檢索的召回排序還存在一定挑戰(zhàn)。因為傳統(tǒng)的方法中,我們需要將不同維度召回的信息進行歸一化處理,而歸一化的評分尺度、分布的差異,這些都會對最后的排序帶來挑戰(zhàn)和質(zhì)量上的影響。ES中已經(jīng)內(nèi)置了RRF導(dǎo)數(shù)融合排序,以及LTR基于模型的排序能力。一方面是更加便捷,另一方面其成熟度也為網(wǎng)絡(luò)排序質(zhì)量提供了更好的保證。6.混合搜索再來看一下混合搜索。向量搜索具有諸多優(yōu)勢,比如可以更好地理解和處理自然語言,通過上下文更好地理解語義關(guān)系。并且因為是基于語義理解,所以可以輕松實現(xiàn)跨語言。另外還頁碼:96/223可以支持圖片、視頻等多模態(tài)的搜索。同時我們也看
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年滬教新版七年級生物上冊階段測試試卷含答案
- 銀行財務(wù)風(fēng)險管理手冊制定
- 陶瓷制品生產(chǎn)合伙協(xié)議
- 2024年華東師大版七年級物理上冊階段測試試卷
- 農(nóng)村電力設(shè)施改造協(xié)議
- 2024年魯科版九年級科學(xué)上冊月考試卷含答案
- 智能交通安全及文明施工承諾書
- 建筑改造灰工施工合同
- 配音演員離婚協(xié)議書格式
- 地鐵站連廊擴建項目合同
- 啟明計劃工信部青年人才
- 居家服侍老人協(xié)議書
- 2024年-(多附件條款版)個人汽車租賃給公司合同電子版
- 建工意外險培訓(xùn)課件
- 三年級必讀書目《格林童話》閱讀測試題(附答案)
- 人口老齡化社會的挑戰(zhàn)與機遇
- 三級(高級)電子商務(wù)師理論考試題庫含答案
- 社區(qū)宣傳工作方案及措施
- 安全教育主題班會:防恐怖、防極端、防不法侵害
- 乳業(yè)市場督導(dǎo)總結(jié)匯報
- 銀行市場份額提升方案
評論
0/150
提交評論