騰訊云工具指南第八期:RAG技術(shù)應(yīng)用與實踐 2024_第1頁
騰訊云工具指南第八期:RAG技術(shù)應(yīng)用與實踐 2024_第2頁
騰訊云工具指南第八期:RAG技術(shù)應(yīng)用與實踐 2024_第3頁
騰訊云工具指南第八期:RAG技術(shù)應(yīng)用與實踐 2024_第4頁
騰訊云工具指南第八期:RAG技術(shù)應(yīng)用與實踐 2024_第5頁
已閱讀5頁,還剩83頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Tencent騰訊ICo騰訊云·騰訊云工具指南08期A技術(shù)派技術(shù)AI時代如何更好激活數(shù)據(jù)價值騰訊云數(shù)據(jù)庫副總經(jīng)理羅云..............................................................................................0402如何讓大模型看懂文檔——RAG實踐中的文檔解析 07如何讓大模型理解用戶問題——RAG實踐中的檢索優(yōu)化 13如何讓大模型理解長文本——RAG實踐中的閱讀理解技術(shù)優(yōu)化 22如何讓大模型看懂圖片/視頻——RAG實踐中的多模態(tài)問答 30用向量數(shù)據(jù)庫實現(xiàn)云原生架構(gòu)的三種AIGC方案作業(yè)幫架構(gòu)研發(fā)工程師許春旭 37用AI代碼助手實現(xiàn)金融科技研發(fā)安全智能化招商證券技術(shù)平臺開發(fā)&金投業(yè)務(wù)開發(fā)負(fù)責(zé)人譚成鑫 40用知識引擎打造榕博士提升電氣行業(yè)設(shè)計效能萬榕信息總經(jīng)理黃帥 42PARTPART01序AI時代如何更好激活數(shù)據(jù)價值A(chǔ)I時代如何更好激活數(shù)據(jù)價值騰訊云數(shù)據(jù)庫副總經(jīng)理羅云AI時代下,數(shù)據(jù)庫作為IT技術(shù)領(lǐng)域的“活化石”,已成為不可或缺的數(shù)據(jù)資產(chǎn)。隨著大語言模型持續(xù)增強,數(shù)據(jù)將逐漸數(shù)據(jù)處理主要有兩個“一公里”的挑戰(zhàn):在客戶采集側(cè)的第一公里,采集源紛繁雜亂、格式多樣,難以進(jìn)行規(guī)范化管理、入庫、建模;而在用戶使用側(cè)的最后一公里,需要對數(shù)據(jù)進(jìn)行組合分析跟聯(lián)動使用,這同樣對數(shù)據(jù)泛化處理提出挑戰(zhàn)。從現(xiàn)在看,數(shù)據(jù)向量化是泛化能力最合適的數(shù)據(jù)格式。數(shù)據(jù)的存儲管理是逐步迭代的過程,在1.0階段,騰訊云強調(diào)小步快跑,盡快讓客戶使用起來才能更好發(fā)現(xiàn)向量化技術(shù)的痛點,這時候騰訊云采用傳統(tǒng)的raft技術(shù)存儲計算在單節(jié)點投入使用。StorageNodeMasterANNIndexSegementNode...PartitionYPartitionZPartitionxFollowerFollowerSegmentSegmentRaftGroupCOS(ANNIndex)IndexStorageNodeMasterANNIndexSegementNode...PartitionYPartitionZPartitionxFollowerFollowerSegmentSegmentRaftGroupCOS(ANNIndex)IndexBuilderMasterANNIndexReverseIndexRocksDBFollowerFollowerMasterFollowerFollowerMasterFollowerFollowerMasterANNIndexReverseIndexRocksDBFollowerFollowerMasterFollowerFollowerMasterFollowerFollowerShard-Shard...1Shard-0RaftGroup1.0階段:單節(jié)點raft2.0階段:獨立向量檢索workload模塊三、超過90%的召回率才能投入使用向量數(shù)據(jù)的處理是全鏈路的,通過長文本分段、選擇向量化模型、分段存儲檢索等過程,才能把非結(jié)構(gòu)化數(shù)據(jù)變成最后可以被檢索的數(shù)據(jù)。端到端疊加起來,召回率在70%以下不能用于生產(chǎn)。騰訊云RAG技術(shù)實踐·AI時代如何更好激活數(shù)據(jù)價值/04騰訊云團(tuán)隊通過微調(diào)、內(nèi)部向量大模型,提供一站式多模態(tài)端到端入庫能力。這些端到端的RAG應(yīng)用檢索方案,讓文本召回率達(dá)到80%,甚至95%,在一定程度上滿足企業(yè)生產(chǎn)可用。端到端文本召回率集成Embedding,實現(xiàn)自然語言查詢Embedding推理加速511數(shù)據(jù)采集平臺VDC:端到端的RAG應(yīng)用檢索方案,文本召回率80%+在過去計算機歷史上,我們儲存大量的數(shù)據(jù),包括結(jié)構(gòu)化、非結(jié)構(gòu)化,存儲在關(guān)系型、非關(guān)系型數(shù)據(jù)庫上,如何更好的激活使用難度很大。把全部數(shù)據(jù)向量化相當(dāng)于把整個系統(tǒng)都改造一遍,成本高且性價比低?,F(xiàn)在主流的方式是通過在數(shù)據(jù)庫上疊加一套SaaS產(chǎn)品,也就是數(shù)據(jù)庫生態(tài)工具。這些工具采用白屏化的方式讓開發(fā)者更好管理。但他適用于開發(fā)者,對于普通大眾而言,SQL語言的理解、數(shù)據(jù)庫的使用門檻還是很高。CloudDBAssistant:基于大語言模型的騰訊云數(shù)據(jù)庫專家騰訊云認(rèn)為,將數(shù)據(jù)庫體系上層抽象有一個基于自然語言統(tǒng)一入口的產(chǎn)品形態(tài),對于我們的存量數(shù)據(jù)非常重要,實現(xiàn)用自然語言去做數(shù)據(jù)庫診斷以及運維。目前,騰訊云推出CloudDBAssistant助手,未來希望通過自然語言方式迭代白屏化技術(shù),通過自然語言和數(shù)據(jù)資產(chǎn)進(jìn)行交互。Assistant騰訊云RAG技術(shù)實踐·AI時代如何更好激活數(shù)據(jù)價值/05PARTPART02技術(shù)解析但破除幻覺,RAG依然是最可靠的解決方案。如何提升RAG的召回率、工程效率與可用性,需要先了解RAG的整體實現(xiàn)過程。我們通過文檔解析,檢索優(yōu)化,閱讀理解,多模態(tài)讓RAG真正為大模型所用。技術(shù)解析——RAG實踐中的文檔解析——RAG實踐中的文檔解析如何讓大模型看懂文檔?什么是文檔解析?將不可編輯的文檔轉(zhuǎn)換為Markdown的結(jié)構(gòu)化形式多種文檔元素:表格、公式、圖片等多種文檔元素為什么要做文檔解析?傳統(tǒng)OCR存在不足多種排版形式:多欄、內(nèi)容混排等復(fù)雜排版的文檔版面分析+規(guī)則排序按順序生成文本傳統(tǒng)解法版面分析+規(guī)則排序按順序生成文本類型的交叉熵坐標(biāo)的iou損失全局編輯距離損失坐標(biāo)的iou損失全局編輯距離損失 順序熵 文檔解析模型 文檔解析模型DREAM難點1: 復(fù)雜排版圖像特征提取元素特征聚合 復(fù)雜排版圖像特征提取元素特征聚合元素并行生成實現(xiàn)價值算法創(chuàng)新內(nèi)容生成賦予上下文語義感知方案優(yōu)勢解決元素排序?qū)崿F(xiàn)價值應(yīng)用價值支持8類排版的元素順序復(fù)原傳統(tǒng)解法傳統(tǒng)解法關(guān)系特征穩(wěn)定生成表穩(wěn)定生成表結(jié)構(gòu)線重組技術(shù)原理線重組3個典型痛點預(yù)測行列間隔線3個典型痛點預(yù)測行列間隔線候選組件提取表格識別模型GrabTab難點2:復(fù)雜圖表難點2:'—解法步驟分割proposal生成'—解法步驟多組件協(xié)同算法創(chuàng)新方案優(yōu)勢應(yīng)用價值實現(xiàn)價值 融合行列關(guān)系特征和元素特征 算法創(chuàng)新方案優(yōu)勢應(yīng)用價值實現(xiàn)價值 支持有線、無線、少線表的復(fù)原傳統(tǒng)解法 基于多能力拼接的方法傳統(tǒng)解法騰訊云解法 基于識別模型直接預(yù)測的方案難點3:解法步驟 子圖子公式增加坐標(biāo)token實現(xiàn)騰訊云解法 基于識別模型直接預(yù)測的方案難點3:解法步驟 子圖子公式增加坐標(biāo)token實現(xiàn)價值算法創(chuàng)新方案優(yōu)勢應(yīng)用價值 公式的latex內(nèi)容,預(yù)測子圖坐標(biāo) 避免多能力拼接導(dǎo)致的精度損失圖像識別指標(biāo)達(dá)到約95%公式識別達(dá)到85%一篇文章的實現(xiàn)過程定位圖像中的版面元素定位圖像中的版面元素的位置、順序和類型使用表格識別將表格圖使用表格識別將表格圖像轉(zhuǎn)為具有行列關(guān)系的結(jié)構(gòu)化信息通過文本識別識別圖像通過文本識別識別圖像中的文字信息騰訊云RAG技術(shù)實踐·如何讓大模型看懂文檔/07技術(shù)解析——RAG實踐中的文檔解析將不同格式文檔轉(zhuǎn)換為Markdown的結(jié)構(gòu)化形式,識別文檔內(nèi)的段落、表格、公式、標(biāo)題、頁眉、頁腳、子圖等文檔元素的內(nèi)容及閱讀順序。突破傳統(tǒng)OCR對復(fù)雜文檔元素及排版結(jié)構(gòu)的解析。普遍文檔會以WORD、PDF、圖片格式存在,除了word外其他兩者難以轉(zhuǎn)化成可編輯的富文本信息,無法支持大模圖片等多種文檔元素;2)多欄、內(nèi)容混排等復(fù)雜排版的文檔。所以,需要文檔解析功能介入。普遍文檔存在形式文檔解析與OCR效果對比騰訊云RAG技術(shù)實踐·如何讓大模型看懂文檔/08技術(shù)解析——RAG實踐中的文檔解析第二步系的結(jié)構(gòu)化信第二步系的結(jié)構(gòu)化信息。第三步通過文本識別識別第一步第四步第四步將多種版面元素識別的結(jié)果按照閱讀順序整合成Mark-down內(nèi)容。難點一:復(fù)雜排版帶來的閱讀順序問題文檔解析結(jié)果是要作為大模型輸入,因此要保證版面元素閱讀順序正確,確保輸入大模型上下文內(nèi)容連貫。然而客戶入庫文檔版式眾多,而傳統(tǒng)解析引擎只能解決簡單排版如橫向多欄、縱向多欄,無法處理如圖文環(huán)繞等復(fù)雜排版。騰訊云RAG技術(shù)實踐·如何讓大模型看懂文檔/09技術(shù)解析——RAG實踐中的文檔解析主要缺點主要缺點難以解決圖文表混排等復(fù)雜排版場景下僅能排序文字,無法處理其他類型的文檔元素;細(xì)粒度自回歸性能較差主要優(yōu)點實現(xiàn)快捷,性能較高能夠較好實現(xiàn)純文字方案說明輸入圖像,基于版面分析定位不同文檔元素,再通過規(guī)則排序技術(shù)方案輸入無序文本識別內(nèi)容,騰訊云智能解法:基于自回歸并行解碼的文檔解析模型DREAM通過文檔重建損失來做優(yōu)化,包括類型的交叉熵、坐標(biāo)的iou損失、內(nèi)容的轉(zhuǎn)錄約束,以及全局編輯距離損失來做順序step1將輸入圖片做patchembedding,然后送入到imageencoder來做imagestep1將輸入圖片做patchembedding,然后送入到imageencoder來做imagefeatureextraction;step2預(yù)設(shè)了N個queries來代表版面元素特征,再通過與圖像特征的crossattention來對元素特征聚合生成每個元素的類型、坐標(biāo)、轉(zhuǎn)錄內(nèi)容為了實現(xiàn)加速并行解碼:將圖片特征拷貝成多份,同時將元素特征reshape,然后自回歸地生成每個元素的信息。~ybstep3c~y6實現(xiàn)價值:算法創(chuàng)新:基于自回歸并行解碼,以粗粒度穩(wěn)定生成版面元素的位置及順序,輔以內(nèi)容生成賦予上下文語義感知。方案優(yōu)勢:效果上限高,可以解決各種復(fù)雜排版的元素排序問題,對于圖文表混排等難例場景更具優(yōu)勢。應(yīng)用價值:在文檔解析業(yè)務(wù)測試集上的元素排序指標(biāo)達(dá)到約85%,支持8類排版的元素順序復(fù)原。難點二:復(fù)雜表格結(jié)構(gòu)難以處理由于不同類型的表格(如有線表、無線表、少線表)的視覺特征存在差異,因此保證模型的泛化效果需要同時兼顧對不同特征的理解能力。傳統(tǒng)解析引擎只能解決結(jié)構(gòu)簡單表格,無法應(yīng)對復(fù)雜表格結(jié)構(gòu)。騰訊云RAG技術(shù)實踐·如何讓大模型看懂文檔/10技術(shù)解析——RAG實踐中的文檔解析主要優(yōu)點主要優(yōu)點各獨立場景精度方案說明通過邊界提取或元素關(guān)系利用自回歸模型端到端生成表格行列結(jié)構(gòu)主要缺點解決部分場景,存在效果瓶頸;方案優(yōu)化成本高預(yù)測結(jié)果不穩(wěn)定,在較復(fù)雜的表格場景下的技術(shù)方案騰訊云智能解法:step1候選組件提取,包括元素特征和關(guān)系特征,元素特征包括每feature、layoutstep1候選組件提取,包括元素特征和關(guān)系特征,元素特征包括每feature、layoutfeature、textfeature,關(guān)系特征是每個元素間的relation信息。step4表格結(jié)構(gòu)生成,基于橫縱separator,通過兩兩組合來生成括start__row、start__col、step2step2分割proposal生成,定義橫縱的表格線proposal信息,先通過與圖像特征的crossattention來對生成后separator的信息,然后step3step3多組件協(xié)同,基于已提取的separatorfeature,分別通separatorelementtokens的 elementtokens的 crossattention和relationtokens的crossattention來進(jìn)一步提升表格線separator生成每個separator的貝塞爾曲線系數(shù)。騰訊云RAG技術(shù)實踐·如何讓大模型看懂文檔/11技術(shù)解析——RAG實踐中的文檔解析實現(xiàn)價值:算法創(chuàng)新:基于特征協(xié)同,通過行列關(guān)系特征和元素特征的融合以預(yù)測行列間隔線,并通過線重組生成穩(wěn)定表格結(jié)構(gòu)。方案優(yōu)勢:多特征融入提升結(jié)構(gòu)預(yù)測精度,并通過單模型應(yīng)對多場景以快速迭代,在更具挑戰(zhàn)的場景下效果更好。應(yīng)用價值:在文檔解析業(yè)務(wù)測試集上的表格識別指標(biāo)達(dá)到約89%,支持有線、無線、少線表的復(fù)原。難點三:如何支持子元素識別客戶真實場景需要解析文檔中的子圖、公式,但該類子元素與文字內(nèi)容耦合度高,且類型不收斂。技術(shù)方案技術(shù)方案定位文本行內(nèi)的公式、騰訊云智能解法:公式識別能力識別公式能力解偶,獨立優(yōu)化傳遞誤差較大,規(guī)則需要頻繁適配方案說明主要優(yōu)點主要缺點采用基于識別模型直接預(yù)測的方案,避免多能力拼接導(dǎo)致的精度損失,效果上限較高,且實現(xiàn)較簡單。對于公式,在常規(guī)文字識別基礎(chǔ)上,增加對文本行內(nèi)公式的latex內(nèi)容輸出。實現(xiàn)價值:算法創(chuàng)新:在常規(guī)的文字識別基礎(chǔ)上,增加對文本行內(nèi)的公式的latex內(nèi)容輸出,并預(yù)測行內(nèi)的子圖坐標(biāo)。方案優(yōu)勢:避免多能力拼接導(dǎo)致的精度損失,效果上限較高,且實現(xiàn)較簡單。應(yīng)用價值:在文檔解析業(yè)務(wù)測試集上的圖像識別指標(biāo)達(dá)到約95%,公式識別達(dá)到約85%。騰訊云RAG技術(shù)實踐·如何讓大模型看懂文檔/12技術(shù)解析——RAG實踐中的檢索優(yōu)化——RAG實踐中的檢索優(yōu)化如何讓大模型理解用戶問題?查詢查詢改寫分解查詢離線文檔語義切分語義搜索檢索結(jié)構(gòu)化搜索基于seq2seq方法業(yè)內(nèi)解法速度較快但模型復(fù)雜效果不盡如人意查詢改寫騰訊云智能解法Few-shot以及COT方法訓(xùn)練和推理準(zhǔn)確率高騰訊云智能解法查詢改寫多重查詢多重查詢把問題分解成多個子問題查詢改寫查詢分解使用查詢分解解決主題混合與并列查詢偽文檔嵌入引入對術(shù)語或者專業(yè)名詞的解釋通過偽文檔檢索回相關(guān)信息文檔語義切分學(xué)術(shù)界方案只支持一級切片,無法兼顧檢索和大模型生成開源方案缺乏通用性、對參數(shù)敏感文本易被截斷文檔語義切分檢索優(yōu)化的四個方式生成式模型做切分任務(wù),可處理長文本,效果更佳騰訊智能云解法:多級文檔切分檢索優(yōu)化的四個方式生成式模型做切分任務(wù),可處理長文本,效果更佳搜索策略一:混合搜索MAE-style訓(xùn)練搜索策略二:以小搜大MAE-style訓(xùn)練搜索策略二:以小搜大語義向量檢索搜索策略三:相關(guān)性排序Agent選擇器:從眾多表中選擇相關(guān)表和列標(biāo)準(zhǔn)表格檢索-Text2SQLAgent標(biāo)準(zhǔn)表格檢索-Text2SQL 結(jié)構(gòu)化數(shù)據(jù)檢索Agent優(yōu)化器:使用外部工具執(zhí)行SQL 結(jié)構(gòu)化數(shù)據(jù)檢索非標(biāo)準(zhǔn)表格檢索-小搜大大語言模型對表格進(jìn)行摘要,來獲取相關(guān)表格,經(jīng)過一定加工,送給大模型生成回復(fù)騰訊云RAG技術(shù)實踐·如何讓大模型理解用戶問題/13技術(shù)解析——RAG實踐中的檢索優(yōu)化檢索技術(shù)主要兩部分,一部分是查詢,一部分是檢索,查詢包括查詢改寫和分解以及離線文檔語義切分,檢索包括結(jié)構(gòu)化搜索與語義搜索,前者是根據(jù)文本生成sql,在關(guān)系型數(shù)據(jù)庫中檢索內(nèi)容,后者是根據(jù)文本生成embedding向量,在離線構(gòu)建好的向量數(shù)據(jù)庫中檢索內(nèi)容。213用戶查詢問題經(jīng)常因為多輪提問出現(xiàn)關(guān)鍵詞缺失、主體不明等問題,需要通過RAG實現(xiàn)完整表達(dá),具體策略包括:多輪1、查詢改寫需要結(jié)合上下文對當(dāng)前輪用戶查詢內(nèi)容把當(dāng)前查詢改寫為一個語義完整的新問題,完成指代消解和信息補全。指代消解信息補全指代消解騰訊云RAG技術(shù)實踐·如何讓大模型理解用戶問題/14技術(shù)解析——RAG實踐中的檢索優(yōu)化騰訊云智能解法:騰訊云智能解法:基于大模型,應(yīng)用Few-shot以及COT方法訓(xùn)練和推理,準(zhǔn)確率高。業(yè)內(nèi)解法:基于seq2seq的方法,通過指針生成網(wǎng)絡(luò),首先識別歷史對話中遺漏的單詞,然后在組合階段根據(jù)遺漏的單詞改寫當(dāng)前的問題。優(yōu)點是速度較快,但是模型復(fù)雜,效果相對來說不盡如人意。遺漏的單詞NPN遺漏的單詞2、多重查詢與查詢分解用戶查詢往往存在視角單一、多主體混合、并列查詢等問題,這些問題都會影響模型的回使用查詢分解解決主題混合與并列查詢。氣候變化的影響氣候變化的影響多重查詢多重查詢Answer是多少?哪個的star更多?在GitHub上,A和B是多少?哪個的star更多?在GitHub上,A和Bstar分別Query合并檢索結(jié)果A在GitHubA在GitHub上有多少star?B在GitHubB在GitHub上有多少star?查詢分解查詢分解騰訊云RAG技術(shù)實踐·如何讓大模型理解用戶問題/15技術(shù)解析——RAG實踐中的檢索優(yōu)化3、偽文檔嵌入用戶問題包含專業(yè)名詞或縮寫,直接使用時無法直接從知識庫中檢索到信息。引入對術(shù)語或者專業(yè)名詞的解釋通過偽文檔檢索從知識庫中檢索回相關(guān)信息。ROEROE代表的是“股東權(quán)益回報率”,是一個衡量公司盈利能力的財務(wù)比率,顯示了公司能夠用自己股東的資金賺取多少利潤。計算公式為:ROE=凈利潤/平均股東權(quán)益。這個指標(biāo)…Query:金融領(lǐng)域中的ROE指的是什么?Query向量三、文檔語義切分:將知識源以大模型適合回答的形將文檔這種典型的知識源切分成適合檢索以及適合大模型回答的片段,業(yè)界的學(xué)):使用Transformer對文檔內(nèi)容進(jìn)行編碼,將編碼后的向量進(jìn)行分類以判斷該句子是否為一個片段的開始?;谀P偷姆椒〞紤]語義信息,可以一定程度上緩解基于規(guī)則方法缺一級片段一級片段Subseg1Subseg1Index1Index1SubsegmentSubseg2Subseg2IndexingIndex2Index2Subseg3Subseg3Index3Index3騰訊云RAG技術(shù)實踐·如何讓大模型理解用戶問題/16技術(shù)解析——RAG實踐中的檢索優(yōu)化):根據(jù)標(biāo)點符號切分根據(jù)標(biāo)點符號切分文本截取錯誤文檔切分模塊輸出粒度粗的一級片段和粒度細(xì)的二級片段兩個結(jié)果,一級片段包含完整語義信息,內(nèi)部可包含若干個連采用生成式模型做切分任務(wù),可以處理非常長的文本,效果更佳。騰訊云RAG技術(shù)實踐·如何讓大模型理解用戶問題/17技術(shù)解析——RAG實踐中的檢索優(yōu)化騰騰訊云智能采用基于MAE-style的訓(xùn)應(yīng)用RoPE位置編碼,使模型能支持更大規(guī)模弱監(jiān)督訓(xùn)練、有監(jiān)督訓(xùn)練的三階段搜索策略一:混合搜索雖然現(xiàn)在向量搜索是大模型搜索助理,但面對短文本、少Q(mào)uery:特斯拉人形機器人硬件成本具體是多少錢,離馬斯克理想的價格還有多少距離?Query:特斯拉人形機器人硬件成本具體是多少錢,離馬斯克理想的價格還有多少距離?Rerank騰訊云RAG技術(shù)實踐·如何讓大模型理解用戶問題/18技術(shù)解析——RAG實踐中的檢索優(yōu)化搜索策略二:以小搜大大預(yù)言模型支持的文本長度越來越長,但隨著文本長度增長,成本會越來越高,相應(yīng)效果卻越來越差;小切粉容易將信息長文本準(zhǔn)確率效果差切分成三級結(jié)構(gòu),通過檢索二級片段,將Top-K二級片段中超過n個同屬一個一級片段的二級片段用一級片段替換,以QueryQuery:破壁機器人如何安裝?一級片段輸出檢索出二級片段騰訊云RAG技術(shù)實踐·如何讓大模型理解用戶問題/19技術(shù)解析——RAG實踐中的檢索優(yōu)化搜索策略三:相關(guān)性排序必要性:通過向量檢索或者混合檢索可能會檢索到大量上必要性:通過向量檢索或者混合檢索可能會檢索到大量上通過Reranker模型對文檔進(jìn)行重排,重新排序和篩選文檔,將相關(guān)內(nèi)容置于前列,提高RAG效果,訓(xùn)練大語言模型檢索評估器估計檢索到的文檔與查詢的相關(guān)性,做進(jìn)結(jié)構(gòu)化檢索有別于語義檢索,主要針對知識已經(jīng)以結(jié)構(gòu)化形勢保存下來的相關(guān)場景,如各大企業(yè)的數(shù)據(jù)源,目前主流形式SQL、Cipher過大語言模型轉(zhuǎn)換為目前主流解法:數(shù)據(jù)庫提供對應(yīng)查詢方法,如使用SQLSQL、Cipher過大語言模型轉(zhuǎn)換為目前主流解法:數(shù)據(jù)庫提供對應(yīng)查詢方法,如使用SQL查詢MySQL,使用Cipher查詢Neo4j等。將文本查詢通等語言,進(jìn)行準(zhǔn)確查詢1、標(biāo)準(zhǔn)表格檢索-Text2SQL基于大語言模型的多智能體(Multi-Agent●該框架由三個Agent組成:(圖解下面)騰訊云RAG技術(shù)實踐·如何讓大模型理解用戶問題/20技術(shù)解析——RAG實踐中的檢索優(yōu)化Agent選擇器:從眾多表中選擇相關(guān)表和Agent優(yōu)化器:使用外部工具執(zhí)行SQL并獲取反饋,根據(jù)反饋信息優(yōu)化錯誤的SQL。2、非標(biāo)準(zhǔn)表格檢索-小搜大Text2SQL無法解決不規(guī)范的表格(如Merged、Nested表格)通過大語言模型對表格進(jìn)行摘要,通過檢索摘要來獲取相關(guān)表格。再把檢索到的表格經(jīng)過一通過大語言模型對表格進(jìn)行摘要,通過檢索摘要來獲取相關(guān)表格。再把檢索到的表格經(jīng)過一對于超過大語言模型能夠支持最大長度的表格,分為子切片,通過作為知識送給大模騰訊云RAG技術(shù)實踐·如何讓大模型理解用戶問題/21技術(shù)解析——RAG實踐中的閱讀理解技術(shù)優(yōu)化——RAG實踐中的閱讀理解技術(shù)優(yōu)化方法一:prompt工程回答效果通常不能滿足專業(yè)需求消除大模型ToB場景幻覺四種解法消除大模型ToB場景幻覺四種解法方法三:RAG+prompt工程1.無法理解復(fù)雜語義的方法三:RAG+prompt工程2.答案精度無法高效完成指定任務(wù)騰訊云智能解法精調(diào)知識型閱讀理解大模型準(zhǔn)確性C騰訊云智能解法精調(diào)知識型閱讀理解大模型可靠性在RAG場景符合toB業(yè)務(wù)邏輯的指令遵循能力來源可追溯、答案內(nèi)容可控可靠性如何讓大模型理解長文本如何讓大模型理解長文本通用長文本閱讀理解基于行業(yè)數(shù)據(jù)的有監(jiān)督精調(diào)基于RAG任務(wù)的有監(jiān)督精調(diào)通用長文本閱讀理解增強專業(yè)知識的理解能力符合專業(yè)領(lǐng)域的回復(fù)范式構(gòu)造RAG場景下的訓(xùn)練樣本客服問答,常需推理計算的場景典型場景教育場景,通過知識引擎檢索教學(xué)知識點 閱讀理解CoT閱讀理解場景的思維鏈訓(xùn)練:結(jié)合業(yè)務(wù)場景推理任的數(shù)據(jù)構(gòu)建 閱讀理解CoT典型場景零售銷售看板金融產(chǎn)品問訊典型場景騰訊云精調(diào)大模型四個應(yīng)用場景騰訊云精調(diào)大模型四個應(yīng)用場景難點表格理解綜合多點知識分析結(jié)構(gòu)化數(shù)據(jù)輸出表文混合閱讀理解難點表格理解根據(jù)業(yè)務(wù)特點構(gòu)造指令數(shù)據(jù)知識抽取表格總結(jié)邏輯推理數(shù)值比較表格生成根據(jù)業(yè)務(wù)特點構(gòu)造指令數(shù)據(jù)符合ToB客戶指令要求和身份認(rèn)知的問答機器人典型場景例如企業(yè)客服、行業(yè)專家、指導(dǎo)老師、場館解說員等角色指令遵循無關(guān)內(nèi)容拒答指令遵循標(biāo)記答案來源的引用和定位基于文本的語義內(nèi)容給出參考來源包括反問澄清、格式規(guī)范、范圍限制、角色設(shè)定等來源引用標(biāo)記答案來源的引用和定位基于文本的語義內(nèi)容給出參考來源包括反問澄清、格式規(guī)范、范圍限制、角色設(shè)定等通用性指令騰訊云RAG技術(shù)實踐·如何讓大模型理解長文本/22技術(shù)解析——RAG實踐中的閱讀理解技術(shù)優(yōu)化外部知識外部知識●閱讀理解能力是指大模型通過閱讀上下文獲取信息的能力,上下文來自于限定范圍的文檔庫、知識庫或搜索引擎,使得大模型回答內(nèi)容安全可控,減少幻覺,并有具有知識時效性。是RAG(檢索●ToB場景的閱讀理解任務(wù)的訓(xùn)練數(shù)據(jù),包括長文本閱讀增強準(zhǔn)確性和可靠性增強準(zhǔn)確性和可靠性Prompt行業(yè)有監(jiān)督數(shù)據(jù)行業(yè)精調(diào)大模型PT&SFT大規(guī)模通用的有監(jiān)督和無監(jiān)督數(shù)據(jù)騰訊云智能解法:精調(diào)大模型+RAG行業(yè)向量數(shù)據(jù)庫知識增強大模型通用大模型+RAG行業(yè)向量數(shù)據(jù)庫知識增強大模型有偏好的通用大模型行業(yè)精調(diào)大模型通用大模型通用大模型通用大模型RAGRAGSFT模型能力彌補大模型專業(yè)知識不足的問題,模型增量學(xué)習(xí)新知識并對特定●模型增量學(xué)習(xí)新知識并對特定任務(wù)有更好表現(xiàn)●依賴大量有監(jiān)督數(shù)據(jù)和訓(xùn)練資源●模型對域外知識仍然無感知,存在有幻覺風(fēng)險騰訊云智能解法大模型優(yōu)勢:可靠性:具有在RAG場景符合toB業(yè)務(wù)邏輯的指令騰訊云RAG技術(shù)實踐·如何讓大模型理解長文本/23技術(shù)解析——RAG實踐中的閱讀理解技術(shù)優(yōu)化●增強專業(yè)知識的理解能力●符合專業(yè)領(lǐng)域的回復(fù)范式基于RAG任務(wù)的有監(jiān)督精調(diào):構(gòu)造RAG場景下的訓(xùn)練樣本。對知識庫內(nèi)文檔片段調(diào)用預(yù)先設(shè)計的prompt模版從片段中抽取問題,然后利用該問題檢索行業(yè)知識庫并選取相似度topN的結(jié)果,選取部分相似片段拼接該問題對 目標(biāo)切片 答案標(biāo)注抽取問題相似切片生產(chǎn)答案相似切片騰訊云RAG技術(shù)實踐·如何讓大模型理解長文本/24技術(shù)解析——RAG實踐中的閱讀理解技術(shù)優(yōu)化場景2:教育場景,通過知識引擎檢索相關(guān)教學(xué)知識點2、閱讀理解CoT場景2:教育場景,通過知識引擎檢索相關(guān)教學(xué)知識點場景1:客服問答,常有需要做推理計算的場景場景1:客服問答,常有需要做推理計算的場景●●問題的拼接在一起,構(gòu)造RAG場景復(fù)雜上下文●要先理解意圖,并引用或復(fù)述context中的相關(guān)內(nèi)容?!窭碛缮桑焊鶕?jù)問題意圖和上下文相關(guān)信息逐步生成●答案推斷:根據(jù)中間的相關(guān)文本和推斷理由,總結(jié)得調(diào)用計算API:●構(gòu)造api調(diào)用訓(xùn)練樣本和prompt指令●構(gòu)造api調(diào)用訓(xùn)練樣本和prompt指令●輸出調(diào)用計算api的特殊字符,觸發(fā)相關(guān)api,并把計算結(jié)果帶回模型結(jié)果中●支持?jǐn)?shù)值計算、解方程、時間推理等任務(wù)騰訊云RAG技術(shù)實踐·如何讓大模型理解長文本/25技術(shù)解析——RAG實踐中的閱讀理解技術(shù)優(yōu)化3、表格理解復(fù)雜表格分析復(fù)雜表格分析表格的生成表格的生成表格邏輯分析表格邏輯分析●單點知識抽取●綜合多點知識分析●結(jié)構(gòu)化數(shù)據(jù)輸出●表文混合閱讀理解●知識抽取:表格類型多樣,涵蓋markdown、html、csv等形式,包括簡單表格和帶合并單元格的復(fù)雜表格,●表格總結(jié):根據(jù)單個表格的多行多列信息、多個表格的信息進(jìn)行知識問答、內(nèi)容總結(jié)歸納?!襁壿嬐评恚焊鶕?jù)表格信息,進(jìn)行條件判斷、邏輯推理?!駭?shù)值比較:計算表格中的最小值、最大值、最佳值,對較短的表格,大模型可以直接處理,對于較長的表格,還需要結(jié)合text2sql和引入計算api的方式輔助解決?!癖砀裆桑阂罁?jù)一定的條件,篩選表格中的內(nèi)容,或者根據(jù)KV數(shù)據(jù)生成表格?!窠Y(jié)合text2sql的功能,知識引擎能在大表格的場景能夠檢索到更精確的信息送給大模型。騰訊云RAG技術(shù)實踐·如何讓大模型理解長文本/26技術(shù)解析——RAG實踐中的閱讀理解技術(shù)優(yōu)化querytext2sqlcontextquerytext2sqlcontext4、指令遵循(一)無關(guān)內(nèi)容拒答知識精度要求較高的場景,比如金融客服、政策問答場景。知識精度要求較高的場景,比如金融客服、政策問答場景?!駱?gòu)造包含拒答和非拒答的正負(fù)樣本對(QAC形式)●與query相關(guān)和無關(guān)context對應(yīng)正面回答和拒答●拼接不相關(guān)但有一定檢索相似性的其它context,使模型學(xué)習(xí)真實場景的任務(wù)contextcontextcontextcontext正樣本(相關(guān))=querycontextcontextcontextcontext負(fù)樣本(無關(guān))=query騰訊云RAG技術(shù)實踐·如何讓大模型理解長文本/27技術(shù)解析——RAG實踐中的閱讀理解技術(shù)優(yōu)化場景2:需要時常更新知識庫的場景場景2:需要時常更新知識庫的場景場景場景1:對知識精度要求較高的場景,比如政策問答、產(chǎn)品咨詢場景●構(gòu)造包出引用和不出拒答的正負(fù)樣本對(QAC形式)●與問題相關(guān)和無關(guān)的context對應(yīng)正負(fù)樣本●一個回答可以對應(yīng)多個參考來源●引用和答案同時輸出contextcontextcontextcontext(出引用)=querycontextcontext(不出引用)=query●LLM有著更大的參數(shù)規(guī)模,在大量的文本語料上進(jìn)行了預(yù)訓(xùn)練,相比傳統(tǒng)檢索模型的embedding有著更強●LLM有更長的最大序列長度(例如8K/32K,甚至更長而檢索模型的embedding支持的窗口長度一般只有0.5~2K?!裣啾扔趥鹘y(tǒng)的基于embedding模型的相似度匹配或文本關(guān)鍵詞匹配,基于大模型的來源引用可以基于文本騰訊云RAG技術(shù)實踐·如何讓大模型理解長文本/28技術(shù)解析——RAG實踐中的閱讀理解技術(shù)優(yōu)化(三)通用性指令通用性指令,包括反問澄清、格式規(guī)范、范圍限制、角色設(shè)定等。構(gòu)造這些通用指令和他們的泛化組合數(shù)據(jù)可以更好的增強大語言模型的指令遵循能力。訓(xùn)練指令評估模型,優(yōu)選高質(zhì)量指令、剔除低質(zhì)量指令,讓模型更容易學(xué)習(xí),幫騰訊云RAG技術(shù)實踐·如何讓大模型理解長文本/29技術(shù)解析——RAG實踐中的多模態(tài)問答——RAG實踐中的多模態(tài)問答文檔內(nèi)復(fù)雜自然圖片理解正確答案不存在于文檔內(nèi)容-說明書文檔、PPT文檔問答文檔內(nèi)復(fù)雜自然圖片理解正確答案不存在于文檔內(nèi)容圖文混排,順序錯位文娛攻略、說明書、科學(xué)論文文檔問答、摘要場景痛點需準(zhǔn)確關(guān)聯(lián)多個圖文對應(yīng)關(guān)系場景痛點存在與用戶查詢圖像內(nèi)容相似圖片準(zhǔn)確理解用戶圖文交錯的查詢內(nèi)容說明書、操作手冊文檔問答存在與用戶查詢圖像內(nèi)容相似圖片準(zhǔn)確理解用戶圖文交錯的查詢內(nèi)容需要豐富的圖片理解能力獲得正確的解題思路為什么需要多模態(tài)大模型-需要豐富的圖片理解能力獲得正確的解題思路為什么需要多模態(tài)大模型純MLLM模型調(diào)用方案解決多模態(tài)的三種方式圖片轉(zhuǎn)文字,單模態(tài)RAG方案騰訊云知識引擎多模態(tài)RAG方案第一步:用戶上傳文檔,支持多種格式第二步:進(jìn)行markdown格式轉(zhuǎn)換,保存文字和圖片到知識庫技術(shù)路徑第三步:檢索知識庫中相關(guān)圖文混合片段序列第四步:檢索得到圖文序列以及用戶的問題,輸出準(zhǔn)確回答模態(tài)特征編碼模態(tài)信息細(xì)節(jié)抓取與語義整合如何實現(xiàn)圖文模態(tài)特征編碼模態(tài)信息細(xì)節(jié)抓取與語義整合如何實現(xiàn)圖文圖文對齊預(yù)訓(xùn)練 多模態(tài)大模型的三種訓(xùn)練策略多模態(tài)微調(diào)策略多模態(tài)指令微調(diào)多模態(tài)上下文學(xué)習(xí)多模態(tài)微調(diào)策略看清圖:動態(tài)分辨率訓(xùn)練技術(shù)手段鎖定圖:多尺度圖文混合訓(xùn)練技術(shù)手段模態(tài)信息高度挖掘模態(tài)信息高度挖掘——如何看懂上下文中的圖片應(yīng)用場景說明書/金融/攻略/論文文章多任務(wù)學(xué)習(xí):學(xué)歸納、學(xué)關(guān)聯(lián)指令遵循優(yōu)化多任務(wù)學(xué)習(xí):學(xué)歸納、學(xué)關(guān)聯(lián)指令遵循優(yōu)化技術(shù)手段三種應(yīng)用場景多模出圖片技術(shù)手段多模態(tài)信息整合推理——如何支持推理文檔中的圖片決策生成:對問題進(jìn)行分析與解耦,結(jié)合專家模塊特性,生成合理決策多模態(tài)信息整合推理——如何支持推理文檔中的圖片執(zhí)行:調(diào)用專家模塊執(zhí)行子任務(wù),匯總信息加以思考,生成最終答案騰訊云RAG技術(shù)實踐·如何讓大模型看懂圖片/視頻/30技術(shù)解析——RAG實踐中的多模態(tài)問答●●●文檔內(nèi)圖文混排,順序錯位,正確圖片不一定在對應(yīng)文本●需要從文檔中準(zhǔn)確關(guān)聯(lián)多個圖文對應(yīng)關(guān)系?!裎臋n內(nèi)復(fù)雜自然圖片理解,不帶文字,包含復(fù)雜的指示標(biāo)●正確答案不存在于文檔的文字內(nèi)容中,需要根據(jù)文檔中●金融財報●金融財報PPT、教育教材題庫文檔問答?!裥枰S富的圖片理解能力:目標(biāo)計數(shù)、位置關(guān)系判斷、ocr識別等;需要一定解題知識儲備?!袢绾潍@得正確的解題思路●說明書、操作手冊文檔問答●用戶輸入圖像,并針對當(dāng)前圖像進(jìn)行提問,希望在文檔中●文檔內(nèi)存在與用戶查詢圖像內(nèi)容相似的圖片,需對這些干●準(zhǔn)確理解用戶圖文交錯的查詢內(nèi)容,指令遵循。騰訊云RAG技術(shù)實踐·如何讓大模型看懂圖片/視頻/31技術(shù)解析——RAG實踐中的多模態(tài)問答圖片轉(zhuǎn)文字,單模態(tài)RAG圖片轉(zhuǎn)文字,單模態(tài)RAG方案純MLLM模型調(diào)用方案騰訊云知識引擎多模態(tài)騰訊云知識引擎多模態(tài)RAG方案MLLM+RAG技術(shù)聯(lián)動:解決單模態(tài)RAG架構(gòu)下,LLM無法識別圖像中額外信息的問題;結(jié)合成熟文檔解析、切分、檢索技術(shù),挖掘MLLM更靈活的功能。第二步:通過文檔解析模型,對文檔進(jìn)行mark-down格式轉(zhuǎn)換,保第三步:根據(jù)用戶查詢,檢索第二步:通過文檔解析模型,對文檔進(jìn)行mark-down格式轉(zhuǎn)換,保第三步:根據(jù)用戶查詢,檢索知識庫中相關(guān)圖文混第四步:多模態(tài)閱讀理解模型根據(jù)檢索得到的圖文序列以及用戶的問第一步:第一步:騰訊云RAG技術(shù)實踐·如何讓大模型看懂圖片/視頻/32技術(shù)解析——RAG實踐中的多模態(tài)問答模態(tài)信息細(xì)節(jié)抓取與語義整合,模態(tài)信息細(xì)節(jié)抓取與語義整合,包括SAM、CLIP等模型●●圖文對數(shù)據(jù):COYO-700M、LAION-5B)●圖文交錯數(shù)據(jù):MMC4-585M、OBELICS-353M、OmniCor-pus-10B●多模態(tài)指令微調(diào)(MultimodalInstructionTuning,M-IT)●多模態(tài)上下文學(xué)習(xí)(MultimodalIn-ContextLearning,M-ICL)●多模態(tài)思維鏈(MultimodalChainofThought,M-CoT)2.鎖定圖:多尺度圖文混合訓(xùn)練通過多種尺度的上下文構(gòu)造訓(xùn)練,來2.鎖定圖:多尺度圖文混合訓(xùn)練通過多種尺度的上下文構(gòu)造訓(xùn)練,來保證模型問答對于逐漸增多的干擾圖片、干擾文本保持魯棒,又不會因為干擾上下文太多而影響模型的行業(yè)知結(jié)果展示與指標(biāo):結(jié)果展示與指標(biāo):1.看清圖:動態(tài)分辨率訓(xùn)練文檔解析得到的局部圖片通過動態(tài)分辨率訓(xùn)練,保證模型能看清3.答對圖:魯棒性訓(xùn)練答案索引正確的圖片3.答對圖:魯棒性訓(xùn)練答案索引正確的圖片id,保證出圖準(zhǔn)確率。通過構(gòu)造正負(fù)樣本保證出圖的準(zhǔn)確率,增加據(jù)答功能,防止誤報過多。騰訊云RAG技術(shù)實踐·如何讓大模型看懂圖片/視頻/33技術(shù)解析——RAG實踐中的多模態(tài)問答1.多任務(wù)學(xué)習(xí):學(xué)歸納、學(xué)關(guān)聯(lián) 2.指令遵循優(yōu)化利用問題改寫模型、指令進(jìn)化策略,修改用戶問題主體、細(xì)結(jié)果展示與指標(biāo):騰訊云RAG技術(shù)實踐·如何讓大模型看懂圖片/視頻/34技術(shù)解析——RAG實踐中的多模態(tài)問答1.決策生成:對問題進(jìn)行分析與解耦,結(jié)合各種專家模塊特性,生成合理的決策。2.執(zhí)行:調(diào)用各種專家模塊執(zhí)行子任務(wù),并匯總信息加以思考,生成最終答案?!馮extIntelExtract:按要求針對性地提取圖像中的文本?!馩bjectQuantLocator:識別并定位圖像中的對象,在比較數(shù)量和識別空間關(guān)系等方面有優(yōu)勢?!馰isionIQAnalyst:處理任何與圖像內(nèi)容相關(guān)的查詢,善于分析圖像。●ChartSenseExpert:分析和解釋圖表中的信息,如提取數(shù)據(jù)點,了解趨勢,識別圖表中的標(biāo)題、軸、標(biāo)簽和圖例等關(guān)鍵組件。騰訊云RAG技術(shù)實踐·如何讓大模型看懂圖片/視頻/35PARTPART03場景實踐RAG落地應(yīng)用我們將通過作業(yè)幫、招商證券、萬榕信息等不同企業(yè)的RAG應(yīng)用實踐,剖析RAG如何為大模型應(yīng)用對癥下藥。場景實踐——用向量數(shù)據(jù)庫實現(xiàn)云原生架構(gòu)的三種AIGC方案用向量數(shù)據(jù)庫實現(xiàn)云原生架構(gòu)的三種AIGC方案作業(yè)幫架構(gòu)研發(fā)工程師許春旭數(shù)字化時代,云原生作為基礎(chǔ)設(shè)施軟件技術(shù),在幫助企業(yè)提高業(yè)務(wù)敏捷性和可擴展性、降低企業(yè)IT成本和資源消耗等方面有非常卓越的表現(xiàn)。隨著AIGC時代到來,作業(yè)幫的云原生的基礎(chǔ)架構(gòu)領(lǐng)域也面臨新變化和趨勢,亟需更優(yōu)解決方案。作業(yè)幫從19年起一直致力于云原生的建設(shè)與發(fā)展,隨著云原生規(guī)模指數(shù)化增加,其面臨兩個主二、問題鏈路更復(fù)雜,排查耗時變高,故障定位問題變慢,服務(wù)質(zhì)量下降。解決方案作業(yè)幫基礎(chǔ)架構(gòu)團(tuán)隊基于本身業(yè)務(wù)難題出發(fā),最終利用AI技術(shù)建立了RAG問答、根因分析和智能化工單三種相互協(xié)作的IM機器人平臺機器人告警機器人知識獲取知識處理知識檢索意圖識別模型問答模型故障評估模型工單分揀模型通用大模型觀測平臺Trace篩選故障評估工單錄入工單分揀工單流轉(zhuǎn)IM機器人RAGIM機器人平臺機器人告警機器人知識獲取知識處理知識檢索意圖識別模型問答模型故障評估模型工單分揀模型通用大模型觀測平臺Trace篩選故障評估工單錄入工單分揀工單流轉(zhuǎn)IM機器人RAG問答騰訊云RAG技術(shù)實踐·用向量數(shù)據(jù)庫實現(xiàn)云原生架構(gòu)的三種AIGC方案/37場景實踐——用向量數(shù)據(jù)庫實現(xiàn)云原生架構(gòu)的三種

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論