版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICS國際標準分類號
CCS中國標準文獻分類號
團體標準
T/CESXXX-XXXX
電力知識智能檢索流程規(guī)范
Specificationforintelligentretrievalprocessofelectricpower
knowledge
(征求意見稿)
XXXX-XX-XX發(fā)布XXXX-XX-XX實施
中國電工技術(shù)學(xué)會發(fā)布
T/CESXXX—XXXX
電力知識智能檢索流程規(guī)范
1范圍
本文件規(guī)定了對電力知識智能檢索流程的電力知識文本基本要求、知識庫構(gòu)建要求和電力知識檢
索流程要求,其中電力知識智能檢索流程主要針對電力行業(yè)文本數(shù)據(jù)。
本文件適用于國內(nèi)各單位實現(xiàn)電力知識智能檢索流程的相關(guān)人員。
2規(guī)范性引用文件
下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T5271.28信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)
T/CESA1040-2019信息技術(shù)人工智能面向機器學(xué)習(xí)的數(shù)據(jù)標注規(guī)程
T/CES128-2022電力人工智能平臺總體架構(gòu)及技術(shù)要求
T/CES156-2022電力智能交互文本訓(xùn)練語料標注規(guī)范
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
電力知識electricityknowledge
指與電能的產(chǎn)生、傳輸和利用過程中所涉及的知識和技術(shù)。
3.2
知識庫knowledgebase
是知識工程中結(jié)構(gòu)化、易操作、易利用、全面有組織的知識集群。
3.3
文本向量化textvectorization
指將文本信息表示成能夠表達文本語義的向量,即用數(shù)值向量來表示文本的語義。
3.4
向量相似度vectorsimilarity
指衡量兩個向量在數(shù)值上的接近程度的度量。
3.5
智能檢索intelligentretrieval
指計算機根據(jù)用戶的檢索詞和檢索要求,運用人工智能技術(shù)自動擴展檢索詞和構(gòu)造檢索式,以滿足
用戶檢索要求的過程。
3.6
提示模版prompttemplate
指在AI大模型訓(xùn)練或應(yīng)用過程中,用來引導(dǎo)模型生成特定類型文本或解決特定任務(wù)的一種預(yù)設(shè)語
句。通過給模型提供明確的上下文信息或者參數(shù)信息,提示模板可以有效地提高模型在特定任務(wù)上的表
現(xiàn)。
3.7
提示prompt
1
T/CESXXX—XXXX
在AI大模型中,prompt主要是用來給模型提供提示輸入信息的上下文和輸入模型的參數(shù)信息。
4縮略語
下列縮略語適用于本文件。
LLM:大語言模型(LargeLanguageModel),也稱大型語言模型。
5總則
本文件對電力知識智能檢索流程的規(guī)范主要體現(xiàn)在三個方面:電力知識文本基本要求、電力知識
庫構(gòu)建基本要求和電力知識檢索流程基本要求。其中,電力知識文本基本要求用于規(guī)范電力知識文本
文件的命名、存儲格式等,電力知識庫構(gòu)建基本要求用于規(guī)范構(gòu)建電力知識庫,電力知識檢索流程基
本要求用于規(guī)范基于電力知識庫和電力大模型的電力知識智能檢索流程。這三方面內(nèi)容的具體組織框
架如圖1所示:
圖1內(nèi)容組織框架
6電力知識文本基本要求
6.1存儲格式要求
電力知識文件應(yīng)采用txt、docx、md、pdf存儲格式。其中,對于excel等其他格式的原始數(shù)據(jù)可
以轉(zhuǎn)換為上述存儲格式之一且應(yīng)優(yōu)先轉(zhuǎn)成txt存儲格式。
6.2命名要求
電力知識文本文件名稱應(yīng)由三個部分組成:
a)第一部分為當前電力知識文本的專業(yè)信息;
b)第二部分為原始源文件生成時的日期,日期格式:YYYY-MM-DD;
c)第三部分為文件唯一性編號,從1開始計數(shù);
d)這三部分用下劃線連接,且文件名稱長度和擴展名在內(nèi)最大長度不超過100個字符(包含中英
文字符和特殊字符);
e)文件命名舉例:輸電線路金具部件介紹_2023-10-11_1。
6.3質(zhì)量要求
電力知識文本文件的質(zhì)量要求如下。
2
T/CESXXX—XXXX
a)確保一個文件中的知識都是屬于同一個細分領(lǐng)域、同一權(quán)限等級,且不同細分領(lǐng)域、不同權(quán)限
的知識不能混雜在同一個文件中;
b)電力知識數(shù)據(jù)中不應(yīng)存在重復(fù)的記錄或重復(fù)的信息,以確保數(shù)據(jù)的唯一性;
c)電力知識數(shù)據(jù)中不應(yīng)包含特殊字符、停用詞、HTML標簽等;
d)電力知識數(shù)據(jù)中不應(yīng)包含含糊不清、模棱兩可、參考價值小、意義不大的知識內(nèi)容;
e)電力知識數(shù)據(jù)中不應(yīng)包含圖片、表格等數(shù)據(jù),但可將圖片、表格中的內(nèi)容提煉為文字表述且可
優(yōu)先轉(zhuǎn)化成問答形式;
f)電力知識數(shù)據(jù)中包含的問答形式的數(shù)據(jù)應(yīng)提供詳細和全面的答案,并確?;卮鸱蠈I(yè)要求和
語言規(guī)范。
6.4電力知識文本描述文件要求
每批次電力知識文本文件應(yīng)有一個描述文件,且描述文件應(yīng)滿足下述要求:
a)存儲格式應(yīng)為txt格式;
b)命名應(yīng)由兩個部分組成:
1)本文件創(chuàng)建的日期,日期格式:YYYY-MM-DD;
2)文件唯一性編號,從1開始計數(shù);
3)文件名的各部分用下劃線連接,文件命名示例:2023-10-12_1。
c)文件內(nèi)容應(yīng)描述本電力知識信息的基本信息,應(yīng)包括電力知識文本文件的來源、創(chuàng)建日期、聯(lián)
系人、文本用途等信息。
6.5安全管控
電力知識文件存儲環(huán)境應(yīng)滿足安全管控要求。具體要求包括:
a)電力知識文件應(yīng)存儲在指定安全機器中,同時該機器應(yīng)開啟防火墻,安裝殺毒軟件,并禁用
USB接口功能;
b)存儲電力知識文件的機器中的所有數(shù)據(jù)文件需定期做好數(shù)據(jù)備份,不得擅自拷貝、傳輸,防止
數(shù)據(jù)丟失或泄露。
7電力知識庫構(gòu)建基本要求
7.1文本內(nèi)容拆分要求
電力知識文本內(nèi)容的拆分方法應(yīng)采用規(guī)則拆分或語義拆分,具體要求如下:
a)利用規(guī)則進行文本拆分應(yīng)根據(jù)文本內(nèi)容中常見終止符號進行拆分,且拆分后的文本長度控制在
1000內(nèi)。常見文本終止符號如:單字符斷句符、中英文省略號、雙引號等。
b)利用語義拆分方法應(yīng)將文本內(nèi)容拆分為具有語義信息的最小塊,一般是有意義的句子,再將這
些小塊組合并成一定大小的文本段且文本段大小控制在1000內(nèi)。
7.2文本向量化方法選擇要求
對拆分的文本內(nèi)容進行向量化時選擇的向量化方法要求如下:
a)應(yīng)選擇可以對中文文本進行向量化的方法;
b)所選向量化方法在統(tǒng)一評測標準中具有較好評測結(jié)果;
c)所選向量化方法在應(yīng)用過程中易調(diào)用、易遷移部署。
7.3向量數(shù)據(jù)庫選擇要求
3
T/CESXXX—XXXX
向量化應(yīng)存儲向量數(shù)據(jù)庫中,選擇向量數(shù)據(jù)庫的具體要求如下:
a)向量數(shù)據(jù)庫應(yīng)具備較好查詢性能,可結(jié)合向量數(shù)據(jù)庫的索引技術(shù)、數(shù)據(jù)結(jié)構(gòu)、硬件配置等因素
判斷向量數(shù)據(jù)庫的性能;
b)選擇的向量數(shù)據(jù)庫的存儲量應(yīng)滿足電力知識數(shù)據(jù)的存儲需求;
c)所選向量數(shù)據(jù)庫應(yīng)具備良好的社區(qū)支持,以便更容易地解決問題和獲取幫助。
d)根據(jù)業(yè)務(wù)需求選擇具備不同功能的向量數(shù)據(jù)庫,如部分向量數(shù)據(jù)庫提供了全文搜索功能,而另
一部分則提供了更專業(yè)的向量搜索功能。
8電力知識檢索流程基本要求
8.1總體要求
電力知識智能檢索流程基本要求具體包括問題文本內(nèi)容向量化要求、向量相似度匹配要求、匹配結(jié)
果處理要求、檢索結(jié)果生成要求等,如圖2所示:
圖2電力知識檢索流程基本要求
8.2問題文本內(nèi)容向量化要求
對用戶輸入的問題文本內(nèi)容進行向量化操作的基本要求具體如下:
a)對用戶輸入的問題文本內(nèi)容進行向量化時選擇文本向量化方法的要求應(yīng)與第7章中文本向量化
要求相同;
b)選用的文本向量化方法應(yīng)與第7章選用的文本向量化方法相同;
c)用戶輸入的問題文本內(nèi)容向量化后應(yīng)根據(jù)電力業(yè)務(wù)需求,與未向量化之前的問題文本一同寫入
指定日志文件中。
8.3向量相似度匹配要求
進行向量相似度匹配的具體要求如下:
a)應(yīng)選擇合適的向量匹配算法,所選向量匹配算法能夠準確快速計算出問題文本向量與電力知識
庫中不同文本向量之間的相似度值;
b)對計算所得的相似度值按照從大到?。ɑ蛘邚男〉酱螅┑捻樞蜻M行排序,并選取前k個相似度值
對應(yīng)的文本向量作為匹配結(jié)果。其中確定k值的要求如下:
1)一般情況下,k值默認設(shè)定為3;
2)根據(jù)電力知識庫向量匹配情況,可增大或減小k值以獲取滿足業(yè)務(wù)需求的結(jié)果。
c)將獲取的k個文本向量轉(zhuǎn)換為對應(yīng)的文本內(nèi)容,并將文本內(nèi)容按照一定方式組合成一個文本段落,
其中組合方式要求如下:
1)k個文本內(nèi)容按照向量之間的匹配度(由大到小或者由小到大)直接組合成一個文本段落;
4
T/CESXXX—XXXX
2)k個文本內(nèi)容打亂順序后隨機排序組合成一個文本段落。
8.3檢索結(jié)果生成要求
檢索結(jié)果生成應(yīng)按照如下要求:
a)最終的檢索結(jié)果通過電力語言大模型生成;
b)電力語言大模型應(yīng)由基座大模型微調(diào)得到,其中基座大模型的選則應(yīng)遵循以下要求:
1)基座模型LLM應(yīng)可以生成中文文本內(nèi)容;
2)需根據(jù)現(xiàn)有硬件條件(如顯卡GPU的性能、數(shù)量、服務(wù)器數(shù)量等)選擇基座模型,且所選基座
模型LLM能夠在現(xiàn)有硬件環(huán)境中運行;
3)基座模型LLM應(yīng)易于遷移部署,且其生成文本內(nèi)容的反應(yīng)時間應(yīng)小于電力知識智能檢索要求
的最長反應(yīng)時間;
4)基座模型可以通過提示信息及用戶指令產(chǎn)生指定內(nèi)容;
c)電力大模型生成檢索結(jié)果應(yīng)根據(jù)匹配到的電力知識內(nèi)容和問題內(nèi)容得到。
8.4檢索結(jié)果安全管控
檢索結(jié)果需進行安全管控,具體要求如下:
a)檢索結(jié)果應(yīng)以指定形式返回,如以字典形式返回:{“檢索結(jié)果”:“電力知識檢索具體內(nèi)容”}
b)檢索結(jié)果和問題內(nèi)容應(yīng)寫入指定日志文件;
c)針對電力行業(yè)內(nèi)部人員,知識檢索結(jié)果一般在電力行業(yè)內(nèi)部軟件上返回給需求人員;
d)針對非電力行業(yè)內(nèi)部人員,檢索結(jié)果需對檢索結(jié)果脫敏后返回給需求人員。
5
T/CESXXX—XXXX
附錄A
資料性附錄
電力知識智能檢索提示模版應(yīng)用示例
應(yīng)用場景:電力知識智能檢索
步驟一:用戶輸入問題,具體問題(question)具體為:根據(jù)絕緣子的制成材料分類,絕緣子的類
型有哪些?
步驟二:從電力知識庫匹配相關(guān)文本內(nèi)容并進行文本內(nèi)容拼接,匹配到的具體內(nèi)容(context)為:
絕緣子按安裝方式不同,可分為懸式絕緣子和支柱絕緣子;按照使用的絕緣材料的不同,可分為瓷絕緣
子、玻璃絕緣子和復(fù)合絕緣子(也稱合成絕緣子);按照使用電壓等級不同,可分為低壓絕緣子和高壓
絕緣子;按照使用的環(huán)境條件的不同,派生出污穢地區(qū)使用的耐污絕緣子;按照使用電壓種類不同,派
生出直流絕緣子;尚有各種特殊用途的絕緣子,如絕緣橫擔、半導(dǎo)體釉絕緣子和配電用的拉緊絕緣子、
線軸絕緣子和布線絕緣子等。此外,按照絕緣件擊穿可能性不同,又可分為A型即不可擊穿型絕緣子和
B型即可擊穿型絕緣子兩類。
步驟三:已知提示模版是:prompt_template="""已知信息:{context}。根據(jù)上述已知信息,簡潔
和專業(yè)的來回答用戶的問題。優(yōu)先用已知信息的原文回答,不要解釋信息來源。如果無法從中得到答案,
請說“根據(jù)已知信息無法回答該問題”
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 動物產(chǎn)科學(xué)模擬習(xí)題及答案
- Unit 8 Knowing the world Lesson 2 My home country英文版說課稿 -2024-2025學(xué)年冀教版(2024)七年級英語上冊
- 2025年大班年級組工作計劃示例
- 2025年醫(yī)院醫(yī)師工作計劃
- 2025年開學(xué)學(xué)期教師工作計劃
- 2025年高校工會工作計劃
- 2025年幼兒園園長工作計劃表
- 2025年物業(yè)下半年工作計劃
- Unit 1 What's he like?(說課稿)-2024-2025學(xué)年人教版PEP英語五年級上冊
- 2025年春季學(xué)校安全工作計劃范文例文
- 2024年股東股權(quán)繼承轉(zhuǎn)讓協(xié)議3篇
- 2025年中央歌劇院畢業(yè)生公開招聘11人歷年高頻重點提升(共500題)附帶答案詳解
- 北京市高校課件 開天辟地的大事變 中國近代史綱要 教學(xué)課件
- 監(jiān)事會年度工作計劃
- 2024中國近海生態(tài)分區(qū)
- 山東省濟南市2023-2024學(xué)年高一上學(xué)期1月期末考試化學(xué)試題(解析版)
- 2024年認證行業(yè)法律法規(guī)及認證基礎(chǔ)知識
- 大貓英語分級閱讀 六級1 Arthur's Fantastic Party課件
- SCA自動涂膠系統(tǒng)培訓(xùn)講義
- LEC法取值標準對照表
- 華中數(shù)控車床編程及操作
評論
0/150
提交評論