專利大模型的實(shí)踐與問(wèn)答探索

上傳人：加*** IP屬地：山東上傳時(shí)間：2025-01-13 格式：PPTX 頁(yè)數(shù)：20 大?。?.68MB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩15頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

#專利大模型的實(shí)踐與問(wèn)答探索專利大模型介紹訓(xùn)練過(guò)程專利檢索+專利大模型挑戰(zhàn)和展望目錄#01專利大模型智慧芽垂直領(lǐng)域大模型Leading

Algorithm

Capabilities…AI專家檢索AI-powered

ExpertRetrieval自動(dòng)生成檢索式

AutomaticallyGenerateSearch

ExpressionsAI技術(shù)問(wèn)答

Conversational

Answers

toTechnical

QuestionsPharm

GPT內(nèi)容生成

ContentGeneration算法能力Patent

GPT精準(zhǔn)檢索和專業(yè)推薦

Precision

andProfessional

RecommendationMaterials

GPT對(duì)話問(wèn)答多語(yǔ)言翻譯Dialogue

MultilingualQ&A

Translation總結(jié)分析

Summarizeand

Analyze基于領(lǐng)域?qū)＜曳答伒膹?qiáng)化學(xué)習(xí)

Reinforcement

Learning

withExpert

Feedback監(jiān)督精調(diào)

SupervisedFine-tuningRAG檢索增強(qiáng)生成

Retrieval-AugmentedGenerationAI標(biāo)引

AutomaticIndexing藥物情報(bào)助手

Drug

SearchAssistant自研大模型Self-developedlarge-scale

modelAI助手AI

AssistantAI技術(shù)預(yù)研

AI專利對(duì)比AI-powered

Technical

AI-powered

TechnicalPre-research Pre-researchAI專利和論文解讀AI-powered

Interpretationof

Patent

and

Papers垂直數(shù)據(jù)基石

Patsnap

Data

sets專利

Patent生物序列

Bio

Sequences文獻(xiàn)

Literature新聞

News書籍

Books化學(xué)結(jié)構(gòu)

Chemical

Structures適應(yīng)癥

Indication藥物

Drug靶點(diǎn)

Target論文

Papers材料性質(zhì)

Material

PropertyAI繳費(fèi)

AssistedPaying實(shí)踐的一些經(jīng)驗(yàn)：有差異化的海量數(shù)據(jù)有小模型+大模型大模型:CPT+SFT+Reward+PPO(DPO)應(yīng)用場(chǎng)景數(shù)據(jù)提取產(chǎn)品場(chǎng)景RAG在SAAS行業(yè)是必要的組合飛輪算法LLM

Algorithm數(shù)據(jù)基石Data數(shù)十個(gè)小模型Bert

Based

models芽仔專利申請(qǐng)書撰寫助手

Assisted

PatentDrafting#02專利大模型訓(xùn)練領(lǐng)域數(shù)據(jù)（專利論文等246B

tokens

)專利大模型：三個(gè)版本，不斷試錯(cuò)PatentGPT①

差異化數(shù)據(jù)集Patent

GPT：超246B訓(xùn)練數(shù)據(jù)，包括全球170個(gè)受理局的超1.8億專利、超1.6億論文、超2100萬(wàn)新聞、超50萬(wàn)投融資、超1.1億企業(yè)、超78萬(wàn)市場(chǎng)報(bào)告以及40萬(wàn)本書籍?dāng)?shù)據(jù)。②

算法面向業(yè)務(wù)大小模型結(jié)合：結(jié)合智慧芽沉淀的幾十種小模型算法能力，數(shù)據(jù)處理+SFT數(shù)據(jù)挖掘+小模型的監(jiān)督數(shù)據(jù)；數(shù)據(jù)配方：基于垂直大模型的應(yīng)用場(chǎng)景建立獨(dú)特的數(shù)據(jù)配方；基于領(lǐng)域?qū)＜曳答伒膹?qiáng)化學(xué)習(xí)：擁有超過(guò)50位知識(shí)產(chǎn)權(quán)和生物醫(yī)藥專家，反饋2萬(wàn)條訓(xùn)練效果數(shù)據(jù)，與人類意圖保持一致；RAG檢索增強(qiáng)生成：RAG技術(shù)加強(qiáng)大模型理解能力，結(jié)合知識(shí)庫(kù)，更好理解企業(yè)私有數(shù)據(jù)，實(shí)現(xiàn)問(wèn)答能力的拓展。（專利搜索）③

只比垂直業(yè)務(wù)能力，不比通用能力垂直行業(yè)能力超越ChatGPT-3.5，部分超越

ChatGPT-4；專利撰寫、專利對(duì)比、專利搜索。PatentGPT通過(guò)中國(guó)專利代理師資格考試Model

Training

eGPT-3

Apr/2020TFLnd

Chip

type (V100OP/smax)

Chip

cou130

10,00Wall

clocknt (0

15time

Totaldays)

(ydays

405timeears)

Cost

($US)years

$9MLlama

Jan/2023A100312

2,048

21days

118years

$4MLlama

Jun/2023GPT-4

Aug/2022A100A100312

2,04312

25,008

350

95days

196days

6,507years

$7Myears

$224MGemini

Nov/2023TPUv4275

57,000

100days

15,616years

$440MBase

ModelParamsC

tLengthTokensLRPatentGPT-0.5LLAMA213

B16

k246

10-5PatentGPT-1.0LLAMA270B4

k246

10-5PatentGPT-1.5Mistral

7B45

B16

k246

10-5CPT+SFT+Reward+DPO(PPO)專利大模型:數(shù)據(jù)Data

sizeData

recipeDatasets

for

LargeLanguageModels:

Comprehensive

SurveyPatentGPT的數(shù)據(jù)配比/guides/large-language-models#model-size-and-performance專利大模型：算法是一系列模型大小模型結(jié)合：結(jié)合智慧芽沉淀的幾十種小模型算法能力，在精度，性能，穩(wěn)定性，安全，長(zhǎng)文本上發(fā) 揮更大優(yōu)勢(shì)；獨(dú)特?cái)?shù)據(jù)配方和策略：基于垂直大模型的應(yīng)用場(chǎng)景建立獨(dú)特的數(shù)據(jù)配方；基于領(lǐng)域?qū)＜曳答伒膹?qiáng)化學(xué)習(xí)：擁有超過(guò)50位知識(shí)產(chǎn)權(quán)專家,2w條專家撰寫的反饋數(shù)據(jù)。形成2w

SFT和10w條人類偏好數(shù)據(jù)。RAG檢索增強(qiáng)生成：R

for

G;Gfor

R;獨(dú)立的業(yè)務(wù)Embedding（非對(duì)稱，X關(guān)系對(duì)比學(xué)習(xí)等）b)a)c)d)b)SFT：InstructionTuning

unlock

pretrain

model三類數(shù)據(jù)數(shù)量:Double

descent

phenomenon融合到pretrain去預(yù)學(xué)習(xí)（

OPT-IML）Multi-stage

Instruction

Tuning/

weighted質(zhì)量(quality)Perplexity

score？正確性，gpt4-score？）多樣性(diversity)（前兩者的組合增加指標(biāo)和LOSS選擇參考：INSTRUCTION

MINING:INSTRUCTION

DATA

SELEC-TION

FOR

TUNING

LARGE

LANGUAGE

MODELS訓(xùn)練策略數(shù)據(jù)三核心專利大模型：評(píng)估MMLUC-EvalAveragePatentGPT-0.5514548PatentGPT-1.0614653.5PatentGPT-1.5595255.5ChatGPT-3.5-turbo664756.5通用能力是否正常：MMLU，C-EVAL專利領(lǐng)域公開測(cè)試集:Patent-Match@misc{ni2024mozip,title={MoZIP:

Multilingual

Benchmark

Evaluate

Large

Language

Models

Intellectual

Property},author={Shiwen

and

Minghuan

Tan

and

Yuelin

Bai

etc}year={2024},eprint={2402.16389},archivePrefix={arXiv},primaryClass={cs.CL}}*PatentGPT

1.5

SFT還有一些問(wèn)題。PatentMatch-ENPatentMatch-ZHAverageChatGPT-3.5

turbo34.64338.8PatentGPT

0.549.559.254.4PatentGPT

1.066.27269.1PatentGPT

1.570.665.865.7專利領(lǐng)域自建測(cè)試集（面向業(yè)務(wù)）:Patent-Bench專利撰寫(Drafting)、專利總結(jié)(Summary)、專利問(wèn)答(QA)（PatentGPT

GPT3.5-turbo,

GPT-4

evaluate)專利抽取：抗體輕重鏈提取+抗原配對(duì)信息抗原：BAFF配對(duì)抗體信息：輕鏈重鏈SEQ

IDNo.1SEQ

IDNo.2CN101851291B

一種抗人BAFF單克隆抗體的重鏈和輕鏈可變區(qū)[0017]所述的輕鏈可變區(qū)的氨基酸序列如SEQ

NO.1所示，重鏈可變區(qū)的氨基酸序列如SEQ

NO.2所示。[0018]所述的編碼輕鏈可變區(qū)的基因序列如SEQIDNO.3所示，編碼重鏈可變區(qū)的基因序列如SEQ

NO.4所示。[0019]抗人BAFF單克隆抗體的重鏈和輕鏈的可變區(qū)應(yīng)用于以人BAFF分子為靶點(diǎn)的基因工程抗體或疫苗的制備。質(zhì)量+后處理圈定專利+標(biāo)注平臺(tái)搭建人工（400+人天）5個(gè)月“LLM加速”LLM+規(guī)則4人天完成，取代大量人工標(biāo)注“傳統(tǒng)方法”4人天提取2萬(wàn)組抗體，準(zhǔn)確率>99%，較人工效率提升100倍示例文本：輸出結(jié)果PatentBert+FineTuning圈定專利+標(biāo)注平臺(tái)搭建人工標(biāo)注（100+人天）2個(gè)月“小模型方法”技術(shù)方案對(duì)比：抗體抗原實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)結(jié)論含有海量領(lǐng)域知識(shí)，對(duì)解決問(wèn)題，更加符合“業(yè)務(wù)”Finetune之后可以取得可觀的下游任務(wù)性能提升，但多任務(wù)的“配方指令”數(shù)據(jù)是挑戰(zhàn)。在少監(jiān)督數(shù)據(jù)下，多元關(guān)系抽取，傳統(tǒng)模型很難取得好的結(jié)果,PatentGPT有明顯的優(yōu)勢(shì)目前階段，模型規(guī)模比模型架構(gòu)更加重要(scaling

law）PRF1PRF1PRF1抗體輕重鏈配對(duì)51.8%53.7%52.7%93.7%73.3%82.2%95.5%69.5%80.4%抗原名稱提取54.9%78.3%64.5%78.6%85%81.6%90.4%85%87.6%抗體-抗原關(guān)系提取53.4%52.5%53.1%79.8%62.5%70.1%90.2%65.7%76%Bert

BasedOpenAI

GPT3.5

zeroshot（1750億參數(shù)）PatentGPT

v0.3（130億參數(shù)）#03專利搜索與大模型結(jié)合為什么要RAG（Retrieval

Augmented

generation）模型層面減少幻覺解決更新信息的問(wèn)題少量高價(jià)值數(shù)據(jù)的利用問(wèn)題業(yè)務(wù)層面獲取更可信正確的結(jié)果有引用鏈接，提高可解釋性獲取新增領(lǐng)域信息解決產(chǎn)品迭代RAG架構(gòu)：Retrieval-Augmented

Generation

for

Large

Language

Models以前的搜索積累是否可以用？要做哪些改變關(guān)鍵詞抽取算法的優(yōu)化，PositionRank、Copyrnn、NER、POS

Rules.(可以重新做）對(duì)比學(xué)習(xí)，樣本量的突破（10w->1000w） IPC/CPC分類算法的優(yōu)化，TextCNN，BERT

classify；（標(biāo)量向量相結(jié)合的平臺(tái)）Pretrain:

PatentBertModel

ParameterTotal

sizeH=768,

L=12,A=12110MH=768,

L=12,A=12Patent_BERT_CN

(our)Patent_BERT_EN_Uncased_v2.0

(our)Pa

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

專利大模型的實(shí)踐與問(wèn)答探索

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

專利大模型的實(shí)踐與問(wèn)答探索

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔