大模型增強(qiáng)的圖風(fēng)控_第1頁
大模型增強(qiáng)的圖風(fēng)控_第2頁
大模型增強(qiáng)的圖風(fēng)控_第3頁
大模型增強(qiáng)的圖風(fēng)控_第4頁
大模型增強(qiáng)的圖風(fēng)控_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

DataFun

#

2024大模型與圖機(jī)器學(xué)習(xí)協(xié)同的用戶行為風(fēng)控目錄CONTENTS01背景介紹2方法介紹:LOGIN實(shí)驗(yàn)效果總結(jié)與展望020304013背景介紹圖機(jī)器學(xué)習(xí)技術(shù)在風(fēng)控領(lǐng)域具有天然優(yōu)勢基于圖機(jī)器學(xué)習(xí)技術(shù)的風(fēng)控展現(xiàn)出突出應(yīng)用前景,受到學(xué)術(shù)界和工業(yè)界高度關(guān)注圖機(jī)器學(xué)習(xí)方法圖機(jī)器學(xué)習(xí)模型 復(fù)雜交互數(shù)據(jù)處理直接處理關(guān)系數(shù)據(jù),

捕獲復(fù)雜交互關(guān)系。 特征自動(dòng)學(xué)習(xí)

自動(dòng)學(xué)習(xí)節(jié)點(diǎn)表征,無需人工特征工程。特征工程特征工程傳統(tǒng)機(jī)器學(xué)習(xí)方法圖機(jī)器學(xué)習(xí)優(yōu)勢多賬戶關(guān)聯(lián)分析聯(lián)合考慮節(jié)點(diǎn)及其鄰居,上下文更豐富。機(jī)器學(xué)習(xí)模型4圖機(jī)器學(xué)習(xí)風(fēng)控面臨的技術(shù)挑戰(zhàn)欺詐用戶數(shù)量

遠(yuǎn)少于正常用戶類別失衡新型欺詐手段涌現(xiàn)防不勝防分布漂移欺詐者攻擊

對(duì)抗反欺詐系統(tǒng)攻擊頻發(fā)對(duì)抗魯棒性分布外泛化不平衡學(xué)習(xí)場景與挑戰(zhàn) 形式化問題各種改進(jìn)的GNN網(wǎng)絡(luò)過采樣:GraphSHA(KDD’23),GraphENS(ICLR’22)設(shè)計(jì)損失函數(shù):QTIAH-GNN(KDD’23),TAM(ICML’22)改進(jìn)模型結(jié)構(gòu):QTIAH-GNN(KDD’23),LTE4G(CIKM’22)……增強(qiáng)數(shù)據(jù):GNNSVD(WSDM’20),GNN-Guard(Neurips’20)改進(jìn)模型結(jié)構(gòu):R-GCN(KDD’19),ProGNN(KDD’20)對(duì)抗訓(xùn)練:GAME(ICLR’22),AdvT4NE(WWW’19)……增強(qiáng)數(shù)據(jù):G-Mixup(ICML’22),DropEdge(ICLR’20)改進(jìn)學(xué)習(xí)策略:EERM(ICLR’22),FLOOD(KDD’23)改進(jìn)模型結(jié)構(gòu):OOD-GNN(TKDE’22),DisC(Neurips’22)……5能否化繁為簡,簡化GNN改進(jìn)流程?多數(shù)現(xiàn)有工作挑戰(zhàn) 類別失衡

攻擊頻發(fā)分布漂移各種改進(jìn)的圖神經(jīng)網(wǎng)絡(luò)目標(biāo):避免低效人工設(shè)計(jì),利用機(jī)器智能提升樸素GNN性能能否統(tǒng)一?6Core

Technology2018Pretraining

-

Finetuning2019Prompting2021Instruction

Finetuning2022RLHF考慮目前最先進(jìn)的AI工具:大模型Transformer[Vaswani

et

al.,

2017]BERT

(110M/340M)[Devlin

et

al.,2018]GPT

(117M)[Radford

et

al.,

2018]BART

(406M)[Lewis

et

al.,2019]T5(11B)[Raffel

et

al.,2019]GPT-2

(1.5B)[Radford

et

al,

2019]GPT-3

(175B)[Brown

et

al.,

2020]PaLM

(540B)[Chowdhery

et

al,

2022]InstructGPT

(1.3B?)[Ouyang

et

al.,2022]ChatGPT

(?)[OpenAI,

2022]LLaMA

(7B-65B)[Touvron

et

al,2023]GPT-4

(1.8T)[OpenAI,

2023]LLaMA2

(7B-70B)[Touvron

et

al,2023]SORA(3B?)[OpenAI,

2024]Gemini1.5Pro

(175B)[Google,

2024]Claude3

(?)[Anthropic,

2024]7融合“機(jī)器智能”,提升樸素圖神經(jīng)網(wǎng)絡(luò)性能將大模型的內(nèi)蘊(yùn)知識(shí)和推理能力融入GNN訓(xùn)練框架,提升未經(jīng)特殊設(shè)計(jì)的樸素GNN的性能,去繁就簡解決復(fù)雜問題?未經(jīng)特殊設(shè)計(jì)的、樸素GNN大模型針對(duì)性設(shè)計(jì)GNN比肩

甚至超越推理能力內(nèi)蘊(yùn)融入

知機(jī)器智能

識(shí)8大模型增強(qiáng)的圖機(jī)器學(xué)習(xí)范式大模型作為顧問GNN不確定的點(diǎn)咨詢LLM并用LLM反饋改進(jìn)GNNLLMs-as-ConsultantsGNNLLMconsultwhenuncertainpredicttrainaugmentcase-by-caseLLMtunepredictLLMpromptpredict大模型作為預(yù)測器直接用LLM做圖預(yù)測任務(wù)LLMs-as-PredictorsLLMpromptGNNpredictenhance大模型作為增強(qiáng)器用LLM

增強(qiáng)數(shù)據(jù)再訓(xùn)練GNNLLMs-as-Enhancers90210方法介紹:LOGINLOGIN:基于大模型咨詢的圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程總覽324156316?452不確定點(diǎn)選擇圖神經(jīng)網(wǎng)絡(luò)預(yù)測標(biāo)簽不確定節(jié)點(diǎn)的鄰域23315提示:給定一個(gè)關(guān)系圖<SUBGRAPH>,其中第一個(gè)點(diǎn)是目標(biāo)節(jié)點(diǎn),包含下面的文本內(nèi)容<TEXT>,請(qǐng)?jiān)谝韵路秶鷥?nèi)選擇節(jié)點(diǎn)的類別進(jìn)行分類<TYPES>,給出你的解釋。(按規(guī)定格式輸出)<SUBGRAPH>點(diǎn)列表[1,2,3,4,5];一階鄰居[3,5];二階鄰居[1,2];專家標(biāo)注標(biāo)簽

GNN預(yù)測標(biāo)簽<TEXT><TYPES>自動(dòng)提示工程GNNs321564321564LLM“這個(gè)節(jié)點(diǎn)屬于[type]‘yy’,因?yàn)樗奈谋拘畔⒅邪?,這說明……;它的鄰域中的其他點(diǎn)為……。這說明……”}回復(fù):{“分類結(jié)果”:“[type]‘yy’"4,“解釋”:或4大模型咨詢4

=

4解釋35局部拓?fù)淙ピ氪竽P突貜?fù)利用大模型錯(cuò)誤2種節(jié)點(diǎn)類別未知節(jié)點(diǎn)類別專家標(biāo)注標(biāo)簽

GNN預(yù)測標(biāo)簽

LLM預(yù)測標(biāo)簽更新語義特征

大模型正確×4

411?節(jié)點(diǎn)選擇:圖神經(jīng)網(wǎng)絡(luò)預(yù)測不確定度衡量324156316?452不確定點(diǎn)選擇圖神經(jīng)網(wǎng)絡(luò)預(yù)測標(biāo)簽GNNs2種節(jié)點(diǎn)類別未知節(jié)點(diǎn)類別專家標(biāo)注標(biāo)簽

GNN預(yù)測標(biāo)簽

LLM預(yù)測標(biāo)簽對(duì)每個(gè)節(jié)點(diǎn)都調(diào)用LLM

開銷太大→僅向LLM咨詢GNN不確定的節(jié)點(diǎn)衡量GNN對(duì)某節(jié)點(diǎn)的預(yù)測不確定度:不同Dropout采樣下得到的預(yù)測結(jié)果的方差12壓縮節(jié)點(diǎn)語義+結(jié)構(gòu)信息的提示工程不確定節(jié)點(diǎn)的鄰域233154提示:給定一個(gè)關(guān)系圖<SUBGRAPH>,其中第一個(gè)點(diǎn)是目標(biāo)節(jié)點(diǎn),包含下面的文本內(nèi)容<TEXT>,請(qǐng)?jiān)谝韵路秶鷥?nèi)選擇節(jié)點(diǎn)的類別進(jìn)行分類<TYPES>,給出你的解釋。(按規(guī)定格式輸出)<SUBGRAPH>點(diǎn)列表[1,2,3,4,5];一階鄰居[3,5];二階鄰居[1,2];專家標(biāo)注標(biāo)簽

GNN預(yù)測標(biāo)簽<TEXT><TYPES>自動(dòng)提示工程向LLM

咨詢此前選出的GNN不確定節(jié)點(diǎn)輸入:給LLM提供對(duì)應(yīng)節(jié)點(diǎn)附帶的文本語義信息以及二階鄰域內(nèi)鄰居信息,忽略其他圖結(jié)構(gòu),以更加緊致輸出:明確要求LLM

給出對(duì)應(yīng)節(jié)點(diǎn)的分類預(yù)測并給出理由解釋“解釋”:“這個(gè)節(jié)點(diǎn)屬于……,因?yàn)樗奈谋拘畔⒅邪?,這說明……;它的鄰域中的其他點(diǎn)為……。這說明……”}13回復(fù):{

“分類結(jié)果”:

4大模型咨詢處理大模型反饋的機(jī)制對(duì)于LLM

給出預(yù)測的正確性采取不同手段LLM

預(yù)測正確時(shí)(屬性增強(qiáng))將LLM

給出的解釋加到節(jié)點(diǎn)的語義特征里面LLM

預(yù)測錯(cuò)誤時(shí)(結(jié)構(gòu)去噪)Google

DeepMind研究表明LLM

存在阿諛奉承(Sycophancy[1])的趨向,導(dǎo)致其輸出會(huì)刻意逢迎用戶輸入(解釋不可信)由于欺詐者與風(fēng)控系統(tǒng)的對(duì)抗攻擊,結(jié)構(gòu)有噪聲此時(shí)可以應(yīng)用已有圖結(jié)構(gòu)學(xué)習(xí)方法,從而優(yōu)化該節(jié)點(diǎn)局部拓?fù)浣Y(jié)構(gòu)321564321564解釋補(bǔ)充屬性特征大模型回復(fù)反饋4

=

4大模型正確35局部拓?fù)淙ピ?

4大模型錯(cuò)誤×Wei,

J.,

Huang,

D.,

Lu,Y.,

Zhou,

D.,

&

Le,

Q.

V.

(2023).

Simple

synthetic

data

reduces

sycophancy

in

large

language

models.

arXivpreprint

arXiv:2308.03958.14?訓(xùn)練&測試設(shè)定:直推式(transductive)14直推式學(xué)習(xí)(transductive

learning):訓(xùn)練階段:除了測試節(jié)點(diǎn)標(biāo)簽信息,全圖可見,只咨詢大模型部分訓(xùn)練節(jié)點(diǎn)324165測試節(jié)點(diǎn)標(biāo)簽未知GNN332145訓(xùn)練集中不確定點(diǎn)鄰域子圖LLM反饋重新訓(xùn)練的GNN324156例:結(jié)構(gòu)去噪重新訓(xùn)練的GNN34156?測試階段:預(yù)測測試節(jié)點(diǎn)標(biāo)簽,無大模型參與預(yù)測20315實(shí)驗(yàn)效果數(shù)據(jù)集選取選用了常用的6個(gè)文字屬性圖(TAG)Benchmark數(shù)據(jù)集,其中3個(gè)為同配性強(qiáng)的引用網(wǎng)絡(luò)圖,3個(gè)為異配性強(qiáng)的網(wǎng)頁鏈接圖針對(duì)異配圖,傳統(tǒng)方法多對(duì)圖神經(jīng)網(wǎng)絡(luò)做特殊設(shè)計(jì)改進(jìn)同配圖異配圖與風(fēng)控場景構(gòu)圖更類似16主實(shí)驗(yàn)效果低異配性高異配性樸素GNN+LOGIN能與復(fù)雜針對(duì)性設(shè)計(jì)的GNN達(dá)到可比水平特殊設(shè)計(jì)

GNN17樸素GNN消融實(shí)驗(yàn)F:Feature

Update

語義特征更新S:Structure

Refinement

拓?fù)浣Y(jié)構(gòu)精煉18實(shí)驗(yàn)結(jié)果表明通過LLM

增強(qiáng)圖學(xué)習(xí)效果的兩方面機(jī)制都是有效且必要的不同大模型能力對(duì)比實(shí)驗(yàn)結(jié)果表明使用更強(qiáng)的LLM

可以獲得更佳表現(xiàn)19大模型增強(qiáng)的圖機(jī)器學(xué)習(xí)范式對(duì)比實(shí)驗(yàn)結(jié)果表明LOGIN

能夠穩(wěn)定超越先前LLM

作為預(yù)測器/增強(qiáng)器的范式20案例分析:LLM

正確分類Cora

是論文引用圖數(shù)據(jù)集(同配圖)目標(biāo)節(jié)點(diǎn)的真實(shí)類別是“神經(jīng)網(wǎng)絡(luò)”,但被GNN

錯(cuò)誤地分為“概率方法”LLM能通過其參數(shù)化存儲(chǔ)的開放世界知識(shí)和推理能力正確分類,從而通過其對(duì)分類的解釋增強(qiáng)節(jié)點(diǎn)特征更新表示之后GNN能夠正確分類目標(biāo)節(jié)點(diǎn)semi-parametric

periodic

spline

functionthat

can

be

fit

to

circadian

rhythms.

Thistype

of

model

is

commonly

usedinNeural

Networks

to

model

complexpatterns.

Therefore,

the

paper

is

likely

tobelong

to

the

Neural

Networkssubcategory."}概率方法神經(jīng)網(wǎng)絡(luò)GNN最終正確特征語義增強(qiáng)大模型咨詢??GNN預(yù)測錯(cuò)誤目標(biāo)節(jié)點(diǎn)目標(biāo)節(jié)點(diǎn)的二階鄰域目標(biāo)節(jié)點(diǎn)目標(biāo)節(jié)點(diǎn)21LLM預(yù)測正確LLM

response{”classificationresult“:

”Neural_Networks”,"explanation":"The

paper

describes

a案例分析:LLM

錯(cuò)誤分類Wisconsin

是網(wǎng)頁鏈接圖數(shù)據(jù)集(異配圖)目標(biāo)節(jié)點(diǎn)的真實(shí)類別是“課程主頁”,但被GNN

錯(cuò)誤地分為“學(xué)生主頁”LLM錯(cuò)誤分類,可歸咎于輸入節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu)含有噪聲,因此對(duì)目標(biāo)節(jié)點(diǎn)鄰域子圖結(jié)構(gòu)去噪優(yōu)化結(jié)構(gòu)之后GNN能夠正確分類GNN最終正確?LLM

response{"classification

result":"student","explan

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論