在線優(yōu)化技術(shù)在快手聯(lián)盟上的實(shí)踐和產(chǎn)品化-快手_第1頁
在線優(yōu)化技術(shù)在快手聯(lián)盟上的實(shí)踐和產(chǎn)品化-快手_第2頁
在線優(yōu)化技術(shù)在快手聯(lián)盟上的實(shí)踐和產(chǎn)品化-快手_第3頁
在線優(yōu)化技術(shù)在快手聯(lián)盟上的實(shí)踐和產(chǎn)品化-快手_第4頁
在線優(yōu)化技術(shù)在快手聯(lián)盟上的實(shí)踐和產(chǎn)品化-快手_第5頁
已閱讀5頁,還剩53頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

在線優(yōu)化技術(shù)在快手聯(lián)盟上的實(shí)踐和產(chǎn)品化在線多臂賭博機(jī)技術(shù)簡介及落地時(shí)的大坑快手廣告聯(lián)盟內(nèi)循環(huán)的起量建模過程探索的翅膀快手快手OnlineBandits算法棧及其產(chǎn)品化靈魂拷問面臨選擇的時(shí)候如何思考呢?選擇進(jìn)行預(yù)嘗試新選項(xiàng),輔輔佐整個(gè)過程了一下收益一段時(shí)間小章魚的心聲:了一下收益一段時(shí)間小章魚的心聲:ArmArm1Arm2Arm3Arm4這經(jīng)驗(yàn)靠譜嗎?神:先隨機(jī)玩一段時(shí)間看看吧。有N個(gè)候選項(xiàng)每次選K個(gè)期待達(dá)到一個(gè)目標(biāo) 有N個(gè)候選項(xiàng)每次選K個(gè)期待達(dá)到一個(gè)目標(biāo)N個(gè)離散選項(xiàng)的在線E&E問題建模的通用形式不同的machine。分成T輪的序列決策問題(t=1,…,T):1.每個(gè)時(shí)間步,算法可從N中選擇K個(gè)Actions。2.環(huán)境每次會(huì)依賴算法的選項(xiàng),給出一個(gè)反饋reward,。,每個(gè)候選項(xiàng)背后都是一個(gè)與reward相關(guān)的未知分布(分布形態(tài)與參數(shù)都可能未知 候選好壞與平時(shí)不符離散參數(shù)連續(xù)參數(shù)在線賭博機(jī)技術(shù)的適用范圍運(yùn)營策略產(chǎn)品策略 店鋪/菜品的首圖/視頻/廣告詞等新品推薦新商品優(yōu)選246二手商品選文案更是腦式的組合爆炸問題。StochasticMulti-armedBandit的問題定義&假設(shè)reward的分布不同2、對(duì)于一個(gè)arm每次reward采樣是iid的。ThompsonThompsonSampling\epsilon-greedy選擇經(jīng)驗(yàn)均值最大的那個(gè)候選與分布無關(guān)NTlogT與分布有關(guān) 在線打分&排序 (1)無數(shù)據(jù)/孤品/在線參數(shù)--存在機(jī)器學(xué)習(xí)模型無法構(gòu)建的情況 (2)實(shí)時(shí)性--天級(jí)別訓(xùn)練模型不實(shí)時(shí)? (3)冷啟動(dòng)--新商品?新用戶? (4)動(dòng)態(tài)性--用戶興趣發(fā)生顯著變化?依賴對(duì)實(shí)際業(yè)務(wù)問題的建模與抽象依賴對(duì)實(shí)際業(yè)務(wù)問題的建模與抽象需要先確定什么是益如何計(jì)算等超參數(shù)離線與在線長鏈路Bandit算法中存在一些超參數(shù)有系統(tǒng)如何融合。算算法假設(shè)Bandit算法在提出時(shí),一般都有些特殊假設(shè),需要確定業(yè)務(wù)中實(shí)際情況滿足所用算法的假設(shè)業(yè)務(wù)核心問題業(yè)務(wù)核心問題Bandit算法建模與迭代快手廣告聯(lián)盟內(nèi)循環(huán)起量建模過程PP頻快手廣告聯(lián)盟內(nèi)循環(huán)起量核心問題有約束的冷啟問題在不影響已起量廣告的基礎(chǔ)上,1.現(xiàn)有聯(lián)盟消耗日均已達(dá)千萬量級(jí)2.流量位每日變化程度非常大在外部APP場景中表現(xiàn)的轉(zhuǎn)化率與站內(nèi)差異巨大眾多廣告場景喚端模型訓(xùn)練模型訓(xùn)練對(duì)于訂單廣告為例Ecpm=bid*cvr*ctrcvr和ctr依賴預(yù)估模型打分決定廣告競爭力樣本本學(xué)習(xí)模型不準(zhǔn)->預(yù)估低->出不去->沒正樣本->持續(xù)低模型不準(zhǔn)->預(yù)估高->超成本->bid壓價(jià)->持續(xù)低模型的本質(zhì)是對(duì)已有樣本分布的抽象,是“利用”過程那么如何幫助一個(gè)冷啟場景從冷啟過渡到成熟?Arm1:pos1Arm2:pos2Arm3:pos3ArmN:posN每隔T時(shí)間訂單廣告集合中的machine生效集合訂單廣告集合中的Top1:pos3Top2:pos5Top1Top3:pos1當(dāng)所有候選廣ecpm低thresholdecpm低淘汰集合檻淘汰集合在線過程代模型預(yù)估分嗎?千萬量級(jí)的創(chuàng)意id粒度嘛?authorNMachineM:APPMArm1:author1ArmMachineM:APPMArm1:author1Arm2:author2…ArmN:authorNMachineMachine1:APP1Arm1:author1Arm2:author2…ArmN:authorN用于實(shí)時(shí)Ecpm上,達(dá)到廣告粒度的優(yōu)選MachineMachineK:APPKArm1:author3Arm2:author1…ArmN:預(yù)期效果(預(yù)期花費(fèi))顯著正向波動(dòng)逐漸衰減正樣本逐漸增多模型預(yù)估準(zhǔn)確度上升環(huán)境變化Bandit的排序作用于ecpm上的程度應(yīng)該下降ContextualBanditContextualBandit1.廣告?zhèn)染S度特征2.媒體側(cè)維度特征3.雙側(cè)特征4.統(tǒng)計(jì)特征流量側(cè)X預(yù)算側(cè)可以構(gòu)建多個(gè)側(cè)面的Bandit實(shí)例RegretBound:OdTlogT?greedyBasedCascadingBanditWith?greedyBasedCascadingBanditWithTimeDecay標(biāo)正向且起量概率大增的綠通鏈嗎?MachineM:accountMArm1:cid1Arm2:cid2…ArmN:cidN精排后處理定向召回粗排綠色通道保送TopKTopKMachineMachine1:account1Arm1:cid1Arm2:cid2…ArmN:cidN歸并排序Why:歸并排序cid起cidcid綠通機(jī)制的缺陷cidcidNcidN3.運(yùn)營配置,政治任務(wù),分不出好壞Why:為了提升單日內(nèi)累計(jì)指標(biāo) 媒體探索策略填充率探索策略Pos探索策略…媒體行業(yè)策略維度探索策略Model粒度越來越粗雙側(cè)冷啟問題Pos單側(cè)冷啟問題媒體行業(yè)單側(cè)冷啟問題樣本數(shù)據(jù)量越來越多t且c2>c1證實(shí)了優(yōu)化策略的動(dòng)態(tài)演化過程計(jì)提升內(nèi)循環(huán)外投預(yù)期花費(fèi)數(shù)十倍優(yōu)化不是孤立的探索的翅膀研究動(dòng)機(jī): 性映射,在線負(fù)責(zé)學(xué)習(xí)在該非線性映射下的最佳線性函[1]ChenY,XieM,LiuJ,etal.InterconnectedNeuralLinearContextualBanditswithUCBExploration[C]//Pacific-AsiaConferenceonKnowledgeDiscoveryandDataMining.Springer,Cham,2022:169-181.OnlineMultiarmedBandit算法棧Bandit技術(shù)方向上包含非常多種類,解決各種環(huán)境下的E&E問題,近年來是研究和工業(yè)界的熱門方向。RewardReward分布假設(shè)上的改進(jìn)Arm假設(shè)上的改進(jìn)Policy上的改進(jìn)訓(xùn)練數(shù)據(jù)上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論