2023阿里媽媽技術(shù)年刊:廣告算法與工程實踐-阿里媽媽技術(shù)_第1頁
2023阿里媽媽技術(shù)年刊:廣告算法與工程實踐-阿里媽媽技術(shù)_第2頁
2023阿里媽媽技術(shù)年刊:廣告算法與工程實踐-阿里媽媽技術(shù)_第3頁
2023阿里媽媽技術(shù)年刊:廣告算法與工程實踐-阿里媽媽技術(shù)_第4頁
2023阿里媽媽技術(shù)年刊:廣告算法與工程實踐-阿里媽媽技術(shù)_第5頁
已閱讀5頁,還剩435頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

序阿里媽媽成立于2007年,是淘天集團(tuán)商業(yè)數(shù)智營銷中臺。秉承著“讓每一份經(jīng)營都算數(shù)”的使命,阿里媽媽技術(shù)團(tuán)隊深耕AI在互聯(lián)網(wǎng)廣告領(lǐng)域的探索和大規(guī)模應(yīng)用,并通過技術(shù)創(chuàng)新驅(qū)動業(yè)務(wù)高速成長,讓商業(yè)營銷更簡單高效。2021年5月,我們開始通過「阿里媽媽技術(shù)」微信公眾號持續(xù)分享我們的技術(shù)實踐與經(jīng)驗,覆蓋廣告算法實踐、AI平臺及工程引擎、智能創(chuàng)意、風(fēng)控、數(shù)據(jù)科學(xué)等多個方向。每年此時,我們都會整理過去一年頗具表性和創(chuàng)新性的工作沉淀制作成冊?!?023阿里媽媽技術(shù)年刊》涵蓋機(jī)制策略、召回匹配、預(yù)估模型、智能創(chuàng)意、算法工程/引擎系統(tǒng)建設(shè)等內(nèi)容,這些工作有的已為業(yè)務(wù)創(chuàng)造實際收益,有的是一些常見問題的新解法,希望可以為相關(guān)領(lǐng)域的同學(xué)帶來一些新的思路。期待明年此時,每位朋友都有新的收獲,而我們也帶著更多探索實踐來與大家分享交~如果對這本電子書有想要探討的問題,或有更好的建議,也歡迎通過「阿里媽媽技術(shù)」微信公眾號與我們聯(lián)系。最后,祝大家新春快樂~祝福如初,愿不負(fù)追求與熱愛,萬事盡可期待!本書共435頁,全部內(nèi)容近48萬字。如果覺得還不錯,別忘了分享給身邊的朋友~阿里媽媽技術(shù)團(tuán)隊|目錄目錄機(jī)制策略1邁步從頭越-阿里媽媽廣告智能決策技術(shù)(自動出價&拍賣機(jī)制)的演進(jìn)之路1Bidding模型訓(xùn)練新范式:阿里媽媽生成式出價模型(AIGB)詳解26萬字長文,漫談廣告技術(shù)中的拍賣機(jī)制設(shè)計(經(jīng)典篇)36PerBid:在線廣告?zhèn)€性化自動出價框架55AuctionDesignintheAuto-biddingWorld系列一:面向異質(zhì)目標(biāo)函數(shù)廣告主的拍賣機(jī)制設(shè)計69自動出價下機(jī)制設(shè)計系列(二):面向私有約束的激勵兼容機(jī)制設(shè)計79增廣拍賣——二跳頁下的拍賣機(jī)制探索89Score-WeightedVCG:考慮外部性的智能拍賣機(jī)制設(shè)計99合約廣告中端到端流量預(yù)估與庫存分配108強(qiáng)化學(xué)習(xí)在廣告延遲曝光情形下的保量策略中的應(yīng)用123MiRO:面向?qū)弓h(huán)境下約束競價的策略優(yōu)化框架134預(yù)估模型142排序和準(zhǔn)度聯(lián)合優(yōu)化:一種基于混合生成/判別式建模的方案142轉(zhuǎn)化率預(yù)估新思路:基于歷史數(shù)據(jù)復(fù)用的大促轉(zhuǎn)化率精準(zhǔn)預(yù)估154基于特征自適應(yīng)的多場景預(yù)估建模174HC^2:基于混合對比學(xué)習(xí)的多場景廣告預(yù)估建模183AdaSparse:自適應(yīng)稀疏網(wǎng)絡(luò)的多場景CTR預(yù)估建模193貝葉斯分層模型應(yīng)用之直播場景打分校準(zhǔn)203召回匹配216代碼開源!阿里媽媽展示廣告Match底層技術(shù)架構(gòu)最新進(jìn)展 216|目錄BOMGraph:基于統(tǒng)一圖神經(jīng)網(wǎng)絡(luò)的電商多場景召回方法220CC-GNN:基于內(nèi)容協(xié)同圖神經(jīng)網(wǎng)絡(luò)的電商召回方法229RGIB:對抗雙邊圖噪聲的魯棒圖學(xué)習(xí)241MemorizationDiscrepancy:利用模型動態(tài)信息發(fā)現(xiàn)累積性注毒攻擊251智能創(chuàng)意262ACMMM'23|4篇論文解析阿里媽媽廣告創(chuàng)意算法最新進(jìn)展262上下文驅(qū)動的圖上文案生成267基于無監(jiān)督域自適應(yīng)方法的海報布局生成273基于內(nèi)容融合的字體生成方法278化繁為簡,精工細(xì)作——阿里媽媽直播智能剪輯技術(shù)詳解286視頻分割新范式:視頻感興趣物體實例分割VOIS297風(fēng)控技術(shù)305阿里媽媽內(nèi)容風(fēng)控模型預(yù)估引擎的探索和建設(shè)305大模型時代的阿里媽媽內(nèi)容風(fēng)控基礎(chǔ)服務(wù)體系建設(shè)323隱私計算344廣告營銷場景下的隱私計算實踐:阿里媽媽營銷隱私計算平臺SDH344阿里媽媽營銷隱私計算平臺SDH在公用云的落地實踐353算法工程/引擎/系統(tǒng)建設(shè)363積沙成塔——阿里媽媽動態(tài)算力技術(shù)的新演進(jìn)與展望363阿里媽媽智能診斷工程能力建設(shè)380廣告深度學(xué)習(xí)計算:向量召回索引的演進(jìn)以及工程實現(xiàn)390Dolphin:面向營銷場景的超融合多模智能引擎398阿里媽媽Dolphin智能計算引擎基于Flink+Hologres實踐414DolphinStreaming實時計算,助力商家端算法第二增長曲線424|機(jī)制策略機(jī)制策略邁步從頭越-阿里媽媽廣告智能決策技術(shù)(自動出價&拍賣機(jī)制)的演進(jìn)之路作者:妙臨、霽光、璽羽導(dǎo)讀隨著智能化營銷產(chǎn)品和機(jī)器學(xué)習(xí)的發(fā)展,阿里媽媽將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等AI技術(shù)越來越多地應(yīng)用到廣告智能決策領(lǐng)域。在阿里媽媽技術(shù)同學(xué)們的持續(xù)努力下,我們推動了業(yè)界廣告決策智能技術(shù)的代際革新。本文結(jié)合時代發(fā)展的視角分享了阿里媽媽廣告智能決策技術(shù)的演化過程,希望能給從事相關(guān)工作的朋友帶來一些新思路。前言在線廣告對于大多數(shù)同學(xué)來說是一個既熟悉又陌生的技術(shù)領(lǐng)域?!杆褟V推」、「搜推廣」等各種組合耳熟能詳,但廣告和搜索推薦有本質(zhì)區(qū)別:廣告解決的是“媒體-廣告平-廣告主”等多方優(yōu)化問題,其中媒體在保證用戶體驗的前提下實現(xiàn)商業(yè)化收入,廣告主的訴求是通過出價盡可能優(yōu)化營銷目標(biāo),廣告平臺則在滿足這兩方需求的基礎(chǔ)上促進(jìn)廣告生態(tài)的長期繁榮。廣告智能決策技術(shù)在這之中起到了關(guān)鍵性的作用,如圖1所示,它需要解決如下問題在內(nèi)的一系列智能決策問題:1.為廣告主設(shè)計并實現(xiàn)自動出價策略,提升廣告投放效果;2.為媒體設(shè)計智能拍賣機(jī)制來保證廣告生態(tài)系統(tǒng)的繁榮和健康。1|機(jī)制策略圖1?廣告智能決策通過自動出價和拍賣機(jī)制等方式實現(xiàn)多方優(yōu)化隨著智能化營銷產(chǎn)品和機(jī)器學(xué)習(xí)的發(fā)展,阿里媽媽將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等AI技術(shù)越來越多地應(yīng)用到廣告智能決策領(lǐng)域,如RL-basedBidding(基于強(qiáng)化學(xué)習(xí)的出價)幫助廣告主顯著提升廣告營銷效果,Learning-basedAuctionDesign(基于學(xué)習(xí)的拍賣機(jī)制設(shè)計)使得多方利益的統(tǒng)籌優(yōu)化更加高效。我們追根溯源,結(jié)合時代發(fā)展的視角重新審視廣告智能決策技術(shù)的演化過程,本文將以阿里媽媽廣告智能決策技術(shù)的演進(jìn)為例,分享我們工作和思考。也希望能以此來拋磚引玉,和大家一塊探討。持續(xù)突破的自動出價決策技術(shù)廣告平臺吸引廣告主持續(xù)投放的核心在于給他們帶來更大的投放價值,典型的例子就是自動化的出價產(chǎn)品一經(jīng)推出便深受廣告主的喜愛并持續(xù)的投入預(yù)算。在電商場景下,我們不斷地探索流量的多元化價值,設(shè)計更能貼近營銷本質(zhì)的自動出價產(chǎn)品,廣告主只需要簡單的設(shè)置就能清晰的表達(dá)營銷訴求。2|機(jī)制策略圖2?出價產(chǎn)品逐步的智能化&自動化,廣告主只需要簡單的設(shè)置即可清晰的表達(dá)出營銷訴求極簡產(chǎn)品背后則是強(qiáng)大的自動出價策略支撐,其基于海量數(shù)據(jù)自動學(xué)習(xí)好的廣告投放模式,以提升給定流量價值下的優(yōu)化能力??紤]到廣告優(yōu)化目標(biāo)、預(yù)算和成本約束,自動出價可以統(tǒng)一表示為帶約束的競價優(yōu)化問題。其中為廣告主的預(yù)算,為成本約束,該問題就是要對所有參競的流量進(jìn)行報價,以最大化競得流量上的價值總和。如果已經(jīng)提前知道要參競流量集合的全部信息,包括能夠觸達(dá)的每條流量的價值和成本等,那么可以通過線性規(guī)劃(LP)方法來求得最優(yōu)解。然而在線廣告環(huán)境的動態(tài)變化以及每天到訪用戶的隨機(jī)性,競爭流量集合很難被準(zhǔn)確的預(yù)測出來。因此常規(guī)方法并不完全適用,需要構(gòu)建能夠適應(yīng)動態(tài)環(huán)境的自動出價算法。對競價環(huán)境做一定的假設(shè)(比如拍賣機(jī)制為單坑下的GSP,且流量競得價格已知),通過拉格朗日變換構(gòu)造最優(yōu)出價公式,將原問題轉(zhuǎn)化為最優(yōu)出價參數(shù)的尋優(yōu)問題[9]:對于每一條到來的流量按照此公式進(jìn)行出價,其中為在線流量競價時可獲得的流量信息,為要求解的參數(shù)。而參數(shù)并不能一成不變,需要根據(jù)環(huán)境的動態(tài)變3|機(jī)制策略化不斷調(diào)整。參競流量的分布會隨時間發(fā)生變化,廣告主也會根據(jù)自己的經(jīng)營情況調(diào)整營銷設(shè)置,前序的投放效果會影響到后續(xù)的投放策略。因此,出價參數(shù)的求解本質(zhì)上是動態(tài)環(huán)境下的序列決策問題。2.1主線:從跟隨到引領(lǐng),邁向更強(qiáng)的序列決策技術(shù)如何研發(fā)更先進(jìn)的算法提升決策能力是自動出價策略發(fā)展的主線,我們參考了業(yè)界大量公開的正式文獻(xiàn),并結(jié)合阿里媽媽自身的技術(shù)發(fā)展,勾勒出自動出價策略的發(fā)展演進(jìn)脈絡(luò)。圖3?自動出價策略的演進(jìn)主線:邁向更強(qiáng)的決策能力整體可以劃分為4個階段:第一代:經(jīng)典控制類把效果最大化的優(yōu)化問題間接轉(zhuǎn)化為預(yù)算消耗的控制問題?;跇I(yè)務(wù)數(shù)據(jù)計算消耗曲線,控制預(yù)算盡可能按照設(shè)定的曲線來消耗。PID[1]及相關(guān)改進(jìn)[2][10]是這一階段常用的控制算法。當(dāng)競價流量價值分布穩(wěn)定的情況下,這類算法能基本滿足業(yè)務(wù)上線之初的效果優(yōu)化。第二代:規(guī)劃求解類相比于第一代,規(guī)劃求解類(LP)算法直接面向目標(biāo)最大化優(yōu)問題來進(jìn)行求解??苫谇耙惶斓膮⒏偭髁縼眍A(yù)測當(dāng)前未來流量集合,從而求解出價參數(shù)。自動4|機(jī)制策略出價問題根據(jù)當(dāng)前已投放的數(shù)據(jù)變成新的子問題,因此可多次持續(xù)的用該方法進(jìn)行求解,即OnlineLP[3][4]。這類方法依賴對未來參競流量的精準(zhǔn)預(yù)估,因此在實際場景落地時需要在未來流量的質(zhì)和量的預(yù)測上做較多的工作。第三代:強(qiáng)化學(xué)習(xí)類現(xiàn)實環(huán)境中在線競價環(huán)境是非常復(fù)雜且動態(tài)變化的,未來的流量集合也是難以精準(zhǔn)預(yù)測的,要統(tǒng)籌整個預(yù)算周期投放才能最大化效果。作為典型的序列決策問題,第三階段用強(qiáng)化學(xué)習(xí)類方法來優(yōu)化自動出價策略。其迭代過程從早期的經(jīng)典強(qiáng)化學(xué)習(xí)方法落地[5][6][8][9],到進(jìn)一步基于OfflineRL方法逼近「在線真實環(huán)境的數(shù)據(jù)分布」[9],再到末期貼近問題本質(zhì)基于OnlineRL方法實現(xiàn)和真實競價環(huán)境的交互學(xué)習(xí)[13]。第四代:生成模型類以ChatGPT為代表的生成式大模型以洶涌澎湃之勢到來,在多個領(lǐng)域都表現(xiàn)出令人驚艷的效果。新的技術(shù)理念和技術(shù)范式可能會給自動出價算法帶來革命性的升級。阿里媽媽技術(shù)團(tuán)隊提前布局,以智能營銷決策大模型AIGA(AIGeneratedAction)為核心重塑了廣告智能營銷的技術(shù)體系,并衍生出以AIGB(AIGeneratedBidding)[14]為代表的自動出價策略。為了讓大家有更好地理解,我們以阿里媽媽的實踐為基礎(chǔ),重點講述下強(qiáng)化學(xué)習(xí)在工業(yè)界的落地以及對生成式模型的探索。2.1.1強(qiáng)化學(xué)習(xí)在自動出價場景的大規(guī)模應(yīng)用實踐跟隨:不斷學(xué)習(xí)、曲折摸索作為典型的序列決策問題,使用強(qiáng)化學(xué)習(xí)(RL)是很容易想到的事情,但其在工業(yè)界的落地之路卻是充滿曲折和艱辛的。最初學(xué)術(shù)界[8]做了一些探索,在請求粒度進(jìn)行建模,基于Model-basedRL方法訓(xùn)練出價智能體(Agent),并在請求維度進(jìn)行決策。如競得該P(yáng)V,競價系統(tǒng)返回該請求的價值,否則返回0,同時轉(zhuǎn)移到下一個狀態(tài)。這種建模方法應(yīng)用到工業(yè)界遇到了很多挑戰(zhàn),主要原因在于工業(yè)界參競流量巨大,請求粒度的建模所需的存儲空間巨大;轉(zhuǎn)化信息的稀疏性以及延遲反饋等問題也給狀態(tài)構(gòu)造和Reward設(shè)計帶來很大的挑戰(zhàn)。為使得RL方法能夠真正落地,需要解決這幾個問題:「MDP是什么?」由于用戶到來的隨機(jī)性,參競的流量之間其實并不存在明顯的馬爾5|機(jī)制策略可夫轉(zhuǎn)移特性,那么狀態(tài)轉(zhuǎn)移是什么呢?讓我們再審視下出價公式,其包含兩部分:流量價值和出價參數(shù)。其中流量價值來自于請求粒度,出價參數(shù)為對當(dāng)前流量的出價激進(jìn)程度,而激進(jìn)程度是根據(jù)廣告主當(dāng)前的投放狀態(tài)來決定的。一種可行的設(shè)計是將廣告的投放信息按照時間段進(jìn)行聚合組成狀態(tài),上一時刻的投放策略會影響到廣告主的投放效果,并構(gòu)成新一時刻的狀態(tài)信息,因此按照時間段聚合的廣告主投放信息存在馬爾可夫轉(zhuǎn)移特性。而且這種設(shè)計還可以把問題變成固定步長的出價參數(shù)決策,給實際場景中需要做的日志回流、Reward收集、狀態(tài)計算等提供了時間空間。典型的工作[5][6][7][8][9][12]基本上都是采用了這樣的設(shè)計理念?!窻eward如何設(shè)計?」Reward設(shè)計是RL的靈魂。出價策略的Reward設(shè)計需要讓策略學(xué)習(xí)如何對數(shù)億計流量出價,以最大化競得流量下的價值總和。如果Reward只是價值總和的話,就容易使得策略盲目追求好流量,預(yù)算早早花光或者成本超限,因此還需要引導(dǎo)策略在約束下追求更有性價比的流量。另外,自動出價是終點反饋,即直到投放周期結(jié)束才能計算出完整的投放效果;且轉(zhuǎn)化等信號不僅稀疏,還存在較長時間的回收延遲。因此我們需要精巧設(shè)計Reward讓其能夠指導(dǎo)每一次的決策動作。實踐下來建立決策動作和最終結(jié)果的關(guān)系至關(guān)重要,比如[9]在模擬環(huán)境中保持當(dāng)前的最優(yōu)參數(shù),并一直持續(xù)到終點,從而獲取到最終的效果,以此來為決策動作設(shè)置較為精準(zhǔn)的Reward。另外,在實際業(yè)務(wù)中,為了能夠幫助模型更好的收斂,往往也會把業(yè)務(wù)經(jīng)驗融入到Reward設(shè)計中。「如何訓(xùn)練?」強(qiáng)化學(xué)習(xí)本質(zhì)是一個Trail-and-Error的算法,需要和環(huán)境進(jìn)行交互收集到當(dāng)前策略的反饋,并不斷探索新的決策空間進(jìn)一步更新迭代策略。但在工業(yè)界,由于廣告主投放周期的設(shè)置,一個完整的交互過程在現(xiàn)實時間刻度上通常為一天。經(jīng)典的RL算法要訓(xùn)練好一般要經(jīng)歷上萬次的交互過程,這在現(xiàn)實系統(tǒng)中很難接受。在實踐中,通常構(gòu)造一個模擬競價環(huán)境用于RL模型的訓(xùn)練,這樣就擺脫現(xiàn)實時空的約束提升模型訓(xùn)練效率。當(dāng)然在線競價環(huán)境非常復(fù)雜,如何在訓(xùn)練效率和訓(xùn)練效果之間平衡是構(gòu)造模擬環(huán)境中需要著重考慮的事情。這種訓(xùn)練模式,也一般稱之為SimulationRL-basedBidding(簡稱SRLB),其流程如下圖所示:6|機(jī)制策略4?Simulation?RL-based?Bidding(SRLB)訓(xùn)練模式基于SRLB訓(xùn)練模式,我們實現(xiàn)了強(qiáng)化學(xué)習(xí)類算法在工業(yè)界場景的大規(guī)模落地。根據(jù)我們的調(diào)研,在搜廣推領(lǐng)域,RL的大規(guī)模落地應(yīng)用較為少見。創(chuàng)新:立足業(yè)務(wù)、推陳出新隨著出價策略不斷的升級迭代,“模擬環(huán)境和在線環(huán)境的差異”逐漸成為了效果進(jìn)一步提升的約束。為了方便構(gòu)造,模擬環(huán)境一般采用單坑GSP來進(jìn)行分配和扣費且假設(shè)每條流量有固定的獲勝價格(WinningPrice)。但這種假設(shè)過于簡單,尤其是當(dāng)廣告展現(xiàn)的樣式越來越豐富,廣告的坑位的個數(shù)和位置都在動態(tài)變化,且Learning-based拍賣機(jī)制也越來約復(fù)雜,使得模擬環(huán)境和在線實際環(huán)境差異越來越大?;赟imulationRL-basedBidding模式訓(xùn)練的模型在線上應(yīng)用過程中會因環(huán)境變化而偏離最優(yōu)策略,導(dǎo)致線上效果受到損失。模擬環(huán)境也可以跟隨線上環(huán)境不斷升級,但這種方式成本較高難度也大。因此,我們期待能夠找到一種不依賴模擬環(huán)境,能夠?qū)?biāo)在線真實環(huán)境學(xué)習(xí)的模式,以使得訓(xùn)練出來的Bidding模型能夠感知到真實競價環(huán)境從而提升出價效果。結(jié)合業(yè)務(wù)需求并參考了RL領(lǐng)域的發(fā)展,我們先后調(diào)研了模仿學(xué)習(xí)、BatchRL、OfflineRL等優(yōu)化方案,并提出的如下的OfflineRL-basedBidding迭代范式,期望能夠以盡可能小的代價的逼近線上真實的樣本分布。7|機(jī)制策略5?Offline?RL-based?Bidding?訓(xùn)練模式,與SRLB模式差異主要在訓(xùn)練數(shù)據(jù)來源和訓(xùn)練方式在這個范式下,直接基于線上決策過程的日志,擬合reward與出價動作之間的相關(guān)性,從而避免模擬樣本產(chǎn)生的分布偏差。盡管使用真實決策樣本訓(xùn)練模型更加合理,但在實踐中往往容易產(chǎn)生策略坍塌現(xiàn)象。核心原因就是線上樣本不能做到充分探索,對樣本空間外的動作價值無法正確估計,在貝爾曼方程迭代下不斷的高估。對于這一問題,我們可以假設(shè)一個動作所對應(yīng)的數(shù)據(jù)密度越大,支撐越強(qiáng),則預(yù)估越準(zhǔn)確度越大,反之則越小。基于這一假設(shè),參考CQL[21]的思想,構(gòu)建一種考慮數(shù)據(jù)支撐度的RL模型,利用數(shù)據(jù)密度對價值網(wǎng)絡(luò)估值進(jìn)行懲罰。這一方法可以顯著改善動作高估問題,有效解決OOD問題導(dǎo)致的策略坍塌,從而使得OfflineRL-based能夠部署到線上并取得顯著的效果提升。后續(xù)我們又對這個方法做了改進(jìn),借鑒了IQL[22](ImplicitQlearning)中的In-samplelearning思路,引入期望分位數(shù)回歸,基于已有的數(shù)據(jù)集來估計價值網(wǎng)絡(luò),相比于CQL,能提升模型訓(xùn)練和效果提升的穩(wěn)定性。6?從CQL到IQL,Offline?RL-based?Bidding中訓(xùn)練算法的迭代8|機(jī)制策略總結(jié)下來,在這一階段我們基于業(yè)務(wù)中遇到的實際問題,并充分借鑒業(yè)界思路,推陳出新。OfflineRL-basedBidding通過真實的決策數(shù)據(jù)訓(xùn)練出價策略,比基于模擬環(huán)境訓(xùn)練模式(SRLB)能夠更好的逼近「線上真實環(huán)境的數(shù)據(jù)分布」。突破:破解難題、劍走偏鋒讓我們再重新審視RL-basedBidding迭代歷程,該問題理想情況可以通過「與線上真實環(huán)境進(jìn)行交互并學(xué)習(xí)」的方式求解,但廣告投放系統(tǒng)交互成本較高,與線上環(huán)境交互所需要的漫長「訓(xùn)練時間成本」和在線上探索過程中可能需要遭受的「效果損失成本」,讓我們在早期選擇了SimulationRL-basedBidding范式,隨后為解決這種范式下存在的環(huán)境不一致的問題,引入了OfflineRL-basedBidding范式。7?重新審視RL-based?Bidding發(fā)展脈絡(luò)為了能夠進(jìn)一步突破效果優(yōu)化的天花板,我們需要找到一種新的Bidding模型訓(xùn)練范式:能夠不斷的和線上進(jìn)行交互探索新的決策空間且盡可能減少因探索帶來的效果損失。還能夠在融合了多種策略的樣本中進(jìn)行有效學(xué)習(xí)。即控制「訓(xùn)練時間成本」和「效果損失成本」下的OnlineRL-basedBidding迭代范式,如下圖所示:9|機(jī)制策略8?Online?RL-based?Bidding?訓(xùn)練模式,與前兩種模式的差別在于能夠和環(huán)境進(jìn)行直接交互學(xué)習(xí)提出了可持續(xù)在線強(qiáng)化學(xué)習(xí)(SORL),與在線環(huán)境交互的方式訓(xùn)練自動出價策略,較好解決了環(huán)境不一致問題。SORL框架包含探索和訓(xùn)練兩部分算法,基于Q函數(shù)的Lipschitz光滑特性設(shè)計了探索的安全域,并提出了一個安全高效的探索算法用于在線收集數(shù)據(jù);另外提出了V-CQL算法用于利用收集到的數(shù)據(jù)進(jìn)行離線訓(xùn)練,V-CQL算法通過優(yōu)化訓(xùn)練過程中Q函數(shù)的形態(tài),減小不同隨機(jī)種子下訓(xùn)練策略表現(xiàn)的方差,從而提高了訓(xùn)練的穩(wěn)定性。9?SORL的訓(xùn)練模式在這一階段中,不斷思考問題本質(zhì),提出可行方案從而使得和在線環(huán)境進(jìn)行交互訓(xùn)練學(xué)習(xí)成為可能。10|機(jī)制策略2.1.2引領(lǐng)生成式Bidding的新時代(AIGB)ChatGPT為代表的生成式大模型以洶涌澎湃之勢到來。一方面,新的用戶交互模式會孕育新的商業(yè)機(jī)會,給自動出價的產(chǎn)品帶來巨大改變;另一方面,新的技術(shù)理念和技術(shù)范式也會給自動出價策略帶來革命性的升級。我們在思考生成式模型能夠給自動出價策略帶來什么?從技術(shù)原理上來看,RL類方法基于時序差分學(xué)習(xí)決策動作好壞,在自動出價這種長序列決策場景下會有訓(xùn)練誤差累積過多的問題。因此,我們提出了一種基于生成式模型構(gòu)造的出價策略優(yōu)化方案(AIGB-AIGenerativeBidding)[14]。與強(qiáng)化學(xué)習(xí)的視角不同,如圖9所示,AIGB直接關(guān)聯(lián)決策軌跡和回報信息,能夠避免訓(xùn)練累積,更適合長序列決策場景。10?GenerativeBidding相比RL-based?Bidding模式能夠避免訓(xùn)練誤差累積,更適合長序列決策場景從生成式模型的角度來看,我們可以將出價、優(yōu)化目標(biāo)和約束等具備相關(guān)性的指標(biāo)視為一個聯(lián)合概率分布,從而將出價問題轉(zhuǎn)化為條件分布生成問題。圖10直觀地展示了生成式出價模型的流程:在訓(xùn)練階段,模型將歷史投放軌跡數(shù)據(jù)作為訓(xùn)練樣本,以最大似然估計的方式擬合軌跡數(shù)據(jù)中的分布特征。這使得模型能夠自動學(xué)習(xí)出價策略、狀態(tài)間轉(zhuǎn)移概率、優(yōu)化目標(biāo)和約束項之間的相關(guān)性。在線上推斷階段,生成式模型可以基于約束和優(yōu)化目標(biāo),以符合分布規(guī)律的方式輸出出價策略。11|機(jī)制策略圖11?AIGB的訓(xùn)練和預(yù)測算法AIGB基于當(dāng)前的投放狀態(tài)信息以及策略生成條件輸出未來的投放策略,相比于以往RL策略輸出單步action,AIGB可以被理解為在規(guī)劃的基礎(chǔ)上進(jìn)行決策,最大程度地避免分布偏移和策略退化問題,從而更適合長序列決策場景。這一優(yōu)點有利于在實踐中進(jìn)一步減小出價間隔,提升策略的快速反饋能力。與此同時,基于規(guī)劃的出價策略也具備更好的可解釋性,能夠幫助我們更好地進(jìn)行離線策略評估,方便專家經(jīng)驗與模型深度融合。另外,我們也還在進(jìn)一步探索,是否可以把競價領(lǐng)域知識融入到大模型中并幫助出價決策。從「動作判別式」決策到「軌跡生成式」決策,朝著生成式Bidding的新時代大踏步邁進(jìn)!12|機(jī)制策略2.2副線:百花齊放,更全面的出價決策技術(shù)圖12?發(fā)展副線:更全面的業(yè)務(wù)實際場景的特性優(yōu)化除了更強(qiáng)的決策能力外,在實際場景中還會針對業(yè)務(wù)特點做更多的優(yōu)化,這里介紹3個典型的研究技術(shù)點:復(fù)雜的競價環(huán)境下的最優(yōu)出價策略出價形式化建模依賴對競價環(huán)境的假設(shè),不同的假設(shè)下推導(dǎo)出來的出價公式是不同的。以MaxReturn計劃為例,出價形式為,其中為一個粗粒度與請求無關(guān)的參數(shù),在簡單競價環(huán)境下(GSP單坑下)這種出價形式是理論最優(yōu)的。而在實際工業(yè)界競價環(huán)境是非常復(fù)雜的:多坑、帶保留價的機(jī)制或其他復(fù)雜機(jī)制,當(dāng)前的出價策略并非最優(yōu)。學(xué)術(shù)界和工業(yè)界針對這一問題提出了不少方法,大概分為2類:1)對競價環(huán)境做進(jìn)一步的假設(shè)(比如多坑)推導(dǎo)出閉式解,并進(jìn)行求解[18];2)基于數(shù)據(jù)驅(qū)動的方法,在基礎(chǔ)價格上結(jié)合當(dāng)前流量的信息(如WinningPrice)等進(jìn)行微調(diào),比如BidShading類方法[17][19]。多智能體聯(lián)合出價在線廣告本質(zhì)上是一個多智能體競價系統(tǒng)。通常情況下每一個自動出價智能體求解一個獨立的優(yōu)化問題,而將其他智能體出價的影響隱式地建模為環(huán)境的一部分。這種建模方式忽略了在線廣告的動態(tài)博弈,即最終的拍賣結(jié)果取決于所有智能體的出價,且任一智能體的策略的改變會影響到其他所有智能體的策略。因此若不做協(xié)調(diào),則所有13|機(jī)制策略智能體會處于一個無約束狀態(tài),進(jìn)而降低系統(tǒng)的效率。典型的工作包括[7][11][12]都是針對線上環(huán)境的多智能體問題進(jìn)行求解,面對線上智能體個數(shù)眾多(百萬級),通過廣告主進(jìn)行聚類等方式,把問題規(guī)模降低到可求解的程度。Fairness不同行業(yè)的廣告主在廣告投放時面臨的競價環(huán)境也是不同的,當(dāng)前廣泛采用的統(tǒng)一出價策略可能使得不同廣告主的投放效果存在較大的差異,尤其是對小廣告主來說,訓(xùn)練效果會受到大廣告主的影響,即“Fairness”問題。典型的工作包括[16]將傳統(tǒng)的統(tǒng)一出價策略拓展為多個能夠感知上下文的策略族,其中每個策略對應(yīng)一類特定的廣告主聚類。這個方法中首先設(shè)計了廣告計劃畫像網(wǎng)絡(luò)用于建模動態(tài)的廣告投放環(huán)境。之后,通過聚類技術(shù)將差異化的廣告主分為多個類并為每一類廣告主設(shè)計一個特定的具有上下文感知能力的自動出價策略,從而實現(xiàn)為每個廣告主匹配特定的個性化策略。多階段協(xié)同出價為平衡行業(yè)在線廣告的優(yōu)化性能和響應(yīng)時間,在線工業(yè)場景經(jīng)常會采用兩階段級聯(lián)架構(gòu)。在這種架構(gòu)下,自動出價策略不僅需要在精競階段(第二階段)進(jìn)行傳統(tǒng)的競拍,還必須在粗競階段(第一階段)參與競爭才能進(jìn)入精競階段。現(xiàn)有的工作主要集中在精競階段的拍賣設(shè)計和自動出價策略上,而對粗競階段的拍賣機(jī)制和自動出價策略研究還不夠充分,這部分最主要的挑戰(zhàn)在于粗競階段的廣告量級會比精競階段多了近百倍,且自動出價依賴的流量價值預(yù)估(如PCVR)比精競階段準(zhǔn)度差,因此如何設(shè)計更大規(guī)模且能夠應(yīng)對不確定性預(yù)估值下的出價策略是這個方向主要研究的問題,而且還需要研究兩階段下的拍賣機(jī)制設(shè)計以引導(dǎo)自動出價正確報價。在這個方向上,我們依賴強(qiáng)大的工程基建能力上線了全鏈路自動出價策略,顯著提升了廣告主的投放效果;并設(shè)計了適用于兩階段的拍賣機(jī)制[33]。拍賣機(jī)制設(shè)計也是一個決策問題拍賣機(jī)制是對競爭性資源的一種高效的市場化分配方式,具有良好博弈性質(zhì)的拍賣機(jī)制在互聯(lián)網(wǎng)廣告場景下可以引導(dǎo)廣告主的有序競爭,從而保證競價生態(tài)的穩(wěn)定和健康。經(jīng)典拍賣機(jī)制如GSP、VCG由于其良好的博弈性質(zhì)以及易于實現(xiàn)的特點使得其在2002年前后開始被互聯(lián)網(wǎng)廣告大規(guī)模的使用。14|機(jī)制策略圖13?在線廣告的拍賣機(jī)制的示意圖十幾年過去,互聯(lián)網(wǎng)廣告環(huán)境已經(jīng)發(fā)生了巨大的改變,與經(jīng)典靜態(tài)拍賣機(jī)制的假設(shè)相比,現(xiàn)在的廣告主營銷目標(biāo)多元、策略行為復(fù)雜,且機(jī)制的優(yōu)化目標(biāo)不再是單一的收入或者社會福利,需要將媒體、廣告主、廣告平臺的利益考慮在內(nèi)統(tǒng)一優(yōu)化。而在一個智能化的廣告系統(tǒng)中,拍賣機(jī)制需要根據(jù)系統(tǒng)中參與方的行為變化而調(diào)整自己的策略行為,即拍賣機(jī)制設(shè)計也是一個決策問題。因此如何結(jié)合互聯(lián)網(wǎng)海量數(shù)據(jù)的優(yōu)勢去設(shè)計更符合廣告主行為模式并貼近業(yè)務(wù)需求的智能拍賣機(jī)制迫在眉睫。從經(jīng)濟(jì)學(xué)視角看,最優(yōu)廣告拍賣設(shè)計可以看作一個優(yōu)化決策問題:最大化綜合目標(biāo)(收入、用戶體驗等),同時需要滿足經(jīng)濟(jì)學(xué)性質(zhì)保證,最典型的是激勵相容性(IncentiveCompatibility,IC)和個體理性(IndividualRationality,IR)的約束。IC要求廣告主真實報價總是能最大化其自身效用,而IR要求廣告主付費不超過其對廣告點擊的真實估值,這樣該機(jī)制就可以優(yōu)化出穩(wěn)定的效果。優(yōu)化拍賣機(jī)制需要解決如下問題:機(jī)制性質(zhì)如何滿足:需要一種簡潔的數(shù)學(xué)形式表達(dá)機(jī)制需要滿足的博弈性質(zhì),并將其融入到機(jī)制的優(yōu)化過程中。如何面向?qū)嶋H后驗效果優(yōu)化:工業(yè)界中很多優(yōu)化目標(biāo)指標(biāo)難以得到精確解析形式(例如成交額、商品收藏加購量等),如何通過真實反饋的方式優(yōu)化機(jī)制也是需要考慮的。3.1主線:飄然凡塵,從只遠(yuǎn)觀到深度優(yōu)化的拍賣機(jī)制從經(jīng)典的拍賣機(jī)制開始,如何通過數(shù)據(jù)化&智能化提升拍賣機(jī)制的效果是發(fā)展主線,我們參考了業(yè)界大量的公開的正式文獻(xiàn),并結(jié)合阿里媽媽自身的技術(shù)發(fā)展,勾勒出拍賣機(jī)制的發(fā)展演進(jìn)脈絡(luò)。15|機(jī)制策略圖14?廣告拍賣機(jī)制的發(fā)展主線:深度優(yōu)化整體而言可以劃分為3個階段:第一代:經(jīng)典拍賣機(jī)制經(jīng)典的GSP[23]、VCG[24]在互聯(lián)網(wǎng)場景大規(guī)模落地后,針對場景特點的優(yōu)化主要集中在兩方面:1)提升平臺收入,最典型的是Squashing[25]和保留價;2)多目標(biāo)優(yōu)化能力,通過在排序公式中引入更多的項來優(yōu)化多目標(biāo),最典型的是Ugsp。這些機(jī)制的分配和扣費形式相對清晰,所以關(guān)于他們的激勵性質(zhì)也大量被研究。第二代:Learning-based拍賣機(jī)制隨著深度學(xué)習(xí)&強(qiáng)化學(xué)習(xí)的蓬勃發(fā)展,大家開始探索將深度學(xué)習(xí)/強(qiáng)化學(xué)習(xí)引入到拍賣機(jī)制設(shè)計中,學(xué)術(shù)界典型的工作包括RegretNet[26]、RDM[41]等,阿里媽媽結(jié)合工業(yè)界的場景特點,先后設(shè)計出DeepGSP[31]、NeuralAuction[32]、Two-StageAuction[33]等機(jī)制,這些機(jī)制都借助了深度網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,提升拍賣機(jī)制的優(yōu)化效果。第三代:拍賣機(jī)制&自動出價聯(lián)合設(shè)計隨著自動出價能力的廣泛應(yīng)用,廣告主競價方式相較于之前有了大幅度的改變,廣告主向平臺提交高層次的優(yōu)化目標(biāo)和約束條件,然后由出價代理代表廣告主在每次廣告拍賣中做出詳細(xì)的出價決策。對于廣告主來說,平臺需要把出價和拍賣機(jī)制看成一個整體聯(lián)合設(shè)計,典型的工作包括[36]。為了讓大家有更好的理解,我們以阿里媽媽的實踐為基礎(chǔ),重點講述下智能拍賣機(jī)制16|機(jī)制策略在工業(yè)界的落地。3.1.1一相逢便勝卻無數(shù):當(dāng)拍賣機(jī)制遇到智能化驚艷登場:可Learning的拍賣機(jī)制自2019年開始,學(xué)術(shù)界開始將深度學(xué)習(xí)&強(qiáng)化學(xué)習(xí)引入到機(jī)制設(shè)計中,如RegretNet[26]、RDM[41]等,他們通過引入深度網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,提升拍賣機(jī)制的優(yōu)化效果,為拍賣機(jī)制的發(fā)展開辟了一條新的道路。遺憾的是,這些工作都做了很強(qiáng)的理論假設(shè)如廣告主個數(shù)固定等,沒有看到在工業(yè)界大規(guī)模落地的實踐。因此,我們開始思考,是否能夠針對以上問題設(shè)計新型的面向多目標(biāo)優(yōu)化的廣告拍賣機(jī)制,并能夠結(jié)合工業(yè)界海量數(shù)據(jù)的優(yōu)勢,通過深度網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力來解決廣告系統(tǒng)場景下的多目標(biāo)優(yōu)化問題。我們提出一種基于深度神經(jīng)網(wǎng)絡(luò)的拍賣機(jī)制DeepGSP[31]。DeepGSP延續(xù)GSP的二價扣費機(jī)制,并通過深度網(wǎng)絡(luò)提升其分配能力。不同于經(jīng)典的廣告拍賣機(jī)制,其能夠通過深度網(wǎng)絡(luò)的學(xué)習(xí)實現(xiàn)任意給定目標(biāo)的優(yōu)化,整個優(yōu)化過程使用深度強(qiáng)化學(xué)習(xí)中確定性策略梯度算法實現(xiàn)。我們對DeepGSP的模式進(jìn)行了思考:其采用GSP-Style的機(jī)制設(shè)計模式,通過深度網(wǎng)絡(luò)為每個廣告計算出一個分?jǐn)?shù),排序后決定分配和扣費結(jié)果。訓(xùn)練時基于最終效果為參與競價的每一條廣告樣本分配獎賞并采用強(qiáng)化學(xué)習(xí)的方法驅(qū)動模型參數(shù)更新。從機(jī)制的角度,求解最優(yōu)分配問題是一個全局視角的組合優(yōu)化問題,而DeepGSP是建模在廣告粒度,如何把整體的效果分?jǐn)偟矫總€廣告上,即信用分配問題,會對訓(xùn)練產(chǎn)生很大的影響。但排序是一個不可微的操作,在模型訓(xùn)練的時候無法直接像監(jiān)督學(xué)習(xí)那樣通過樣本標(biāo)簽計算的loss反向梯度傳導(dǎo)優(yōu)化模型參數(shù)。因此我們又提出了一種新的拍賣機(jī)制NeuralAuction[32],以一種可微的計算形式來表達(dá)”排序”算子,從而能夠與梯度下降訓(xùn)練方法結(jié)合,實現(xiàn)端到端優(yōu)化,15?工業(yè)界Learning-based?拍賣機(jī)制2個典型工作:Deep?GSP和Neural?Auction17|機(jī)制策略值得注意的是,我們的工作也夯實了工業(yè)界智能拍賣機(jī)制(Learning-basedMechanismDesign)方向,并得到了業(yè)界的廣泛關(guān)注,其中所學(xué)術(shù)沉淀被國際會議MetaReviewer和引用者使用開創(chuàng)新方向(“contributesanewperspectivetotheliterature”)和首次(“thefirstattempts”)等方式評價。持續(xù)發(fā)力:整頁拍賣(考慮外部性)機(jī)制廣告拍賣機(jī)制的效果依賴于廣告展示商品點擊率(CTR)的精確預(yù)估,但在實際場景中,商品展示點擊率會受到相互之間的外部性影響。這一現(xiàn)象在近年來開始受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。然而,傳統(tǒng)的廣告拍賣通常簡化或忽略了外部性。例如,廣泛使用的GSP拍賣機(jī)制基于可分離CTR模型[37],假定廣告的點擊率只由廣告內(nèi)容和位置決定,而忽略了其他商品的影響。因此傳統(tǒng)的廣告拍賣機(jī)制在考慮外部性時不再適用。但考慮外部性影響對于最優(yōu)廣告拍賣的設(shè)計帶來了許多挑戰(zhàn)。由于廣告的點擊率受到上下文中其他商品的影響,即使對分配進(jìn)行微小修改,也可能導(dǎo)致廣告拍賣的預(yù)期收入發(fā)生復(fù)雜的變化。一般而言,對于外部性結(jié)構(gòu)不作具體假設(shè)時,計算具有最大社會福利的分配方案是NP困難的。因此,如何設(shè)計高效實用的分配算法是一個非平凡的問題。另一方面,由于外部性影響的存在,拍賣機(jī)制更難控制每個廣告主得到的效用,因此IC和IR等約束更難滿足。我們的工作[28]提出一個數(shù)據(jù)驅(qū)動的廣告拍賣框架,以在考慮外部性的情況下實現(xiàn)收入最大化,同時確保滿足IC和IR約束。結(jié)合理論分析提出Score-WeightedVCG框架,將最優(yōu)拍賣機(jī)制的設(shè)計拆解為一個單調(diào)得分函數(shù)的學(xué)習(xí)和一個加權(quán)福利最大化算法的設(shè)計?;谶@一框架又提出一個實用的實現(xiàn)方案,利用數(shù)據(jù)驅(qū)動的模型實現(xiàn)最優(yōu)拍賣機(jī)制。通過完備的理論證明了該框架在各種感知外部性的點擊率模型下都能產(chǎn)出滿足激勵兼容和個體理性的近似最優(yōu)廣告拍賣。16?Score-Weighted?VCG:考慮外部性的整頁拍賣機(jī)制18|機(jī)制策略一片藍(lán)海:融合機(jī)制設(shè)計融合階段是工業(yè)界一個非常關(guān)鍵的過程。在搜索和信息流等場景中,廣告結(jié)果與自然結(jié)果分別由廣告系統(tǒng)和推薦系統(tǒng)產(chǎn)生,融合機(jī)制對候選的廣告和自然結(jié)果進(jìn)行合并、篩選、排列,決定最終向用戶展示的商品列表。圖17?融合階段是工業(yè)界系統(tǒng)中一個非常關(guān)鍵的過程同時融合也是一個機(jī)制設(shè)計問題。廣告結(jié)果和自然結(jié)果的分配不再是獨立的,通過綜合考慮廣告和自然結(jié)果排列方式來優(yōu)化用戶體驗和平臺收入。另外,一個商品可能同時作為廣告結(jié)果和自然結(jié)果的候選出現(xiàn),這是因為廣告系統(tǒng)和推薦系統(tǒng)都傾向于選擇與用戶偏好或搜索關(guān)鍵詞較為匹配的商品。在此情形下,通常不允許將一個商品作為廣告和自然結(jié)果同時展示給用戶,導(dǎo)致對于廣告結(jié)果和自然結(jié)果的分配不再是獨立的,這也會導(dǎo)致廣告主對廣告的付費動機(jī)出現(xiàn)激勵問題,因此必須重新審視廣告與自然結(jié)果融合時的機(jī)制設(shè)計問題。定坑可以理解為最經(jīng)典的混排機(jī)制,自然結(jié)果優(yōu)化用戶體驗,廣告結(jié)果采用傳統(tǒng)的機(jī)制如GSP來優(yōu)化平臺收入?;炫磐ㄟ^經(jīng)典的線性加權(quán)把多目標(biāo)優(yōu)化問題轉(zhuǎn)換成一個單目標(biāo)(用戶體驗和廣告平臺加權(quán)和)的優(yōu)化問題。所有商品都按給定的排序公式進(jìn)行打分,按分?jǐn)?shù)從大到小逐個放置到所有坑位里面,并用uGSP進(jìn)行扣費。但因外部性的普遍存在,該方式通常無法得到最優(yōu)解。業(yè)界普遍在探索的是廣告和自然整頁優(yōu)化方式,基于組合優(yōu)化思想來解該多目標(biāo)優(yōu)化問題,通常隱式或者顯式地對外部性進(jìn)行建模,目前媽媽和業(yè)界都有一些典型的優(yōu)化19|機(jī)制策略工作[38][39],在機(jī)制性質(zhì)上還有很多的研究空間。3.1.2渾然一體:自動出價和拍賣機(jī)制的聯(lián)合設(shè)計隨著自動出價產(chǎn)品的廣泛應(yīng)用,現(xiàn)在廣告主參競的方式相較于之前有了大幅度的改變:廣告主向平臺提交其高層次的優(yōu)化目標(biāo)和約束條件,然后由機(jī)器學(xué)習(xí)算法驅(qū)動的出價代理代表廣告主在每次廣告拍賣中做出詳細(xì)的出價決策。通過自動出價工具,廣告主從全局角度針對其經(jīng)濟(jì)約束優(yōu)化其整體廣告目標(biāo)。對于廣告主來說,自動出價和拍賣機(jī)制整體才是平臺真正的機(jī)制。圖18?在自動出價體系下,廣告主與廣告平臺的博弈關(guān)系已發(fā)生根本改變在自動出價的新廣告范式中,我們需要重新審視經(jīng)典的拍賣機(jī)制模型是否仍然適用。由于可以獲取有關(guān)廣告主與用戶之間互動的歷史數(shù)據(jù),平臺可以估計用戶的潛在行為(如點擊和轉(zhuǎn)化),這些行為可以被視為廣告主對物品的估值。在自動出價中,廣告主的私有信息實際上是其在整個廣告投放過程的約束條件。這些與經(jīng)典拍賣截然不同的新特點需要對應(yīng)的新的廣告拍賣模型,以激勵廣告主真實地上報其高層次的私有約束。我們的工作[36]提出了一類基于排序函數(shù)的激勵兼容機(jī)制,關(guān)鍵思想是采用提前確定的排序函數(shù)為每個廣告主進(jìn)行排序,并將閾值ROI設(shè)計為贏得足夠多的競價機(jī)會以消耗完預(yù)算的最大ROI。在該機(jī)制中,給定廣告主上報的預(yù)算和ROI,首先基于排序函數(shù)計算不同廣告主對于每個物品的虛擬出價。只要這些排序函數(shù)在ROI上是單調(diào)遞減的,保證最終的拍賣機(jī)制是滿足DSIC與IR的。接下來,將每個物品分配給排序分?jǐn)?shù)最高的廣告主,并根據(jù)第二高的排序函數(shù)計算贏得此物品所需要的ROI。為了保證約束的IC,我們使用前面提到的基本規(guī)則來計算關(guān)鍵ROI,即贏得足夠多的物品以消耗完預(yù)算的最大ROI,其中使用關(guān)鍵ROI作為實際ROI來計算支付。這是一個對此類問題的初步嘗試,未來還需要進(jìn)一步深入思考。20|機(jī)制策略3.2副線:多樣的廣告主行為建模廣告主行為建模是拍賣機(jī)制設(shè)計的基礎(chǔ),現(xiàn)有的關(guān)于VCG和GSP的分析主要建立在擬線性效用模型上,也被稱為效用最大化廣告主(UtilityMaximizer,UM),即廣告主的目標(biāo)是優(yōu)化其分配的價值和扣費之間的差值。雅虎公司的研究人員Wilkens、Cavallo和Niazadeh為廣告主提出了另一個模型,稱為價值最大化廣告主(ValueMaximizer,VM),該模型將分配的價值作為廣告主的首要目標(biāo),將扣費作為其次的目標(biāo),只有當(dāng)價值相同時才偏好扣費更少的結(jié)果。這些設(shè)定都接近于單輪拍賣形式下廣告主的行為模式,但在廣告主已經(jīng)開始使用自動競價(Auto-bidding)工具,利用自動競價工具,廣告主只需要設(shè)置高層次的約束條件,并由出價代理進(jìn)行競價,這與傳統(tǒng)的機(jī)制存在非常大的差異。因此,核心問題是使用不同的機(jī)制,在廣告主與代理間的交互完成后,會得到怎樣的博弈結(jié)果?什么機(jī)制對平臺方或社會福利更好這些都是要回答的問題。圖19?廣告主行為建模的研究方向結(jié)語雄關(guān)漫道真如鐵,而今邁步從頭越。歷經(jīng)阿里媽媽技術(shù)同學(xué)們堅持不懈的努力,在自動出價決策技術(shù)上,從推動經(jīng)典強(qiáng)化學(xué)習(xí)類算法在工業(yè)界大規(guī)模落地,到持續(xù)革新提OfflineRL-basedBidding、OnlineRL-basedBidding等適應(yīng)工業(yè)界特點的新算法,再到提出AIGB邁入生成式Bidding的新時代;在拍賣機(jī)制設(shè)計上,從只遠(yuǎn)觀的高深領(lǐng)域,到可Learning的決策問題,再與工業(yè)界深入結(jié)合的Two-StageAuction、整頁拍賣、融合機(jī)制等,以及未來的Auto-bidding和拍賣機(jī)制的聯(lián)合優(yōu)21|機(jī)制策略化。一路走來,我們持續(xù)推動業(yè)界廣告決策智能技術(shù)的發(fā)展,并秉承開放共贏,把我們的工作以學(xué)術(shù)化沉淀的方式實現(xiàn)對學(xué)術(shù)界研究的反哺。希望大家多多交流,共赴星辰大海。關(guān)于我們核心關(guān)鍵詞:超核心業(yè)務(wù)、大規(guī)模RL工業(yè)界落地、決策智能大模型、技術(shù)引領(lǐng)業(yè)界、團(tuán)隊氛圍好!「智能廣告平臺」基于海量數(shù)據(jù),優(yōu)化阿里廣告技術(shù)體系,驅(qū)動業(yè)務(wù)增長,并推動技術(shù)持續(xù)走在行業(yè)前沿:精準(zhǔn)建模以提升商業(yè)化效率,創(chuàng)新廣告售賣機(jī)制和商業(yè)化模式以打開商業(yè)化天花板,研發(fā)最先進(jìn)的出價算法幫助商家獲得極致的廣告投放效果和體驗,設(shè)計和升級算法架構(gòu)以支撐國內(nèi)頂級規(guī)模的廣告業(yè)務(wù)穩(wěn)健&高效迭代等。超大業(yè)務(wù)體量和豐富商業(yè)化場景,賦能我們在深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、機(jī)制設(shè)計、投放策略、頂層業(yè)務(wù)/技術(shù)上的視野和判斷極速成長并沉淀豐厚;超一線站位也讓我們在“挖掘有價值&有挑戰(zhàn)新問題,驅(qū)動產(chǎn)品技術(shù)能力創(chuàng)新等”方面有得天獨厚優(yōu)勢。歡迎聰明靠譜小伙伴加入(社招、校招、實習(xí)生、高校合作、訪問學(xué)者等)。簡歷投遞郵箱:alimama_tech@參考文獻(xiàn)ChenY,BerkhinP,AndersonB,etal.Real-timebiddingalgorithmsforperformance-baseddisplayadallocation[C]//Proceedingsofthe17thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.2011:1307-1315.ZhangW,RongY,WangJ,etal.Feedbackcontrolofreal-timedisplayadvertising[C]//ProceedingsoftheNinthACMInternationalConferenceonWebSearchandDataMining.2016:407-416.YuH,NeelyMJ.ALowComplexityAlgorithmwithRegretandConstraintViolationsforOnlineConvexOptimizationwithLongTermConstraints[J].arXivpreprintarXiv:1604.02218,2016.YuH,NeelyM,WeiX.Onlineconvexoptimizationwithstochasticconstraints[J].AdvancesinNeuralInformationProcessingSystems,2017,30.ZhaoJ,QiuG,GuanZ,etal.Deepreinforcementlearningforsponsoredsearchreal-timebidding[C]//Proceedingsofthe24thACMSIGKDDinternationalconferenceonknowledgediscovery&datamining.2018:1021-1030.CaiH,RenK,ZhangW,etal.Real-timebiddingbyreinforcementlearningindisplayadvertising[C]//ProceedingsofthetenthACMinternationalconferenceonwebsearchanddatamining.2017:661-670.22|機(jī)制策略JinJ,SongC,LiH,etal.Real-timebiddingwithmulti-agentreinforcementlearningindisplayadvertising[C]//Proceedingsofthe27thACMinternationalconferenceoninformationandknowledgemanagement.2018:2193-2201.WuD,ChenX,YangX,etal.Budgetconstrainedbiddingbymodel-freereinforcementlearningindisplayadvertising[C]//Proceedingsofthe27thACMInternationalConferenceonInformationandKnowledgeManagement.2018:1443-1451.HeY,ChenX,WuD,etal.Aunifiedsolutiontoconstrainedbiddinginonlinedisplayadvertising[C]//Proceedingsofthe27thACMSIGKDDConferenceonKnowledgeDiscovery&DataMining.2021:2993-3001.YangX,LiY,WangH,etal.Bidoptimizationbymultivariablecontrolindisplayadvertising[C]//Proceedingsofthe25thACMSIGKDDinternationalconferenceonknowledgediscovery&datamining.2019:1966-1974.GuanZ,WuH,CaoQ,etal.Multi-agentcooperativebiddinggamesformulti-objectiveoptimizationine-commercialsponsoredsearch[C]//Proceedingsofthe27thACMSIGKDDConferenceonKnowledgeDiscovery&DataMining.2021:2899-2909.WenC,XuM,ZhangZ,etal.Acooperative-competitivemulti-agentframeworkforauto-biddinginonlineadvertising[C]//ProceedingsoftheFifteenthACMInternationalConferenceonWebSearchandDataMining.2022:1129-1139.MouZ,HuoY,BaiR,etal.SustainableOnlineReinforcementLearningforAuto-bidding[J].AdvancesinNeuralInformationProcessingSystems,2022,35:2651-2663.阿里媽媽生成式出價模型(AIGB)詳解/p/619301816,2023LinQ,TangB,WuZ,etal.SafeOfflineReinforcementLearningwithReal-TimeBudgetConstraints[J].arXivpreprintarXiv:2306.00603,2023.ZhangH,NiuL,ZhengZ,etal.APersonalizedAutomatedBiddingFrameworkforFairness-awareOnlineAdvertising[C]//Proceedingsofthe29thACMSIGKDDConferenceonKnowledgeDiscoveryandDataMining.2023:5544-5553.GongZ,NiuL,ZhaoY,etal.MEBS:Multi-taskEnd-to-endBidShadingforMulti-slotDisplayAdvertising[C]//Proceedingsofthe32ndACMInternationalConferenceonInformationandKnowledgeManagement.2023:4588-4594.Ou,W.,Chen,B.,Liu,W.,Dai,X.,Zhang,W.,Xia,W.,Li,X.,Tang,R.,&Yu,Y.(2023).OptimalReal-TimeBiddingStrategyforPositionAuctionsinOnlineAdvertising.Proceedingsofthe32ndACMInternationalConferenceonInformationandKnowledgeManagement.Gligorijevic,D.,Zhou,T.,Shetty,B.,Kitts,B.,Pan,S.,Pan,J.,&Flores,A.(2020).BidShadinginTheBraveNewWorldofFirst-PriceAuctions.Proceedingsofthe29thACMInternationalConferenceonInformation&KnowledgeManagement.Zhang,W.,Kitts,B.,Han,Y.,Zhou,Z.,Mao,T.,He,H.,Pan,S.,Flores,A.,Gultekin,S.,&Weissman,T.(2021).MEOW:ASpace-EfficientNonparametricBidShadingAlgorithm.Proceedingsofthe27thACMSIGKDDConferenceonKnowledgeDiscovery&DataMining.23|機(jī)制策略Kumar,A.,Zhou,A.,Tucker,G.,&Levine,S.(2020).ConservativeQ-LearningforOfflineReinforcementLearning.ArXiv,abs/2006.04779.Kostrikov,I.,Nair,A.,&Levine,S.(2021).OfflineReinforcementLearningwithImplicitQ-Learning.ArXiv,abs/2110.06169.Aggarwal,G.,Muthukrishnan,S.,Pál,D.,&Pál,M.(2008).Generalauctionmechanismforsearchadvertising.ArXiv,abs/0807.1297.Varian,H.R.,&Harris,C.(2014).TheVCGAuctioninTheoryandPractice.TheAmericanEconomicReview,104,442-445.Bachrach,Y.,Ceppi,S.,Kash,I.A.,Key,P.B.,&Kurokawa,D.(2014).Optimisingtrade-offsamongstakeholdersinadauctions.ProceedingsofthefifteenthACMconferenceonEconomicsandcomputation.Dütting,P.,Feng,Z.,Narasimhan,H.,&Parkes,D.C.(2017).Optimalauctionsthroughdeeplearning.CommunicationsoftheACM,64,109-116.Deng,Y.,Mao,J.,Mirrokni,V.S.,&Zuo,S.(2021).TowardsEfficientAuctionsinanAuto-biddingWorld.ProceedingsoftheWebConference2021.Li,N.,Ma,Y.,Zhao,Y.,Duan,Z.,Chen,Y.,Zhang,Z.,Xu,J.,Zheng,B.,&Deng,X.(2023).Learning-BasedAdAuctionDesignwithExternalities:TheFrameworkandAMatching-BasedApproach.Proceedingsofthe29thACMSIGKDDConferenceonKnowledgeDiscoveryandDataMining.Xing,Y.Y.,Zhang,Z.,Zheng,Z.,Yu,C.,Xu,J.,Wu,F.,&Chen,G.(2023).TruthfulAuctionsforAutomatedBiddinginOnlineAdvertising.InternationalJointConferenceonArtificialIntelligence.Wilkens,C.A.,Cavallo,R.,&Niazadeh,R.(2017).GSP:TheCinderellaofMechanismDesign.Proceedingsofthe26thInternationalConferenceonWorldWideWeb.Zhang,Z.,Liu,X.,Zheng,Z.,Zhang,C.,Xu,M.,Pan,J.,Yu,C.,Wu,F.,Xu,J.,&Gai,K.(2020).OptimizingMultiplePerformanceMetricswithDeepGSPAuctionsforE-commerceAdvertising.Proceedingsofthe14thACMInternationalConferenceonWebSearchandDataMining.Liu,X.,Yu,C.,Zhang,Z.,Zheng,Z.,Rong,Y.,Lv,H.,Huo,D.,Wang,Y.,Chen,D.,Xu,J.,Wu,F.,Chen,G.,&Zhu,X.(2021).NeuralAuction:End-to-EndLearningofAuctionMechanismsforE-CommerceAdvertising.Proceedingsofthe27thACMSIGKDDConferenceonKnowledgeDiscovery&DataMining.Wang,Y.,Liu,X.,Zheng,Z.,Zhang,Z.,Xu,M.,Yu,C.,&Wu,F.(2021).OnDesigningaTwo-stageAuctionforOnlineAdvertising.ProceedingsoftheACMWebConference2022.Liu,Y.,Chen,D.,Zheng,Z.,Zhang,Z.,Yu,C.,Wu,F.,&Chen,G.(2023).BoostingAdvertisingSpace:DesigningAdAuctionsforAugmentAdvertising.ProceedingsoftheSixteenthACMInternationalConferenceonWebSearchandDataMining.Lv,H.,Zhang,Z.,Zheng,Z.,Liu,J.,Yu,C.,Liu,L.,Cui,L.,&Wu,F.(2022).UtilityMaximizerorValueMaximizer:MechanismDesignforMixedBiddersinOnlineAdvertising.AAAIConferenceonArtificialIntelligence.24|機(jī)制策略Xing,Y.,Zhang,Z.,Zheng,Z.,Yu,C.,Xu,J.,Wu,F.,&Chen,G.(2023).DesigningAdAuctionswithPrivateConstraintsforAutomatedBidding.ArXiv,abs/2301.13020.VarianHR.Positionauctions[J].internationalJournalofindustrialOrganization,2007,25(6):1163-1178.Zhao,X.,Gu,C.,Zhang,H.,Yang,X.,Liu,X.,Tang,J.,&Liu,H.(2019).DEAR:DeepReinforcementLearningforOnlineAdvertisingImpressioninRecommenderSystems.AAAIConferenceonArtificialIntelligence.Chen,D.,Yan,Q.,Chen,C.,Zheng,Z.,Liu,Y.,Ma,Z.,Yu,C.,Xu,J.,&Zheng,B.(2022).HierarchicallyConstrainedAdaptiveAdExposureinFeeds.Proceedingsofthe31stACMInternationalConferenceonInformation&KnowledgeManagement.Liao,G.R.,Wang,Z.,Wu,X.,Shi,X.,Zhang,C.,Wang,Y.,Wang,X.,&Wang,D.(2021).CrossDQN:CrossDeepQNetworkforAdsAllocationinFeed.ProceedingsoftheACMWebConference2022.Shen,W.,Peng,B.,Liu,H.,Zhang,M.,Qian,R.,Hong,Y.,Guo,Z.,Ding,Z.,Lu,P.,&Tang,P.(2020).ReinforcementMechanismDesign:WithApplicationstoDynamicPricinginSponsoredSearchAuctions.AAAIConferenceonArtificialIntelligence.25|機(jī)制策略Bidding模型訓(xùn)練新范式:阿里媽媽生成式出價模型(AIGB)詳解作者:銀耀、子述、妙臨導(dǎo)讀今天以ChatGPT為代表的生成式大模型讓科技行業(yè)重新興奮起來,也為廣告營銷注入了新的想象力。生成式大模型幾乎一定會帶來用戶與互聯(lián)網(wǎng)產(chǎn)品交互模式的改變,進(jìn)而顛覆廣告營銷模式。廣告技術(shù)人,你們準(zhǔn)備好了嗎?阿里媽媽技術(shù)已提前在該方向布局,并推出了新的廣告營銷智能技術(shù)體系,今天將揭露出其神秘面紗的一角,窺探背后的思考和實踐。摘要出價產(chǎn)品智能化成為行業(yè)趨勢,極簡產(chǎn)品背后則是強(qiáng)大的自動出價的支撐,其技術(shù)不斷演進(jìn)走過了3個大的階段:PID控制、RL-basedBidding、SORL(SustainableOnlineRL),那么下一步代際性技術(shù)升級是什么?今天以ChatGPT為代表的生成式大模型以洶涌澎湃之勢到來,幾乎一定會顛覆廣告營銷模式,一方面,新的用戶交互模式會孕育新的商業(yè)機(jī)會,給自動出價的產(chǎn)品帶來巨大改變;另一方面,新的技術(shù)理念和技術(shù)范式也會給自動出價算法帶來革命性的升級。阿里媽媽技術(shù)團(tuán)隊提前布局,以智能營銷決策大模型AIGA(AIGeneratedAction)為核心重塑了廣告智能營銷的技術(shù)體系,并衍生出以AIGB(AIGeneratedBidding)為代表的各種領(lǐng)域技能模型。AIGB是一種基于生成式模型構(gòu)造的出價模型優(yōu)化方案,與以往解決序列決策問題的強(qiáng)化學(xué)習(xí)視角不同,其將策略建模為條件生成模型,從而消除了以往強(qiáng)化學(xué)習(xí)視角下的復(fù)雜性問題。具體實現(xiàn)上,將出價、優(yōu)化目標(biāo)和約束等具備相關(guān)性的指標(biāo)視為一個聯(lián)合概率分布,并以優(yōu)化目標(biāo)和約束項為條件,生成相應(yīng)出價策略的條件分布。訓(xùn)練時將歷史次優(yōu)投放軌跡數(shù)據(jù)作為訓(xùn)練樣本,以最大似然估計的方式擬合軌跡數(shù)據(jù)中的分布特征;推斷時基于約束和優(yōu)化目標(biāo),以符合分布規(guī)律的方式輸出出價策略。本文提出的方案可避免傳統(tǒng)RL方案中的分布偏移和策略退化問題,又具備滿足不同出價類型和不同約束的靈活性。通過AIGB的技術(shù)研究和線上實踐,我們愈發(fā)地感受到新的技術(shù)浪潮正在朝我們奔來,AIGB只是這一切的開始...26|機(jī)制策略一、背景1.1出價產(chǎn)品智能化成為行業(yè)趨勢廣告平臺吸引廣告主持續(xù)投放的核心在于給廣告主帶來更大的投放價值,出價產(chǎn)品的智能化已成為行業(yè)趨勢并加以重點建設(shè)的能力(如圖1)。以阿里媽媽為代表的互聯(lián)網(wǎng)廣告平臺不斷地探索流量的多元化價值,并設(shè)計更能貼近營銷本質(zhì)的自動出價產(chǎn)品,廣告主只需要簡單的設(shè)置就能清晰的表達(dá)出營銷訴求。極簡產(chǎn)品背后則是強(qiáng)大的出價策略支撐,廣告主出價策略從海量數(shù)據(jù)中挖掘更好的營銷模式,提升廣告主對特定價值的優(yōu)化能力,賦能廣告主投放。圖1?出價產(chǎn)品的演進(jìn)趨勢,智能化逐步成為互聯(lián)網(wǎng)廣告產(chǎn)品的標(biāo)配1.2自動出價技術(shù)的不斷演進(jìn)阿里媽媽技術(shù)團(tuán)隊多年來致力于極致的優(yōu)化自動出價策略,幫助廣告主獲得最好的投放效果,其自動出價策略的技術(shù)演進(jìn)可以大體分為三個大的階段,具體如下圖。2?典型的自動出價技術(shù)演進(jìn)路線,從預(yù)算消耗控制->RL-based?Bidding->SORL,下一步代際性升級是什么?第一階段:預(yù)算消耗控制,通過控制預(yù)算的消耗速度盡可能平滑來優(yōu)化效果,一般通過經(jīng)典的控制算法,如PID等。在假設(shè)競價環(huán)境中流量價值分布均勻的情況下,這種方法能夠達(dá)到比較好的效果。27|機(jī)制策略第二階段:RL-basedBidding,現(xiàn)實環(huán)境中的競價環(huán)境是非常復(fù)雜且動態(tài)變化的,只控制預(yù)算無法滿足更多樣的出價計劃的進(jìn)一步優(yōu)化。AlphaGo的驚艷表現(xiàn),展現(xiàn)了強(qiáng)化學(xué)習(xí)的力量,而自動出價是一個非常典型的序列決策問題,在預(yù)算周期內(nèi),前面花的好不好會影響到后面的出價決策,而這正是強(qiáng)化學(xué)習(xí)的強(qiáng)項,因此第二階段我們用了基于強(qiáng)化學(xué)習(xí)的Bidding。Simulationbasedbidding的一些工作[1]奠定了我們在廣告主報價領(lǐng)域的領(lǐng)先地位。第三階段:SORL,它的特點是針對強(qiáng)化學(xué)習(xí)中離線仿真環(huán)境與在線環(huán)境不一致。我們直接在在線環(huán)境中進(jìn)行可交互的學(xué)習(xí),這是工程設(shè)計和算法設(shè)計聯(lián)合的例子。SORL[2]上線之后,很大程度上解決了強(qiáng)化學(xué)習(xí)強(qiáng)依賴于仿真平臺的問題。今天以ChatGPT為代表的生成式大模型讓科技行業(yè)重新興奮起來,也為廣告營銷注入了新的想象力。生成式大模型幾乎一定會帶來用戶與互聯(lián)網(wǎng)產(chǎn)品交互模式的改變,例如,多模態(tài)交互式對話方式會取代搜索引擎的地位,以廣告位拍賣為基礎(chǔ)的互聯(lián)網(wǎng)廣告的邏輯也會發(fā)生改變。一方面,新的用戶交互模式會孕育新的商業(yè)機(jī)會,給自動出價的產(chǎn)品帶來顛覆的改變;另一方面,新的技術(shù)理念和技術(shù)范式也會給自動出價算法帶來革命性的升級。如今,革命性升級已經(jīng)到來!二、相關(guān)工作2.1自動出價建??紤]到廣告目標(biāo)、預(yù)算和個KPI約束,計劃的訴求可以通過(LP1)表示為統(tǒng)一的帶約束競價問題。如果已經(jīng)知道流量集合的全部信息,包括能夠觸達(dá)的每條流量i的流量價值和成本等,那么可以通過解決線性規(guī)劃問題(LP1)來獲得最優(yōu)解。然而,在實際應(yīng)用28|機(jī)制策略中,我們需要在流量集合未知的情況下進(jìn)行實時競價。由于在線廣告池的動態(tài)變化以及每天訪問用戶的隨機(jī)性,很難通過準(zhǔn)確的預(yù)測來構(gòu)建流量集合。因此,常規(guī)的線性規(guī)劃解決方法并不完全適用。所以在實際應(yīng)用中,通過對上述出價公式的一些變換,構(gòu)造一個最優(yōu)出價公式,將原問題轉(zhuǎn)化為求解最優(yōu)參數(shù)的問題,從而大大降低了在線情況下求解此問題的難度。最優(yōu)的出價公式為:其中,是常數(shù)項,是參數(shù),其范圍為:。如果約束j是CR,則;如果約束j是NCR,則。證明過程詳見論文[1]。最優(yōu)出價公式共包含m+1個核心參數(shù),,公式中其余項為在線流量競價時可獲得的流量信息。由于最優(yōu)出價公式存在,對于具有預(yù)算約束和M個KPI約束、且希望最大化贏得流量的總價值的問題,最優(yōu)解可以通過找到M+1個最優(yōu)參數(shù)并根據(jù)公式進(jìn)行出價,而不是分別為每個流量尋找最優(yōu)出價。理想情況下,通過求解最優(yōu)參數(shù),即能直接獲得每個廣告計劃的最優(yōu)出價。我們可以通過PID或者RL來逼近真實環(huán)境中的最優(yōu)參數(shù)。2.2生成式模型生成式模型近年來得到了迅速的發(fā)展,在圖像生成、文本生成、計算機(jī)視覺等領(lǐng)域取得了重大突破,并催生出了近期大熱的ChatGPT等。生成式模型主要從數(shù)據(jù)分布的角度去理解數(shù)據(jù),并通過擬合訓(xùn)練數(shù)據(jù)集中的樣本分布來進(jìn)行特征提取,最終生成符合數(shù)據(jù)集分布的新樣本。目前常用的生成式模型包括Transformer[3]、DiffusionModel[4]等。Transformer主要基于自注意力機(jī)制,能夠?qū)颖局锌鐣r序和分層信息進(jìn)行提取和關(guān)聯(lián),擅長處理長序列和高維特征數(shù)據(jù),如圖像、文本和對話等。而DiffusionModel則將數(shù)據(jù)生成看作一個分階段去噪的過程,將生成任務(wù)分解為多個步驟,逐步加入越來越多的信息,從而生成目標(biāo)分布中的樣本。這一過程與人類進(jìn)行繪畫過程較為相似,由此可見,DiffusionModel擅長處理圖像生成等任務(wù)。依靠生成式模型強(qiáng)大的信息生成能力,我們也可以引入生成式模型將序列決策問題建模為一個序列動作生成問題。模型通過擬合歷史軌跡數(shù)據(jù)中的行為模式,達(dá)到策略輸出的目標(biāo)。DecisionTransformer(DT)[5]和DecisionDiffuser(DD)[6]分別將29|機(jī)制策略Transformer以及DiffusionModel應(yīng)用于序列決策,在通用數(shù)據(jù)集中,相比主流的RL方法[7,8]取得了較好的效果提升。這一結(jié)果為我們的Bidding建模提供了一個可用的迭代方案。三、AIGB(AIGeneratedBidding)3.1智能營銷技術(shù)體系的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論