版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、RankNet and its application2RankNet and its application 背景知識(shí)背景知識(shí) 現(xiàn)有的排序模型現(xiàn)有的排序模型 為什么采用機(jī)器學(xué)習(xí)來(lái)進(jìn)行排序?yàn)槭裁床捎脵C(jī)器學(xué)習(xí)來(lái)進(jìn)行排序 Learning to Rank 算法分類及簡(jiǎn)介算法分類及簡(jiǎn)介 RankNet 算法基本思想算法基本思想 方法流程方法流程 優(yōu)點(diǎn)優(yōu)點(diǎn) RankNet的優(yōu)化的優(yōu)化 LambdaRank LambdaMART 應(yīng)用應(yīng)用3現(xiàn)有的排序模型現(xiàn)有的排序模型 排序一直是信息檢索的核心研究問(wèn)題,有大量的成熟的方法,主要可以分為以下兩類:相關(guān)度排序模型和重要性排序模型。n 相關(guān)相關(guān)度排序模型度排序
2、模型(Relevance Ranking Model) 相關(guān)度排序模型根據(jù)查詢和文檔之間的相似度來(lái)對(duì)文檔進(jìn)行排序。常用的模型包括:布爾模型,向量空間模型,隱語(yǔ)義分析,BM25,LMIR模型等。n 重要性排序模型重要性排序模型(Importance Ranking Model) 重要性排序模型不考慮查詢,而僅僅根據(jù)網(wǎng)頁(yè)(亦即文檔)之間的圖結(jié)構(gòu)來(lái)判斷文檔的權(quán)威程度,典型的模型就是Google的PageRank。4為什么使用機(jī)器學(xué)習(xí)為什么使用機(jī)器學(xué)習(xí) 對(duì)于傳統(tǒng)的排序模型,單個(gè)模型往往只能考慮某一個(gè)方面(相關(guān)度或者重要性),所以只是用單個(gè)模型達(dá)不到要求。搜索引擎通常會(huì)組合多種排序模型來(lái)進(jìn)行排序,但是,
3、如何組合多個(gè)排序模型來(lái)形成一個(gè)新的排序模型,以及如何調(diào)節(jié)這些參數(shù),都是一個(gè)很大的問(wèn)題。 使用機(jī)器學(xué)習(xí)的方法,我們可以把各個(gè)現(xiàn)有排序模型的輸出作為特征,然后訓(xùn)練一個(gè)新的模型,并自動(dòng)學(xué)得這個(gè)新的模型的參數(shù),從而很方便的可以組合多個(gè)現(xiàn)有的排序模型來(lái)生成新的排序模型。5Learning to Rank算法分類和簡(jiǎn)介算法分類和簡(jiǎn)介 L2R算法主要包括三種類別:PointWise,PairWise,ListWise。 Pointwise: PointWise方法只考慮給定查詢下,單個(gè)文檔的絕對(duì)相關(guān)度,而不考慮其他文檔和給定查詢的相關(guān)度。亦即給定查詢q的一個(gè)真實(shí)文檔序列,我們只需要考慮單個(gè)文檔di和該查詢的
4、相關(guān)程度ci. 然后根據(jù)訓(xùn)練數(shù)據(jù)訓(xùn)練打分函數(shù): Score(Q, D)=a *CS+ b *PM+c*PR+ d 6Learning to Rank算法分類和簡(jiǎn)介算法分類和簡(jiǎn)介Pairwise:這種機(jī)器學(xué)習(xí)方法的訓(xùn)練過(guò)程和訓(xùn)練目標(biāo),是判斷任意兩個(gè)文檔組成的文檔對(duì)是否滿足順序關(guān)系,即判斷是否Doc1應(yīng)該排在DOC2的前面。機(jī)器學(xué)習(xí)的目標(biāo)是輸入一個(gè)査詢和文檔對(duì), 機(jī)器學(xué)習(xí)排序能夠判斷這種順序關(guān)系是否成立。這樣就可以對(duì)查詢結(jié)果進(jìn)行排序。將每個(gè)文檔對(duì)的文檔轉(zhuǎn)換為特征向量后,就形成了一個(gè)具體的訓(xùn)練實(shí)例根據(jù)轉(zhuǎn)換后的訓(xùn)練實(shí)例,就可以利用機(jī)器學(xué)習(xí)方法進(jìn)行分類函數(shù)的學(xué)習(xí)7Learning to Rank算法分類
5、和簡(jiǎn)介算法分類和簡(jiǎn)介 Listwise:該方法考慮的是所有查詢的結(jié)果,即是將每一個(gè)查詢對(duì)應(yīng)的所有搜索結(jié)果列表整體作為一個(gè)訓(xùn)練實(shí)例。然后訓(xùn)練一個(gè)得到最優(yōu)評(píng)分函數(shù)F。 8RankNet的基本思想的基本思想 RankNet方法就是使用交叉熵作為損失函數(shù),學(xué)習(xí)出一些模型(例如神經(jīng)網(wǎng)絡(luò)、決策樹等)來(lái)計(jì)算每個(gè)pair的排序得分,學(xué)習(xí)模型的過(guò)程使用梯度下降法。RankNet方法還是屬于pairwise方法的。即是要對(duì)某個(gè)查詢結(jié)果的一個(gè)結(jié)果pair 進(jìn)行訓(xùn)練。9RankNet的方法流程的方法流程首先,我們要明確RankNet方法的目的就是要學(xué)習(xí)出一個(gè)模型,這個(gè)模型就是給文檔打分的函數(shù)f(d, w)。其中d為文
6、檔特征,w為模型參數(shù)。、 輸入:query的許多個(gè)文檔結(jié)果,每個(gè)文檔需要人為標(biāo)注得分,等分越高的說(shuō)明排名越靠前;輸出:打分模型f(d, w)。10RankNet的方法流程的方法流程 Step1:首先我們需要一個(gè)排序函數(shù),就是當(dāng)我們輸入樣本的特征向量的時(shí)候,可以輸出該樣本的順序“得分”,實(shí)現(xiàn)排序。 該函數(shù)中含有未知的參數(shù),ranknet會(huì)把參數(shù)訓(xùn)練出來(lái)。這個(gè)排序函數(shù)并不是ranknet限定的,但是因?yàn)樵趓anknet中,是用神經(jīng)網(wǎng)絡(luò)訓(xùn)練的,而神經(jīng)網(wǎng)絡(luò)說(shuō)到底又是用梯度下降來(lái)訓(xùn)練的,因此只要提供的排序函數(shù)是可導(dǎo)的。11RankNet的方法流程的方法流程12RankNet的方法流程的方法流程13Ran
7、kNet的方法流程的方法流程Step4:現(xiàn)在有了總的loss,RankNet采用神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練出排序函數(shù)中的參數(shù),第二步的概率函數(shù)P實(shí)際上就是sigmoid函數(shù),而神經(jīng)網(wǎng)絡(luò)里的激活函數(shù)也是sigmoid函數(shù),于量把函數(shù)P套進(jìn)神經(jīng)網(wǎng)絡(luò),就直接放在神經(jīng)網(wǎng)絡(luò)的輸出結(jié)點(diǎn)就好了。Step5:現(xiàn)在的問(wèn)題就已經(jīng)完全是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的問(wèn)題。已經(jīng)可以把排序函數(shù)中的參數(shù)求解出來(lái)了,那么排序函數(shù)就可以確定了。直接傳入特征向量就可以得到score了,有了score可以排序了,就可以得到搜索結(jié)果的排序列表,于是整個(gè)搜索模型就可以用了。14RankNet的的優(yōu)點(diǎn)優(yōu)點(diǎn) RankNet算法的一大好處:使用的是交叉熵作為損失函數(shù)
8、,它求導(dǎo)方便,適合梯度下降法的框架;而且,即使兩個(gè)不相關(guān)的文檔的得分相同時(shí),C也不為零,還是會(huì)有懲罰項(xiàng)的。RankNet使用神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練模型, 使用梯度下降來(lái)優(yōu)化損失函數(shù)。特別的, Chris Burges等人在論文中證明, 對(duì)于m個(gè)文檔d 1 ,d 2 ,.,d m , 需要且只需要知道相鄰文檔之間的概率Pij,就可以算出任意兩個(gè)文檔之間的后驗(yàn)概率 . 可以實(shí)現(xiàn)對(duì)m個(gè)文檔做任意排列, 然后以排列后的相鄰文檔之間的概率P ij 作為訓(xùn)練數(shù)據(jù), 然后訓(xùn)練模型, 時(shí)間復(fù)雜度為O(N), 于 ranking SVM的O(N 2 )。LambdaRank15LambdaRank 總結(jié):總結(jié): Lam
9、bdaRank不是通過(guò)顯示定義損失函數(shù)再求梯度的方式對(duì)排序問(wèn)題進(jìn)不是通過(guò)顯示定義損失函數(shù)再求梯度的方式對(duì)排序問(wèn)題進(jìn)行求解,而是分析排序問(wèn)題需要的梯度的物理意義,直接定義行求解,而是分析排序問(wèn)題需要的梯度的物理意義,直接定義梯度。從而梯度。從而可以更好的訓(xùn)練數(shù)據(jù)并且具有更好的效果??梢愿玫挠?xùn)練數(shù)據(jù)并且具有更好的效果。16LambdaMARTMART:Multiple Additive Regression Tree 迭代決策樹 LambdaRank重新定義了梯度,賦予了梯度新的物理意義,因此,所有可以使用梯度下降法求解的模型都可以使用這個(gè)梯度,MART就是其中一種 MART的原理是直接在函數(shù)空
10、間對(duì)函數(shù)進(jìn)行求解,模型結(jié)果由許多棵樹組成,每棵樹的擬合目標(biāo)是損失函數(shù)的梯度。LambdaMART的框架其實(shí)就是MART,主要的創(chuàng)新在于中間計(jì)算的梯度使用的是Lambda17LambdaMART 執(zhí)行步驟執(zhí)行步驟1819RankNet的應(yīng)用的應(yīng)用 Rank(排序)是搜索引擎最核心的一個(gè)模塊。RankNet被應(yīng)用在微軟的搜索引擎Bing當(dāng)中。 推薦系統(tǒng)中的候選產(chǎn)品、用戶排序。 機(jī)器翻譯中排序候選翻譯結(jié)果等等。 文本檢索、定義發(fā)現(xiàn)、問(wèn)答系統(tǒng)、文檔摘要和情感分析等。 在線廣告,協(xié)同過(guò)濾,多媒體檢索排序等。參考文獻(xiàn)參考文獻(xiàn)Burges, Christopher J C. From ranknet to lambdarank to lambdamart: An overview. Learning 11(2010).Christopher J. C. Burges, et al. Learning to rank using an ensemble of lambda-gradient models. In J. of Machine Learning Research 2011:25-35.Burges, Chris, et al. Learning to Rank using Gradient
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版城市綜合體安保服務(wù)合同書范本3篇
- 2025版新能源車輛定期維護(hù)合同3篇
- 2025版無(wú)利息教育培訓(xùn)機(jī)構(gòu)設(shè)備購(gòu)置貸款合同示范文本3篇
- 2025年度個(gè)人裝修工程售后服務(wù)合同
- 二零二五年度車棚租賃與智能交通系統(tǒng)融合合同4篇
- 二零二五年度林業(yè)資產(chǎn)評(píng)估與交易合同3篇
- 2025版文山凍干三七種植基地農(nóng)業(yè)生態(tài)循環(huán)經(jīng)濟(jì)合作合同3篇
- 2024門窗安裝工程節(jié)能環(huán)保驗(yàn)收合同3篇
- 二零二五年度汽車玻璃更換與售后服務(wù)協(xié)議范本3篇
- 2025版無(wú)房產(chǎn)證房屋買賣合同標(biāo)準(zhǔn)范本精裝3篇
- 退休人員出國(guó)探親申請(qǐng)書
- 傷殘撫恤管理辦法實(shí)施細(xì)則
- 高中物理競(jìng)賽真題分類匯編 4 光學(xué) (學(xué)生版+解析版50題)
- 西方經(jīng)濟(jì)學(xué)-高鴻業(yè)-筆記
- 幼兒園美術(shù)教育研究策略國(guó)內(nèi)外
- 高中英語(yǔ)選擇性必修一單詞表
- 物業(yè)公司介紹
- 2024屆河南省五市高三第一次聯(lián)考英語(yǔ)試題及答案
- 【永輝超市公司員工招聘問(wèn)題及優(yōu)化(12000字論文)】
- 孕婦學(xué)校品管圈課件
- 《愿望的實(shí)現(xiàn)》交流ppt課件2
評(píng)論
0/150
提交評(píng)論