版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 因子分解機(jī)應(yīng)用 張華南摘要本文結(jié)合支持向量機(jī)(support vector machines,縮寫為svm)的優(yōu)點(diǎn),介紹了一種新的用于因子分解的模型一因子分解機(jī)(factorization machines,縮寫為fm)。與svm相似,fm針對特征向量給出綜合預(yù)測。與svm相比,fm使用分解的因子參數(shù),在變量中對交互行為建模,甚至在svm無法解決的稀疏性(如推薦系統(tǒng))等問題中,fm也可以用于評估交互行為通過在線性時(shí)間中計(jì)算fm模型方程式,可以直接優(yōu)化fm。不像非線性的svm,fm不需要轉(zhuǎn)換,模型參數(shù)可以直接估計(jì)出來,而不用任何支持向量。【關(guān)
2、鍵詞】因子分解 特征向量 稀疏性 推薦評估在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中常用支持向量機(jī)做推薦和預(yù)測。然而,在協(xié)同過濾向量機(jī)沒有很好的模型直接應(yīng)用標(biāo)準(zhǔn)矩陣和張量分解模型。標(biāo)準(zhǔn)支持向量機(jī)預(yù)測不成功的原因是在非線性復(fù)雜的稀疏數(shù)據(jù)下使用不可靠的參數(shù)。張量分解模型的缺點(diǎn)是不適用標(biāo)準(zhǔn)預(yù)測數(shù)據(jù)。為此,引入一個(gè)新的預(yù)測模型分解機(jī)(fm),具有一般預(yù)測向量機(jī)特征,能夠在高稀疏數(shù)據(jù)下可靠估計(jì)參數(shù)。fm有以下三個(gè)優(yōu)點(diǎn):(1)fm允許數(shù)據(jù)稀疏情況下估計(jì)和預(yù)測任務(wù)。(2)fm具有線性復(fù)雜度,不依賴支持向量機(jī)等向量。(3)fm適用于普遍預(yù)測,可以用于任何有價(jià)值的特征向量,fm可以模擬最先進(jìn)的模型如:svd+,pitf或fpmc。
3、1 稀疏問題中的預(yù)測預(yù)測任務(wù)是一個(gè)估計(jì)函數(shù)y:rnt,真實(shí)特征值向量xrn目標(biāo)域?yàn)閠(例如,t=r用以回歸或t=+,-用以分類)。在半監(jiān)督學(xué)習(xí)電假設(shè)存在訓(xùn)練集d=x(1),y(1),(x(2),y(2),用作目標(biāo)函數(shù)y的樣例。在排序任務(wù)中,即函數(shù)y和目標(biāo)t=r可以用來對特征向量x打分,并根據(jù)分值排序。也可以用成對的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)打分功能,特征元組(xa,yb)d代表x(a)的排名高于xb。如果成對的排序關(guān)系不對稱,就僅僅利用正向的訓(xùn)練實(shí)例。本文解決的是x極其稀疏的問題。例如,向量集x中幾乎全部元素x1都為0。在特征向量x中,設(shè)m(x)為非零元素的數(shù)量,對于所有的向量xd,其非零元素m(x)的平
4、均數(shù)為石口。在許多真實(shí)世界里的數(shù)據(jù),諸如事件事務(wù)(如推薦系統(tǒng)中的購買行為)和文本分析(如詞袋算法)等都存在有巨大的稀疏性(md<假設(shè)在旅游景點(diǎn)評論系統(tǒng)中存在這樣的事務(wù)數(shù)據(jù),系統(tǒng)記錄下用戶uu在某個(gè)特定的時(shí)間tr對旅游景點(diǎn)ii打分,分值r1,2,3,4,5設(shè)用戶集u和旅游景點(diǎn)線路集i為:已有的觀察數(shù)據(jù)s為:本次預(yù)測任務(wù)是基于該數(shù)據(jù),用估計(jì)函數(shù)y來預(yù)測在未來的某個(gè)時(shí)間點(diǎn)用戶對旅游景點(diǎn)的評分行為。圖1稀疏特征向量x實(shí)例。每一行代表一個(gè)特征向量x(i)及其相應(yīng)的目標(biāo)y(i)。前4列(藍(lán))代表當(dāng)前用戶的指標(biāo)變量;接下來的5列(紅)代表目標(biāo)項(xiàng)的指標(biāo)變量。再往后5列(黃)代表附加的隱性指標(biāo)(即用戶給其
5、它旅游景點(diǎn)的評分)。一列特征(綠)代表以月為單位的時(shí)間。最后的5列(棕)為用戶在目標(biāo)項(xiàng)之前給出評分的最近旅游景點(diǎn)。最右一列為目標(biāo)函數(shù),此處為旅游景點(diǎn)的評分。圖1展示了本次任務(wù)中如何從s中提煉特征向量的例子。首先,存在|u|二分指標(biāo)變量(藍(lán)框),代表某次事務(wù)的活躍(當(dāng)前)用戶,假定每次事務(wù)(u,i,t,r)s一定存在一位活躍(當(dāng)前)用戶,例如,用戶alice(a)在第一行(xa(1)=1)。后一個(gè)二分指標(biāo)變量(紅框)|i|代表活躍(當(dāng)前)目標(biāo)項(xiàng),一定存在一個(gè)活躍項(xiàng)(e.g.xt1(1)=1)。圖1中的特征向量也包括指標(biāo)變量(黃框),用來表示用戶己評分的其它所有旅游景點(diǎn)。對于每個(gè)用戶,變量范化后的
6、和為1,例如,alice對huanshan(黃山)、enshidxg(恩施大峽谷)和lushan(廬山)評過分。另外,樣例包括一個(gè)變量(綠框)代表從2015年3月份開始(至評論點(diǎn))的時(shí)間。最后的棕色框內(nèi)的向量代表用戶在評論當(dāng)前信息之前的上一次評論過的旅游景點(diǎn)信息,例如,alice在評論enshidxg之前評論過huanshan。2 因子分解機(jī)2.1 因子分解機(jī)模型在因子分解機(jī)的度d=2時(shí),模型公式定義如下:其中,需要估計(jì)的模型的參數(shù)有:并且,表示大小為k的兩個(gè)向量作點(diǎn)乘:v中的一排v1描述了k個(gè)系數(shù)下第i個(gè)變量。kn0+表示超平面參數(shù),用于定義因子分解的維數(shù)。a雙路2-wayfm(度d=2)表
7、示變量之間所有單獨(dú)的和成對的相互作用:w0是全局偏差wi表示第i個(gè)變量的力度wi,j=(vi,vj)表示第i個(gè)變量和第j個(gè)變量之間的相互作用。在對相互作用建模時(shí),fm模型對每個(gè)相互作用沒有使用自身模型中的參數(shù)wi,jr,而是將其因子分解。在后面將會看到,當(dāng)數(shù)據(jù)稀疏時(shí),這正是高位交互(d>=2)的參數(shù)估計(jì)產(chǎn)生高質(zhì)量參數(shù)的關(guān)鍵點(diǎn)。2.2 因子分解機(jī)fm閉合模型公式的計(jì)算為線性。因此fm模型參數(shù)(w0,w,v)可以用梯度下降法來高效學(xué)習(xí)一例如隨機(jī)梯度下降法(sgd),有大量的損失函數(shù)可供選擇,如平方損失函數(shù),logit損失函數(shù)和hinge損失函數(shù)。fm模型的梯度為: 總和獨(dú)立于i,可以計(jì)算y(
8、x)0通常,每一梯度的計(jì)算可以在持續(xù)時(shí)間o(1)內(nèi)完成。所有的參數(shù)校正在實(shí)例(x,y)中能在o(kn)內(nèi)完成,稀疏的情況下為o(km(x)。3 結(jié)語fm匯集向量機(jī)的通用性與分解模型的好處:fm能夠在高稀疏問題中預(yù)測;模型方程是線性的,只依賴于模型參數(shù);fm是普遍預(yù)測,可以處理任何真正價(jià)值向量。另一方面,還有其它很多不同的因子分解模型,如矩陣分解,平行(相似)因子估計(jì)或特殊的模型如svd+,pitf,fpmc等。這些模型的缺點(diǎn)在于不適用于通用的預(yù)測任務(wù),而僅僅能處理特定的數(shù)據(jù)。另外,這些模型的公式和優(yōu)化算法只能單獨(dú)解決各自領(lǐng)域的個(gè)別問題。fm僅在處理輸入數(shù)據(jù)(如特征值)的時(shí)候模仿這些方法。fm在
9、因子分解模型中可適用于普通用戶。參考文獻(xiàn)1s.balakrishnan and s.chopra.collaborative ranking.in wsdm,pages143-152,2012.2s.rendle and l.schmidt-thieme.pairwise interaction tensorfactorization for personalized tagrecommendation.in wsdm,pages 81-90,2010.3j.weston,c.wang,r.we iss,anda.berenzweig.latent collaborativeretrieval.in icml,2012.4s.-h.yang,b.long,a.smola,n.sadagopan,z.zheng,and h.zha.like likealike:joint friendship and interestpropagation in social networks.inwww,pages 537-546,2014.5l.zhang,d.agarwal,and b.-c.chen.generalizing matrix f
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版全新注塑機(jī)購銷合同(含設(shè)備安裝與調(diào)試)
- 2025年食品添加劑與添加劑原料供貨協(xié)議書3篇
- 2025版小額貸款公司合作協(xié)議范本2篇
- 二零二五年度企業(yè)員工溝通技巧培訓(xùn)合同8篇
- 二零二五年度企業(yè)信用評估與評級合同
- 2025年度標(biāo)準(zhǔn)住宅轉(zhuǎn)租服務(wù)合同范本3篇 - 副本
- 2025年度多功能庫房及場地租賃合同規(guī)范文本2篇
- 2025年度企業(yè)貸款擔(dān)保合作協(xié)議范本-@-1
- 二零二五年度建筑工程施工合同補(bǔ)充協(xié)議范本6篇
- 二零二五年度高校兼職輔導(dǎo)員聘用服務(wù)合同3篇
- 保險(xiǎn)專題課件教學(xué)課件
- 牛津上海版小學(xué)英語一年級上冊同步練習(xí)試題(全冊)
- 室上性心動過速-醫(yī)學(xué)課件
- 建設(shè)工程法規(guī)及相關(guān)知識試題附答案
- 中小學(xué)心理健康教育課程標(biāo)準(zhǔn)
- 四年級上冊脫式計(jì)算400題及答案
- 新課標(biāo)人教版小學(xué)數(shù)學(xué)六年級下冊集體備課教學(xué)案全冊表格式
- 人教精通版三年級英語上冊各單元知識點(diǎn)匯總
- 教案:第三章 公共管理職能(《公共管理學(xué)》課程)
- 諾和關(guān)懷俱樂部對外介紹
- 保定市縣級地圖PPT可編輯矢量行政區(qū)劃(河北省)
評論
0/150
提交評論