版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
法律本課件包括演示文稿、示例、代碼、題庫(kù)、和聲音等內(nèi)容,小象學(xué)院和主講老師擁有完全知識(shí)產(chǎn)權(quán)的權(quán)利;只限于善意學(xué)習(xí)者在本課程使用,不得在課程范圍外向任何第散播。任何其他人或機(jī)構(gòu)不得盜版、保留一切通過(guò)法律、仿造其中的創(chuàng)意及內(nèi)容,者的權(quán)利。課程咨詢:小象:ChinaHadoop1/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者面試機(jī)器學(xué)習(xí)鄒博面試中的機(jī)器學(xué)習(xí)問(wèn)題主要內(nèi)容Logistic/Softmax回歸原理、目標(biāo)函數(shù)SVM過(guò)擬合、核函數(shù)聚類K-Means++、密度聚類、譜聚類EM算法系統(tǒng)協(xié)同過(guò)濾SVD(Singular
Value
position)/LFM互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者4/81分類:Logistic回歸沿似然函數(shù)正梯度上升維度提升互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者5/811
yi
iimiyiLogistic回歸:損失函數(shù)myi
iy?iiiyiiiii
y?y?i1p
1
e1
y?i
l
1
y1
y1
y
ln1
e
y
ln1
emi11
e11
e
y?
i1ln
1
p
1p
p
i1
lossyi
,
y?i
l
ii1
l
lnpmL互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者6/81數(shù)據(jù)升維:“選取特征”7/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Softmax回歸隨機(jī)梯度:Tl
k
,
k
1,2,,
K概率:pc
k|
x;
Kexp
xTexp
x8/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者KT
il
k
似然函數(shù):yi
yi
T
i
kkm
Ki1
k
1l
1m
Ki1
k
1exp
x
exp
x
i
L
pc
k
|
x
;
對(duì)數(shù)似然:
m
KT
il
T
i
kkmx
l
1exp
i1
k
1Kl
1
x
lnJ
ln
L
y
iKTlTkkexp
xk
1
l
1x
lnKJ
y
kkkJ
y
py
|
x;
xK分類,第k類的參數(shù)為k
,組成二維矩陣knCode互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者9/81Softmax分類互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者10/81特征選擇互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者11/81例題下列方面可以防止過(guò)擬合的是
A.
加入正則項(xiàng)B.增加樣本C.
建立更加復(fù)雜的模型D.
Bootstrap重采樣互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者12/81解析下列方面可以防止過(guò)擬合的是
A.
加入正則項(xiàng)B.增加樣本C.
建立更加復(fù)雜的模型D.
Bootstrap重采樣解析:ABD都是常用的防止過(guò)擬合的方法;而如果使用復(fù)雜模型,往往會(huì)在訓(xùn)練集中得
到更好的結(jié)果,但在測(cè)試集上效果下降,即:使用復(fù)雜模型會(huì)增加過(guò)擬合的風(fēng)險(xiǎn)?;ヂ?lián)網(wǎng)新技術(shù)教育領(lǐng)航者13/81SVM試闡述SVM的原理,并解釋SVM是如何提高泛化能力的。使用SVM如何得到非線性分類界面?解釋核函數(shù)是什么?
核
到無(wú)窮維是怎么回事?怎么理解SVM的損失函數(shù)?請(qǐng)分析下SVM的調(diào)參?;ヂ?lián)網(wǎng)新技術(shù)教育領(lǐng)航者14/81推導(dǎo)目標(biāo)函數(shù)根據(jù)題設(shè)w,b等比例縮放,則t*y的值同樣縮放,從而:yx
wT
x
bi
i
y
yx
0i
iyx
0
y
1
i
i有:yx
0
y
1wwT
i
i
w
x
bxi
y
i
y
y互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者15/81建立目標(biāo)函數(shù)總可以通過(guò)等比例縮放w的方法,使得兩類點(diǎn)的函數(shù)值都滿足|
y
|≥1約束條件:原目標(biāo)函數(shù):新目標(biāo)函數(shù):y
w
x
b
1Ti
i
1Ti
iiminy
w
x
barg
maxw,b
ww1arg
maxw,b互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者16/81核函數(shù)的推導(dǎo)nTnTTnin
x
b
yx
i
yx
i
ii
yx
wT
x
b
i1
i1
i1i1
defw
xi
xi
,
x
b
xi
x
x
bxi
x
j
(xi
), (x
j
)
互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者17/81核函數(shù)可以使用核函數(shù),將原始輸入空間到新的特征空間,從而,使得原本線性不可分的樣本可能在核空間可分。在實(shí)際應(yīng)用中,往往依賴先驗(yàn)領(lǐng)域知識(shí)/交叉驗(yàn)證等方案才能選擇有效的核函數(shù)。沒(méi)有
先驗(yàn)信息,則使用
核函數(shù)a21
2
1
r)b
,
,a,b,r為常數(shù)多項(xiàng)式核函數(shù)x
,
x
(
x
x2
121
22
2x
x核函數(shù)RBF
x
,
x
expa1
2
2
r),
,a,r為常數(shù)Sigmoid核:x
,
x
tanh(
xx1互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者18/81核函數(shù)19/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者其中2113!2!1!1
22
2212x32x
x21
x
x
1xx
3xx
2Txn1x3
xnxx
nx
x
x
x
1
2
1
2
e
11x
2
x
2
1
2
1
n
1
3
1
2
1
2
1
2
e
1
e
e
ex
xx2
x2
1
2x2
x2
2
x
x
1
2 1
2x
x
21
2x1
x2
1
2
1
2
1
2
n!
1
2
nn!
n
33!
3
22!
21!
2
2
2
1
x
x
2
x
,
x
e2
22
2
1
2
e
22
22
22
22
2,,,,1
xnn!
n,
x2x
e1
x
1
x2
1
x31!
2!
2
3!
32
2
1,
x2
x3
xnx
1
x
2!
3!
n!
Rn20/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者核是無(wú)窮維的e核的強(qiáng)大分類效果21/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者防止過(guò)擬合:線性支持向量機(jī)若數(shù)據(jù)線性不可分,則增加松弛因子ξi≥0,使函數(shù)間隔加上松弛變量大于等于1。這樣,約束條件變成yi
w
xi
b
1
i22/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者minw,b12目標(biāo)函數(shù):2Nw
C
ii1懲罰因子C的影響互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者23/81核函數(shù)的影響互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者24/81損失函數(shù)分析黑色:誤分類率藍(lán)色:SVM
Hinge損失綠色:誤差平方和互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者25/81聚類算法K-Means算法對(duì)樣本數(shù)據(jù)有什么要求?,它的損失函數(shù)怎么定義?K-Means算法如何選擇初值?如何加快收斂速度?描述下密度聚類的機(jī)制和效果。譜聚類?互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者26/81將每個(gè)類別中心更新為隸屬該類別的所有樣本的均值重復(fù)最后兩步,直到類別中心的變化小于某閾值。中止條件:迭代次數(shù)/簇中心變化率/最小平方誤差MSE(Minimum
Squared
Error)1
jkK-means算法K-means算法,也被稱為k-平均或k-均值,是一種廣泛使用的聚類算法,或者成為其他聚類算法的基礎(chǔ)。假定輸入樣本為S=x1,x2,...,xm,則算法步驟為:選擇初始的k個(gè)類別中心μ1μ2…μk對(duì)于每個(gè)樣本xi,將其標(biāo)記為距離類別中心最近的類別,即:labeli
arg
min
xi
jic
jjj
i|
c
|
1
x互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者27/81K-means過(guò)程28/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者育Code互聯(lián)網(wǎng)新技術(shù)
教K
i
jkN
jj
1
i1221x
1
2J
,
,
j30/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者N
jN
ji
jj為:J
xii1
2i10
1x
jN令K-means的目標(biāo)函數(shù)記K個(gè)簇中心為1,2
,,k
,每個(gè)簇的樣本數(shù)目為N1,N2
,,Nk使用平方誤差作為目標(biāo)函數(shù):該函數(shù)為關(guān)于1
2
,
,,
k
的凸函數(shù),其駐點(diǎn)Mini-batch
k-Means算法描述31/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Code互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者M(jìn)ini-batch
k-Means效果互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者33/81K-Means適用范圍互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者34/81K-Means算法測(cè)試K-means聚類方法總結(jié)優(yōu)點(diǎn):是解決聚類問(wèn)題的一種經(jīng)典算法,簡(jiǎn)單、快速對(duì)處理大數(shù)據(jù)集,該算法保持可伸縮性和高效率當(dāng)簇近似為
分布時(shí),它的效果較好缺點(diǎn)在簇的平均值可被定義的情況下才能使用,可能不適用于某些應(yīng)用必須事先給出k(要生成的簇的數(shù)目),而且對(duì)初值敏感,對(duì)于不同的初始值,可能會(huì)導(dǎo)致不同結(jié)果。不適合于發(fā)現(xiàn)非凸形狀的簇或者大小差別很大的簇對(duì)躁聲和孤立點(diǎn)數(shù)據(jù)敏感可作為其他聚類方法的基礎(chǔ)算法,如譜聚類互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者36/81密度聚類方法密度聚類方法的指導(dǎo)思想是,只要樣本點(diǎn)的密度大于某閾值,則將該樣本添加到最近的簇中。這類算法能克服基于距離的算法只能發(fā)現(xiàn)“類圓
形”(凸)的聚類的缺點(diǎn),可發(fā)現(xiàn)任意形狀的聚類,且對(duì)噪聲數(shù)據(jù)不敏感。但計(jì)算密度單元的計(jì)算復(fù)雜度大,需要建立空間索引來(lái)降低計(jì)算量。DBSCAN密度最大值算法互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者37/81DBSCAN算法對(duì)象的ε-鄰域:給定對(duì)象在半徑ε內(nèi)的區(qū)域。
對(duì)象:對(duì)于給定的數(shù)目m,如果一個(gè)對(duì)象的ε-鄰域至少包含m個(gè)對(duì)象,則稱該對(duì)象為對(duì)象。直接密度可達(dá):給定一個(gè)對(duì)象集合D,如果p是在q的ε-鄰域內(nèi),而q是一個(gè)對(duì)象,說(shuō)對(duì)象p從對(duì)象q出發(fā)是直接密度可達(dá)的。
如圖ε=1cm,m=5,q是一個(gè)核心對(duì)象,從對(duì)象q出發(fā)到對(duì)象p是直接密度可達(dá)的。互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者38/81DBSCAN算法密度可達(dá):如果存在一個(gè)對(duì)象鏈p1p2…pn,p1=q,pn=p,對(duì)
pi∈D,(1≤i≤n),pi+1是從pi關(guān)于ε和m直接密度可達(dá)的,則對(duì)象p是從對(duì)象q關(guān)于ε和m密度可達(dá)的。密度相連:如果對(duì)象集合D中存在一個(gè)對(duì)象o,使得對(duì)象p和q是從o關(guān)于ε和m密度可達(dá)的,那么對(duì)象p和q是關(guān)于ε和m密度相連的。簇:一個(gè)基于密度的簇是最大的密度相連對(duì)象的集合。噪聲:不包含在任何簇中的對(duì)象稱為噪聲?;ヂ?lián)網(wǎng)新技術(shù)教育領(lǐng)航者39/81DBSCAN算法DBSCAN算法流程:如果一個(gè)點(diǎn)p的ε-鄰域包含多于m個(gè)對(duì)象,則創(chuàng)建一個(gè)p作為
對(duì)象的新簇;尋找并合并
對(duì)象直接密度可達(dá)的對(duì)象;沒(méi)有新點(diǎn)可以更新簇時(shí),算法結(jié)束。有上述算法可知:每個(gè)簇至少包含一個(gè)
對(duì)象;非
對(duì)象可以是簇的一部分,構(gòu)成了簇的邊緣(edge);包含過(guò)少對(duì)象的簇被認(rèn)為是噪聲?;ヂ?lián)網(wǎng)新技術(shù)教育領(lǐng)航者40/81互聯(lián)網(wǎng)新技術(shù)
教育Code參數(shù):r=0.142/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者譜和譜聚類方陣作為線性算子,它的所有特征值的全體統(tǒng)稱方陣的譜。方陣的譜半徑為最大的特征值矩陣A的譜半徑:(ATA)的最大特征值譜聚類是一種基于圖論的聚類方法,通過(guò)對(duì)樣本數(shù)據(jù)的拉斯矩陣的特征向量進(jìn)行聚類,從而達(dá)到對(duì)樣本數(shù)據(jù)聚類的目的?;ヂ?lián)網(wǎng)新技術(shù)教育領(lǐng)航者43/81拉
斯矩陣及其性質(zhì)拉
斯矩陣:L
=
D
–
WL是對(duì)稱半正定矩陣,最小特征值是0,相應(yīng)的特征向量是全1向量。ij
ijn
1
nni
j
ijn
i
iTw
f
f
d
f
f
f
wf
T
Lf
f
T
Df
f
Wf
i,
j
122
i,
j
1
d
j
f
jj
1
i1d f
2i1
i,
j
1212n
2n
fi
f
j
wiji
i2互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者44/81拉
斯矩陣的定義斯矩陣Random
walk
1
1
1
1
2
L
D
2
I
D
2
W
D
2正則拉對(duì)稱拉斯矩陣Lsym
D隨機(jī)
拉斯矩陣Lrw
D1L
I
D1W計(jì)算點(diǎn)之間的鄰接相似度矩陣W若兩個(gè)點(diǎn)的相似度值越大,表示這兩個(gè)點(diǎn)越相似;同時(shí),定義wij=0表示vi,vj兩個(gè)點(diǎn)沒(méi)有任何相似性(無(wú)窮遠(yuǎn))W的第i行元素的和為vi的度。形成頂點(diǎn)度對(duì)角陣Ddii表示第i個(gè)點(diǎn)的度除主對(duì)角線元素,D其他位置為0未正則的拉斯矩陣:L
D
W互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者45/81譜聚類算法:未正則拉
斯矩陣輸入:n個(gè)點(diǎn){pi},簇的數(shù)目k計(jì)算n×n的相似度矩陣W和度矩陣D;計(jì)算拉
斯矩陣L=D-W;計(jì)算L的前k個(gè)特征向量u1,u2,...,uk;將k個(gè)列向量u1,u2,...,uk組成矩陣U,U∈Rn×k;對(duì)于i=1,2,...,n,令yi∈Rk是U的第i行的向量;使用k-means算法將點(diǎn)(yi)i=1,2,...,n聚類成簇C1,C2,...Ck;輸出簇A1,A2,...Ak,其中,Ai={j|yj∈Ci}互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者46/81譜聚類算法:隨機(jī)
拉
斯矩陣輸入:n個(gè)點(diǎn){pi},簇的數(shù)目k計(jì)算n×n的相似度矩陣W和度矩陣D;計(jì)算正則拉
斯矩陣Lrw=D-1(D-W);計(jì)算Lrw的前k個(gè)特征向量u1,u2,...,uk;將k個(gè)列向量u1,u2,...,uk組成矩陣U,U∈Rn×k
;對(duì)于i=1,2,...,n,令yi∈Rk是U的第i行的向量;使用k-means算法將點(diǎn)(yi)i=1,2,...,n聚類成簇C1,C2,...Ck
;輸出簇A1,A2,...Ak,其中,Ai={j|yj∈Ci}互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者47/81譜聚類算法:對(duì)稱拉
斯矩陣輸入:n個(gè)點(diǎn){pi},簇的數(shù)目k計(jì)算n×n的相似度矩陣W和度矩陣D;計(jì)算正則拉 斯矩陣Lsym=D-1/2(D-W)
D-1/2;計(jì)算Lsym的前k個(gè)特征向量u1,u2,...,uk;將k個(gè)列向量u1,u2,...,uk組成矩陣U,U∈Rn×k;對(duì)于i=1,2,...,n,令yi∈Rk是U的第i行的向量;對(duì)于i=1,2,...,n,將yi∈Rk依次單位化,使得|yi|=1;使用k-means算法將點(diǎn)(yi)i=1,2,...,n聚類成簇C1,C2,...Ck;輸出簇A1,A2,...Ak,其中,Ai={j|yj∈Ci}互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者48/81Code互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者49/81聚類效果互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者50/81基于隱變量的模擬場(chǎng)景:假定Ben、Tom、John、Fred對(duì)6種商品進(jìn)行了評(píng)價(jià),評(píng)分越高代表對(duì)該商品越喜歡。0表示未評(píng)價(jià)。51/8互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者50
34
00
54
45
4
5
5A
0系統(tǒng)52/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者協(xié)同過(guò)濾分成Item-Base和User-Base,它們的區(qū)別是什么?系統(tǒng)的?它的優(yōu)缺點(diǎn)SVD是如何應(yīng)用于是什么?如何抑制熱門商品?如何提高用戶的驚喜度?系統(tǒng)互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者陪我去看流星雨某影院收集了N個(gè)用戶對(duì)于M個(gè)的觀影記錄。每個(gè)用戶一行,第i行記錄形式為:“<用戶ID>\t<
1>;<
2>;……”已知莫愁的觀影記錄為:84,
14,
90,91,
29,
21,
9,
44,24,
89,
8,
42,
41,
40,25,
37,
30,
16,
97,
52,
62,
56,80,
83,
36,26,
73,
64,
32,
27,
67,
65,
79,
87,
17。找出與莫愁最匹配的前15名用戶。思考:如何定義“最匹配”?54/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Code互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者55/81Code互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者56/81余弦相似度互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者57/81Jaccard相似度互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者58/81歐拉相似度互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者59/81評(píng)價(jià)
系統(tǒng)的首要離線指標(biāo)通過(guò)將單個(gè)用戶的準(zhǔn)確率(或率)做累加,即得到整個(gè)
系統(tǒng)的準(zhǔn)確率(或率),該離線指標(biāo)常常用于比較各個(gè)系統(tǒng)之間Recallu
Ru
T
u
RuRu
T
uT
u的優(yōu)劣。Precisionu
Recall
uU
T
uuURuuURu
T
uPrecision
uU
Ru
T
u1
2
Recall
Precision
2
Recall
PrecisionF
互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者60/81評(píng)價(jià)
系統(tǒng)的其他指標(biāo)多樣性:驚喜度(serendipity):滿意度/相似度用戶驚喜來(lái)自于和用戶喜歡的物品不相似,但用戶卻覺(jué)得滿意的
。uU覆蓋率:Coverage
Ru
I考慮不同商品出現(xiàn)的n
次數(shù)(概率),則可用信息熵或基尼系數(shù)。H
21
R(u)
R(u)
1
si,
jDiversity(u)
1
i,
jR(u
)
uUUDiversity
1
Diversity(u)i1pi
ln
pinGini
pi1
pi
i1互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者61/81總結(jié)與思考根據(jù)用戶觀影數(shù)據(jù),如何計(jì)算之間的相似度?所對(duì)應(yīng)的用戶遍歷用戶
的
列表,得到每個(gè)列表,然后調(diào)用前述代碼即可。Item-Based/User-Based如果
M1非常流行,相當(dāng)數(shù)目的人都看過(guò);電影M2流行度偏低,則如果兩人都看過(guò)M2,則他們的相似度應(yīng)該更高。適當(dāng)提高非流行商品的權(quán)值?;谟脩粜袨榈臄?shù)據(jù)而設(shè)計(jì)的
算法被稱為協(xié)同過(guò)濾算法(Collaborative
Filtering,
CF)。ItemCF/UserCF互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者62/81基于用戶和基于商品的比較,2012.6《系統(tǒng)實(shí)踐》著,人民郵電SVD的提法奇異值分解(Singular
Value position)是一種矩陣分解方法,可看做對(duì)稱方陣在任意矩陣上的推廣。Singular:突出的、奇特的、非凡的似乎更應(yīng)該稱之為“優(yōu)值分解”假設(shè)A是一個(gè)m×n階實(shí)矩陣,則存在一個(gè)分解使得:將奇異值由大而小排列。則Σ便能由A唯一確定了。理論上的作法:V
Tmn
mm
mn
nnA
U
iiiT
A
UV
Tui
i
iA
Av
ivi
1
A
v互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者64/81SVD舉例矩陣U和V都是單位正交方陣:UTU=I,VTV=I01000200300000000已知4×5階實(shí)矩陣A,求A的SVD分解:A
4
0
08
.2
001000.20000.000100.8000
0
00
1
0
0V
T00
4
0
0
0
03
0
00
0
5
0
00
0
0
000U
10
0
1
00
1
00
0
0
10
0
0V
Tmn
mm
mn
nnA
U
互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者65/8155345A
0V
TSVD分解Amm
mn
nnmn
U
0.5099
0.53160.24610.8622
0.14580.0780
0.4033
0.2275
0.10380.43600.6700
0.3951
0.58880.02600.0597
0.10970.28690.5946
0.53710.1887
0.19140.5341
0.5485 0.2429
0.0667
0.20780.7065
0.29250.2002
0.358666U00000000
0
06.3917
00
3.0980
0
0
0
1.32900
00
05505
0.4472
0.5373
0.0064
0.5037
0.3857
0.3298
0
3
3
4
0
30
54
45
4
5
5017.713964
0.58590.3286
0.38460.2637
0.42750.6749 0.4109
0.6929
0.25320.0140
0.8085
0.2228
0.51720.82460.0532
0.571044V
T互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者66/81545SVD分解,取k=2Amm
mn
nnV
Tmn
U
090
0
06.391700003.098000001.3200000000A
0355
5
0
5
0
33
4
0
30
54
45
4
5
5017.713964
0.5316
0.5099
0.53730.2461
0.40330.67000.05970.1887
0.00640.8622
0.2275
0.3951
0.1097
0.1914
0.5037
0.1458
0.1038
0.58880.28690.5341
0.2078
0.2925
0.3586
0.3298
0.38570.0780 0.2002
0.4360 0.7065
0.0260 0.0667
0.5946
0.5371
0.5485 0.2429
0.447266U
0.58590.26370.3286
0.6749 0.4109
0.6929
0.25320.0140
0.8085
0.2228
0.51720.82460.0532
0.5710
0.4275
0.3846
44V
T互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者67/81產(chǎn)品矩陣的壓縮
0.4472
0.3586
0.292566U
0.2078
0.5099
0.53730.2461
0.40330.67000.05970.1887
0.5316
0.0064
0.50370.8622
0.1458
0.2275
0.1038
0.3951
0.5888
0.1097
0.2869
0.1914
0.534150
34
00
54
45
4
5
5A
0互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者68/8用戶矩陣的壓縮
0.3846
0.58590.2637
0.6749 0.4109
0.6929
0.25320.01400.3286
0.
8085
0.2228
0.51720.82460.0532
0.5710
0.427544V
T5034005444555A
3互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者69/8新用戶的個(gè)性化對(duì)于新用戶,如何對(duì)其做個(gè)性化
呢?將A擴(kuò)展后重新計(jì)算SVD,然后聚類用戶?事實(shí)上A
U
V
T
UT
A
UTU
V
T
UT
A
V
T
1UT
A
1
V
T
1UT
A
V
T
1UT
AT
V
ATU1
V互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者70/81假設(shè)有個(gè)Bob的新用戶,對(duì)6個(gè)產(chǎn)品的評(píng)分為(5,5,0,0,0,5)T,則:新用戶的個(gè)性化V
AT
U
1001
0.3775,0.08026.3917
0.0597
0.6700
1
0.5099
0.53160.1887
0.2078
0.4033
17.7139
0.3586
0.5373
0.2461
0.4472V
aT
U
1
5,5,0,0,0,5
0.2925互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者71/81個(gè)性化計(jì)算新加的Bob和現(xiàn)有用戶的距離:余弦距離(一定意義下即相關(guān)系數(shù)),最近的是Ben。Ben:5
5
30
5
5Bob:5
5
00
05因此,可順次
S5、S3互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者72/81奇異值分解-效果73/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者基于隱變量的
(Latent
Factor
Model)74/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者對(duì)于K個(gè)隱變量,得:Amn目標(biāo)函數(shù):梯度:
U
V
Tmk
mn
m
km
nkjririjn
kj
1
r
1v2iru
2jr
i1
r
1
i1j
1
2J
U,V
;
A
a
v
ur
1kirijirv
jrir
jrjru
2
aij
uir
v
jr
uir,
1
r
kJ
U,V
;
AJ
U,V
;
A
2
ar
1r
1
2vjrku
v
v
2uCode75/81互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者k=2用戶-隱變量矩陣:商品-隱變量矩陣:矩陣:76/8互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者
3
3
4
0
30
5
4
4
5
4
5
5A
0k=3用戶-隱變量矩陣:商品-隱變量矩陣:矩陣:553455
5
0
5
0
33
4
0
30
54
45
4
5
5A
0互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者77/81隱變量數(shù)目對(duì)
的影響k=2k=35
5
0
550340A
354040543355455互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者78/81總結(jié)面試中機(jī)器學(xué)習(xí)的題目
逐年增加;排序:數(shù)據(jù)、特征、算法算法方面,個(gè)人認(rèn)為可以重點(diǎn)思考:Logistic回歸/SVM/
K-Means的目標(biāo)函數(shù)Viterbi算法卷積神經(jīng)網(wǎng)絡(luò)掌握1到2個(gè)開源機(jī)器學(xué)習(xí)包。兩點(diǎn)注意在此基礎(chǔ)上掌握些“略難”的問(wèn)題,如MCMC、采樣結(jié)合面試公司的應(yīng)用需求,如做用戶評(píng)論(自然語(yǔ)言處理)、語(yǔ)音識(shí)別、圖像處理等場(chǎng)景。最后的話:機(jī)器學(xué)習(xí)的應(yīng)用遠(yuǎn)超諸位的想象。絕非只有商品/商家
擊率預(yù)估、金融等“傳統(tǒng)”領(lǐng)域?;ヂ?lián)網(wǎng)新技術(shù)教育領(lǐng)航者79/81在這里/課程/社區(qū)@ChinaHadoop@鄒博_機(jī)器學(xué)習(xí)小象大數(shù)據(jù)分析挖掘互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者80/81感謝大家!懇請(qǐng)大家批評(píng)指正!互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者81/81附錄例題解析互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者82/81例題1下列方面可以防止過(guò)擬合的是
A.
加入正則項(xiàng)B.
增加樣本C.
建立更加復(fù)雜的模型D.Bootstrap重采樣答:C解析:ABD都是常用的防止過(guò)擬合的方法;而如果使用復(fù)雜模型,往往會(huì)在訓(xùn)練集中得到更好的結(jié)果,但在測(cè)試集上效果下降,即:使用復(fù)雜模型會(huì)增加過(guò)擬合的風(fēng)險(xiǎn)?;ヂ?lián)網(wǎng)新技術(shù)教育領(lǐng)航者83/81例題2下列屬于有監(jiān)督學(xué)習(xí)算法的是:
A.譜聚類B.主成分分析PCAC.
模型LDAD.線性判別分析LDA答:D解析:聚類是典型的無(wú)監(jiān)督學(xué)習(xí)方法,譜聚類是很好的聚類算法,往往可以得到不錯(cuò)的聚類結(jié)果(缺點(diǎn)是需要計(jì)算特征值和特征向量,速度較慢);主成分分析PCA是使用無(wú)的數(shù)據(jù)直接做降維,屬于無(wú)監(jiān)督學(xué)習(xí)。模型LDA只使用文本數(shù)據(jù)本身,在給定數(shù)目K和超參數(shù)αβ的前提下,可以直接學(xué)習(xí)到分布和詞分布,屬于無(wú)監(jiān)督學(xué)習(xí)。而線性判別分析LDA使用
計(jì)算類內(nèi)散列矩陣和類間散列矩陣,是有監(jiān)督學(xué)習(xí)算法。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024辣椒購(gòu)銷合同爭(zhēng)議的解決方式
- 2025年度智能化廚房設(shè)備采購(gòu)與安裝一體化合同4篇
- 2025年投標(biāo)采購(gòu)心得體會(huì)總結(jié)與合同管理創(chuàng)新合同3篇
- 個(gè)人房屋轉(zhuǎn)讓協(xié)議書合同范本
- 2024年駕校場(chǎng)地使用權(quán)益轉(zhuǎn)讓合同
- 2025年度煤礦廢棄資源煤矸石回收利用合同4篇
- 2025年度油氣田鉆井工程合同執(zhí)行監(jiān)督合同范本4篇
- 全新2025年度醫(yī)療設(shè)備采購(gòu)與安裝合同5篇
- 2025版污水處理廠智能化改造與運(yùn)營(yíng)維護(hù)協(xié)議3篇
- 2025版領(lǐng)隊(duì)與紀(jì)念品供應(yīng)商合作協(xié)議范本4篇
- 2024-2030年中國(guó)護(hù)肝解酒市場(chǎng)營(yíng)銷策略分析與未來(lái)銷售渠道調(diào)研研究報(bào)告
- 人教版高中數(shù)學(xué)必修二《第十章 概率》單元同步練習(xí)及答案
- 智慧校園信息化建設(shè)項(xiàng)目組織人員安排方案
- 浙教版七年級(jí)上冊(cè)數(shù)學(xué)第4章代數(shù)式單元測(cè)試卷(含答案)
- 一病一品成果護(hù)理匯報(bào)
- AQ-T 1009-2021礦山救護(hù)隊(duì)標(biāo)準(zhǔn)化考核規(guī)范
- 鹽酸??颂婺崤R床療效、不良反應(yīng)與藥代動(dòng)力學(xué)的相關(guān)性分析的開題報(bào)告
- 消防設(shè)施安全檢查表
- 組合結(jié)構(gòu)設(shè)計(jì)原理 第2版 課件 第6、7章 鋼-混凝土組合梁、鋼-混凝土組合剪力墻
- 建筑公司資質(zhì)常識(shí)培訓(xùn)課件
- GB/T 26316-2023市場(chǎng)、民意和社會(huì)調(diào)查(包括洞察與數(shù)據(jù)分析)術(shù)語(yǔ)和服務(wù)要求
評(píng)論
0/150
提交評(píng)論