版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
機(jī)器學(xué)習(xí)方法的比較--李彥鵬--Logistic回歸,CRF與SVM內(nèi)容提要正則化方法Logistic回歸CRF工具包的使用練習(xí)“兩只刺猬”的故事兩只困倦的刺猬,由于寒冷而擁在一起??梢驗楦髯陨砩隙奸L著刺,于是它們離開了一段距離,但又冷得受不了,于是湊到一起。幾經(jīng)折騰,兩只刺猬終于找到一個合適的距離:既能互相獲得對方的溫暖而又不致于被扎。起初:dist*=argmin
(寒冷)最終:dist*=argmin
(C*寒冷+被刺到)最好的不是最極端的,而是最和諧的機(jī)器學(xué)習(xí)的發(fā)展也經(jīng)歷了類似的過程機(jī)器學(xué)習(xí)經(jīng)驗數(shù)據(jù)一般規(guī)律預(yù)測新數(shù)據(jù)經(jīng)驗風(fēng)險最小化:f*=argmin(經(jīng)驗風(fēng)險)過擬合(overfitting)正則化:f*=argmin(C*經(jīng)驗風(fēng)險+1/泛化能力)不適定(ill-posed)問題算子方程的解不存在,不唯一,或不穩(wěn)定下列方程f是未知數(shù):通過求極值的方法解方程,最小化泛函然而一些很一般的情況下,解是不適定的,當(dāng)左端變化很小,f會變化很大,尤其是當(dāng)然們試圖反演因果關(guān)系的時候,如:密度估計正則化方法60年代中期人們發(fā)現(xiàn)在R后面加入一個正則化因子可以解決不適定的問題正則化方法在反問題的求解中扮演了重要的角色,如函數(shù)估計,密度估計等問題。目前最常用的機(jī)器學(xué)習(xí)算法都是基于此框架。如:SVM,regularizedLogisticregression貝葉斯估計根據(jù)樣本x1,x2..xn,估計密度函數(shù)P(x,α),其中α為未知參數(shù)極大斯然估計:
α*=argmaxP(X|α)=argmin(-ln(p(x1,α)*p(x2,α)..p(xn,α)))貝葉斯估計:極大化后驗概率估計-maximumaposteriori(MAP)estimateα*=argmaxP(α|X)=argmaxP(X|α)*P(α)=argmin(-ln(p(x1,α)*p(x2,α)..p(xn,α))–lnP(α))總結(jié)極大斯然估計過于依賴經(jīng)驗,容易犯“經(jīng)驗主義”的錯誤。貝葉斯估計利用先驗知識P(α)來避免這種錯誤的發(fā)生。貝葉斯方法與正則化方法得到十分類似的結(jié)果!不同學(xué)科的理論都反映了大自然的同一個規(guī)律。
LogisticRegression回歸:根據(jù)有限樣本估計產(chǎn)生樣本的函數(shù)線性回歸:假設(shè)待求函數(shù)為線性函數(shù)。例:2維的情況,假設(shè)待求函數(shù)為f(x1,x2)=w1*x1+w2*x2需要估計w1,w2的值。Logistic回歸:假設(shè)待求概率函數(shù)為sigmoid函數(shù):P(x)=1/(1+e-(w*x))
估計:參數(shù)w例:2維的情況:P(x1,x2)=1/(1+e-(w1*x1+w2*x2))LogisticRegression給定決策函數(shù)的形式:
設(shè)回歸函數(shù):樣本的概率分布:LR的訓(xùn)練對于訓(xùn)練樣本最小化如下風(fēng)險函數(shù)
正則化的LRL2normLogisticRegression:BayesianLogisticRegression:SVMvs.LR
SVMLRSVMvs.LRSVM與LR具有很相似的風(fēng)險函數(shù)實際應(yīng)用中的效果不相上下為什么SVM比LR更流行?核化的SVM具有“稀疏性”(支撐向量)但核化的LR不具有,在這種情況下,SVM的效率往往高于LRSVM有很多方便的開源工具包,如:SVM-light,libsvm等。SVM是新的算法,而LR是傳統(tǒng)的統(tǒng)計學(xué)模型序列標(biāo)注問題代詞系動詞冠詞名詞Iamastudent.在詞性標(biāo)注問題中,樣本之間是有關(guān)聯(lián)的。序列模型、圖模型就是將這些關(guān)聯(lián)嵌入到模型中,NLP中常用的模型有:HMM,CRF(Lafferty2001)在近年的NLP研究中,CRF已“取代”了HMM條件隨機(jī)域(CRF)s:狀態(tài)序列
o:觀察值序列st:當(dāng)前狀態(tài)
st-1:前一個狀態(tài)fk:第k個特征Zo:歸一化因子條件隨機(jī)域(CRF)訓(xùn)練的過程,MAP估計不同模型的比較刺猬:dist*=argmin
(C*寒冷+被刺到)正則化:f*=argmin(C*經(jīng)驗風(fēng)險+1/泛化能力)SVM:LRCRF:總結(jié)形如:f*=argmin(損失函數(shù)+正則項)
的正則化方法方法是目前最流行的機(jī)器學(xué)習(xí)模型的框架在此框架下,SVM與LR,CRF十分相似繼續(xù)提升的空間?針對具體問題修改損失函數(shù)和正則項,是目前機(jī)器學(xué)習(xí)領(lǐng)域最熱門的研究之一但大量實踐證明,嘗試復(fù)雜的模型遠(yuǎn)不如選擇更好的特征機(jī)器學(xué)習(xí)的基本問題是模型還是特征?CRF常用的工具包Mallet:/作者AndrewMcCallum,CRF的發(fā)明人之一Java語言實現(xiàn),一整套自然語言處理工具。包含CRF算法的實現(xiàn)CRF++:/C++實現(xiàn),文檔豐富,例子很多,更容易使用。包含CRF的擴(kuò)展,如:Supportsemi-MarkovCRF,Supportpiece-wiseCRFBBR工具包BBR:BayesianLogisticRegressionSoftware
/~madigan/BBR/由美國Rutgers大學(xué)DIMACS實驗室開發(fā)。原理:基于貝葉斯估計(正則化)的LogisticRegression,實現(xiàn)了Gaussianprior和Laplaceprior兩種正則化方法。
參考:Zhang,T.andOles,F.(2001).Textcategorizationbasedonregularizedlinearclassifiers.InformationRetrieval.4(1):5--31.
BBR工具包輸入文件格式:<label>{<feature_id>:<value>}*結(jié)果文件格式:<score><label>訓(xùn)練訓(xùn)練:程序:BBRtrain.exe/~madigan/BBR/windows/BBRtrain.exe命令格式:BBRtrain[options]training_data_filemodel_file常用選項測試測試:BBRclassify.exe/~madigan/BBR/windows/BBRclassify.exeBBRclassify[options]new_data_filemodel_file-r<results_file>常用選項:練習(xí)內(nèi)容目的:學(xué)會使用BBR工具包進(jìn)行文本分類驗證Prior參數(shù)對分類效果的影響比較Logistic回歸與SVM的分類效果掌握“交叉驗證”的方法熟悉各種指標(biāo),準(zhǔn)確率,召回率,F(xiàn)值,AUC語料:SEWM”垃圾郵件“任務(wù)語料實現(xiàn)步驟步驟:語料處理:分詞,詞干化,建立向量空間模型,使用布爾型或IFIDF特征權(quán)重。利用BBR工具包進(jìn)行訓(xùn)練,分類檢驗使用不同Prior參數(shù)對分類效果的影響使用“交叉驗證”的方法調(diào)節(jié)參數(shù)比較libsvm(或svmlight)與BBR的分類效果提交在SEWM測試集上的分類結(jié)果開放性問題:是否可以通過SVM與LR融合,取得更好的分類效果?應(yīng)采用怎樣的融合的方法?參考資料Vapnik.張學(xué)工譯,統(tǒng)計學(xué)習(xí)理論的本質(zhì),清華大學(xué)出版社,2004C.M.Bishop.Patternrecognitionandmachinelearning.Springer,2006.JZhu,THastie.Kernellogisticregressionandtheimportvectormachine.JournalofComputationalandGraphicalStatistics,2005
JLafferty,AMcCallum,FPereira.Conditionalrandomfields:ProbabilisticmodelsforsegmentingandlabelingsequencedataFSha,FPereira.Shallowparsingwithcondition
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- TTK-PLK1-IN-1-生命科學(xué)試劑-MCE-9304
- Paroxetine-d4-BRL29060-d-sub-4-sub-生命科學(xué)試劑-MCE-2193
- KIF18A-IN-16-生命科學(xué)試劑-MCE-8155
- 4-5-MDAI-hydrochloride-生命科學(xué)試劑-MCE-4662
- 1-3-Dioctanoyl-glycerol-生命科學(xué)試劑-MCE-8665
- 二零二五年度獨(dú)占許可協(xié)議名詞詳釋與合同糾紛處理
- 二零二五年度企業(yè)注冊及市場營銷策劃合作協(xié)議
- 2025年度足浴店門面租賃合同模板(含供應(yīng)鏈管理)
- 二零二五年度股權(quán)分配與養(yǎng)老產(chǎn)業(yè)合作框架協(xié)議
- 2025年度自媒體賬號粉絲經(jīng)濟(jì)合作開發(fā)合同
- 2023年漢中市人民政府國有資產(chǎn)監(jiān)督管理委員會公務(wù)員考試《行政職業(yè)能力測驗》歷年真題及詳解
- JTG 3362-2018公路鋼筋混凝土及預(yù)應(yīng)力混凝土橋涵設(shè)計規(guī)范
- 八年級下冊歷史思維導(dǎo)圖
- 電動汽車用驅(qū)動電機(jī)系統(tǒng)-編制說明
- 江蘇卷2024年高三3月份模擬考試化學(xué)試題含解析
- (正式版)JTT 1497-2024 公路橋梁塔柱施工平臺及通道安全技術(shù)要求
- 醫(yī)療器械物價收費(fèi)申請流程
- 招聘專員轉(zhuǎn)正述職報告
- “一帶一路”背景下的西安市文化旅游外宣翻譯研究-基于生態(tài)翻譯學(xué)理論
- 2024年江蘇省昆山市六校中考聯(lián)考(一模)化學(xué)試題
- 大學(xué)生文學(xué)常識知識競賽考試題庫500題(含答案)
評論
0/150
提交評論