版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器學(xué)習(xí)基礎(chǔ)復(fù)習(xí)提綱目錄翻譯 3Python語(yǔ)法: 3Numpy語(yǔ)法: 3matplotlib畫(huà)圖: 3機(jī)器學(xué)習(xí)模型 3分) 4Python語(yǔ)言的特點(diǎn):動(dòng)態(tài)類(lèi)型,交互式,解釋型,面向?qū)ο?,多繼承,函數(shù)返回值,函數(shù)作為參數(shù),變長(zhǎng)參數(shù),缺省參數(shù),命名參數(shù) 4三種for,for和while中的break,continue,else 5List,Tuple,Dictionary,set 5range()函數(shù)產(chǎn)生List 7numpy.min,max,sort,argmin,argmax,argsort,flipud,[::-1] 7plotNum)8機(jī)器學(xué)習(xí)的一般慨念,比如:有監(jiān)督的機(jī)器學(xué)習(xí)、無(wú)監(jiān)督的機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等 9sklearn10屬性的類(lèi)型,數(shù)據(jù)預(yù)處理技術(shù)(如sklearn.preprocessing.StandardScaler,preprocessing.scale,preprocessing.MinMaxScaler(),preprocessing.normalize,procssing.Nrmlier()3各個(gè)機(jī)器學(xué)習(xí)算法的基本性質(zhì) 15、題8題0錄音82-) 8學(xué)過(guò)的機(jī)器學(xué)習(xí)算法相關(guān)類(lèi)的作用及其構(gòu)造函數(shù)主要參數(shù)的意義;18與超參數(shù)調(diào)整相關(guān)類(lèi)的使用 19數(shù)據(jù)預(yù)處理的方法,如獨(dú)熱編碼preprocessing.OneHotEncoder(),sklearn.feature_extraction.DictVectorizer,線(xiàn)性回歸特征擴(kuò)展方法preprocessing.PolynomialFeatures ,文本處理sklearn.feature_extraction.text.CountVectorizer 19各種性能指標(biāo)的計(jì)算,如二類(lèi)分類(lèi)問(wèn)題的混淆矩陣、accuracy、precision、recall、f1、P-R曲線(xiàn)和ROC曲線(xiàn),回歸問(wèn)題的R-squared,聚類(lèi)問(wèn)題的關(guān)聯(lián)矩陣、Randindex和JaccardIndex 20(PPT05-2P17)22(ulti-lbelclssfiainPT0-2P2)22學(xué)習(xí)過(guò)的主要集成機(jī)器學(xué)習(xí)算法的基本原理 22主要機(jī)器學(xué)習(xí)算法的具體實(shí)現(xiàn),如決策樹(shù)如何選擇屬性,樸素貝葉斯方法如何預(yù)測(cè),k-means算法的2個(gè)主要步驟,層次聚類(lèi)如何選擇合并的簇 23Python語(yǔ)言lambda表達(dá)式、filter、map和reduce的具體設(shè)計(jì) 244、算法設(shè)計(jì)題 26用偽代碼描述學(xué)習(xí)過(guò)的機(jī)器學(xué)習(xí)算法,如決策樹(shù)、k-means、層次聚類(lèi)、DBCA(如K-貪心法和Sofax-lernig、集成學(xué)習(xí)算法等 26實(shí)現(xiàn)上述算法 29用給定的機(jī)器學(xué)習(xí)方法解決問(wèn)題通常會(huì)要求根據(jù)性能指標(biāo)重復(fù)多次尋找最優(yōu)的超參數(shù),將結(jié)果用曲線(xiàn)、柱狀或者箱線(xiàn)圖表示出來(lái)(主要類(lèi)會(huì)給出) 30翻譯Python語(yǔ)法:List(列表),Tuple(元組),Dictionary(字典),set(集合)Numpy語(yǔ)法:argflipud(上下翻轉(zhuǎn))matplotlib畫(huà)圖:scatter(散點(diǎn)圖),plot(二維線(xiàn)畫(huà)圖),bar(直方圖)box(箱線(xiàn)圖),subplot(繪制多軸圖)label(標(biāo)簽)機(jī)器學(xué)習(xí)模型評(píng)價(jià)方法(EvaluationMethods)HoldoutMethod(留出法)K-foldCross-validation(K)Bootstrapping(自助法)性能指標(biāo)(MetricsforBinaryClassification)二類(lèi)分類(lèi)問(wèn)題Accuracy(準(zhǔn)確率)Precision(查準(zhǔn)率)Recall(查全率,召回率)聚類(lèi)分類(lèi)算法LinearRegression(線(xiàn)性回歸)DecisionTree(決策樹(shù))SVM(SupportVectorMachine)KNN(K-NearestNeighborK)MLP(multilayerperceptron)SOM(Self-OrganizingMap)K-means(K)DBSACN(基于密度的聚類(lèi)算法)LogisticRegression(邏輯回歸)1、選擇題(16)2、是非題(14)函數(shù)返回值,函數(shù)作為參數(shù),變長(zhǎng)參數(shù),缺省參數(shù),命名參數(shù)動(dòng)態(tài)類(lèi)型同一個(gè)對(duì)象名可以賦值不同的類(lèi)型。交互式解釋型面向?qū)ο蠖嗬^承classa(b,c),a繼承了b,c。函數(shù)返回值java,Python函數(shù)作為參數(shù)defrun(func),func()調(diào)用原來(lái)的函數(shù)。變長(zhǎng)參數(shù)deffunc(a,*args),在形參前加*可以把多個(gè)參數(shù)當(dāng)成元組的形式傳入,也就是傳入的多個(gè)參數(shù)值可以在函數(shù)內(nèi)部進(jìn)行元祖遍歷。缺省參數(shù)deffunc(a=1),在參數(shù)后使用賦值語(yǔ)句可以指定參數(shù)的缺省值(默認(rèn)值)。命名參數(shù)在調(diào)用函數(shù)時(shí)按照形參的名稱(chēng)傳遞參數(shù),可以不受位置影響deffunc(a,b,c) passfunc(b=2,c=3,a=1)三種for,for和while中的break,continue,else1.2三種forforiteminarray:print(item)forindexinrange(len(array)):print(str(index)+".."+array[index])inenumerate(array):print(str(index)+"--"+val);打印結(jié)果→→→
abc0..a1..b2..c0--a1--b2--cfor和whilebreak,continue,elsebreak:中斷循環(huán)continue:跳過(guò)其下語(yǔ)句繼續(xù)循環(huán)else:退出循環(huán)時(shí)執(zhí)行其中語(yǔ)句List,Tuple,Dictionary,setList(列表):可變的序列,可以增加或刪除項(xiàng),擁有迭代器L=[1,2,3],L1=[]#列表的定義len(L)#列表的長(zhǎng)度item=L[index]index0seq=L[start:stop]list,包括從start到stop,start/stop/到結(jié)尾,為負(fù)數(shù)時(shí)表示從頭/n(1)M=L#指向?qū)ο?M=L[:]克隆L.append(obj)#在末尾添加單個(gè)元素L.extend(sequence)#在末尾連接另一個(gè)序列(sequence)L.insert(index,obj)#indexobj,原先的內(nèi)1,indexLendelL[i]idelL[i:j]iJ移動(dòng)item=L.pop()#彈出最后一個(gè)元素item=L.pop(0)#彈出第一個(gè)元素item=L.pop(index)indexL.remove(item)#LitemL.reverse()#將列表反向L.sort()#將列表排序Tuple(元組):與列表類(lèi)似,但不可變(無(wú)法修改) T1=(1,2,3),T2=(),T3=(1,)#元組的定義,當(dāng)元組僅含有單個(gè)元素時(shí),必須在第一個(gè)項(xiàng)目后跟一個(gè)逗號(hào)元組沒(méi)有方法元組可用于打印語(yǔ)句print('%sis%dyearsold'%(name,age))print('Whyis%splayingwiththatpython?'%name)Dictionary(字典):鍵(key)與值(value)一一對(duì)應(yīng)的列表D={key1:value1,key2:value2}#字典的定義,鍵/值對(duì)用冒號(hào)分割,而各個(gè)對(duì)用逗號(hào)分割字典的鍵大小寫(xiě)敏感字典中鍵、值的類(lèi)型可以不同D[key]#字典的訪(fǎng)問(wèn),例如d={"server":"mpilgrim","database":"master"}>>>d["server"]‘mpilgrim’D[key]=new_value#字典的添加/修改delD[key]#刪除某個(gè)項(xiàng)d.clear()#清空字典set(集合):無(wú)序集合a.issuperset(b)#ersection(b,c,d…)#返回多個(gè)集合都包含的元素集合的使用案例>>>bri=set(['brazil','russia','india'])>>>'india'inbriTrue>>>'usa'inbriFalse>>>bric=bri.copy()>>>bric.add('china')>>>bric.issuperset(bri)#判斷True>>>bri.remove('russia')>>>bri&bric#ORersection(bric){'brazil','india'}range()函數(shù)產(chǎn)生Listrangerange(start,stop[,step])函數(shù)可創(chuàng)建一個(gè)整數(shù)列表,一般用在for循環(huán)中。參數(shù):start:計(jì)數(shù)從start開(kāi)始。默認(rèn)是從0開(kāi)始。例如range(5)range(0,5);stop:計(jì)數(shù)到stop結(jié)束,但不包括stop。例如:range(0,5)是[0,1,2,3,4]5step:1。例如:range(0,5)等價(jià)于range(0,5,1)numpy.min,max,sort,argmin,argmax,argsort,flipud,[::-1]numpy.min返回最小值。numpy.max返回最大值。numpy.sort返回排序過(guò)的數(shù)組。numpy.argmin返回最小值所在下標(biāo)。numpy.argmax返回最大值所在下標(biāo)。numpy.argsort返回?cái)?shù)組值從小到大的索引值。numpy.flipud返回上下翻轉(zhuǎn)的矩陣。1.5.8[::-1]數(shù)組倒序scatter,plot,bar,box,繪制多軸圖,subplot(numRows,numCols,plotNum)scatter(散點(diǎn)圖)plt.scatter(x,y,s=area,c=colors1,alpha=0.4,label='A')#例子參數(shù):x,y——設(shè)置點(diǎn)的位置s——點(diǎn)的大小c——點(diǎn)的顏色marker——點(diǎn)的形狀alpha——點(diǎn)的透明度plot(二維線(xiàn)畫(huà)圖)plt.plot(x,y,ls="-",lw=2,label=“plotfigure”)#例子參數(shù):x:xy:yls:折線(xiàn)圖的線(xiàn)條風(fēng)格lw:折線(xiàn)圖的線(xiàn)條寬度label:標(biāo)記圖內(nèi)容的標(biāo)簽文本bar(直方圖)bar(x,height,width=0.8,bottom=None,***,align='center',data=None,**kwargs)#標(biāo)準(zhǔn)函數(shù)ax.bar(ind-width/2,men_means,width,color='SkyBlue',label='Men')#例子參數(shù):xxheight條形的高度width寬度box(箱線(xiàn)圖)plt.boxplot(x)優(yōu)點(diǎn):可以直觀(guān)明了地識(shí)別數(shù)據(jù)中的異常值。利用箱體圖可以判斷數(shù)據(jù)的偏態(tài)和尾重。利用箱體圖可以比較不同批次的數(shù)據(jù)形狀。繪制多軸圖函數(shù):subplot(numRows,numCols,plotNum)subplotnumRows*numCols列個(gè)子區(qū)域,然后按照從左到右,從上到下的順序?qū)γ總€(gè)子1。numRows,numColsplotNum10subplot(323)和subplot(3,2,3)是相同的。機(jī)器學(xué)習(xí)的一般慨念,比如:有監(jiān)督的機(jī)器學(xué)習(xí)、無(wú)監(jiān)督的機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等有監(jiān)督的機(jī)器學(xué)習(xí)通過(guò)有標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練核心:分類(lèi)同維分類(lèi)同時(shí)定性獨(dú)立分布數(shù)據(jù)更適合有監(jiān)督不透明無(wú)監(jiān)督的機(jī)器學(xué)習(xí)通過(guò)無(wú)標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練核心:聚類(lèi)降維先聚類(lèi)后定性非獨(dú)立數(shù)據(jù)更適合無(wú)監(jiān)督可解釋性強(qiáng)化學(xué)習(xí)沒(méi)有數(shù)據(jù),通過(guò)獎(jiǎng)勵(lì)和懲罰進(jìn)行訓(xùn)練基本內(nèi)涵是將問(wèn)題用代理(Agent,有的地方也將其翻譯為智能體)和環(huán)境進(jìn)行建模。機(jī)器學(xué)習(xí)模型評(píng)價(jià)方法和評(píng)價(jià)性能指標(biāo)及其在sklearn中相關(guān)的函數(shù)評(píng)價(jià)方法(EvaluationMethods)(Lab04-LR)HoldoutMethod(留出法)將數(shù)據(jù)集分為兩個(gè)不相交的部分:訓(xùn)練集和測(cè)試集。2/3?4/5sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4,random_state=0,stratify=y_train)參數(shù):train_data:所要?jiǎng)澐值臉颖咎卣骷?。train_target:所要?jiǎng)澐值臉颖窘Y(jié)果。test_size:樣本占比,如果是整數(shù)的話(huà)就是樣本的數(shù)量。random_state:是隨機(jī)數(shù)的種子。.4.5 stratify是為了保持split前類(lèi)的分布。100,80A,20BK-foldCross-validation(K)可能是最常見(jiàn)但計(jì)算量更大的方法。kK折交叉驗(yàn)證是交叉驗(yàn)證的一種特殊情況,其中我們遍歷數(shù)據(jù)集k次。在每一輪中,一個(gè)部分用于驗(yàn)證k-1估。k5、1020。cross_val_score(estimator,X,y=None,groups=None,scoring=None,cv=’warn’,n_jobs=None,verbose=0,fit_params=None,pre_dispatch=‘2*n_jobs’,error_score=’raise-deprecating’)Bootstrapping(自助法)參數(shù):estimator:需要使用交叉驗(yàn)證的算法。X:輸入樣本數(shù)據(jù)。y:樣本標(biāo)簽。scoring:交叉驗(yàn)證最重要的就是他的驗(yàn)證方式,選擇不同的評(píng)價(jià)方法,會(huì)產(chǎn)生不同的評(píng)價(jià)結(jié)果。cv:交叉驗(yàn)證折數(shù)或可迭代的次數(shù)。Bootstrapping(自助法)通過(guò)對(duì)原始數(shù)據(jù)集進(jìn)行重復(fù)采樣并替換來(lái)從總體中生成新數(shù)據(jù)0.632×n0.368×n性能指標(biāo)(MetricsforBinaryClassification)Accuracy(準(zhǔn)確率)含義:正確分類(lèi)的樣本的分?jǐn)?shù)。實(shí)際上,僅當(dāng)每個(gè)類(lèi)別中的觀(guān)察數(shù)相等時(shí)才是合適的(這種情況很少發(fā)生),并且所有預(yù)測(cè)和預(yù)測(cè)誤差都同等重要,而通常情況并非如此。并非總是有用的指標(biāo),可能會(huì)產(chǎn)生誤導(dǎo)。準(zhǔn)確率計(jì)算公式
TPTNFPFNTPTN。Precision(查準(zhǔn)率)含義:預(yù)測(cè)為正確,并且實(shí)際為正確的樣本占所有預(yù)測(cè)為正確的比率。當(dāng)目標(biāo)是限制誤報(bào)的數(shù)量時(shí),將查準(zhǔn)率用作性能指標(biāo)。通過(guò)提高閾值來(lái)提高查準(zhǔn)率。閾值:可以理解為樣本被判斷為正類(lèi)的嚴(yán)厲度,當(dāng)閾值較高時(shí),負(fù)類(lèi)被識(shí)別正類(lèi)的機(jī)會(huì)降低,同時(shí)一些正類(lèi)會(huì)被誤認(rèn)為是負(fù)類(lèi);當(dāng)閾值取較小值時(shí),很多正類(lèi)就不會(huì)被誤分為負(fù)類(lèi),同樣,較小的閾值使得負(fù)類(lèi)被誤分為正類(lèi)的概率增加。P
TPTPFP。Recall(查全率,召回率)含義:預(yù)測(cè)為正確,并且實(shí)際為正確的樣本占所有實(shí)際正確的比率。當(dāng)需要識(shí)別所有陽(yáng)性樣本時(shí),將精度用作性能指標(biāo)。通過(guò)降低閾值來(lái)提高召回率。RF-score
TPTPFN。含義:具有精度和召回率的調(diào)和平均數(shù)??梢跃C合查準(zhǔn)率與查全率的評(píng)估指標(biāo),用于綜合反映整體的指標(biāo)。F1F12PR。PR特殊比率.4.1 計(jì)算公式:F
(12)P2PR
(12)TP(12)TP2FNFP.4.2 β=1,F1,β>1β< pr(PPT05-1,P28)以查準(zhǔn)率為縱軸、查全率為橫軸。P-R全“包”住,則可斷言后者的性能優(yōu)于前者,例如,AC,BC。完整介紹:在很多情形下,我們可根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序,排在前面的是學(xué)習(xí)器認(rèn)為"最可能"是正例的樣本?排在最后的則是學(xué)習(xí)器認(rèn)為"最不可能"是正例的樣本.按此順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè),則每次可以計(jì)算出當(dāng)前的查全率、查準(zhǔn)率以查準(zhǔn)率為縱軸、查全率為橫軸作圖,就得到了查準(zhǔn)率-查全率曲線(xiàn),簡(jiǎn)稱(chēng)"P-R曲線(xiàn)"顯示該曲線(xiàn)的圖稱(chēng)為"P-R ROC-AUC(PPT05-1P31-32)ROC(受試者工作特征)AUC(ROC)ROCm+個(gè)正例和m-個(gè)負(fù)例,根據(jù)學(xué)習(xí)器預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序,將分類(lèi)閾值設(shè)為每個(gè)樣例的預(yù)測(cè)值,當(dāng)前標(biāo)記點(diǎn)坐標(biāo)為(x,y),當(dāng)前若為真正例,則對(duì)應(yīng)標(biāo)記點(diǎn)的坐標(biāo)為(x,y+1/(m+));當(dāng)前若為假正例,則對(duì)應(yīng)標(biāo)記點(diǎn)的坐標(biāo)為(x+1/(m-),y),然后用線(xiàn)段連接相鄰點(diǎn).gini盡量讓分出來(lái)的子節(jié)點(diǎn)擁有盡量低的不純度(越純則類(lèi)標(biāo)越明確)。DA上分為兩個(gè)子集D1D2,則gini(D)定義為雜質(zhì)減少。屬性的類(lèi)型數(shù)據(jù)預(yù)處理技(如sklearn.preprocessing.StandardScaler,preprocessing.scale , preprocessing.MinMaxScaler() ,preroessin.ormalzeprcesnNoralize()過(guò)擬合和欠擬合,過(guò)擬合處理技術(shù),參數(shù)和超參數(shù)屬性的類(lèi)型離散型連續(xù)型Binary數(shù)據(jù)預(yù)處理技術(shù)(Preprocessing)sklearn.preprocessing.StandardScaler標(biāo)準(zhǔn)化(去除均值和方差縮放)。使用該類(lèi)的好處在于可以保存訓(xùn)練集中的參數(shù)(均值、方差)直接使用其對(duì)象轉(zhuǎn)換測(cè)試集數(shù)據(jù)。preprocessing.scale()標(biāo)準(zhǔn)化(去除均值和方差縮放)??梢灾苯訉⒔o定數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。preprocessing.MinMaxScaler()將屬性縮放到一個(gè)指定范圍。將屬性縮放到一個(gè)指定的最大和最小值(通常是1-0)之間。min_max_scaler.fit(訓(xùn)練集)進(jìn)行訓(xùn)練min_max_scaler.fit_transform(訓(xùn)練集)進(jìn)行訓(xùn)練并轉(zhuǎn)換t=min_max_scaler.fit(數(shù)據(jù)集)進(jìn)行轉(zhuǎn)換preprocessing.normalize()正則化。將每個(gè)樣本縮放到單位范數(shù)(每個(gè)樣本的范數(shù)為1),Normalization主要思想是對(duì)每個(gè)樣本計(jì)算其p-范數(shù),然后對(duì)該樣本中每個(gè)元素除以該范數(shù),這樣處p-范數(shù)(l1-norm,l2-norm)1。processing.Normalizer()正則化。實(shí)現(xiàn)對(duì)訓(xùn)練集和測(cè)試集的擬合和轉(zhuǎn)換。過(guò)擬合和欠擬合過(guò)擬合(over-fitting)過(guò)度符合訓(xùn)練集導(dǎo)致在測(cè)試集上表現(xiàn)不佳。欠擬合(underfitting)指模型擬合程度不高,數(shù)據(jù)距離擬合曲線(xiàn)較遠(yuǎn),或指模型沒(méi)有很好地捕捉到數(shù)據(jù)特征,不能夠很好地?cái)M合數(shù)據(jù)。過(guò)擬合處理技術(shù)正則化是可以用來(lái)防止過(guò)度擬合的技術(shù)的集合。正則化通常以對(duì)復(fù)雜性的懲罰的形式將信息添加到問(wèn)題中。L1L2參數(shù)和超參數(shù)參數(shù)模型內(nèi)部的配置變量,可以用數(shù)據(jù)估計(jì)它的值。一般不由實(shí)踐者手動(dòng)設(shè)置。例子:人造神經(jīng)網(wǎng)絡(luò)中的權(quán)重。支持向量機(jī)中的支持向量。線(xiàn)性回歸或邏輯回歸中的系數(shù)。超參數(shù)模型外部的配置,其值不能從數(shù)據(jù)估計(jì)得到。由實(shí)踐者直接指定。例子:訓(xùn)練神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速率。Csigmakk。各個(gè)機(jī)器學(xué)習(xí)算法的基本性質(zhì)LinearRegression(線(xiàn)性回歸)模擬因變量和自變量之間的線(xiàn)性關(guān)系預(yù)測(cè)的是連續(xù)值DecisionTree(決策樹(shù))優(yōu)點(diǎn):易于理解和實(shí)現(xiàn)。在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。易于通過(guò)靜態(tài)測(cè)試來(lái)對(duì)模型進(jìn)行評(píng)測(cè),可以測(cè)定模型可信度;如果給定一個(gè)觀(guān)察的模型,那么根據(jù)所產(chǎn)生的決策樹(shù)很容易推出相應(yīng)的邏輯表達(dá)式。缺點(diǎn):對(duì)連續(xù)性的字段比較難預(yù)測(cè)。對(duì)有時(shí)間順序的數(shù)據(jù),需要很多預(yù)處理的工作。當(dāng)類(lèi)別太多時(shí),錯(cuò)誤可能就會(huì)增加的比較快。一般的算法分類(lèi)的時(shí)候,只是根據(jù)一個(gè)字段來(lái)分類(lèi)。SVM(SupportVectorMachine)(PPT08-1)是一種二分類(lèi)模型。定義在特征空間上的間隔最大的線(xiàn)性分類(lèi)器。學(xué)習(xí)策略:間隔最大化。KNN(K-NearestNeighborK)(PPT07-1P2-)對(duì)每個(gè)距離進(jìn)行排序,然后選擇出距離最小的K個(gè)點(diǎn)KK優(yōu)點(diǎn):方法思路簡(jiǎn)單,易于理解,易于實(shí)現(xiàn),無(wú)需估計(jì)參數(shù),無(wú)需訓(xùn)練。它沒(méi)有明確建立模型(懶惰的分類(lèi)器)。缺點(diǎn):當(dāng)樣本不平衡時(shí),如一個(gè)類(lèi)的樣本容量很大,而其他類(lèi)樣本容量很小時(shí),有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本K計(jì)算量較大,因?yàn)閷?duì)每一個(gè)待分類(lèi)的文本都要計(jì)算K點(diǎn)。MLP(multilayerperceptron)(PPT10-2P15-)要解決非線(xiàn)性可分問(wèn)題,需考慮使用多層功能神經(jīng)元,比如對(duì)異或問(wèn)題。學(xué)習(xí)的目標(biāo)是均方誤差。輸入層神經(jīng)元僅是接受輸入,不進(jìn)行函數(shù)處理,隱層與輸出層包含功能神經(jīng)元。SOM(Self-OrganizingMap)(PPT10-2P25-)SOM網(wǎng)絡(luò)是一種競(jìng)爭(zhēng)學(xué)習(xí)型的無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò),將高維空間中相似的樣本點(diǎn)映射到網(wǎng)絡(luò)輸出層中的鄰近神經(jīng)元。SOM的視網(wǎng)膜,輸出層模擬做出響應(yīng)的大腦皮層。K-means(K)(PPT09-2P3-)每個(gè)點(diǎn)都分配給具有最接近質(zhì)心的聚類(lèi)。優(yōu)化目標(biāo):誤差平方和。優(yōu)點(diǎn):高效。易于實(shí)施。缺點(diǎn):K,集群數(shù)局部最小值可能出現(xiàn)空簇?zé)o法處理不規(guī)則形狀DBSACN(基于密度的聚類(lèi)算法)(PPT09-2P26-)密度聚類(lèi)算法。它基于一組“鄰域”(neighborhood)參數(shù)(ε,MinPts)來(lái)刻畫(huà)樣本分布的緊密程度。MinPts。3、簡(jiǎn)答題(8題40分(錄音0825-)學(xué)過(guò)的機(jī)器學(xué)習(xí)算法相關(guān)類(lèi)的作用及其構(gòu)造函數(shù)主要參數(shù)的意義;LinearRegression(PPT03-2P5-)作用:進(jìn)行簡(jiǎn)單線(xiàn)性回歸。LinearRegressionfit_intercept、normalize、copy_X和n_jobsfit_interceptnormalizecopy_Xn_jobsfit、predictscorefitpredictscorePolynomialFeatures作用:進(jìn)行特征的構(gòu)造。2ab,用例子說(shuō)明構(gòu)造函degree、interaction_only和include_bias義degreeinteraction_onlyinclude_biasfit、fit_transformtransform意他們之間的區(qū)別。fitfit_transformtransformlinear_model作用:進(jìn)行線(xiàn)性回歸。linear_model中有哪些Classicallinearregressors;linear_model(Regressorswithvariableselection)。LogisticRegression作用:進(jìn)行邏輯回歸。LogisticRegressionpenaltysolver的意義及他們之間的關(guān)系penaltysolver關(guān)系GridSearchCV作用:超參數(shù)自動(dòng)搜索。estimatorparam_gridestimatorparam_grid與超參數(shù)調(diào)整相關(guān)類(lèi)的使用GridSearchCV(PPT05-2P12)窮舉法,對(duì)指定的所有參數(shù)找最優(yōu)的組合。RandomizedSearchCV(PPT05-2P12)(Lab07-1Part4)采樣法,對(duì)指定的所有參數(shù)采樣n次找最優(yōu)的組合。參數(shù)可以不是離散的而是某種分布。數(shù)據(jù)預(yù)處理的方法,如獨(dú)熱編碼preprocessing.OneHotEncoder(),sklearn.feature_extraction.DictVectorizer,線(xiàn)性回歸特征擴(kuò)展方法preprocessing.PolynomialFeatures,文本處理sklearn.feature_extraction.text.CountVectorizer獨(dú)熱編碼preprocessing.OneHotEncoder()作用結(jié)果將特征值映射列表轉(zhuǎn)換為矢量。sklearn.feature_extraction.DictVectorizer(PPT04-1P11)作用結(jié)果將特征值映射列表轉(zhuǎn)換為矢量。Lab04-FEPart1線(xiàn)性回歸特征擴(kuò)展方法preprocessing.PolynomialFeatures作用結(jié)果構(gòu)造多項(xiàng)式的特征。Lab03-LRPart1文本處理sklearn.feature_extraction.text.CountVectorizer(PPT04-1P18)作用結(jié)果將文本文檔集合轉(zhuǎn)換為令牌計(jì)數(shù)矩陣。Lab04-FE中段about_CountVectorizer()accuracyprecision、recall、f1、P-R曲線(xiàn)和ROC曲線(xiàn),回歸問(wèn)題的R-squared,聚類(lèi)問(wèn)題的關(guān)聯(lián)矩陣、RandindexJaccardIndex二類(lèi)分類(lèi)問(wèn)題混淆矩陣Accuracy(準(zhǔn)確率)準(zhǔn)確率計(jì)算公式
TPTNFPFNTPTN。Precision(查準(zhǔn)率)P
TPTPFP。Recall(查全率,召回率)查全率計(jì)算公式R f1
TPTPFN。.1F1F12PRPRP-R根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序,排在前面的是學(xué)習(xí)器認(rèn)為"最可能"是正例的樣本,排在最后的則是學(xué)習(xí)器認(rèn)為"最不可能"是正例的樣本。按此順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè),則每次可以計(jì)算出當(dāng)前的查全率、查準(zhǔn)率以查準(zhǔn)率為縱軸、查全率為橫軸作圖,就得到了查準(zhǔn)率-查全率曲線(xiàn),簡(jiǎn)稱(chēng)"P-R曲線(xiàn)"顯示該曲線(xiàn)的圖稱(chēng)為"P-RROCm+m-個(gè)負(fù)例,根據(jù)學(xué)習(xí)器預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序,將分類(lèi)閾值設(shè)為每個(gè)樣例的預(yù)測(cè)值,當(dāng)前標(biāo)記點(diǎn)坐標(biāo)為(x,y),當(dāng)前若為真正例,則對(duì)應(yīng)標(biāo)記點(diǎn)的坐標(biāo)為(x,y+1/(m+));當(dāng)前若為假正例,則對(duì)應(yīng)標(biāo)記點(diǎn)的坐標(biāo)為(x+1/(m-),y),然后用線(xiàn)段連接相鄰點(diǎn)?;貧w問(wèn)題R-squared(PPT03-2P15).1 .2 .3 聚類(lèi)問(wèn)題關(guān)聯(lián)矩陣(incidencematrix)(PPT09-1P31)RandindexJaccardIndex(Muli-clssclssfcation(PPT05-2P1)轉(zhuǎn)換為二類(lèi)分類(lèi)問(wèn)題,轉(zhuǎn)換方式有:“一對(duì)一”(Onevs.One,OvO)NN(N1)/2個(gè)三分類(lèi)任務(wù)。在測(cè)試階段,新樣本將同時(shí)提交給所有分類(lèi)器,于N(N-1)/2個(gè)分類(lèi)結(jié)果,最終結(jié)果可通過(guò)投票產(chǎn)生:即把被預(yù)測(cè)得最多的類(lèi)別作為最終分類(lèi)結(jié)果。“一對(duì)其余"(Onevs.RestOvR)每次將一個(gè)類(lèi)的樣例作為正例、所有其他類(lèi)的樣例N個(gè)分類(lèi)器。在測(cè)試時(shí)若僅有一個(gè)分類(lèi)器預(yù)測(cè)為正類(lèi),則對(duì)應(yīng)的類(lèi)別標(biāo)記作為最終分類(lèi)結(jié)果。若有多個(gè)分類(lèi)器預(yù)測(cè)為正類(lèi),則通??紤]各分類(lèi)器的預(yù)測(cè)置信度,選擇置信度最大的類(lèi)別標(biāo)記作為分類(lèi)結(jié)果。"多對(duì)多"(Manyvs.Many,MvM)每次將若干個(gè)類(lèi)作為正類(lèi),若干個(gè)其他類(lèi)作為反類(lèi)。OvOOvRMvM的特例。MvM技術(shù)是“糾錯(cuò)輸出碼”(ErrorCorrectingOutputCodes,ECOC)。ECOC是將編碼的思想引入類(lèi)別拆分,并盡可能在解碼過(guò)程中具有容錯(cuò)性。多標(biāo)簽分類(lèi)(Multi-labelclassification)問(wèn)題的各種處理策略(PPT05-2P32)把每一個(gè)標(biāo)簽都作為一個(gè)二類(lèi)分類(lèi)問(wèn)題。基于集合的方式把每一種類(lèi)別的集合作為一種新的類(lèi)別。將原始的多標(biāo)簽問(wèn)題轉(zhuǎn)換為一組單標(biāo)簽分類(lèi)問(wèn)題的技術(shù)。將訓(xùn)練數(shù)據(jù)中遇到的每組標(biāo)簽轉(zhuǎn)換為單個(gè)標(biāo)簽針對(duì)訓(xùn)練集中的每個(gè)標(biāo)簽訓(xùn)練一個(gè)二進(jìn)制分類(lèi)器學(xué)習(xí)過(guò)的主要集成機(jī)器學(xué)習(xí)算法的基本原理Bagging(PPT08-2P23)基于樣本采樣,在不同的數(shù)據(jù)集上設(shè)置弱分類(lèi)器。Randomforest(PPT08-2P29)不僅基于樣本采樣,還在特征上采樣,生成樹(shù)。Boosting(PPT08-2P37)通過(guò)重新采樣數(shù)據(jù)來(lái)創(chuàng)建分類(lèi)器的集合,然后通過(guò)多數(shù)表決將其合并。法如何預(yù)測(cè),k-means算法的2個(gè)主要步驟,層次聚類(lèi)如何選擇合并的簇決策樹(shù)如何選擇屬性(PPT06-1P24-)ID3C4.5先從候選劃分屬性中找出信息增益高于平均水平的,再?gòu)闹羞x取信息增益率最高的。CART選擇基尼指數(shù)最小的屬性。樸素貝葉斯方法如何預(yù)測(cè)(PPT07-1P25-)通過(guò)先驗(yàn)概率和調(diào)整因子來(lái)獲得后驗(yàn)概率。其中調(diào)整因子是根據(jù)事件已經(jīng)發(fā)生的概率推斷事件可能發(fā)生的概率(通過(guò)硬幣正面出現(xiàn)的次數(shù)來(lái)推斷硬幣均勻的可能性),并與
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 信息安全教育在學(xué)校信息化建設(shè)中的重要性
- 辦公用品行業(yè)的數(shù)字化營(yíng)銷(xiāo)策略及效果評(píng)估
- 冰天雪地中的科技傳奇故事集
- 辦公環(huán)境中如何有效開(kāi)展心理輔導(dǎo)
- 2025電路維修合同范本
- 2025代加工合同書(shū)
- 環(huán)庚醇行業(yè)行業(yè)發(fā)展趨勢(shì)及投資戰(zhàn)略研究分析報(bào)告
- 2025年冷庫(kù)市場(chǎng)調(diào)查報(bào)告
- 2025購(gòu)車(chē)合同樣例范本資料
- 2024-2030年中國(guó)單機(jī)游戲行業(yè)發(fā)展?jié)摿︻A(yù)測(cè)及投資戰(zhàn)略研究報(bào)告
- 企業(yè)綠色供應(yīng)鏈管理咨詢(xún)服務(wù)合同
- 食品安全事故專(zhuān)項(xiàng)應(yīng)急預(yù)案演練記錄6篇匯編(表格式)
- 2025年會(huì)計(jì)基礎(chǔ)知識(shí)考試題庫(kù)附答案
- 2024年統(tǒng)編版新教材語(yǔ)文小學(xué)一年級(jí)上冊(cè)全冊(cè)單元測(cè)試題及答案(共8單元)
- 企業(yè)年會(huì)的活動(dòng)策劃方案
- 2024-2025學(xué)年一年級(jí)上冊(cè)數(shù)學(xué)人教版期末模擬練習(xí)題(含答案)
- 可降解包裝材料采購(gòu)合作合同
- 醫(yī)院老人去世后遺體處理及管理流程
- 2025年中考數(shù)學(xué)考點(diǎn)分類(lèi)專(zhuān)題歸納之二次函數(shù)
- 電大成本會(huì)計(jì)機(jī)考判斷題專(zhuān)項(xiàng)試題及答案
- 零星維修工程施工方案
評(píng)論
0/150
提交評(píng)論