開(kāi)發(fā)者必看:超全機(jī)器學(xué)習(xí)術(shù)語(yǔ)詞匯表!_第1頁(yè)
開(kāi)發(fā)者必看:超全機(jī)器學(xué)習(xí)術(shù)語(yǔ)詞匯表!_第2頁(yè)
開(kāi)發(fā)者必看:超全機(jī)器學(xué)習(xí)術(shù)語(yǔ)詞匯表!_第3頁(yè)
開(kāi)發(fā)者必看:超全機(jī)器學(xué)習(xí)術(shù)語(yǔ)詞匯表!_第4頁(yè)
開(kāi)發(fā)者必看:超全機(jī)器學(xué)習(xí)術(shù)語(yǔ)詞匯表!_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Janet'Janet'發(fā)布于2017-10-24,閱讀468次,熱度4次開(kāi)發(fā)者必看:超全機(jī)器學(xué)習(xí)術(shù)語(yǔ)詞匯表!#精選算法人工智能機(jī)器學(xué)習(xí)A準(zhǔn)確率(accuracy分類(lèi)模型預(yù)測(cè)準(zhǔn)確的比例。在多類(lèi)別分類(lèi)中,準(zhǔn)確率定義如下:在二分類(lèi)中,準(zhǔn)確率定義為:激活函數(shù)(Activationfunction)一種函數(shù)(例如ReLU或Sigmoid),將前一層所有神經(jīng)元激活值的加權(quán)和輸入到一個(gè)非線(xiàn)性函數(shù)中,然后向下一層傳遞該函數(shù)的輸出值(典型的非線(xiàn)性)。AdaGrad一種復(fù)雜的梯度下降算法,重新調(diào)節(jié)每個(gè)參數(shù)的梯度,高效地給每個(gè)參數(shù)一個(gè)單獨(dú)的學(xué)習(xí)率。AUC(曲線(xiàn)下面積)一種考慮到所有可能的分類(lèi)閾值的

2、評(píng)估標(biāo)準(zhǔn)。ROC曲線(xiàn)下面積代表分類(lèi)器隨機(jī)預(yù)測(cè)真正類(lèi)(TurePositive要比假正類(lèi)(FalsePositives概率大的確信度。B反向傳播(Backpropagation)神經(jīng)網(wǎng)絡(luò)中完成梯度下降的重要算法。首先,在前向傳播的過(guò)程中計(jì)算每個(gè)節(jié)點(diǎn)的輸出值。然后,在反向傳播的過(guò)程中計(jì)算與每個(gè)參數(shù)對(duì)應(yīng)的誤差的偏導(dǎo)數(shù)?;€(xiàn)(Baseline)被用為對(duì)比模型表現(xiàn)參考點(diǎn)的簡(jiǎn)單模型?;€(xiàn)幫助模型開(kāi)發(fā)者量化模型在特定問(wèn)題上的預(yù)期表現(xiàn)。批量模型訓(xùn)練中一個(gè)迭代(指一次梯度更新)使用的樣本集。批量大/4(batchsize)一個(gè)批量中樣本的數(shù)量。例如,SGD的批量大小為1,而mini-batch的批量大小通常在1

3、0-1000之間。批量大小通常在訓(xùn)練與推理的過(guò)程中確定,然而TensorFlow不允許動(dòng)態(tài)批量大小。偏置(bias)與原點(diǎn)的截距或偏移量。偏置(也稱(chēng)偏置項(xiàng))被稱(chēng)為機(jī)器學(xué)習(xí)模型中的b或者w0o例如,偏置項(xiàng)是以下公式中的b:y'=b+w1x1+w2x2+-wnxn。注意不要和預(yù)測(cè)偏差混淆。二元分類(lèi)器(binaryclassification)一類(lèi)分類(lèi)任務(wù),輸出兩個(gè)互斥(不相交)類(lèi)別中的一個(gè)。例如,一個(gè)評(píng)估郵件信息并輸出垃圾郵件或非垃圾郵件的機(jī)器學(xué)習(xí)模型就是一個(gè)二元分類(lèi)器。binning/bucketing根據(jù)值的范圍將一個(gè)連續(xù)特征轉(zhuǎn)換成多個(gè)稱(chēng)為buckets或者bins二元特征,稱(chēng)為buc

4、kets或者bins。例如,將溫度表示為單一的浮點(diǎn)特征,可以將溫度范圍切割為幾個(gè)離散的bins。假如給定的溫度的敏感度為十分之一度,那么分布在0.0度和15.0度之間的溫度可以放入一個(gè)bin中,15.1度到30.0度放入第二個(gè)bin,30.1度到45.0度放入第三個(gè)bin。標(biāo)定層(calibrationlayer)一種調(diào)整后期預(yù)測(cè)的結(jié)構(gòu),通常用于解釋預(yù)測(cè)偏差。調(diào)整后的預(yù)期和概率必須匹配一個(gè)觀察標(biāo)簽集的分布。候選采樣(candidatesamplincj)一種優(yōu)化訓(xùn)練時(shí)間的,使用Softmax等算法計(jì)算所有正標(biāo)簽的概率,同時(shí)只計(jì)算一些隨機(jī)取樣的負(fù)標(biāo)簽的概率。例如,有一個(gè)樣本標(biāo)記為小獵兔狗和狗,候

5、選取樣將計(jì)算預(yù)測(cè)概率,和與小獵兔狗和狗類(lèi)別輸出(以及剩余的類(lèi)別的隨機(jī)子集,比如貓、棒棒糖、柵欄)相關(guān)的損失項(xiàng)。這個(gè)想法的思路是,負(fù)類(lèi)別可以通過(guò)頻率更低的負(fù)強(qiáng)化(negativereinforcement)進(jìn)行學(xué)習(xí),而正類(lèi)別經(jīng)常能得到適當(dāng)?shù)恼龔?qiáng)化,實(shí)際觀察確實(shí)如此。候選取樣的動(dòng)力是計(jì)算有效性從所有負(fù)類(lèi)別的非計(jì)算預(yù)測(cè)的得益。檢查點(diǎn)(checkpoint)在特定的時(shí)刻標(biāo)記模型的變量的狀態(tài)的數(shù)據(jù)。檢查點(diǎn)允許輸出模型的權(quán)重,也允許通過(guò)多個(gè)階段訓(xùn)練模型。檢查點(diǎn)還允許跳過(guò)錯(cuò)誤繼續(xù)進(jìn)行(例如,搶占作業(yè))。注意其自身的圖式并不包含于檢查點(diǎn)內(nèi)。類(lèi)別(clasS)所有同類(lèi)屬性的目標(biāo)值作為一個(gè)標(biāo)簽。例如,在一個(gè)檢測(cè)垃

6、圾郵件的二元分類(lèi)模型中,這兩個(gè)類(lèi)別分別是垃圾郵件和非垃圾郵件。而一個(gè)多類(lèi)別分類(lèi)模型將區(qū)分狗的種類(lèi),其中的類(lèi)別可以是貴賓狗、小獵兔狗、哈巴狗等等。類(lèi)別不平衡數(shù)據(jù)集(class-imbalanceddataset這是一個(gè)二元分類(lèi)問(wèn)題,其中兩個(gè)類(lèi)別的標(biāo)簽的分布頻率有很大的差異。比如,一個(gè)疾病數(shù)據(jù)集中若0.01%的樣本有正標(biāo)簽,而99.99%的樣本有負(fù)標(biāo)簽,那么這就是一個(gè)類(lèi)別不平衡數(shù)據(jù)集。但對(duì)于一個(gè)足球比賽預(yù)測(cè)器數(shù)據(jù)集,若其中51%的樣本標(biāo)記一隊(duì)勝利,而49%的樣本標(biāo)記其它隊(duì)伍勝利,那么這就不是個(gè)類(lèi)別不平衡數(shù)據(jù)集。分類(lèi)模型(classification)機(jī)器學(xué)習(xí)模型的一種,將數(shù)據(jù)分離為兩個(gè)或多個(gè)離散類(lèi)

7、別。例如,一個(gè)自然語(yǔ)言處理分類(lèi)模型可以將一句話(huà)歸類(lèi)為法語(yǔ)、西班牙語(yǔ)或意大利語(yǔ)。分類(lèi)模型與回歸模型(regressionmodel)成對(duì)比。分類(lèi)閾值(classificationthreshold)應(yīng)用于模型的預(yù)測(cè)分?jǐn)?shù)以分離正類(lèi)別和負(fù)類(lèi)別的一種標(biāo)量值標(biāo)準(zhǔn)。當(dāng)需要將logistic回歸的結(jié)果映射到二元分類(lèi)模型中時(shí)就需要使用分類(lèi)閾值。例如,考慮一個(gè)確定給定郵件為垃圾郵件的概率的logistic回歸模型,如果分類(lèi)閾值是0.9,那么logistic回歸值在0.9以上的被歸為垃圾郵件,而在0.9以下的被歸為非垃圾郵件?;煜仃嚕╟onfusionmatrix)總結(jié)分類(lèi)模型的預(yù)測(cè)結(jié)果的表現(xiàn)水平(即,標(biāo)簽和模

8、型分類(lèi)的匹配程度)的NxN表格。混淆矩陣的一個(gè)軸列出模型預(yù)測(cè)的標(biāo)簽,另一個(gè)軸列出實(shí)際的標(biāo)簽。N表示類(lèi)別的數(shù)量。在一個(gè)二元分類(lèi)模型中,N=20例如,以下為一個(gè)二元分類(lèi)問(wèn)題的簡(jiǎn)單的混淆矩陣:上述混淆矩陣展示了在19個(gè)確實(shí)為月中瘤的樣本中,有18個(gè)被模型正確的歸類(lèi)(18個(gè)真正),有1個(gè)被錯(cuò)誤的歸類(lèi)為非月中瘤(1個(gè)假負(fù)類(lèi))。類(lèi)似的,在458個(gè)確實(shí)為非月中瘤的樣本中,有452個(gè)被模型正確的歸類(lèi)(452個(gè)真負(fù)類(lèi)),有6個(gè)被錯(cuò)誤的歸類(lèi)(6個(gè)假正類(lèi))。多類(lèi)別分類(lèi)的混淆矩陣可以幫助發(fā)現(xiàn)錯(cuò)誤出現(xiàn)的模式。例如,一個(gè)混淆矩陣揭示了一個(gè)識(shí)別手寫(xiě)數(shù)字體的模型傾向于將4識(shí)別為9,或者將7識(shí)別為1?;煜仃嚢俗銐蚨嗟男畔?/p>

9、可以計(jì)算很多的模型表現(xiàn)度量,比如精度(precision)和召回(recall)率。連續(xù)特征(continuousfeature)擁有無(wú)限個(gè)取值點(diǎn)的浮點(diǎn)特征。和離散特征(discretefeature)相反。收斂(convergence)訓(xùn)練過(guò)程達(dá)到的某種狀態(tài),其中訓(xùn)練損失和驗(yàn)證損失在經(jīng)過(guò)了確定的迭代次數(shù)后,在每一次迭代中,改變很小或完全不變。換句話(huà)說(shuō)就是,當(dāng)對(duì)當(dāng)前數(shù)據(jù)繼續(xù)訓(xùn)練而無(wú)法再提升模型的表現(xiàn)水平的時(shí)候,就稱(chēng)模型已經(jīng)收斂。在深度學(xué)習(xí)中,損失值下降之前,有時(shí)候經(jīng)過(guò)多次迭代仍保持常量或者接近常量,會(huì)造成模型已經(jīng)收斂的錯(cuò)覺(jué)。凸函數(shù)(concexfunction)一種形狀大致呈字母U形或碗形的函

10、數(shù)。然而,在退化情形中,凸函數(shù)的形狀就像一條線(xiàn)。例如,以下幾個(gè)函數(shù)都是凸函數(shù):L2損失函數(shù)Log損失函數(shù)L1正則化函數(shù)L2正則化函數(shù)凸函數(shù)是很常用的損失函數(shù)。因?yàn)楫?dāng)一個(gè)函數(shù)有最小值的時(shí)候(通常就是這樣),梯度下降的各種變化都能保證找到接近函數(shù)最小值的點(diǎn)。類(lèi)似的,隨機(jī)梯度下降的各種變化有很大的概率(雖然無(wú)法保證)找到接近函數(shù)最小值的點(diǎn)兩個(gè)凸函數(shù)相加(比如,L2損失函數(shù)+L1正則化函數(shù))后仍然是凸函數(shù)。深度模型通常是非凸的。出乎意料的是,以凸優(yōu)化的形式設(shè)計(jì)的算法通常都能在深度網(wǎng)絡(luò)上工作的很好,雖然很少能找到最小值。成本(cost)loss的同義詞。交叉嫡(cross-entropy)多類(lèi)別分類(lèi)問(wèn)題

11、中對(duì)Log損失函數(shù)的推廣。交叉嫡量化兩個(gè)概率分布之間的區(qū)別。參見(jiàn)困惑度(perplexity)。D數(shù)據(jù)集(dataset)樣本的集合。決策邊界(decisionboundary)在一個(gè)二元分類(lèi)或多類(lèi)別分類(lèi)問(wèn)題中模型學(xué)習(xí)的類(lèi)別之間的分離器。例如,下圖就展示了一個(gè)二元分類(lèi)問(wèn)題,決策邊界即橙點(diǎn)類(lèi)和藍(lán)點(diǎn)類(lèi)的邊界。深度模型(deepmodel)一種包含多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)。深度模型依賴(lài)于其可訓(xùn)練的非線(xiàn)性性質(zhì)。和寬度模型對(duì)照(widemodel)。密集特征(densefeature)大多數(shù)取值為非零的一種特征,通常用取浮點(diǎn)值的張量(tensor)表示。和稀疏特征(sparsefeature)相反。派生特征

12、(derivedfeature)合成特征(syntheticfeature)的同義詞。離散特征(discretefeature)只有有限個(gè)可能取值的一種特征。例如,一個(gè)取值只包括動(dòng)物、蔬菜或礦物的特征就是離散(或類(lèi)別)特征。和連續(xù)特征(continuousfeature)對(duì)照。dropout正貝堆(dropoutregularization)訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)一種有用的正則化方法。dropout正則化的過(guò)程是在單次梯度計(jì)算中刪去一層網(wǎng)絡(luò)中隨機(jī)選取的固定數(shù)量的單元。刪去的單元越多,正則化越強(qiáng)。動(dòng)態(tài)模型(dynamicmodel)以連續(xù)更新的方式在線(xiàn)訓(xùn)練的模型。即數(shù)據(jù)連續(xù)不斷的輸入模型。E早期停止法(

13、earlystopping)一種正則化方法,在訓(xùn)練損失完成下降之前停止模型訓(xùn)練過(guò)程。當(dāng)驗(yàn)證數(shù)據(jù)集(validationdataset)的損失開(kāi)始上升的時(shí)候,即泛化表現(xiàn)變差的時(shí)候,就該使用早期停止法了。嵌入(embeddings)一類(lèi)表示為連續(xù)值特征的明確的特征。嵌入通常指將高維向量轉(zhuǎn)換到低維空間中。例如,將一個(gè)英語(yǔ)句子中的單詞以以下任何一種方式表示:擁有百萬(wàn)數(shù)量級(jí)(高維)的元素的稀疏向量,其中所有的元素都是整數(shù)。向量的每一個(gè)單元表示一個(gè)單獨(dú)的英語(yǔ)單詞,單元中的數(shù)字表示該單詞在一個(gè)句子中出現(xiàn)的次數(shù)。由于一個(gè)句子中的單詞通常不會(huì)超過(guò)50個(gè),向量中幾乎所有的單元都是0。少量的非零的單元將取一個(gè)小的整

14、數(shù)值(通常為1)表示句子中一個(gè)單詞的出現(xiàn)次數(shù)。擁有數(shù)百個(gè)(低維)元素的密集向量,其中每一個(gè)元素取0到1之間的浮點(diǎn)數(shù)。在TensorFlow中,嵌入是通過(guò)反向傳播損失訓(xùn)練的,正如神經(jīng)網(wǎng)絡(luò)的其它參量一樣。經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empiricalriskminimization,ERM)選擇能最小化訓(xùn)練數(shù)據(jù)的損失的模型函數(shù)的過(guò)程。和結(jié)構(gòu)風(fēng)險(xiǎn)最小化(structualriskminimization)對(duì)照。集成(ensemble)多個(gè)模型預(yù)測(cè)的綜合考慮。可以通過(guò)以下一種或幾種方法創(chuàng)建一個(gè)集成方法:設(shè)置不同的初始化;設(shè)置不同的超參量;設(shè)置不同的總體結(jié)構(gòu)深度和廣度模型是一種集成。評(píng)估器(Estimator,)t

15、f.Estimator類(lèi)的一個(gè)例子,封裝logic以建立一個(gè)TensorFlow圖并運(yùn)行一個(gè)TensorFlowsession你可以通過(guò)以下方式創(chuàng)建自己的評(píng)估器:/extend/estimators樣本(example)一個(gè)數(shù)據(jù)集的一行內(nèi)容。一個(gè)樣本包含了一個(gè)或多個(gè)特征,也可能是一個(gè)標(biāo)簽。參見(jiàn)標(biāo)注樣本(labeledexample)和無(wú)標(biāo)注樣本(unlabeledexample)。F假負(fù)類(lèi)(falsenegative,FN)被模型錯(cuò)誤的預(yù)測(cè)為負(fù)類(lèi)的樣本。例如,模型推斷一封郵件為非垃圾郵件(負(fù)類(lèi)),但實(shí)際上這封郵件是垃圾郵件。假正類(lèi)(falsep

16、ositive,FP5)被模型錯(cuò)誤的預(yù)測(cè)為正類(lèi)的樣本。例如,模型推斷一封郵件為垃圾郵件(正類(lèi)),但實(shí)際上這封郵件是非垃圾郵件。假正類(lèi)率(falsepositiverate,FPrate)ROC曲線(xiàn)(ROCcurve中的x軸。FP率的定義是:假正率h貿(mào)正類(lèi)數(shù)/(假正類(lèi)數(shù)+真負(fù)類(lèi)數(shù))特征(feature)輸入變量,用于做出預(yù)測(cè)特征歹U(featurecolumns/FeatureColumn)具有相關(guān)性的特征的集合,比如用戶(hù)可能居住的所有可能的國(guó)家的集合。一個(gè)樣本的一個(gè)特征列中可能會(huì)有一個(gè)或者多個(gè)特征。TensorFlow中的特征列還可以壓縮元數(shù)據(jù)比如下列情況:特征的數(shù)據(jù)類(lèi)型;一個(gè)特征是固定長(zhǎng)度的

17、或應(yīng)該轉(zhuǎn)換為嵌入。一個(gè)特征列可以?xún)H包含一個(gè)特征。特征列是谷歌專(zhuān)用的術(shù)語(yǔ)。在VW系統(tǒng)(Yahoo/Microsoft)中特征列的意義是命名空間(namespace,或者場(chǎng)(巾eld)。特征交叉(featurecross)將特征進(jìn)行交叉(乘積或者笛卡爾乘積)運(yùn)算后得到的合成特征。特征交叉有助于表示非線(xiàn)性關(guān)系。特征工程(featureengineering)在訓(xùn)練模型的時(shí)候,決定哪些特征是有用的,然后將記錄文件和其它來(lái)源的原始數(shù)據(jù)轉(zhuǎn)換成上述特征的過(guò)程。在TensorFlow中特征工程通常意味著將原始記錄文件輸入tf.Example協(xié)議緩存中。參見(jiàn)tf.Transform。特征工程有時(shí)候也稱(chēng)為特征提取

18、。特征集(featureset)機(jī)器學(xué)習(xí)模型訓(xùn)練的時(shí)候使用的特征群。比如,郵政編碼,面積要求和物業(yè)狀況可以組成一個(gè)簡(jiǎn)單的特征集,使模型能預(yù)測(cè)房?jī)r(jià)。特征定義(featurespec)描述所需的信息從tf.Example協(xié)議緩存中提取特征數(shù)據(jù)。因?yàn)閠f.Example協(xié)議緩存只是數(shù)據(jù)的容器,必須明確以下信息:需要提取的數(shù)據(jù)(即特征的關(guān)鍵信息)數(shù)據(jù)類(lèi)型(比如,浮點(diǎn)數(shù)還是整數(shù))數(shù)據(jù)長(zhǎng)度(固定的或者變化的)EstimatorAPI提供了從一群特征列中生成一個(gè)特征定義的工具。完全softmax(fullsoftmax)參見(jiàn)softmax。和候選采樣對(duì)照。G泛化(generalization)指模型利用新的

19、沒(méi)見(jiàn)過(guò)的數(shù)據(jù)而不是用于訓(xùn)練的數(shù)據(jù)作出正確的預(yù)測(cè)的能力。廣義線(xiàn)性模型(generalizedlinearmodel)最小二乘回歸模型的推廣/泛化,基于高斯噪聲,相對(duì)于其它類(lèi)型的模型(基于其它類(lèi)型的噪聲,比如泊松噪聲,或類(lèi)別噪聲)。廣義線(xiàn)性模型的例子包括:logistic回歸多分類(lèi)回歸最小二乘回歸廣義線(xiàn)性模型的參數(shù)可以通過(guò)凸優(yōu)化得到,它具有以下性質(zhì):最理想的最小二乘回歸模型的平均預(yù)測(cè)結(jié)果等于訓(xùn)練數(shù)據(jù)的平均標(biāo)簽。最理想的logistic回歸模型的平均概率的預(yù)測(cè)結(jié)果等于訓(xùn)練數(shù)據(jù)的平均標(biāo)簽。廣義線(xiàn)性模型的能力局限于其特征的性質(zhì)。和深度模型不同,一個(gè)廣義線(xiàn)性模型無(wú)法學(xué)習(xí)新的特征。梯度(gradient)所

20、有變量的偏導(dǎo)數(shù)的向量。在機(jī)器學(xué)習(xí)中,梯度是模型函數(shù)的偏導(dǎo)數(shù)向量。梯度指向最陡峭的上升路線(xiàn)。梯度截?cái)?gradientclipping)在應(yīng)用梯度之前先修飾數(shù)值,梯度截?cái)嘤兄诖_保數(shù)值穩(wěn)定性,防止梯度爆炸出現(xiàn)。梯度下降(gradientdescent)通過(guò)計(jì)算模型的相關(guān)參量和損失函數(shù)的梯度最小化損失函數(shù),值取決于訓(xùn)練數(shù)據(jù)。梯度下降迭代地調(diào)整參量,逐漸靠近權(quán)重和偏置的最佳組合,從而最小化損失函數(shù)。圖(graph)在TensorFlow中的一種計(jì)算過(guò)程展示。圖中的節(jié)點(diǎn)表示操作。節(jié)點(diǎn)的連線(xiàn)是有指向性的,表示傳遞一個(gè)操作(一個(gè)張量)的結(jié)果(作為一個(gè)操作數(shù))給另一個(gè)操作。使用TensorBoard能可視化

21、計(jì)算圖。H啟發(fā)式(heuristic)一個(gè)問(wèn)題的實(shí)際的和非最優(yōu)的解,但能從學(xué)習(xí)經(jīng)驗(yàn)中獲得足夠多的進(jìn)步。隱藏層(hiddenlayer)神經(jīng)網(wǎng)絡(luò)中位于輸入層(即特征)和輸出層(即預(yù)測(cè))之間的合成層。一個(gè)神經(jīng)網(wǎng)絡(luò)包含一個(gè)或多個(gè)隱藏層。折頁(yè)損失函數(shù)(Hingelos§損失函數(shù)的一個(gè)類(lèi)型,用于分類(lèi)模型以尋找距離每個(gè)樣本的距離最大的決策邊界,即最大化樣本和邊界之間的邊緣。KSVMs使用hinge損失函數(shù)(或相關(guān)的函數(shù),比如平方hinge函數(shù))。在二元分類(lèi)中,hinge損失函數(shù)按以下方式定義:10ss=max(0,1(y'?y)其中y'是分類(lèi)器模型的列輸出:y'=b+w1

22、x1+w2x2-+-wnxny是真實(shí)而標(biāo)簽,-1或+1。因此,hinge損失將是下圖所示的樣子:測(cè)試數(shù)據(jù)(holdoutdata)有意不用于訓(xùn)練的樣本。驗(yàn)證數(shù)據(jù)集(validationdataset)和測(cè)試數(shù)據(jù)集(testdataset)是測(cè)試數(shù)據(jù)(holdoutdata)的兩個(gè)例子。測(cè)試數(shù)據(jù)幫助評(píng)估模型泛化到除了訓(xùn)練數(shù)據(jù)之外的數(shù)據(jù)的能力。測(cè)試集的損失比訓(xùn)練集的損失提供了對(duì)未知數(shù)據(jù)集的損失更好的估計(jì)。超參數(shù)(hyperparameter)連續(xù)訓(xùn)練模型的過(guò)程中可以擰動(dòng)的旋鈕。例如,相對(duì)于模型自動(dòng)更新的參數(shù),學(xué)習(xí)率(learningrate)是一個(gè)超參數(shù)。和參量對(duì)照。I獨(dú)立同分布(independ

23、entlyandidenticallydistributed,i.i.d)從不會(huì)改變的分布中獲取的數(shù)據(jù),且獲取的每個(gè)值不依賴(lài)于之前獲取的值。i.i.d.是機(jī)器學(xué)習(xí)的理想情況一一一種有用但在現(xiàn)實(shí)世界中幾乎找不到的數(shù)學(xué)構(gòu)建。例如,網(wǎng)頁(yè)訪(fǎng)客的分布可能是短暫時(shí)間窗口上的i.i.d;即分布不會(huì)在該時(shí)間窗口發(fā)生改變,每個(gè)人的訪(fǎng)問(wèn)都與其他人的訪(fǎng)問(wèn)獨(dú)立。但是,如果你擴(kuò)展了時(shí)間窗口,則會(huì)出現(xiàn)網(wǎng)頁(yè)訪(fǎng)客的季節(jié)性差異。推斷(inference)在機(jī)器學(xué)習(xí)中,通常指將訓(xùn)練模型應(yīng)用到無(wú)標(biāo)注樣本來(lái)進(jìn)行預(yù)測(cè)的過(guò)程。在統(tǒng)計(jì)學(xué)中,推斷指在觀察到的數(shù)據(jù)的基礎(chǔ)上擬合分布參數(shù)的過(guò)程。輸入層(inputlayer)神經(jīng)網(wǎng)絡(luò)的第一層(接收

24、輸入數(shù)據(jù))評(píng)分者問(wèn)一致性(inter-rateragreement)用來(lái)衡量一項(xiàng)任務(wù)中人類(lèi)評(píng)分者意見(jiàn)一致的指標(biāo)。如果意見(jiàn)不一致,則任務(wù)說(shuō)明可能需要改進(jìn)。有時(shí)也叫標(biāo)注者問(wèn)信度(inter-annotatoragreement)或評(píng)分者問(wèn)信度(inter-raterreliability)。Kernel支持向量機(jī)(KernelSupportVectorMachines/KSVM一種分類(lèi)算法,旨在通過(guò)將輸入數(shù)據(jù)向量映射到更高維度的空間使正類(lèi)和負(fù)類(lèi)之間的邊際最大化。例如,考慮一個(gè)輸入數(shù)據(jù)集包含一百個(gè)特征的分類(lèi)問(wèn)題。為了使正類(lèi)和負(fù)類(lèi)之間的間隔最大化,KSVM從內(nèi)部將特征映射到百萬(wàn)維度的空間。KSVM使用

25、的損失函數(shù)叫作hinge損失。L1損失函數(shù)(L1losS>損失函數(shù)基于模型對(duì)標(biāo)簽的預(yù)測(cè)值和真實(shí)值的差的絕對(duì)值而定義。L1損失函數(shù)比起L2損失函數(shù)對(duì)異常值的敏感度更小。L1正貝化(L1regularization)一種正則化,按照權(quán)重絕對(duì)值總和的比例進(jìn)行懲罰。在依賴(lài)稀疏特征的模型中,L1正則化幫助促使(幾乎)不相關(guān)的特征的權(quán)重趨近于0,從而從模型中移除這些特征。L2損失(L210ss參見(jiàn)平方損失。L2正貝化(L2regularization)一種正則化,按照權(quán)重平方的總和的比例進(jìn)行懲罰。L2正則化幫助促使異常值權(quán)重更接近0而不趨近于00(可與L1正則化對(duì)照閱讀。)L2正則化通常改善線(xiàn)性模型

26、的泛化效果。標(biāo)簽(label)在監(jiān)督式學(xué)習(xí)中,樣本的答案或結(jié)果。標(biāo)注數(shù)據(jù)集中的每個(gè)樣本包含一或多個(gè)特征和一個(gè)標(biāo)簽。比如,在房屋數(shù)據(jù)集中,特征可能包括臥室數(shù)量、衛(wèi)生問(wèn)數(shù)量、房齡,而標(biāo)簽可能就是房子的價(jià)格。在垃圾郵件檢測(cè)數(shù)據(jù)集中,特征可能包括主題、發(fā)出者何郵件本身,而標(biāo)簽可能是垃圾郵件或非垃圾郵件標(biāo)注樣本(labeledexample)包含特征和標(biāo)簽的樣本。在監(jiān)督式訓(xùn)練中,模型從標(biāo)注樣本中進(jìn)行學(xué)習(xí)lambda正則化率的同義詞。(該術(shù)語(yǔ)有多種含義。這里,我們主要關(guān)注正則化中的定義。)層(layer)神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元序列,可以處理輸入特征序列或神經(jīng)元的輸出。它也是TensorFlow的一種抽象化概念

27、。層是將張量和配置選項(xiàng)作為輸入、輸出其他張量的Python函數(shù)。一旦必要的張量出現(xiàn),用戶(hù)就可以通過(guò)模型函數(shù)將結(jié)果轉(zhuǎn)換成估計(jì)'命°學(xué)習(xí)率(learningrate)通過(guò)梯度下降訓(xùn)練模型時(shí)使用的一個(gè)標(biāo)量。每次迭代中,梯度下降算法使學(xué)習(xí)率乘以梯度,乘積叫作gradientstep。學(xué)習(xí)率是一個(gè)重要的超參數(shù)。最小二乘回歸(leastsquaresregression通過(guò)L2損失最小化進(jìn)行訓(xùn)練的線(xiàn)性回歸模型。線(xiàn)性回歸(linearregression)對(duì)輸入特征的線(xiàn)性連接輸出連續(xù)值的一種回歸模型。logistic回歸(logisticregression)將sigmoid函數(shù)應(yīng)用于線(xiàn)性

28、預(yù)測(cè),在分類(lèi)問(wèn)題中為每個(gè)可能的離散標(biāo)簽值生成概率的模型。盡管logistic回歸常用于二元分類(lèi)問(wèn)題,但它也用于多類(lèi)別分類(lèi)問(wèn)題(這種情況下,logistic回歸叫作多類(lèi)別logistic回歸或多項(xiàng)式回歸對(duì)數(shù)損失函數(shù)(LogLoss二元logistic回歸模型中使用的損失函數(shù)損失度量模型預(yù)測(cè)與標(biāo)簽距離的指標(biāo),它是度量一個(gè)模型有多糟糕的指標(biāo)。為了確定損失值,模型必須定義損失函數(shù)。例如,線(xiàn)性回歸模型通常使用均方差作為損失函數(shù),而logistic回歸模型使用對(duì)數(shù)損失函數(shù)。機(jī)器學(xué)習(xí)(machinelearning)利用輸入數(shù)據(jù)構(gòu)建(訓(xùn)練)預(yù)測(cè)模型的項(xiàng)目或系統(tǒng)。該系統(tǒng)使用學(xué)習(xí)的模型對(duì)與訓(xùn)練數(shù)據(jù)相同分布的新數(shù)

29、據(jù)進(jìn)行有用的預(yù)測(cè)。機(jī)器學(xué)習(xí)還指與這些項(xiàng)目或系統(tǒng)相關(guān)的研究領(lǐng)域。均方誤差(MeanSquaredError/MSE每個(gè)樣本的平均平方損失。MSE可以通過(guò)平方損失除以樣本數(shù)量來(lái)計(jì)算。TensorFlowPlayground展示訓(xùn)練損失和測(cè)試損失的值是MSE小批量(mini-batch)在訓(xùn)練或推斷的一個(gè)迭代中運(yùn)行的整批樣本的一個(gè)小的隨機(jī)選擇的子集。小批量的大小通常在10到1000之間。在小批量數(shù)據(jù)上計(jì)算損失比在全部訓(xùn)練數(shù)據(jù)上計(jì)算損失要高效的多。小批量隨機(jī)梯度下降(mini-batchstochasticgradientdescent)使用小批量的梯度下降算法。也就是,小批量隨機(jī)梯度下降基于訓(xùn)練數(shù)據(jù)

30、的子集對(duì)梯度進(jìn)行評(píng)估。VanillaSGD使用size為1的小批量。模型(model)機(jī)器學(xué)習(xí)系統(tǒng)從訓(xùn)練數(shù)據(jù)中所學(xué)內(nèi)容的表示。該術(shù)語(yǔ)有多個(gè)含義,包括以下兩個(gè)相關(guān)含義:TensorFlow圖,顯示如何計(jì)算預(yù)測(cè)的結(jié)構(gòu)。TensorFlow圖的特定權(quán)重和偏差,由訓(xùn)練決定模型訓(xùn)練(modeltraining)確定最佳模型的過(guò)程。動(dòng)量(Momentum)一種復(fù)雜的梯度下降算法,其中的學(xué)習(xí)步不只依賴(lài)于當(dāng)前步的導(dǎo)數(shù),還依賴(lài)于先于它的步。動(dòng)量包括隨著時(shí)間計(jì)算梯度的指數(shù)加權(quán)移動(dòng)平均數(shù),類(lèi)似于物理學(xué)中的動(dòng)量。動(dòng)量有時(shí)可以阻止學(xué)習(xí)陷于局部最小值。多類(lèi)別(multi-class)在多于兩類(lèi)的類(lèi)別中進(jìn)行分類(lèi)的分類(lèi)問(wèn)題。

31、例如,有約128種楓樹(shù),那么分類(lèi)楓樹(shù)品種的模型就是多類(lèi)別的。反之,把電子郵件分成兩個(gè)類(lèi)別(垃圾郵件和非垃圾郵件)的模型是二元分類(lèi)器模型。NNaNtrap訓(xùn)練過(guò)程中,如果模型中的一個(gè)數(shù)字變成了NaN,則模型中的很多或所有其他數(shù)字最終都變成NaN。NaN是NotaNumberj的縮寫(xiě)。負(fù)類(lèi)(negativeclas§在二元分類(lèi)中,一個(gè)類(lèi)別是正類(lèi),另外一個(gè)是負(fù)類(lèi)。正類(lèi)就是我們要找的目標(biāo),負(fù)類(lèi)是另外一種可能性。例如,醫(yī)療測(cè)試中的負(fù)類(lèi)可能是非腫瘤,電子郵件分類(lèi)器中的負(fù)類(lèi)可能是非垃圾郵件。神經(jīng)網(wǎng)絡(luò)(neuralnetwork)該模型從大腦中獲取靈感,由多個(gè)層組成(其中至少有一個(gè)是隱藏層),每個(gè)層

32、包含簡(jiǎn)單的連接單元或神經(jīng)元,其后是非線(xiàn)性。神經(jīng)元(neuron)神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn),通常輸入多個(gè)值,生成一個(gè)輸出值。神經(jīng)元通過(guò)將激活函數(shù)(非線(xiàn)性轉(zhuǎn)換)應(yīng)用到輸入值的加權(quán)和來(lái)計(jì)算輸出值。歸一化(normalization)將值的實(shí)際區(qū)間轉(zhuǎn)化為標(biāo)準(zhǔn)區(qū)間的過(guò)程,標(biāo)準(zhǔn)區(qū)間通常是-1到+1或0到1。例如,假設(shè)某個(gè)特征的自然區(qū)間是800到6000。通過(guò)減法和分割,你可以把那些值標(biāo)準(zhǔn)化到區(qū)間-1至"1。參見(jiàn)縮放。numpyPython中提供高效數(shù)組運(yùn)算的開(kāi)源數(shù)學(xué)庫(kù)。pandas基于numpy構(gòu)建。O目標(biāo)(objective)算法嘗試優(yōu)化的目標(biāo)函數(shù)。離線(xiàn)推斷(offlineinference)生成一組

33、預(yù)測(cè)并存儲(chǔ),然后按需檢索那些預(yù)測(cè)。可與在線(xiàn)推斷對(duì)照閱讀。one-hot編碼(one-hotencoding)一個(gè)稀疏向量,其中:一個(gè)元素設(shè)置為1。所有其他的元素設(shè)置為0獨(dú)熱編碼常用于表示有有限可能值集合的字符串或標(biāo)識(shí)符。例如,假設(shè)一個(gè)記錄了15000個(gè)不同品種的植物數(shù)據(jù)集,每一個(gè)用獨(dú)特的字符串標(biāo)識(shí)符來(lái)表示。作為特征工程的一部分,你可能將那些字符串標(biāo)識(shí)符進(jìn)行獨(dú)熱編碼,每個(gè)向量的大小為150000一對(duì)多(one-vs.-all)給出一個(gè)有N個(gè)可能解決方案的分類(lèi)問(wèn)題,一對(duì)多解決方案包括N個(gè)獨(dú)立的二元分類(lèi)器一一每個(gè)可能的結(jié)果都有一個(gè)二元分類(lèi)器。例如,一個(gè)模型將樣本分為動(dòng)物、蔬菜或礦物,則一對(duì)多的解決方

34、案將提供以下三種獨(dú)立的二元分類(lèi)器:動(dòng)物和非動(dòng)物蔬菜和非蔬菜礦物和非礦物在線(xiàn)推斷(onlineinference)按需生成預(yù)測(cè)??膳c離線(xiàn)推斷對(duì)照閱讀。運(yùn)算(Operation/op)TensorFlow圖中的一個(gè)節(jié)點(diǎn)。在TensorFlow中,任何創(chuàng)建、控制或損壞張量的步驟都是運(yùn)算。例如,矩陣乘法是一個(gè)把兩個(gè)張量作為輸入、生成一個(gè)張量作為輸出的運(yùn)算。優(yōu)化器(optimizer)梯度下降算法的特定實(shí)現(xiàn)。TensorFlow的基類(lèi)優(yōu)化器是tf.train.Optimizer。不同的優(yōu)化器(tf.train.Optimizer的子類(lèi))對(duì)應(yīng)不同的概念,如:動(dòng)量(Momentum)更新頻率(AdaGrad

35、=ADAptiveGRADientdescentAdam=ADAptivewithMomentum;RMSProp)稀疏性/正則化(Ftrl)更復(fù)雜的數(shù)學(xué)(Proximal及其他)你甚至可以想象NN-drivenoptimizer。異常值(outlier)與大多數(shù)值差別很大的值。在機(jī)器學(xué)習(xí)中,下列都是異常值:高絕對(duì)值的權(quán)重。與實(shí)際值差距過(guò)大的預(yù)測(cè)值。比平均值多大約3個(gè)標(biāo)準(zhǔn)差的輸入數(shù)據(jù)的值。異常值往往使模型訓(xùn)練中出現(xiàn)問(wèn)題。輸出層(outputlayer)神經(jīng)網(wǎng)絡(luò)的最后一層。這一層包含整個(gè)模型所尋求的答案。過(guò)擬合(overfitting)創(chuàng)建的模型與訓(xùn)練數(shù)據(jù)非常匹配,以至于模型無(wú)法對(duì)新數(shù)據(jù)進(jìn)行正確

36、的預(yù)測(cè)。Ppandas一種基于列的數(shù)據(jù)分析API。很多機(jī)器學(xué)習(xí)框架,包括TensorFlow,支持pandas數(shù)據(jù)結(jié)構(gòu)作為輸入。參見(jiàn)pandas文檔。參數(shù)(parameter)機(jī)器學(xué)習(xí)系統(tǒng)自行訓(xùn)練的模型的變量。例如,權(quán)重是參數(shù),它的值是機(jī)器學(xué)習(xí)系統(tǒng)通過(guò)連續(xù)的訓(xùn)練迭代逐漸學(xué)習(xí)到的??膳c超參數(shù)對(duì)照閱讀。參數(shù)服務(wù)器(ParameterServer/PS用于在分布式設(shè)置中跟蹤模型參數(shù)。參數(shù)更新(parameterupdate)在訓(xùn)練過(guò)程中調(diào)整模型參數(shù)的操作,通常在梯度下降的單個(gè)迭代中進(jìn)行偏導(dǎo)數(shù)(partialderivative)一個(gè)多變量函數(shù)的偏導(dǎo)數(shù)是它關(guān)于其中一個(gè)變量的導(dǎo)數(shù),而保持其他變量恒定。例

37、如,f(x,y)對(duì)于x的偏導(dǎo)數(shù)就是f(x)的導(dǎo)數(shù),y保持恒定。x的偏導(dǎo)數(shù)中只有x是變化的,公式中其他的變量都不用變化。分區(qū)策略(partitioningstrategy)在多個(gè)參數(shù)服務(wù)器中分割變量的算法性能(performance)具有多種含義:在軟件工程中的傳統(tǒng)含義:軟件運(yùn)行速度有多快/高效?在機(jī)器學(xué)習(xí)中的含義:模型的準(zhǔn)確率如何?即,模型的預(yù)測(cè)結(jié)果有多好?困惑度(perplexity)對(duì)模型完成任務(wù)的程度的一種度量指標(biāo)。例如,假設(shè)你的任務(wù)是閱讀用戶(hù)在智能手機(jī)上輸入的單詞的頭幾個(gè)字母,并提供可能的完整單詞列表。該任務(wù)的困惑度(perplexity,P)是為了列出包含用戶(hù)實(shí)際想輸入單詞的列表你需

38、要進(jìn)行的猜測(cè)數(shù)量。困惑度和交叉嫡的關(guān)系如下:流程(pipeline)機(jī)器學(xué)習(xí)算法的基礎(chǔ)架構(gòu)。管道包括收集數(shù)據(jù)、將數(shù)據(jù)放入訓(xùn)練數(shù)據(jù)文件中、訓(xùn)練一或多個(gè)模型,以及最終輸出模型。正類(lèi)(positiveclass)在二元分類(lèi)中,有兩種類(lèi)別:正類(lèi)和負(fù)類(lèi)。正類(lèi)是我們測(cè)試的目標(biāo)。(不過(guò)必須承認(rèn),我們同時(shí)測(cè)試兩種結(jié)果,但其中一種不是重點(diǎn)。)例如,醫(yī)療測(cè)試中正類(lèi)可能是月中瘤,電子郵件分類(lèi)器中的正類(lèi)可能是垃圾郵件。可與負(fù)類(lèi)對(duì)照閱讀。精度(precision)分類(lèi)模型的一種指標(biāo)。準(zhǔn)確率指模型預(yù)測(cè)正類(lèi)時(shí)預(yù)測(cè)正確的頻率。即:預(yù)測(cè)(prediction)模型在輸入樣本后的輸出結(jié)果預(yù)測(cè)偏差(predictionbias)揭

39、示預(yù)測(cè)的平均值與數(shù)據(jù)集中標(biāo)簽的平均值的差距。預(yù)制評(píng)估器(pre-madeEstimator)已經(jīng)構(gòu)建好的評(píng)估器。TensorFlow提供多個(gè)預(yù)制評(píng)估器,包括DNNClassfierDNNRegressor和LinearClassifie后你可以根據(jù)指導(dǎo)(/extend/estimators)構(gòu)建自己的預(yù)制評(píng)估器。預(yù)訓(xùn)練模型(pre-trainedmodel)已經(jīng)訓(xùn)練好的模型或模型組件(如嵌入)。有時(shí),你將預(yù)訓(xùn)練嵌入饋送至神經(jīng)網(wǎng)絡(luò)。其他時(shí)候,你的模型自行訓(xùn)練嵌入,而不是依賴(lài)于預(yù)訓(xùn)練嵌入。先驗(yàn)信念(priorbelief)訓(xùn)練開(kāi)始之前你對(duì)數(shù)據(jù)的信念

40、。例如,L2正則化依賴(lài)于權(quán)重值很小且正常分布在0周?chē)男拍?。Q隊(duì)歹!J(queue)實(shí)現(xiàn)隊(duì)列數(shù)據(jù)結(jié)構(gòu)的TensorFlow操作。通常在卒&入/輸出(I/O)中使用。R秩(rank)機(jī)器學(xué)習(xí)領(lǐng)域中包含多種含義的術(shù)語(yǔ):張量中的維度數(shù)量。比如,標(biāo)量有1個(gè)秩,向量有1個(gè)秩,矩陣有2個(gè)秩。(注:在這個(gè)詞匯表中,秩的概念和線(xiàn)性代數(shù)中秩的概念不一樣,例如三階可逆矩陣的秩為3。)機(jī)器學(xué)習(xí)問(wèn)題中類(lèi)別的序數(shù)位置,按從高到低的順序給類(lèi)別分類(lèi)。比如,行為排序系統(tǒng)可以把狗的獎(jiǎng)勵(lì)按從高(牛排)到低(甘藍(lán))排序。評(píng)分者(rater)為樣本提供標(biāo)簽的人,有時(shí)也叫標(biāo)注者。召回率(recall)分類(lèi)模型的一個(gè)指標(biāo),可以回

41、答這個(gè)問(wèn)題:模型能夠準(zhǔn)確識(shí)別多少正標(biāo)簽?即:修正線(xiàn)性單元(RectifiedLinearUnit/ReLlJ一種具備以下規(guī)則的激活函數(shù):如果輸入為負(fù)或零,則輸出為00如果輸入為正,則輸出與輸入相同?;貧w模型(regressionmodel)一種輸出持續(xù)值(通常是浮點(diǎn)數(shù))的模型。而分類(lèi)模型輸出的是離散值,如daylily或tigerlily。正貝堆(regularization)對(duì)模型復(fù)雜度的懲罰。正則化幫助防止過(guò)擬合。正則化包括不同種類(lèi):L1正則化L2正則化dropout正則化earlystopping(這不是正式的正則化方法,但可以高效限制過(guò)擬合)正貝U化率(regularizationra

42、te)一種標(biāo)量級(jí),用lambda來(lái)表示,指正則函數(shù)的相對(duì)重要性。從下面這個(gè)簡(jiǎn)化的損失公式可以看出正則化率的作用:minimize(lossfunction+入(regularizationfunction)提高正則化率能夠降低過(guò)擬合,但可能會(huì)使模型準(zhǔn)確率降低。表征將數(shù)據(jù)映射到有用特征的過(guò)程。受試者工作特征曲線(xiàn)(receiveroperatingcharacteristic/ROCCurve反映在不同的分類(lèi)閾值上,真正類(lèi)率和假正類(lèi)率的比值的曲線(xiàn)。參見(jiàn)AUG根目錄(rootdirectory)指定放置TensorFlow檢查點(diǎn)文件子目錄和多個(gè)模型的事件文件的目錄。均方根誤差(RootMeanSqu

43、aredError/RMSE均方誤差的平方根。Saver負(fù)責(zé)存儲(chǔ)模型檢查點(diǎn)文件的TensorFlow對(duì)象縮放(scalincj)特征工程中常用的操作,用于控制特征值區(qū)間,使之與數(shù)據(jù)集中其他特征的區(qū)間匹配。例如,假設(shè)你想使數(shù)據(jù)集中所有的浮點(diǎn)特征的區(qū)間為0到1。給定一個(gè)特征區(qū)間是0到500,那么你可以通過(guò)將每個(gè)值除以500,縮放特征值區(qū)間。還可參見(jiàn)正則化。scikit-learn一種流行的開(kāi)源機(jī)器學(xué)習(xí)平臺(tái)。網(wǎng)址:序歹U模型(sequencemodel)輸入具有序列依賴(lài)性的模型。例如,根據(jù)之前觀看過(guò)的視頻序列對(duì)下一個(gè)視頻進(jìn)行預(yù)測(cè)。會(huì)話(huà)(session)保持Te

44、nsorFlow程序的狀態(tài)(如變量)Sigmoid函數(shù)(sigmoidfunction)把logistic或多項(xiàng)式回歸輸出(對(duì)數(shù)幾率)映射到概率的函數(shù),返回的值在0到1之間。sigmoid函數(shù)的公式如下:其中o在logistic回歸問(wèn)題中只是簡(jiǎn)單的:在有些神經(jīng)網(wǎng)絡(luò)中,sigmoid函數(shù)和激活函數(shù)一樣。softmax為多類(lèi)別分類(lèi)模型中每個(gè)可能的類(lèi)提供概率的函數(shù)。概率加起來(lái)的總和是1.0例如,softmax可能檢測(cè)到某個(gè)圖像是一只狗的概率為0.9,是一只貓的概率為0.08,是一匹馬的概率為0.02。(也叫作fullsoftmax)。稀疏特征(sparsefeature)值主要為0或空的特征向量。比

45、如,一個(gè)向量的值有1個(gè)1,、一百萬(wàn)個(gè)0,則該向量為稀疏向量。再比如,搜索查詢(xún)中的單詞也是稀疏向量:在一種語(yǔ)言中有很多可以用的單詞,但給定的查詢(xún)中只用了其中的一些??膳c稠密特征對(duì)照閱讀。平方損失(squaredlos§線(xiàn)性回歸中使用的損失函數(shù)(也叫作L2Loss。該函數(shù)計(jì)算模型對(duì)標(biāo)注樣本的預(yù)測(cè)值和標(biāo)簽真正值之間差的平方。在平方之后,該損失函數(shù)擴(kuò)大了不良預(yù)測(cè)的影響。即,平方損失比L1Loss對(duì)異常值(outlier)的反應(yīng)更加強(qiáng)烈。靜態(tài)模型(staticmodel)離線(xiàn)訓(xùn)練的模型。穩(wěn)態(tài)(stationarity)數(shù)據(jù)集中的一種數(shù)據(jù)屬性,數(shù)據(jù)分布在一或多個(gè)維度中保持不變。通常情況下,維度是

46、時(shí)間,意味著具備平穩(wěn)性的數(shù)據(jù)不會(huì)隨著時(shí)間發(fā)生變化。比如,具備平穩(wěn)性的數(shù)據(jù)從9月到12月不會(huì)改變。步(step)一個(gè)批量中的前向和后向評(píng)估。步長(zhǎng)(stepsize)學(xué)習(xí)速率(learningrate)乘以偏導(dǎo)數(shù)的值,即梯度下降中的步長(zhǎng)。隨機(jī)梯度下降(stochasticgradientdescent/SGD批量大小為1的梯度下降算法。也就是說(shuō),SGD依賴(lài)于從數(shù)據(jù)集中隨機(jī)均勻選擇出的一個(gè)樣本,以評(píng)估每一步的梯度。結(jié)構(gòu)風(fēng)險(xiǎn)最小化(structuralriskminimization/SRM)這種算法平衡兩個(gè)目標(biāo):構(gòu)建預(yù)測(cè)性最強(qiáng)的模型(如最低損失)。使模型盡量保持簡(jiǎn)單(如強(qiáng)正則化)。比如,在訓(xùn)練集上的

47、損失最小化+正則化的模型函數(shù)就是結(jié)構(gòu)風(fēng)險(xiǎn)最小化算法。更多信息,參見(jiàn)/srm/。可與經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化對(duì)照閱讀。摘要(summary)在TensorFlow中,特定步計(jì)算的值或值的集合,通常用于跟蹤訓(xùn)練過(guò)程中的模型指標(biāo)。監(jiān)督式機(jī)器學(xué)習(xí)(supervisedmachinelearning利用輸入數(shù)據(jù)及其對(duì)應(yīng)標(biāo)簽來(lái)訓(xùn)練模型。監(jiān)督式機(jī)器學(xué)習(xí)類(lèi)似學(xué)生通過(guò)研究問(wèn)題和對(duì)應(yīng)答案進(jìn)行學(xué)習(xí)。在掌握問(wèn)題和答案之間的映射之后,學(xué)生就可以提供同樣主題的新問(wèn)題的答案了??膳c非監(jiān)督機(jī)器學(xué)習(xí)對(duì)照閱讀。合成特征(syntheticfeature)不在輸入特征中,而是從一個(gè)或多個(gè)輸入特征中派生出的特征。合成特征的類(lèi)型包括:特征與自己或其他特征相乘(叫作特征交叉)。兩個(gè)特征相除。將連續(xù)的特征放進(jìn)rangebin中。由歸一化或縮放單獨(dú)創(chuàng)建的特征不是合成特征。T張量(tensor)TensorFlow項(xiàng)目的主要數(shù)據(jù)結(jié)構(gòu)。張量是N維數(shù)據(jù)結(jié)構(gòu)(N的值很大),經(jīng)常是標(biāo)量、向量或矩陣。張量可以包括整數(shù)、浮點(diǎn)或字符串值。張量處理單元(TensorProcessingUnitTPU優(yōu)化TensorFlow性能的ASIC(ap

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論