數(shù)據(jù)分析崗位筆試題目總結(jié)_第1頁(yè)
數(shù)據(jù)分析崗位筆試題目總結(jié)_第2頁(yè)
數(shù)據(jù)分析崗位筆試題目總結(jié)_第3頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、阿里巴巴1、異常值是指什么請(qǐng)列舉1種識(shí)別連續(xù)型變量異常值的方法異常值(Outlier)是指樣本中的個(gè)別值,其數(shù)值明顯偏離所屬樣本的其余觀 測(cè)值。在數(shù)理統(tǒng)計(jì)里一般是指一組觀測(cè)值中與平均值的偏差超過(guò)兩倍標(biāo)準(zhǔn)差的測(cè) 定值.常見(jiàn)的異常值檢驗(yàn)方法如下:基于統(tǒng)計(jì)的方法基于距離的方法基于密度的方法基于聚類(lèi)的方法基于偏差的方法基于深度的方法t檢驗(yàn):按照t分布的實(shí)際誤差分布范圍來(lái)判別異常值,首先剔除一個(gè)可疑值, 然后按t分布來(lái)檢驗(yàn)剔除的值是否為異常值。狄克遜檢驗(yàn)法:假設(shè)一組數(shù)據(jù)有序x1vx2<vxn,且服從正態(tài)分布,那么異常值最有可能出現(xiàn)在兩端x1和xn o格拉布斯檢驗(yàn)法:與狄克遜檢驗(yàn)法思想一樣,其檢驗(yàn)公

2、式為:指數(shù)分布檢驗(yàn):SPSS和R語(yǔ)言中通過(guò)繪制箱圖可以找到異常值,分布在箱邊框外部;2、什么是聚類(lèi)分析聚類(lèi)算法有哪幾種請(qǐng)選擇一種詳細(xì)描述其計(jì)算原理和步驟聚類(lèi)分析 (cluster analysis) 是一組將研究對(duì)象分為相對(duì)同質(zhì)的群組(clusters) 的統(tǒng)計(jì)分析技術(shù)。聚類(lèi)分析也叫分類(lèi)分析 (classification analysis) 或數(shù) 值分類(lèi) (numerical taxonomy) 。聚類(lèi)與分類(lèi)的不同在于,聚類(lèi)所要求劃分的類(lèi) 是未知的。聚類(lèi)分析計(jì)算方法主要有: 層次的方法(hierarchical method) 、劃分方法(partitioning method) 、基于 密

3、度 的方法 (density-based method) 、基于 網(wǎng)格 的方法 (grid-based method) 、基于 模型 的方法 (model-based method) 等。其中,前兩種算法是利用統(tǒng)計(jì)學(xué) 定義的距離進(jìn)行度量。 常見(jiàn)的聚類(lèi)方法有:K-pototypes 算法,K-Means算法,CLARANS 算法(劃分方法) , BIRCH 算法(層次方法) , CURE 算法(層次方法) , DBSCAN 算法(基 于密度的方法) , CLIQUE 算法(綜合了基于密度和基于網(wǎng)格的算法) ;k-means 算法的工作過(guò)程說(shuō)明如下:首先從 n 個(gè)數(shù)據(jù)對(duì)象任意選擇 k 個(gè) 對(duì)象作為

4、初始聚類(lèi)中心 ;而對(duì)于所剩下其它對(duì)象,那么根據(jù)它們與這些聚類(lèi)中心的 相似度 (距離),分別將它們分配給與其最相似的 (聚類(lèi)中心所代表的 )聚類(lèi);然后再 計(jì)算每個(gè)所獲新聚類(lèi)的聚類(lèi)中心 (該聚類(lèi)中所有對(duì)象的均值 );不斷重復(fù)這一過(guò)程 直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù) . k 個(gè)聚 類(lèi)具有以下特點(diǎn):各聚類(lèi)本身盡可能的緊湊,而各聚類(lèi)之間盡可能的分開(kāi)。其流程如下:(1) 從 n 個(gè)數(shù)據(jù)對(duì)象任意選擇 k 個(gè)對(duì)象作為初始聚類(lèi)中心(2) 根據(jù)每個(gè)聚類(lèi)對(duì)象的均值 (中心對(duì)象 ),計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離 ;并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分 ;(3) 重新計(jì)算每個(gè) (有變

5、化)聚類(lèi)的均值 (中心對(duì)象 );(4) 循環(huán)(2) 、(3)直到每個(gè)聚類(lèi)不再發(fā)生變化為止 (標(biāo)準(zhǔn)測(cè)量函數(shù)收斂 )。優(yōu)點(diǎn):本算法確定的 K 個(gè)劃分到達(dá)平方誤差最小。當(dāng)聚類(lèi)是密集的,且類(lèi) 與類(lèi)之間區(qū)別明顯時(shí), 效果較好。 對(duì)于處理大數(shù)據(jù)集, 這個(gè)算法是相對(duì)可伸縮和 高效的,計(jì)算的復(fù)雜度為 O(NKt) ,其中 N 是數(shù)據(jù)對(duì)象的數(shù)目, K 是聚類(lèi)中心, t 是迭代的次數(shù)。缺點(diǎn):1. K 是事先給定的,但非常難以選定 ;2. 初始聚類(lèi)中心的選擇對(duì)聚類(lèi) 結(jié)果有較大的影響。3. 數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)是將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間。去除數(shù)據(jù)的單位限制, 將其轉(zhuǎn)化為無(wú)量綱的純數(shù)值,便于不同單位或量級(jí)的

6、指標(biāo)能夠進(jìn)行比較和加權(quán)。 常用的方法有:(1)總和標(biāo)準(zhǔn)化。分別求出各要素所對(duì)應(yīng)的數(shù)據(jù)的總和,以各要素的數(shù)據(jù)除以 該要素的數(shù)據(jù)的總和,即4. 缺失值處理方法 1) 直接丟棄含缺失數(shù)據(jù)的記錄 如:個(gè)案剔除法,這種方法卻有很大的局限性。它是以減少樣本量來(lái)?yè)Q取信息的 完備,會(huì)造成資源的大量浪費(fèi),丟棄了大量隱藏在這些對(duì)象中的信息。 當(dāng)缺失數(shù) 據(jù)所占比例較大,特別是當(dāng)缺數(shù)據(jù)非隨機(jī)分布時(shí),這種方法可能導(dǎo)致數(shù)據(jù)發(fā)生偏 離,從而得出錯(cuò)誤的結(jié)論。2補(bǔ)缺A. 用平均值來(lái)代替所有缺失數(shù)據(jù):均值替換法,均值替換法也是一種簡(jiǎn)便、 快速的缺失數(shù)據(jù)處理方法。使用均值替換法插補(bǔ)缺失數(shù)據(jù),對(duì)該變量的均值估計(jì) 不會(huì)產(chǎn)生影響。但這種

7、方法是建立在完全隨機(jī)缺失MCAR 的假設(shè)之上的,而 且會(huì)造成變量的方差和標(biāo)準(zhǔn)差變小。B. K -最近距離鄰居法:先根據(jù)歐式距離或相關(guān)分析來(lái)確定距離具有缺失數(shù) 據(jù)樣本最近的K個(gè)樣本,將這K個(gè)值加權(quán)平均來(lái)估計(jì)該樣本的缺失數(shù)據(jù)。C. 用預(yù)測(cè)模型來(lái)預(yù)測(cè)每一個(gè)缺失數(shù)據(jù):該方法最大限度地利用的相關(guān)數(shù)據(jù),是比較流行的缺失數(shù)據(jù)處理技術(shù)。如:回歸替換法,該方法也有諸多弊端,第一,容易無(wú)視隨機(jī)誤差,低估標(biāo)準(zhǔn)差和其他未知性質(zhì)的測(cè)量值, 而且這一問(wèn)題 會(huì)隨著缺失信息的增多而變得更加嚴(yán)重。第二,研究者必須假設(shè)存在缺失值所在 的變量與其他變量存在線性關(guān)系,很多時(shí)候這種關(guān)系是不存在的。5.Apriori算法和信息熵信息熵是

8、數(shù)學(xué)中一個(gè)抽象的概念,他表示了信息源的不確定度,這里不妨把 信息熵理解成某種特定信息的出現(xiàn)概率, 當(dāng)一種信息出現(xiàn)概率更高的時(shí)候,說(shuō)明它被傳播得更廣泛,或者說(shuō),被引用的程度更高。我們可以認(rèn)為,從信息傳播的支持度:Support(A->B)=P(A U B)。支持度揭示了 A與B同時(shí)出現(xiàn)的概率。如果A與B同時(shí)出現(xiàn)的概率小,說(shuō)明A與B的關(guān)系不大;如果 A與B同時(shí)出現(xiàn)的非常頻繁,那么說(shuō)明A與B總是相關(guān)的。置信度(Confidenee)的公式式:Confidence(A->B)=P(A | B)。置信度揭示了 A出現(xiàn)時(shí),B是否也會(huì)出現(xiàn)或有多大概率出現(xiàn)。如果置信度度為 100%,那么A和B可以

9、捆綁銷(xiāo)售了。如果置信度太低,那么說(shuō)明 A的出現(xiàn)與B是否出現(xiàn)關(guān)系不大。H(x) = El(xi) = E log(2,1/p(xi)=-刀 p(xi)log(2,p(xi)(i=1,2,.n),單位是bit.其中,x表示隨機(jī)變量,與之相對(duì)應(yīng)的是所有可能輸出的集合,定義為符號(hào)集,隨機(jī)變量的輸出用x表示。P(x)表示輸出概率函數(shù)。變量的不確定性越大,熵 也就越大,把它搞清楚所需要的信息量也就越大以頻繁項(xiàng)集I1,I2 ,13為例產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)那么,最小置信度為40%(1) 頻繁項(xiàng)集I1,I2,I3的非空子集有11,I2,I1,I3,I2,I3,I1,I2,I3(2) 產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)那么I1,12=>

10、13co nfide nce=support(l1,l2,l3)/support(l1,l2)=2/4=11,13=>12 con fide nce=support(11,I2,I3) /support(I1,I3)=2/4=I2,I3=>I1 con fide nce=support(11,I2,I3) /support(I2,I3)=2/4=I3) /support(I1)=2/6=I3) /support(I2)=2/7=I3) /support(I3)=2/6=I1=>I2,I3 con fide nce=supportI2=>I1,I3 con fide nc

11、e=supportI3=>I1,I2 con fide nce=support那么強(qiáng)關(guān)聯(lián)規(guī)那么為:I1,I2=>I3 ; 11,13 ; I2,I3=>I13、根據(jù)要求寫(xiě)出 SQL 沒(méi)有學(xué)習(xí)過(guò),之后的學(xué)習(xí)中需要補(bǔ)表 A 結(jié)構(gòu)如下:Member_ID 用戶(hù)的 ID ,字符型 Log_time 用戶(hù)訪問(wèn)頁(yè)面時(shí)間,日期型 只有一天的數(shù)據(jù) URL 訪問(wèn)的頁(yè)面地址,字符型 要求:提取出每個(gè)用戶(hù)訪問(wèn)的第一個(gè) URL按時(shí)間最早,形成一個(gè)新表新 表名為B,表結(jié)構(gòu)和表 A 一致參考答案:create table B as select Member_ID, minLog_time, URL f

12、rom A group by Member_ID ;5、用戶(hù)調(diào)研某公司針對(duì) A、B、C 三類(lèi)客戶(hù),提出了一種統(tǒng)一的改進(jìn)方案,用于提升客 戶(hù)的周消費(fèi)次數(shù), 需要你來(lái)制定一個(gè)事前試驗(yàn)方案, 來(lái)支持決策, 請(qǐng)你思考以下 問(wèn)題:a 試驗(yàn)需要為決策提供什么樣的信息c 按照上述目的,請(qǐng)寫(xiě)出你的數(shù)據(jù)抽樣方法、需要采集的數(shù)據(jù)指標(biāo)項(xiàng),以 及你選擇的統(tǒng)計(jì)方法。a)試驗(yàn)要能證明該改進(jìn)方案能顯著提升A、B、C三類(lèi)客戶(hù)的周消費(fèi)次數(shù)b)根據(jù)三類(lèi)客戶(hù)的數(shù)量,采用分層比例抽樣;需要采集的數(shù)據(jù)指標(biāo)項(xiàng)有:客戶(hù)類(lèi)別,改進(jìn)方案前周消費(fèi)次數(shù),改進(jìn)方案后周消費(fèi)次數(shù);選用統(tǒng)計(jì)方法為:分別針對(duì) A、B、C三類(lèi)客戶(hù),進(jìn)行改進(jìn)前和后的周消費(fèi) 次

13、數(shù)的,兩獨(dú)立樣本T-檢驗(yàn)6常見(jiàn)的抽樣方法有哪些常用的有以下六種類(lèi)型:簡(jiǎn)單抽樣(Simple sampling )即簡(jiǎn)單隨機(jī)抽樣,指保證大小為 n的每個(gè)可能的樣本都有相同的被抽中的 概率。例如:按照“抽簽法、“隨機(jī)表法抽取訪問(wèn)對(duì)象,從單位人名目錄中 抽取對(duì)象。優(yōu)點(diǎn):隨機(jī)度高,在特質(zhì)較均一的總體中,具有很高的總體代表度;是最簡(jiǎn)單的抽 樣技術(shù),有標(biāo)準(zhǔn)而且簡(jiǎn)單的統(tǒng)計(jì)公式。缺點(diǎn):未使用可能有用的抽樣框輔助信息抽取樣本,可能導(dǎo)致統(tǒng)計(jì)效率低;有可能抽到一個(gè)“差的樣本,使抽出的樣本分布不好,不能很好地代表總體。系統(tǒng)抽樣 (Systematic random sampling)將總體中的各單元先按一定順序排列,

14、并編號(hào),然后按照不一定的規(guī)那么抽樣。其中最常采用的是等距離抽樣,F(xiàn)卩根據(jù)總體單位數(shù)和樣本單位計(jì)算出抽樣距離即相同的間隔,然后按相同的距離或間隔抽選樣本單位。例如:從 1000個(gè) 號(hào)碼中抽取10個(gè)訪問(wèn)號(hào)碼,間距為100 ,確定起點(diǎn)起點(diǎn)V間距后每100 號(hào)碼抽一訪問(wèn)號(hào)碼。優(yōu)點(diǎn):兼具操作的簡(jiǎn)便性和統(tǒng)計(jì)推斷功能,是目前最為廣泛運(yùn)用的一種抽樣方法。如果起點(diǎn)是隨機(jī)確定的,總體中單元排列是隨機(jī)的,等距抽樣的效果近似簡(jiǎn) 單抽樣;與簡(jiǎn)單抽樣相比,在一定條件下,樣本的分布較好。缺點(diǎn):抽樣間隔可能遇到總體中某種未知的周期性, 導(dǎo)致“差的樣本;未使用可 能有用的抽樣框輔助信息抽取樣本,可能導(dǎo)致統(tǒng)計(jì)效率低。分層抽樣 S

15、tratified random sampling 是把調(diào)查總體分為同質(zhì)的、互不交叉的層或類(lèi)型,然后在各層或類(lèi)型 中獨(dú)立抽取樣本。例如:調(diào)查零售店時(shí),按照其規(guī)模大小或庫(kù)存額大小分層,然 后在每層中按簡(jiǎn)單隨機(jī)方法抽取大型零售店假設(shè)干、中型假設(shè)干、小型假設(shè)干;調(diào)查城市時(shí),按城市總?cè)丝诨蚬I(yè)生產(chǎn)額分出超 大型城市、中型城市、小型城市 等,再 抽出具體的各類(lèi)型城市假設(shè)干。優(yōu)點(diǎn):適用于層間有較大的異質(zhì)性,而每層內(nèi)的個(gè)體具有同質(zhì)性的總體,能提高總 體估計(jì)的精確度,在樣本量相同的情況下,其精度高于簡(jiǎn)單抽樣和系統(tǒng)抽樣;能 保證“層的代表性,防止抽到“差的樣本;同時(shí),不同層可以依據(jù)情況采用 不同的抽樣框和抽樣方

16、法。缺點(diǎn):要求有高質(zhì)量的、能用于分層的輔助信息;由于需要輔助信息,抽樣框的創(chuàng) 建需要更多的費(fèi)用,更為復(fù)雜;抽樣誤差估計(jì)比簡(jiǎn)單抽樣和系統(tǒng)抽樣更復(fù)雜。整群抽樣Cluster sampling 層層深入抽樣,不斷縮小抽樣的范圍是先將調(diào)查總體分為群,然后從中抽取群,對(duì)被抽中群的全部單元進(jìn)行調(diào)查。 例如:入戶(hù)調(diào)查,按地塊或居委會(huì)抽樣,以地塊或居委會(huì)等有地域邊界的群體為 第一抽樣單位,在選出的地塊或居委會(huì)實(shí)施逐戶(hù)抽樣; 市場(chǎng)調(diào)查中,最后一級(jí)抽 樣時(shí),從居委會(huì)中抽取假設(shè)干戶(hù),然后調(diào)查抽中戶(hù)家中所有18歲以上成年人。優(yōu)點(diǎn):適用于群間差異小、群內(nèi)各個(gè)體差異大、可以依據(jù)外觀的或地域的差異來(lái)劃 分的群體。缺點(diǎn):群內(nèi)

17、單位有趨同性,其精度比簡(jiǎn)單抽樣為低。前面談到抽樣方法的一些根本分類(lèi)和各自特點(diǎn),需要注意的是,在實(shí)際的運(yùn)用中,一個(gè)調(diào)查方案常常不是只局限于使用某一種抽樣方式,而根據(jù)研究時(shí)段的不同采用多種抽樣方法的組鴿為實(shí)現(xiàn)不同的研究目的,有時(shí)甚至在同一時(shí)段綜合運(yùn)用幾種抽樣方法。例如,設(shè)計(jì)一個(gè)全國(guó)城市的入戶(hù)工程,在抽樣上可以分為幾個(gè)不同的步驟, 包括:1在工程正式開(kāi)始前,可以采用 判斷抽樣法選出某一城市先作試點(diǎn),在問(wèn) 卷設(shè)計(jì)初期可以采用任意抽樣法選出局部人群進(jìn)行問(wèn)卷試訪。2采用分層隨機(jī)抽樣法,確定全國(guó)要分別在多少個(gè)超大型市、多少個(gè)中型市、多少個(gè)小型市實(shí)施 (先分出城市的幾個(gè)層次, 再依據(jù)研究需要在各層用 PPS

18、法選取具體城市)3) 采用簡(jiǎn)單抽樣法或PPS抽樣法,確定抽出城市中應(yīng)抽的地塊或居委會(huì);4) 采用 整群抽樣 法,確定抽出地塊或居委會(huì)應(yīng)訪問(wèn)的家庭戶(hù);5) 在工程后期,可以采用 判斷抽樣法 選取某城市進(jìn)行深入研究。8.置信度與置信區(qū)間P(x1<x<x2 ) =1-a, 稱(chēng) 1-a 為置信度, x1,x2 為置信區(qū)間 置信度越大,置信區(qū)間越寬;置信區(qū)間越寬,置信度越大; 置信度越小,置信區(qū)間越窄曲線及含義ROC 曲線指受試者工作特征曲線 (receiver operating characteristic curve), 是反映 敏感性 和 特異性連續(xù)變量 的 綜合指標(biāo) ,是用構(gòu)圖法揭

19、示敏感性和特異性的相互關(guān)系,它通過(guò) 將連續(xù)變量設(shè)定出多個(gè)不同的臨界值, 從而計(jì)算出一系列敏感性和特異性, 再以敏感性為縱 坐標(biāo)、( 1- 特異性)為橫坐標(biāo)繪制成曲線,曲線下面積越大,診斷準(zhǔn)確性越高。在ROC 曲線上,最靠近坐標(biāo)圖左上方的點(diǎn)為敏感性和特異性均較高的臨界值。10. 數(shù)據(jù)挖掘步驟 理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源( understanding )。 獲取相關(guān)知識(shí)與技術(shù)( acquisition )。 整合與檢查數(shù)據(jù)( integration and checking)。 去除錯(cuò)誤或不一致的數(shù)據(jù)( data cleaning )。 建立模型和假設(shè)( model and hypothesis dev

20、elopment)。 實(shí)際數(shù)據(jù)挖掘工作( data mining )。 測(cè)試和驗(yàn)證挖掘結(jié)果testing and verfication 解釋和應(yīng)用interpretation and use 。11. 如何評(píng)估促銷(xiāo)活動(dòng)11. Bayes公式全概率公式探索在結(jié)果的情況下,是由哪種原因引起的概率;p( Bi | A)P(BiA)P(A)P(Bi)p(A|BJ p(Bj)p(A|Bj)12. 邏輯回歸分類(lèi)問(wèn)題邏輯回歸適合求解哪些問(wèn)題:邏輯回歸本質(zhì)上解決的是分類(lèi)問(wèn)題,Logistic回歸的主要用途:尋找危險(xiǎn)因素:尋找某一疾病的危險(xiǎn)因素等;預(yù)測(cè):根據(jù)模型,預(yù)測(cè)在不同的自變量情況下,發(fā)生某病或某種情況的

21、概率有多 大;判別:實(shí)際上跟預(yù)測(cè)有些類(lèi)似,也是根據(jù)模型,判斷某人屬于某病或?qū)儆谀撤N情 況的概率有多大,也就是看一下這個(gè)人有多大的可能性是屬于某病。11.線性回歸線性回歸一元和多元中對(duì)誤差的假設(shè)都是假定服從均值為 0方差為定值 的正態(tài)分布,擬合系數(shù)的求解方法可以有最小二乘法梯度下降法等。 關(guān)于殘差的 假設(shè)為:零均值,同方差,正態(tài)性,不相關(guān),樣本隨機(jī)。回歸分析的自變量為連續(xù)性變量,而方差分析的自變量為離散型分類(lèi)變量;廣義線性回歸于線性回歸的最大區(qū)別是隨機(jī)誤差的分布不一定是正態(tài)分布,與非線性模型的最大區(qū)別是非線性回歸無(wú)明確的隨機(jī)誤差分布假定。12. 過(guò)擬合現(xiàn)象以及防止的方法所謂過(guò)擬合問(wèn)題:過(guò)擬合反映

22、的是在學(xué)習(xí)訓(xùn)練中,模型對(duì)訓(xùn)練樣本到達(dá)非常高的逼近精度,為了能夠?qū)颖就耆_的分類(lèi),使得它的構(gòu)造如此精細(xì)復(fù)雜,規(guī)那么如此嚴(yán)格,以至于任何與樣本數(shù)據(jù)稍有不同的文檔它全都認(rèn)為不屬于這個(gè)類(lèi)別,在測(cè)試數(shù)據(jù)上往往顯示出很差的效果產(chǎn)生過(guò)擬合是因?yàn)椋?. 由于對(duì)樣本數(shù)據(jù),可能存在隱單元的表示不唯一,即產(chǎn)生的分類(lèi)的決策面不唯一2. 權(quán)值學(xué)習(xí)迭代次數(shù)足夠多(Overtrai nin g),擬合了訓(xùn)練數(shù)據(jù)中的噪聲和訓(xùn)練樣例中沒(méi)有代表性的特征.過(guò)度擬合解決方法:1. 權(quán)值衰減.它在每次迭代過(guò)程中以某個(gè)小因子降低每個(gè)權(quán)值,此方法的動(dòng)機(jī)是保持權(quán)值較小,防止weight decay,從而使學(xué)習(xí)過(guò)程向著復(fù)雜決策面的反方向偏

23、。2. 減少特征的數(shù)量,有人工選擇,或者采用模型選擇算法3. 驗(yàn)證數(shù)據(jù)一個(gè)最成功的方法是在訓(xùn)練數(shù)據(jù)外再為算法提供一套驗(yàn)證數(shù)據(jù),應(yīng)該使用在驗(yàn)證集合上產(chǎn)生最小誤差的迭代次數(shù),不是總能明顯地確定驗(yàn)證集合何時(shí)到達(dá)最小誤差with some patter ns 合問(wèn)題更為嚴(yán)重 .k-fold 交叉方法 :把訓(xùn)練樣例分成 k 份 ,然后進(jìn)行 k 次交叉驗(yàn)證過(guò)程 ,每次使用不同的一份作為驗(yàn)證集合,其余k-1 份合并作為訓(xùn)練集合 .每個(gè)樣例會(huì)在一次實(shí)驗(yàn)中被用作驗(yàn)證樣例,在 k-1 次實(shí)驗(yàn)中被用作訓(xùn)練樣例 ;5.正那么化方法正那么化是結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略的實(shí)現(xiàn), 是在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加一個(gè)正那么化項(xiàng)或懲罰項(xiàng)。 正那么化項(xiàng) 一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜,正那么化項(xiàng)就越大,正那么化方法的作用是: 保存所有特征但減小參數(shù)的取值。13. 監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)有監(jiān)督學(xué)習(xí):對(duì)具有概念標(biāo)記分類(lèi)的訓(xùn)練樣

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論