




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、阿里巴巴1、異常值是指什么?請(qǐng)列舉1種識(shí)別連續(xù)型變量異常值的方法? 異常值(Outlier) 是指樣本中的個(gè)別值,其數(shù)值明顯偏離所屬樣本的其余觀測(cè)值。在數(shù)理統(tǒng)計(jì)里一般是指一組觀測(cè)值中與平均值的偏差超過(guò)兩倍標(biāo)準(zhǔn)差的測(cè)定值.常見(jiàn)的異常值檢驗(yàn)方法如下:l 基于統(tǒng)計(jì)的方法l 基于距離的方法l 基于密度的方法l 基于聚類的方法l 基于偏差的方法l 基于深度的方法t檢驗(yàn):按照t分布的實(shí)際誤差分布范圍來(lái)判別異常值,首先剔除一個(gè)可疑值,然后按t分布來(lái)檢驗(yàn)剔除的值是否為異常值。狄克遜檢驗(yàn)法:假設(shè)一組數(shù)據(jù)有序x1x2B)=P(A U B)。支持度揭示了A與B同時(shí)出現(xiàn)的概率。如果A與B同時(shí)出現(xiàn)的概率小,說(shuō)明A與B的
2、關(guān)系不大;如果A與B同時(shí)出現(xiàn)的非常頻繁,則說(shuō)明A與B總是相關(guān)的。置信度(Confidence)的公式式:Confidence(A-B)=P(A | B)。置信度揭示了A出現(xiàn)時(shí),B是否也會(huì)出現(xiàn)或有多大概率出現(xiàn)。如果置信度度為100%,則A和B可以捆綁銷售了。如果置信度太低,則說(shuō)明A的出現(xiàn)與B是否出現(xiàn)關(guān)系不大。H(x) = EI(xi) = E log(2,1/p(xi) = -p(xi)log(2,p(xi) (i=1,2,.n),單位是bit.其中,x表示隨機(jī)變量,與之相對(duì)應(yīng)的是所有可能輸出的集合,定義為符號(hào)集,隨機(jī)變量的輸出用x表示。P(x)表示輸出概率函數(shù)。變量的不確定性越大,熵也就越大,
3、把它搞清楚所需要的信息量也就越大.以頻繁項(xiàng)集I1,I2,I3為例產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,最小置信度為40%(1) 頻繁項(xiàng)集I1,I2,I3的非空子集有I1,I2,I1,I3,I2,I3,I1,I2,I3(2) 產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則I1,I2=I3 confidence=support(I1,I2,I3)/support(I1,I2)=2/4=0.5I1,I3=I2 confidence=support(I1,I2,I3)/support(I1,I3)=2/4=0.5I2,I3=I1 confidence=support(I1,I2,I3)/support(I2,I3)=2/4=0.5I1=I2,I3 con
4、fidence=support(I1,I2,I3)/support(I1)=2/6=0.33I2=I1,I3 confidence=support(I1,I2,I3)/support(I2)=2/7=0.29I3=I1,I2 confidence=support(I1,I2,I3)/support(I3)=2/6=0.33則強(qiáng)關(guān)聯(lián)規(guī)則為:I1,I2=I3;I1,I3;I2,I3=I13、根據(jù)要求寫(xiě)出SQL (沒(méi)有學(xué)習(xí)過(guò),之后的學(xué)習(xí)中需要補(bǔ))表A結(jié)構(gòu)如下: Member_ID (用戶的ID,字符型) Log_time (用戶訪問(wèn)頁(yè)面時(shí)間,日期型(只有一天的數(shù)據(jù)) URL (訪問(wèn)的頁(yè)面地址,字符型
5、) 要求:提取出每個(gè)用戶訪問(wèn)的第一個(gè)URL(按時(shí)間最早),形成一個(gè)新表(新表名為B,表結(jié)構(gòu)和表A一致) 參考答案: create table B as select Member_ID, min(Log_time), URL from A group by Member_ID ; 5、用戶調(diào)研 某公司針對(duì)A、B、C三類客戶,提出了一種統(tǒng)一的改進(jìn)計(jì)劃,用于提升客戶的周消費(fèi)次數(shù),需要你來(lái)制定一個(gè)事前試驗(yàn)方案,來(lái)支持決策,請(qǐng)你思考下列問(wèn)題: a) 試驗(yàn)需要為決策提供什么樣的信息? c) 按照上述目的,請(qǐng)寫(xiě)出你的數(shù)據(jù)抽樣方法、需要采集的數(shù)據(jù)指標(biāo)項(xiàng),以及你選擇的統(tǒng)計(jì)方法。 a) 試驗(yàn)要能證明該改進(jìn)計(jì)劃能
6、顯著提升A、B、C三類客戶的周消費(fèi)次數(shù)。 b) 根據(jù)三類客戶的數(shù)量,采用分層比例抽樣; 需要采集的數(shù)據(jù)指標(biāo)項(xiàng)有:客戶類別,改進(jìn)計(jì)劃前周消費(fèi)次數(shù),改進(jìn)計(jì)劃后周消費(fèi)次數(shù); 選用統(tǒng)計(jì)方法為:分別針對(duì)A、B、C三類客戶,進(jìn)行改進(jìn)前和后的周消費(fèi)次數(shù)的,兩獨(dú)立樣本T-檢驗(yàn)6.常見(jiàn)的抽樣方法有哪些?常用的有以下六種類型:簡(jiǎn)單抽樣(Simple sampling)即簡(jiǎn)單隨機(jī)抽樣,指保證大小為n的每個(gè)可能的樣本都有相同的被抽中的概率。例如:按照“抽簽法”、“隨機(jī)表”法抽取訪問(wèn)對(duì)象,從單位人名目錄中抽取對(duì)象。優(yōu)點(diǎn):隨機(jī)度高,在特質(zhì)較均一的總體中,具有很高的總體代表度;是最簡(jiǎn)單的抽樣技術(shù),有標(biāo)準(zhǔn)而且簡(jiǎn)單的統(tǒng)計(jì)公式。
7、缺點(diǎn):未使用可能有用的抽樣框輔助信息抽取樣本,可能導(dǎo)致統(tǒng)計(jì)效率低;有可能抽到一個(gè)“差”的樣本,使抽出的樣本分布不好,不能很好地代表總體。系統(tǒng)抽樣(Systematic random sampling)將總體中的各單元先按一定順序排列,并編號(hào),然后按照不一定的規(guī)則抽樣。其中最常采用的是等距離抽樣,即根據(jù)總體單位數(shù)和樣本單位計(jì)算出抽樣距離(即相同的間隔),然后按相同的距離或間隔抽選樣本單位。例如:從1000個(gè)電話號(hào)碼中抽取10個(gè)訪問(wèn)號(hào)碼,間距為100,確定起點(diǎn)(起點(diǎn)間距)后每100號(hào)碼抽一訪問(wèn)號(hào)碼。優(yōu)點(diǎn):兼具操作的簡(jiǎn)便性和統(tǒng)計(jì)推斷功能,是目前最為廣泛運(yùn)用的一種抽樣方法。如果起點(diǎn)是隨機(jī)確定的,總體中
8、單元排列是隨機(jī)的,等距抽樣的效果近似簡(jiǎn)單抽樣;與簡(jiǎn)單抽樣相比,在一定條件下,樣本的分布較好。缺點(diǎn):抽樣間隔可能遇到總體中某種未知的周期性,導(dǎo)致“差”的樣本;未使用可能有用的抽樣框輔助信息抽取樣本,可能導(dǎo)致統(tǒng)計(jì)效率低。分層抽樣(Stratified random sampling)是把調(diào)查總體分為同質(zhì)的、互不交叉的層(或類型),然后在各層(或類型)中獨(dú)立抽取樣本。例如:調(diào)查零售店時(shí),按照其規(guī)模大小或庫(kù)存額大小分層,然后在每層中按簡(jiǎn)單隨機(jī)方法抽取大型零售店若干、中型若干、小型若干;調(diào)查城市時(shí),按城市總?cè)丝诨蚬I(yè)生產(chǎn)額分出超大型城市、中型城市、小型城市等,再抽出具體的各類型城市若干。優(yōu)點(diǎn):適用于層間
9、有較大的異質(zhì)性,而每層內(nèi)的個(gè)體具有同質(zhì)性的總體,能提高總體估計(jì)的精確度,在樣本量相同的情況下,其精度高于簡(jiǎn)單抽樣和系統(tǒng)抽樣;能保證“層”的代表性,避免抽到“差”的樣本;同時(shí),不同層可以依據(jù)情況采用不同的抽樣框和抽樣方法。缺點(diǎn):要求有高質(zhì)量的、能用于分層的輔助信息;由于需要輔助信息,抽樣框的創(chuàng)建需要更多的費(fèi)用,更為復(fù)雜;抽樣誤差估計(jì)比簡(jiǎn)單抽樣和系統(tǒng)抽樣更復(fù)雜。整群抽樣(Cluster sampling)(層層深入抽樣,不斷縮小抽樣的范圍)是先將調(diào)查總體分為群,然后從中抽取群,對(duì)被抽中群的全部單元進(jìn)行調(diào)查。例如:入戶調(diào)查,按地塊或居委會(huì)抽樣,以地塊或居委會(huì)等有地域邊界的群體為第一抽樣單位,在選出的
10、地塊或居委會(huì)實(shí)施逐戶抽樣;市場(chǎng)調(diào)查中,最后一級(jí)抽樣時(shí),從居委會(huì)中抽取若干戶,然后調(diào)查抽中戶家中所有18歲以上成年人。優(yōu)點(diǎn):適用于群間差異小、群內(nèi)各個(gè)體差異大、可以依據(jù)外觀的或地域的差異來(lái)劃分的群體。缺點(diǎn):群內(nèi)單位有趨同性,其精度比簡(jiǎn)單抽樣為低。前面談到抽樣方法的一些基本分類和各自特點(diǎn),需要注意的是,在實(shí)際的運(yùn)用中,一個(gè)調(diào)查方案 常常不是只局限于使用某一種抽樣方式,而根據(jù)研究時(shí)段的不同采用多種抽樣方法的組鴿為實(shí)現(xiàn)不同的研究目的,有時(shí)甚至在同一時(shí)段綜合運(yùn)用幾種抽樣方法。例如,設(shè)計(jì)一個(gè)全國(guó)城市的入戶項(xiàng)目,在抽樣上可以分為幾個(gè)不同的步驟,包括:1)在項(xiàng)目正式開(kāi)始前,可以采用判斷抽樣法選出某一城市先作試
11、點(diǎn),在問(wèn)卷設(shè)計(jì)初期可以采用任意抽樣法選出部分人群進(jìn)行問(wèn)卷試訪。2)采用分層隨機(jī)抽樣法,確定全國(guó)要分別在多少個(gè)超大型市、多少個(gè)中型市、多少個(gè)小型市實(shí)施(先分出城市的幾個(gè)層次,再依據(jù)研究需要在各層用PPS法選取具體城市)3)采用簡(jiǎn)單抽樣法或PPS抽樣法,確定抽出城市中應(yīng)抽的地塊或居委會(huì);4)采用整群抽樣法,確定抽出地塊或居委會(huì)應(yīng)訪問(wèn)的家庭戶;5)在項(xiàng)目后期,可以采用判斷抽樣法選取某城市進(jìn)行深入研究。8.置信度與置信區(qū)間P(x1xx2)=1-a,稱1-a為置信度,x1,x2為置信區(qū)間置信度越大,置信區(qū)間越寬;置信區(qū)間越寬,置信度越大;置信度越小,置信區(qū)間越窄9.ROC曲線及含義ROC曲線指受試者工作
12、特征曲線(receiver operating characteristic curve), 是反映敏感性和特異性連續(xù)變量的綜合指標(biāo),是用構(gòu)圖法揭示敏感性和特異性的相互關(guān)系,它通過(guò)將連續(xù)變量設(shè)定出多個(gè)不同的臨界值,從而計(jì)算出一系列敏感性和特異性,再以敏感性為縱坐標(biāo)、(1-特異性)為橫坐標(biāo)繪制成曲線,曲線下面積越大,診斷準(zhǔn)確性越高。在ROC曲線上,最靠近坐標(biāo)圖左上方的點(diǎn)為敏感性和特異性均較高的臨界值。10.數(shù)據(jù)挖掘步驟 理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源(understanding)。 獲取相關(guān)知識(shí)與技術(shù)(acquisition)。 整合與檢查數(shù)據(jù)(integration and checking)。 去除錯(cuò)
13、誤或不一致的數(shù)據(jù)(data cleaning)。 建立模型和假設(shè)(model and hypothesis development)。 實(shí)際數(shù)據(jù)挖掘工作(data mining)。 測(cè)試和驗(yàn)證挖掘結(jié)果(testing and verfication)。 解釋和應(yīng)用(interpretation and use)。11.如何評(píng)估促銷活動(dòng)?11. Bayes公式(全概率公式)探索在已知結(jié)果的情況下,是由哪種原因引起的概率;12. 邏輯回歸(分類問(wèn)題)邏輯回歸適合求解哪些問(wèn)題:邏輯回歸本質(zhì)上解決的是分類問(wèn)題,Logistic回歸的主要用途: 尋找危險(xiǎn)因素:尋找某一疾病的危險(xiǎn)因素等; 預(yù)測(cè):根據(jù)模型,
14、預(yù)測(cè)在不同的自變量情況下,發(fā)生某病或某種情況的概率有多大; 判別:實(shí)際上跟預(yù)測(cè)有些類似,也是根據(jù)模型,判斷某人屬于某病或?qū)儆谀撤N情況的概率有多大,也就是看一下這個(gè)人有多大的可能性是屬于某病。11. 線性回歸線性回歸(一元和多元)中對(duì)誤差的假設(shè)都是假定服從均值為0方差為定值的正態(tài)分布,擬合系數(shù)的求解方法可以有最小二乘法梯度下降法等。關(guān)于殘差的假設(shè)為:零均值,同方差,正態(tài)性,不相關(guān),樣本隨機(jī)。回歸分析的自變量為連續(xù)性變量,而方差分析的自變量為離散型分類變量;廣義線性回歸于線性回歸的最大區(qū)別是隨機(jī)誤差的分布不一定是正態(tài)分布,與非線性模型的最大區(qū)別是非線性回歸無(wú)明確的隨機(jī)誤差分布假定。12. 過(guò)擬合現(xiàn)
15、象以及避免的方法所謂過(guò)擬合問(wèn)題:過(guò)擬合反映的是在學(xué)習(xí)訓(xùn)練中,模型對(duì)訓(xùn)練樣本達(dá)到非常高的逼近精度, 為了能夠?qū)颖就耆_的分類,使得它的構(gòu)造如此精細(xì)復(fù)雜,規(guī)則如此嚴(yán)格,以至于任何與樣本數(shù)據(jù)稍有不同的文檔它全都認(rèn)為不屬于這個(gè)類別,在測(cè)試數(shù)據(jù)上往往顯示出很差的效果.產(chǎn)生過(guò)擬合是因?yàn)椋?.由于對(duì)樣本數(shù)據(jù),可能存在隱單元的表示不唯一,即產(chǎn)生的分類的決策面不唯一.2.權(quán)值學(xué)習(xí)迭代次數(shù)足夠多(Overtraining),擬合了訓(xùn)練數(shù)據(jù)中的噪聲和訓(xùn)練樣例中沒(méi)有代表性的特征.過(guò)度擬合解決方法:1.權(quán)值衰減.它在每次迭代過(guò)程中以某個(gè)小因子降低每個(gè)權(quán)值 ,此方法的動(dòng)機(jī)是保持權(quán)值較小,避免weight decay,
16、從而使學(xué)習(xí)過(guò)程向著復(fù)雜決策面的反方向偏。2. 減少特征的數(shù)量,有人工選擇,或者采用模型選擇算法3.驗(yàn)證數(shù)據(jù) 一個(gè)最成功的方法是在訓(xùn)練數(shù)據(jù)外再為算法提供一套驗(yàn)證數(shù)據(jù),應(yīng)該使用在驗(yàn)證集合上產(chǎn)生最小誤差的迭代次數(shù),不是總能明顯地確定驗(yàn)證集合何時(shí)達(dá)到最小誤差.4.Cross-validation with some patterns 交叉驗(yàn)證方法在可獲得額外的數(shù)據(jù)提供驗(yàn)證集合時(shí)工作得很好,但是小訓(xùn)練集合的過(guò)度擬合問(wèn)題更為嚴(yán)重. k-fold交叉方法: 把訓(xùn)練樣例分成k份,然后進(jìn)行k次交叉驗(yàn)證過(guò)程,每次使用不同的一份作為驗(yàn)證集合,其余k-1份合并作為訓(xùn)練集合.每個(gè)樣例會(huì)在一次實(shí)驗(yàn)中被用作驗(yàn)證樣例,在k-
17、1次實(shí)驗(yàn)中被用作訓(xùn)練樣例;5.正則化方法正則化是結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略的實(shí)現(xiàn),是在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加一個(gè)正則化項(xiàng)或懲罰項(xiàng)。正則化項(xiàng)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜,正則化項(xiàng)就越大,正則化方法的作用是:保留所有特征但減小參數(shù)的取值。13. 監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)有監(jiān)督學(xué)習(xí):對(duì)具有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以盡可能對(duì)訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記(分類)預(yù)測(cè)。這里,所有的標(biāo)記(分類)是已知的。因此,訓(xùn)練樣本的岐義性低。所有的分類回歸算法都是有監(jiān)督算法,常見(jiàn)的算法有:SVM,KNN,決策樹(shù)算法,樸素Bayes算法,神經(jīng)網(wǎng)絡(luò),最小平方擬合,最大熵等。無(wú)監(jiān)督學(xué)習(xí):對(duì)沒(méi)有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行
18、學(xué)習(xí),以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識(shí)。這里,所有的標(biāo)記(分類)是未知的。因此,訓(xùn)練樣本的岐義性高。聚類就是典型的無(wú)監(jiān)督學(xué)習(xí),常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)算法:聚類,PCA,關(guān)聯(lián)規(guī)則算法Aprior,F(xiàn)P-Growth等。14.分位數(shù)3原則3原則:在區(qū)間上的概率密度曲線之下的面積占總面積的99.7%,對(duì)于標(biāo)準(zhǔn)正態(tài)分布有。15.常見(jiàn)分布的密度函數(shù)均值和方差16. 常見(jiàn)的區(qū)間估計(jì)以及假設(shè)檢驗(yàn)表對(duì)于均值的檢驗(yàn),方差已知一般采用U檢驗(yàn)(標(biāo)準(zhǔn)正太分布),方差未知采用T檢驗(yàn)(t分布);關(guān)于方差的檢驗(yàn),一般都采用卡方檢驗(yàn),若是兩個(gè)正太總體采用F檢驗(yàn);17.假設(shè)檢驗(yàn)P值(P value)是一個(gè)概率,就是當(dāng)原假設(shè)為真時(shí)所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的幾率。如果P值很小,說(shuō)明
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024上海市浦東新區(qū)九年級(jí)中考三模英語(yǔ)試卷試題
- 違約協(xié)議書(shū)(3篇)
- 財(cái)務(wù)轉(zhuǎn)正述職報(bào)告
- DB31∕T 239-2020 城市公共交通非接觸式集成電路(IC)卡交易終端機(jī)技術(shù)規(guī)范
- 培訓(xùn)資料-潔凈手術(shù)室管理及維護(hù)
- 著作權(quán)知識(shí)培訓(xùn)課件
- 股份制改革操作與實(shí)施方案
- 年度銷售計(jì)劃及執(zhí)行情況跟蹤表
- 業(yè)務(wù)成本分析報(bào)告表
- 2025年山東貨運(yùn)從業(yè)資格證試題庫(kù)和答案解析
- 10-化學(xué)動(dòng)力學(xué)基礎(chǔ)-1-考研試題資料系列
- 工傷保險(xiǎn)待遇核定表(樣表)
- DB33- 1015-2021《居住建筑節(jié)能設(shè)計(jì)標(biāo)準(zhǔn)》
- DB1310T 225-2020 木本植物滯納空氣顆粒物能力測(cè)定方法
- (高職)國(guó)際金融(第四版)電子課件(全套)
- 《飲料工藝學(xué)》課件第一章-緒論
- 中外合作辦學(xué)的可行性報(bào)告
- 母嬰保健課程標(biāo)準(zhǔn)
- 《農(nóng)民專業(yè)合作社登記管理?xiàng)l例》條文解讀(一
- 一年級(jí)的小豌豆我喜歡的一本書(shū)(課堂PPT)
- 電廠機(jī)組深度調(diào)峰摸底試驗(yàn)方案
評(píng)論
0/150
提交評(píng)論