


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、決策樹及應(yīng)用第5章 決策樹及應(yīng)用 問題概述各個(gè)領(lǐng)域的人工智能實(shí)現(xiàn),常常要涉及這樣的問題:從實(shí)際問題中提取數(shù)據(jù),并從數(shù)據(jù)中提煉一組數(shù)據(jù)規(guī)則,以支持知識推理實(shí)現(xiàn)智能的功能。知識規(guī)則一般以“原因結(jié)果”形式表示。一般地,獲取知識規(guī)則可以通過樣本集x1k,x2k,xnk,ykk=1,2,m,建模實(shí)現(xiàn)。由于推理結(jié)果是有限個(gè),即y的取值是有限的,所以這樣的建模屬于分類問題。利用神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)分類問題建模,但當(dāng)影響因素變量xi的個(gè)數(shù)較大時(shí),建模后的知識規(guī)則不易表示,特別地,當(dāng)默寫變量xi的取值缺失時(shí),即使神經(jīng)網(wǎng)絡(luò)具有容錯性,也會在一定程度上影響分類結(jié)果的不確定性。實(shí)際應(yīng)用中,決定分類結(jié)果可能只是幾個(gè)主要影響
2、因素取值,不依賴全部因素變量,因此,知識規(guī)則的提取,可以轉(zhuǎn)換為這樣的問題:某一分類下哪些變量是主要的影響因素,這些主要影響因素與分類結(jié)果的因素規(guī)則表示如何獲?。繘Q策樹就是解決這些問題的方法之一。 決策樹概述決策樹學(xué)習(xí)算法是一組樣本數(shù)據(jù)集(一個(gè)樣本數(shù)據(jù)也可以稱為實(shí)例)為基礎(chǔ)的一種歸納學(xué)習(xí)算法,它著眼于從一組無次序、無規(guī)則的樣本數(shù)據(jù)(概念)中推理出決策樹表示形式的分類規(guī)則。假設(shè)這里的樣本數(shù)據(jù)應(yīng)該能夠用“屬性結(jié)論”。決策時(shí)是一個(gè)可以自動對數(shù)據(jù)進(jìn)行分類的樹形結(jié)構(gòu),是樹形結(jié)構(gòu)的知識表示,可以直接轉(zhuǎn)換為分類規(guī)則。它能被看做基于屬性的預(yù)測模型,樹的根節(jié)點(diǎn)是整個(gè)數(shù)據(jù)集空間,每個(gè)分結(jié)點(diǎn)對應(yīng)一個(gè)分裂問題,它是對某
3、個(gè)單一變量的測試,該測試將數(shù)據(jù)集合空間分割成兩個(gè)或更多數(shù)據(jù)塊,每個(gè)葉結(jié)點(diǎn)是帶有分類結(jié)果的數(shù)據(jù)分割。決策樹算法主要針對“以離散型變量作為屬性類型進(jìn)行分類”的學(xué)習(xí)方法。對于連續(xù)性變量,必須被離散化才能被學(xué)習(xí)和分類?;跊Q策樹的決策算法的最大的有點(diǎn)就在于它在學(xué)習(xí)過程中不需要了解很多的背景知識,只從樣本數(shù)據(jù)及提供的信息就能夠產(chǎn)生一顆決策樹,通過樹結(jié)點(diǎn)的分叉判別可以使某一分類問題僅與主要的樹結(jié)點(diǎn)對應(yīng)的變量屬性取值相關(guān),即不需要全部變量取值來判別對應(yīng)的范類。 決策樹基本算法一顆決策樹的內(nèi)部結(jié)點(diǎn)是屬性或?qū)傩缘募?,兒葉結(jié)點(diǎn)就是學(xué)習(xí)劃分的類別或結(jié)論,內(nèi)部結(jié)點(diǎn)的屬性稱為測試屬性或分裂屬性。當(dāng)通過一組樣本數(shù)據(jù)集的
4、學(xué)習(xí)產(chǎn)生了一顆決策樹之后,就可以對一組新的未知數(shù)據(jù)進(jìn)行分類。使用決策樹對數(shù)據(jù)進(jìn)行分類的時(shí)候,采用自頂向下的遞歸方法,對決策樹內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的判斷比較并根據(jù)不同的屬性值決定走向哪一條分支,在葉節(jié)點(diǎn)處就得到了新數(shù)據(jù)的類別或結(jié)論。從上面的描述可以看出從根結(jié)點(diǎn)到葉結(jié)點(diǎn)的一條路徑對應(yīng)著一條合取規(guī)則,而整棵決策樹對應(yīng)著一組合取規(guī)則。cc2c1b2b1a2a1 4321ab圖 簡單決策樹根據(jù)決策樹內(nèi)部結(jié)點(diǎn)的各種不同的屬性,可以將決策樹分為以下幾種:(1)當(dāng)決策樹的每一個(gè)內(nèi)部結(jié)點(diǎn)都只包含一個(gè)屬性時(shí),稱為單變量決策樹;當(dāng)決策樹存在包含多個(gè)變量的內(nèi)部結(jié)點(diǎn)時(shí),稱為多變量決策樹。(2)根據(jù)測試屬性的不同屬性值的個(gè)
5、數(shù),可能使得每一個(gè)內(nèi)部結(jié)點(diǎn)有兩個(gè)或者是多個(gè)分支,如果每一個(gè)內(nèi)部結(jié)點(diǎn)只有兩個(gè)分支則稱之為二叉樹決策。(3)分類結(jié)果可能是兩類也可能是多類,二叉樹決策的分類結(jié)果只能有兩類,股也稱之為布爾決策樹。 cls算法cls學(xué)習(xí)算法是1966年有hunt等人提出的。它是最早的決策樹學(xué)習(xí)算法。后來的許多決策樹算法都可以看作是cls學(xué)習(xí)算法的改進(jìn)與更新。cls的算法的思想就是從一個(gè)空的決策出發(fā),根據(jù)樣本數(shù)據(jù)不斷增加新的分支結(jié)點(diǎn),直到產(chǎn)生的決策樹能夠正確地將樣本數(shù)據(jù)分類為止。cls算法的步驟如下:(1)令決策樹t的初始狀態(tài)只含有一個(gè)樹根(x,q),其中x是全體樣本數(shù)據(jù)的集合,q是全體測試屬性的集合。(2)如果t中所
6、有葉結(jié)點(diǎn)(x',q)都有如下狀態(tài):或者x'中的樣本數(shù)據(jù)都是屬于同一個(gè)類,或者q為空,則停止執(zhí)行學(xué)習(xí)算法,學(xué)習(xí)的結(jié)果為t。(3)否則,選擇一個(gè)不具有(2)所描述狀態(tài)的葉節(jié)點(diǎn)(x',q).(4)對于q,按照一定規(guī)則選取屬性bq,設(shè)x'被b的不同取值分為m個(gè)不同的子集x',1im,從(x',q)伸出m個(gè)分支,每個(gè)分支代表屬性b的一個(gè)不同取值,從而形成m個(gè)新的葉結(jié)點(diǎn)(x',q-b),1im。(5)轉(zhuǎn)(2)。在算法步驟(4)中,并沒有明確地說明按照怎樣的規(guī)則來選取測試屬性,所以cls有很大的改進(jìn)空間,而后來很多的決策樹學(xué)習(xí)算法都是采取了各種各樣的規(guī)
7、則和標(biāo)準(zhǔn)來選取測試屬性,所以說后來的各種決策樹學(xué)習(xí)算法都是cls學(xué)習(xí)算法的改進(jìn)。 信息熵shannon在1948年提出并發(fā)展了信息論的觀點(diǎn),主張用數(shù)學(xué)方法度量和研究信息,提出了以下的一些概念。決策樹學(xué)習(xí)算法是以信息熵為基礎(chǔ)的,這些概念將有助于理解后續(xù)的算法。(1)自信息量:在收到ai之前,接收者對信源發(fā)出ai的不確定性定義為信息符號ai的自信息量iai=-log2pai,其中pai是取值為ai的概率。自信息量反映了接收ai的不確定性,自信息量越大,不確定性越大。(2)信息熵:自信息量只能反映符號的不確定性,而信息上可以用來度量整個(gè)信源x整體的不確定性。hx=-pa1log2pa1+-panlo
8、g2pan =-i=1npailog2pai 式中:n是信源x所有可能的符號數(shù);ai是可能取到的值;pai是取值為ai的概率;信息熵是各個(gè)自信息量的期望。(3)條件熵:如果信源x與隨機(jī)變量y不是相互獨(dú)立的,接收者收到信息y,那么用條件熵hx|y來度量接信者收到隨機(jī)變量y之后,對隨機(jī)變量x仍然存在的不確定性。x對應(yīng)信源符號aii=1,2,n,y對應(yīng)信源符號bii=1,2,s,pai|bj為當(dāng)y為bj時(shí)x為ai的概率,則有hx|y=j=1spbjhx|bj =j=1spbj-i=1npai|bjlog2pai|bj =-j=1si=1npbj pai|bjlog2pai|bj =-j=1si=1n
9、 pai,bjlog2paibj即條件熵是各種不同條件下的信息熵期望。(4)平均互信息量:用來表示信號y所能提供的關(guān)于x的信息量的大小,用下式表示,即ix|y=hx-hx|y id3算法上一節(jié)已經(jīng)提到的cls算法并沒有明確地說明按照怎樣的規(guī)則和標(biāo)準(zhǔn)來確定不同層次的樹結(jié)點(diǎn)(即測試屬性),quinlan于1979年提出的以信息熵的下降速度作為選取測試屬性的標(biāo)準(zhǔn)。id3算法是各種決策樹學(xué)習(xí)算法中最有影響力、使用最廣泛的一種決策樹學(xué)習(xí)算法。 基本思想設(shè)樣本數(shù)據(jù)集為x,目的是要把樣本數(shù)據(jù)集分為n類。設(shè)屬于第i類的樣本數(shù)據(jù)個(gè)數(shù)是ci,x 中總的樣本數(shù)據(jù)個(gè)數(shù)是x,則一個(gè)樣本數(shù)據(jù)屬于第i類的概率pci=cix
10、。此時(shí)決策樹對劃分c的不確定程度(即信息熵)為 hx,c=hx=-i=1npcilog2pci 若選擇屬性a(設(shè)屬性a有m個(gè)不同的取值)進(jìn)行測試,其不確定程度(即條件熵)為hx|a=-i=1nj=1mpci,a=aj log2pci|a=aj =-i=1nj=1mpa=aj pci|a=aj log2pci|a=aj =j=1mpa=aj i=1npci|a=aj log2pci|a=aj 則屬性a對于分類提供的信息量為ix,a=hx-hx|a式中:ix,a表示選擇了屬性a作為分類屬性之后信息熵的下降程度,亦即不確定性下降的程度,所以應(yīng)該選擇時(shí)的ix,a最大的屬性作為分類的屬性,這樣得到的決策
11、樹的確定性最大??梢奿d3算法繼承了cls算法,并且根據(jù)信息論選擇時(shí)的ix,a最大的屬性作為分類屬性的測試屬性選擇標(biāo)準(zhǔn)。另外,id3算法除了引入信息論作為選擇測試屬性的標(biāo)準(zhǔn)之外,并且引入窗口的方法進(jìn)行增量學(xué)習(xí)。id3算法的步驟如下:(1)選出整個(gè)樣本數(shù)據(jù)集x的規(guī)模為w的隨機(jī)子集x1(w稱為窗口規(guī)模,子集稱為窗口)。(2)以ix,a=hx-hx|a的值最大,即hx|a的值最小為標(biāo)準(zhǔn),選取每次的測試屬性,形成 當(dāng)前窗口的決策樹。(3)順序掃描所有樣本數(shù)據(jù),找出當(dāng)前的決策樹的例外,如果沒有例外則結(jié)束。(4)組合當(dāng)前窗口的一些樣本數(shù)據(jù)與某些(3)中找到的李哇哦形成新的窗口,轉(zhuǎn)(2)。 id3算法應(yīng)用實(shí)
12、例表是有關(guān)天氣的數(shù)據(jù)樣本集合。每一樣本有4個(gè)屬性變量:outlook,temperature,humidity和windy。樣本被分為兩類,p和n,分別表示正例和反例。表 天氣樣本數(shù)據(jù)首先計(jì)算信息熵hx,由表可知,一共有24條記錄,其中p類的記錄和n類的記錄都是12條,則根據(jù)上面介紹的信息熵和條件熵的算法,可以得到信息熵值為hx=-1224log21224-1224log21224=1如果選取outlook屬性作為測試屬性,則計(jì)算條件熵值hx|outlook。有表可知,outlook屬性共有3個(gè)屬性值,分別是overcast、sunny和rain。outlook屬性取overcast屬性值的記
13、錄共有9條,其中p類的記錄和n類的記錄分別是4條和5條,因此有overcast引起的熵值為-92449log249+59log259。而outlook屬性取sunny屬性值的記錄共有7條,其中p類的記錄和n類的記錄分別是7條和0條,因此有sunny引起的熵值為-72477log277。同理,outlook屬性取rain屬性值的記錄共有8條,其中p類的記錄和n類的記錄分別是1條和7條,因此有rain引起的熵值為-82418log218+78log278。因此條件熵值hx|outlook應(yīng)為上述三個(gè)式子之和,得到hx|outlook=-92449log249+59log259 -72477log2
14、77 -82418log218+78log278=0.5528仿照上面條件熵值hx|outlook的計(jì)算方法,可以得到,如果選取temperature屬性為測試屬性,則條件熵值為hx|temperature=-82448log248+48log248 -1124411log2411+711log2711 -52445log245+15log215=0.9172如果選取humidity屬性為測試屬性,則條件熵值為hx|humidity=-1224412log2412+812log2812 -1224412log2412+812log2812=0.9172如果選取windy屬性為測試屬性,則條件熵
15、值為hx|windy=-82448log248+48log248 -62436log236+36log236 -1024510log2510+510log2510=1可見hx|outlook的值最小,所以應(yīng)該選擇outlook屬性作為測試屬性,得到根據(jù)結(jié)點(diǎn)為outlook屬性,根據(jù)不同記錄的outlook屬性取值的不同,向下引出三條分支,如圖所示,其中的數(shù)字代表第幾條記錄。rainsunnyoutlookovercast(6,7,8,9,10,17,18,24)(1,2,3,13,14,15,16,19,20)(4,5,11,12,21,22,23)圖 id3算法第一次分類的決策樹綜合表和圖可
16、以看出,由sunny引出的分支包括(4,5,11,12,21,22,23)共7條記錄,這7條記錄都是屬于p類的,因此由sunny音粗的分支得到的是p類。由overcast引出的分支包括(1,2,3,13,14,15,16,19,20)共9條記錄,類似上面的做法,可以求得 hx|temperature=-3933log233 -4924log224+24log224 -2922log222=0.4444hx|humidity=-5955log255-4944log244=0 hx|windy=-3913log213+23log223 -2912log212+12log212 -4924log22
17、4+24log224=0.9728可見hx|humidity的值最小,因此,對于由overcast引出的分支包括的9條記錄(1,2,3,13,14,15,16,19,20)應(yīng)該選擇humidity作為測試屬性。重復(fù)上面的做法,直到每一個(gè)分支的記錄的都是屬于同一類,算法結(jié)束。最后得到的決策樹如圖所示。rainsunnyoutlooknotverycoolmildhothighnormalovercastnnnppppwindynptemperatureppphumiditypp圖 id3算法下的決策樹 算法算法(信息比算法)是由quinlan自己擴(kuò)充id3算法提出來的,是id3算法的改進(jìn),它在i
18、d3的基礎(chǔ)上增加了對連續(xù)屬性、屬性空缺情況的處理,對樹剪枝也有了較成熟的方法。 基本思想與id3算法不同,算法挑選具有最高信息增益率的屬性最為測試屬性。對樣本集t,假設(shè)變量a有n個(gè)屬性,屬性取值a1,a2,ak,對應(yīng)a取值為ai出席那的樣本個(gè)數(shù)分別為ni,若n是樣本的總數(shù),則應(yīng)有n1+n2+nk=n。quinlan利用屬性a的熵值hx,a來定義為了獲取樣本關(guān)于屬性a的信息所需要付出的代價(jià),即hx,a=-i=1kpailog2pai-i=1kninlog2nin信息增益率定義為平均互信息與獲取a信息所付出代價(jià)的比值,即ex,a=ix,ahx,a即信息增益率是單位代價(jià)所獲得的信息量,是一種相對的信
19、息量不確定性度量。一信息增益率作為測試屬性的選擇標(biāo)準(zhǔn),是選擇ex,a最大的屬性a作為測試屬性。算法在如下幾個(gè)方面改進(jìn)id3算法:(1)一些樣本的某些屬性取值可能為空,字啊構(gòu)建決策樹時(shí),可以簡單地忽略確實(shí)的屬性,即再計(jì)算增益率時(shí),即考慮具有屬性值的記錄。為了對一個(gè)具有缺失屬性值的記錄進(jìn)行分類,可以基于已知屬性值的其他記錄來預(yù)測缺失的屬性值。(2)算法不僅可以處理離散屬性,而且可以處理連續(xù)屬性。基本思想是基于訓(xùn)練樣本中元祖的屬性值將數(shù)據(jù)劃分為一些區(qū)域。(3)增加了剪枝算法。在中,有兩種基本的剪枝策略:子樹替代法剪枝是指用就葉結(jié)點(diǎn)替代子樹。僅當(dāng)替代后的誤差率與原始樹的誤差率接近時(shí)才替代。子樹替代是從
20、樹枝向樹根方向進(jìn)行的。子樹上升法剪枝是指用一顆子樹中最常用的子樹來代替這顆子樹。子樹從當(dāng)前位置上升到樹中較高的結(jié)點(diǎn)處。對于這種替代也需要確定誤差率的增加量。(4)分裂時(shí)id3算法偏袒具有較多值得屬性,因而可能導(dǎo)致過擬合,而信息增益率函數(shù)可以彌補(bǔ)這個(gè)缺陷。但是這個(gè)算法同樣存在缺點(diǎn),它偏向于選擇對統(tǒng)一屬性取值比較集中的屬性(即熵值最小的屬性),而并不一定是對分類貢獻(xiàn)最大、最重要的屬性。 基于信息增益率建模的決策樹數(shù)據(jù)仍按表所列,為了計(jì)算outlook屬性作為測試屬性的增益比率,首先要計(jì)算在忽略類別情況下該測試屬性的熵,即hx,outlook=-924log2924-724log2724-824lo
21、g2824=1.5774又根據(jù)上一節(jié)有hx=-1224log21224-1224log21224=1因此,對于outlook屬性增益比率值為ex,outlook=ix,outlookhx,outlook=1-0.5528105774=0.2835仍照上面熵值hx,outlook的計(jì)算方法,可以得到,如果選取temperature屬性為測試屬性,則有hx|temperature=-824log2824-1124log21124-524log2524=1.5156ex,temperature=1-0.91831=0.0817如果選取humidity屬性為測試屬性,則有hx|humidity=-12
22、24log21224-1224log21224=1ex,humidity=1-0.91721.5156=0.0546如果選取windy屬性為測試屬性,則有hx|windy=-824log2824-624log2624-1024log21024=1.5546ex,windy=1-11.5546=0可見ex,outlook的值最大,所以應(yīng)該選擇outlook屬性作為測試屬性。在該例中,id3算法與信息增益率法建模得到的決策樹沒有區(qū)別,即以獲取信息量確定性的絕對定義與相對定義在該例建數(shù)中沒有區(qū)別。這里去下的信息增益率的遞歸算法略去。 cart算法 基本思想在id3與算法中,當(dāng)確定作為某層樹結(jié)點(diǎn)的變量
23、屬性取值較多時(shí),按每一屬性值引出一分支進(jìn)行遞歸算法,就會出現(xiàn)引出的分支較多,對應(yīng)算法次數(shù)也多,使決策樹算法速度緩慢,是否可以是每一樹結(jié)點(diǎn)引出分支盡可能少,以提高算法速度?分類與回歸算法(classification and regression trees,cart)是一種產(chǎn)生二叉決策樹的技術(shù),即每個(gè)樹結(jié)點(diǎn)(即測試屬性)與id3算法一樣,以平均互信息作為分裂屬性的度量,對于取定的測試屬性變量t,若t有n個(gè)屬性值s1,s2,sn,應(yīng)選取哪個(gè)屬性值si作為分裂點(diǎn)引出兩個(gè)分支以使分類結(jié)果是盡可能合理正確?“最佳”分裂屬性值s0被定義為滿足條件s0t=maxisit其中st=2plprj=1mpci|
24、tl-pcj|trst主要度量在結(jié)點(diǎn)t的s屬性值引出的兩個(gè)分支時(shí),兩只分支的出現(xiàn)的可能性以及兩分支每個(gè)分類結(jié)果出現(xiàn)的可能性差異大小。當(dāng)st較大時(shí),表示兩分支分類結(jié)果出現(xiàn)的可能性差異大,即分類不均勻,特別地,當(dāng)一分支完全含有同一類別結(jié)果的樣本而另一分支不含有時(shí),差異最大,這種情況越早出現(xiàn),表示利用越少結(jié)點(diǎn),可以越快獲得分類結(jié)果。st中的l和r是指樹中當(dāng)前結(jié)點(diǎn)的左子樹和右子樹。pl和pr分別指在訓(xùn)練集(樣本集)中的樣本在樹的左邊和右邊的概率,具體定義為pl=左子樹中的樣本數(shù)樣本總數(shù)右分支的定義為pr=右子樹中的樣本數(shù)樣本總數(shù)pci|tl和pci|tl分別指在左子樹和右子樹中的樣本屬于類別ci的概率
25、,定義為pci|tl=左子樹屬于ci 類的樣本數(shù)tl結(jié)點(diǎn)樣本數(shù)pci|tr=右子樹屬于ci 類的樣本數(shù)tr結(jié)點(diǎn)樣本數(shù) 基于cart算法建模的決策樹表給出了一個(gè)光宇身高的數(shù)據(jù)集合。它有兩個(gè)屬性:性別和身高,被分為三類,分別是矮、中和高。表 身高樣本數(shù)據(jù)設(shè)應(yīng)用平均互信獲得當(dāng)前樹結(jié)點(diǎn)是身高屬性t,t的取值s被劃分為6個(gè)自區(qū)間:(0,),,),),),),)。利用這些區(qū)間,可得到潛在的分裂值,。因此,一句上述分裂點(diǎn)定義,需要從6個(gè)可能的屬性值中選擇一個(gè)分裂點(diǎn),cart算法如下:(1)當(dāng)s=時(shí),由于pl身高<1.6=015=0,所以1.6|身高=0。(2)當(dāng)s=時(shí),設(shè)c1代表矮類,c2代表中類,c
26、3代表高類,為了選擇分裂屬性,對于c1:樣本身高<時(shí),pc1|tl=215,樣本身高1.7時(shí),pc1|tr=215,pc1|tl-pc1|tr=0;對于c2:樣本身高<時(shí),pc2|tl=0,樣本身高1.7時(shí),pc2|tr=815,pc2|tl-pc2|tr=815;對于c3:樣本身高<時(shí),pc3|tl=0,樣本身高1.7時(shí),pc3|tr=315,pc3|tl-pc3|tr=315;p l=p l<1.7=215,pr=pr1.7=1315所以,1.7|身高=221513150+815+315=0.169。同理,可以計(jì)算1.8|身高,1.9|身高,2.0|身高,綜合有1.
27、6=01.7=221513150+815+315=0.1691.8=25151015415+615+315=0.3851.9=2915615415+215+315=0.2562.0=21215315415+815+315=0.32可見在分裂點(diǎn)處取得最大值,所以應(yīng)該選擇身高屬性作為第一個(gè)測試屬性,作為第一個(gè)分裂點(diǎn),如圖所示,其中3中的數(shù)字代表第幾條記錄。身高 1.8 <1.8 (1,5,7,8,15)(2,3,4,6,9,10,11,12,13,14)圖 cart算法第一次分裂決策樹從圖可以看到有由身高1.8引出的分支(2,3,4,6,9,10,11,12,13,14)包括共10條記錄。為
28、了能夠區(qū)別最終的分類,可以繼續(xù)對分支子集應(yīng)用平均互信息確定測試屬性,根據(jù)測試屬性在確定二叉樹的最佳分裂屬性值,直至能夠分出每一類,停止樹生長。 決策樹的評價(jià)標(biāo)準(zhǔn)決策樹的優(yōu)劣有許多評價(jià)標(biāo)準(zhǔn),包括正確性(正確率)、過學(xué)習(xí)、有效性(錯誤率)、復(fù)雜性等。決策樹的復(fù)雜程度也是度量決策樹學(xué)習(xí)效果的一個(gè)很重要的標(biāo)準(zhǔn),一般有以下三種評價(jià)標(biāo)準(zhǔn):(1)最優(yōu)覆蓋問題(),即生成最少數(shù)目葉結(jié)點(diǎn)的決策樹。(2)最簡公式問題(),即生成每個(gè)葉節(jié)點(diǎn)深度最小的決策樹。( 1一 月二 月三 月產(chǎn)品名稱數(shù)量金額利潤產(chǎn)品名稱數(shù)量金額利潤產(chǎn)品名稱數(shù)量金額利潤合 計(jì)合 計(jì)合 計(jì)四 月五 月六 月產(chǎn)品名稱數(shù)量金額利潤產(chǎn)品名稱數(shù)量金額利潤
29、產(chǎn)品名稱數(shù)量金額利潤合 計(jì)合 計(jì)合 計(jì)b實(shí)行不定時(shí)工作制的員工,在保證完成甲方工作任務(wù)情況下,經(jīng)公司同意,可自行安排工作和休息時(shí)間。312打卡制度公司實(shí)行上、下班指紋錄入打卡制度。全體員工都必須自覺遵守工作時(shí)間,實(shí)行不定時(shí)工作制的員工不必打卡。打卡次數(shù):一日兩次,即早上上班打卡一次,下午下班打卡一次。打卡時(shí)間:打卡時(shí)間為上班到崗時(shí)間和下班離崗時(shí)間; 因公外出不能打卡:因公外出不能打卡應(yīng)填寫外勤登記表,注明外出日期、事由、外勤起止時(shí)間。因公外出需事先申請,如因特殊情況不能事先申請,應(yīng)在事畢到崗當(dāng)日完成申請、審批手續(xù),否則按曠工處理。因停電、卡鐘(工卡)故障未打卡的員工,上班前、下班后要及時(shí)到部門
30、考勤員處填寫未打卡補(bǔ)簽申請表,由直接主管簽字證明當(dāng)日的出勤狀況,報(bào)部門經(jīng)理、人力資源部批準(zhǔn)后,月底由部門考勤員據(jù)此上報(bào)考勤。上述情況考勤由各部門或分公司和項(xiàng)目文員協(xié)助人力資源部進(jìn)行管理。手工考勤制度手工考勤制申請:由于工作性質(zhì),員工無法正常打卡(如外圍人員、出差),可由各部門提出人員名單,經(jīng)主管副總批準(zhǔn)后,報(bào)人力資源部審批備案。參與手工考勤的員工,需由其主管部門的部門考勤員(文員)或部門指定人員進(jìn)行考勤管理,并于每月26日前向人力資源部遞交考勤報(bào)表。參與手工考勤的員工如有請假情況發(fā)生,應(yīng)遵守相關(guān)請、休假制度,如實(shí)填報(bào)相關(guān)表單。 外派員工在外派工作期間的考勤,需在外派公司打卡記錄;如遇中途出差,
31、持出差證明,出差期間的考勤在出差地所在公司打卡記錄;加班管理定義加班是指員工在節(jié)假日或公司規(guī)定的休息日仍照常工作的情況。a現(xiàn)場管理人員和勞務(wù)人員的加班應(yīng)嚴(yán)格控制,各部門應(yīng)按月工時(shí)標(biāo)準(zhǔn),合理安排工作班次。部門經(jīng)理要嚴(yán)格審批員工排班表,保證員工有效工時(shí)達(dá)到要求。凡是達(dá)到月工時(shí)標(biāo)準(zhǔn)的,應(yīng)扣減員工本人的存休或工資;對超出月工時(shí)標(biāo)準(zhǔn)的,應(yīng)說明理由,報(bào)主管副總和人力資源部審批。 b因員工月薪工資中的補(bǔ)貼已包括延時(shí)工作補(bǔ)貼,所以延時(shí)工作在4小時(shí)(不含)以下的,不再另計(jì)加班工資。因工作需要,一般員工延時(shí)工作4小時(shí)至8小時(shí)可申報(bào)加班半天,超過8小時(shí)可申報(bào)加班1天。對主管(含)以上管理人員,一般情況下延時(shí)工作不計(jì)
32、加班,因特殊情況經(jīng)總經(jīng)理以上領(lǐng)導(dǎo)批準(zhǔn)的延時(shí)工作,可按以上標(biāo)準(zhǔn)計(jì)加班。員工加班應(yīng)提前申請,事先填寫加班申請表,因無法確定加班工時(shí)的,應(yīng)在本次加班完成后3個(gè)工作日內(nèi)補(bǔ)填加班申請表。加班申請表經(jīng)部門經(jīng)理同意,主管副總經(jīng)理審核報(bào)總經(jīng)理批準(zhǔn)后有效。加班申請表必須事前當(dāng)月內(nèi)上報(bào)有效,如遇特殊情況,也必須在一周內(nèi)上報(bào)至總經(jīng)理批準(zhǔn)。如未履行上述程序,視為乙方自愿加班。員工加班,也應(yīng)按規(guī)定打卡,沒有打卡記錄的加班,公司不予承認(rèn);有打卡記錄但無公司總經(jīng)理批準(zhǔn)的加班,公司不予承認(rèn)加班。原則上,參加公司組織的各種培訓(xùn)、集體活動不計(jì)加班。加班工資的補(bǔ)償:員工在排班休息日的加班,可以以倒休形式安排補(bǔ)休。原則上,員工加班以
33、倒休形式補(bǔ)休的,公司將根據(jù)工作需要統(tǒng)一安排在春節(jié)前后補(bǔ)休。加班可按1:1的比例沖抵病、事假。加班的申請、審批、確認(rèn)流程加班申請表在各部門文員處領(lǐng)取,加班統(tǒng)計(jì)周期為上月26日至本月25日。員工加班也要按規(guī)定打卡,沒有打卡記錄的加班,公司不予承認(rèn)。各部門的考勤員(文員)負(fù)責(zé)加班申請表的保管及加班申報(bào)。員工加班應(yīng)提前申請,事先填寫加班申請表加班前到部門考勤員(文員)處領(lǐng)取加班申請表,加班申請表經(jīng)項(xiàng)目管理中心或部門經(jīng)理同意,主管副總審核,總經(jīng)理簽字批準(zhǔn)后有效。填寫并履行完審批手續(xù)后交由部門考勤員(文員)保管。部門考勤員(文員)負(fù)責(zé)檢查、復(fù)核確認(rèn)考勤記錄的真實(shí)有效性并在每月27日匯總交人力資源部,逾期未
34、交的加班記錄公司不予承認(rèn)。下午13:0017:00度。全體員工都必須自覺遵守工作時(shí)間,實(shí)行不定時(shí)工作制的員工不必打卡。打卡次數(shù):一日兩次,即早上上班打卡一次,下午下班打卡一次。打卡時(shí)間:打卡時(shí)間為上班到崗時(shí)間和下班離崗時(shí)間; 因公外出不能打卡:因公外出不能打卡應(yīng)填寫外勤登記表,注明外出日期、事由、外勤起止時(shí)間。因公外出需事先申請,如因特殊情況不能事先申請,應(yīng)在事畢到崗當(dāng)日完成申請、審批手續(xù),否則按曠工處理。因停電、卡鐘(工卡)故障未打卡的員工,上班前、下班后要及時(shí)到部門考勤員處填寫未打卡補(bǔ)簽申請表,由直接主管簽字證明當(dāng)日的出勤狀況,報(bào)部門經(jīng)理、人力資源部批準(zhǔn)后,月底由部門考勤員據(jù)此上報(bào)考勤。上
35、述情況考勤由各部門或分公司和項(xiàng)目文員協(xié)助人力資源部進(jìn)行管理。手工考勤制度手工考勤制申請:由于工作性質(zhì),員工無法正常打卡(如外圍人員、出差),可由各部門提出人員名單,經(jīng)主管副總批準(zhǔn)后,報(bào)人力資源部審批備案。參與手工考勤的員工,需由其主管部門的部門考勤員(文員)或部門指定人員進(jìn)行考勤管理,并于每月26日前向人力資源部遞交考勤報(bào)表。參與手工考勤的員工如有請假情況發(fā)生,應(yīng)遵守相關(guān)請、休假制度,如實(shí)填報(bào)相關(guān)表單。 外派員工在外派工作期間的考勤,需在外派公司打卡記錄;如遇中途出差,持出差證明,出差期間的考勤在出差地所在公司打卡記錄;加班管理定義加班是指員工在節(jié)假日或公司規(guī)定的休息日仍照常工作的情況。a現(xiàn)場
36、管理人員和勞務(wù)人員的加班應(yīng)嚴(yán)格控制,各部門應(yīng)按月工時(shí)標(biāo)準(zhǔn),合理安排工作班次。部門經(jīng)理要嚴(yán)格審批員工排班表,保證員工有效工時(shí)達(dá)到要求。凡是達(dá)到月工時(shí)標(biāo)準(zhǔn)的,應(yīng)扣減員工本人的存休或工資;對超出月工時(shí)標(biāo)準(zhǔn)的,應(yīng)說明理由,報(bào)主管副總和人力資源部審批。 b因員工月薪工資中的補(bǔ)貼已包括延時(shí)工作補(bǔ)貼,所以延時(shí)工作在4小時(shí)(不含)以下的,不再另計(jì)加班工資。因工作需要,一般員工延時(shí)工作4小時(shí)至8小時(shí)可申報(bào)加班半天,超過8小時(shí)可申報(bào)加班1天。對主管(含)以上管理人員,一般情況下延時(shí)工作不計(jì)加班,因特殊情況經(jīng)總經(jīng)理以上領(lǐng)導(dǎo)批準(zhǔn)的延時(shí)工作,可按以上標(biāo)準(zhǔn)計(jì)加班。員工加班應(yīng)提前申請,事先填寫加班申請表,因無法確定加班工時(shí)
37、的,應(yīng)在本次加班完成后3個(gè)工作日內(nèi)補(bǔ)填加班申請表。加班申請表經(jīng)部門經(jīng)理同意,主管副總經(jīng)理審核報(bào)總經(jīng)理批準(zhǔn)后有效。加班申請表必須事前當(dāng)月內(nèi)上報(bào)有效,如遇特殊情況,也必須在一周內(nèi)上報(bào)至總經(jīng)理批準(zhǔn)。如未履行上述程序,視為乙方自愿加班。員工加班,也應(yīng)按規(guī)定打卡,沒有打卡記錄的加班,公司不予承認(rèn);有打卡記錄但無公司總經(jīng)理批準(zhǔn)的加班,公司不予承認(rèn)加班。原則上,參加公司組織的各種培訓(xùn)、集體活動不計(jì)加班。加班工資的補(bǔ)償:員工在排班休息日的加班,可以以倒休形式安排補(bǔ)休。原則上,員工加班以倒休形式補(bǔ)休的,公司將根據(jù)工作需要統(tǒng)一安排在春節(jié)前后補(bǔ)休。加班可按1:1的比例沖抵病、事假。加班的申請、審批、確認(rèn)流程加班申請
38、表在各部門文員處領(lǐng)取,加班統(tǒng)計(jì)周期為上月26日至本月25日。員工加班也要按規(guī)定打卡,沒有打卡記錄的加班,公司不予承認(rèn)。各部門的考勤員(文員)負(fù)責(zé)加班申請表的保管及加班申報(bào)。員工加班應(yīng)提前申請,事先填寫加班申請表加班前到部門考勤員(文員)處領(lǐng)取加班申請表,加班申請表經(jīng)項(xiàng)目管理中心或部門經(jīng)理同意,主管副總審核,總經(jīng)理簽字批準(zhǔn)后有效。填寫并履行完審批手續(xù)后交由部門考勤員(文員)保管。部門考勤員(文員)負(fù)責(zé)檢查、復(fù)核確認(rèn)考勤記錄的真實(shí)有效性并在每月27日匯總交人力資源部,逾期未交的加班記錄公司不予承認(rèn)。下午13:0017:00度。全體員工都必須自覺遵守工作時(shí)間,實(shí)行不定時(shí)工作制的員工不必打卡。打卡次數(shù)
39、:一日兩次,即早上上班打卡一次,下午下班打卡一次。打卡時(shí)間:打卡時(shí)間為上班到崗時(shí)間和下班離崗時(shí)間; 因公外出不能打卡:因公外出不能打卡應(yīng)填寫外勤登記表,注明外出日期、事由、外勤起止時(shí)間。因公外出需事先申請,如因特殊情況不能事先申請,應(yīng)在事畢到崗當(dāng)日完成申請、審批手續(xù),否則按曠工處理。因停電、卡鐘(工卡)故障未打卡的員工,上班前、下班后要及時(shí)到部門考勤員處填寫未打卡補(bǔ)簽申請表,由直接主管簽字證明當(dāng)日的出勤狀況,報(bào)部門經(jīng)理、人力資源部批準(zhǔn)后,月底由部門考勤員據(jù)此上報(bào)考勤。上述情況考勤由各部門或分公司和項(xiàng)目文員協(xié)助人力資源部進(jìn)行管理。手工考勤制度手工考勤制申請:由于工作性質(zhì),員工無法正常打卡(如外圍
40、人員、出差),可由各部門提出人員名單,經(jīng)主管副總批準(zhǔn)后,報(bào)人力資源部審批備案。參與手工考勤的員工,需由其主管部門的部門考勤員(文員)或部門指定人員進(jìn)行考勤管理,并于每月26日前向人力資源部遞交考勤報(bào)表。參與手工考勤的員工如有請假情況發(fā)生,應(yīng)遵守相關(guān)請、休假制度,如實(shí)填報(bào)相關(guān)表單。 外派員工在外派工作期間的考勤,需在外派公司打卡記錄;如遇中途出差,持出差證明,出差期間的考勤在出差地所在公司打卡記錄;加班管理定義加班是指員工在節(jié)假日或公司規(guī)定的休息日仍照常工作的情況。a現(xiàn)場管理人員和勞務(wù)人員的加班應(yīng)嚴(yán)格控制,各部門應(yīng)按月工時(shí)標(biāo)準(zhǔn),合理安排工作班次。部門經(jīng)理要嚴(yán)格審批員工排班表,保證員工有效工時(shí)達(dá)到
41、要求。凡是達(dá)到月工時(shí)標(biāo)準(zhǔn)的,應(yīng)扣減員工本人的存休或工資;對超出月工時(shí)標(biāo)準(zhǔn)的,應(yīng)說明理由,報(bào)主管副總和人力資源部審批。 b因員工月薪工資中的補(bǔ)貼已包括延時(shí)工作補(bǔ)貼,所以延時(shí)工作在4小時(shí)(不含)以下的,不再另計(jì)加班工資。因工作需要,一般員工延時(shí)工作4小時(shí)至8小時(shí)可申報(bào)加班半天,超過8小時(shí)可申報(bào)加班1天。對主管(含)以上管理人員,一般情況下延時(shí)工作不計(jì)加班,因特殊情況經(jīng)總經(jīng)理以上領(lǐng)導(dǎo)批準(zhǔn)的延時(shí)工作,可按以上標(biāo)準(zhǔn)計(jì)加班。員工加班應(yīng)提前申請,事先填寫加班申請表,因無法確定加班工時(shí)的,應(yīng)在本次加班完成后3個(gè)工作日內(nèi)補(bǔ)填加班申請表。加班申請表經(jīng)部門經(jīng)理同意,主管副總經(jīng)理審核報(bào)總經(jīng)理批準(zhǔn)后有效。加班申請表必須
42、事前當(dāng)月內(nèi)上報(bào)有效,如遇特殊情況,也必須在一周內(nèi)上報(bào)至總經(jīng)理批準(zhǔn)。如未履行上述程序,視為乙方自愿加班。員工加班,也應(yīng)按規(guī)定打卡,沒有打卡記錄的加班,公司不予承認(rèn);有打卡記錄但無公司總經(jīng)理批準(zhǔn)的加班,公司不予承認(rèn)加班。原則上,參加公司組織的各種培訓(xùn)、集體活動不計(jì)加班。加班工資的補(bǔ)償:員工在排班休息日的加班,可以以倒休形式安排補(bǔ)休。原則上,員工加班以倒休形式補(bǔ)休的,公司將根據(jù)工作需要統(tǒng)一安排在春節(jié)前后補(bǔ)休。加班可按1:1的比例沖抵病、事假。加班的申請、審批、確認(rèn)流程加班申請表在各部門文員處領(lǐng)取,加班統(tǒng)計(jì)周期為上月26日至本月25日。員工加班也要按規(guī)定打卡,沒有打卡記錄的加班,公司不予承認(rèn)。各部門的考勤員(文員)負(fù)責(zé)加班申請表的保管及加班申報(bào)。員工加班應(yīng)提前申請,事先填寫加班申請表加班前到部門考勤員(文員)處領(lǐng)取加班申請表,加班申請表經(jīng)項(xiàng)目管理中心或部門經(jīng)理同意,主管副總審核,總經(jīng)理簽字批準(zhǔn)后有效。填寫并履行完審批手續(xù)后交由部門考勤員(文員)保管。部門考勤員(文員)負(fù)責(zé)檢查、復(fù)核確認(rèn)考勤記錄的真實(shí)有效性并在每月27日匯總交人力資源部,逾期未交的加班記錄公司不予承認(rèn)。下午13:0017:00度。全體員
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 藝術(shù)品數(shù)字化交易平臺開發(fā)協(xié)議
- 年度企業(yè)文化建設(shè)與員工關(guān)懷計(jì)劃設(shè)計(jì)方案
- 聲聲慢:高中語文詩詞教學(xué)教案
- 水泥電桿銷售合同
- 語言之美:修辭手法與表達(dá)技巧
- 工業(yè)園區(qū)生產(chǎn)流水線供應(yīng)合同
- 季度銷售工作總結(jié)與業(yè)績分析報(bào)告
- 新零售行業(yè)線下實(shí)體店運(yùn)營策略設(shè)計(jì)
- 企業(yè)危機(jī)公關(guān)事件處理預(yù)案
- 倉儲物流系統(tǒng)運(yùn)營合作協(xié)議
- 全新網(wǎng)絡(luò)安全教案:應(yīng)對2024年網(wǎng)絡(luò)威脅
- 2024年新疆區(qū)公務(wù)員錄用考試《行測》真題及解析
- 【2×600MW火電廠電氣部分設(shè)計(jì)(論文)16000字】
- 醫(yī)學(xué)教程 常見動物咬蟄傷應(yīng)急救護(hù)課件
- 中學(xué)校園廣播聽力系統(tǒng)管理制度
- 組合型浮式防波堤水動力響應(yīng)與消浪性能研究
- 商業(yè)綜合體應(yīng)急預(yù)案編制與演練效果評估考核試卷
- GB/T 44679-2024叉車禁用與報(bào)廢技術(shù)規(guī)范
- 智鼎在線測評的題
- 2-3《書的歷史》(教學(xué)設(shè)計(jì))二年級科學(xué)上冊 教科版
- 廣告學(xué)概論課件
評論
0/150
提交評論