熵值法原理及應用實踐_第1頁
熵值法原理及應用實踐_第2頁
熵值法原理及應用實踐_第3頁
熵值法原理及應用實踐_第4頁
熵值法原理及應用實踐_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、美商天睿信息系統(tǒng)(北京)有限公司2013年3月熵值法原理及應用實踐培訓目標理解熵值法的原理1.學會使用熵值賦權2.領悟熵值應用實踐3.熵值法原理及應用實踐2 熵值法如何計算權重?3 怎樣合理應用熵值法? 熵值法是做什么用的?143/8/2022Teradata Confidential日常工作中常常需要計算指標權重專家打分法(德爾菲法)層次分析法(AHP)主成份分析法因子分析法多元回歸賦權法線性回歸邏輯回歸熵值法請大家想一想,你知道的幾種指標賦權方法?請大家想一想,你知道的幾種指標賦權方法?53/8/2022Teradata Confidential賦權算法分類對于權重的確定,目前已提出各種不

2、同的方法,可以分為:往往依靠專家打分和定性分析精確性不夠主觀性太強一般采用數(shù)理統(tǒng)計方法和技術過于依賴數(shù)據(jù),缺乏業(yè)務指導很多方法不能反映指標對目標的影響方向主觀賦權客觀賦權 二者結合二者結合使用最有效使用最有效63/8/2022Teradata Confidential“熵”是一種客觀的賦權方法“熵”原本是物理中熱力學概念,后來發(fā)展為信息論的熵值法理論,在指標賦權指標賦權方面的應用比較廣泛?!办亍笔遣淮_定性信息的度量(就好比人的身高、體重,可以用來衡量人的體格):信息量越大,不確定性就越小,熵也就越??;信息量越小,不確定性越大,熵也越大。熵大熵大越不確定信息量小影響小權重小小熵小熵小越確定信息量

3、大影響大權重大大73/8/2022Teradata Confidential指標賦權中熵值法的一般原理根據(jù)熵的特性,我們可以用熵值來判斷某用熵值來判斷某個指標的離散個指標的離散程度程度:指標指標熵值越小,熵值越小,離離散散程度越大,該指標對綜合評價的影響程度越大,該指標對綜合評價的影響(即權重)也就越大(即權重)也就越大。熵值法原理及應用實踐2 熵值法如何計算權重?3 怎樣合理應用熵值法? 熵值法是做什么用的?193/8/2022Teradata Confidential“熵”的一般計算公式nffHniiiln)ln(1niiiiXXf1其中:,n為總樣本數(shù),iX為指標值 一個規(guī)劃求一個規(guī)劃求

4、極值問題極值問題103/8/2022Teradata Confidential“權”的一般計算公式miijjHHw1)1()1(其中:為第j個指標(維度)的熵,m為指標總數(shù)jH113/8/2022Teradata Confidential利用樣本數(shù)據(jù)上感受下熵的變化請大家動一動手,用請大家動一動手,用EXCEL計算出樣本數(shù)據(jù)的熵!計算出樣本數(shù)據(jù)的熵!感受下不同分布的指標數(shù)據(jù)算出來的熵值會怎樣變化?感受下不同分布的指標數(shù)據(jù)算出來的熵值會怎樣變化? 詳見附錄詳見附錄1123/8/2022Teradata Confidential熵值法的一般步驟步驟一步驟一確立指標體系確立指標體系步驟二步驟二清洗指

5、標極值清洗指標極值步驟三步驟三歸一化指標處理歸一化指標處理步驟四步驟四計算指標計算指標“熵熵”和和“權權”步驟五步驟五指標加權計算得分指標加權計算得分133/8/2022Teradata Confidential熵值法的一般步驟之一:確立指標體系案例解說案例解說 我們用手游認知客戶挖掘模型實例來解說熵值法計算指標權重的全過程。下圖是手游認知客戶挖掘模型的二級二級指標指標評評價價體系體系,其中各個維度指標對應的權重系數(shù)均是通過熵值法計算出來的。 下面具體看下模型中 “手游認知能力手游認知能力”部分指標權重的計算過程。一一級級二二級級143/8/2022Teradata Confidential熵

6、值法的一般步驟之二:清洗指標極值案例解說案例解說方法方法:即剔除各指標中極大或者極小的值,一般用比較合理的上下限值替換這些極值。目的是減少極值數(shù)據(jù)對該指標的熵的影響;原則原則:剔除占樣本總數(shù)不到1-2%但指標值貢獻率超過20-30%以上的極值樣本樣本id游戲流量(K)貢獻率98163580.8%98264010.8%98366310.8%98466350.8%98571930.9%98674320.9%98779931.0%98883851.0%98986911.1%990100381.2%991102631.3%992104171.3%993109361.3%994113071.4%9951

7、42541.8%996150731.9%997153261.9%998164802.0%999165422.0%1000615737.6%樣本id游戲流量(K)貢獻率98161070.9%98261070.9%98361070.9%98461070.9%98561070.9%98661070.9%98761070.9%98861070.9%98961070.9%99061070.9%99161070.9%99261070.9%99361070.9%99461070.9%99561070.9%99661070.9%99761070.9%99861070.9%99961070.9%10006107

8、0.9%去極值后153/8/2022Teradata Confidential熵值法的一般步驟之三:歸一化指標處理案例解說案例解說方法方法:指標歸一化過程也稱之為指標的無量綱化,即將指標實際值轉化為不受量綱影響的指標平價值。方法比較多,具體見附錄無綱量化方法一覽;原則原則:比較常用的是臨界值法和Z-score法(更合理,保持了更合理,保持了數(shù)據(jù)的連續(xù)性,減少數(shù)據(jù)信息丟失數(shù)據(jù)的連續(xù)性,減少數(shù)據(jù)信息丟失),最終將所有指標轉化為正區(qū)間里面,二者具體處理如下:sxxzii_iiiiixxxxyminmaxmin分箱處理邏輯處理臨界值法臨界值法Z-score法法1,2,3 ,100(0,1163/8/2

9、022Teradata Confidential熵值法的一般步驟之四:計算指標“熵”和“權”案例解說案例解說nffHniiiln)ln(1手游歷史付費類似,按此公式還可以繼續(xù)計算出訪問次數(shù)手游H訪問天數(shù)手游H和)1()1()1()1(手游訪問天數(shù)手游訪問次數(shù)手游歷史付費手游歷史付費手游歷史付費HHHHw同理可以計算出和訪問次數(shù)手游W訪問天數(shù)手游W熵權173/8/2022Teradata Confidential熵值法的一般步驟之五:指標加權計算得分案例解說案例解說 利用以上3個指標的權重和歸一化指標值,計算上級指標的分數(shù):手游認知能力得分= 0.336*手游歷史付費金額 +0.212*手游訪問

10、次數(shù) +0.452*手游訪問天數(shù)。 當然,模型其他部分的底層指標權重和一級指標權重均可以按以上步驟計算得到,并一層層由下往上進行加權,最終得到模型的綜合得分。方法方法:計算綜合得分就是指標合成的過程,一般可以采用加法原理和乘法原理;原則原則:最常用的是加法合成法,其具體處理如下:加法合成法加法合成法熵值法原理及應用實踐2 熵值法如何計算權重?3 怎樣合理應用熵值法? 熵值法是做什么用的?1193/8/2022Teradata Confidential熵值法的優(yōu)點在于其客觀、準確和簡便優(yōu)點優(yōu)點 熵值法能深刻反映出指標的區(qū)分能力,進而確定權重。這種思想和我們的得分評價模型指標選擇的機理是機理是一致

11、的一致的; 是一種客觀賦權法,有理論依據(jù),相對主觀賦權具有較高的可信度和精確度較高的可信度和精確度; 算法簡單,實踐起來比較方便操作方便操作,無需借助其他分析軟件實現(xiàn)。203/8/2022Teradata Confidential熵值法不是萬能賦權法缺缺點點 智能程度不夠智能程度不夠高高。與多元回歸和主成份等統(tǒng)計方法不同,它不能考慮指標與指標間橫向的影響(如:相關性),更不能確定指標對目標/得分的影響方向(如:正相關或負相關); 同其他客觀賦權法一樣,若無業(yè)務經驗的指導,權重權重可能失真可能失真; 對樣本的依賴性比較大對樣本的依賴性比較大,隨著建模樣本變化,權重會有一定波動;213/8/202

12、2Teradata Confidential項目中合理應用熵值法的幾點個人經驗: 必須結合結合專家打分專家打分法法才可以發(fā)揮熵值法的優(yōu)勢。事實上,指標評價體系建立的基礎就是專家經驗; 在確定權重前,需要完全確定指標對目標得分的影響指標對目標得分的影響方向方向。非線性的指標要么剔除,要么進行預處理; 熵值法對底層指標比較適用對底層指標比較適用,而對上層指標權重需要重點借助專家經驗; 不要怕麻煩,好好處理所有指標的極值問題,對權重的優(yōu)化有好處;個人經驗個人經驗223/8/2022Teradata Confidential附錄1. 計算熵值的數(shù)據(jù)樣本2. 熵值法的SQL實現(xiàn)腳本3.無綱量方法一覽233/8/2022Teradata Confidential附錄附錄1. 計算熵值的數(shù)據(jù)樣本附錄2. 熵值法的SQL實現(xiàn)腳本243/8/2022Teradata Confi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論