金融數(shù)據(jù)分析-以Python為工具 課件 七、特征工程_第1頁
金融數(shù)據(jù)分析-以Python為工具 課件 七、特征工程_第2頁
金融數(shù)據(jù)分析-以Python為工具 課件 七、特征工程_第3頁
金融數(shù)據(jù)分析-以Python為工具 課件 七、特征工程_第4頁
金融數(shù)據(jù)分析-以Python為工具 課件 七、特征工程_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

胡文彬Python金融數(shù)據(jù)分析特征工程Chapter07特征工程特征工程(featureengineering)是對原始數(shù)據(jù)進行表示的過程,目的是通過一系列的特征操作使數(shù)據(jù)適合后續(xù)的建模分析,提高數(shù)據(jù)分析的效果和模型的預(yù)測精度。數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,而模型和算法只是在逼近這個上限。7.2特征與特征處理好的特征具有以下三個特點:可解釋性從業(yè)務(wù)邏輯的角度該特征與所分析的問題或者預(yù)測的信息相關(guān),并且從定性的角度很容易解釋該特征對預(yù)測結(jié)果的影響??色@得性良好的特征應(yīng)該使得絕大多數(shù)樣本都有數(shù)據(jù),缺失值越少越好。7.2特征與特征處理預(yù)測能力指從模型結(jié)果看,該特征對結(jié)果的預(yù)測精度有重要的影響,特征的預(yù)測能力越強越好。然而,預(yù)測能力和可解釋性有可能是矛盾的。金融數(shù)據(jù)常見的屬性種類類型說明例子操作數(shù)值型也稱為連續(xù)型股票價格、財務(wù)指標、信用額度、GDP等歸一化、標準化、函數(shù)變換、離散化、異常值處理、計算皮爾遜相關(guān)系數(shù)等無序類別型也稱為標稱性別、國籍、股票所屬行業(yè)等分箱、編碼、計算眾數(shù)、列聯(lián)相關(guān)系數(shù)、熵等有序類別型也稱為序數(shù)學(xué)歷、等級制成績、年齡段計算中值、百分位數(shù)、秩相關(guān)系數(shù)等日期時間型日期和時間2021-01-01、202101012021-01-0109:00:00格式轉(zhuǎn)換、計算時間差文本型文檔或字符串股票研報、電子郵件等分詞、關(guān)鍵詞提取等文本處理特征處理數(shù)據(jù)清洗一致性檢查重復(fù)值處理

重復(fù)行,相同數(shù)值列異常值處理異常值(outlier)也稱為極端值(簡稱極值)或離群點,指連續(xù)屬性中取值顯著不同于整體數(shù)據(jù)的數(shù)值。異常值對于均值計算的結(jié)果影響很大,也可能會極大影響模型的結(jié)果數(shù)據(jù)清洗異常值處理標準差法、中位數(shù)法、分位數(shù)法、箱線圖法缺失值處理樣本存在缺失值(missingvalue)是一種比較常見的現(xiàn)象,可以分為邏輯缺失和物理缺失。數(shù)據(jù)物理缺失的機制又可以分為完全隨機缺失、隨機缺失和非隨機缺失。特征變換不同的數(shù)值型屬性往往具備不同的量綱,實際中往往需要對數(shù)據(jù)進行規(guī)范化。類別屬性無法直接作為一些模型(例如回歸模型)的變量,在建模前需要進行編碼處理。此外,為了提高模型的性能,有時需要對連續(xù)屬性進行離散化,以及對離散屬性進行重新合并歸類,統(tǒng)稱為分箱(binning)處理。規(guī)范化

特征變換離散化屬性離散化(discretization)通常指通過在數(shù)據(jù)的分布范圍中加入切分點,將連續(xù)屬性轉(zhuǎn)化為有序類別型屬性的過程。另一種形式為合并類別屬性的一些取值,減少取值的種類。這兩種形式離散化的共同特點為減少了屬性的取值,相當(dāng)于對屬性進行了模糊化處理。等距分箱、等頻分箱、數(shù)字特征分箱、聚類分箱特征變換編碼盡管某些模型(例如決策樹)可以直接處理類別屬性,但類別屬性通常無法直接用于大部分(例如回歸、支持向量機、主成分分析等)模型。無論類別屬性是原生的,還是經(jīng)過離散化后得到的,通常需要進一步的編碼(encoding)處理才能用于建模。序數(shù)編碼、啞變量編碼、One-hot編碼啞變量編碼示例行業(yè)銀行100軟件服務(wù)010酒店餐飲001醫(yī)療保健000編碼與模型One-hot編碼與啞變量編碼的區(qū)別在于有多少種取值就引入多少個虛擬變量,即多了一個虛擬變量。為避免多重共線性問題,如果回歸模型有截距項,則用啞變量編碼;如果沒有截距項,則用One-hot編碼。特殊函數(shù)變換

特征選擇特征選擇(featureselection)是特征工程中的核心問題,指的是從原始數(shù)據(jù)中選出好的特征、過濾掉不好的或者冗余特征的過程。特征選擇的目的是構(gòu)建更加精簡、準確、可解釋性強的模型,從而避免過擬合并提高模型的泛化能力。經(jīng)典的特征選擇方法可以分為三大類:過濾法、封裝法和嵌入法特征選擇——過濾法過濾法(filterapproach)用方差、相關(guān)性、互信息、卡方檢驗等指標過濾掉不達標的屬性。過濾法通常對應(yīng)的是單屬性分析,即每次只分析一個屬性自身或者對標記屬性的影響。方差法最簡單,但使用過程中需要特別注意一些細節(jié)。相關(guān)性過濾指通過計算屬性和標記屬性之間的相關(guān)系數(shù)(見6.2.2節(jié)),舍棄掉相關(guān)系數(shù)低于閾值的屬性。相關(guān)系數(shù)包括皮爾遜相關(guān)系數(shù)、秩相關(guān)系數(shù)、φ相關(guān)系數(shù)和V相關(guān)系數(shù)等。特征選擇——過濾法互信息(mutualinformation)是一種衡量隨機變量之間相互依賴程度的度量?;バ畔⑦^濾指通過計算屬性和標記屬性之間的互信息,并舍棄掉互信息值低于閾值的屬性。互信息的基本含義為:已知一個隨機變量的信息后,給另一個隨機變量帶來的不確定性(即信息量)的減少量。

特征選擇——過濾法

特征選擇——過濾法

屬性X標記屬性Y1101111000特征選擇——過濾法卡方檢驗法的基本思想是假設(shè)屬性與標記屬性之間相互獨立,然后構(gòu)建卡方指標對假設(shè)進行檢驗。如果拒絕原假設(shè),則說明屬性是有意義的,這與6.2.2節(jié)中考察變量間的列聯(lián)相關(guān)系數(shù)的思想一致。方差分析法(ANOVA,analysisofvariance)適用于X為離散屬性,標記屬性Y為連續(xù)屬性的情形。將Y根據(jù)X的取值進行分組,然后用F檢驗考察Y的不同分組間的均值和方差是否有顯著差異。

特征選擇——過濾法

連續(xù)屬性離散屬性連續(xù)標記屬性離散標記屬性方差法√

√√皮爾遜相關(guān)系數(shù)√

V相關(guān)系數(shù)

√√√√√互信息法√√√√卡方檢驗法

√方差分析法

√√

特征選擇——封裝法封裝法(wrapperapproach)的基本思想是通過模型的最終效果指導(dǎo)特征的選擇。簡單來說,就是每次選取不同的特征子集構(gòu)建模型,比較各種模型在測試集上的性能。封裝法的難點在于如何搜索特征子集,通常采用的都是一些啟發(fā)式算法,例如遞歸特征消除法。封裝法以模型性能為導(dǎo)向,能夠保證特征選擇的效果。同時該方法與具體的模型獨立,是一個普遍適用的方法。封裝法的缺點是計算開銷大,僅適用于屬性較少的數(shù)據(jù)集。

特征選擇——嵌入法

基于Python的特征工程Pandas

數(shù)據(jù)清洗、特征變換sklearn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論