智能金融課件全套張寧第1-12章交叉的目的是融合：導(dǎo)論 - 源源不斷的新思想

上傳人：q*** IP屬地：山東上傳時間：2024-10-18 格式：PPTX 頁數(shù)：514 大小：29.79MB 積分：70 舉報 版權(quán)申訴

智能金融課件全套張寧第1-12章交叉的目的是融合：導(dǎo)論 - 源源不斷的新思想_第2頁

智能金融課件全套張寧第1-12章交叉的目的是融合：導(dǎo)論 - 源源不斷的新思想_第3頁

智能金融課件全套張寧第1-12章交叉的目的是融合：導(dǎo)論 - 源源不斷的新思想_第4頁

智能金融課件全套張寧第1-12章交叉的目的是融合：導(dǎo)論 - 源源不斷的新思想_第5頁

已閱讀5頁，還剩509頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

機器學(xué)習(xí)與智能金融第一章

融合創(chuàng)造價值導(dǎo)論本講主要內(nèi)容基礎(chǔ)概念的理解一人工智能的歷史與發(fā)展二中國人工智能的發(fā)展三人工智能與金融的結(jié)合：智能金融場景與價值四課程實踐環(huán)境五機器學(xué)習(xí)的概念人工智能的概念模式識別的概念概念辨析1.1

概念辨析對于某類任務(wù)T和性能度量P，如果一個計算機程序在T上以P衡量的性能隨著經(jīng)驗E而自我完善，那么我們稱這個計算機程序在從經(jīng)驗E中學(xué)習(xí)。<P,T,E>機器學(xué)習(xí)的含義與理解人工智能（Artificial

Intelligence）：它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。1956年由約翰.麥卡錫首次提出，當時的定義為“制造智能機器的科學(xué)與工程”。人工智能目的就是讓機器能夠像人一樣思考，讓機器擁有智能。Artificialintelligence(AI)istheabilityofthemachineorprogramtothink,learn,andmakedecisionsfromsimulatinghumanbehaviorand

experience.人工智能的含義與理解模式識別是人類的一項基本智能。模式識別以圖像處理與計算機視覺、語音語言信息處理、腦網(wǎng)絡(luò)組、類腦智能等為主要研究方向，研究人類模式識別的機理以及有效的計算方法。所謂模式識別的問題就是用計算的方法根據(jù)樣本的特征將樣本劃分到一定的類別中去。模式識別的含義與理解人工智能是制造“智能”的“機器”。模式識別的目的是能夠最大程度實現(xiàn)“人類智能”中的“模式識別”，把對應(yīng)“事務(wù)”劃分到特定“分類中”，目前，它使用的主要手段是機器學(xué)習(xí)。機器學(xué)習(xí)是程序?qū)崿F(xiàn)人類智能中的學(xué)習(xí)能力，借助經(jīng)驗（數(shù)據(jù)）不斷提升自己的“性能”。010203總結(jié)數(shù)據(jù)集、Data

set訓(xùn)練樣本（trainingdata），

測試樣本（testing

data），驗證樣本（verifyingdata）樣本（sample）屬性/特征（attributes,feature），標記（label）樣本空間、屬性空間、標記空間任務(wù)（task）分類（classification），回歸（regression）評價，預(yù)測評估泛化，穩(wěn)健，效率1.2

機器學(xué)習(xí)基本概念課后練習(xí)：查找、學(xué)習(xí)并理解如下概念精度，accuracy誤差，（模型輸出與樣本輸出差距），error訓(xùn)練誤差，trainingerror，empiricalerror泛化誤差，generalizationerror測試誤差，testing

error過擬合，overfitting欠擬合，underfitting查準率，precision查全率

召回率，recall1.3

人工智能路徑和分類給出了人工智能的定義：“人工智能是利用數(shù)字計算機或者由數(shù)字計算機控制的機器，模擬、延伸和擴展人類的智能，感知環(huán)境、獲取知識并使用知識獲得最佳結(jié)果的理論、方法、技術(shù)和應(yīng)用系統(tǒng)?！币粫袑⒁延械娜斯ぶ悄芊譃榱怂念悾合袢艘粯铀伎嫉南到y(tǒng)、像人一樣行動的系統(tǒng)、理性思考的系統(tǒng)、理性行動的系統(tǒng)；在達特矛斯會議（DARTMOUTHCONFERENCE）上提出：人工智能就是要讓機器的行為看起來就像是人所表現(xiàn)出的智能行為一樣；1956年，人工智能先驅(qū)約翰·麥卡錫（JOHNMCCARTHY）我國《人工智能標準化白皮書（2018年）》著名的人工智能教材《人工智能——一種現(xiàn)代方法》本課程定義英文縮寫為AI，它是將智能以及依靠人的能力實現(xiàn)智能作為研究對象，是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)等的一門學(xué)科。人工智能（ArtificialIntelligence）總的說來人工智能研究的一個主要目標是使機器能夠勝任一些通常需要人類智能才能完成的復(fù)雜工作。當然，在不同的時代不同的人對這種“復(fù)雜工作”的理解是不同的。弱人工智能強人工智能超人工智能不同實現(xiàn)途徑（派系）結(jié)構(gòu)主義符號主義（Symbolism）統(tǒng)計主義行為主義仿真主義人工智能方法的分類數(shù)據(jù)類型視角數(shù)據(jù)標注視角方法構(gòu)建邏輯的視角方法可解釋性視角本講主要內(nèi)容基礎(chǔ)概念的理解一人工智能的歷史與發(fā)展二中國人工智能的發(fā)展三人工智能與金融的結(jié)合：智能金融場景與價值四課程實踐環(huán)境五故事：古代西周的偶人《列子·湯問》偃師以假亂真、能歌善舞、千變?nèi)f化、善挑逗人偃師造人唯難于心唐代機器僧

楊務(wù)廉

杭州工匠《朝野僉載》唐張鷟故事：近代EnigmaBombe1950年，阿蘭·圖靈在那篇名垂青史的論文《計算機械與智力》的開篇說：“我建議大家考慮這個問題：‘機器能思考嗎？’”故事：現(xiàn)代，誕生與狂熱，達特茅斯會議1958年，H.

Simon，Allen

Newell：“十年之內(nèi)，數(shù)字計算機將成為國際象棋世界冠軍?！?、“十年之內(nèi)，數(shù)字計算機將發(fā)現(xiàn)并證明一個重要的數(shù)學(xué)定理?！?965年，H.

Simon：“二十年內(nèi)，機器將能完成人能做到的一切工作?！?967年，Marvin

Minsky：“一代之內(nèi)……創(chuàng)造‘人工智能’的問題將獲得實質(zhì)上的解決?！?970年，Marvin

Minsky：“在三到八年的時間里我們將得到一臺具有人類平均智能的機器?！?956，新罕布什爾州，達特茅斯（Dartmouth）會議“首次”提出人工智能發(fā)展說明：三者關(guān)系人工智能機器學(xué)習(xí)深度學(xué)習(xí)本講主要內(nèi)容基礎(chǔ)概念的理解一人工智能的歷史與發(fā)展二中國人工智能的發(fā)展三人工智能與金融的結(jié)合：智能金融場景與價值四課程實踐環(huán)境五起步1978年3月1980年20世紀50年代-70年代全國科學(xué)大會在北京召開。吳文俊院士提出的利用機器證明與發(fā)現(xiàn)幾何定理的新方法——幾何定理機器證明也獲得全國科學(xué)大會重大科技成果獎。中國電子學(xué)會計算機學(xué)會（中國計算機學(xué)會的前身）在吉林大學(xué)組織召開“計算機科學(xué)暑期討論會”，王湘浩院士負責組織，在此次會議中，人工智能成為主要討論方向。全體會議中報告的4名演講者分別是吳文俊、陸汝鈐、吳允增、張鳴華。起步1981年9月1982年1980年王湘浩在中國計算機學(xué)會下建立了人工智能學(xué)組并擔任組長。中國人工智能學(xué)會(CAAI)在長沙成立，秦元勛當選第一任理事長。中國人工智能學(xué)會刊物《人工智能學(xué)報》在長沙創(chuàng)刊，成為國內(nèi)首份人工智能學(xué)術(shù)刊物。發(fā)展1985年1986年起1984年下半年全國智能計算機及其系統(tǒng)學(xué)術(shù)討論會，重點研討人工智能相關(guān)主題。召開了全國首屆第五代計算機學(xué)術(shù)研討會。把智能計算機系統(tǒng)、智能機器人和智能信息處理等重大項目列入國家高技術(shù)研究發(fā)展計劃，即著名的863計劃。1987年新的人工智能期刊《模式識別與人工智能》雜志創(chuàng)刊。1989年我國首次召開了中國人工智能聯(lián)合會議(CJCAI)。發(fā)展2009年2022年9月13日2006年8月中國人工智能學(xué)會聯(lián)合其他學(xué)會和有關(guān)部門，在北京舉辦了“慶祝人工智能學(xué)科誕生50周年”大型慶?；顒印Ｖ袊斯ぶ悄軐W(xué)會牽頭組織，向國家學(xué)位委員會和國家教育部提出設(shè)置“智能科學(xué)與技術(shù)”學(xué)位授權(quán)一級學(xué)科的建議。教育部發(fā)布《研究生教育學(xué)科專業(yè)目錄（2022年）》，智能科學(xué)與技術(shù)正式成為交叉學(xué)科門類中的一級學(xué)科。人工智能最高獎2011年1月6日，由中國人工智能學(xué)會發(fā)起，以吳文俊先生命名、依托社會力量捐資的“吳文俊人工智能科學(xué)技術(shù)獎”

經(jīng)國家科學(xué)技術(shù)部核準、國家科學(xué)技術(shù)獎勵工作辦公室（國科獎社證字第0218號）公告正式設(shè)立。被譽為“中國智能科學(xué)技術(shù)最高獎”，代表人工智能領(lǐng)域的最高榮譽象征。政策中共中央政治局就人工智能發(fā)展現(xiàn)狀和趨勢舉行第九次集體學(xué)習(xí)。中共中央總書記習(xí)近平在主持學(xué)習(xí)時強調(diào)，人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量。為搶抓人工智能發(fā)展的重大戰(zhàn)略機遇，構(gòu)筑我國人工智能發(fā)展的先發(fā)優(yōu)勢，加快建設(shè)創(chuàng)新型國家和世界科技強國，國務(wù)院印發(fā)了《新一代人工智能發(fā)展規(guī)劃》。2017年7月2018年10月31日下午位置與對比本講主要內(nèi)容基礎(chǔ)概念的理解一人工智能的歷史與發(fā)展二中國人工智能的發(fā)展三人工智能與金融的結(jié)合：智能金融場景與價值四課程實踐環(huán)境五技術(shù)視角人工智能技術(shù)機器學(xué)習(xí)計算機視覺/圖像智能自然語言處理(NLP)/自然語言理解(NLU)知識圖譜與圖數(shù)據(jù)分析語音與時間序列因果智能強化學(xué)習(xí)AIGC等例子：AIGC例子：AIGC例子：AIGC例子：AIGC銀行業(yè)預(yù)測性分析業(yè)務(wù)自然語言理解計算機視覺保險業(yè)智能核保理賠與反欺詐智能定損智能客服精準定價信托業(yè)智能金融有助于加快形成個人畫像、企業(yè)畫像和產(chǎn)業(yè)畫像的數(shù)據(jù)基礎(chǔ)和建模能力，推動依托“數(shù)據(jù)+科技”的大類資產(chǎn)選擇、投融資、前中后臺的智能化管理能力建設(shè)。智能金融有助于精準營銷、精準人群營銷和服務(wù)生態(tài)圈建設(shè)，加快推動資金端由產(chǎn)品銷售向財富管理轉(zhuǎn)型。資金端的財富管理智能化資產(chǎn)端覆蓋范圍證券業(yè)智能財報核驗、信息提取智能文檔審核、驗證以及比對運營管理自動化智能投研基金業(yè)細分用戶和預(yù)測模型估值業(yè)務(wù)流水化預(yù)警金融突發(fā)事件分析新聞與輿情案例與場景：投資分類人類量化投資程序人工智能平均收益8.9%7.6%16.3%風險控制能力8510051極端風險次數(shù)6/1003最大損失-13.7%-7.2%-18.1%偏好周期短期-中期短期中期-長期大局觀8060100案例與場景：欺詐識別案例與場景：財務(wù)與管理團隊案例案例與場景：健康及金融風險偏好領(lǐng)域：

醫(yī)學(xué)，健康，運動等例如：

精準推測客戶的需求智能金融價值智能金融是金融科技的一個階段，而金融科技是金融業(yè)的知識經(jīng)濟，其價值路徑以及價值作用方式與知識經(jīng)濟相同。智能金融所產(chǎn)生的價值體現(xiàn)在數(shù)據(jù)的作用、信用的作用以及風險的作用上，通過這些要素的智能化，智能金融將在宏觀、中觀以及微觀層面產(chǎn)生價值。按照知識經(jīng)濟框架根據(jù)定義提升金融行業(yè)效率加速普惠金融發(fā)展促進金融體系健康提升個人金融服務(wù)幸福感助力監(jiān)管本講主要內(nèi)容基礎(chǔ)概念的理解一人工智能的歷史與發(fā)展二中國人工智能的發(fā)展三人工智能與金融的結(jié)合：智能金融場景與價值四課程實踐環(huán)境五實踐建議環(huán)境案例及示范代碼的編程語言：Python常用的機器學(xué)習(xí)庫：Scikit-learn（sk-learn)常用的人工智能庫：Tensorflow(keras)

或

pyTorch使用的算力：CPU或者GPU使用的數(shù)據(jù)說明：框架與標準化說明：移動端深度學(xué)習(xí)推理框架TF-Lite(Google)TensorRT（Nvidia)CoreML(Apple)OpenVINO（Intel)MNN（Alibaba)NCNN（Tencent)THANKS謝謝聆聽機器學(xué)習(xí)與智能金融第二講

經(jīng)典而永恒線性方法主講人：張欣然學(xué)校：中央財經(jīng)大學(xué)回歸類分析方法及其運用場景概述一本講內(nèi)容回歸模型的選擇、正則化與降維二多元定性響應(yīng)變量的回歸模型三回歸類分析方法在金融領(lǐng)域的運用四回歸類分析方法及其運用場景概述01回歸分析（Regression

Analysis）：確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法?；貧w模型的一般形式：回歸分析的定義y??=??????,

????;

?? (1)腳標??∈??={1,2,…,??}表示第i個個體或觀測響應(yīng)變量y??特征變量????′=(1,????,2,…,????,??)參數(shù)向量??=(??1,??2,…,????)誤差項????回歸模型依賴于函數(shù)的形式??(?)和參數(shù)??的大小回歸分析的分類分類標準類別特征變量的個數(shù)一元回歸模型、多元回歸模型特征變量與響應(yīng)變量的關(guān)系線性回歸模型、非線性回歸模型回歸方程的個數(shù)單方程回歸模型、聯(lián)立方程回歸模型數(shù)據(jù)類型的特點橫截面模型、時間序列模型、面板模型多元線性回歸模型（Multiple

Linear

Regression

Model）多元線性回歸模型回顧????=??1????1+??2????2+?+??????????+????,(??=1,…

??) (2)??=(??1,??2,…,????)′為待估計的未知參數(shù)，回歸系數(shù)如果方程(2)中有常數(shù)項(即截距項)，則通常令第

個變量恒等于

1，即????1=1,

???該回歸模型也可表示為矩陣形式（更常用）′ ′其中??=(??1,??2,…,????)′，X=(??1′,??2′,…,???? )′,

??=(??1,??2,…,????)Y=X??

+?? (3)多元線性回歸模型回顧????=1最小二乘法（OLS）估計多元線性回歸的參數(shù)向量??OLS原理：找到使得模型殘差平方和最小的參數(shù)向量???????????????

??????

????

??′??

(4)估計量的性質(zhì)小樣本：在經(jīng)典線性回歸假設(shè)下，

?????????具有無偏性和有效性大樣本：在大數(shù)定律和中心極限定理保證下，

?????????還具有一致性和漸進正態(tài)性擬合優(yōu)度??2

或者調(diào)整??2為比較所含解釋變量個數(shù)不同的多元回歸模型的擬合優(yōu)度，還可使用赤池信息準則（AIC）、貝葉斯信息準則（BIC）和施瓦茨準則（SC）多元線性回歸模型回顧最小二乘法（OLS）估計多元線性回歸的參數(shù)向量??一元線性回歸殘差：e??

≡

????

???????殘差平方和：σ?? ??2

σ?? (????????

???????)2i=1 ?? ??=1最小二乘法就是選擇???，

???，使得殘差平方和最小化???,???i=1????min?

??2=???=1??(????????

????????)2多元線性回歸模型回顧最小二乘法（OLS）估計多元線性回歸的參數(shù)向量??二元線性回歸最小化問題的一階條件：如果(??′

??)可逆（數(shù)據(jù)矩陣X滿列秩,rank(X)=p），則：???

≡??′??

?????′???????=1????min

? ??2=??′??=(????????)′(????????)=??′???2??′?????+???′??′????????(??′???2??′?????+???′??′?????)????=?2??′??+2??′?????=

0??′?????

=??′??多元線性回歸模型回顧最小二乘法（OLS）估計多元線性回歸的參數(shù)向量??如果數(shù)據(jù)矩陣X不滿列秩，則存在嚴格多重共線性

，????????(??)≤??<??

（矩陣X的秩小于或等于其行數(shù)n），此時不存在(??′

??)?1，OLS沒有唯一解OLS一般不適用高維數(shù)據(jù)，其變量個數(shù)大于樣本容量，即??>??。須進行“正則化”處理，即在損失函數(shù)中加入“懲罰項”，進行“懲罰回歸”回歸分析：計量經(jīng)濟學(xué)

vs 機器學(xué)習(xí)領(lǐng)域計量經(jīng)濟學(xué)重視統(tǒng)計推斷（包括參數(shù)的點估計、區(qū)間估計以及假設(shè)檢驗）尤其重視如何借助回歸模型推斷變量之間的因果關(guān)系機器學(xué)習(xí)更重視模型的預(yù)測準確率（accuracy）和解釋力（interpretation）預(yù)測準確率指在訓(xùn)練集上得到的回歸模型在測試集上的預(yù)測表現(xiàn)模型解釋力指回歸系數(shù)能否直觀簡潔描繪特征變量對響應(yīng)變量的影響回歸分析在金融領(lǐng)域的應(yīng)用場景實現(xiàn)對不同類型客戶的精準營銷用戶畫像與精準營銷多分類Logistic回歸模型量化投資，預(yù)測未來資產(chǎn)價格和收益率價格與收益率預(yù)測采用系數(shù)壓縮、變量篩選等方法對回歸模型改進信用風險，市場風險、操作風險、流動性風險、管理風險等風險評估與識別二分類Logistic

Probit回歸模型，Cox比例風險回歸模型回歸模型的選擇、正則化與降維02選擇回歸模型的動機1、多重共線性完全多重共線性導(dǎo)致OLS方法的失效，無法得到唯一的參數(shù)估計不完全的多重共線性雖然不會對參數(shù)估計的無偏性產(chǎn)生影響，但其有效性會大大減弱，即參數(shù)估計的方差會變得很大選擇回歸模型的動機1、多重共線性檢驗多重共線性簡單方法是看特征變量的相關(guān)系數(shù)矩陣：如果該矩陣中有絕對值較大的數(shù)字，說明該對特征變量之間存在較強的線性相關(guān)性更嚴格的檢測方法為方差膨脹因子（variance

inflation

factor）檢驗，也稱VIF檢驗。依照經(jīng)驗而言，當VIF值超過5或者10時就表明模型有比較嚴重的共線性問題當模型具有這類問題時，我們有必要對特征變量進行篩選和剔除選擇回歸模型的動機2、過擬合問題過擬合：模型對訓(xùn)練集的擬合程度比對真實總體的擬合程度更好，導(dǎo)致該模型在預(yù)測集上表現(xiàn)較差選擇回歸模型的動機2、過擬合問題過擬合體現(xiàn)在兩個方面：引入過多無關(guān)特征變量引入過多特征變量的高次項（因而模型高度非線性化）因此，為了避免過擬合問題所導(dǎo)致的預(yù)測能力降低，模型形式的設(shè)定（線性/非線性）和特征變量的選擇就顯得尤其重要選擇回歸模型的動機尤其是當特征變量的個數(shù)大于觀測數(shù)時（p>n），回歸分析將得不到唯一的參數(shù)估計即使p<n時，特征變量具有過高的維數(shù)也會導(dǎo)致多重共線性與過擬合問題的出現(xiàn)，進而大大削弱回歸系數(shù)的解釋力與模型的預(yù)測能力3、維數(shù)災(zāi)難交叉檢驗法為了解決上述問題帶來的困擾，必須對回歸模型進行選擇或約束（也即對特征變量進行選擇或約束），然后在不同模型之間進行比較，進而選出最優(yōu)的模型。雖然這些指標均可用于最優(yōu)模型的選擇，但它們都對訓(xùn)練集和預(yù)測集的變化比較敏感。一旦換一組訓(xùn)練集樣本，可能會得到完全不同的模型調(diào)整R2、AIC準則、BIC準則等以及ROC曲線、AUC指標等，還有模型在預(yù)測集上的均方誤差（即Mean-Square

Error，MSE）模型評價指標問題交叉檢驗法k折交叉檢驗法（k-fold

cross-validation，簡記CV）選擇最優(yōu)模型對訓(xùn)練集進行（同一）回歸模型的擬合，然后用該模型對測試集進行預(yù)測，并計算測試集上的均方誤差。將總觀測集隨機地分為k個樣本數(shù)量基本一致的折（fold），找其中一折作為預(yù)測集，剩下的作為訓(xùn)練集。第一步第二步選擇另一折作為測試集，重復(fù)第一步和第二步，直到所有折都曾作過測試集（即重復(fù)k次）。第三步交叉檢驗法k折交叉檢驗法（k-fold

cross-validation，簡記CV）選擇最優(yōu)模型k折交叉檢驗法的平均均方誤差：???? ??=1???? =1

σ??????????(20)當折數(shù)k等于觀測樣本總數(shù)量n時，為留一交叉檢驗法（leave-one-out CV）在如何選擇折數(shù)k的問題上，需要考慮“偏差—方差”的權(quán)衡。一般而言，留一交叉檢驗法的方差要比k折交叉檢驗法（k<N）的方差更大。從經(jīng)驗上講，選擇k=5或是k=10比較合適的（N>>10）交叉檢驗法k折交叉檢驗法（k-fold

cross-validation，簡記CV）選擇最優(yōu)模型對不同回歸模型進行交叉檢驗后，我們會得到關(guān)于不同模型的CV值，這些值可以構(gòu)成測試誤差估計值曲線例子：假設(shè)現(xiàn)在我們考慮回歸模型中特征變量個數(shù)的選擇問題（也即“不同回歸模型”是指“包含特征變量數(shù)不同的回歸模型”）方法1：子集選擇的回歸模型回歸模型選擇中一個直觀的想法是對特征變量的集合進行篩選，篩選出合適的特征變量子集來構(gòu)建回歸模型。這類模型統(tǒng)稱為子集選擇的回歸模型（subsetselectionregression

model）最優(yōu)子集選擇模型向前逐步選擇模型向后逐步選擇模型方法1：子集選擇的回歸模型① 這種方法簡單直觀，但計算效率低需檢索模型數(shù)量隨特征變量個數(shù)的增加而迅速增加② 該方法也只適用于樣本量N>K的情況一旦特征變量個數(shù)超過樣本量，方法失效1、最優(yōu)子集選擇模型最優(yōu)子集選擇模型是對個特征變量的所有可能組合分別進行回歸擬合，其算法步驟如下表：這種方法需要檢索的回歸模型的總個數(shù)為：方法1：子集選擇的回歸模型優(yōu)勢在于計算量要遠小于最優(yōu)子集選擇模型② 但是仍需要保證特征變量個數(shù)小于樣本量（即N>K），否則模型將無法進行參數(shù)估計2、向后逐步選擇模型原理：以包含全部特征變量的回歸模型（又稱全模型????）作為起點，逐次疊代，每次都剔除一個對模型結(jié)果最不利的變量，最后得到最優(yōu)回歸模型。其算法步驟見下表：① 這種方法需要檢索的回歸模型的總個數(shù)為：方法1：子集選擇的回歸模型3、向前逐步選擇模型原理：以不包含任何特征變量的回歸模型（又稱零模型??0）作為起點，逐次往模型中添加特征變量，直至所有的變量均被納入回歸模型。其算法步驟見下表：①

這種方法需要檢索的模型個數(shù)與向后逐步選擇模型相同因此其計算量也要遠遠小于最優(yōu)子集選擇模型② 這種方法也適用于樣本量小于特征變量數(shù)的情況，即N<K，因此它要優(yōu)于向后逐步選擇模型。具體而言，當出現(xiàn)N<K的情況時，該算法會在回歸模型特征變量數(shù)等于N的時候停止，然后從備選模型中進行挑選。方法2：回歸模型的正則化嶺回歸（ridge

regression）套索回歸（lasso

regression）彈性網(wǎng)絡(luò)回歸（elastic-net

regression）另一類解決維數(shù)災(zāi)難（以及可能衍生的多重共線性和過擬合問題）的回歸方法統(tǒng)稱為正則化回歸（regression

with

regularization）或者壓縮估計方法（shrinkagemethod）這類方法的原理是在回歸分析的RSS目標函數(shù)基礎(chǔ)上增加懲罰項方法2：回歸模型的正則化矩陣??′??幾乎不可逆，導(dǎo)致(??′??)?1變得很大，使得OLS的估計量?????????≡ ??′??

?1??′??的方差也很大在矩陣??′??的主對角線上都加上某個常數(shù)??>0，以緩解多重共線性，使得所有矩陣(??′??

????)變得“正?！睅X回歸的估計量為：嶺回歸是在OLS表達式中加入“山嶺”????而得名?????????????≡ ??′??+

?????1??′??1、嶺回歸嶺回歸（Ridge

Regression）出發(fā)點正是為了解決多重共線性方法2：回歸模型的正則化其中，約束條件還可以寫為??22≤??，

??2表示向量??的L2范數(shù)（L2-norm)??=1????????

? ???????0?

?????=1???1????,??????2(19)??.

??. ???=1???1????2≤

??(20)1、嶺回歸嶺回歸方法是將OLS無約束最優(yōu)化問題轉(zhuǎn)化為如下有約束的最優(yōu)化問題：方法2：回歸模型的正則化????=1????????

????1???????0?

???=1????,??????2+

?? ??22(21)該式的第一項是RSS，第二項是??2懲罰項（penalty

term），調(diào)節(jié)參數(shù)??被稱為壓縮參數(shù)（shrinkageparameter）由于嶺回歸的目標函數(shù)會對過大的參數(shù)施以很大的懲罰，所以嶺回歸的參數(shù)估計也被稱作壓縮估計量。1、嶺回歸如果將上述問題的拉格朗日方程列出，嶺回歸的目標函數(shù)還可以等價地寫成：方法2：回歸模型的正則化嶺回歸的幾何意義：在嶺回歸中，RSS函數(shù)的等高線會與懲罰約束所代表的球形等高線相切（大概率情況下二者不會切于坐標軸），進而使得OLS估計量收縮至嶺回歸估計量。1、嶺回歸方法2：回歸模型的正則化?????????????= ??′??

????

?1??′?? (22)嶺回歸估計量在小樣本下是有偏估計量（因為OLS估計量在一定假設(shè)下是無偏估計量），但是它使得參數(shù)估計的方差大大縮小。然而，由于嶺回歸中很難將參數(shù)估計嚴格限制到0，因此這個方法并不能起到篩選變量的目的。在高維問題中，嶺回歸仍不是最優(yōu)選擇。1、嶺回歸嶺回歸的參數(shù)估計性質(zhì)通過目標函數(shù)的一階條件可以求解嶺回歸的參數(shù)估計滿足下式：方法2：回歸模型的正則化2、套索回歸在進行高維回歸時，希望從大量的特征變量中，篩選出真正對y有影響的少數(shù)變量。例如，從2萬個基因中，找到真正影響疾病的少數(shù)基因。希望真實模型(true

model），或數(shù)據(jù)生成過程(data

generating

process)，為稀疏模型(sparse

model)：即需要一個估計量，能挑選出那些真正有影響的（基因）變量，而使其他無影響或影響微弱的（基因）變量的回歸系數(shù)變?yōu)?。方法2：回歸模型的正則化其中，約束條件還可以寫為

??1≤??

，??

1表示向量的L1范數(shù)（L1-norm)????=1????????

????1???????0?

???=1????,??????2(23)??.

??. ???=1???1???? ≤

??(24)2、套索回歸與嶺回歸類似，套索回歸下的約束最優(yōu)化問題為：方法2：回歸模型的正則化同樣，套索回歸的目標函數(shù)還可以寫成：該式的第一項仍是RSS，第二項是L1懲罰項??????

?????=1?????????0?

???=1???1????,??????2+

?? ??1(25)2、套索回歸方法2：回歸模型的正則化套索回歸幾何意義：套索回歸中RSS的等高線與約束條件的八面體等高線很容易相切于坐標軸。這樣一來，某一個特征變量的參數(shù)就會完全變成0，進而達到篩選變量的目的。2、套索回歸方法2：回歸模型的正則化2、套索回歸由于Lasso的約束集為帶尖角的菱形（而菱形的頂點恰好在坐標軸上），故等值線較易與約束集相切于坐標軸的位置，導(dǎo)致

Lasso

估計量的某些回歸系數(shù)嚴格等于0，從而得到“稀疏解”(sparse

solution)Lasso的這種獨特性質(zhì)，使得它具備“篩選變量”(variable

selection)的功能由于Lasso為“絕對值收縮”

(absolute

shrinkage)，故合稱為“最小絕對值收縮與篩選算子”

(least

absolute

shrinkage

and

selection

operator)，簡記LASSO。在英文中，Lasso一詞的原意為“套索”方法2：回歸模型的正則化2、套索回歸Lasso與嶺回歸孰優(yōu)孰劣？從預(yù)測的角度，如果真實模型（或數(shù)據(jù)生成過程）確實是稀疏的，則Lasso一般更優(yōu)。但如果真實模型并不稀疏，則嶺回歸的預(yù)測效果可能優(yōu)于

Lasso。在實踐中，

一般并不知道模型是否稀疏，

可用“交叉驗證”(cross-validation)進行選擇。從模型易于解釋(interpretability)的角度，則Lasso顯然是贏家，因為嶺回歸一般只是收縮回歸系數(shù)，并不具備變量篩選的功能方法2：回歸模型的正則化′min

???? ??

???? +

??1

??2

????22其中，??1≥

0與??2

≥

0都是調(diào)節(jié)參數(shù)3、彈性網(wǎng)絡(luò)回歸Lasso雖然具有篩選變量的功能，但此功能并不完美幾個變量高度相關(guān)，Lasso可能隨意選擇其中一個彈性網(wǎng)(Elastic

Net)估計量將Lasso與嶺回歸相結(jié)合，同時包含??1與??2懲罰項方法2：回歸模型的正則化??′min

???? ??

???? +

??[??

+ 1

?? ??22]其中，??≥0與0≤??≤1為調(diào)節(jié)參數(shù)由于調(diào)節(jié)參數(shù)??的取值局限于區(qū)間[0，1]，故便于通過交叉驗證選擇其最優(yōu)值如果??=0，則彈性網(wǎng)退化為嶺回歸如果??=1，則彈性網(wǎng)退化為Lasso如果0<??<1，則彈性網(wǎng)為嶺回歸與Lasso之間折衷3、彈性網(wǎng)絡(luò)回歸由于??1與????的取值范圍均為無窮，不便于使用交叉驗證選擇其最優(yōu)值。定義??≡??1+??2，??≡??1/??，可以將損失函數(shù)寫為：方法2：回歸模型的正則化′min??

???? ???

??????2??.

??.

?? ??

+ 1

?? ?? 2≤

??其中，??≥0為調(diào)節(jié)參數(shù)仍以二元回歸為例，展示幾何解釋

??=(??1，??2)′則彈性網(wǎng)估計量的約束集為：?? ??1 +

??2 + 1

?? ??2

??2 ≤

??1 23、彈性網(wǎng)絡(luò)回歸可等價寫為以下約束極值問題方法2：回歸模型的正則化彈性網(wǎng)(??=0.5)，Lasso及嶺回歸的約束集3、彈性網(wǎng)絡(luò)回歸方法2：回歸模型的正則化3、彈性網(wǎng)絡(luò)回歸彈性網(wǎng)的約束集介于Lasso與嶺回歸約束集之間與Lasso類似，彈性網(wǎng)的約束集也在坐標軸上有四個尖角，故彈性網(wǎng)也具有篩選變量的功能與嶺回歸的圓形約束集類似，彈性網(wǎng)的約束集在四個象限也呈弧形，故彈性網(wǎng)具有類似于嶺回歸的收縮參數(shù)之功能優(yōu)勢：當若干特征變量之間高度相關(guān)時，彈性網(wǎng)傾向于將這些高度相關(guān)的變量都選上彈性網(wǎng)可通過交叉驗證選擇最優(yōu)的調(diào)節(jié)參數(shù)??，其預(yù)測能力不差于前二者方法3：降維回歸方法在處理高維問題時，我們還可以對特征變量進行降維在回歸分析中，主成分分析的思想仍可以得到應(yīng)用本小節(jié)介紹兩種常見方法：主成分回歸（principal

component

regression，簡稱PCR）與偏最小二乘法（partial

least

square，簡稱PLS）注意：雖然這兩種方法可能會在某種程度上提高模型在預(yù)測集上的預(yù)測準確度（緩解過擬合問題），但在對模型進行解釋時，維數(shù)的壓縮可能會導(dǎo)致每個主成分的經(jīng)濟含義變得更加模糊，模型的解釋力減弱方法3：降維回歸方法??=

?????

??? (28)Z是??×??的主成分矩陣???是??×1的參數(shù)向量???是??×1的回歸殘差向量與普通OLS回歸方法相比，特征向量的維數(shù)從P降到了M1、主成分回歸主成分回歸利用特征變量X的信息構(gòu)造前M個主成分??=(??1，…，????)，然后以這些主成分作為新特征變量，對響應(yīng)變量y進行回歸：方法3：降維回歸方法1、主成分回歸優(yōu)點：可處理樣本量N<P的情況缺點：在主成分的選擇過程中，選出“能夠最大程度代表特征變量X”的線性組合（或方向）但是，這些方向是通過無監(jiān)督學(xué)習(xí)方法得到的，響應(yīng)變量y在主成分選擇時沒有起到任何作用弊端是：我們無法保證那些很好地代表特征變量X的主成分同樣可以很好地預(yù)測響應(yīng)變量y方法3：降維回歸方法2、偏最小二乘回歸偏最小二乘法是一種有監(jiān)督學(xué)習(xí)方法在提取每一個成分（如????）時，都應(yīng)該滿足以下兩點要求：主成分????應(yīng)攜帶特征變量中盡可能多的變異信息????與響應(yīng)變量????的相關(guān)系數(shù)取得最大這兩點要求說明：主成分不僅要能很好地反映特征變量的信息，而且對響應(yīng)變量的解釋力還必須很強方法3：降維回歸方法2、偏最小二乘回歸當成分??1提取出來之后，分別將特征X和響應(yīng)變量????關(guān)于??1作OLS回歸，并記錄兩個回歸的殘余信息。倘若回歸方程實現(xiàn)了所要求的精度，則成分提取完畢；若未實現(xiàn)精度要求，則繼續(xù)用兩組殘余信息進行新一輪的成分提取。依此類推，直到實現(xiàn)了所要求的精度為止。多元定性響應(yīng)變量的回歸模型03多元定性響應(yīng)變量的回歸模型在很多金融場景下，人們并不太關(guān)心響應(yīng)變量的絕對數(shù)值大小，而更在乎某些定性特征在銀行或互聯(lián)網(wǎng)信貸領(lǐng)域，機構(gòu)會通過一系列算法來評估是否為個體發(fā)放貸款（“貸款”vs“不貸款”）在投資決策中，人們往往會關(guān)心是否買入或賣出相應(yīng)資產(chǎn)（

“買入”vs“不買入”

）債券評級、借款人信用評分等（響應(yīng)變量取值也可大于兩種）多元線性回歸模型的缺陷假設(shè)響應(yīng)變量具有二值離散的分布特征（即????=0或者????=1），那么普通的多元線性回歸模型對參數(shù)的估計將不滿足有效性當定性響應(yīng)變量有m個種類時（m＞2），通常會給各個種類進行編號排序，但這些種類僅在邏輯上僅具有平行關(guān)系，并不具有順序關(guān)系。但是編號本身則天然代表了某種大小關(guān)系或順序關(guān)系，不同的排序方式會產(chǎn)生完全不同的線性模型及參數(shù)估計，給人們帶來混淆。變量的無意義排序參數(shù)估計的有效性不再滿足多元線性回歸模型的缺陷預(yù)測值的經(jīng)濟含義模糊在響應(yīng)變量為二元離散取值的情況下，如果我們使用普通的多元線性回歸模型進行建模，預(yù)測的結(jié)果則可能大于1或小于0，這樣的結(jié)果與現(xiàn)實相悖。需要找到一種把預(yù)測概率控制在【0，1】區(qū)間內(nèi)的建模方法。二分類多元

Logistic

Probit

回歸廣義線性模型（generalized

linear

model）為使y的預(yù)測值總是介于【0，1】之間，在給定x的情況下，考慮y的兩點分布概率：P??=

?? =??(??,??)?????=

?? =1???(??,

??)g(??,??)稱為連接函數(shù)，將特征向量x與響應(yīng)變量y連接起來，選擇合適的連接函數(shù)g(??，??)，可保證0

≤

???

≤

1在給定x的情況下，y的條件期望為：??

?? =1?????=

?? +0?????=

?? =????=1

??將模型的擬合值(預(yù)測值)理解為事件“y=1”的發(fā)生概率二分類多元

Logistic

Probit

回歸廣義線性模型（generalized

linear

model）隨機部分、系統(tǒng)部分（或線性部分）以及聯(lián)系函數(shù)隨機部分是指響應(yīng)變量與其概率分布（例如正態(tài)分布、二項分布或逆高斯分布）假定響應(yīng)變量在各個觀測之間相互獨立，其條件期望??(????|??)i系統(tǒng)部分是指以線性形式進入模型的特征變量，記為????

??′??聯(lián)系函數(shù)將模型的隨機部分與系統(tǒng)部分聯(lián)接起來，用函數(shù)??(?)來表示????

????

?? =

??′?? (??)??當聯(lián)系函數(shù)為??(??)=??時，廣義線性回歸模型退化為普通線性回歸模型。普通線性模型可以看作廣義線性模型的一個特例二分類多元

Logistic

Probit

回歸二分類響應(yīng)變量的多元

Logistic/Probit

模型在利用廣義線性模型做二分類建模時，這兩類函數(shù)可以將系統(tǒng)部分給出????的轉(zhuǎn)化為在0到1之間的變量??

????

，使得模型可以更好地擬合二項分布的數(shù)據(jù)對于Logistic函數(shù)（即Sigmoid函數(shù)），此轉(zhuǎn)換過程可表示為：對于Probit函數(shù)（即標準正態(tài)分布的累積分布函數(shù)），則有：??????=

?? =??

????

?? =??????????????

???????????=1+???????

∈0,1 (6)??????=

?? =??

????

?? =

?????? =

?0????12????2???

????

∈ 0,1 (7)二分類多元

Logistic

Probit

回歸Logistic函數(shù)與Probit函數(shù)圖像Logistic函數(shù)和Probit

函數(shù)都是具有階躍函數(shù)（step

function）性質(zhì)的非線性函數(shù)，能夠?qū)⒆兞考s束在范圍內(nèi)二分類多元

Logistic

Probit

回歸經(jīng)濟學(xué)含義二分類多元Logistic回歸模型：??????????=1

????????=0

??′??=??

??（8）等式左邊稱為對數(shù)幾率（log

odds），幾率為??_??=1與??_??=0的條件概率的比值，表示給定特征變量，響應(yīng)變量??_??=1的相對可能性回歸系數(shù)????的經(jīng)濟含義：在其他特征變量不變的情況下，變量??_??的一單位變化所引發(fā)的對數(shù)幾率的平均變化?；蛘呓忉尀椋涸谄渌卣髯兞坎蛔兊那闆r下，變量??_??對對數(shù)幾率的邊際影響（marginal

effect）同理，二分類多元Probit回歸模型可以寫為：???1

????

?? =

??′?? (9)??二分類多元

Logistic

Probit

回歸數(shù)值優(yōu)化算法來求得數(shù)值解，如梯度下降法和牛頓法????=1參數(shù)估計非線性最小二乘法（nonlinear

least

square）使離差平方和最小化以Probit模型為例，參數(shù)估計量：???????????????=??????

??????

? ???????

??′??2(10)極大似然估計法（maximum

likelihood

estimation）Logistic模型為例，參數(shù)估計量：?????????=????????????

?????=1???? ??′???????????1+

????′??

??(11)二分類多元

Logistic

Probit

回歸分類模型的模型評估特征變量的顯著性檢驗與擬合優(yōu)度評估模型單個特征變量系數(shù)的顯著性可構(gòu)建統(tǒng)計量進行雙側(cè)檢驗（大樣本下）預(yù)測準確度評估機器學(xué)習(xí)中的分類問題通常用混淆矩陣來表示分類結(jié)果真實值????=

??????=

??預(yù)測值?????

1真陽性（TP）假陽性（FP）?????

0假陰性（FN）真陰性（TN）二分類多元

Logistic

Probit

回歸模型評估根據(jù)混淆矩陣，可計算相應(yīng)指標來評估分類結(jié)果（或預(yù)測結(jié)果）的準確性預(yù)測結(jié)果的靈敏度（sensitivity）或真陽率（true

positive

rate）：??????????=????+

????(12)??????=1

?=???? ????????+????

????+????(13)預(yù)測結(jié)果的假陽率（false

positive

rate）：二分類多元

Logistic

Probit

回歸模型評估接收器工作特征曲線（Receiveroperatingcharacteristic

curve

，ROC曲線），該曲線越靠近坐標系的左上角則說明該模型的預(yù)測準確率越高。ROC曲線下方的面積被定義為AUC（area

under

the

curve），該面積越大，模型的預(yù)測能力越強。多類別Logistic模型如果響應(yīng)變量的取值大于兩類時，可以使用多類別Logistic模型多類別的響應(yīng)變量分為兩種：名義響應(yīng)變量（nominal

response）和定序響應(yīng)變量（ordinal

response）定序響應(yīng)變量則代表了種類之間的某種大小順序名義響應(yīng)變量的種類之間在邏輯上具有平行關(guān)系基線Logistic模型定序Logistic模型多類別Logistic模型??1????

????=??1,1+??2,1??2+??3,1??3+?+

????,1??????2????

????=??1,2+??2,2??2+??3,2??3+?+

????,2?????????????1?????=??1,???1+??2,???1??2+?+

????,???1????（14）基線Logistic模型名義響應(yīng)變量采用基線（baseline-category）Logistic回歸模型假設(shè)響應(yīng)變量的種類空間為??

{??1,

…

????}

，且服從概率空間為Π

{??1,

…

????}的多項分布，其中??1

+??2

????=1不失一般性，選定最后一個種類????作為基準（或參照類別）回歸模型由下列???1個方程表示多類別Logistic模型????,1

????,2表示在其他特征變量不變的情況下，????變化一單位對關(guān)于??1和??2的對數(shù)幾率（或理解為對數(shù)相對風險）的邊際影響??2????

??1

= ??1,1?

??1,2+

+ ????,1?

?? ????,2

??（15）基線Logistic模型名義響應(yīng)變量采用基線（baseline-category）Logistic回歸模型多類別Logistic模型定序Logistic模型定序響應(yīng)變量在金融領(lǐng)域中十分常見穆迪投資服務(wù)有限公司通常把長期債券的風險分為Aaa、Aa、A、Baa、Ba、B、Caa、Ca和C九個等級美國P2P借貸平臺Lending

Club將借款人的信用分為A1~A5、B1~B5……和E1~E5共25個級別響應(yīng)變量種類之間存在某種邏輯上的大小關(guān)系或順序關(guān)系定序Logistic模型（累積比數(shù)模型）多類別Logistic模型????=??1,1+??2??2+??3??3+?+

??????????????11?

??1??21?

??2=??1,2+??2??2+??3??3+?+

??????????????????11?

?????1=??1,???1+??2??2+??3??3+?+

????????(16)定序Logistic模型假設(shè)響變量的種類可以按某種順序排列，取值空間記為??

{??1,

…

????}且滿足??1

??2<?<

????定義響應(yīng)變量的概率空間為Π

{??1,

…

????}

，其中???

≡

????

≤

???

??回歸模型由下列???1個方程表示多類別Logistic模型定序Logistic模型定序Logistic回歸模型依賴于一個很強的“均等斜率”假設(shè)在現(xiàn)實問題中，該假設(shè)不一定滿足，使用應(yīng)盡量謹慎，或使用其他替代方法對定序響應(yīng)變量進行建模第一類替代方法有：單獨估計每一個二分類的Logistic回歸模型；或者直接忽略響應(yīng)變量的定序特征，采取基線Logistic回歸模型第二類較為前沿的替代方法有：偏比例幾率模型、連續(xù)比例模型和相鄰類別模型等回歸類分析方法在金融領(lǐng)域的運用04案例1：個人違約風險評估不論傳統(tǒng)商業(yè)銀行業(yè)還是現(xiàn)代互聯(lián)網(wǎng)金融企業(yè)，借款人違約行為作為一種信用風險被受關(guān)注。多年來，學(xué)界和業(yè)界都在為準確預(yù)測這種風險而努力，試圖減小其帶來的巨大損失?；诖吮尘埃咐幌Ｍㄟ^借款人的某些特征變量，來預(yù)測他們的違約行為，進而對其違約風險進行評估。案例1：個人違約風險評估1、數(shù)據(jù)簡介與描述性統(tǒng)計數(shù)據(jù)來源：美國網(wǎng)絡(luò)借貸平臺Lending

Club，橫截面數(shù)據(jù)，樣本量39萬余響應(yīng)變量y為借款人的違約情況（“ChargedOff”

表示已違約，“Fully

Paid”表示未違約）案例1：個人違約風險評估1、數(shù)據(jù)簡介與描述性統(tǒng)計9個特征變量變量名稱內(nèi)容單位gradeLending

Club平臺給出的信用評級（分為A~G七個等級），A表示信用極好，G表示信用極差?！猯oan_amnt借款人申請的借款數(shù)量美元term貸款期限（分為36個月和60個月）—home_ownership借款人住房情況（分為3類）—annual_inc借款人年收入美元dti債務(wù)收入比

月債務(wù)總額/月收入%delinq_2yrs借款人過去兩年內(nèi)的違約次數(shù)次inq_last_6mths借款人過去六個月被信用調(diào)查的次數(shù)次total_acc借款人總賬戶數(shù)個案例1：個人違約風險評估1、數(shù)據(jù)簡介與描述性統(tǒng)計已違約（觀測數(shù)：66510）未違約（觀測數(shù)：325237）均值標準差均值標準差loan_amnt15731.78374.00114397.448247.615annual_inc68735.3550832.3575911.3954839.61dti19.067.8817.157.75delinq_2yrs0.320.860.290.81inq_last_6mths0.911.100.761.02total_acc25.2811.6725.4211.55已違約的借款人個體往往會申請更多借款具有更低的年收入、更高的債務(wù)收入比他們兩年內(nèi)違約的次數(shù)要比未違約的借款人更多六個月內(nèi)接受信用調(diào)查的次數(shù)也要更多案例1：個人違約風險評估1、數(shù)據(jù)簡介與描述性統(tǒng)計信用評級指標分組分布圖（左：已違約樣本；右：未違約樣本）案例1：個人違約風險評估變量名稱模型1：Logistic模型2：Probitdti-0.0164***-0.0095***(0.001)(0.000)delinq_2yrs-0.0278***-0.0159***(0.006)(0.003)inq_last_6mths-0.0652***-0.037***(0.005)(0.003)total_acc0.0016***0.001***(0.000)(0.000)偽R20.077200.07699對數(shù)似然值-131570-1316002、基于訓(xùn)練集的回歸模型結(jié)果由于本案例中的響應(yīng)變量為定性二分類變量，首先應(yīng)考慮采用二分類多元

Logistic/

Probit

回歸模型進行建模訓(xùn)練該模型中，已違約樣本的響應(yīng)變量為0未違約樣本的響應(yīng)變量為1因此從回歸結(jié)果中可以看出負債收入比越高兩年內(nèi)違約次數(shù)越多六個月內(nèi)接受信用調(diào)查越多賬戶數(shù)量越少的個體其違約的可能性越大案例1：個人違約風險評估3、樣本外預(yù)測能力評估與樣本分類非平衡問題ROC曲線幾乎緊貼45度線，說明之前構(gòu)造的Logistic回歸模型并不具有很好的預(yù)測能力現(xiàn)這種情況的原因主要在于響應(yīng)變量具有非平衡的分類。描述性統(tǒng)計顯示，已違約樣本有6萬多個，未違約的樣本量超過了30萬即使模型把預(yù)測集上的樣本全部預(yù)測為未違約樣本其平均預(yù)測準確率也約等于30/36

5/6而Logistic模型本身的預(yù)測能力可能無法達到該數(shù)值案例1：個人違約風險評估3、樣本外預(yù)測能力評估與樣本分類非平衡問題為了解決這個問題，本案例將刪除部分未違約樣本，使得分類變得較為平衡調(diào)整后的樣本中，已違約和未違約的個體均大約有2700個左右再次將該樣本分為訓(xùn)練集和預(yù)測集，并在訓(xùn)練集上進行建模在預(yù)測集上進行樣本外預(yù)測ROC曲線如左圖（AUC=0.57）案例2：原油價格預(yù)測原油價格是影響國際宏觀經(jīng)濟運行的重要指標之一。對原油價格的預(yù)測也逐漸成為了眾多經(jīng)濟學(xué)家和政策制定者所關(guān)注的對象。案例二希望通過找到合適的特征變量，構(gòu)建相應(yīng)的回歸模型以預(yù)測原油價格。1.數(shù)據(jù)簡介與描述性統(tǒng)計數(shù)據(jù)：時間序列數(shù)據(jù)（月度數(shù)據(jù)），樣本量從1987年1月至2021年10月（共418個觀測樣本）響應(yīng)變量為美國西德克薩斯中質(zhì)原油（WTI）的時點價格，取自美國能源信息部門（EIA），時間趨勢圖如下：案例2：原油價格預(yù)測1.數(shù)據(jù)簡介與描述性統(tǒng)計案例2：原油價格預(yù)測1.數(shù)據(jù)簡介與描述性統(tǒng)計變量名稱內(nèi)容單位TBR美國三個月國庫券當期利率%LTY美國十年期政府債券當期利率%IF美國通貨膨脹率（由城市居民CPI計算得到）%EPU美國經(jīng)濟政策不確定性指數(shù)—KI全球?qū)嶓w經(jīng)濟活動Kilian指數(shù)—GOP美國原油生產(chǎn)增長率%GOS美國原油儲蓄增長率%GOI美國原油進口增長率%MS美國貨幣供應(yīng)量M2十億美元UR美國失業(yè)率%CU美國產(chǎn)能利用率%MA移動平均策略指標布爾值MOM動量策略指標布爾值特征變量X共包含45個，其中宏觀經(jīng)濟指標33個，

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

智能金融課件全套張寧第1-12章交叉的目的是融合：導(dǎo)論 - 源源不斷的新思想

文檔簡介

溫馨提示

最新文檔

評論

智能金融 課件全套 張寧 第1-12章 交叉的目的是融合：導(dǎo)論 - 源源不斷的新思想

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

智能金融課件全套張寧第1-12章交叉的目的是融合：導(dǎo)論 - 源源不斷的新思想