金融數(shù)據(jù)分析-以Python為工具 課件 8、建模分析_第1頁
金融數(shù)據(jù)分析-以Python為工具 課件 8、建模分析_第2頁
金融數(shù)據(jù)分析-以Python為工具 課件 8、建模分析_第3頁
金融數(shù)據(jù)分析-以Python為工具 課件 8、建模分析_第4頁
金融數(shù)據(jù)分析-以Python為工具 課件 8、建模分析_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

金融系胡文彬Python金融數(shù)據(jù)分析數(shù)據(jù)建模分析Chapter088.1數(shù)據(jù)和模型的關(guān)系模型是數(shù)據(jù)分析的一種重要工具,用于表達(dá)數(shù)據(jù)規(guī)律。數(shù)據(jù)數(shù)據(jù)代表客觀事實(shí),其中隱含著規(guī)律。模型模型是對數(shù)據(jù)的抽象,通過定量化、結(jié)構(gòu)化、系統(tǒng)化的語言來表達(dá)數(shù)據(jù)中隱含的規(guī)律。無法找到完美模型的原因數(shù)據(jù)噪聲由于隨機(jī)性和偶然性,加上采集、存儲(chǔ)等數(shù)據(jù)管理流程中的誤差,現(xiàn)實(shí)中的數(shù)據(jù)會(huì)受到噪聲的影響。建模的簡化需要模型本身需要很多的假設(shè),這些假設(shè)中很多在現(xiàn)實(shí)中是無法滿足的。假設(shè)是為了簡化建模,排除干擾因素,更有利于抓住事物的本質(zhì)。無法找到完美模型的原因3) 建模的目的建模的目的并不是要得到完美刻畫現(xiàn)實(shí)的模型,而是一個(gè)足夠準(zhǔn)確但又足夠簡潔的模型。模型的表達(dá)需要可解釋性和簡潔性,這可能會(huì)犧牲一定的準(zhǔn)確性。一個(gè)好的模型是準(zhǔn)確性、可解釋性和簡潔性的平衡。8.2經(jīng)典的金融模型我們把金融數(shù)據(jù)分析模型分為兩類:基于金融理論的模型和基于數(shù)據(jù)驅(qū)動(dòng)的模型。前者側(cè)重對現(xiàn)有金融現(xiàn)象的描述和解釋;后者側(cè)重對未知數(shù)據(jù)的預(yù)測。通過金融模型解釋金融市場中存在的各種金融現(xiàn)象、資產(chǎn)的特性、價(jià)值影響因素、價(jià)格變化規(guī)律等具有十分重要的意義。金融模型或金融理論提出的出發(fā)點(diǎn)并不一定是數(shù)據(jù),更多的是金融現(xiàn)象,但在提出模型后仍然需要通過數(shù)據(jù)實(shí)證分析來檢驗(yàn)其正確性。8.2經(jīng)典的金融模型1) 投資組合理論

1952年由馬科維茨提出,引發(fā)了“第一次華爾街革命”,榮獲1990年的諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。投資組合理論假設(shè)投資者以期望收益率和方差(或標(biāo)準(zhǔn)差)來評價(jià)單個(gè)證券或證券組合;投資者是風(fēng)險(xiǎn)厭惡的,在收益一定時(shí)追求風(fēng)險(xiǎn)最小化,在風(fēng)險(xiǎn)一定時(shí)追求收益最大化。在此前提下求解最優(yōu)組合比例。8.2經(jīng)典的金融模型

8.2經(jīng)典的金融模型

8.2經(jīng)典的金融模型4) 有效市場假說有效市場假說(EfficientMarketsHypothesis,EMH)是由法瑪于1970年提出的關(guān)于證券市場價(jià)格行為的理論。該假說并沒有用到精確的數(shù)學(xué)語言,但有助于對股票市場的描述和理解。此外,由于現(xiàn)實(shí)中投資者不會(huì)完全理性,有效的市場也不一定就是一直有效的,市場的無效或臨時(shí)失效是使投資策略研究變得有意義的前提條件。8.2經(jīng)典的金融模型

8.2經(jīng)典的金融模型5) 三因子模型Fama因此獲得了2013年的諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng),并且三因子模型被評選委員會(huì)肯定為金融學(xué)過去25年最重大的成就之一。Fama和French又在模型中加入盈利水平因子和投資水平因子,衍生出五因子模型。此外還有四因子、六因子等模型。Fama-French三因子模型的意義在于為多因素模型找到了具體能解釋股票收益差異的因子。量化投資中最流行的多因子選股模型也是基于這個(gè)思想。8.3基于機(jī)器學(xué)習(xí)的數(shù)據(jù)建模機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,它致力于研究如何通過計(jì)算的手段,利用數(shù)據(jù)來建立并改善模型的性能。目前主流的機(jī)器學(xué)習(xí)是統(tǒng)計(jì)學(xué)習(xí),而深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)熱門方向。8.3基于機(jī)器學(xué)習(xí)的數(shù)據(jù)建模主流的機(jī)器學(xué)習(xí)方式是“從樣例中學(xué)習(xí)”,即從訓(xùn)練樣本中歸納出模型,具體可以分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。如果用于學(xué)習(xí)的數(shù)據(jù)具有標(biāo)記信息,則稱為監(jiān)督學(xué)習(xí),典型代表是回歸和分類。如果學(xué)習(xí)過程中沒有用到標(biāo)記信息,則稱為無監(jiān)督學(xué)習(xí),典型代表為聚類和降維。如果學(xué)習(xí)過程中用到部分樣本的標(biāo)記信息,則稱為半監(jiān)督學(xué)習(xí)。深度學(xué)習(xí)是從另一個(gè)角度描述。強(qiáng)化學(xué)習(xí)也是一種監(jiān)督學(xué)習(xí)。8.3基于機(jī)器學(xué)習(xí)的數(shù)據(jù)建模機(jī)器學(xué)習(xí)是人工智能的核心,已經(jīng)廣泛地應(yīng)用于經(jīng)濟(jì)生產(chǎn)和日常生活中。機(jī)器學(xué)習(xí)在機(jī)器人、無人駕駛、人臉識(shí)別、語音識(shí)別、自然語言處理、搜索引擎、證券投資、防欺詐、生物醫(yī)學(xué)、天氣預(yù)報(bào)、能源勘探、環(huán)境監(jiān)測等方面都有廣泛的應(yīng)用。ChatGPT:GenerativePretrainedTransformance的核心是深度學(xué)習(xí)模型。機(jī)器學(xué)習(xí)的流程機(jī)器學(xué)習(xí)模型選擇機(jī)器學(xué)習(xí)的流程特征工程特征工程中的某些步驟是不依賴于模型的,例如數(shù)據(jù)清洗、特征過濾等;而有些有些步驟是與具體的模型有關(guān)的,例如類別屬性編碼、特殊函數(shù)變換、特征選擇的封裝法和嵌入法等。如果模型有調(diào)整,則需要重新進(jìn)行相應(yīng)的特征工程。機(jī)器學(xué)習(xí)的流程樣本劃分該步驟將用于學(xué)習(xí)的樣本劃分為不相交的訓(xùn)練集、驗(yàn)證集和測試集,其中訓(xùn)練集和測試集是必須的,驗(yàn)證集主要用于超參數(shù)調(diào)參,根據(jù)需要?jiǎng)澐?。超參?shù)指在建模前需要人為確定數(shù)值的參數(shù),不直接依賴于訓(xùn)練數(shù)據(jù),但會(huì)對結(jié)果產(chǎn)生影響。常見的樣本劃分方法有留出法、交叉驗(yàn)證法和自助法。模型性能評估在機(jī)器學(xué)習(xí)中評估模型性能的標(biāo)準(zhǔn)就是模型的泛化性能,指的是模型在不可見樣本上的預(yù)測能力。對于回歸問題,均方誤差是常見的指標(biāo)。對于分類問題,一個(gè)最直接的性能指標(biāo)就是分類準(zhǔn)確率。對二分類問題,機(jī)器學(xué)習(xí)中還有基于混淆矩陣的更強(qiáng)大的性能評估工具?;煜仃?/p>

真實(shí)情況預(yù)測結(jié)果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)ROC曲線

ROC曲線ROC曲線要繪制ROC曲線,我們只需要一個(gè)測試樣本但要求模型能夠給出連續(xù)的預(yù)測值,即所謂的“軟預(yù)測”,而不是僅僅是0或1的“硬”預(yù)測。在得到每個(gè)樣例的正例概率預(yù)測之后,設(shè)定一個(gè)閾值,將概率大于或等于閾值的樣例劃分為正例,其余劃分為反例。這樣每個(gè)閾值就會(huì)對應(yīng)于一個(gè)混淆矩陣。當(dāng)閾值從1逐漸減小到0時(shí),就得到一系列的混淆矩陣,從而就得到一系列的(FPR,TPR)點(diǎn)對,對應(yīng)于ROC曲線上的點(diǎn)。AUC

ROC曲線是評估模型性能的較客觀的方法。曲線越靠近左上方,模型性能越好。我們把連接(0,0)點(diǎn)和(1,1)點(diǎn)的線段稱為隨機(jī)猜測線,一般模型的ROC曲線都位于隨機(jī)猜測線上方。

為了更精確地比較模型性能,進(jìn)一步引入AUC(areaunderROCcurve)指標(biāo),即ROC曲線包圍的面積。AUC越大,則模型的性能越好,完美模型的AUC為1,隨機(jī)猜測模型的AUC為0.5。性能評估例子如果取閾值為0.55,則樣例1-6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論