金融智能:理論與實踐 課件全套 鄭小林 第1-9講 金融智能概論與傳統(tǒng)金融智能化- 金融大數(shù)據(jù)隱私保護_第1頁
金融智能:理論與實踐 課件全套 鄭小林 第1-9講 金融智能概論與傳統(tǒng)金融智能化- 金融大數(shù)據(jù)隱私保護_第2頁
金融智能:理論與實踐 課件全套 鄭小林 第1-9講 金融智能概論與傳統(tǒng)金融智能化- 金融大數(shù)據(jù)隱私保護_第3頁
金融智能:理論與實踐 課件全套 鄭小林 第1-9講 金融智能概論與傳統(tǒng)金融智能化- 金融大數(shù)據(jù)隱私保護_第4頁
金融智能:理論與實踐 課件全套 鄭小林 第1-9講 金融智能概論與傳統(tǒng)金融智能化- 金融大數(shù)據(jù)隱私保護_第5頁
已閱讀5頁,還剩481頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

浙江大學(xué),《金融智能:理論與實踐》金融智能概論與傳統(tǒng)金融智能化C

O

N

T

E

N

T

S浙江大學(xué),《金融智能:理論與實踐》,2022目錄金融智能的發(fā)展現(xiàn)狀與挑戰(zhàn)金融科技支撐技術(shù)傳統(tǒng)金融智能化和金融科技新業(yè)態(tài)01

金融科技3.0:金融智能金融科技3.0:金融智能浙江大學(xué),《金融智能:理論與實踐》01金融的本質(zhì)金融智能金融智能的內(nèi)涵金融的本質(zhì)跨時空資產(chǎn)配置浙江大學(xué),《金融智能:理論與實踐》信用杠桿風(fēng)險信用是金融的生命線,沒有信用就沒有金融。信用是杠桿的基礎(chǔ);一旦有信用,就有透支,透支就是杠桿。沒有杠桿比就沒有金融,但杠桿比過高就產(chǎn)生風(fēng)險!圍繞信用,杠桿和風(fēng)險進行對金融資產(chǎn)進行跨時空的配置活動金融科技發(fā)展歷史FinTech

1.0金融電子化FinTech

2.0互聯(lián)網(wǎng)金融FinTech

3.0金融智能互聯(lián)網(wǎng)銀證保InternetBanks

etc.互聯(lián)網(wǎng) 互聯(lián)網(wǎng)銀行 證券互聯(lián)網(wǎng)保險綜合型金融科技新興金融科技Alternative

Finance數(shù)字支付 保險科技消費金融供應(yīng)鏈金融智能投顧數(shù)字貨幣其他傳統(tǒng)金融科技化DigitizationofFinancial

Sector銀行證券保險基金信托金融科技基礎(chǔ)設(shè)施FinTech

Infrastructure大數(shù)據(jù)征信區(qū)塊鏈云計算B浙江大學(xué),《金融智能:理論與實踐》人工智能

A信息(安全)服務(wù)

S物聯(lián)網(wǎng) I5G交易所CB金融智能定義2016年3月,全球金融穩(wěn)定理事會(Financial

Stability

Board

(FSB)

)發(fā)布了《金融科技的描述與分析框架報告》,對金融科技做出了初步定義:金融科技是指通過技術(shù)手段推動金融創(chuàng)新,形成對金融市場、機構(gòu)及服務(wù)產(chǎn)生重大影響的業(yè)務(wù)模式、技術(shù)應(yīng)用、流程和產(chǎn)品。豐富的應(yīng)用場景 高度結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù) 普惠金融本課程金融智能定義金融智能為以大數(shù)據(jù)和人工智能為重要驅(qū)動力,以區(qū)塊鏈和隱私保護為安全保障,以云計算和物聯(lián)網(wǎng)為基礎(chǔ)設(shè)施,在新興技術(shù)的推動下不斷進行業(yè)務(wù)革新的進程。金融智能特點浙江大學(xué),《金融智能:理論與實踐》金融智能:

數(shù)字化、智能化、開放化浙江大學(xué),《金融智能:理論與實踐》金融智能的發(fā)展現(xiàn)狀與挑戰(zhàn)浙江大學(xué),《金融智能:理論與實踐》02金融智能的發(fā)展與現(xiàn)狀金融智能的挑戰(zhàn)金融智能的發(fā)展現(xiàn)狀集成大數(shù)據(jù)和人工智能等新興技術(shù)。浙江大學(xué),《金融智能:理論與實踐》,2022以信用與定價為核心。產(chǎn)生智能授信與風(fēng)控、智能保險定價、智能投顧和量化交易等應(yīng)用。全球范圍催生了各種金融科技公司??偘瘢菏装l(fā)城市,全球格局變注:以上1-9名為第一梯隊,10-50名為第二梯隊浙江大學(xué),《金融智能:理論與實踐》全球擴容,欣欣向榮從去年的8+32+N,變?yōu)?+41+N競爭加劇,勇者追趕排名變化率:

TOP50為78%;第二梯隊為82.9%首爾、雅加達進步最大(4名),政策強勁、金科企業(yè)上市、金科使用者占比提升是主因“新”城晉升,頭部漸成第一梯隊新晉一城:新加坡(且超越芝加哥)第一梯隊9城均在60分以上,平均分75.5TOP3三年未變,TOP4兩年未變(2019上海超越倫敦成第4)2021排名城市較上期排名2021排名城市較上期排名1北京

Beijing—26班加羅爾

Bangalore—2舊金山(硅谷)

SanFrancisco—27柏林

Berlin↑13紐約

NewYork—28圣保羅

Sao

Paulo↑24上海Shanghai—29成都

Chengdu—5深圳

Shenzhen↑130都柏林

Dublin↓36倫敦

London↓131重慶

Chongqing↑17杭州

Hangzhou↓132特拉維夫

Tel

Aviv↑18新加坡

Singapore↑133洛杉磯

Los

Angeles↓29芝加哥

Chicago↓134新德里

New

Delhi↑310悉尼

Sydney—35雅加達

Jakarta↑411東京

Tokyo—36墨西哥城

Mexico

City↓112巴黎

Paris↑137莫斯科

Moscow↓113廣州

Guangzhou↑138開普敦

CapeDown↓414香港

Hong

Kong↑139巴塞羅那

Barcelona↓115墨爾本

Melbourne↑140米蘭

Milan新晉16亞特蘭大

Atlanta↓441法蘭克福

Frankfurt新晉17西雅圖

Seattle—42日內(nèi)瓦

Geneva↓218孟買

Bombay↑243吉隆坡

Kuala

Lumpur新晉19首爾

Seoul↑444胡志明

HoChi

Minh新晉20南京

Nanjing↓145華沙Warsaw新晉21波士頓

Boston↑146西安Xi'an新晉22斯德哥爾摩

Stockholm↓447圣彼得堡

Saint

Petersburg新晉23蘇黎世

Zurich↓248曼谷

Bangkok新晉24多倫多

Toronto—49內(nèi)羅畢

Nairobi新晉25阿姆斯特丹

Amsterdam—50阿布扎比

Abu

Dhabi新晉第一梯隊:高度集中,當之無愧注:以上圓圈中數(shù)字為第一梯隊城市占TOP50的比例,第二梯隊占比為第二梯隊城市占TOP50的比例高融資未上市企業(yè):累計融資額3000萬美元及以上未上市金科企業(yè)金融科技上市企業(yè)市值數(shù)量金融科技高融資未上市企業(yè)浙江大學(xué),《金融智能:理論與實踐》融資額數(shù)量產(chǎn)業(yè)榜:連續(xù)三年TOP8入榜不變,中美勢均力敵2021排名城市國家較上期排名2021排名城市國家較上期排名1北京

Beijing中國—11巴黎

Paris法國—2紐約

New

York美國↑112東京

Tokyo日本↑23舊金山

SanFrancisco美國↓113香港

Hong

Kong中國↓34上海Shanghai中國—14悉尼

Sydney澳大利亞↓15倫敦

London英國—15墨爾本

Melbourne澳大利亞↑46深圳

Shenzhen中國↑116阿姆斯特丹

Amsterdam荷蘭↑27杭州

Hangzhou中國↓117多倫多

Toronto加拿大↑68芝加哥

Chicago美國—18西雅圖

Seattle美國↓39新加坡

Singapore新加坡↑319孟買

Bombay印度↑310亞特蘭大

Atlanta美國↓120柏林

Berlin德國↓4頭部城市三年一致TOP8城市雖有內(nèi)部排名變化,但連續(xù)三年均為這8城中美G2,勢均力敵TOP20中美各擁5城印度突出重圍多倫多、孟買首進TOP20,印度成除中國外第二個有城市進入TOP20的發(fā)展中國家浙江大學(xué),《金融智能:理論與實踐》,2022消費者體驗榜:發(fā)展中國家與亞洲延續(xù)全面領(lǐng)先優(yōu)勢,中國繼續(xù)為“王”2021排名城市國家較上期排名2021排名城市國家較上期排名1杭州

Hangzhou中國—11開普敦

Cape

Down南非↓22深圳

Shenzhen中國—12班加羅爾

Bangalore印度↑13廣州

Guangzhou中國—13新德里

New

Delhi印度↑14上海Shanghai中國—14莫斯科

Moscow俄羅斯↓35北京

Beijing中國—15舊金山

SanFrancisco美國↑16南京

Nanjing中國—16倫敦

London英國↑27成都

Chengdu中國↑117圣彼得堡

St.Petersburg俄羅斯↓28西安Xi'an中國↓118墨西哥城

Mexico

city墨西哥↓19重慶

Chongqing中國↑119新加坡

Singapore新加坡↑110孟買

Bombay印度↑220悉尼

Sydney澳大利亞↑3發(fā)展中國家持續(xù)引領(lǐng)TOP10城市均屬發(fā)展中國家,TOP20占16城,與去年相同發(fā)達國家有所進步TOP20的4座發(fā)達國家城市,排名均有上升澳大利亞進步最明顯,悉尼、墨爾本均進步最大(3名)亞洲延續(xù)全面領(lǐng)先優(yōu)勢TOP10城市均屬亞洲,TOP20占13城,與去年相同;東南亞發(fā)展快速TOP9均為中國城市,杭州連續(xù)3年第一浙江大學(xué),《金融智能:理論與實踐》生態(tài)榜:發(fā)達國家優(yōu)勢顯著,中國城市多有進步2021排名城市國家較上期排名2021排名城市國家較上期排名1倫敦

London英國—11巴黎

Paris法國↑22北京

Beijing中國↑112悉尼

Sydney澳大利亞—3紐約

New

York美國↓113杭州

Hangzhou中國↑14舊金山

SanFrancisco美國—14芝加哥

Chicago美國↓35深圳

Shenzhen中國↑115墨爾本

Melbourne澳大利亞—6上海Shanghai中國↑116首爾

Seoul韓國—7東京

Tokyo日本↓217廣州

Guangzhou中國↑28新加坡

Singapore新加坡—18多倫多

Toronto加拿大↓19波士頓

Boston美國↑119斯德哥爾摩

Stockholm瑞典↓110西雅圖

Seattle美國↓120南京

Nanjing中國↑2發(fā)達國家優(yōu)勢顯著發(fā)達國家城市:

TOP10和20均占70%,與去年相同中國城市多有進步北京超越紐約,深圳、上海超越東京5座TOP20中國城市生態(tài)排名均上升新加坡小體量大作為雄厚的金融及科技產(chǎn)業(yè)基礎(chǔ)、出色的科研創(chuàng)新能力以及良好的政策監(jiān)管環(huán)境浙江大學(xué),《金融智能:理論與實踐》,2022金融智能的挑戰(zhàn)金融安全是國家安全的重要組成部分金融業(yè)務(wù)相關(guān)線上服務(wù)平安可信可靠金融業(yè)務(wù)數(shù)據(jù)安全,保護用戶個人數(shù)據(jù)隱私,防止被篡改濫用積極優(yōu)化升級,主動抵御惡意攻擊安全可信是發(fā)展根本納入社會各種群體,提供適當有效的金融服務(wù)普及金融服務(wù),同時對金融業(yè)務(wù)場景進行個性化創(chuàng)新構(gòu)建金融用戶不同畫像,實現(xiàn)精準營銷普惠是社會需求國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,金融智能為應(yīng)用試點示范重點行業(yè)之一人工智能與金融天然契合,例如金融智能圖譜人工智能模型可解釋性差和計算復(fù)雜性高,局限智能金融應(yīng)用落地浙江大學(xué),《金融智能:理論與實踐》,2022智能是必由之路金融科技支撐技術(shù)浙江大學(xué),《金融智能:理論與實踐》,202203大數(shù)據(jù)人工智能區(qū)塊鏈和隱私保護云計算和物聯(lián)網(wǎng)金融科技支撐技術(shù)ArtificialIntelligenceBlockchain金融科技SecurityIoTCloudComputingBig

Data浙江大學(xué),《金融智能:理論與實踐》,2022大數(shù)據(jù)數(shù)據(jù)可信性浙江大學(xué),《金融智能:理論與實踐》,2022交易模式數(shù)據(jù)安全數(shù)據(jù)隱私大數(shù)據(jù)確權(quán)歐盟GDPR法案(General

Data

ProtectionRegulation),2016年發(fā)布,2018年5月25日生效2021年9月,《中華人民共和國數(shù)據(jù)安全法》2021年11月,《中華人民共和國個人信息保護法》人工智能的提出ResearchProjectonArtificialIntelligence,August31,1955,

Dartmouth讓機器能像人那樣認知、思考和學(xué)習(xí),

即用計算機模擬人的智能。浙江大學(xué),《金融智能:理論與實踐》,20221955年,

Dartmouth,第一屆AAAI,四位學(xué)者提出“人工智能”John

McCarthy,

Dartmouth(1971年度圖靈獎獲得者)Marvin

Lee

Minsky,哈佛大學(xué)(1969年度圖靈獎)Claude

Elwood

Shannon,

貝爾實驗室(信息理論之父)NathanielRochester,IBM第一代通用計算機701主設(shè)計師人工智能(Artificial

Intelligence)是以機器為載體所展示的人類智能,因此人工智能也被稱為機器智能(Machine

Intelligence)國家對人工智能的重視浙江大學(xué),《金融智能:理論與實踐》,20222016年1月,日本提出要建設(shè)“超級智能社會”和領(lǐng)先世界的超級智能社會服務(wù)平臺,并將人工智能跨部門政策寫入2016年度第二次補充預(yù)算案。(政府研發(fā)投資總額將達到26萬億日元,約合2288億美元)2016年11月,英國政府科學(xué)辦公室發(fā)布報告《人工智能給未來決策帶來的機遇及影響》。2016年,歐盟啟動“地平線2020”

(770億歐元)2018年11月15日,德國發(fā)布“人工智能德國制造戰(zhàn)略”,計劃在2025年前投資30億歐元推動德國人工智能發(fā)展.區(qū)塊鏈和隱私保護浙江大學(xué),《金融智能:理論與實踐》,2022區(qū)塊鏈和隱私保護浙江大學(xué)人工智能研究所與杭州金智塔科技參加的國家重點研發(fā)計劃項目(No.

2018YFB1403003)落地成果:金智塔隱私計算平臺;融合了“多方安全計算”與“安全聯(lián)邦學(xué)習(xí)”兩大主流隱私計算模式,賦能金融數(shù)據(jù)合規(guī)與隱私保護;平臺支持數(shù)據(jù)分級分類、數(shù)據(jù)質(zhì)量審計、數(shù)據(jù)應(yīng)用存證、數(shù)據(jù)入模效果分析等數(shù)據(jù)流通支撐功能。數(shù)據(jù)可用不可見,用途可控可計量浙江大學(xué),《金融智能:理論與實踐》,2022云計算和物聯(lián)網(wǎng)浙江大學(xué),《金融智能:理論與實踐》,2022金融大數(shù)據(jù)智能服務(wù)平臺浙江大學(xué),《金融智能:理論與實踐》,202204浙江大學(xué),《金融智能:理論與實踐》,2022傳統(tǒng)金融智能化和金融科技新業(yè)態(tài)金融科技業(yè)態(tài)產(chǎn)業(yè)金融現(xiàn)狀傳統(tǒng)金融智能化金融產(chǎn)業(yè)實踐金融智能倫理與治理金融科技業(yè)態(tài)分類浙江大學(xué),《金融智能:理論與實踐》,2022按照巴塞爾委員會(BCBS)的分類方法,金融科技活動主要分為支付結(jié)算、存貸款與資本籌集、投資管理、市場設(shè)施(包括分布式賬戶)四類。支付結(jié)算包括:

手機和網(wǎng)絡(luò)支付、電子貨幣以及區(qū)塊鏈等;存貸款與資本籌集包括:

眾籌、P2P網(wǎng)貸、電子貨幣、區(qū)塊鏈等;投資管理包含:

機器人投資顧問、電子自動交易、智慧合同等;市場設(shè)施包括:

電子聚合器、大數(shù)據(jù)、云計算、電子身份認證等。浙江大學(xué),《金融智能:理論與實踐》,2022產(chǎn)業(yè)金融現(xiàn)狀:現(xiàn)狀概要三個特點積極發(fā)展產(chǎn)業(yè)數(shù)字金融;積極支持國家重大區(qū)域戰(zhàn)略、戰(zhàn)略性新興產(chǎn)業(yè)、先進制造業(yè)和新型基礎(chǔ)設(shè)施建設(shè),打造數(shù)字化的產(chǎn)業(yè)金融服務(wù)平臺,圍繞重大項目、重點企業(yè)和重要產(chǎn)業(yè)鏈,加強場景聚合、生態(tài)對接,實現(xiàn)“一站式”金融服務(wù)?!侗kU業(yè)銀行業(yè)數(shù)字化轉(zhuǎn)型指導(dǎo)意見》2022年1月27日四流匯聚物流信息流以滿足生產(chǎn)者的融資需求為主要功能的金融體系稱為“產(chǎn)業(yè)金融”,其主要研究產(chǎn)業(yè)與金融的相互融合,互動發(fā)展,共創(chuàng)價值。隨著我國“數(shù)字經(jīng)濟”戰(zhàn)略的持續(xù)推進,產(chǎn)業(yè)金融從最傳統(tǒng)的金融服務(wù)模式發(fā)展到產(chǎn)業(yè)鏈、供應(yīng)鏈金融模式再到集合了商流、物流、資金流、信息流的產(chǎn)融生態(tài)圈模式。商流資金流“以融強產(chǎn)”成為產(chǎn)業(yè)集團金融布局主要目標平臺化方式為

N+1+N

的跨界金融服務(wù)提供可能傳統(tǒng)金融機構(gòu)加速布局金融科技傳統(tǒng)金融智能化:保險科技——

以達觀數(shù)據(jù)為例浙江大學(xué),《金融智能:理論與實踐》,2022傳統(tǒng)金融智能化:數(shù)字銀行浙江大學(xué),《金融智能:理論與實踐》,2022傳統(tǒng)金融智能化:數(shù)字貨幣人民日報:讓數(shù)字人民幣更好助力數(shù)字經(jīng)濟浙江大學(xué),《金融智能:理論與實踐》,2022產(chǎn)業(yè)金融實踐:小微科創(chuàng)企業(yè)智能信貸AI解決方案:智能授信傳統(tǒng)信貸存在貸款申請難、額度滿足難、資產(chǎn)評估難的缺陷,難以滿足企業(yè)的用款需求。而智能信貸基于人工智能技術(shù),無人為干預(yù),純線上自動放貸,得以幫助有需求企業(yè)便捷、足額申請貸款,同時幫助借方平衡風(fēng)險省農(nóng)商行科創(chuàng)企業(yè)智能授信授信額度提升:科創(chuàng)企業(yè)戶均提升約63萬的授信額度,更加滿足企業(yè)發(fā)展需求貸款成本下降:與互金平臺融資對比,幫助企業(yè)降低了約50%以上的融資成本辦貸效率提升:線上一鍵申請,1個工作日辦結(jié),每筆貸款辦理比原來最少縮短2-4天浙江大學(xué),《金融智能:理論與實踐》,2022產(chǎn)業(yè)鏈金融實踐:隱私計算緩解數(shù)據(jù)孤島受限于數(shù)據(jù)合規(guī)性制約,現(xiàn)有供應(yīng)鏈金融系統(tǒng)存在事實數(shù)據(jù)分散、獲取成本高兩大問題。隱私計算能夠有效補充現(xiàn)有解決方案,降低隱私合規(guī)成本,賦能供應(yīng)鏈金融。應(yīng)用案例:反欺詐通過隱私計算打通外部數(shù)據(jù)價值匯聚數(shù)據(jù)均不出域,本地建模,保護各自數(shù)據(jù)特征安全采用隱私求交,確保各方信息不外泄匿名查詢,有效保護業(yè)務(wù)規(guī)則和模型安全黑灰名單、關(guān)注名單查詢隱匿三要素驗證等運營商數(shù)據(jù)多頭借貸、逾期次數(shù)、申請資料造假、有高利貸歷史等黑灰名單數(shù)據(jù)交易關(guān)系查詢發(fā)票數(shù)據(jù)密文結(jié)果匿名查詢需求發(fā)起方難點:

外部數(shù)據(jù)接入受合規(guī)性制約MPC安全多方計算TEE可信執(zhí)行環(huán)境FL聯(lián)邦學(xué)習(xí)浙江大學(xué),《金融智能:理論與實踐》,2022產(chǎn)業(yè)鏈金融實踐:借貸違約預(yù)測針對借貸違約預(yù)測中的

When(何時違約)、How(如何違約)、Why(為何違約)問題,基于用戶的歷史行為時序,建模用戶在貸款后的還款意愿變化、風(fēng)險傳遞模式,從而實現(xiàn)精準的貸前和貸中風(fēng)控。項目支持:浙江大學(xué)-網(wǎng)商銀行“基于產(chǎn)業(yè)知識的供應(yīng)鏈金融分析研究How:UBS-R

-

違約風(fēng)險中的同群效應(yīng)與傳導(dǎo)效應(yīng)建模設(shè)計基于深度圖匹配的偽邊生成與相似性傳遞機制,建模風(fēng)險的同群效應(yīng)設(shè)計基于時間感知的匿名隨機游走于嵌入學(xué)習(xí)方法,建模風(fēng)險的傳導(dǎo)效應(yīng)When:UBS

-

用戶還款意愿與還款時間建模設(shè)計基于神經(jīng)常微分方程的不規(guī)則時序建模方法,表征用戶歷史行為的影響設(shè)計基于神經(jīng)點過程的用戶還款意愿建模方法,推理用戶還款時間設(shè)計基于優(yōu)質(zhì)客戶對的度量學(xué)習(xí)方法,對用戶的違約訂單進行監(jiān)測Why:數(shù)據(jù)勘察與決策可解釋勘察1:違約企業(yè)的行為受其歷史事件及合作企業(yè)的影響勘察2:用戶行為時序中的不同事件類型對齊違約行為的影響不一勘察3:用戶的違約風(fēng)險隨時間發(fā)生傳遞決策可解釋:用戶歷史行為事件的重要性(左)與用戶還款意愿變化(右)可視化智能倫理:公平性與多樣性人工智能技術(shù)的開發(fā)和應(yīng)用深刻地改變著人類的生活,不可避免地會沖擊現(xiàn)有的倫理與社會秩序,引發(fā)一系列問題。這其中,算法的公平性與多樣性是兩個重點的研究領(lǐng)域。人工智能應(yīng)用導(dǎo)致的人機沖突以及不平等問題外賣平臺持續(xù)搜集外賣配送員行為數(shù)據(jù),利用人工智能不斷壓縮標準配送時間,最終導(dǎo)致人與人工智能的嚴重對立。在供應(yīng)鏈或商業(yè)生態(tài)系統(tǒng)內(nèi),掌握數(shù)據(jù)、算法和算力優(yōu)勢的企業(yè)會對合作伙伴形成不對稱優(yōu)勢,從而造成市場壟斷

。人工智能應(yīng)用對傳統(tǒng)生產(chǎn)關(guān)系和商業(yè)形態(tài)的破壞性國家互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部、國家市場監(jiān)督管理總局聯(lián)合發(fā)布《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》,旨在規(guī)范互聯(lián)網(wǎng)信息服務(wù)算法推薦活動。消極影響2:

增加群體極化的可能重復(fù)觀念性內(nèi)容的推薦,會強化用戶對于某種意見的認知,使得相近觀念的個體不斷強化認同,并進一步放大了不同觀念的群體差異,形成群體極化。02“信息繭房”導(dǎo)致的多樣性不足問題“信息繭房”,形容的是信息傳播中受眾只關(guān)注喜歡的內(nèi)容,陷入相似信息的“回音室”,久而久之如同蠶一般作繭自縛。消極影響1:

對用戶主體的消極影響長期處于“信息繭房”的用戶缺乏獲取異質(zhì)化信息的機會,自我興趣成為探索外界的唯一意向,并不斷阻礙用戶的注意力轉(zhuǎn)移。01浙江大學(xué),《金融智能:理論與實踐》,2022智能治理:隱私保護歐盟在2018年5月正式實行《GDPR》(一般數(shù)據(jù)保護條例)

,規(guī)定高科技公司存儲、處理或交換任何歐盟公民的數(shù)據(jù)時,都必須符合GDPR2020年7月,《中華人民共和國數(shù)據(jù)安全法(草案)》公布,要求確立數(shù)據(jù)分級分類管理、落實數(shù)據(jù)安全保護責任、支持促進數(shù)據(jù)安全與發(fā)展的措施。2020

年10月,

全國人大對《個人信息保護法(

草案)》初審。相關(guān)法律、政策陸續(xù)出臺數(shù)據(jù)可信性 交易模式數(shù)據(jù)安全數(shù)據(jù)隱私數(shù)據(jù)確權(quán)式列為“土地、勞動力、資本、技術(shù)”后的第五種生產(chǎn)要素?!艑盟闹腥珪湫蛻?yīng)用場景之一浙江大學(xué),《金融智能:理論與實踐》,2022小微企業(yè)信貸業(yè)務(wù)中,銀行因為無法掌握政府各部門分散的數(shù)據(jù),無法給中小企業(yè)準確授信;政府因為數(shù)據(jù)隱私與安全問題不敢給銀行提供數(shù)據(jù)現(xiàn)有智能治理的主要問題之一:缺乏數(shù)據(jù)治理的數(shù)據(jù)隱私性,制約了數(shù)據(jù)要素潛能的釋放。數(shù)據(jù)成為核心生產(chǎn)要素數(shù)據(jù)作為數(shù)字經(jīng)濟最重要的生產(chǎn)要素,已經(jīng)被我國正智能治理:透明性現(xiàn)有智能治理的主要問題之二:缺乏數(shù)據(jù)透明性,即模型的可解釋性不足與權(quán)屬不清等。模型可解釋性指對模型內(nèi)部機制的理解以及對模型結(jié)果的理解。模型可解釋性不足將導(dǎo)致模型的可信度下降,制約了模型的推廣與應(yīng)用。模型可解釋性內(nèi)在可解釋 事后可解釋 局部可解釋 全局可解釋性 性 性 性事后解釋和局部解釋:a.

原始圖片,b.

解釋為電吉他的原因,c.

解釋為木吉他的原因,d.

解釋為拉布拉多的原因模型權(quán)屬不清,導(dǎo)致知識產(chǎn)權(quán)難以保護。訓(xùn)練一個模型包含了大量工作,往往需要經(jīng)年累月的投入才能得到高效穩(wěn)定的成品模型,然而竊取和拷貝他人訓(xùn)練好的機器模型卻十分容易。通過向模型嵌入水印可以保護模型的知識產(chǎn)權(quán),稱為模型水印浙江大學(xué),《金融智能:理論與實踐》,2022浙江大學(xué),《金融智能:理論與實踐》,2022金融智能概論與傳統(tǒng)金融智能化感謝聆聽!浙江大學(xué),《金融智能:理論與實踐》金融大數(shù)據(jù)管理C

O

N

T

E

N

T

S浙江大學(xué),《金融智能:理論與實踐》目錄金融數(shù)據(jù)獲取金融數(shù)據(jù)存儲金融數(shù)據(jù)分析01

金融大數(shù)據(jù)概述金融大數(shù)據(jù)概述浙江大學(xué),《金融智能:理論與實踐》,202201金融大數(shù)據(jù)的定義和特點金融大數(shù)據(jù)帶來的挑戰(zhàn)金融大數(shù)據(jù)定義:運用大數(shù)據(jù)技術(shù)開展金融服務(wù),即將大規(guī)模結(jié)構(gòu)化、半結(jié)構(gòu)化

、非結(jié)構(gòu)化數(shù)據(jù)集成在一起,通過互聯(lián)網(wǎng)、云計算和數(shù)據(jù)挖掘等信息處理方式進行實時分析,向客戶提供全方位的信息。作用:通過分析和挖掘客戶交易與客戶消費習(xí)慣信息,預(yù)測客戶行為,在傳統(tǒng)金融服務(wù)的基礎(chǔ)上進行資金融通,創(chuàng)新金融服務(wù)。浙江大學(xué),《金融智能:理論與實踐》,2022金融大數(shù)據(jù)的特點數(shù)字化大數(shù)據(jù)的應(yīng)用將改變傳統(tǒng)金融機構(gòu)的資金中介的職能,使其表現(xiàn)出虛擬化和電子化的交易特征。以移動支付技術(shù)為基礎(chǔ)的互聯(lián)網(wǎng)金融降低了信息不對稱和物理區(qū)域所帶來的障礙。大數(shù)據(jù)將與物資資本、人力資本一起,成為生產(chǎn)過程中的一個重要生產(chǎn)要素。大數(shù)據(jù)時代的全量數(shù)據(jù)分析使得分析結(jié)果更具客觀性和決策支持性開放性浙江大學(xué),《金融智能:理論與實踐》,2022高生產(chǎn)力科學(xué)決策金融大數(shù)據(jù)帶來的機遇和挑戰(zhàn)機遇大數(shù)據(jù)帶來了精細化的經(jīng)營管理能力。不僅可以提升金融機構(gòu)的營銷水平,增強客戶對金融機構(gòu)服務(wù)的認可度,還有助于降低金融風(fēng)險。挑戰(zhàn)對傳統(tǒng)金融機構(gòu)產(chǎn)生很大沖擊,傳統(tǒng)金融機構(gòu)亟需變革以應(yīng)對市場變化。數(shù)據(jù)利用問題頻發(fā),包括數(shù)據(jù)共享問題、數(shù)據(jù)孤島現(xiàn)象、數(shù)據(jù)安全和隱私問題。浙江大學(xué),《金融智能:理論與實踐》,2022金融大數(shù)據(jù)處理流程金融大數(shù)據(jù)的處理流程是指在合適工具的輔助下,對廣泛異構(gòu)的數(shù)據(jù)源進行抽取和集成,并將結(jié)果按照一定的標準統(tǒng)一存儲,之后利用合適的數(shù)據(jù)分析技術(shù)對存儲的數(shù)據(jù)進行分析。數(shù)據(jù)獲取與存儲對相關(guān)數(shù)據(jù)源的數(shù)據(jù)抽取出關(guān)系和實體,經(jīng)過關(guān)聯(lián)和聚合之后采用統(tǒng)一定義的結(jié)構(gòu)來存儲數(shù)據(jù)。浙江大學(xué),《金融智能:理論與實踐》,2022數(shù)據(jù)分析人工智能時代的數(shù)據(jù)分析更多服務(wù)于數(shù)據(jù)建模,以數(shù)據(jù)預(yù)處理與特征工程形勢存在,保證數(shù)據(jù)質(zhì)量及可信性。數(shù)據(jù)建模數(shù)據(jù)建模方式包括監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)等等,數(shù)據(jù)建模可以為各個業(yè)務(wù)環(huán)節(jié)、業(yè)務(wù)場景中對應(yīng)的人或者及其提供增值服務(wù)。數(shù)據(jù)應(yīng)用凡是為各個業(yè)務(wù)環(huán)節(jié)、業(yè)務(wù)場景中對應(yīng)的人或者機器提供增值服務(wù)的過程都可以稱為數(shù)據(jù)應(yīng)用。數(shù)據(jù)中臺定義:數(shù)據(jù)中臺是抽象數(shù)據(jù)能力的共性形成通用數(shù)據(jù)服務(wù)能力。作用:極大提升數(shù)據(jù)開發(fā)的效率,降低開發(fā)成本,同時可以讓整個數(shù)據(jù)場景更為智能化。數(shù)據(jù)中臺解決的問題服務(wù)能力計算能力數(shù)據(jù)整合能力浙江大學(xué),《金融智能:理論與實踐》,2022數(shù)據(jù)中臺應(yīng)具備的能力數(shù)據(jù)中臺與數(shù)據(jù)倉庫浙江大學(xué),《金融智能:理論與實踐》,2022數(shù)據(jù)中臺架構(gòu)數(shù)據(jù)中臺的目標是讓數(shù)據(jù)持續(xù)使用起來,通過數(shù)據(jù)中臺提供的工具、方法和運行機制,把數(shù)據(jù)變?yōu)橐环N服務(wù)能力,讓數(shù)據(jù)更方便地被業(yè)務(wù)所使用。數(shù)據(jù)中臺架構(gòu)分:數(shù)據(jù)匯聚、數(shù)據(jù)開發(fā)、數(shù)據(jù)體系、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)服務(wù)體系、數(shù)據(jù)運營體系和數(shù)據(jù)安全管理

共六大模塊。浙江大學(xué),《金融智能:理論與實踐》,2022數(shù)據(jù)中臺建設(shè)數(shù)據(jù)中臺的建設(shè)目標是:高效滿足前臺數(shù)據(jù)分析和應(yīng)用的需求。數(shù)據(jù)中臺涵蓋了數(shù)據(jù)資產(chǎn)、數(shù)據(jù)治理、數(shù)據(jù)模型、垂直數(shù)據(jù)中心、全域數(shù)據(jù)中心、萃取數(shù)據(jù)中心、數(shù)據(jù)服務(wù)等多個層次的體系化建設(shè)。數(shù)據(jù)資源的盤點與規(guī)劃浙江大學(xué),《金融智能:理論與實踐》,2022數(shù)據(jù)應(yīng)用的規(guī)劃與設(shè)計數(shù)據(jù)應(yīng)用的設(shè)計與實現(xiàn)數(shù)據(jù)資產(chǎn)的建設(shè)數(shù)據(jù)化組織規(guī)劃金融數(shù)據(jù)獲取浙江大學(xué),《金融智能:理論與實踐》,202202金融數(shù)據(jù)資源與質(zhì)量金融數(shù)據(jù)常見問題金融數(shù)據(jù)獲取方式數(shù)據(jù)資源浙江大學(xué),《金融智能:理論與實踐》,2022數(shù)據(jù)分類方式按照數(shù)據(jù)格式劃分:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)按照存儲形式劃分:數(shù)據(jù)庫數(shù)據(jù)、文件數(shù)據(jù)、流式數(shù)據(jù)、數(shù)據(jù)服務(wù)中心數(shù)據(jù)按照數(shù)據(jù)描述內(nèi)容劃分:實體數(shù)據(jù)、交易數(shù)據(jù)、行為數(shù)據(jù)、統(tǒng)計結(jié)果數(shù)據(jù)按照數(shù)據(jù)歸屬地劃分:內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)按照主題劃分:在構(gòu)建業(yè)務(wù)過程中,按照業(yè)務(wù)主題對數(shù)據(jù)進行分類。業(yè)務(wù)主題一般按照企業(yè)業(yè)務(wù)的核心實體和業(yè)務(wù)過程會進行劃分,沒有統(tǒng)一標準。數(shù)據(jù)質(zhì)量常見問題常見問題分類準確性合理性一致性非冗余性及時性完備性可信性可解釋性浙江大學(xué),《金融智能:理論與實踐》,2022數(shù)據(jù)獲取方式爬蟲就是模擬客戶端發(fā)送網(wǎng)絡(luò)請求,接收請求響應(yīng),一種按照一定的規(guī)則,自動地抓取互聯(lián)網(wǎng)信息的程序。藍色線條:發(fā)起請求(request)紅色線條:返回響應(yīng)(response)浙江大學(xué),《金融智能:理論與實踐》,2022數(shù)據(jù)獲取方式根據(jù)被爬網(wǎng)站的數(shù)量的不同,我們把爬蟲分為通用爬蟲

:通常指搜索引擎的爬蟲聚焦爬蟲

:針對特定網(wǎng)站的爬蟲(主要)Robots

協(xié)議:網(wǎng)站通過

Robots

協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是道德層面上的約束。實例:百度的Robots協(xié)議:Robots協(xié)議可以通過“根域名+/robots.txt”查看浙江大學(xué),《金融智能:理論與實踐》,2022爬蟲架構(gòu)和流程爬蟲簡單架構(gòu)浙江大學(xué),《金融智能:理論與實踐》,2022爬蟲執(zhí)行流程關(guān)于網(wǎng)絡(luò)安全法浙江大學(xué),《金融智能:理論與實踐》,2022根據(jù)《中華人民共和國網(wǎng)絡(luò)安全法》的最新規(guī)定,以下行為可能構(gòu)成違法犯罪:1、爬蟲程序規(guī)避網(wǎng)站經(jīng)營者設(shè)置的反爬蟲措施或者破解服務(wù)器防抓取措施,非法獲取相關(guān)信息,情節(jié)嚴重的,有可能構(gòu)成“非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪”。2、爬蟲程序干擾被訪問的網(wǎng)站或系統(tǒng)正常運營,后果嚴重的,觸犯刑法,構(gòu)成“破壞計算機信息系統(tǒng)罪”。3、爬蟲采集的信息屬于公民個人信息的,有可能構(gòu)成非法獲取公民個人信息的違法行為,情節(jié)嚴重的,有可能構(gòu)成“侵犯公民個人信息罪”。因此,在使用爬蟲時,我們盡量堅持以下原則:1、遵守

Robots

協(xié)議。2、不能造成對方服務(wù)器癱瘓。3、不能非法獲利。金融數(shù)據(jù)存儲浙江大學(xué),《金融智能:理論與實踐》,202203存儲的基本方式數(shù)據(jù)類別屬性常見大數(shù)據(jù)的存儲方式分布式文件系統(tǒng)(如HDFS)1、高吞吐,方便擴展。2、有容錯能力、通過相關(guān)協(xié)議保證數(shù)據(jù)一致性。NoSql

數(shù)據(jù)庫(key-value數(shù)據(jù)庫

、列族數(shù)據(jù)庫)1、支持規(guī)模存儲、橫向擴展。2、靈活定義存儲格式。云數(shù)據(jù)庫1、購買數(shù)據(jù)庫的SaaS服務(wù)。2、選擇多樣、隨時調(diào)整。浙江大學(xué),《金融智能:理論與實踐》,2022金融數(shù)據(jù)對象浙江大學(xué),《金融智能:理論與實踐》,2022數(shù)據(jù)集由數(shù)據(jù)對象組成一個數(shù)據(jù)對象代表一個實體例如:銷售數(shù)據(jù)庫:顧客、商品、銷售記錄醫(yī)療數(shù)據(jù)庫:患者、醫(yī)生、藥品大學(xué)數(shù)據(jù)庫:學(xué)生、教授、課程數(shù)據(jù)對象又稱樣本、實例、數(shù)據(jù)點、對象數(shù)據(jù)庫的行->數(shù)據(jù)對象;數(shù)據(jù)庫的列->屬性金融數(shù)據(jù)屬性浙江大學(xué),《金融智能:理論與實踐》,2022屬性(又稱維度、特征、變量)是一個數(shù)據(jù)字段,表示數(shù)據(jù)對象的一個特征。例如,用戶ID、姓名、地址類型標稱屬性

Nominal二值屬性

Binary序數(shù)屬性

Ordinal數(shù)值屬性

Numeric區(qū)間標度屬性

Interval-scaled比率標度屬性

Ratio-scaled離散屬性和連續(xù)屬性浙江大學(xué),《金融智能:理論與實踐》,2022離散屬性

Discrete具有有限或無限可數(shù)個值例如:職業(yè)、顏色、身份證離散屬性有時可以用整數(shù)表示例如:二值屬性取0和1,年齡屬性取0到110連續(xù)屬性

Continuous如果屬性不是離散的,則它是連續(xù)的用實數(shù)表示屬性值一般用浮點數(shù)表示數(shù)據(jù)質(zhì)量浙江大學(xué),《金融智能:理論與實踐》,2022數(shù)據(jù)質(zhì)量的多維度評價指標:準確性

Accuracy:正確或錯誤,準確或不準確完整性

Completeness:未記錄的,不可用的一致性

Consistency:部分改變了,但是另一些沒變時效性

Timeliness:及時的更新可信性

Believability:數(shù)據(jù)是可信賴的嗎可解釋性

Interpretability:數(shù)據(jù)是否容易理解數(shù)據(jù)相似性和相異性浙江大學(xué),《金融智能:理論與實踐》,2022相似性

Similarity用數(shù)值評估兩個數(shù)據(jù)對象間的相似程度對象越相似,值越大通常相似性值在范圍

[0,1]相異性

Dissimilarity用數(shù)值評估兩個數(shù)據(jù)對象間的差異程度對象越相似,值越小通常沒有上限相似性和相異性都成為鄰近性

Proximity數(shù)據(jù)質(zhì)量浙江大學(xué),《金融智能:理論與實踐》,2022離散屬性

Discrete具有有限或無限可數(shù)個值例如:職業(yè)、顏色、身份證離散屬性有時可以用整數(shù)表示例如:二值屬性取0和1,年齡屬性取0到110連續(xù)屬性

Continuous如果屬性不是離散的,則它是連續(xù)的用實數(shù)表示屬性值一般用浮點數(shù)表示金融數(shù)據(jù)分析浙江大學(xué),《金融智能:理論與實踐》,202204數(shù)據(jù)分析概述探索性數(shù)據(jù)分析數(shù)據(jù)預(yù)處理特征工程數(shù)據(jù)分析概述數(shù)據(jù)分析的主要任務(wù)是從異構(gòu)數(shù)據(jù)源抽取和集成的數(shù)據(jù)構(gòu)成了數(shù)據(jù)分析的原始數(shù)據(jù),并且根據(jù)不同應(yīng)用場景的需求可以從這些數(shù)據(jù)中選擇全部或者部分進行分析。數(shù)據(jù)分析主要包括探索性數(shù)據(jù)分析、數(shù)據(jù)預(yù)處理、特征工程等。探索性數(shù)據(jù)分析:進行基礎(chǔ)的數(shù)據(jù)挖掘工作,獲得數(shù)據(jù)的分布情況和統(tǒng)計信息。數(shù)據(jù)預(yù)處理:完成數(shù)據(jù)格式標準化、異常數(shù)據(jù)清除等工作,將原始數(shù)據(jù)轉(zhuǎn)化為易于使用,能夠直接作為輸入執(zhí)行數(shù)據(jù)建模工作的高質(zhì)量數(shù)據(jù)。特征工程:保證了預(yù)處理后留下來的特征能夠盡可能滿足數(shù)據(jù)建模要求,減小模型過擬合的可能性。浙江大學(xué),《金融智能:理論與實踐》,2022探索性數(shù)據(jù)分析探索性數(shù)據(jù)分析是針對數(shù)據(jù)集中的每一維變量進行探索和分析的過程,是進行合理的數(shù)據(jù)清洗等操作的前提,是數(shù)據(jù)預(yù)處理的第一步。在探索性數(shù)據(jù)分析中,通常將數(shù)據(jù)中的變量分為連續(xù)型變量和離散型變量做不同的處理。連續(xù)性變量分析:缺失值、方差、標準差、最大值與最小值、中位數(shù)、眾數(shù)、四分位數(shù)、偏度離散型變量分析:缺失值、眾數(shù)、取值個數(shù)、每個取值對應(yīng)的樣本數(shù)量浙江大學(xué),《金融智能:理論與實踐》,2022數(shù)據(jù)預(yù)處理

——

缺失值處理浙江大學(xué),《金融智能:理論與實踐》,2022缺失值處理總體上可分為刪除和填補兩類方法,具體采用何種方法取決于出現(xiàn)缺失值的變量的重要程度以及缺失值的比例。刪除特征法:將出現(xiàn)缺失值的變量完全從數(shù)據(jù)集中刪除即可(可能造成信息丟失)。填充法:通過自動或手動方式計算一些值填充到缺失位置的方法。插值法:通過插值公式進行簡單的數(shù)據(jù)擬合,適用于對數(shù)值的準確度有一定要求的場景。建模法:根據(jù)其他和要進行填補的變量相關(guān)的變量進行數(shù)據(jù)建模,對缺失處的數(shù)據(jù)進行預(yù)測。人工獲?。河捎谛枰馁M大量時間和人力成本,只適用于重要程度和缺失率都較高的場景。數(shù)據(jù)預(yù)處理

——

離群值檢測浙江大學(xué),《金融智能:理論與實踐》,2022離群值:數(shù)據(jù)集中變量值明顯偏離其他變量觀測值的樣本。離群值監(jiān)測:檢驗數(shù)據(jù)是否有錄入錯誤以及含有不合常理的數(shù)據(jù)。簡單統(tǒng)計方法:通過計算統(tǒng)計量,檢測離群值。數(shù)據(jù)樣本中的均值、中位數(shù)等都可以反映變量數(shù)值大小的一般趨勢,可以直接根據(jù)最大值、最小值和均值、中位數(shù)的大小是否差距過大檢測離群值?;谡龖B(tài)分布:如果數(shù)據(jù)服從正態(tài)分布,在

原則下,異常值為一組測定值中與平均值的偏差超過

3

倍標準差的值?;谀P停航⒑唵蔚哪P停x群值是那些和模型不能擬合的數(shù)據(jù)點。聚類方法:完成聚類后計算各個對象到最近形心的距離,距離超過一定閾值的點定為離群值。數(shù)據(jù)預(yù)處理

——

噪聲處理噪聲:被測變量的隨機誤差或者方差。觀測量(Measurement)=

真實數(shù)據(jù)(True

Data)+噪聲

(Noise)噪聲處理:主要采用分箱法與回歸法,目標是將噪聲值轉(zhuǎn)化為符合數(shù)據(jù)整體分布的平滑數(shù)值。分箱法(Binning):將噪聲值和一些類似的值合并在相同的區(qū)間中,保證每個特征的取值樣本數(shù)能滿足統(tǒng)計要求。常見的分箱方法包括卡方分箱、決策樹分箱、等頻分箱、聚類分箱等。回歸法:用一個函數(shù)擬合數(shù)據(jù)來平滑數(shù)據(jù),先通過線性回歸或非線性算法等算法對變量的數(shù)值進行擬合,然后用模型預(yù)測的數(shù)值替代噪聲點數(shù)值。聚類分箱的結(jié)果浙江大學(xué),《金融智能:理論與實踐》,2022特征工程特征工程指的是將原始數(shù)據(jù)中的變量轉(zhuǎn)化為模型可以接收的變量的過程。原始數(shù)據(jù)中的變量可能有多種類型,如類別型變量、數(shù)值型變量、時間型變量和文本型變量等特征工程首先需要將各種不同類型的原始數(shù)據(jù)變量轉(zhuǎn)化為模型可以接收的特征變量,再根據(jù)選用的模型與應(yīng)用背景,將特征變量進一步轉(zhuǎn)化到最佳的特征空間中。浙江大學(xué),《金融智能:理論與實踐》,2022特征工程

——

類別數(shù)據(jù)處理浙江大學(xué),《金融智能:理論與實踐》,2022類別型變量指的是數(shù)據(jù)樣本在該字段上的不同取值不存在先后順序,并且不能進行數(shù)學(xué)運算的變量。自然數(shù)編碼:部分類別型變量以枚舉值的形式表示,例如“男”、“女”等。獨熱編碼:每個編碼后的特征變量的取值對應(yīng)一維特征獨熱編碼得到稀疏的特征矩陣。分層編碼:以編碼結(jié)果的不同位數(shù)為分層,然后按層次進行自然數(shù)編碼。哈希編碼:選用哈希函數(shù),利用融合的方法提升模型的預(yù)測效果。計數(shù)編碼:利用計數(shù)的排名對類別數(shù)據(jù)進行編碼。目標編碼:基于目標值對類別數(shù)據(jù)進行編碼。特征工程

——

數(shù)值數(shù)據(jù)處理浙江大學(xué),《金融智能:理論與實踐》,2022數(shù)值型變量具有實際的測量意義,并且往往可以進行計算,例如人的身高、體重,產(chǎn)品的銷量等都是數(shù)值型變量。數(shù)值型變量又可以分為離散型和連續(xù)型,其中離散型變量表示的量是可數(shù)的,其可以是有限個值,也可以是無限個值。截斷:保留重要信息的前提下對變量進行截斷。計數(shù)數(shù)據(jù)處理:處理極端值,一般采用二值化或分箱。縮放:將變量縮放到一個確定的范圍。特征交叉:數(shù)值特征間相互作用,之后通過特征選擇篩選有用的交叉特征。非線性編碼:學(xué)習(xí)非線性關(guān)系,例如多項式核函數(shù)、高斯核函數(shù)、隨機森林等。行統(tǒng)計量:統(tǒng)計行向量的一些特征值。特征工程

——

時間數(shù)據(jù)處理浙江大學(xué),《金融智能:理論與實踐》,2022時間型變量可以直接作為類別型變量處理,類別型變量的處理方式對于時間型變量同樣適用。時間型變量還包含其他更加豐富的信息,例如,一年過了多少天、一天過了多少分鐘、是否閏年、是否季度初、是否季度末、是否月初、是否月末、是否周末等等。除了對單個時間型變量的預(yù)處理之外,根據(jù)具體業(yè)務(wù)對兩個時間型變量之間進行組合也能提取重要的特征,例如可以計算產(chǎn)品上線到現(xiàn)在經(jīng)過了多長時間等。常用的時間型變量處理方式包括對特點的時間段內(nèi)的行為數(shù)據(jù)進行統(tǒng)計,對季節(jié)性的時間型變量進行統(tǒng)計等。特征工程

——

文本數(shù)據(jù)處理對于文本型變量,類別型變量的處理方法同樣適用,基于深度學(xué)習(xí)的自動特征工程方法可以取得更好的結(jié)果。常用的文本處理方法有預(yù)料構(gòu)建:構(gòu)建一個由文檔或短語組成的矩陣。文本清洗:文本是否清洗,取決于具體的應(yīng)用場景。潛在語義分析:把高維的向量空間模型表示的文檔映射到低維的潛在語義空間中。余弦相似度:計算檢索詞和文檔的相關(guān)性雅卡爾相似度:另一種相似度的表示W(wǎng)ord2Vec:將單詞所在的空間(高維空間)映射到一個低維的向量空間中。浙江大學(xué),《金融智能:理論與實踐》,2022特征工程

——

特征選擇特征選擇:在特征工程后對特征變量進行再一次篩選,以剔除冗余特征和重復(fù)特征。目標:不僅可以減少特征數(shù)量從而提高模型效率,還能提高模型精度。過濾方法:覆蓋率、皮爾遜(pearson)相關(guān)系數(shù)、費希爾(Fisher)得分假設(shè)檢驗互信息基于相關(guān)性的特征選擇封裝方法:完全搜索、啟發(fā)式搜索、隨機搜索嵌入方法:LASSO、基于樹模型的特征選擇方法浙江大學(xué),《金融智能:理論與實踐》,2022總結(jié)浙江大學(xué),《金融智能:理論與實踐》,2022金融大數(shù)據(jù)管理感謝聆聽!浙江大學(xué),《金融智能:理論與實踐》,2022浙江大學(xué),《金融智能:理論與實踐》金融智能建?;A(chǔ)C

O

N

T

E

N

T

S浙江大學(xué),《金融智能:理論與實踐》目錄監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)01

金融智能建模:總體介紹浙江大學(xué),《金融智能:理論與實踐》金融智能建模:總體介紹01人工智能浪潮認知智能認知智能技術(shù)引子-銀行卡欺詐防控體系浙江大學(xué),《金融智能:理論與實踐》2020年9月23日,據(jù)中國銀行業(yè)協(xié)會發(fā)布《中國銀行卡產(chǎn)業(yè)發(fā)展藍皮書(2020)》

顯示:截至2019年末,當年新增發(fā)卡量7.0億張,同比增長8.9%;全國銀行卡交易金額822.3萬億元,同比增長4.1%。在風(fēng)險管理方面,截至2019年末,銀行卡未償信貸余額7.59萬億元,比上年增長10.8%;銀行卡欺詐率為0.87BP(基點),呈現(xiàn)由傳統(tǒng)的線下渠道快速向移動互聯(lián)網(wǎng)渠道和境外遷移的態(tài)勢。銀行卡使用的增多和難以杜絕的銀行卡欺詐風(fēng)險使得銀行卡欺詐防控得到相當程度的重視。從2015年起,人民銀行就陸續(xù)印發(fā)《關(guān)于改進個人銀行賬戶服務(wù)

加強賬戶管理的通知》(銀發(fā)〔2015〕392號)、《關(guān)于落實個人銀行賬戶分類管理制度的通知》(銀發(fā)〔2016〕302號)等通知,要求銀行機構(gòu)確保風(fēng)險防范意識。隨著銀行卡詐騙數(shù)量和類型的增多,基于規(guī)則判斷的傳統(tǒng)方法難以滿足業(yè)務(wù)需求,因此銀行機構(gòu)往往借助金融科技,部署機器學(xué)習(xí)模型識別欺詐行為,從而構(gòu)建更加合理高效的銀行卡欺詐防控體系。具體而言,銀行機構(gòu)通過整理用戶歷史行為,構(gòu)建包含正常行為和欺詐行為的數(shù)據(jù)集,并利用該數(shù)據(jù)集訓(xùn)練大數(shù)據(jù)模型來識別潛在的欺詐行為?;谏鲜龇椒ㄓ?xùn)練的機器學(xué)習(xí)模型被稱為監(jiān)督學(xué)習(xí)模型。此外還有不借助行為標簽(正常行為、欺詐行為),直接用全部行為數(shù)據(jù)進行訓(xùn)練的機器學(xué)習(xí)模型,這種模型被稱為無監(jiān)督學(xué)習(xí)模型。引子-銀行卡欺詐防控體系浙江大學(xué),《金融智能:理論與實踐》金融智能建模流程浙江大學(xué),《金融智能:理論與實踐》,202202浙江大學(xué),《金融智能:理論與實踐》,2022監(jiān)督學(xué)習(xí)分類與回歸線性回歸支持向量機神經(jīng)網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)的概念浙江大學(xué),《金融智能:理論與實踐》,2022監(jiān)督學(xué)習(xí)(supervised

learning)通過訓(xùn)練數(shù)據(jù)樣本,并在樣本所對應(yīng)標簽的“監(jiān)督”下,不斷學(xué)習(xí)和修正,最終得到一個反映數(shù)據(jù)性質(zhì)和規(guī)律的模型。例如,對于開篇案例中提及的銀行卡欺詐防控模型而言,用戶歷史行為是用于訓(xùn)練的數(shù)據(jù),用戶對應(yīng)的類別(正常行為或欺詐行為)是樣本標簽;對于一個股價趨勢預(yù)測模型而言,股票成交量、公司市值和公司季度財務(wù)報表等其他相關(guān)信息是用于訓(xùn)練的數(shù)據(jù),股票的價格是數(shù)據(jù)標簽。模型在數(shù)據(jù)標簽監(jiān)督和指導(dǎo)下進行訓(xùn)練。因此,樣本標簽是有監(jiān)督學(xué)習(xí)過程必不可少的部分。監(jiān)督學(xué)習(xí)-分類與回歸浙江大學(xué),《金融智能:理論與實踐》,2022有監(jiān)督學(xué)習(xí)的應(yīng)用非常廣泛,主要有兩個典型的任務(wù):分類和回歸。當任務(wù)模型輸出結(jié)果為離散值時,該任務(wù)被稱為分類任務(wù);當任務(wù)模型輸出結(jié)果為連續(xù)值時,則被稱為回歸任務(wù)。很多情況下,我們可以通過設(shè)定閾值對回歸模型的輸出結(jié)果進行分類,進而將回歸模型應(yīng)用到分類任務(wù)。性能度量-分類????????????????????????????????????

=精確度

Precision????????????????

+

????????????????????????????????

=召回率

Recall

or

Sensitivity????????????????

+

????????混淆矩陣

ConfusionMatrixF1-score2????1

= 1 1 ????????????????????????????????????

+

????????????????????????2×????????????????????????????????????

×

????????????????????????=浙江大學(xué),《金融智能:理論與實踐》,2022????????????????????????????????????

+

????????????????????????樣本標簽為Positive樣本標簽為Negative預(yù)測結(jié)果為PositiveTPFP預(yù)測結(jié)果為NegativeFNTN性能度量-回歸平均絕對誤差

Mean

Absolute

Error,

MAE1????????????????

=????

?

?????????

?????????????=1均方誤差 MeanSquareError,

MSE????????????

=1????浙江大學(xué),《金融智能:理論與實踐》,2022????=1???????? ?????(??????????

)2算法舉例Na?ve

Bayesian樸素貝葉斯條件概率????????

???? =????

????

????

????(????)????(????)浙江大學(xué),《金融智能:理論與實踐》,2022算法舉例KNNK-Nearest

Neighbor(k近鄰)基于距離浙江大學(xué),《金融智能:理論與實踐》,2022算法舉例決策樹(decision

tree)訓(xùn)練樣本準確率高測試樣本準確率不一定高(過擬合)浙江大學(xué),《金融智能:理論與實踐》,2022算法舉例隨機森林(random

forest)多個決策樹組合優(yōu)化測試樣本準確率不高的問題浙江大學(xué),《金融智能:理論與實踐》,2022算法舉例SVM(支持向量機)——機器學(xué)習(xí)浙江大學(xué),《金融智能:理論與實踐》,2022算法舉例Neural

Networks(神經(jīng)網(wǎng)絡(luò))——深度學(xué)習(xí)浙江大學(xué),《金融智能:理論與實踐》,2022主要應(yīng)用主要應(yīng)用數(shù)據(jù)挖掘特征學(xué)習(xí)金融領(lǐng)域應(yīng)用場景用戶類型分類(營銷策略)產(chǎn)品類型分類(市場研究)浙江大學(xué),《金融智能:理論與實踐》,2022線性回歸曲線擬合????????

????,

???? =????0+????1????+????2????2+?+????????????????

=?????????????????????=0????

=[1,????,????2,…,

????????]????????

=[????0,????1,????2,…,

????????

]????????

????,

???? =

????????????分類問題中的線性回歸????

????,

????

????,

???? =

0????

????,????

????,

???? =

1浙江大學(xué),《金融智能:理論與實踐》,2022線性回歸????????????

????1????=1均方誤差

mean-square

error????= ?

????????

?????

????????,????????2目標函數(shù)????????????

???? =?????????

?????????????????????=12????

= ????1,…

,

???????? ????

=[????1,…,

????????]????????????

???? =(?????????????????)????(?????

????????????)浙江大學(xué),《金融智能:理論與實踐》,2022線性回歸目標函數(shù)

????????????= ????

?

????????????

????????

?

????????????求偏導(dǎo)????????????

=

?2????

(????

?????????????)令

????????????

=0得????????????????

=

????????化簡得????

=

(????????????)?????????????浙江大學(xué),《金融智能:理論與實踐》,2022支持向量機SupportVector

Machine浙江大學(xué),《金融智能:理論與實踐》,2022支持向量機綠點:????????????

≤0

紅點:????????????

≥0邊界線:????????????

=

0????=Geometrical

Margin????

=????0

+

????????????????????????????0

=

0????????????

?

????????????????=

0????

=

????????????????????浙江大學(xué),《金融智能:理論與實踐》,2022支持向量機max????

=

max???? ????????(????????????)????????.

????. ????????

????max????????(????????????)?????

max????1?????

min ????????????.

????. ????????

=????????

(????????????????)????≥

???????????? ?????????????????≥

????

????=

????????21min ????2????.

????.???????? ???????????????? ≥

1浙江大學(xué),《金融智能:理論與實踐》,2022神經(jīng)網(wǎng)絡(luò)Neural

Networks浙江大學(xué),《金融智能:理論與實踐》,2022感知機神經(jīng)元(neuron)或者感知機(perceptron)1957年????????

=????(?????????????????

+????)????=1浙江大學(xué),《金融智能:理論與實踐》,2022感知機????????

=????(?????????????????

+????)????=1神經(jīng)元(neuron)或者感知機(perceptron)1957年如果預(yù)測y正確,不做任何操作如果預(yù)測y錯誤,????????

=

?????????1

+

????????浙江大學(xué),《金融智能:理論與實踐》,2022感知機????

=????1????1

+

????2????2浙江大學(xué),《金融智能:理論與實踐》,2022感知機????

=????1????1

+

????2????2浙江大學(xué),《金融智能:理論與實踐》,2022感知機????

=????1????1

+????2????2

+

????浙江大學(xué),《金融智能:理論與實踐》,2022感知機-舉例x1x2y14-129+156+145+160.7-111.5-1初始化:????1

=

????2

=

????

=

0如果預(yù)測y正確,不做任何操作如果預(yù)測y錯誤,????????

=

?????????1

+

????????浙江大學(xué),《金融智能:理論與實踐》,2022????

=????1????1

+????2????2

+

????感知機-舉例初始化:????1

=

????2

=

????

=

0如果預(yù)測y正確,不做任何操作如果預(yù)測y錯誤,????????

=

?????????1

+

????????????

=????1????1

+????2????2

+

????w1w2b000x1x2y14-129+156+145+160.7-111.5-1浙江大學(xué),《金融智能:理論與實踐》,2022感知機-舉例初始化:????1

=

????2

=

????

=

0如果預(yù)測y正確,不做任何操作如果預(yù)測y錯誤,????????

=

?????????1

+

????????????

=????1????1

+????2????2

+

????w1w2b000-1-4-1x1x2y14-129+156+145+160.7-111.5-1浙江大學(xué),《金融智能:理論與實踐》,2022感知機-舉例初始化:????1

=

????2

=

????

=

0如果預(yù)測y正確,不做任何操作如果預(yù)測y錯誤,????????

=

?????????1

+

????????????

=????1????1

+????2????2

+

????w1w2b000-1-4-1150x1x2y14-129+156+145+160.7-111.5-1浙江大學(xué),《金融智能:理論與實踐》,2022感知機-舉例初始化:????1

=

????2

=

????

=

0如果預(yù)測y正確,不做任何操作如果預(yù)測y錯誤,????????

=

?????????1

+

????????????

=????1????1

+????2????2

+

????w1w2b000-1-4-1150x1x2y14-129+156+145+160.7-111.5-1浙江大學(xué),《金融智能:理論與實踐》,2022感知機-舉例初始化:????1

=

????2

=

????

=

0如果預(yù)測y正確,不做任何操作如果預(yù)測y錯誤,????????

=

?????????1

+

????????????

=????1????1

+????2????2

+

????w1w2b000-1-4-1150x1x2y14-129+156+145+160.7-111.5-1浙江大學(xué),《金融智能:理論與實踐》,2022感知機-舉例初始化:????1

=

????2

=

????

=

0如果預(yù)測y正確,不做任何操作如果預(yù)測y錯誤,????????

=

?????????1

+

????????????

=????1????1

+????2????2

+

????w1w2b000-1-4-1150-54.3-1x1x2y14-129+156+145+160.7-111.5-1浙江大學(xué),《金融智能:理論與實踐》,2022感知機-舉例初始化:????1

=

????2

=

????

=

0如果預(yù)測y正確,不做任何操作如果預(yù)測y錯誤,????????

=

?????????1

+

????????????

=????1????1

+????2????2

+

????w1w2b000-1-4-1150-54.3-1-62.8-2x1x2y14-129+156+145+160.7-111.5-1一個epoch結(jié)束浙江大學(xué),《金融智能:理論與實踐》,2022感知機-舉例浙江大學(xué),《金融智能:理論與實踐》,2022感知機-舉例浙江大學(xué),《金融智能:理論與實踐》,2022感知機-舉例浙江大學(xué),《金融智能:理論與實踐》,2022感知機AdaptiveLinear

Neuron1960byWidrow&

Hoff浙江大學(xué),《金融智能:理論與實踐》,2022感知機浙江大學(xué),《金融智能:理論與實踐》,2022感知機浙江大學(xué),《金融智能:理論與實踐》,20221969AI

winter浙江大學(xué),《金融智能:理論與實踐》,20221971Rosenblatt

died感知機-缺陷浙江大學(xué),《金融智能:理論與實踐》,2022多層神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)浙江大學(xué),《金融智能:理論與實踐》,2022A.Kolmogorov證明:三層神經(jīng)網(wǎng)絡(luò)可以表示任何邊界神經(jīng)網(wǎng)絡(luò)浙江大學(xué),《金融智能:理論與實踐》,2022訓(xùn)練方法梯度下降反向傳播神經(jīng)網(wǎng)絡(luò)對目標函數(shù)進行梯度下降????????????

???? =?????????

?????????????????????=12max????

=

max???? ????????(????????????)????????.????. ????????

????太復(fù)雜浙江大學(xué),《金融智能:理論與實踐》,2022神經(jīng)網(wǎng)絡(luò)-梯度下降梯度下降????

?????

?

??????????

????????????

?????????

?

????????????(????1,????2,…,

????????

)????????????浙江大學(xué),《金融智能:理論與實踐》,2022神經(jīng)網(wǎng)絡(luò)-梯度下降Forward????????

=????(?????????????????

+????)????=1浙江大學(xué),《金融智

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論