




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
外部數(shù)據(jù)管理平臺建設(shè)方案
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
目錄
1外數(shù)據(jù)管理平臺概述..........................................................1
1.1建設(shè)背景.................................................................1
1.11
1.2目標(biāo)定位.................................................................1
1.3總體架構(gòu)................................................................2
2平臺需求分析.................................................................3
2.1數(shù)據(jù)需求分析............................................................3
2.1.1數(shù)據(jù)分類..............................................................3
2.1.2數(shù)據(jù)獲取..............................................................4
2.1.3數(shù)據(jù)篩選..............................................................9
2.1.4數(shù)據(jù)價值開發(fā).........................................................10
2.2應(yīng)用需求分析...........................................................11
2.3設(shè)計需求分析...........................................................12
3項目整體建設(shè)方案............................................................12
3.1系統(tǒng)總體架構(gòu)...........................................................12
3.1.1設(shè)計原則..............................................................12
3.1.2硬件方案.............................................................14
3.1.3邏輯架構(gòu).............................................................15
3.1.4技術(shù)架構(gòu).............................................................15
3.2數(shù)據(jù)匯聚...............................................................16
3.2.1批量數(shù)據(jù)匯聚.........................................................16
3.2.2統(tǒng)一調(diào)度管理.........................................................41
3.3數(shù)據(jù)清洗與監(jiān)測........................................................50
3.3.1數(shù)據(jù)探查.............................................................50
3.3.2數(shù)據(jù)標(biāo)準(zhǔn)化...........................................................51
3.3.3數(shù)據(jù)清洗.............................................................58
3.3.4質(zhì)量監(jiān)測.............................................................62
3.3.5規(guī)則引擎.............................................................67
3.4平臺運維監(jiān)控...........................................................71
3.4.1硬件運維管理.........................................................71
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
3.4.2軟件運維管理.........................................................71
3.4.3統(tǒng)一調(diào)度監(jiān)控.........................................................72
4統(tǒng)一資源目錄與元數(shù)據(jù)庫.....................................................77
4.1元數(shù)據(jù)管理..............................................................77
4.2元數(shù)據(jù)主要功能.........................................................78
4.3元數(shù)據(jù)管理角色.........................................................79
4.4統(tǒng)一資源目錄...........................................................79
5平臺安全....................................................................80
5.1系統(tǒng)概述................................................................80
5.2系統(tǒng)架構(gòu)................................................................80
5.3系統(tǒng)功能................................................................81
6平臺及數(shù)據(jù)應(yīng)用.............................................................83
6.1客戶畫像應(yīng)用...........................................................83
6.2產(chǎn)品分析................................................................84
6.3產(chǎn)品評價................................................................84
6.4產(chǎn)品創(chuàng)新................................................................84
6.5風(fēng)險防范支持...........................................................85
6.6客戶服務(wù)................................................................85
6.7精準(zhǔn)營銷................................................................85
6.8風(fēng)險管控................................................................86
6.9運營優(yōu)化................................................................86
ii
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
1外數(shù)據(jù)管理平臺概述
1.1建設(shè)背景
隨著銀行業(yè)務(wù)的發(fā)展,與外部機構(gòu)跨界合作的展開,歷史數(shù)據(jù)越來越多,
半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)也越來越多,僅靠目前的關(guān)系型數(shù)據(jù)庫已無法及
時有效的獲得處理,嚴重影響了工作效率和業(yè)務(wù)發(fā)展需要。
大數(shù)據(jù)熱潮引發(fā)了思維、生產(chǎn)和生活方式的重大變革,并已在國有銀行、
多個股份制銀行形成試點應(yīng)用,加強銀行對數(shù)據(jù)的掌控和應(yīng)用能力。
在互聯(lián)網(wǎng)化、市場化、去中介化的經(jīng)營環(huán)境中,商業(yè)銀行面臨的數(shù)據(jù)競爭
的壓力和正在不斷增強。銀行創(chuàng)新服務(wù)和產(chǎn)品也將更多源于對數(shù)據(jù)資源的開發(fā)
和利用。
大數(shù)據(jù)是構(gòu)建智慧銀行的基礎(chǔ),是銀行發(fā)展的重要引擎。能否用好大數(shù)
據(jù),實現(xiàn)經(jīng)營、管理和服務(wù)創(chuàng)新,從一定程度上決定了其未來的可持續(xù)發(fā)展能
力。
1.2目標(biāo)定位
通過搭建銀行外部數(shù)據(jù)管理平臺實現(xiàn)全行外部數(shù)據(jù)資產(chǎn)的集中管理和透明
開放,為各部門有序共享,將外部數(shù)據(jù)集中治理,逐步融合,并探索新的領(lǐng)
域;在外部數(shù)據(jù)管理平臺建設(shè)過程中,建立統(tǒng)一的ETL監(jiān)控平臺,數(shù)據(jù)質(zhì)量分析
平臺以及外部數(shù)據(jù)運維平臺;在未來結(jié)合行內(nèi)ODS數(shù)據(jù)平臺和內(nèi)容管理平臺,利
用數(shù)據(jù)挖掘技術(shù)得出隱藏在海量數(shù)據(jù)背后的、有價值的潛在規(guī)律,以豐富的可
視化模型進行展現(xiàn),在此基礎(chǔ)上實現(xiàn)精準(zhǔn)營銷、業(yè)務(wù)體驗優(yōu)化、客戶服務(wù)管
理、風(fēng)險控制等金融業(yè)務(wù)應(yīng)用。
建設(shè)目標(biāo)定位:
1,全行外部數(shù)據(jù)統(tǒng)一管理平臺
2.作為現(xiàn)有數(shù)據(jù)平臺ODS的有效補充
3.外部數(shù)據(jù)蓄水池
4.大數(shù)據(jù)場景應(yīng)用試驗田
5,建數(shù)據(jù)平臺運維監(jiān)控中心
第1頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
1.3總體架構(gòu)
數(shù)據(jù)首控元數(shù)據(jù)■數(shù)一質(zhì)數(shù)據(jù)標(biāo)準(zhǔn)
圖總體邏輯架構(gòu)圖
總體邏輯架構(gòu)規(guī)劃如下:
1、數(shù)據(jù)源層:做為源數(shù)據(jù)提供給數(shù)據(jù)集中平臺,通過批量數(shù)據(jù)的導(dǎo)入,與
社保、公積金、征信等系統(tǒng)的API接口認證等技術(shù)手段獲取源數(shù)據(jù);同事通過
爬蟲技術(shù)在互聯(lián)網(wǎng)上獲取大量的數(shù)據(jù),做為數(shù)據(jù)平臺的補充;將行內(nèi)客戶數(shù)據(jù)
信息進行深入挖掘,為數(shù)據(jù)平臺提供基礎(chǔ)數(shù)據(jù)支撐。
2、外部數(shù)據(jù)存儲:通過批量數(shù)據(jù)加載,實時接口數(shù)據(jù)等加載方式,將源數(shù)
據(jù)載入到外部數(shù)據(jù)存儲庫,再分別將結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入ODS,半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)
構(gòu)化數(shù)據(jù)導(dǎo)入ECM系統(tǒng)中。
3、應(yīng)用匯總層:建立具體的滿足分析需求和應(yīng)用的數(shù)據(jù)模型,為數(shù)據(jù)挖
掘、多維分析以及報表平臺提供數(shù)據(jù)支撐。
4、數(shù)據(jù)治理(數(shù)據(jù)清洗):逐步形成完善有效的數(shù)據(jù)治理機制,包括數(shù)據(jù)
質(zhì)量管理、元數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)安全管理等內(nèi)容,為全行提供準(zhǔn)
確、全面、可靠的數(shù)據(jù)資源,使企業(yè)的數(shù)據(jù)處于整體有序管理的狀態(tài)。
5、應(yīng)用展現(xiàn)層:構(gòu)建統(tǒng)一的數(shù)據(jù)分析集市,為各個應(yīng)用系統(tǒng)提供直接和間接
的數(shù)據(jù)展現(xiàn)服務(wù)。建設(shè)各種數(shù)據(jù)分析系統(tǒng),包括全行統(tǒng)一報表平臺、經(jīng)營分析系
統(tǒng)、客戶營銷系統(tǒng)、個金客戶集市和電子銀行集市等。
第2頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
2平臺需求分析
2.1數(shù)據(jù)需求分析
對銀行而言,各種內(nèi)外部數(shù)據(jù)實質(zhì)上是一種管理思維,其支點在于銀行自身
業(yè)務(wù)信息數(shù)據(jù)與客戶社交媒體的融合,最重要的是內(nèi)外部數(shù)據(jù)的融合,在這樣的
支點上反思銀行自身的組織形態(tài)、運作范式和價值創(chuàng)造模式,是“大數(shù)據(jù)銀行”
的真正內(nèi)涵所在。
對大數(shù)據(jù)時代的商業(yè)銀行機構(gòu)來說,數(shù)據(jù)更重要的特征在于其多樣化的來源
和形態(tài)、持續(xù)快速的產(chǎn)生和演變,以及對深度分析能力的高度依賴。因此,銀行
對大數(shù)據(jù)的駕馭和掌控,其核心并不在于擁有多大規(guī)模的數(shù)據(jù),而在于是否能夠
對來自于銀行客戶內(nèi)外部多樣化信息源的涌流數(shù)據(jù)進行敏捷持續(xù)的捕捉和整合,
并通過深度分析開發(fā)其商務(wù)價值。
2.1.1數(shù)據(jù)分類
目前銀行數(shù)據(jù)可簡單分類為五大類別,
一是交易流水類數(shù)據(jù),記錄銀行業(yè)務(wù)交易的主要信息;
二是會計賬務(wù)類數(shù)據(jù),按會計科目歸屬,記錄銀行業(yè)務(wù)會計核算的信息;
三是內(nèi)部管理類數(shù)據(jù),主要包括銀行業(yè)務(wù)流程信息、管控信息、風(fēng)險信息在
內(nèi)的內(nèi)部管理數(shù)據(jù);
四是外部數(shù)據(jù),包括銀行內(nèi)生信息以外,經(jīng)營管理所必須的市場、行業(yè)、客
戶等數(shù)據(jù);
五是系統(tǒng)處理及運算信息,包括信息系統(tǒng)處理、反映業(yè)務(wù)所必須的過程數(shù)據(jù),
以及運行數(shù)據(jù)、日志數(shù)據(jù)、字典數(shù)據(jù)等相關(guān)數(shù)據(jù)內(nèi)容。
本次外部數(shù)據(jù)管理平臺擬以銀行外部數(shù)據(jù)為主,內(nèi)部數(shù)據(jù)為輔的支撐整個數(shù)
據(jù)平臺建設(shè)及應(yīng)用。外部數(shù)據(jù)主要包括客戶信貸系統(tǒng)數(shù)據(jù)、個人客戶公積金信息
數(shù)據(jù)、社保、客戶社交網(wǎng)絡(luò)信息等相關(guān)數(shù)據(jù);內(nèi)部數(shù)據(jù)考慮將銀行自身客戶全量
拷貝數(shù)據(jù)進行加工、清洗、標(biāo)準(zhǔn)化等相關(guān)處理,作為外部數(shù)管理平臺數(shù)據(jù)庫的一
部分來支撐平臺應(yīng)用。
通過以上兩種內(nèi)外部數(shù)據(jù)來源,提供完整、多維度,至少包含以下幾個方面
的客戶數(shù)據(jù):一是客戶的基本信息,譬如信用信息、社交關(guān)系信息等;二是客戶
第3頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
的偏好信息,譬如金融產(chǎn)品偏好、金融服務(wù)偏好等;三是客戶的行為信息,譬如
銀行范圍內(nèi)的行為數(shù)據(jù)、外部行為數(shù)據(jù)等;四是客戶的分析數(shù)據(jù),譬如客戶風(fēng)險
度、客戶價值度等,五是京東白條、天貓分期、阿里小貸、支付寶運費險、百分
點個人征信、金電聯(lián)行“企業(yè)客觀信用”等相關(guān)客戶交易行為信息,如果這些數(shù)
據(jù)能與商業(yè)銀行的既有數(shù)據(jù)進行融合分析,將有望獲得更加精準(zhǔn)的數(shù)據(jù)分析結(jié)果。
2.1.2數(shù)據(jù)獲取
目前大部分商業(yè)銀行在網(wǎng)絡(luò)空間中缺少相關(guān)的“全業(yè)務(wù)”平臺,短期內(nèi)難以
依靠自身的電子渠道獲取所有關(guān)聯(lián)客戶信息。所以,銀行此次平臺建設(shè)大部分數(shù)
據(jù)將主要從自身體系之外獲取,主要從以下兩個角度進行分析:
第一,外部數(shù)據(jù)獲取方式。對于社保、公積金、信貸等體系型的數(shù)據(jù),可考
慮通過協(xié)調(diào)相關(guān)部門系統(tǒng)數(shù)據(jù)接口方式,通過認證接口的方式直接獲取高準(zhǔn)確度
和私密性的數(shù)據(jù)。部分客戶行為、除銀行自身的交易行為等數(shù)據(jù)、可通過協(xié)調(diào)第
三方數(shù)據(jù)供應(yīng)商例如淘寶、百度、阿里等直接購買。其他的客戶相關(guān)社交、同行
相關(guān)產(chǎn)品、政策性信息數(shù)據(jù)、行業(yè)調(diào)數(shù)據(jù)等可通過合法合規(guī)的網(wǎng)絡(luò)爬蟲技術(shù)取得。
第二,數(shù)據(jù)獲取的合規(guī)性??蛻粼谑褂没ヂ?lián)網(wǎng)服務(wù)期的行為信息、購物記錄、
健康信息等數(shù)據(jù)理應(yīng)屬于隱私數(shù)據(jù),客戶在注冊期間簽署的網(wǎng)絡(luò)服務(wù)協(xié)議是否能
夠有效支持互聯(lián)網(wǎng)企業(yè)采集、商用并交換,尚屬法律空白。因此,本次外部數(shù)據(jù)
平臺建設(shè)在引進對應(yīng)的外部數(shù)據(jù)之前,我們會首先做好合規(guī)工作,以提升我行數(shù)
據(jù)的多樣性、細化數(shù)據(jù)粒度,并可通過數(shù)據(jù)交換提升自身大數(shù)據(jù)體系的兼容性與
可用性。
第三,內(nèi)外部數(shù)據(jù)交換合規(guī)性。本次外部數(shù)據(jù)平臺搭建的同時,更要及時開
展預(yù)研預(yù)估,做好外部數(shù)據(jù)交換的合規(guī)準(zhǔn)備工作,為“內(nèi)外兼修”的大數(shù)據(jù)平臺
建設(shè)做好準(zhǔn)備。
2.1.2.1全量數(shù)據(jù)深度提取
2.1.2.1.1全量數(shù)據(jù)的內(nèi)容提取
.1.1影像數(shù)據(jù)分類
銀行業(yè)務(wù)過程中產(chǎn)生的影像數(shù)據(jù)分兩類。
一類是針對個人的影像數(shù)據(jù),如身份證、戶口本、機動車行駛證、特殊崗位
證明材料如軍官證、教師證、各類資格從業(yè)證等;一類是針對企業(yè)影像數(shù)據(jù),如
第4頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
企業(yè)營業(yè)執(zhí)照、企業(yè)經(jīng)營許可證、企業(yè)各類注冊資質(zhì)等。
.1.2影像數(shù)據(jù)提取
通過提取對這兩大類圖像中的文本信息,補全現(xiàn)有的個人和企業(yè)信息不全的
部分,如個人客戶信息中個人身份證中缺失的地址信息;企業(yè)客戶信息中缺失的
注冊資本信息、債務(wù)信息、產(chǎn)品注冊信息、經(jīng)營信息等,通過對于圖像檢索、信
息檢測、場景分析和智能控制,實現(xiàn)輔助銀行進行分析、決策、組織與管理的大
規(guī)模需求。
影像中的文本信息提取是指在文本疊加或依存的圖像中,經(jīng)過文本檢測和定
位抽取出文本圖像,再利用文本分割和識別提取文本信息的過程。在以上影像數(shù)
據(jù)處理過程中,將應(yīng)用下面幾種方法實現(xiàn)數(shù)據(jù)提取:
1、基于筆畫特征的文本檢測方法。通過對文本字符的基元一一筆畫建立通用
的數(shù)學(xué)模型來驅(qū)動文本的檢測。該方法通過分析文本字符筆畫在尺度空間中的形
態(tài)特性構(gòu)建筆畫的數(shù)學(xué)模型,并利用高斯差分(DifferenceofGaussian,DoG)濾
波器的極值響應(yīng)來獲取候選筆畫連通分量。同時,二階泰勒公式將用以移除誤檢
測的邊緣響應(yīng),并最終得到候選字符。
2、基于組件樹約束的文本定位方法。通過樹結(jié)構(gòu)中的祖先-子孫約束和兄弟
約束,結(jié)合啟發(fā)式規(guī)則和字符分類器打分策略,篩選出同一幅圖像中不同文本行
在不同尺度下質(zhì)量較好的結(jié)果,并以此作為最終文本定位結(jié)果。
3、基于字符空間布局的文本定位方法。通過一種簡單、高效的方法實現(xiàn)對自
由文本圖像中文本區(qū)域的快速定位,一方面,將多層尺度空間的圖像融合在一層
圖像中統(tǒng)一處理,實現(xiàn)了內(nèi)存空間的高效利用;另一方面,通過設(shè)定并檢驗候選
字符的空間構(gòu)型及其空間布局關(guān)系,快速地定位文本區(qū)域。
4、低質(zhì)量漢字圖像的分塊搜索兩級識別法?;诜謮K搜索的兩級識別方法,
通過模仿低質(zhì)量漢字圖像生成訓(xùn)練集并建立漢字圖像的分塊結(jié)構(gòu),對訓(xùn)練集中各
分塊圖像應(yīng)用主成分分析提取特征并建立索引。待識別圖像利用分塊搜索和投票
的方式從索引中獲取候選漢字集合(一級識別),再根據(jù)投票結(jié)果的顯著性輔以
全局結(jié)構(gòu)特征匹配識別漢字(二級識別)。
第5頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
2.1.2.1.2全量數(shù)據(jù)的標(biāo)簽衍生
對商業(yè)銀行而言,基于客戶特征集合形成的客戶標(biāo)簽有成百上千、甚至成千
上萬個,這些標(biāo)簽在構(gòu)建時的業(yè)務(wù)目的和適用場景各有不同。隨著應(yīng)用標(biāo)簽的場
景越來越豐富,商業(yè)銀行也會逐漸形成一套完整的客戶標(biāo)簽體系。針對銀行的實
際情況而言,基本標(biāo)簽體系已經(jīng)建立起來,比如業(yè)內(nèi)常見的傳統(tǒng)標(biāo)簽體系,根據(jù)
人口統(tǒng)計學(xué)知識定義的客戶基本信息,包括性別、年齡、收入、人生階段、子女
情況、父母情況、婚姻情況、宗教信仰、民族、國籍、籍貫、教育水平等,但是
這些標(biāo)簽遠遠滿足不了銀行業(yè)務(wù)發(fā)展需求,那么就需要我們對客戶標(biāo)簽體系更全
面的建立。
個人客戶標(biāo)簽體系衍生銀行的數(shù)據(jù)不僅包括傳統(tǒng)交易系統(tǒng)的結(jié)構(gòu)化業(yè)務(wù)數(shù)
據(jù),還包括來自銀行自身電子商務(wù)網(wǎng)站、網(wǎng)上銀行、手機銀行和外部社交媒體網(wǎng)
站、即時聊天工具、微博、微信等渠道的半結(jié)構(gòu)化數(shù)據(jù)以及日志等文本信息和來
自客戶服務(wù)渠道的各種語音、圖片、影像等非結(jié)構(gòu)化數(shù)據(jù)。個人客戶標(biāo)簽體系衍
生可對不同渠道、不同口徑、不同來源、不同結(jié)構(gòu)的客戶信息進行統(tǒng)一分類建立。
社會中不同類別的人會以家庭、鄰里、朋友等群體形式生活,社會屬性維度
就是描述社會群體的一些特性,主要包括生活特征、工作特征和社交特征。其中,
生活特征是指居住區(qū)域(如市中心、郊區(qū))、是否購車、是否購房等;工作特征
是指工作區(qū)域、工作性質(zhì)、行業(yè)類別、工作職務(wù)等;社交特征是指交友情況(友
人眾多、宅男等)、社交圈屬性(如高端知識分子、籃球愛好者等)、人群歸屬(如
大學(xué)生群體、戀愛群體等)。
公司客戶標(biāo)簽體系衍生公司客戶與銀行交互過程中的銀行資產(chǎn)、產(chǎn)品持有、
渠道使用、投資偏好等與資金賬務(wù)、交易往來相關(guān)的金融特征信息,這類數(shù)據(jù)可
以來自一線業(yè)務(wù)、匯總信息或挖掘分析等多種渠道。這些特征可分為資產(chǎn)信息特
征、收入貢獻特征、產(chǎn)品偏好特征、消費行為特征、渠道偏好特征和生命周期特
征。其中,資產(chǎn)信息特征包括客戶AUM、各類產(chǎn)品的日均值和時點值;收入貢獻
特征指客戶通過貸款、中間業(yè)務(wù)收入等給銀行帶來的利潤貢獻,可分為高價值客
戶、中高價值客戶、低價值客戶等,可與不同產(chǎn)品進行交叉組合;產(chǎn)品偏好特征
包括產(chǎn)品持有及投資、服務(wù)偏好特性,如定期持有、生活繳費偏好、銀行理財偏
好等;消費行為特征包括消費地理位置、消費時段、品牌偏好、廣告營銷偏好和
第6頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
消費熱點偏好等;渠道偏好特征是指客戶與銀行交互往來的渠道特性,如柜臺偏
好、網(wǎng)銀偏好、手機銀行偏好等;生命周期特征是指客戶與銀行從接觸到銷戶的
不同階段,包括獲取期、提升期、成熟期、衰退期和流失期。
2.1.2.2網(wǎng)絡(luò)爬蟲獲取
在網(wǎng)絡(luò)爬蟲的系統(tǒng)框架中,主過程由控制器,解析器,資源庫三部分組成。
控制器的主要工作是負責(zé)給多線程中的各個爬蟲線程分配工作任務(wù)。解析器的主
要工作是下載網(wǎng)頁,進行頁面的處理,主要是將一些JS腳本標(biāo)簽、CSS代碼內(nèi)
容、空格字符、HTML標(biāo)簽等內(nèi)容處理掉,爬蟲的基本工作是由解析器完成。資源
庫是用來存放下載到的網(wǎng)頁資源,一般都采用大型的數(shù)據(jù)庫存儲,如Oracle數(shù)
據(jù)庫,并對其建立索引。
采用爬蟲技術(shù)解決兩個主要問題:
(1)對抓取目標(biāo)的描述或定義;
(2)對網(wǎng)頁或數(shù)據(jù)的分析與過濾;
2.1.2.2.1抓取目標(biāo)描述
現(xiàn)有聚焦爬蟲對抓取目標(biāo)的描述可分為基于目標(biāo)網(wǎng)頁特征、基于目標(biāo)數(shù)據(jù)模
式和基于領(lǐng)域概念3種。
基于目標(biāo)網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為網(wǎng)站或網(wǎng)頁。根
據(jù)種子樣本獲取方式可分為:
(1)預(yù)先給定的初始抓取種子樣本;
(2)預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本,如Yahoo!分
類結(jié)構(gòu)等;
(3)通過用戶行為確定的抓取目標(biāo)樣例,分為:
a)用戶瀏覽過程中顯示標(biāo)注的抓取樣本;
b)通過用戶日志挖掘得到訪問模式及相關(guān)樣本。
其中,網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征,也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征,等
等。
2.1.2.2.2網(wǎng)頁搜索策略
網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在
很多情況下會導(dǎo)致爬蟲的陷入(trapped)問題,采用的廣度優(yōu)先和最佳優(yōu)先方法。
第7頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
1)廣度優(yōu)先搜索策略
廣度優(yōu)先搜索策略是指在抓取過程中,在完成當(dāng)前層次的搜索后,才進行下
一層次的搜索。該算法的設(shè)計和實現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁,
一般使用廣度優(yōu)先搜索方法。也有很多研究將廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲
中。其基本思想是認為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概
率很大。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用,先用廣度優(yōu)
先策略抓取網(wǎng)頁,再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點在于,隨著抓取
網(wǎng)頁的增多,大量的無關(guān)網(wǎng)頁將被下載并過濾,算法的效率將變低。
2)最佳優(yōu)先搜索策略
最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標(biāo)網(wǎng)頁的相
似度,或與主題的相關(guān)性,并選取評價最好的一個或幾個URL進行抓取。它只訪
問經(jīng)過網(wǎng)頁分析算法預(yù)測為“有用”的網(wǎng)頁。存在的一個問題是,在爬蟲抓取路
徑上的很多相關(guān)網(wǎng)頁可能被忽略,因為最佳優(yōu)先策略是一種局部最優(yōu)搜索算法。
因此需要將最佳優(yōu)先結(jié)合具體的應(yīng)用進行改進,以跳出局部最優(yōu)點。
2.1.2.2.3網(wǎng)絡(luò)爬蟲安全性問題
網(wǎng)絡(luò)爬蟲會占用網(wǎng)絡(luò)帶寬并增加Web服務(wù)器的處理開銷,惡意用戶甚至?xí)?/p>
用爬蟲程序?qū)Ψ?wù)器發(fā)動Dos攻擊。惡意用戶還可能通過網(wǎng)絡(luò)爬蟲抓取各種敏
感資料,主要表現(xiàn)在以下幾個方面:
1)搜索目錄列表:互聯(lián)網(wǎng)中的許多Web服務(wù)器在客戶端請求站點中某個沒
有默認頁面的目錄時,會返回一個目錄列表。該目錄列表通常包括一個描述當(dāng)
前目錄的標(biāo)題,可供用戶點擊的目錄和文件鏈接,及一個腳注。因而通過抓取
目錄列表,惡意用戶往往可獲取大量有用的資料,包括站點的目錄結(jié)構(gòu)、敏感
文件以及Web服務(wù)器配置信息等等。
2)搜索測試頁面、聯(lián)機手冊與樣本程序:大多數(shù)Web服務(wù)器軟件附帶了測
試頁面、聯(lián)機手冊與樣本程序。這些文件往往會泄漏大量的系統(tǒng)信息,成為惡
意用戶剖析Web服務(wù)器的工具,而且這些文件的存在也往往暗示網(wǎng)站的安全管
理有問題,網(wǎng)站中存在潛在的安全漏洞。
3)搜索管理員登錄頁面:許多網(wǎng)絡(luò)產(chǎn)品提供了基于Web的管理接口,允許
管理員在互聯(lián)網(wǎng)中對其進行遠程管理與控制。如果管理員疏于防范,沒有修改
第8頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
網(wǎng)絡(luò)產(chǎn)品默認的管理員名及密碼,一旦其管理員登錄頁面被惡意用戶搜索到,
網(wǎng)絡(luò)安全將面臨極大威脅。
4)搜索互聯(lián)網(wǎng)用戶的姓名、電話、通信地址等個人信息,以便于實施社交
攻擊。
5)搜集群發(fā)垃圾郵件所需的郵件地址。
6)查找一個站點中的各種敏感文件,包括各種程序使用的配置文件、日志
文件、密碼文件、數(shù)據(jù)庫文件等等。
7)搜索Web站點中存在缺陷的程序。
8)獲取互聯(lián)網(wǎng)用戶的信用卡密碼,銀行帳號等機密信息等等。
因此,采取適當(dāng)?shù)拇胧┫拗凭W(wǎng)絡(luò)爬蟲的訪問權(quán)限,對于保持網(wǎng)站的正常運
行、保護用戶的隱私是極其重要的。
2.1.3數(shù)據(jù)篩選
基于以上技術(shù)實現(xiàn)數(shù)據(jù)的匯聚匯總后,需對各類來源的數(shù)據(jù)進行多維分析、
帥選,分別從以下幾個方面實現(xiàn)對外部數(shù)據(jù)的篩選:
>數(shù)據(jù)可信度
>數(shù)據(jù)質(zhì)量
>數(shù)據(jù)結(jié)構(gòu)
>數(shù)據(jù)消費價值
>數(shù)據(jù)來源
>數(shù)據(jù)粒度
從而掃除可信度底、質(zhì)量差、結(jié)構(gòu)混亂、消費價值低的數(shù)據(jù)群,更好的支持
商業(yè)銀行基于上大量數(shù)據(jù)而進行的統(tǒng)計和建模,從而了解客戶的行為習(xí)慣、風(fēng)險
偏好、健康情況、消費能力、渠道喜好、信用狀況及人口統(tǒng)計學(xué)等多方面的信息,
進而為客戶“貼標(biāo)簽”、“畫像”;亦可整合多種信息反饋渠道的數(shù)據(jù),幫助商業(yè)
銀行實時關(guān)注、理解客戶的真正業(yè)務(wù)需求。
有效地將外部數(shù)據(jù)管理系統(tǒng)與移動互聯(lián)網(wǎng)技術(shù)、線上線下一體化服務(wù)體系進
行緊密融合,就可為商業(yè)銀行的客戶提供“千人千面”的個性化服務(wù)。例如,對
于低凈值長尾客戶,可用較低的成本,批量化地通過電子渠道提供隨身的知心服
務(wù),提高產(chǎn)品和服務(wù)的覆蓋率;對于高凈值客戶,提供“客戶經(jīng)理+電子渠道”
第9頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
的隨身貼心服務(wù),提升客戶的業(yè)務(wù)貢獻。
2.1.4數(shù)據(jù)價值開發(fā)
基于外部數(shù)據(jù)平臺的數(shù)據(jù)價值開發(fā)主要從以下幾方面進行:
一,將數(shù)據(jù)與銀行的相關(guān)營銷活動決策相關(guān)聯(lián),發(fā)揮數(shù)據(jù)的潛在價值。
二,數(shù)據(jù)分析應(yīng)用需求激發(fā),即在銀行施行商業(yè)智能化的過程中通過各種營
銷活動加強銀行客戶與決策者進行溝通,通過使決策者關(guān)心客戶反饋行為到關(guān)心
客戶反饋數(shù)據(jù),關(guān)心客戶提出的需求,當(dāng)單一系統(tǒng)的數(shù)據(jù)分析不能滿足決策需求
的時候,大規(guī)模的基于數(shù)據(jù)的分析系統(tǒng)及應(yīng)用需求就順理成章出現(xiàn)。
三、數(shù)據(jù)催生并支撐新的決策機制。因為在傳統(tǒng)的銀行管理模式中,銀行的
中高層管理者、領(lǐng)導(dǎo)者被認為是決策的主體,而隨著社會化媒體的出現(xiàn)以及社交
網(wǎng)絡(luò)的普及,這種傳統(tǒng)的決策機制降低了企業(yè)決策的正確性與合理性。應(yīng)樹立以
客戶為決策主體的觀念,讓客戶參與到產(chǎn)品設(shè)計、甚至營銷決策中,將決策的理
念由狹隘的銀行高層轉(zhuǎn)移到廣泛的客戶群體,通過社會媒體、社交網(wǎng)絡(luò)等營銷平
臺實時、廣泛的收集客戶的意見和建議。
四、銀行大數(shù)據(jù)的價值開發(fā)高度依賴于深度數(shù)據(jù)分析能力。從內(nèi)外部融合的
視角上看來,銀行大數(shù)據(jù)分析包括三個基本維度,即內(nèi)容、關(guān)系和時空。
內(nèi)容維度指的是數(shù)據(jù)本身所承載的信息內(nèi)容。
關(guān)系維度指的是數(shù)據(jù)及其所指代的對象之間的聯(lián)系。
時空維度指的是數(shù)據(jù)生成及傳播的位置以及數(shù)據(jù)隨時間演變的模式。其中銀
行營銷重要活動、營銷理念相關(guān)信息在營銷平臺、渠道的傳播演變模式的跟蹤,
有效地揭示了客戶對營銷理念的認知、態(tài)度和接受過程。
此外,更深入的價值開發(fā)來自于上述三個維度的交叉綜合。例如,內(nèi)容維度
與關(guān)系維度的結(jié)合,使得銀行能夠識別客戶的興趣偏好、社交特質(zhì)、工作性質(zhì)以
及交易表現(xiàn)之間的匹配關(guān)系,也能夠更為準(zhǔn)確地發(fā)現(xiàn)那些分散在不同的客戶手中、
但具有重要潛在影響力的客戶、商機、交易行為等。內(nèi)容維度、關(guān)系維度與時空
維度的結(jié)合,使得銀行能夠更為深入地理解不同的客戶特質(zhì)、交易能力、個人特
性、熱點偏好在整個客戶精準(zhǔn)營銷中的定位,以及這些特性隨時間演變的過程和
趨勢,從而更為有效地利用這些數(shù)據(jù)資源進行價值開發(fā)。
第10頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
2.2應(yīng)用需求分析
衡量一個商業(yè)銀行是否真正應(yīng)用了大數(shù)據(jù)、發(fā)揮了大數(shù)據(jù)的價值,就是要看
其大數(shù)據(jù)系統(tǒng)是否能夠顯著提升數(shù)據(jù)分析和商業(yè)決策的效率,是否能夠提高對客
戶的理解與認知能力,是否能夠低成本、批量地實現(xiàn)較高水準(zhǔn)的個性化客戶服務(wù)。
如果商業(yè)銀行的大數(shù)據(jù)系統(tǒng)未能實現(xiàn)上述效用,那就需要認真審視自身的大數(shù)據(jù)
戰(zhàn)略并加以調(diào)整,銀行各類數(shù)據(jù)應(yīng)用問題主要體現(xiàn)在以下幾方面:
一方面,數(shù)據(jù)應(yīng)用全流程管理不足,數(shù)據(jù)管理良性機制有待完善,主要信息
系統(tǒng)建設(shè)不足或功能欠缺,造成管理應(yīng)用數(shù)據(jù)內(nèi)容不足、失實現(xiàn)象客觀存在。突
出表現(xiàn)在系統(tǒng)應(yīng)用執(zhí)行層面、管理運維、管理應(yīng)用層面尚未形成聯(lián)動運轉(zhuǎn),對基
礎(chǔ)數(shù)據(jù)采集缺乏統(tǒng)一要求,基層人員錄入數(shù)據(jù)不及時、不準(zhǔn)確的現(xiàn)象客觀存在,
系統(tǒng)運維與持續(xù)管理不足,進而形成管理應(yīng)用職能與積極性缺失的現(xiàn)象普遍存在,
從而在源頭上、流程上、應(yīng)用上造成部分數(shù)據(jù)不足、失實、失效的現(xiàn)象。在大多
數(shù)銀行已建設(shè)形成核心系統(tǒng)的基礎(chǔ)上,受核心系統(tǒng)功能不足以及相關(guān)管理系統(tǒng)建
設(shè)不足的影響,難以在會計、交易數(shù)據(jù)之外形成對管理決策所需基礎(chǔ)信息的有益
補充,信息系統(tǒng)在經(jīng)營行為、管理分析領(lǐng)域建設(shè)的缺失,客觀導(dǎo)致數(shù)據(jù)內(nèi)容不全、
不足的現(xiàn)象出現(xiàn)。
另一方面,數(shù)據(jù)整合與協(xié)調(diào)運轉(zhuǎn)成本高、效率低,綜合運用整體信息的風(fēng)險
管理、信息管理職責(zé)所覆蓋的領(lǐng)域存在不足,協(xié)調(diào)力度不足,具備解讀數(shù)據(jù)能力
與經(jīng)營管理決策能力的復(fù)合性人員不足,缺乏為高級管理層提供及時、便捷、有
效的決策數(shù)據(jù)服務(wù)的職能層級,難以對海量數(shù)據(jù)實現(xiàn)有效篩選和整合,進而影響
了為銀行高管層提供決策所需信息的能力。
因此,構(gòu)建科學(xué)管理下的數(shù)據(jù)應(yīng)用決策體系客觀需要在理解數(shù)據(jù)、規(guī)范數(shù)據(jù)、
分析數(shù)據(jù)、組織數(shù)據(jù)、應(yīng)用數(shù)據(jù)“五個層面”整體完善數(shù)據(jù)管理機制,從而有效
實現(xiàn)以科學(xué)運用數(shù)據(jù)為基礎(chǔ)的精細化管理決策,針對執(zhí)行層面、管理層面、決策
層面,分級建立各類業(yè)務(wù)數(shù)據(jù)管理、應(yīng)用、分析框架,有效地將大數(shù)據(jù)應(yīng)用、分
析系統(tǒng)與移動互聯(lián)網(wǎng)技術(shù)、線上線下一體化服務(wù)體系進行緊密融合,就可為商業(yè)
銀行的客戶提供“千人千面”的個性化服務(wù)。例如,對于低凈值長尾客戶,可用
較低的成本,批量化地通過電子渠道提供隨身的知心服務(wù),提高產(chǎn)品和服務(wù)的覆
蓋率;對于高凈值客戶,提供“客戶經(jīng)理+電子渠道”的隨身貼心服務(wù),提升客
第11頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
戶的業(yè)務(wù)貢獻。
從一定意義上說來,銀行基于大數(shù)據(jù)的應(yīng)用、分析及經(jīng)營過程,是一個“信
息去中心化”的過程。銀行自身的產(chǎn)品創(chuàng)造和營銷管理,從以往以經(jīng)營和運作為
核心的中心化模式,轉(zhuǎn)化為以分散創(chuàng)造、自由傳播、靈活匯聚為特征的眾創(chuàng)模式。
另一方面,內(nèi)外部數(shù)據(jù)融合的過程,是一個“信息去邊界化”的過程。銀行部門
之間的信息交換、銀行與客戶之間的信息交換以及銀行自身與金融市場環(huán)境的信
息,以日益多樣化、實時化的方式實現(xiàn)。
2.3設(shè)計需求分析
基于以上的各類數(shù)據(jù)獲取、篩選、匯聚及分析應(yīng)用,需要以下三方面的數(shù)據(jù)
技術(shù)予以支撐。
第一類是全局視圖技術(shù)。對于銀行管理者而言,對大數(shù)據(jù)內(nèi)容全局狀況的把
握,往往是開發(fā)大數(shù)據(jù)價值的一個基本需求。然而大數(shù)據(jù)的體量和結(jié)構(gòu)復(fù)雜性往
往遠遠超出人類認知的信息承載能力。因此,有效的技術(shù)應(yīng)當(dāng)能夠在大量數(shù)據(jù)中
提取出一個足夠小的集合以呈現(xiàn)給管理者,并使得這個小集合能夠充分地代表數(shù)
據(jù)全局。
第二類支撐技術(shù)是關(guān)聯(lián)發(fā)現(xiàn)技術(shù),其目標(biāo)在于敏銳識別數(shù)據(jù)間的聯(lián)系。長遠
來看,在未來銀行內(nèi)外部數(shù)據(jù)融合及共享的情況下,大量的數(shù)據(jù)屬性之間所構(gòu)成
的復(fù)雜潛在關(guān)聯(lián)網(wǎng)絡(luò),就需要強有力的關(guān)聯(lián)發(fā)現(xiàn)技術(shù)來加以處理。
第三類支撐技術(shù)是動態(tài)跟蹤技術(shù),即實時化的流數(shù)據(jù)分析處理、快速增量數(shù)
據(jù)分析。
3項目整體建設(shè)方案
3.1系統(tǒng)總體架構(gòu)
3.1.1設(shè)計原則
外部數(shù)據(jù)平臺建設(shè)應(yīng)該從規(guī)劃的全局出發(fā)、從長遠的角度考慮,遵循統(tǒng)一
規(guī)劃。特別是系統(tǒng)建設(shè)結(jié)構(gòu)、數(shù)據(jù)模型結(jié)構(gòu)、數(shù)據(jù)存儲結(jié)構(gòu)以及系統(tǒng)擴展規(guī)劃
等內(nèi)容。設(shè)計將遵循以下幾項基本原則:
,易用性原則
結(jié)合銀行的實際工作習(xí)慣和流程,平臺的設(shè)計結(jié)構(gòu)合理、功能易用、符合
第12頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
實際業(yè)務(wù)的需要。系統(tǒng)的設(shè)計在運行環(huán)境、使用操作等方面以易用為主,以方
便用戶使用和維護為出發(fā)點,如類SQL客戶端等。
/實用性原則
滿足系統(tǒng)需求的近期目標(biāo),在保證功能實現(xiàn)和系統(tǒng)管理的前提下,設(shè)計滿
足功能需要、展現(xiàn)需要、管理需要以及未來擴展需要,如新增表或系統(tǒng)到大數(shù)
據(jù)平臺等。
/高可用性原則
數(shù)據(jù)是整個平臺的最終保障,不但要保證平臺能夠7X24運行,而且必須有
高可用性,以保證應(yīng)用系統(tǒng)對數(shù)據(jù)的隨時存取。
/靈活擴展性原則
結(jié)合銀行的數(shù)據(jù)量增長情況,以及為滿足大數(shù)據(jù)平臺的建設(shè)的技術(shù)要求,
必須具有強大的擴展性來滿足這種高速發(fā)展的要求,以便將來的平滑升級,如
全量加載與增量加載的轉(zhuǎn)換等。
/可靠性原則
?對設(shè)計方案采用的技術(shù)和產(chǎn)品要進行嚴格的可行性論證,把風(fēng)險降
低到最低限度;
?設(shè)計的方案要系統(tǒng)、科學(xué)、正確、嚴謹且現(xiàn)實可行;
?采用的先進技術(shù)應(yīng)是成熟的經(jīng)過實踐證明是成功的技術(shù);
/可配置性原則
大數(shù)據(jù)平臺的核心是數(shù)據(jù)存儲和處理,所以數(shù)據(jù)分類和管理功能十分重
要。為了提高系統(tǒng)管理的效率、管理的安全性,必須有便于使用的配置機制,
如可視化的ETL管理監(jiān)控平臺等。
/安全性原則
平臺建設(shè)充分考慮整個系統(tǒng)運行的安全策略和機制,可以根據(jù)不同的功能
要求和管理要求,設(shè)置不同的安全措施。設(shè)計中,硬件級別上主要考慮信息傳
輸?shù)陌踩煽啃院筒《痉雷o;在操作系統(tǒng)級別上考慮采用具有較高安全級別的
操作系統(tǒng),對操作系統(tǒng)的超級用戶權(quán)限及其口令進行管理,對系統(tǒng)運行情況有
詳細的記錄,采取資料備份、存取權(quán)限控制、資料冗余等措施;應(yīng)用系統(tǒng)級別
上考慮采用嚴格的安全控制策略來保證客戶端的安全性。
第13頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
3.1.2硬件方案
本系統(tǒng)采用集中部署模式,數(shù)據(jù)庫服務(wù)器初步考慮使用八臺3560服務(wù)器,
運行大數(shù)據(jù)平臺(HDFS、HBASE、HIVE),其中兩臺為管理節(jié)點機,提供高可用服
務(wù)。考慮到一期應(yīng)用需持續(xù)建設(shè),沒有嚴格的7*24應(yīng)用要求,應(yīng)用服務(wù)器和報表
服務(wù)器互為備份,報表服務(wù)器和Web服務(wù)器均僅部署一臺,不設(shè)置熱備。服務(wù)器
統(tǒng)一部署在總行,用戶通過瀏覽器訪問系統(tǒng)。系統(tǒng)的備份管理采取多級備份機
制。大數(shù)據(jù)技術(shù)提供了三份數(shù)據(jù)副本的備份,使系統(tǒng)能提供持續(xù)的服務(wù)。
硬件架構(gòu)如下圖:
Hadoop
本期工程設(shè)備包括應(yīng)用服務(wù)器、ETL&Hadoop服務(wù)器、MPP數(shù)據(jù)庫服務(wù)器,建
議配置如下:
序號設(shè)備名稱配置數(shù)量
6臺3650,2顆E5-2650v3,
Hadoop服務(wù)器-計算節(jié)256G內(nèi)存,4塊2TBNLSAS,
16臺
點M52101G緩存,集成4口千兆
網(wǎng)卡,雙電。
2臺3650,2顆E5-2650v3,
128GB內(nèi)存,2塊
Hadoop服務(wù)器-管理節(jié)
2ITSAS10K,M52101G緩2臺
點
存,集成4口千兆網(wǎng)卡,雙
電。
3交換機1臺千兆24口交換機1臺
第14頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
3.1.3邏輯架構(gòu)
經(jīng)營個金客電子銀客戶統(tǒng)一報蹣
的
統(tǒng)分析戶集市行集市營稍表平臺
一
調(diào)
度大數(shù)據(jù)平臺
數(shù)
平
數(shù)
據(jù)
臺
公共數(shù)據(jù)模型層I半結(jié)構(gòu)化數(shù)據(jù)區(qū)據(jù)
運
存
維
I非結(jié)構(gòu)化數(shù)據(jù)區(qū)儲
體
系
大源數(shù)據(jù)歷史層I。。。
數(shù)
據(jù)
管
結(jié)構(gòu)化額據(jù)接入J非結(jié)構(gòu)化數(shù)據(jù)接入歌
理
平文件球換區(qū)
臺
|
結(jié)構(gòu)化數(shù)據(jù)I半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)
1.機構(gòu)化與非機構(gòu)化數(shù)據(jù):外部數(shù)據(jù)平臺分別以批量和實時的方式獲取數(shù)
據(jù)。
2.文件交換區(qū):文件的交換中樞,含源系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化、非結(jié)構(gòu)
化數(shù)據(jù)。
3.公共數(shù)據(jù)模型層:存放基礎(chǔ)數(shù)據(jù)模型層數(shù)據(jù),數(shù)據(jù)按各業(yè)務(wù)系統(tǒng)進行模型
劃分,做為數(shù)據(jù)服務(wù)接口的主要數(shù)據(jù)來源。
4.源數(shù)據(jù)歷史層:源數(shù)據(jù)緩存區(qū)數(shù)據(jù)接入。
5.各應(yīng)用系統(tǒng):建設(shè)各種數(shù)據(jù)分析系統(tǒng),包括全行統(tǒng)一報表平臺、經(jīng)營分析
系統(tǒng)、客戶營銷系統(tǒng)、個金客戶集市和電子銀行集市等。
6.統(tǒng)一調(diào)度平臺:外部數(shù)據(jù)平臺ETL過程的統(tǒng)一作業(yè)調(diào)度監(jiān)控,包括:調(diào)
度、監(jiān)控、日志、處理四部份內(nèi)容。
7.外部數(shù)據(jù)管理平臺:對外部數(shù)據(jù)平臺的各軟件模塊進行統(tǒng)一監(jiān)控管理,包
括軟件狀態(tài)、使用資源情況、節(jié)點運行情況,為軟件運維提供統(tǒng)一的監(jiān)控
和維護功能。
3.1.4技術(shù)架構(gòu)
外部數(shù)據(jù)平臺的技術(shù)架構(gòu)如下圖所示:
第15頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
WebSerra/FTP/KjrfUflvIQ/KV/-
Z
O
O
K
ft
fxt
-YARN
HDFS
FTP/Socket/fhnne
??
施》■單aI
說明:?虢顰T?端整囂O
整個平臺技術(shù)關(guān)鍵的四個部分:
■分布式文件存儲/批量計算系統(tǒng):HDFS的核心架構(gòu)目標(biāo)是錯誤檢測和快
速、自動的恢復(fù),實現(xiàn)數(shù)據(jù)訪問的高吞吐量,對文件采用的訪問模型
是:write-one-read-manyo
■大規(guī)模并行計算/MPP數(shù)據(jù)庫系統(tǒng):HBASE是一個高可靠性、高性能、
面向列、可伸縮的分布式存儲系統(tǒng),利用HBase搭建起大規(guī)模結(jié)構(gòu)化
存儲集群,Pig和Hive還為HBase提供了高層語言支持,使得在
HBase上進行數(shù)據(jù)統(tǒng)計處理變的非常簡單。
■實時流式處理系統(tǒng):Storm保證每個消息都會得到處理,并且每秒可
以處理數(shù)以百萬計的消息,可以使用任意編程語言來做開發(fā)。
■為分布式提供協(xié)調(diào)服務(wù):Zookeeper提供一致性服務(wù)的軟件,提供的功
能包括:配置維護、域名服務(wù)、分布式同步、組服務(wù)等。
3.2數(shù)據(jù)匯聚
3.2.1批量數(shù)據(jù)匯聚
ETL工具的核心功能緊緊圍繞構(gòu)建大數(shù)據(jù)系統(tǒng)展開,產(chǎn)品在架構(gòu)設(shè)計理念
上借鑒國內(nèi)外同類主流產(chǎn)品的技術(shù)理念,圍繞分布式計算思想展開系統(tǒng)設(shè)計。
在架構(gòu)可擴展性方面,在分布式計算的理念下將計算與平臺之間是關(guān)系進
行了弱化,從而使得系統(tǒng)具備高度擴展性,具備動態(tài)調(diào)度系統(tǒng)計算容量的能
力,系統(tǒng)支持在保障系統(tǒng)計算性能的前題條件下通過橫向水平擴展方式來提升
第16頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
能力,同時產(chǎn)品對目前主流的第三方ETL產(chǎn)品也提供了多種多樣的手段來兼
容。
在系統(tǒng)可伸縮性方面產(chǎn)品對目前主流的硬件資源平臺保持兼容,在系統(tǒng)設(shè)
計實現(xiàn)過程中充分考慮到平臺移植方面的訴求而選擇具備多種平臺無關(guān)性的技
術(shù)來實現(xiàn)以保障系統(tǒng)具備高可伸縮性;在易用性方面產(chǎn)品以統(tǒng)一任務(wù)調(diào)度為樞
紐,配合提供完善的圖形化操作管理界面提供良好的用戶體驗降低產(chǎn)品使用難
度。
在系統(tǒng)穩(wěn)定性方面產(chǎn)品的研發(fā)過程嚴格遵循軟件工程思想指導(dǎo)進行,在研
發(fā)過程中采用測試同步跟進策略,對產(chǎn)品組成功能點進行了全覆蓋、高密度、
多輪次的質(zhì)量測試同時,還對產(chǎn)品在功能集成、系統(tǒng)集成等多個環(huán)節(jié)展開了專
業(yè)的質(zhì)量保障手段以提升產(chǎn)品質(zhì)量以保障系統(tǒng)穩(wěn)定性。
3.2.1.1數(shù)據(jù)采集
數(shù)據(jù)采集在整個ETL過程中處于第一步位置,采集具備按要求從各個數(shù)據(jù)
源中采集數(shù)據(jù)供后續(xù)數(shù)據(jù)處理流程使用的能力,在數(shù)據(jù)采集過程同步需要對采
集執(zhí)行過程的關(guān)鍵環(huán)節(jié)信息以日志文件的形式記錄相關(guān)操作過程,為后續(xù)數(shù)據(jù)
稽核與流程排查提供基礎(chǔ)輸入數(shù)據(jù)。
ETL產(chǎn)品中數(shù)據(jù)抽取功能具備從不同數(shù)據(jù)源(DB2、ORACLE.DB2、
Hadoop、MPP等)中進行指定規(guī)則的數(shù)據(jù)提取作業(yè),抽取后的數(shù)據(jù)存儲支持落
地與不落地二大類進行,抽取后的數(shù)據(jù)可以為數(shù)據(jù)轉(zhuǎn)換環(huán)節(jié)進行處理提供輸
入,也可以直接進行處理或者加載。從抽取支持的方式上來看,主要包括全量
抽取和增量抽取兩種方式,其中全量抽取可將所有歷史數(shù)據(jù)一次性抽取完成;
單次抽取根據(jù)規(guī)則要求進行抽取。
數(shù)據(jù)采集采用多樣性的接口方式,除了支持傳統(tǒng)的JDBC/ODBC接口、FTP
文件接口,還支持目前主流的流數(shù)據(jù)采集的Socket接口及Webservice接口,
同時擴展支持了Hadoop生態(tài)圈的Flume日志系統(tǒng)采集接口等,提供完善的圖形
化可拖拽的操作管理界面提供良好的用戶體驗降低產(chǎn)品使用難度,可以根據(jù)實
際業(yè)務(wù)需求選擇相應(yīng)的配置也可以統(tǒng)一使用。
?從抽取支持的實時性來看,支持批量數(shù)據(jù)抽取和實時(流式)數(shù)據(jù)抽
??;
第17頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
?從抽取方式來看,包括全量抽取和增量抽取兩種方式,其中全量抽取
可將所有歷史數(shù)據(jù)一次性抽取完成;增量抽取根據(jù)規(guī)則要求進行抽
??;
?從數(shù)據(jù)抽取觸發(fā)模式上看,支持自動觸發(fā)與手工執(zhí)行的二大類型;
?在抽取數(shù)據(jù)源類別上支持RDBMS、MPP、HADOOP等多種類型。
數(shù)據(jù)采集功能通過在流程設(shè)計中選擇抽取組件實現(xiàn)從源系統(tǒng)采集數(shù)據(jù),支
持Hdfs、Hbase、Excel、Xml、Teradata、Greenplum、MySql等方式抽取,具
體如所示:
圖:數(shù)據(jù)抽取
數(shù)據(jù)抽取在不同方式情況下,數(shù)據(jù)抽取過程的工作原理基本相同,僅在處
理實現(xiàn)層面針對不同數(shù)據(jù)源可能會進行部分個性化處理,總體數(shù)據(jù)抽取的工作
原理如下:
1.默認情況下提供基礎(chǔ)通用的抽取功能,支持從不同數(shù)據(jù)源中抽取數(shù)據(jù),
抽取到的數(shù)據(jù)支持生成數(shù)據(jù)文件或流向管道,為后續(xù)數(shù)據(jù)處理提供輸入
數(shù)據(jù)。
2.選擇抽取方式進行配置,假設(shè)為批量抽取則需要指明相應(yīng)數(shù)據(jù)抽取數(shù)據(jù)
源描述信息、,如果設(shè)置為增量抽取則需要提供抽取數(shù)據(jù)特征規(guī)則數(shù)據(jù),
數(shù)據(jù)抽取開始前將獲取到相應(yīng)的配置規(guī)則再結(jié)合不同數(shù)據(jù)源特征開啟相
第18頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
應(yīng)的數(shù)據(jù)抽取作業(yè)。
3.數(shù)據(jù)抽取處理結(jié)束或失敗時,都需要向在ETL系統(tǒng)相應(yīng)的數(shù)據(jù)庫日志表
中記錄操作日志,為后續(xù)數(shù)據(jù)稽核與問題排查提供詳細信息。
4.在抽取實現(xiàn)過程中支持提供SQL、HQL、SHELL等不同類別的行為定義腳
本,數(shù)據(jù)抽取執(zhí)行組件將根據(jù)定義行為腳本類型調(diào)起相應(yīng)的腳本執(zhí)行來
獲取到數(shù)據(jù)。
提供流程化的圖形界面配置方式實現(xiàn)批量數(shù)據(jù)抽取的配置:
開始批量掃描批量采集結(jié)束
首先需要配置批量掃描單元:
基礎(chǔ)愎性|‘掃倚目錄:Elnf5m二二(+)畝王:目錄中通聚用#用口費出現(xiàn)在最H目錄里
T件掃廟
'規(guī)則上里:一般規(guī)則“文件占規(guī)則:gprsfdjSOmJJH.txt
下推優(yōu)化
'掃施±22:同的倚據(jù)與對6腹:FTP.106
掃質(zhì)重試次教:000掃椅重試間隔盯間:巳0國秒
重武完處理萬苴:。執(zhí)行工叼:,發(fā)送吉若泄—存*忽略交文件:皇。否
'是百育收驗文件:育。?有
然后配置批量采集單元:
g喳__________干.F三庠一F1?€
'為理理=理.不代理
丁*1,
”半耳白世建而:住出
'工地11界/h—nejeU"doloLocal
:
侔:=。:否
運用大規(guī)模并行計算特點來達到批量數(shù)據(jù)抽取目標(biāo),主要應(yīng)對數(shù)據(jù)抽取數(shù)
第19頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
據(jù)源以較大文件形式對外提供數(shù)據(jù)時可采用此種采集模式,批量數(shù)據(jù)采抽取具
備如下功能與能力:
■多協(xié)議數(shù)據(jù)抽取
提供了文件和數(shù)據(jù)庫等多種數(shù)據(jù)抽取方式包括支持:高性能關(guān)系型數(shù)據(jù)倉
庫、MPP分布式數(shù)據(jù)倉庫、Hadoop等,接口協(xié)議可以根據(jù)需要隨時添加。
■多格式數(shù)據(jù)解析
多種文件格式抽?。–VS、XML、Excel.ASN.k自定義),支持不同格式、
參數(shù)、編碼、分隔符、Tag的異構(gòu)文件解析。提供擴展接口,方便支持其他格
式。
■高效率與控制
多個抽取任務(wù)發(fā)布到集群中并行處理,內(nèi)部運算使用二進制存儲,針對大批量
零散文件優(yōu)化??煽刂撇l(fā)數(shù)和任務(wù)優(yōu)先級。
ETL產(chǎn)品對數(shù)據(jù)抽取提供了全方面支持,在抽取觸發(fā)模式上支持自動觸發(fā)與
手工執(zhí)行的二大類型;在數(shù)據(jù)抽取形式上支持全量抽取與增量數(shù)據(jù)抽取二大
類;在抽取數(shù)據(jù)源類別上支持RDBMS、MPP、HADOOP等多種類型。具體支持功能
的如下表所示:
序號功能功能描述
1支持手工和自動手工方式通過人為方式啟動任務(wù),自動方式基于
兩種抽取方式調(diào)度程序,定期定時執(zhí)行抽取任務(wù)
2支持多種抽取模具備全量和增量數(shù)據(jù)抽??;允許靈活定義多種抽
式與策略定義取策略;允許對抽取的字段進行動態(tài)修改;支持
在抽取過程中設(shè)置斷點,對抽取行為進行跟蹤與
監(jiān)控
3支持對數(shù)據(jù)壓縮能夠?qū)?shù)據(jù)壓縮包文件進行抽取,支持對數(shù)據(jù)壓
包進行解壓縮包的解壓處理
4具備靈活的數(shù)據(jù)支持對數(shù)據(jù)源的統(tǒng)一管理,對可支持的各種不同
源定義管理能力類型的數(shù)據(jù)源,允許以統(tǒng)一方式進行配置并獲取
訪問
5支持異構(gòu)數(shù)據(jù)源支持異構(gòu)數(shù)據(jù)源系統(tǒng)的數(shù)據(jù)抽取、支持多種數(shù)據(jù)
第20頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
進行數(shù)據(jù)抽取抽取接口,現(xiàn)階段主要支持的數(shù)據(jù)源包括:各種
主流的關(guān)系型數(shù)據(jù)庫如Teradata、分布式數(shù)據(jù)
庫、文本文件、任意格式XML文件、HDFS文件等
6支持多種數(shù)據(jù)庫支持使用包括專用數(shù)據(jù)庫驅(qū)動接口、JDBC、ODBC
連接方式接口等數(shù)據(jù)庫連接方式
7支持基于日志的具備對日志進行增量數(shù)據(jù)捕獲抽取能力,能夠在
增量數(shù)據(jù)捕獲能變化數(shù)據(jù)捕捉和數(shù)據(jù)轉(zhuǎn)換過程進行無縫連接且提
力(CDC)供圖形化界面設(shè)計和監(jiān)控變化數(shù)據(jù)的過程
8提供豐富的數(shù)據(jù)提供豐富的圖形化界面設(shè)計和監(jiān)控數(shù)據(jù)抽取過程
抽取作業(yè)執(zhí)行狀執(zhí)行狀態(tài)
態(tài)監(jiān)控管理能力
9具備數(shù)據(jù)抽取容提供對錯誤數(shù)據(jù)的進行檢測和處理能力,如進行
錯處理機制記錄的過濾,能將發(fā)生錯誤的數(shù)據(jù)記錄到響應(yīng)的
錯誤表中。例如對文件的輸入,可以過濾不符合
規(guī)范的數(shù)據(jù)并且捕獲這些數(shù)據(jù)
10數(shù)據(jù)抽取過程日支持在數(shù)據(jù)抽取過程中對數(shù)據(jù)記錄條數(shù)、開始時
志記錄間、完成時間,錯誤信息等信息進行記錄保存
3.2.1.2數(shù)據(jù)轉(zhuǎn)換
對接單個或者多個數(shù)據(jù)結(jié)構(gòu)相同的接口文件進行轉(zhuǎn)換,在數(shù)據(jù)不落地的情
況下,可以直接從管道中讀取接口文件的數(shù)據(jù)內(nèi)容進行轉(zhuǎn)換。轉(zhuǎn)換處理完成之
后,既可以以文件的方式存儲,也可以直接寫入管道中。具體的轉(zhuǎn)換內(nèi)容有:
1、字段校驗的處理方法:字段空值校驗,字段長度校驗,字段類型校驗,
字段取值范圍校驗,字段間邏輯校驗,主子表的關(guān)系校驗。
2、字段值轉(zhuǎn)換處理方法:字段隱私化處理,數(shù)字類型字段的加減乘除運
算,字段內(nèi)容替換,在字段值前統(tǒng)一加上另外字段的值或者加上指定的值,一
個字段按字段長度拆分成2個字段,將日期字段的內(nèi)容統(tǒng)一轉(zhuǎn)換為單月的XXX
號。
3、文件整體內(nèi)容的轉(zhuǎn)換:字符集轉(zhuǎn)換(如文件為UTF-8的字符集轉(zhuǎn)換為
第21頁共87頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案
GBK然后入到GBK庫中),文件排序(支持單個或多個字段排序,支持正序和反
序),文件剔重(記錄級剔重),文件內(nèi)容過濾(如去掉日期字段大于20140425
的內(nèi)容),文件匯總(按文件中的某個字段對字段的所有值做sum運算),文件
join(2個結(jié)構(gòu)不同的文件按某個字段進行join操作,得出新的文件)。
,新塔計算規(guī)則G
選擇計算類型:字段計算▲
*數(shù)據(jù)源:bidb*表元數(shù)據(jù):gprs_cdr_qiuyc_2014052V
*文件元:qiuyc_gprsK題出萬式:文本文件V
墟力文件名規(guī)則:△
*特換文件存放路徑:三
字段編碼字段名稱字段類型轉(zhuǎn)換規(guī)則轉(zhuǎn)換叁數(shù)
0901msisdnvarchar空值校蛉日
0902dat_rcd_dtdate轉(zhuǎn)換當(dāng)月日期已
TTX7、
0903vst_rgn_cdvarchar截取字符Tn?:0結(jié)天:6—
芬904roam_typ_cdvarchar隱私化二Jcom.ailk.etl.MaskClass-mask
芬905apnnivarchar無』
芬906call_bgn_tmvarchar無電
0907
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國焊接多刃刀具數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國玉仙米數(shù)據(jù)監(jiān)測研究報告
- 電競主題酒店的創(chuàng)新型會員管理制度設(shè)計
- 科技巨頭股票的長期價值預(yù)測
- 2025至2030年中國活泉美白活膚水?dāng)?shù)據(jù)監(jiān)測研究報告
- 施工簽證合同范本
- 電子商情分析與電商行業(yè)決策支持系統(tǒng)
- 2025至2030年中國油壓自動進刀鉆孔機數(shù)據(jù)監(jiān)測研究報告
- 科技行業(yè)職場技能要求與發(fā)展趨勢
- 2025年02月青島市城陽區(qū)部分事業(yè)單位工作人員(16名)筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 世界建筑史學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 公路橋梁工程施工安全風(fēng)險評估指南
- 重度哮喘診斷與處理中國專家共識(2024版)解讀
- 《齊桓晉文之事》+課件+2023-2024學(xué)年統(tǒng)編版必修下冊+
- 社會變革中的民事訴訟讀書筆記
- 《創(chuàng)傷失血性休克中國急診專家共識(2023)》解讀課件
- 八年級美術(shù)下冊第1課文明之光省公開課一等獎新名師課獲獎?wù)n件
- 2024年全國體育單招英語考卷和答案
- 食品安全管理制度可打印【7】
- 2024年山東新華書店集團限公司臨沂市縣分公司招聘錄取人員(高頻重點提升專題訓(xùn)練)共500題附帶答案詳解
- 河北省邯鄲市磁縣2024屆中考數(shù)學(xué)模試卷含解析
評論
0/150
提交評論