銀行外部數(shù)據(jù)管理平臺建設(shè)方案_第1頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案_第2頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案_第3頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案_第4頁
銀行外部數(shù)據(jù)管理平臺建設(shè)方案_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

外部數(shù)據(jù)管理平臺建設(shè)方案

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

目錄

1外數(shù)據(jù)管理平臺概述..........................................................1

1.1建設(shè)背景.................................................................1

1.11

1.2目標(biāo)定位.................................................................1

1.3總體架構(gòu)................................................................2

2平臺需求分析.................................................................3

2.1數(shù)據(jù)需求分析............................................................3

2.1.1數(shù)據(jù)分類..............................................................3

2.1.2數(shù)據(jù)獲取..............................................................4

2.1.3數(shù)據(jù)篩選..............................................................9

2.1.4數(shù)據(jù)價值開發(fā).........................................................10

2.2應(yīng)用需求分析...........................................................11

2.3設(shè)計需求分析...........................................................12

3項目整體建設(shè)方案............................................................12

3.1系統(tǒng)總體架構(gòu)...........................................................12

3.1.1設(shè)計原則..............................................................12

3.1.2硬件方案.............................................................14

3.1.3邏輯架構(gòu).............................................................15

3.1.4技術(shù)架構(gòu).............................................................15

3.2數(shù)據(jù)匯聚...............................................................16

3.2.1批量數(shù)據(jù)匯聚.........................................................16

3.2.2統(tǒng)一調(diào)度管理.........................................................41

3.3數(shù)據(jù)清洗與監(jiān)測........................................................50

3.3.1數(shù)據(jù)探查.............................................................50

3.3.2數(shù)據(jù)標(biāo)準(zhǔn)化...........................................................51

3.3.3數(shù)據(jù)清洗.............................................................58

3.3.4質(zhì)量監(jiān)測.............................................................62

3.3.5規(guī)則引擎.............................................................67

3.4平臺運維監(jiān)控...........................................................71

3.4.1硬件運維管理.........................................................71

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

3.4.2軟件運維管理.........................................................71

3.4.3統(tǒng)一調(diào)度監(jiān)控.........................................................72

4統(tǒng)一資源目錄與元數(shù)據(jù)庫.....................................................77

4.1元數(shù)據(jù)管理..............................................................77

4.2元數(shù)據(jù)主要功能.........................................................78

4.3元數(shù)據(jù)管理角色.........................................................79

4.4統(tǒng)一資源目錄...........................................................79

5平臺安全....................................................................80

5.1系統(tǒng)概述................................................................80

5.2系統(tǒng)架構(gòu)................................................................80

5.3系統(tǒng)功能................................................................81

6平臺及數(shù)據(jù)應(yīng)用.............................................................83

6.1客戶畫像應(yīng)用...........................................................83

6.2產(chǎn)品分析................................................................84

6.3產(chǎn)品評價................................................................84

6.4產(chǎn)品創(chuàng)新................................................................84

6.5風(fēng)險防范支持...........................................................85

6.6客戶服務(wù)................................................................85

6.7精準(zhǔn)營銷................................................................85

6.8風(fēng)險管控................................................................86

6.9運營優(yōu)化................................................................86

ii

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

1外數(shù)據(jù)管理平臺概述

1.1建設(shè)背景

隨著銀行業(yè)務(wù)的發(fā)展,與外部機構(gòu)跨界合作的展開,歷史數(shù)據(jù)越來越多,

半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)也越來越多,僅靠目前的關(guān)系型數(shù)據(jù)庫已無法及

時有效的獲得處理,嚴重影響了工作效率和業(yè)務(wù)發(fā)展需要。

大數(shù)據(jù)熱潮引發(fā)了思維、生產(chǎn)和生活方式的重大變革,并已在國有銀行、

多個股份制銀行形成試點應(yīng)用,加強銀行對數(shù)據(jù)的掌控和應(yīng)用能力。

在互聯(lián)網(wǎng)化、市場化、去中介化的經(jīng)營環(huán)境中,商業(yè)銀行面臨的數(shù)據(jù)競爭

的壓力和正在不斷增強。銀行創(chuàng)新服務(wù)和產(chǎn)品也將更多源于對數(shù)據(jù)資源的開發(fā)

和利用。

大數(shù)據(jù)是構(gòu)建智慧銀行的基礎(chǔ),是銀行發(fā)展的重要引擎。能否用好大數(shù)

據(jù),實現(xiàn)經(jīng)營、管理和服務(wù)創(chuàng)新,從一定程度上決定了其未來的可持續(xù)發(fā)展能

力。

1.2目標(biāo)定位

通過搭建銀行外部數(shù)據(jù)管理平臺實現(xiàn)全行外部數(shù)據(jù)資產(chǎn)的集中管理和透明

開放,為各部門有序共享,將外部數(shù)據(jù)集中治理,逐步融合,并探索新的領(lǐng)

域;在外部數(shù)據(jù)管理平臺建設(shè)過程中,建立統(tǒng)一的ETL監(jiān)控平臺,數(shù)據(jù)質(zhì)量分析

平臺以及外部數(shù)據(jù)運維平臺;在未來結(jié)合行內(nèi)ODS數(shù)據(jù)平臺和內(nèi)容管理平臺,利

用數(shù)據(jù)挖掘技術(shù)得出隱藏在海量數(shù)據(jù)背后的、有價值的潛在規(guī)律,以豐富的可

視化模型進行展現(xiàn),在此基礎(chǔ)上實現(xiàn)精準(zhǔn)營銷、業(yè)務(wù)體驗優(yōu)化、客戶服務(wù)管

理、風(fēng)險控制等金融業(yè)務(wù)應(yīng)用。

建設(shè)目標(biāo)定位:

1,全行外部數(shù)據(jù)統(tǒng)一管理平臺

2.作為現(xiàn)有數(shù)據(jù)平臺ODS的有效補充

3.外部數(shù)據(jù)蓄水池

4.大數(shù)據(jù)場景應(yīng)用試驗田

5,建數(shù)據(jù)平臺運維監(jiān)控中心

第1頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

1.3總體架構(gòu)

數(shù)據(jù)首控元數(shù)據(jù)■數(shù)一質(zhì)數(shù)據(jù)標(biāo)準(zhǔn)

圖總體邏輯架構(gòu)圖

總體邏輯架構(gòu)規(guī)劃如下:

1、數(shù)據(jù)源層:做為源數(shù)據(jù)提供給數(shù)據(jù)集中平臺,通過批量數(shù)據(jù)的導(dǎo)入,與

社保、公積金、征信等系統(tǒng)的API接口認證等技術(shù)手段獲取源數(shù)據(jù);同事通過

爬蟲技術(shù)在互聯(lián)網(wǎng)上獲取大量的數(shù)據(jù),做為數(shù)據(jù)平臺的補充;將行內(nèi)客戶數(shù)據(jù)

信息進行深入挖掘,為數(shù)據(jù)平臺提供基礎(chǔ)數(shù)據(jù)支撐。

2、外部數(shù)據(jù)存儲:通過批量數(shù)據(jù)加載,實時接口數(shù)據(jù)等加載方式,將源數(shù)

據(jù)載入到外部數(shù)據(jù)存儲庫,再分別將結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入ODS,半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)

構(gòu)化數(shù)據(jù)導(dǎo)入ECM系統(tǒng)中。

3、應(yīng)用匯總層:建立具體的滿足分析需求和應(yīng)用的數(shù)據(jù)模型,為數(shù)據(jù)挖

掘、多維分析以及報表平臺提供數(shù)據(jù)支撐。

4、數(shù)據(jù)治理(數(shù)據(jù)清洗):逐步形成完善有效的數(shù)據(jù)治理機制,包括數(shù)據(jù)

質(zhì)量管理、元數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)安全管理等內(nèi)容,為全行提供準(zhǔn)

確、全面、可靠的數(shù)據(jù)資源,使企業(yè)的數(shù)據(jù)處于整體有序管理的狀態(tài)。

5、應(yīng)用展現(xiàn)層:構(gòu)建統(tǒng)一的數(shù)據(jù)分析集市,為各個應(yīng)用系統(tǒng)提供直接和間接

的數(shù)據(jù)展現(xiàn)服務(wù)。建設(shè)各種數(shù)據(jù)分析系統(tǒng),包括全行統(tǒng)一報表平臺、經(jīng)營分析系

統(tǒng)、客戶營銷系統(tǒng)、個金客戶集市和電子銀行集市等。

第2頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

2平臺需求分析

2.1數(shù)據(jù)需求分析

對銀行而言,各種內(nèi)外部數(shù)據(jù)實質(zhì)上是一種管理思維,其支點在于銀行自身

業(yè)務(wù)信息數(shù)據(jù)與客戶社交媒體的融合,最重要的是內(nèi)外部數(shù)據(jù)的融合,在這樣的

支點上反思銀行自身的組織形態(tài)、運作范式和價值創(chuàng)造模式,是“大數(shù)據(jù)銀行”

的真正內(nèi)涵所在。

對大數(shù)據(jù)時代的商業(yè)銀行機構(gòu)來說,數(shù)據(jù)更重要的特征在于其多樣化的來源

和形態(tài)、持續(xù)快速的產(chǎn)生和演變,以及對深度分析能力的高度依賴。因此,銀行

對大數(shù)據(jù)的駕馭和掌控,其核心并不在于擁有多大規(guī)模的數(shù)據(jù),而在于是否能夠

對來自于銀行客戶內(nèi)外部多樣化信息源的涌流數(shù)據(jù)進行敏捷持續(xù)的捕捉和整合,

并通過深度分析開發(fā)其商務(wù)價值。

2.1.1數(shù)據(jù)分類

目前銀行數(shù)據(jù)可簡單分類為五大類別,

一是交易流水類數(shù)據(jù),記錄銀行業(yè)務(wù)交易的主要信息;

二是會計賬務(wù)類數(shù)據(jù),按會計科目歸屬,記錄銀行業(yè)務(wù)會計核算的信息;

三是內(nèi)部管理類數(shù)據(jù),主要包括銀行業(yè)務(wù)流程信息、管控信息、風(fēng)險信息在

內(nèi)的內(nèi)部管理數(shù)據(jù);

四是外部數(shù)據(jù),包括銀行內(nèi)生信息以外,經(jīng)營管理所必須的市場、行業(yè)、客

戶等數(shù)據(jù);

五是系統(tǒng)處理及運算信息,包括信息系統(tǒng)處理、反映業(yè)務(wù)所必須的過程數(shù)據(jù),

以及運行數(shù)據(jù)、日志數(shù)據(jù)、字典數(shù)據(jù)等相關(guān)數(shù)據(jù)內(nèi)容。

本次外部數(shù)據(jù)管理平臺擬以銀行外部數(shù)據(jù)為主,內(nèi)部數(shù)據(jù)為輔的支撐整個數(shù)

據(jù)平臺建設(shè)及應(yīng)用。外部數(shù)據(jù)主要包括客戶信貸系統(tǒng)數(shù)據(jù)、個人客戶公積金信息

數(shù)據(jù)、社保、客戶社交網(wǎng)絡(luò)信息等相關(guān)數(shù)據(jù);內(nèi)部數(shù)據(jù)考慮將銀行自身客戶全量

拷貝數(shù)據(jù)進行加工、清洗、標(biāo)準(zhǔn)化等相關(guān)處理,作為外部數(shù)管理平臺數(shù)據(jù)庫的一

部分來支撐平臺應(yīng)用。

通過以上兩種內(nèi)外部數(shù)據(jù)來源,提供完整、多維度,至少包含以下幾個方面

的客戶數(shù)據(jù):一是客戶的基本信息,譬如信用信息、社交關(guān)系信息等;二是客戶

第3頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

的偏好信息,譬如金融產(chǎn)品偏好、金融服務(wù)偏好等;三是客戶的行為信息,譬如

銀行范圍內(nèi)的行為數(shù)據(jù)、外部行為數(shù)據(jù)等;四是客戶的分析數(shù)據(jù),譬如客戶風(fēng)險

度、客戶價值度等,五是京東白條、天貓分期、阿里小貸、支付寶運費險、百分

點個人征信、金電聯(lián)行“企業(yè)客觀信用”等相關(guān)客戶交易行為信息,如果這些數(shù)

據(jù)能與商業(yè)銀行的既有數(shù)據(jù)進行融合分析,將有望獲得更加精準(zhǔn)的數(shù)據(jù)分析結(jié)果。

2.1.2數(shù)據(jù)獲取

目前大部分商業(yè)銀行在網(wǎng)絡(luò)空間中缺少相關(guān)的“全業(yè)務(wù)”平臺,短期內(nèi)難以

依靠自身的電子渠道獲取所有關(guān)聯(lián)客戶信息。所以,銀行此次平臺建設(shè)大部分數(shù)

據(jù)將主要從自身體系之外獲取,主要從以下兩個角度進行分析:

第一,外部數(shù)據(jù)獲取方式。對于社保、公積金、信貸等體系型的數(shù)據(jù),可考

慮通過協(xié)調(diào)相關(guān)部門系統(tǒng)數(shù)據(jù)接口方式,通過認證接口的方式直接獲取高準(zhǔn)確度

和私密性的數(shù)據(jù)。部分客戶行為、除銀行自身的交易行為等數(shù)據(jù)、可通過協(xié)調(diào)第

三方數(shù)據(jù)供應(yīng)商例如淘寶、百度、阿里等直接購買。其他的客戶相關(guān)社交、同行

相關(guān)產(chǎn)品、政策性信息數(shù)據(jù)、行業(yè)調(diào)數(shù)據(jù)等可通過合法合規(guī)的網(wǎng)絡(luò)爬蟲技術(shù)取得。

第二,數(shù)據(jù)獲取的合規(guī)性??蛻粼谑褂没ヂ?lián)網(wǎng)服務(wù)期的行為信息、購物記錄、

健康信息等數(shù)據(jù)理應(yīng)屬于隱私數(shù)據(jù),客戶在注冊期間簽署的網(wǎng)絡(luò)服務(wù)協(xié)議是否能

夠有效支持互聯(lián)網(wǎng)企業(yè)采集、商用并交換,尚屬法律空白。因此,本次外部數(shù)據(jù)

平臺建設(shè)在引進對應(yīng)的外部數(shù)據(jù)之前,我們會首先做好合規(guī)工作,以提升我行數(shù)

據(jù)的多樣性、細化數(shù)據(jù)粒度,并可通過數(shù)據(jù)交換提升自身大數(shù)據(jù)體系的兼容性與

可用性。

第三,內(nèi)外部數(shù)據(jù)交換合規(guī)性。本次外部數(shù)據(jù)平臺搭建的同時,更要及時開

展預(yù)研預(yù)估,做好外部數(shù)據(jù)交換的合規(guī)準(zhǔn)備工作,為“內(nèi)外兼修”的大數(shù)據(jù)平臺

建設(shè)做好準(zhǔn)備。

2.1.2.1全量數(shù)據(jù)深度提取

2.1.2.1.1全量數(shù)據(jù)的內(nèi)容提取

.1.1影像數(shù)據(jù)分類

銀行業(yè)務(wù)過程中產(chǎn)生的影像數(shù)據(jù)分兩類。

一類是針對個人的影像數(shù)據(jù),如身份證、戶口本、機動車行駛證、特殊崗位

證明材料如軍官證、教師證、各類資格從業(yè)證等;一類是針對企業(yè)影像數(shù)據(jù),如

第4頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

企業(yè)營業(yè)執(zhí)照、企業(yè)經(jīng)營許可證、企業(yè)各類注冊資質(zhì)等。

.1.2影像數(shù)據(jù)提取

通過提取對這兩大類圖像中的文本信息,補全現(xiàn)有的個人和企業(yè)信息不全的

部分,如個人客戶信息中個人身份證中缺失的地址信息;企業(yè)客戶信息中缺失的

注冊資本信息、債務(wù)信息、產(chǎn)品注冊信息、經(jīng)營信息等,通過對于圖像檢索、信

息檢測、場景分析和智能控制,實現(xiàn)輔助銀行進行分析、決策、組織與管理的大

規(guī)模需求。

影像中的文本信息提取是指在文本疊加或依存的圖像中,經(jīng)過文本檢測和定

位抽取出文本圖像,再利用文本分割和識別提取文本信息的過程。在以上影像數(shù)

據(jù)處理過程中,將應(yīng)用下面幾種方法實現(xiàn)數(shù)據(jù)提取:

1、基于筆畫特征的文本檢測方法。通過對文本字符的基元一一筆畫建立通用

的數(shù)學(xué)模型來驅(qū)動文本的檢測。該方法通過分析文本字符筆畫在尺度空間中的形

態(tài)特性構(gòu)建筆畫的數(shù)學(xué)模型,并利用高斯差分(DifferenceofGaussian,DoG)濾

波器的極值響應(yīng)來獲取候選筆畫連通分量。同時,二階泰勒公式將用以移除誤檢

測的邊緣響應(yīng),并最終得到候選字符。

2、基于組件樹約束的文本定位方法。通過樹結(jié)構(gòu)中的祖先-子孫約束和兄弟

約束,結(jié)合啟發(fā)式規(guī)則和字符分類器打分策略,篩選出同一幅圖像中不同文本行

在不同尺度下質(zhì)量較好的結(jié)果,并以此作為最終文本定位結(jié)果。

3、基于字符空間布局的文本定位方法。通過一種簡單、高效的方法實現(xiàn)對自

由文本圖像中文本區(qū)域的快速定位,一方面,將多層尺度空間的圖像融合在一層

圖像中統(tǒng)一處理,實現(xiàn)了內(nèi)存空間的高效利用;另一方面,通過設(shè)定并檢驗候選

字符的空間構(gòu)型及其空間布局關(guān)系,快速地定位文本區(qū)域。

4、低質(zhì)量漢字圖像的分塊搜索兩級識別法?;诜謮K搜索的兩級識別方法,

通過模仿低質(zhì)量漢字圖像生成訓(xùn)練集并建立漢字圖像的分塊結(jié)構(gòu),對訓(xùn)練集中各

分塊圖像應(yīng)用主成分分析提取特征并建立索引。待識別圖像利用分塊搜索和投票

的方式從索引中獲取候選漢字集合(一級識別),再根據(jù)投票結(jié)果的顯著性輔以

全局結(jié)構(gòu)特征匹配識別漢字(二級識別)。

第5頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

2.1.2.1.2全量數(shù)據(jù)的標(biāo)簽衍生

對商業(yè)銀行而言,基于客戶特征集合形成的客戶標(biāo)簽有成百上千、甚至成千

上萬個,這些標(biāo)簽在構(gòu)建時的業(yè)務(wù)目的和適用場景各有不同。隨著應(yīng)用標(biāo)簽的場

景越來越豐富,商業(yè)銀行也會逐漸形成一套完整的客戶標(biāo)簽體系。針對銀行的實

際情況而言,基本標(biāo)簽體系已經(jīng)建立起來,比如業(yè)內(nèi)常見的傳統(tǒng)標(biāo)簽體系,根據(jù)

人口統(tǒng)計學(xué)知識定義的客戶基本信息,包括性別、年齡、收入、人生階段、子女

情況、父母情況、婚姻情況、宗教信仰、民族、國籍、籍貫、教育水平等,但是

這些標(biāo)簽遠遠滿足不了銀行業(yè)務(wù)發(fā)展需求,那么就需要我們對客戶標(biāo)簽體系更全

面的建立。

個人客戶標(biāo)簽體系衍生銀行的數(shù)據(jù)不僅包括傳統(tǒng)交易系統(tǒng)的結(jié)構(gòu)化業(yè)務(wù)數(shù)

據(jù),還包括來自銀行自身電子商務(wù)網(wǎng)站、網(wǎng)上銀行、手機銀行和外部社交媒體網(wǎng)

站、即時聊天工具、微博、微信等渠道的半結(jié)構(gòu)化數(shù)據(jù)以及日志等文本信息和來

自客戶服務(wù)渠道的各種語音、圖片、影像等非結(jié)構(gòu)化數(shù)據(jù)。個人客戶標(biāo)簽體系衍

生可對不同渠道、不同口徑、不同來源、不同結(jié)構(gòu)的客戶信息進行統(tǒng)一分類建立。

社會中不同類別的人會以家庭、鄰里、朋友等群體形式生活,社會屬性維度

就是描述社會群體的一些特性,主要包括生活特征、工作特征和社交特征。其中,

生活特征是指居住區(qū)域(如市中心、郊區(qū))、是否購車、是否購房等;工作特征

是指工作區(qū)域、工作性質(zhì)、行業(yè)類別、工作職務(wù)等;社交特征是指交友情況(友

人眾多、宅男等)、社交圈屬性(如高端知識分子、籃球愛好者等)、人群歸屬(如

大學(xué)生群體、戀愛群體等)。

公司客戶標(biāo)簽體系衍生公司客戶與銀行交互過程中的銀行資產(chǎn)、產(chǎn)品持有、

渠道使用、投資偏好等與資金賬務(wù)、交易往來相關(guān)的金融特征信息,這類數(shù)據(jù)可

以來自一線業(yè)務(wù)、匯總信息或挖掘分析等多種渠道。這些特征可分為資產(chǎn)信息特

征、收入貢獻特征、產(chǎn)品偏好特征、消費行為特征、渠道偏好特征和生命周期特

征。其中,資產(chǎn)信息特征包括客戶AUM、各類產(chǎn)品的日均值和時點值;收入貢獻

特征指客戶通過貸款、中間業(yè)務(wù)收入等給銀行帶來的利潤貢獻,可分為高價值客

戶、中高價值客戶、低價值客戶等,可與不同產(chǎn)品進行交叉組合;產(chǎn)品偏好特征

包括產(chǎn)品持有及投資、服務(wù)偏好特性,如定期持有、生活繳費偏好、銀行理財偏

好等;消費行為特征包括消費地理位置、消費時段、品牌偏好、廣告營銷偏好和

第6頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

消費熱點偏好等;渠道偏好特征是指客戶與銀行交互往來的渠道特性,如柜臺偏

好、網(wǎng)銀偏好、手機銀行偏好等;生命周期特征是指客戶與銀行從接觸到銷戶的

不同階段,包括獲取期、提升期、成熟期、衰退期和流失期。

2.1.2.2網(wǎng)絡(luò)爬蟲獲取

在網(wǎng)絡(luò)爬蟲的系統(tǒng)框架中,主過程由控制器,解析器,資源庫三部分組成。

控制器的主要工作是負責(zé)給多線程中的各個爬蟲線程分配工作任務(wù)。解析器的主

要工作是下載網(wǎng)頁,進行頁面的處理,主要是將一些JS腳本標(biāo)簽、CSS代碼內(nèi)

容、空格字符、HTML標(biāo)簽等內(nèi)容處理掉,爬蟲的基本工作是由解析器完成。資源

庫是用來存放下載到的網(wǎng)頁資源,一般都采用大型的數(shù)據(jù)庫存儲,如Oracle數(shù)

據(jù)庫,并對其建立索引。

采用爬蟲技術(shù)解決兩個主要問題:

(1)對抓取目標(biāo)的描述或定義;

(2)對網(wǎng)頁或數(shù)據(jù)的分析與過濾;

2.1.2.2.1抓取目標(biāo)描述

現(xiàn)有聚焦爬蟲對抓取目標(biāo)的描述可分為基于目標(biāo)網(wǎng)頁特征、基于目標(biāo)數(shù)據(jù)模

式和基于領(lǐng)域概念3種。

基于目標(biāo)網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為網(wǎng)站或網(wǎng)頁。根

據(jù)種子樣本獲取方式可分為:

(1)預(yù)先給定的初始抓取種子樣本;

(2)預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本,如Yahoo!分

類結(jié)構(gòu)等;

(3)通過用戶行為確定的抓取目標(biāo)樣例,分為:

a)用戶瀏覽過程中顯示標(biāo)注的抓取樣本;

b)通過用戶日志挖掘得到訪問模式及相關(guān)樣本。

其中,網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征,也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征,等

等。

2.1.2.2.2網(wǎng)頁搜索策略

網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在

很多情況下會導(dǎo)致爬蟲的陷入(trapped)問題,采用的廣度優(yōu)先和最佳優(yōu)先方法。

第7頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

1)廣度優(yōu)先搜索策略

廣度優(yōu)先搜索策略是指在抓取過程中,在完成當(dāng)前層次的搜索后,才進行下

一層次的搜索。該算法的設(shè)計和實現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁,

一般使用廣度優(yōu)先搜索方法。也有很多研究將廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲

中。其基本思想是認為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概

率很大。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用,先用廣度優(yōu)

先策略抓取網(wǎng)頁,再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點在于,隨著抓取

網(wǎng)頁的增多,大量的無關(guān)網(wǎng)頁將被下載并過濾,算法的效率將變低。

2)最佳優(yōu)先搜索策略

最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標(biāo)網(wǎng)頁的相

似度,或與主題的相關(guān)性,并選取評價最好的一個或幾個URL進行抓取。它只訪

問經(jīng)過網(wǎng)頁分析算法預(yù)測為“有用”的網(wǎng)頁。存在的一個問題是,在爬蟲抓取路

徑上的很多相關(guān)網(wǎng)頁可能被忽略,因為最佳優(yōu)先策略是一種局部最優(yōu)搜索算法。

因此需要將最佳優(yōu)先結(jié)合具體的應(yīng)用進行改進,以跳出局部最優(yōu)點。

2.1.2.2.3網(wǎng)絡(luò)爬蟲安全性問題

網(wǎng)絡(luò)爬蟲會占用網(wǎng)絡(luò)帶寬并增加Web服務(wù)器的處理開銷,惡意用戶甚至?xí)?/p>

用爬蟲程序?qū)Ψ?wù)器發(fā)動Dos攻擊。惡意用戶還可能通過網(wǎng)絡(luò)爬蟲抓取各種敏

感資料,主要表現(xiàn)在以下幾個方面:

1)搜索目錄列表:互聯(lián)網(wǎng)中的許多Web服務(wù)器在客戶端請求站點中某個沒

有默認頁面的目錄時,會返回一個目錄列表。該目錄列表通常包括一個描述當(dāng)

前目錄的標(biāo)題,可供用戶點擊的目錄和文件鏈接,及一個腳注。因而通過抓取

目錄列表,惡意用戶往往可獲取大量有用的資料,包括站點的目錄結(jié)構(gòu)、敏感

文件以及Web服務(wù)器配置信息等等。

2)搜索測試頁面、聯(lián)機手冊與樣本程序:大多數(shù)Web服務(wù)器軟件附帶了測

試頁面、聯(lián)機手冊與樣本程序。這些文件往往會泄漏大量的系統(tǒng)信息,成為惡

意用戶剖析Web服務(wù)器的工具,而且這些文件的存在也往往暗示網(wǎng)站的安全管

理有問題,網(wǎng)站中存在潛在的安全漏洞。

3)搜索管理員登錄頁面:許多網(wǎng)絡(luò)產(chǎn)品提供了基于Web的管理接口,允許

管理員在互聯(lián)網(wǎng)中對其進行遠程管理與控制。如果管理員疏于防范,沒有修改

第8頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

網(wǎng)絡(luò)產(chǎn)品默認的管理員名及密碼,一旦其管理員登錄頁面被惡意用戶搜索到,

網(wǎng)絡(luò)安全將面臨極大威脅。

4)搜索互聯(lián)網(wǎng)用戶的姓名、電話、通信地址等個人信息,以便于實施社交

攻擊。

5)搜集群發(fā)垃圾郵件所需的郵件地址。

6)查找一個站點中的各種敏感文件,包括各種程序使用的配置文件、日志

文件、密碼文件、數(shù)據(jù)庫文件等等。

7)搜索Web站點中存在缺陷的程序。

8)獲取互聯(lián)網(wǎng)用戶的信用卡密碼,銀行帳號等機密信息等等。

因此,采取適當(dāng)?shù)拇胧┫拗凭W(wǎng)絡(luò)爬蟲的訪問權(quán)限,對于保持網(wǎng)站的正常運

行、保護用戶的隱私是極其重要的。

2.1.3數(shù)據(jù)篩選

基于以上技術(shù)實現(xiàn)數(shù)據(jù)的匯聚匯總后,需對各類來源的數(shù)據(jù)進行多維分析、

帥選,分別從以下幾個方面實現(xiàn)對外部數(shù)據(jù)的篩選:

>數(shù)據(jù)可信度

>數(shù)據(jù)質(zhì)量

>數(shù)據(jù)結(jié)構(gòu)

>數(shù)據(jù)消費價值

>數(shù)據(jù)來源

>數(shù)據(jù)粒度

從而掃除可信度底、質(zhì)量差、結(jié)構(gòu)混亂、消費價值低的數(shù)據(jù)群,更好的支持

商業(yè)銀行基于上大量數(shù)據(jù)而進行的統(tǒng)計和建模,從而了解客戶的行為習(xí)慣、風(fēng)險

偏好、健康情況、消費能力、渠道喜好、信用狀況及人口統(tǒng)計學(xué)等多方面的信息,

進而為客戶“貼標(biāo)簽”、“畫像”;亦可整合多種信息反饋渠道的數(shù)據(jù),幫助商業(yè)

銀行實時關(guān)注、理解客戶的真正業(yè)務(wù)需求。

有效地將外部數(shù)據(jù)管理系統(tǒng)與移動互聯(lián)網(wǎng)技術(shù)、線上線下一體化服務(wù)體系進

行緊密融合,就可為商業(yè)銀行的客戶提供“千人千面”的個性化服務(wù)。例如,對

于低凈值長尾客戶,可用較低的成本,批量化地通過電子渠道提供隨身的知心服

務(wù),提高產(chǎn)品和服務(wù)的覆蓋率;對于高凈值客戶,提供“客戶經(jīng)理+電子渠道”

第9頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

的隨身貼心服務(wù),提升客戶的業(yè)務(wù)貢獻。

2.1.4數(shù)據(jù)價值開發(fā)

基于外部數(shù)據(jù)平臺的數(shù)據(jù)價值開發(fā)主要從以下幾方面進行:

一,將數(shù)據(jù)與銀行的相關(guān)營銷活動決策相關(guān)聯(lián),發(fā)揮數(shù)據(jù)的潛在價值。

二,數(shù)據(jù)分析應(yīng)用需求激發(fā),即在銀行施行商業(yè)智能化的過程中通過各種營

銷活動加強銀行客戶與決策者進行溝通,通過使決策者關(guān)心客戶反饋行為到關(guān)心

客戶反饋數(shù)據(jù),關(guān)心客戶提出的需求,當(dāng)單一系統(tǒng)的數(shù)據(jù)分析不能滿足決策需求

的時候,大規(guī)模的基于數(shù)據(jù)的分析系統(tǒng)及應(yīng)用需求就順理成章出現(xiàn)。

三、數(shù)據(jù)催生并支撐新的決策機制。因為在傳統(tǒng)的銀行管理模式中,銀行的

中高層管理者、領(lǐng)導(dǎo)者被認為是決策的主體,而隨著社會化媒體的出現(xiàn)以及社交

網(wǎng)絡(luò)的普及,這種傳統(tǒng)的決策機制降低了企業(yè)決策的正確性與合理性。應(yīng)樹立以

客戶為決策主體的觀念,讓客戶參與到產(chǎn)品設(shè)計、甚至營銷決策中,將決策的理

念由狹隘的銀行高層轉(zhuǎn)移到廣泛的客戶群體,通過社會媒體、社交網(wǎng)絡(luò)等營銷平

臺實時、廣泛的收集客戶的意見和建議。

四、銀行大數(shù)據(jù)的價值開發(fā)高度依賴于深度數(shù)據(jù)分析能力。從內(nèi)外部融合的

視角上看來,銀行大數(shù)據(jù)分析包括三個基本維度,即內(nèi)容、關(guān)系和時空。

內(nèi)容維度指的是數(shù)據(jù)本身所承載的信息內(nèi)容。

關(guān)系維度指的是數(shù)據(jù)及其所指代的對象之間的聯(lián)系。

時空維度指的是數(shù)據(jù)生成及傳播的位置以及數(shù)據(jù)隨時間演變的模式。其中銀

行營銷重要活動、營銷理念相關(guān)信息在營銷平臺、渠道的傳播演變模式的跟蹤,

有效地揭示了客戶對營銷理念的認知、態(tài)度和接受過程。

此外,更深入的價值開發(fā)來自于上述三個維度的交叉綜合。例如,內(nèi)容維度

與關(guān)系維度的結(jié)合,使得銀行能夠識別客戶的興趣偏好、社交特質(zhì)、工作性質(zhì)以

及交易表現(xiàn)之間的匹配關(guān)系,也能夠更為準(zhǔn)確地發(fā)現(xiàn)那些分散在不同的客戶手中、

但具有重要潛在影響力的客戶、商機、交易行為等。內(nèi)容維度、關(guān)系維度與時空

維度的結(jié)合,使得銀行能夠更為深入地理解不同的客戶特質(zhì)、交易能力、個人特

性、熱點偏好在整個客戶精準(zhǔn)營銷中的定位,以及這些特性隨時間演變的過程和

趨勢,從而更為有效地利用這些數(shù)據(jù)資源進行價值開發(fā)。

第10頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

2.2應(yīng)用需求分析

衡量一個商業(yè)銀行是否真正應(yīng)用了大數(shù)據(jù)、發(fā)揮了大數(shù)據(jù)的價值,就是要看

其大數(shù)據(jù)系統(tǒng)是否能夠顯著提升數(shù)據(jù)分析和商業(yè)決策的效率,是否能夠提高對客

戶的理解與認知能力,是否能夠低成本、批量地實現(xiàn)較高水準(zhǔn)的個性化客戶服務(wù)。

如果商業(yè)銀行的大數(shù)據(jù)系統(tǒng)未能實現(xiàn)上述效用,那就需要認真審視自身的大數(shù)據(jù)

戰(zhàn)略并加以調(diào)整,銀行各類數(shù)據(jù)應(yīng)用問題主要體現(xiàn)在以下幾方面:

一方面,數(shù)據(jù)應(yīng)用全流程管理不足,數(shù)據(jù)管理良性機制有待完善,主要信息

系統(tǒng)建設(shè)不足或功能欠缺,造成管理應(yīng)用數(shù)據(jù)內(nèi)容不足、失實現(xiàn)象客觀存在。突

出表現(xiàn)在系統(tǒng)應(yīng)用執(zhí)行層面、管理運維、管理應(yīng)用層面尚未形成聯(lián)動運轉(zhuǎn),對基

礎(chǔ)數(shù)據(jù)采集缺乏統(tǒng)一要求,基層人員錄入數(shù)據(jù)不及時、不準(zhǔn)確的現(xiàn)象客觀存在,

系統(tǒng)運維與持續(xù)管理不足,進而形成管理應(yīng)用職能與積極性缺失的現(xiàn)象普遍存在,

從而在源頭上、流程上、應(yīng)用上造成部分數(shù)據(jù)不足、失實、失效的現(xiàn)象。在大多

數(shù)銀行已建設(shè)形成核心系統(tǒng)的基礎(chǔ)上,受核心系統(tǒng)功能不足以及相關(guān)管理系統(tǒng)建

設(shè)不足的影響,難以在會計、交易數(shù)據(jù)之外形成對管理決策所需基礎(chǔ)信息的有益

補充,信息系統(tǒng)在經(jīng)營行為、管理分析領(lǐng)域建設(shè)的缺失,客觀導(dǎo)致數(shù)據(jù)內(nèi)容不全、

不足的現(xiàn)象出現(xiàn)。

另一方面,數(shù)據(jù)整合與協(xié)調(diào)運轉(zhuǎn)成本高、效率低,綜合運用整體信息的風(fēng)險

管理、信息管理職責(zé)所覆蓋的領(lǐng)域存在不足,協(xié)調(diào)力度不足,具備解讀數(shù)據(jù)能力

與經(jīng)營管理決策能力的復(fù)合性人員不足,缺乏為高級管理層提供及時、便捷、有

效的決策數(shù)據(jù)服務(wù)的職能層級,難以對海量數(shù)據(jù)實現(xiàn)有效篩選和整合,進而影響

了為銀行高管層提供決策所需信息的能力。

因此,構(gòu)建科學(xué)管理下的數(shù)據(jù)應(yīng)用決策體系客觀需要在理解數(shù)據(jù)、規(guī)范數(shù)據(jù)、

分析數(shù)據(jù)、組織數(shù)據(jù)、應(yīng)用數(shù)據(jù)“五個層面”整體完善數(shù)據(jù)管理機制,從而有效

實現(xiàn)以科學(xué)運用數(shù)據(jù)為基礎(chǔ)的精細化管理決策,針對執(zhí)行層面、管理層面、決策

層面,分級建立各類業(yè)務(wù)數(shù)據(jù)管理、應(yīng)用、分析框架,有效地將大數(shù)據(jù)應(yīng)用、分

析系統(tǒng)與移動互聯(lián)網(wǎng)技術(shù)、線上線下一體化服務(wù)體系進行緊密融合,就可為商業(yè)

銀行的客戶提供“千人千面”的個性化服務(wù)。例如,對于低凈值長尾客戶,可用

較低的成本,批量化地通過電子渠道提供隨身的知心服務(wù),提高產(chǎn)品和服務(wù)的覆

蓋率;對于高凈值客戶,提供“客戶經(jīng)理+電子渠道”的隨身貼心服務(wù),提升客

第11頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

戶的業(yè)務(wù)貢獻。

從一定意義上說來,銀行基于大數(shù)據(jù)的應(yīng)用、分析及經(jīng)營過程,是一個“信

息去中心化”的過程。銀行自身的產(chǎn)品創(chuàng)造和營銷管理,從以往以經(jīng)營和運作為

核心的中心化模式,轉(zhuǎn)化為以分散創(chuàng)造、自由傳播、靈活匯聚為特征的眾創(chuàng)模式。

另一方面,內(nèi)外部數(shù)據(jù)融合的過程,是一個“信息去邊界化”的過程。銀行部門

之間的信息交換、銀行與客戶之間的信息交換以及銀行自身與金融市場環(huán)境的信

息,以日益多樣化、實時化的方式實現(xiàn)。

2.3設(shè)計需求分析

基于以上的各類數(shù)據(jù)獲取、篩選、匯聚及分析應(yīng)用,需要以下三方面的數(shù)據(jù)

技術(shù)予以支撐。

第一類是全局視圖技術(shù)。對于銀行管理者而言,對大數(shù)據(jù)內(nèi)容全局狀況的把

握,往往是開發(fā)大數(shù)據(jù)價值的一個基本需求。然而大數(shù)據(jù)的體量和結(jié)構(gòu)復(fù)雜性往

往遠遠超出人類認知的信息承載能力。因此,有效的技術(shù)應(yīng)當(dāng)能夠在大量數(shù)據(jù)中

提取出一個足夠小的集合以呈現(xiàn)給管理者,并使得這個小集合能夠充分地代表數(shù)

據(jù)全局。

第二類支撐技術(shù)是關(guān)聯(lián)發(fā)現(xiàn)技術(shù),其目標(biāo)在于敏銳識別數(shù)據(jù)間的聯(lián)系。長遠

來看,在未來銀行內(nèi)外部數(shù)據(jù)融合及共享的情況下,大量的數(shù)據(jù)屬性之間所構(gòu)成

的復(fù)雜潛在關(guān)聯(lián)網(wǎng)絡(luò),就需要強有力的關(guān)聯(lián)發(fā)現(xiàn)技術(shù)來加以處理。

第三類支撐技術(shù)是動態(tài)跟蹤技術(shù),即實時化的流數(shù)據(jù)分析處理、快速增量數(shù)

據(jù)分析。

3項目整體建設(shè)方案

3.1系統(tǒng)總體架構(gòu)

3.1.1設(shè)計原則

外部數(shù)據(jù)平臺建設(shè)應(yīng)該從規(guī)劃的全局出發(fā)、從長遠的角度考慮,遵循統(tǒng)一

規(guī)劃。特別是系統(tǒng)建設(shè)結(jié)構(gòu)、數(shù)據(jù)模型結(jié)構(gòu)、數(shù)據(jù)存儲結(jié)構(gòu)以及系統(tǒng)擴展規(guī)劃

等內(nèi)容。設(shè)計將遵循以下幾項基本原則:

,易用性原則

結(jié)合銀行的實際工作習(xí)慣和流程,平臺的設(shè)計結(jié)構(gòu)合理、功能易用、符合

第12頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

實際業(yè)務(wù)的需要。系統(tǒng)的設(shè)計在運行環(huán)境、使用操作等方面以易用為主,以方

便用戶使用和維護為出發(fā)點,如類SQL客戶端等。

/實用性原則

滿足系統(tǒng)需求的近期目標(biāo),在保證功能實現(xiàn)和系統(tǒng)管理的前提下,設(shè)計滿

足功能需要、展現(xiàn)需要、管理需要以及未來擴展需要,如新增表或系統(tǒng)到大數(shù)

據(jù)平臺等。

/高可用性原則

數(shù)據(jù)是整個平臺的最終保障,不但要保證平臺能夠7X24運行,而且必須有

高可用性,以保證應(yīng)用系統(tǒng)對數(shù)據(jù)的隨時存取。

/靈活擴展性原則

結(jié)合銀行的數(shù)據(jù)量增長情況,以及為滿足大數(shù)據(jù)平臺的建設(shè)的技術(shù)要求,

必須具有強大的擴展性來滿足這種高速發(fā)展的要求,以便將來的平滑升級,如

全量加載與增量加載的轉(zhuǎn)換等。

/可靠性原則

?對設(shè)計方案采用的技術(shù)和產(chǎn)品要進行嚴格的可行性論證,把風(fēng)險降

低到最低限度;

?設(shè)計的方案要系統(tǒng)、科學(xué)、正確、嚴謹且現(xiàn)實可行;

?采用的先進技術(shù)應(yīng)是成熟的經(jīng)過實踐證明是成功的技術(shù);

/可配置性原則

大數(shù)據(jù)平臺的核心是數(shù)據(jù)存儲和處理,所以數(shù)據(jù)分類和管理功能十分重

要。為了提高系統(tǒng)管理的效率、管理的安全性,必須有便于使用的配置機制,

如可視化的ETL管理監(jiān)控平臺等。

/安全性原則

平臺建設(shè)充分考慮整個系統(tǒng)運行的安全策略和機制,可以根據(jù)不同的功能

要求和管理要求,設(shè)置不同的安全措施。設(shè)計中,硬件級別上主要考慮信息傳

輸?shù)陌踩煽啃院筒《痉雷o;在操作系統(tǒng)級別上考慮采用具有較高安全級別的

操作系統(tǒng),對操作系統(tǒng)的超級用戶權(quán)限及其口令進行管理,對系統(tǒng)運行情況有

詳細的記錄,采取資料備份、存取權(quán)限控制、資料冗余等措施;應(yīng)用系統(tǒng)級別

上考慮采用嚴格的安全控制策略來保證客戶端的安全性。

第13頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

3.1.2硬件方案

本系統(tǒng)采用集中部署模式,數(shù)據(jù)庫服務(wù)器初步考慮使用八臺3560服務(wù)器,

運行大數(shù)據(jù)平臺(HDFS、HBASE、HIVE),其中兩臺為管理節(jié)點機,提供高可用服

務(wù)。考慮到一期應(yīng)用需持續(xù)建設(shè),沒有嚴格的7*24應(yīng)用要求,應(yīng)用服務(wù)器和報表

服務(wù)器互為備份,報表服務(wù)器和Web服務(wù)器均僅部署一臺,不設(shè)置熱備。服務(wù)器

統(tǒng)一部署在總行,用戶通過瀏覽器訪問系統(tǒng)。系統(tǒng)的備份管理采取多級備份機

制。大數(shù)據(jù)技術(shù)提供了三份數(shù)據(jù)副本的備份,使系統(tǒng)能提供持續(xù)的服務(wù)。

硬件架構(gòu)如下圖:

Hadoop

本期工程設(shè)備包括應(yīng)用服務(wù)器、ETL&Hadoop服務(wù)器、MPP數(shù)據(jù)庫服務(wù)器,建

議配置如下:

序號設(shè)備名稱配置數(shù)量

6臺3650,2顆E5-2650v3,

Hadoop服務(wù)器-計算節(jié)256G內(nèi)存,4塊2TBNLSAS,

16臺

點M52101G緩存,集成4口千兆

網(wǎng)卡,雙電。

2臺3650,2顆E5-2650v3,

128GB內(nèi)存,2塊

Hadoop服務(wù)器-管理節(jié)

2ITSAS10K,M52101G緩2臺

存,集成4口千兆網(wǎng)卡,雙

電。

3交換機1臺千兆24口交換機1臺

第14頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

3.1.3邏輯架構(gòu)

經(jīng)營個金客電子銀客戶統(tǒng)一報蹣

統(tǒng)分析戶集市行集市營稍表平臺

調(diào)

度大數(shù)據(jù)平臺

數(shù)

數(shù)

據(jù)

公共數(shù)據(jù)模型層I半結(jié)構(gòu)化數(shù)據(jù)區(qū)據(jù)

I非結(jié)構(gòu)化數(shù)據(jù)區(qū)儲

大源數(shù)據(jù)歷史層I。。。

數(shù)

據(jù)

結(jié)構(gòu)化額據(jù)接入J非結(jié)構(gòu)化數(shù)據(jù)接入歌

平文件球換區(qū)

|

結(jié)構(gòu)化數(shù)據(jù)I半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)

1.機構(gòu)化與非機構(gòu)化數(shù)據(jù):外部數(shù)據(jù)平臺分別以批量和實時的方式獲取數(shù)

據(jù)。

2.文件交換區(qū):文件的交換中樞,含源系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化、非結(jié)構(gòu)

化數(shù)據(jù)。

3.公共數(shù)據(jù)模型層:存放基礎(chǔ)數(shù)據(jù)模型層數(shù)據(jù),數(shù)據(jù)按各業(yè)務(wù)系統(tǒng)進行模型

劃分,做為數(shù)據(jù)服務(wù)接口的主要數(shù)據(jù)來源。

4.源數(shù)據(jù)歷史層:源數(shù)據(jù)緩存區(qū)數(shù)據(jù)接入。

5.各應(yīng)用系統(tǒng):建設(shè)各種數(shù)據(jù)分析系統(tǒng),包括全行統(tǒng)一報表平臺、經(jīng)營分析

系統(tǒng)、客戶營銷系統(tǒng)、個金客戶集市和電子銀行集市等。

6.統(tǒng)一調(diào)度平臺:外部數(shù)據(jù)平臺ETL過程的統(tǒng)一作業(yè)調(diào)度監(jiān)控,包括:調(diào)

度、監(jiān)控、日志、處理四部份內(nèi)容。

7.外部數(shù)據(jù)管理平臺:對外部數(shù)據(jù)平臺的各軟件模塊進行統(tǒng)一監(jiān)控管理,包

括軟件狀態(tài)、使用資源情況、節(jié)點運行情況,為軟件運維提供統(tǒng)一的監(jiān)控

和維護功能。

3.1.4技術(shù)架構(gòu)

外部數(shù)據(jù)平臺的技術(shù)架構(gòu)如下圖所示:

第15頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

WebSerra/FTP/KjrfUflvIQ/KV/-

Z

O

O

K

ft

fxt

-YARN

HDFS

FTP/Socket/fhnne

??

施》■單aI

說明:?虢顰T?端整囂O

整個平臺技術(shù)關(guān)鍵的四個部分:

■分布式文件存儲/批量計算系統(tǒng):HDFS的核心架構(gòu)目標(biāo)是錯誤檢測和快

速、自動的恢復(fù),實現(xiàn)數(shù)據(jù)訪問的高吞吐量,對文件采用的訪問模型

是:write-one-read-manyo

■大規(guī)模并行計算/MPP數(shù)據(jù)庫系統(tǒng):HBASE是一個高可靠性、高性能、

面向列、可伸縮的分布式存儲系統(tǒng),利用HBase搭建起大規(guī)模結(jié)構(gòu)化

存儲集群,Pig和Hive還為HBase提供了高層語言支持,使得在

HBase上進行數(shù)據(jù)統(tǒng)計處理變的非常簡單。

■實時流式處理系統(tǒng):Storm保證每個消息都會得到處理,并且每秒可

以處理數(shù)以百萬計的消息,可以使用任意編程語言來做開發(fā)。

■為分布式提供協(xié)調(diào)服務(wù):Zookeeper提供一致性服務(wù)的軟件,提供的功

能包括:配置維護、域名服務(wù)、分布式同步、組服務(wù)等。

3.2數(shù)據(jù)匯聚

3.2.1批量數(shù)據(jù)匯聚

ETL工具的核心功能緊緊圍繞構(gòu)建大數(shù)據(jù)系統(tǒng)展開,產(chǎn)品在架構(gòu)設(shè)計理念

上借鑒國內(nèi)外同類主流產(chǎn)品的技術(shù)理念,圍繞分布式計算思想展開系統(tǒng)設(shè)計。

在架構(gòu)可擴展性方面,在分布式計算的理念下將計算與平臺之間是關(guān)系進

行了弱化,從而使得系統(tǒng)具備高度擴展性,具備動態(tài)調(diào)度系統(tǒng)計算容量的能

力,系統(tǒng)支持在保障系統(tǒng)計算性能的前題條件下通過橫向水平擴展方式來提升

第16頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

能力,同時產(chǎn)品對目前主流的第三方ETL產(chǎn)品也提供了多種多樣的手段來兼

容。

在系統(tǒng)可伸縮性方面產(chǎn)品對目前主流的硬件資源平臺保持兼容,在系統(tǒng)設(shè)

計實現(xiàn)過程中充分考慮到平臺移植方面的訴求而選擇具備多種平臺無關(guān)性的技

術(shù)來實現(xiàn)以保障系統(tǒng)具備高可伸縮性;在易用性方面產(chǎn)品以統(tǒng)一任務(wù)調(diào)度為樞

紐,配合提供完善的圖形化操作管理界面提供良好的用戶體驗降低產(chǎn)品使用難

度。

在系統(tǒng)穩(wěn)定性方面產(chǎn)品的研發(fā)過程嚴格遵循軟件工程思想指導(dǎo)進行,在研

發(fā)過程中采用測試同步跟進策略,對產(chǎn)品組成功能點進行了全覆蓋、高密度、

多輪次的質(zhì)量測試同時,還對產(chǎn)品在功能集成、系統(tǒng)集成等多個環(huán)節(jié)展開了專

業(yè)的質(zhì)量保障手段以提升產(chǎn)品質(zhì)量以保障系統(tǒng)穩(wěn)定性。

3.2.1.1數(shù)據(jù)采集

數(shù)據(jù)采集在整個ETL過程中處于第一步位置,采集具備按要求從各個數(shù)據(jù)

源中采集數(shù)據(jù)供后續(xù)數(shù)據(jù)處理流程使用的能力,在數(shù)據(jù)采集過程同步需要對采

集執(zhí)行過程的關(guān)鍵環(huán)節(jié)信息以日志文件的形式記錄相關(guān)操作過程,為后續(xù)數(shù)據(jù)

稽核與流程排查提供基礎(chǔ)輸入數(shù)據(jù)。

ETL產(chǎn)品中數(shù)據(jù)抽取功能具備從不同數(shù)據(jù)源(DB2、ORACLE.DB2、

Hadoop、MPP等)中進行指定規(guī)則的數(shù)據(jù)提取作業(yè),抽取后的數(shù)據(jù)存儲支持落

地與不落地二大類進行,抽取后的數(shù)據(jù)可以為數(shù)據(jù)轉(zhuǎn)換環(huán)節(jié)進行處理提供輸

入,也可以直接進行處理或者加載。從抽取支持的方式上來看,主要包括全量

抽取和增量抽取兩種方式,其中全量抽取可將所有歷史數(shù)據(jù)一次性抽取完成;

單次抽取根據(jù)規(guī)則要求進行抽取。

數(shù)據(jù)采集采用多樣性的接口方式,除了支持傳統(tǒng)的JDBC/ODBC接口、FTP

文件接口,還支持目前主流的流數(shù)據(jù)采集的Socket接口及Webservice接口,

同時擴展支持了Hadoop生態(tài)圈的Flume日志系統(tǒng)采集接口等,提供完善的圖形

化可拖拽的操作管理界面提供良好的用戶體驗降低產(chǎn)品使用難度,可以根據(jù)實

際業(yè)務(wù)需求選擇相應(yīng)的配置也可以統(tǒng)一使用。

?從抽取支持的實時性來看,支持批量數(shù)據(jù)抽取和實時(流式)數(shù)據(jù)抽

??;

第17頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

?從抽取方式來看,包括全量抽取和增量抽取兩種方式,其中全量抽取

可將所有歷史數(shù)據(jù)一次性抽取完成;增量抽取根據(jù)規(guī)則要求進行抽

??;

?從數(shù)據(jù)抽取觸發(fā)模式上看,支持自動觸發(fā)與手工執(zhí)行的二大類型;

?在抽取數(shù)據(jù)源類別上支持RDBMS、MPP、HADOOP等多種類型。

數(shù)據(jù)采集功能通過在流程設(shè)計中選擇抽取組件實現(xiàn)從源系統(tǒng)采集數(shù)據(jù),支

持Hdfs、Hbase、Excel、Xml、Teradata、Greenplum、MySql等方式抽取,具

體如所示:

圖:數(shù)據(jù)抽取

數(shù)據(jù)抽取在不同方式情況下,數(shù)據(jù)抽取過程的工作原理基本相同,僅在處

理實現(xiàn)層面針對不同數(shù)據(jù)源可能會進行部分個性化處理,總體數(shù)據(jù)抽取的工作

原理如下:

1.默認情況下提供基礎(chǔ)通用的抽取功能,支持從不同數(shù)據(jù)源中抽取數(shù)據(jù),

抽取到的數(shù)據(jù)支持生成數(shù)據(jù)文件或流向管道,為后續(xù)數(shù)據(jù)處理提供輸入

數(shù)據(jù)。

2.選擇抽取方式進行配置,假設(shè)為批量抽取則需要指明相應(yīng)數(shù)據(jù)抽取數(shù)據(jù)

源描述信息、,如果設(shè)置為增量抽取則需要提供抽取數(shù)據(jù)特征規(guī)則數(shù)據(jù),

數(shù)據(jù)抽取開始前將獲取到相應(yīng)的配置規(guī)則再結(jié)合不同數(shù)據(jù)源特征開啟相

第18頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

應(yīng)的數(shù)據(jù)抽取作業(yè)。

3.數(shù)據(jù)抽取處理結(jié)束或失敗時,都需要向在ETL系統(tǒng)相應(yīng)的數(shù)據(jù)庫日志表

中記錄操作日志,為后續(xù)數(shù)據(jù)稽核與問題排查提供詳細信息。

4.在抽取實現(xiàn)過程中支持提供SQL、HQL、SHELL等不同類別的行為定義腳

本,數(shù)據(jù)抽取執(zhí)行組件將根據(jù)定義行為腳本類型調(diào)起相應(yīng)的腳本執(zhí)行來

獲取到數(shù)據(jù)。

提供流程化的圖形界面配置方式實現(xiàn)批量數(shù)據(jù)抽取的配置:

開始批量掃描批量采集結(jié)束

首先需要配置批量掃描單元:

基礎(chǔ)愎性|‘掃倚目錄:Elnf5m二二(+)畝王:目錄中通聚用#用口費出現(xiàn)在最H目錄里

T件掃廟

'規(guī)則上里:一般規(guī)則“文件占規(guī)則:gprsfdjSOmJJH.txt

下推優(yōu)化

'掃施±22:同的倚據(jù)與對6腹:FTP.106

掃質(zhì)重試次教:000掃椅重試間隔盯間:巳0國秒

重武完處理萬苴:。執(zhí)行工叼:,發(fā)送吉若泄—存*忽略交文件:皇。否

'是百育收驗文件:育。?有

然后配置批量采集單元:

g喳__________干.F三庠一F1?€

'為理理=理.不代理

丁*1,

”半耳白世建而:住出

'工地11界/h—nejeU"doloLocal

侔:=。:否

運用大規(guī)模并行計算特點來達到批量數(shù)據(jù)抽取目標(biāo),主要應(yīng)對數(shù)據(jù)抽取數(shù)

第19頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

據(jù)源以較大文件形式對外提供數(shù)據(jù)時可采用此種采集模式,批量數(shù)據(jù)采抽取具

備如下功能與能力:

■多協(xié)議數(shù)據(jù)抽取

提供了文件和數(shù)據(jù)庫等多種數(shù)據(jù)抽取方式包括支持:高性能關(guān)系型數(shù)據(jù)倉

庫、MPP分布式數(shù)據(jù)倉庫、Hadoop等,接口協(xié)議可以根據(jù)需要隨時添加。

■多格式數(shù)據(jù)解析

多種文件格式抽?。–VS、XML、Excel.ASN.k自定義),支持不同格式、

參數(shù)、編碼、分隔符、Tag的異構(gòu)文件解析。提供擴展接口,方便支持其他格

式。

■高效率與控制

多個抽取任務(wù)發(fā)布到集群中并行處理,內(nèi)部運算使用二進制存儲,針對大批量

零散文件優(yōu)化??煽刂撇l(fā)數(shù)和任務(wù)優(yōu)先級。

ETL產(chǎn)品對數(shù)據(jù)抽取提供了全方面支持,在抽取觸發(fā)模式上支持自動觸發(fā)與

手工執(zhí)行的二大類型;在數(shù)據(jù)抽取形式上支持全量抽取與增量數(shù)據(jù)抽取二大

類;在抽取數(shù)據(jù)源類別上支持RDBMS、MPP、HADOOP等多種類型。具體支持功能

的如下表所示:

序號功能功能描述

1支持手工和自動手工方式通過人為方式啟動任務(wù),自動方式基于

兩種抽取方式調(diào)度程序,定期定時執(zhí)行抽取任務(wù)

2支持多種抽取模具備全量和增量數(shù)據(jù)抽??;允許靈活定義多種抽

式與策略定義取策略;允許對抽取的字段進行動態(tài)修改;支持

在抽取過程中設(shè)置斷點,對抽取行為進行跟蹤與

監(jiān)控

3支持對數(shù)據(jù)壓縮能夠?qū)?shù)據(jù)壓縮包文件進行抽取,支持對數(shù)據(jù)壓

包進行解壓縮包的解壓處理

4具備靈活的數(shù)據(jù)支持對數(shù)據(jù)源的統(tǒng)一管理,對可支持的各種不同

源定義管理能力類型的數(shù)據(jù)源,允許以統(tǒng)一方式進行配置并獲取

訪問

5支持異構(gòu)數(shù)據(jù)源支持異構(gòu)數(shù)據(jù)源系統(tǒng)的數(shù)據(jù)抽取、支持多種數(shù)據(jù)

第20頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

進行數(shù)據(jù)抽取抽取接口,現(xiàn)階段主要支持的數(shù)據(jù)源包括:各種

主流的關(guān)系型數(shù)據(jù)庫如Teradata、分布式數(shù)據(jù)

庫、文本文件、任意格式XML文件、HDFS文件等

6支持多種數(shù)據(jù)庫支持使用包括專用數(shù)據(jù)庫驅(qū)動接口、JDBC、ODBC

連接方式接口等數(shù)據(jù)庫連接方式

7支持基于日志的具備對日志進行增量數(shù)據(jù)捕獲抽取能力,能夠在

增量數(shù)據(jù)捕獲能變化數(shù)據(jù)捕捉和數(shù)據(jù)轉(zhuǎn)換過程進行無縫連接且提

力(CDC)供圖形化界面設(shè)計和監(jiān)控變化數(shù)據(jù)的過程

8提供豐富的數(shù)據(jù)提供豐富的圖形化界面設(shè)計和監(jiān)控數(shù)據(jù)抽取過程

抽取作業(yè)執(zhí)行狀執(zhí)行狀態(tài)

態(tài)監(jiān)控管理能力

9具備數(shù)據(jù)抽取容提供對錯誤數(shù)據(jù)的進行檢測和處理能力,如進行

錯處理機制記錄的過濾,能將發(fā)生錯誤的數(shù)據(jù)記錄到響應(yīng)的

錯誤表中。例如對文件的輸入,可以過濾不符合

規(guī)范的數(shù)據(jù)并且捕獲這些數(shù)據(jù)

10數(shù)據(jù)抽取過程日支持在數(shù)據(jù)抽取過程中對數(shù)據(jù)記錄條數(shù)、開始時

志記錄間、完成時間,錯誤信息等信息進行記錄保存

3.2.1.2數(shù)據(jù)轉(zhuǎn)換

對接單個或者多個數(shù)據(jù)結(jié)構(gòu)相同的接口文件進行轉(zhuǎn)換,在數(shù)據(jù)不落地的情

況下,可以直接從管道中讀取接口文件的數(shù)據(jù)內(nèi)容進行轉(zhuǎn)換。轉(zhuǎn)換處理完成之

后,既可以以文件的方式存儲,也可以直接寫入管道中。具體的轉(zhuǎn)換內(nèi)容有:

1、字段校驗的處理方法:字段空值校驗,字段長度校驗,字段類型校驗,

字段取值范圍校驗,字段間邏輯校驗,主子表的關(guān)系校驗。

2、字段值轉(zhuǎn)換處理方法:字段隱私化處理,數(shù)字類型字段的加減乘除運

算,字段內(nèi)容替換,在字段值前統(tǒng)一加上另外字段的值或者加上指定的值,一

個字段按字段長度拆分成2個字段,將日期字段的內(nèi)容統(tǒng)一轉(zhuǎn)換為單月的XXX

號。

3、文件整體內(nèi)容的轉(zhuǎn)換:字符集轉(zhuǎn)換(如文件為UTF-8的字符集轉(zhuǎn)換為

第21頁共87頁

銀行外部數(shù)據(jù)管理平臺建設(shè)方案

GBK然后入到GBK庫中),文件排序(支持單個或多個字段排序,支持正序和反

序),文件剔重(記錄級剔重),文件內(nèi)容過濾(如去掉日期字段大于20140425

的內(nèi)容),文件匯總(按文件中的某個字段對字段的所有值做sum運算),文件

join(2個結(jié)構(gòu)不同的文件按某個字段進行join操作,得出新的文件)。

,新塔計算規(guī)則G

選擇計算類型:字段計算▲

*數(shù)據(jù)源:bidb*表元數(shù)據(jù):gprs_cdr_qiuyc_2014052V

*文件元:qiuyc_gprsK題出萬式:文本文件V

墟力文件名規(guī)則:△

*特換文件存放路徑:三

字段編碼字段名稱字段類型轉(zhuǎn)換規(guī)則轉(zhuǎn)換叁數(shù)

0901msisdnvarchar空值校蛉日

0902dat_rcd_dtdate轉(zhuǎn)換當(dāng)月日期已

TTX7、

0903vst_rgn_cdvarchar截取字符Tn?:0結(jié)天:6—

芬904roam_typ_cdvarchar隱私化二Jcom.ailk.etl.MaskClass-mask

芬905apnnivarchar無』

芬906call_bgn_tmvarchar無電

0907

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論