政務數(shù)據(jù)平臺 第6部分:面向全網(wǎng)搜索應用的數(shù)據(jù)處理規(guī)范_第1頁
政務數(shù)據(jù)平臺 第6部分:面向全網(wǎng)搜索應用的數(shù)據(jù)處理規(guī)范_第2頁
政務數(shù)據(jù)平臺 第6部分:面向全網(wǎng)搜索應用的數(shù)據(jù)處理規(guī)范_第3頁
政務數(shù)據(jù)平臺 第6部分:面向全網(wǎng)搜索應用的數(shù)據(jù)處理規(guī)范_第4頁
政務數(shù)據(jù)平臺 第6部分:面向全網(wǎng)搜索應用的數(shù)據(jù)處理規(guī)范_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

ICS01.040.03

CCSA12

DB52

貴州省地方標準

DB52/T1541.6—2021

政務數(shù)據(jù)平臺第6部分:面向全網(wǎng)搜索

應用的數(shù)據(jù)處理規(guī)范

Governmentdataplatform—Part6:Datapreprocessingspecificationsfor

searchingapplicationbasedontheplatform

2021-05-17發(fā)布2021-09-01實施

貴州省市場監(jiān)督管理局發(fā)布

DB52/T1541.6—2021

政務數(shù)據(jù)平臺第6部分:面向全網(wǎng)搜索應用的數(shù)據(jù)處理規(guī)范

1范圍

本文件規(guī)定了面向政務數(shù)據(jù)平臺全網(wǎng)搜索應用的數(shù)據(jù)處理的總體框架、數(shù)據(jù)接入、數(shù)據(jù)處理、搜索

應用和數(shù)據(jù)安全相關要求。

本文件適用于政務數(shù)據(jù)平臺全網(wǎng)搜索應用的數(shù)據(jù)處理活動。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T2260中華人民共和國行政區(qū)劃代碼

GB/T2261.1個人基本信息分類與代碼第1部分:人的性別代碼

GB/T7408數(shù)據(jù)元和交換格式信息交換日期和時間表示法

GB11643公民身份號碼

GB32100法人和其他組織統(tǒng)一社會信用代碼編碼規(guī)則

GB/T37973-2019信息安全技術大數(shù)據(jù)安全管理指南

DB52/T1540.2政務數(shù)據(jù)第2部分:元數(shù)據(jù)管理規(guī)范

DB52/T1541.3政務數(shù)據(jù)平臺第3部分:數(shù)據(jù)存儲規(guī)范

3術語和定義

下列術語和定義適用于本文件。

3.1

政務數(shù)據(jù)平臺governmentdataplatform

依托政務云計算平臺搭建,承載政務數(shù)據(jù)并支撐數(shù)據(jù)統(tǒng)籌存儲、統(tǒng)籌治理、統(tǒng)籌應用和統(tǒng)籌安全的

基礎信息技術平臺。

[來源:DB52/T1541.3-2020,3.1]

3.2

全網(wǎng)搜索datasearchingapplicationsbasedongovernmentdataplatform

基于政務數(shù)據(jù)平臺圍繞特定應用場景進行數(shù)據(jù)處理,通過搜索引擎和機器學習技術實現(xiàn)數(shù)據(jù)的組織

呈現(xiàn)、融合重構(gòu)、關聯(lián)分析和衍生應用。

1

DB52/T1541.6—2021

3.3

數(shù)據(jù)處理datapreprocessing

對擬進入搜索數(shù)據(jù)庫的數(shù)據(jù)進行前期處理加工以達到特定的規(guī)范性要求,支撐后續(xù)搜索應用的實

現(xiàn)。

3.4

數(shù)據(jù)元dataelement

用一組屬性描述其定義、標識、表示和允許值的數(shù)據(jù)單元。數(shù)據(jù)元由三部分組成:對象、特性、表

示。

[來源:GB/T18391.1-2009,3.3.8]

3.5

元數(shù)據(jù)metadata

關于數(shù)據(jù)或數(shù)據(jù)元素的數(shù)據(jù)(可能包括其數(shù)據(jù)描述),以及關于數(shù)據(jù)擁有權、存取路徑、訪問權和

數(shù)據(jù)易變性的數(shù)據(jù)。

[來源:GB/T35295-2017,2.2.7]

3.6

統(tǒng)計指標statisticalindicators

說明總體數(shù)量特征的概念及其數(shù)值的綜合。

3.7

基礎數(shù)據(jù)庫basicinformationdatabase

國家信息化和電子政務建設基礎數(shù)據(jù)資源庫,包括人口基礎數(shù)據(jù)庫、法人數(shù)據(jù)庫、宏觀經(jīng)濟數(shù)據(jù)庫、

自然資源與空間地理數(shù)據(jù)庫、電子證照庫等。

3.8

主題數(shù)據(jù)庫thematicinformationdatabase

針對特定應用主題將存在內(nèi)在邏輯關聯(lián)關系的各類數(shù)據(jù)有序匯聚形成的指定數(shù)據(jù)庫。

3.9

搜索數(shù)據(jù)庫searchingdatadatabase

基于政務數(shù)據(jù)平臺數(shù)據(jù),結(jié)合特定搜索應用業(yè)務需求進行管理規(guī)劃并有序存放經(jīng)數(shù)據(jù)前置處理后的

有效數(shù)據(jù)的專題數(shù)據(jù)庫。

2

DB52/T1541.6—2021

3.10

結(jié)構(gòu)化數(shù)據(jù)structureddata

一種數(shù)據(jù)表示形式,按此種形式,由數(shù)據(jù)元素匯集而成的每個記錄的結(jié)構(gòu)都是一致的并且可以使用

關系模型予以有效描述。

[來源:GB/T35295-2017,2.2.13]

3.11

非結(jié)構(gòu)化數(shù)據(jù)unstructureddata

不具有預定模型或未以預定方式組織的數(shù)據(jù)。

[來源:GB/T35295-2017,2.1.25]

3.12

半結(jié)構(gòu)化數(shù)據(jù)Semistructureddata

具有結(jié)構(gòu)性,但結(jié)構(gòu)變化大,且難以用結(jié)構(gòu)化數(shù)據(jù)的處理方法將其放進二維表的數(shù)據(jù)。

示例:XML文檔內(nèi)容,每項都被一對標記封起來,如<title></title>,表面上看是結(jié)構(gòu)化數(shù)據(jù),但<title></title>

之間的數(shù)據(jù)卻是千變?nèi)f化,這是典型的半結(jié)構(gòu)化數(shù)據(jù)。

[來源:DA/T82-2019,2.8]

3.13

數(shù)據(jù)類型datatype

規(guī)定數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)對象的經(jīng)定義的集合和一組許可的運算,在這些運算中任何一個執(zhí)行時,其中

數(shù)據(jù)對象都當作運算數(shù)。

示例:整數(shù)型的結(jié)構(gòu)非常簡單,整數(shù)型的值是在某一規(guī)定范圍內(nèi)的整數(shù)的一個成員的表示,許可的運算包括對這些

整數(shù)的常見算術運算。

[來源:GB/T5271.17-2010,17.5.8]

3.14

全量更新fullupdate

使用新的數(shù)據(jù)對歷史數(shù)據(jù)進行完全覆蓋。

[來源:DB52/T1541.2—2020,3.14]

3.15

增量更新incrementalupdate

將兩次更新間隔發(fā)生變更的數(shù)據(jù)同步到存儲區(qū)域。

[來源:DB52/T1541.2—2020,3.15]

3

DB52/T1541.6—2021

3.16

數(shù)據(jù)脫敏datamask

從原始環(huán)境向目標環(huán)境進行敏感數(shù)據(jù)交換的過程中,通過一定方法消除原始環(huán)境數(shù)據(jù)中的敏感信

息,并保留目標環(huán)境業(yè)務所需的數(shù)據(jù)特征或內(nèi)容的數(shù)據(jù)處理過程。

[來源:DB52/T1126—2016,2.1]

3.17

數(shù)據(jù)加密dataencryption

對數(shù)據(jù)進行密碼變換以產(chǎn)生密文的過程。一般包含一個變換集合,該變換使用一套算法和一套輸入

參量。輸入?yún)⒘客ǔ1环Q為密鑰。

[來源:GB/T25069—2010,2.2.2.60]

3.18

數(shù)據(jù)完整性dataintegrity

數(shù)據(jù)沒有遭受以未授權方式所作的更改或破壞的特性。

[來源:GB/T25069—2010,2.1.36]

3.19

數(shù)據(jù)模型datamodel

按照信息系統(tǒng)中的形式描述和所應用的數(shù)據(jù)庫管理系統(tǒng)的要求構(gòu)造的數(shù)據(jù)庫中數(shù)據(jù)的一種原型。

[來源:GB/T5271.17-2010,17.1.7]

3.20

主鍵primarykey

一種用于標識一個記錄的鍵。

[來源:GB/T5271.17-2010,17.3.11]

3.21

外鍵foreignkey

在某一關系中,與另一類關系中的主鍵對應的一個或一組屬性。

[來源:GB/T5271.17-2010,17.4.15]

3.22

關系relation

具有相同屬性的各實體值的集合以及這些屬性。

注:在關系數(shù)據(jù)庫中,一個關系能通過一個表來表示,表中各行對應于各實體值,各列對應于各屬性。

[來源:GB/T5271.17-2010,17.4.1]

4

DB52/T1541.6—2021

3.23

數(shù)據(jù)描述datadescription

對某一數(shù)據(jù)元素與其中出現(xiàn)該元素的名稱和字的數(shù)據(jù)結(jié)構(gòu)的形式化描述。

[來源:GBT5271.17-2010,17.6.3]

3.24

總量指標totalquantityindex

用來反映特定對象或現(xiàn)象在一定條件下總規(guī)模、總水平或工作總量的統(tǒng)計指標。

3.25

相對指標relativeindices;

relativeindicators

用兩個關聯(lián)指標的比值來反映特定對象或現(xiàn)象的數(shù)量特征、數(shù)量關系的綜合指標。

3.26

平均指標averageIndex

同一時間的同類型主題對象或現(xiàn)象的一般水平,或是不同時間的同類型主題對象或現(xiàn)象的一般水

平。

4縮略語

下列縮略語適用于本文件。

OSS:對象存儲服務(ObjectStorageService)

ETL:加載、抽取、轉(zhuǎn)換(Extract-Transform-Load)

API:應用程序編程接口(ApplicationProgrammingInterface)

URL:統(tǒng)一資源定位符(UniformResourceLocator)

5總體框架

政務數(shù)據(jù)平臺的全網(wǎng)搜索應用的整體業(yè)務邏輯架構(gòu)圖見圖1。其組成部分如下:

a)數(shù)據(jù)接入:將來源于政務數(shù)據(jù)平臺各存儲模塊中各種類型的數(shù)據(jù)進行規(guī)范接入管理,并根據(jù)業(yè)

務需求從不同存儲模塊中接入數(shù)據(jù)元進行對應數(shù)據(jù)處理。存儲模塊包括數(shù)據(jù)采集區(qū)、基礎庫和

主題庫;

b)數(shù)據(jù)處理:對接入的數(shù)據(jù)元按照數(shù)據(jù)治理規(guī)范,結(jié)合業(yè)務場景與搜索目標進行數(shù)據(jù)元梳理、數(shù)

據(jù)清洗融合和數(shù)據(jù)模型設計,并將結(jié)果存儲到搜索數(shù)據(jù)庫中。處理內(nèi)容包括數(shù)據(jù)描述、數(shù)據(jù)指

標、數(shù)據(jù)標簽和關聯(lián)關系等;

c)搜索應用:通過元數(shù)據(jù)管理系統(tǒng)對搜索數(shù)據(jù)庫中表結(jié)構(gòu)與關聯(lián)關系進行抽取,結(jié)合搜索應用業(yè)

務需求對元數(shù)據(jù)進行管理分類、知識構(gòu)建,支撐搜索引擎和領導駕駛艙建設;

d)數(shù)據(jù)安全:包括數(shù)據(jù)機密性、完整性、數(shù)據(jù)備份。采用數(shù)據(jù)脫敏、數(shù)據(jù)加密、制定備份機制等

數(shù)據(jù)處理方法進行數(shù)據(jù)傳輸與存儲,確保數(shù)據(jù)安全。

5

DB52/T1541.6—2021

圖1全網(wǎng)搜索應用的整體業(yè)務邏輯架構(gòu)圖

6數(shù)據(jù)接入

6.1存儲要求

6.1.1數(shù)據(jù)分類存儲按DB52/T1541.3的規(guī)定進行。

6.1.2數(shù)據(jù)接入前應根據(jù)待處理數(shù)據(jù)的結(jié)構(gòu)化程度將數(shù)據(jù)存儲至以下區(qū)域:

a)結(jié)構(gòu)化數(shù)據(jù)應存儲到統(tǒng)一數(shù)據(jù)采集區(qū);

b)非結(jié)構(gòu)化數(shù)據(jù)應存儲于云計算的開放存儲區(qū)OSS,并建立對應數(shù)據(jù)描述表以支撐搜索應用;

c)半結(jié)構(gòu)化數(shù)據(jù)按將文件基本屬性、存儲路徑等描述信息以結(jié)構(gòu)化數(shù)據(jù)文件入庫存儲至統(tǒng)一數(shù)據(jù)

采集區(qū)。

6.2接入規(guī)則

6.2.1結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),通過ETL工具進行分類接入;

6.2.2半結(jié)構(gòu)化數(shù)據(jù)化解為結(jié)構(gòu)化數(shù)據(jù)通過ETL工具進行接入;

6.2.3接入形式包括二維庫表類型、文本類型、URL連接地址、API接口等。

6

DB52/T1541.6—2021

6.3更新機制

6.3.1全量更新

將數(shù)據(jù)源中的表或視圖的數(shù)據(jù)全部從數(shù)據(jù)庫中抽取出來,通過ETL工具遷移到搜索數(shù)據(jù)庫中。

6.3.2增量更新

增量更新是指在進行更新操作時,只更新需要改變的地方,不需要更新或者已經(jīng)更新過的地方則不

會重復更新,增量更新與全量更新相對。

6.3.3更新頻率

數(shù)據(jù)更新頻率包括以下方式:

a)數(shù)據(jù)更新頻率應達到秒級響應,實現(xiàn)實時更新:

b)在設定時間的誤差范圍內(nèi),準實時批量接入;

c)數(shù)據(jù)按天、周、月進行定時調(diào)度,實現(xiàn)同步更新。

7數(shù)據(jù)處理

7.1數(shù)據(jù)描述規(guī)范化處理

7.1.1處理方法

數(shù)據(jù)描述的規(guī)范化處理方法包括但不限于:

a)數(shù)據(jù)格式處理:對錯誤的數(shù)據(jù)格式進行治理、修改;

b)關鍵信息缺失補全:對需要搜索的關鍵信息出現(xiàn)缺失的部分進行補全;

c)明顯邏輯錯誤修正:核查數(shù)據(jù)元間業(yè)務邏輯關系,對明顯錯誤邏輯進行修正。如對數(shù)據(jù)上下級、

歸屬關系進行修正;

d)數(shù)據(jù)類型錯誤修正:根據(jù)搜索目標對數(shù)據(jù)類型進行判斷,對不滿足數(shù)據(jù)類型的錯誤進行修正。

7.1.2通用型數(shù)據(jù)處理要求

時間、區(qū)劃地點、對象等通用數(shù)據(jù)處理,應滿足以下要求:

a)行政區(qū)劃代碼應符合GB/T2260規(guī)定;

b)性別代碼應符合GB/T2261.1規(guī)定;

c)日期和時間應符合GB/T7408規(guī)定;

d)公民身份號碼應符合GB11643規(guī)定;

e)法人和其他組織統(tǒng)一社會信用代碼應符合GB32100規(guī)定。

7.1.3非通用型數(shù)據(jù)處理要求

非通用的描述類數(shù)據(jù)處理應滿足以下要求:

a)可計算型數(shù)據(jù)元的計算類型,應滿足當前系統(tǒng)可連接數(shù)據(jù)庫類型的可計算數(shù)據(jù)類型的要求,計

算單位根據(jù)業(yè)務進行描述;

b)可分組維度的數(shù)據(jù)字段應按其特征進行分組;

c)可比較數(shù)據(jù)元應按照不同維度、不同規(guī)則進行比較;

d)主體數(shù)據(jù)元應對主體的核心內(nèi)容進行描述。

7

DB52/T1541.6—2021

7.2數(shù)據(jù)指標處理

對數(shù)據(jù)元中涉及數(shù)值與統(tǒng)計數(shù)據(jù)的指標數(shù)據(jù),應按同一指標內(nèi)部相對差距不變、不同指標間的相對

差距不確定、標準化后極大值相等原則采用數(shù)據(jù)同趨化和無量綱化等方法進行處理。按照其反映的內(nèi)容

或其數(shù)值表現(xiàn)形式分為總量指標、相對指標和平均指標三種。

指標統(tǒng)計處理應包括以下內(nèi)容:

a)確定指標的含義和范圍;

b)指標指向的對象或現(xiàn)象應具有同類性;

c)有統(tǒng)一的計量單位;

d)兩個對比指標要有可比性。

7.3數(shù)據(jù)標簽處理

7.3.1對具有搜索價值的數(shù)據(jù)元應根據(jù)業(yè)務信息及搜索目標進行標簽定義,對數(shù)據(jù)屬性進行歸類。

7.3.2數(shù)據(jù)標簽可分為以下兩類:

a)基于統(tǒng)計類的標簽:從政務平臺基礎數(shù)據(jù)中直接統(tǒng)計得出,為基礎的標簽類型,如性別、城市、

月均消費金額等字段構(gòu)成用戶畫像的基礎;

b)基于規(guī)則類的標簽:基于行為及確定的規(guī)則產(chǎn)生,開發(fā)標簽中的標簽規(guī)則由涉及的雙方共同協(xié)

商確定,如距今90天內(nèi)交易次數(shù)>3是“交易活躍”標簽的定義和口徑。

7.4關聯(lián)關系處理

7.4.1同一個業(yè)務源不同數(shù)據(jù)表之間,需要有對應的主外鍵關系,表與表之間依據(jù)主外鍵進行關聯(lián)。

7.4.2針對不同業(yè)務與業(yè)務之間,需要設立統(tǒng)一規(guī)范的業(yè)務主鍵,利用業(yè)務主鍵進行關聯(lián)。

8搜索應用

8.1經(jīng)數(shù)據(jù)處理后的數(shù)據(jù)應按描述數(shù)據(jù)、業(yè)務數(shù)據(jù)、模型和標簽等類型數(shù)據(jù)進行分類存放進搜索數(shù)據(jù)

庫。

8.2按DB52/T1540.2(政務數(shù)據(jù)元數(shù)據(jù)管理規(guī)范)的規(guī)定對搜索數(shù)據(jù)庫數(shù)據(jù)的元數(shù)據(jù)進行管理。

8.3計算機對數(shù)據(jù)標簽、關聯(lián)關系信息、數(shù)據(jù)指標進行學習理解并最終記憶,形成知識構(gòu)建。

8.4經(jīng)知識構(gòu)建形成的可理解和處理的數(shù)據(jù),與搜索內(nèi)容進行語義對齊,理解搜索意圖,最終查找出

結(jié)果。

8.5對于非結(jié)構(gòu)化數(shù)據(jù),搜索實現(xiàn)文本語言數(shù)據(jù)之間的比較,當核心內(nèi)容相似性達到一定程度時,判

斷為找到用戶需求,并反饋結(jié)果。

8.6全網(wǎng)搜索主要應用方向包括數(shù)據(jù)查詢、數(shù)據(jù)畫像、數(shù)據(jù)調(diào)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論