污染場地土壤環(huán)境多源數(shù)據(jù)集成整合方法指南_第1頁
污染場地土壤環(huán)境多源數(shù)據(jù)集成整合方法指南_第2頁
污染場地土壤環(huán)境多源數(shù)據(jù)集成整合方法指南_第3頁
污染場地土壤環(huán)境多源數(shù)據(jù)集成整合方法指南_第4頁
污染場地土壤環(huán)境多源數(shù)據(jù)集成整合方法指南_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

污染場地土壤環(huán)境多源數(shù)據(jù)集成整合指南1范圍本文件涉及的數(shù)據(jù)主要為污染場地土壤環(huán)境相關(guān)結(jié)構(gòu)化屬性和空間數(shù)據(jù)以及非結(jié)構(gòu)化識(shí)別數(shù)據(jù),囊括多源異構(gòu)數(shù)據(jù)預(yù)處理、轉(zhuǎn)換、變換等技術(shù)方法,相關(guān)數(shù)據(jù)集成中間件技術(shù),以及數(shù)據(jù)庫、表結(jié)構(gòu)、元數(shù)據(jù)等構(gòu)建方法。本文件適用于污染場地土壤環(huán)境相關(guān)多源異構(gòu)數(shù)據(jù)預(yù)處理、轉(zhuǎn)換/變換、建庫、數(shù)據(jù)映射、入庫匯聚等技術(shù)流程。2規(guī)范性文件引用本指南引用了下列文件中的條款。凡是注明日期的引用文件,僅注日期的版本適用于本指南。凡是不注明日期的引用文件,其有效版本(包括修改單)適用于本指南。GB/T41224-2021/ISO28256:2013土壤質(zhì)量土壤相關(guān)數(shù)據(jù)的數(shù)字交換GB/T18391.1-2002信息技術(shù)數(shù)據(jù)元的規(guī)范與標(biāo)準(zhǔn)化第1部分:數(shù)據(jù)元的規(guī)范與標(biāo)準(zhǔn)化框架GB/T35295-2017信息技術(shù)大數(shù)據(jù)術(shù)語GB/T16820-2009地圖學(xué)術(shù)語GB/T30883-2014信息技術(shù)數(shù)據(jù)集成中間件GB/T19710-2005地理信息元數(shù)據(jù)HJ682—2014污染場地術(shù)語HJ/T166-2004土壤環(huán)境監(jiān)測技術(shù)規(guī)范DB52/T1540.3-2020政務(wù)數(shù)據(jù)第3部分:數(shù)據(jù)清洗加工規(guī)范3術(shù)語和定義下列術(shù)語和定義適用于本文件。場地site某一地塊范圍內(nèi)的土壤、地下水、地表水以及地塊內(nèi)所有構(gòu)筑物、設(shè)施和生物的總和。[HJ682—2014,2.1.1]污染場地contaminatedsite對(duì)潛在污染場地進(jìn)行調(diào)查和風(fēng)險(xiǎn)評(píng)估后,確認(rèn)污染危害超過人體健康或生態(tài)環(huán)境可接受風(fēng)險(xiǎn)水平的場地。[HJ682—2014,2.2.2]土壤環(huán)境soilenvironment地球環(huán)境由巖石圈、水圈、土壤圈、生物圈和大氣圈構(gòu)成,土壤位于該系統(tǒng)的中心,既是各圈層相互作用的產(chǎn)物,又是各圈層物質(zhì)循環(huán)與能量交換的樞紐。受自然和人為作用,內(nèi)在或外顯的土壤狀況稱之為土壤環(huán)境。[HJ/T166-2004,3.2]數(shù)據(jù)data對(duì)事實(shí)、概念或指令的一種形式化表示,適用于以人工或自動(dòng)方式進(jìn)行通信、解釋或處理。[GB/T18391.1-2002,3.12]結(jié)構(gòu)化數(shù)據(jù)structureddata由數(shù)據(jù)元素匯集而成,每個(gè)記錄的結(jié)構(gòu)一致,且可以使用關(guān)系模型予以有效描述的一種數(shù)據(jù)表示形式。[GB/T35295-2017,2.2.13]非結(jié)構(gòu)化數(shù)據(jù)unstructureddata不具有預(yù)定義模型或未以預(yù)定義方式組織的數(shù)據(jù)。[GB/T35295-2017,2.2.25]空間參考系統(tǒng)spatialreferencesystem空間參考系統(tǒng)是指地理目標(biāo)平面位置和高程的平面坐標(biāo)系和高程系的統(tǒng)稱,即在進(jìn)行空間位置描述時(shí)的參照系??臻g數(shù)據(jù)spatialdata又稱幾何數(shù)據(jù),用來表示物體的位置、形態(tài)、大小分布等各方面的信息,是對(duì)現(xiàn)世界中存在的具有定位意義的事物和現(xiàn)象的定量描述。矢量數(shù)據(jù)vectordata以坐標(biāo)或有序坐標(biāo)串表示的空間點(diǎn)、線、面等圖形數(shù)據(jù)及與其相聯(lián)系的有關(guān)屬性數(shù)據(jù)的總稱。[GB/T16820-2009,5.13]柵格數(shù)據(jù)griddata將地理空間劃分成按行、列規(guī)則排列的單元,且各單元帶有不同“值”的數(shù)據(jù)集。[GB/T16820-2009,5.14]土壤圖soilmap一定地理范圍土壤或其性質(zhì)的二維或三維的表征。[GB/T41224-2021,3.29]表結(jié)構(gòu)tablestructure為主體層內(nèi)容提供表示語義的一種存儲(chǔ)范例。[GB/T35295-2017,2.2.14]中間件middleware在系統(tǒng)軟件和應(yīng)用軟件之間提供連接的獨(dú)立軟件。[GB/T30883-2014,3.1]元數(shù)據(jù)metadata關(guān)于數(shù)據(jù)的數(shù)據(jù)。即數(shù)據(jù)的標(biāo)識(shí)、覆蓋范圍、質(zhì)量、空間和時(shí)間模式、空間參照系和分發(fā)等信息。[GB/T19710-2005,4.5]4多源數(shù)據(jù)集成整合框架4.1數(shù)據(jù)組成進(jìn)行集成整合的污染場地多源數(shù)據(jù),主要為結(jié)構(gòu)化屬性和空間數(shù)據(jù),以及非結(jié)構(gòu)化識(shí)別數(shù)據(jù)。4.1.1結(jié)構(gòu)化數(shù)據(jù)1)二維表結(jié)構(gòu)數(shù)據(jù)大量污染場地核心數(shù)據(jù)由二維表結(jié)構(gòu)表達(dá)的數(shù)據(jù),包括但不限以下數(shù)據(jù):土壤采樣點(diǎn)位數(shù)據(jù)、樣品物理屬性數(shù)據(jù)、樣品化學(xué)屬性數(shù)據(jù)、樣品生物屬性數(shù)據(jù)、污染物測試化驗(yàn)數(shù)據(jù)、場地環(huán)境敏感目標(biāo)、工商企業(yè)基礎(chǔ)信息、建設(shè)用地土壤污染風(fēng)險(xiǎn)管控和修復(fù)名錄、重點(diǎn)排污單位名錄等。2)空間數(shù)據(jù)污染場地相關(guān)空間數(shù)據(jù),包括但不限于以下數(shù)據(jù):數(shù)字地形及其衍生數(shù)據(jù)、地貌分布數(shù)據(jù)、土壤類型分布數(shù)據(jù)、土壤理化屬性分布數(shù)據(jù)、基礎(chǔ)地理圖、氣候/氣象因子分布數(shù)據(jù)、土地利用數(shù)據(jù)、遙感影像數(shù)據(jù)等。4.1.2非結(jié)構(gòu)化數(shù)據(jù)主要考慮污染場地相關(guān)非結(jié)構(gòu)化文檔和圖片,包括但不限于以下數(shù)據(jù):場地環(huán)境初步調(diào)查報(bào)告、場地環(huán)境詳細(xì)調(diào)查報(bào)告、場地環(huán)境風(fēng)險(xiǎn)評(píng)估報(bào)告、土壤修復(fù)方案、排污單位自行監(jiān)測報(bào)告、排污單位監(jiān)督性監(jiān)測報(bào)告、隱患排查報(bào)告、清潔生產(chǎn)報(bào)告、環(huán)境影響評(píng)價(jià)報(bào)告等,以及污染場地相關(guān)的逐月降雨分布(柱狀圖或散點(diǎn)圖)、污染物濃度分布柱狀圖、污染物濃度隨深度變化散點(diǎn)圖等。場地非結(jié)構(gòu)化文檔報(bào)告經(jīng)過表格抽取、文本要素抽取等處理,圖片數(shù)據(jù)經(jīng)過識(shí)別處理,將抽取識(shí)別結(jié)果進(jìn)行結(jié)構(gòu)化處理后進(jìn)行集成整合。4.2技術(shù)框架多源數(shù)據(jù)集成整合是一個(gè)復(fù)雜的過程,在考慮多類型數(shù)據(jù)及其自身特點(diǎn)基礎(chǔ)上,基于土壤、環(huán)境、地理信息、遙感等相關(guān)理論,采用PostgreSQL、PostGIS等工具,綜合運(yùn)用數(shù)據(jù)預(yù)處理、數(shù)據(jù)變換和轉(zhuǎn)換、匹配映射、存儲(chǔ)和管理以及中間件等一系列技術(shù)方法,進(jìn)行多源、異構(gòu)、復(fù)雜的結(jié)構(gòu)化與非結(jié)構(gòu)化識(shí)別數(shù)據(jù)集成整合,以建立標(biāo)準(zhǔn)統(tǒng)一、質(zhì)量可靠、方便共享的數(shù)據(jù)資源庫。總體技術(shù)框架如圖1所示。圖1數(shù)據(jù)集成整合技術(shù)框架4.3技術(shù)方法4.3.1中間件技術(shù)在數(shù)據(jù)集成過程中常用到中間件技術(shù)(稱為數(shù)據(jù)集成中間件),用來將不同來源、格式和性質(zhì)的數(shù)據(jù)進(jìn)行邏輯或物理上的有機(jī)集成,進(jìn)而為分散、異構(gòu)的數(shù)據(jù)提供統(tǒng)一可靠的訪問服務(wù),包括但不限于數(shù)據(jù)預(yù)處理、數(shù)據(jù)變換、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)入庫等中間件。4.3.2ETL技術(shù)在數(shù)據(jù)集成過程中,經(jīng)常會(huì)用到ETL(Extract-Transform-Load)技術(shù),它可以將大量污染場地相關(guān)數(shù)據(jù)經(jīng)過提取、轉(zhuǎn)換、加載到目標(biāo)數(shù)據(jù)庫,進(jìn)而實(shí)現(xiàn)(半)自動(dòng)的數(shù)據(jù)集成整合。4.3.3數(shù)據(jù)映射技術(shù)數(shù)據(jù)映射技術(shù)是將不同數(shù)據(jù)源中的數(shù)據(jù)字段和結(jié)構(gòu),映射到目標(biāo)數(shù)據(jù)庫模型的過程,旨在實(shí)現(xiàn)不同數(shù)據(jù)源之間的數(shù)據(jù)對(duì)應(yīng)和整合,數(shù)據(jù)映射可以通過中間件、ETL、API等技術(shù)實(shí)現(xiàn)。5數(shù)據(jù)庫設(shè)計(jì)與構(gòu)建流程為完成集成整合后土壤環(huán)境數(shù)據(jù)的統(tǒng)一規(guī)范存儲(chǔ),首先梳理數(shù)據(jù)庫中主要數(shù)據(jù)資源;其次針對(duì)不同的數(shù)據(jù)內(nèi)容,設(shè)計(jì)建立數(shù)據(jù)庫表,建立相應(yīng)的數(shù)據(jù)索引及元數(shù)據(jù);再次建立相關(guān)數(shù)據(jù)庫表的關(guān)聯(lián)關(guān)系,并進(jìn)行屬性和空間數(shù)據(jù)關(guān)聯(lián),構(gòu)建屬性空間一體化的數(shù)據(jù)資源庫(圖2)。圖2數(shù)據(jù)庫構(gòu)建流程5.1數(shù)據(jù)庫設(shè)計(jì)土壤環(huán)境數(shù)據(jù)資源庫包括但不限于表1所示的數(shù)據(jù)資源,利用工商企業(yè)名稱(編碼)、場地名稱(編碼)、樣點(diǎn)名稱(編號(hào))等關(guān)鍵字段建立數(shù)據(jù)庫表之間的關(guān)聯(lián)關(guān)系,以及屬性數(shù)據(jù)和空間數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。表1污染場地土壤環(huán)境數(shù)據(jù)資源庫屬性數(shù)據(jù)庫管理相關(guān)工商企業(yè)數(shù)據(jù)重點(diǎn)排污單位名錄危險(xiǎn)廢物經(jīng)營許可證名錄建設(shè)用地土壤污染風(fēng)險(xiǎn)管控和修復(fù)名錄建設(shè)用地土壤污染風(fēng)險(xiǎn)篩選值和管控值場地相關(guān)場地利用演變水文地質(zhì)信息環(huán)境敏感目標(biāo)主要原輔材料信息三廢相關(guān)信息特征污染物信息土層概況信息采樣點(diǎn)位信息土壤理化屬性信息污染物信息修復(fù)相關(guān)信息空間數(shù)據(jù)庫自然環(huán)境地形數(shù)據(jù)地貌數(shù)據(jù)降雨分布溫度分布土地利用植被分布土壤母質(zhì)土壤類型土壤屬性河流水系地下水埋深人工環(huán)境行政區(qū)劃地名地址興趣點(diǎn)道路交通住宅小區(qū)自然保護(hù)地公園綠地5.2數(shù)據(jù)庫表構(gòu)建數(shù)據(jù)庫表宜根據(jù)以下流程設(shè)計(jì)構(gòu)建:1)根據(jù)土壤環(huán)境相關(guān)屬性數(shù)據(jù)的特點(diǎn),設(shè)計(jì)合適的數(shù)據(jù)表結(jié)構(gòu),包括字段名稱、字段類型、約束條件等,并根據(jù)數(shù)據(jù)間關(guān)系設(shè)計(jì)表之間的關(guān)聯(lián)。2)根據(jù)空間數(shù)據(jù)的特點(diǎn),設(shè)計(jì)合適的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)表來存儲(chǔ)空間幾何對(duì)象、空間屬性等。3)確定空間數(shù)據(jù)和屬性數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,采用空間索引和屬性索引加速查詢和空間分析。4)定義適當(dāng)?shù)募s束條件,包括主鍵約束、外鍵約束、唯一性約束等,確保數(shù)據(jù)的完整性和一致性。5)記錄數(shù)據(jù)庫表相關(guān)信息,包括但不限于數(shù)據(jù)字典、元數(shù)據(jù)、表描述、字段描述等,便于數(shù)據(jù)庫管理維護(hù)。6結(jié)構(gòu)化數(shù)據(jù)集成整合6.1屬性數(shù)據(jù)集成整合結(jié)構(gòu)化屬性數(shù)據(jù)集成流程及相關(guān)技術(shù)方法如下:1)分析不同來源數(shù)據(jù)的格式、字段名稱及其含義等,對(duì)于土壤屬性、污染物等,還要關(guān)注分析測試方法、分析儀器、計(jì)量單位、有效值范圍等。2)歸納所涉及的字段,確定數(shù)據(jù)庫表名稱及其含義,以及庫表中字段名稱、類型、長度、主鍵等。3)對(duì)于不同來源的數(shù)據(jù),進(jìn)行數(shù)據(jù)規(guī)范化操作,如統(tǒng)一名稱、度量單位等。4)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,去除重復(fù)數(shù)據(jù)、處理缺失數(shù)據(jù)、修正異常數(shù)據(jù)等清洗操作。5)基于PostgreSQL等數(shù)據(jù)庫軟件,設(shè)計(jì)并構(gòu)建相關(guān)數(shù)據(jù)庫表,進(jìn)行規(guī)范化命名,并對(duì)表、字段等進(jìn)行注釋形成元數(shù)據(jù)。6)利用中間件、ETL工具(如Kettle)等,構(gòu)建源數(shù)據(jù)到目標(biāo)數(shù)據(jù)庫表的映射規(guī)則,將相關(guān)數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)庫。注:在以上步驟中,可以開發(fā)相關(guān)的中間件,實(shí)現(xiàn)數(shù)據(jù)預(yù)處理、字段轉(zhuǎn)換、單位變換、缺失值填補(bǔ)等過程。6.2空間數(shù)據(jù)集成整合空間數(shù)據(jù)集成整合的主要流程及相關(guān)技術(shù)方法如下:1)確定空間參考系統(tǒng)空間參考系統(tǒng)的確定既要考慮現(xiàn)有空間數(shù)據(jù)參考系統(tǒng),也要考慮與后續(xù)空間數(shù)據(jù)的兼容性,可確定如下的空間參考系統(tǒng):坐標(biāo)系:2000國家大地坐標(biāo)系(CGCS2000);高程基準(zhǔn):1985國家高程基準(zhǔn);地圖投影:“高斯-克呂格”投影,國家3度或6度標(biāo)準(zhǔn)分帶。2)建立空間數(shù)據(jù)庫基于PostGIS等空間數(shù)據(jù)管理工具,創(chuàng)建空間數(shù)據(jù)庫,并定義空間參考系統(tǒng)等相關(guān)參數(shù)。3)格式轉(zhuǎn)換利用QGIS等,將原始矢量或柵格數(shù)據(jù)轉(zhuǎn)換為目標(biāo)格式(如shapefile格式的矢量數(shù)據(jù)、geotiff格式的柵格數(shù)據(jù))。4)坐標(biāo)變換利用QGIS等,進(jìn)行數(shù)據(jù)原始空間坐標(biāo)系到目標(biāo)空間參照系的變換。5)空間數(shù)據(jù)入庫利用QGIS等空間數(shù)據(jù)管理軟件連接空間數(shù)據(jù)庫,對(duì)相關(guān)空間數(shù)據(jù)進(jìn)行入庫。注:也可以利用GIS軟件SDK、GDAL/OGR、Proj4等開發(fā)包,設(shè)計(jì)開發(fā)數(shù)據(jù)格式轉(zhuǎn)換、坐標(biāo)變換等中間件,實(shí)現(xiàn)多源空間數(shù)據(jù)的處理;此外,可根據(jù)實(shí)際需求,開發(fā)具有空間數(shù)據(jù)庫連接、數(shù)據(jù)命名、數(shù)據(jù)入庫、增刪改等功能的中間件,實(shí)現(xiàn)空間數(shù)據(jù)管理。7非結(jié)構(gòu)化數(shù)據(jù)集成整合污染場地土壤環(huán)境相關(guān)非結(jié)構(gòu)化數(shù)據(jù)經(jīng)識(shí)別處理后,獲取到的抽取表格、文本要素、圖片提取數(shù)據(jù)等,這些數(shù)據(jù)集成整合的主要步驟為:首先,根據(jù)識(shí)別結(jié)果以及專家經(jīng)驗(yàn),設(shè)計(jì)相關(guān)數(shù)據(jù)庫表;其次,將結(jié)構(gòu)化識(shí)別的數(shù)據(jù)與數(shù)據(jù)庫表建立映射關(guān)系;最后,利用中間件、ETL工具等方法,對(duì)相關(guān)數(shù)據(jù)結(jié)果進(jìn)行入庫(圖3)。下面,詳細(xì)說明不同類型的非結(jié)構(gòu)化識(shí)別數(shù)據(jù)的集成整合流程和方法。圖3非結(jié)構(gòu)化數(shù)據(jù)集成整合流程7.1抽取表格數(shù)據(jù)的集成流程和方法非結(jié)構(gòu)化文檔抽取表格數(shù)據(jù)的集成方法如下:1)綜合同類型文檔報(bào)告中所抽取的各種表格數(shù)據(jù)的特征,確定所包含的相似字段,根據(jù)實(shí)際需求增加特異性字段,確定目標(biāo)數(shù)據(jù)庫表的字段及其含義,并將來源文檔、抽取人員、抽取時(shí)間等信息一并納入。2)對(duì)于土壤屬性、污染物等數(shù)據(jù),還要關(guān)注分析測試方法、分析儀器、度量單位、有效值范圍等。3)對(duì)相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理,去除重復(fù)數(shù)據(jù)、處理缺失數(shù)據(jù)、修正異常數(shù)據(jù)等清洗操作。4)基于Postgresql等數(shù)據(jù)庫軟件,設(shè)計(jì)并構(gòu)建相關(guān)數(shù)據(jù)庫表,進(jìn)行規(guī)范化命名,并對(duì)表、字段等進(jìn)行注釋形成其元數(shù)據(jù)。5)利用中間件、ETL工具(如Kettle)等,構(gòu)建文檔抽取表數(shù)據(jù)到目標(biāo)數(shù)據(jù)的映射規(guī)則,將相關(guān)數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)庫表。注:在以上步驟中,可以開發(fā)相關(guān)的中間件,實(shí)現(xiàn)如數(shù)據(jù)清洗、字段轉(zhuǎn)換、單位變換、異常值處理等功能。7.2文本抽取數(shù)據(jù)的集成流程和方法文本要素抽取數(shù)據(jù)的集成方法如下:1)根據(jù)文本要素標(biāo)簽,確定目標(biāo)數(shù)據(jù)表字段名稱與類型,并將來源文檔、抽取方法、抽取人員、抽取時(shí)間等信息一并納入。2)對(duì)文本要素?cái)?shù)據(jù)進(jìn)行清洗,去除重復(fù)抽取數(shù)據(jù)、修正異常數(shù)據(jù)等。3)基于Postgresql等數(shù)據(jù)庫軟件,設(shè)計(jì)并構(gòu)建相關(guān)數(shù)據(jù)庫表,特別注意存儲(chǔ)要素內(nèi)容的字段宜為可變長度,進(jìn)行規(guī)范化命名,并對(duì)表、字段進(jìn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論