




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、多庫系統(tǒng)與數據集成技術,2012年12月8日,一 數據集成技術簡介,1.1 數據集成的必要性 1.2 數據集成的概念 1.3 數據集成的特征 1.4 數據集成的分類 1.5 常見數據集成方法(重點) 1.6 數據集成的關鍵問題 1.7 主流的數據訪問技術,1.1 數據集成的必要性,歷史數據的價值 開發(fā)或引進許多獨立運行的應用系統(tǒng) 存儲、管理、維護數據 異構環(huán)境數據源 文件數據庫、網絡數據庫等,不同時期、不同公司、不同工具、不同平臺上開發(fā),運行在不同的操作系統(tǒng)和數據庫平臺上; 系統(tǒng)彼此封閉、數據無法交換共享,形成冗余數據、垃圾數據, 無法數據一致性. 企業(yè)應用系統(tǒng)需要訪問各種異構數據源,需要將內
2、部數據進行發(fā)布和交換,1.2 數據集成的概念,數據集成概念:對各種異構數據提供統(tǒng)一的表示、存儲和管理, 以實現(xiàn)邏輯或物理上有機地集中 。 集成是指維護數據源整體上的數據一致性、提高信息共享利用的效率 透明是指用戶不必考慮底層數據模型不同、位置不同等問題,能夠通過一個統(tǒng)一的查詢界面實現(xiàn)對網絡上異構數據源的靈活訪問 數據集成關鍵:以一種統(tǒng)一的數據模式描述各數據源中的數據,屏蔽它們的平臺、數據結構等異構性,實現(xiàn)數據的無縫集成。,1.3 數據集成的特征,分布性:數據源異地分布 網絡傳輸的性能和安全性 自治性:集成系統(tǒng)不影響各局部應用系統(tǒng),局部數據源保持獨立性 在不通知集成系統(tǒng)的前提下改變自身的結構和數
3、據 異構性:被集成數據源的運行環(huán)境、數據模型和數據語義異構性 不同的硬件設備、操作系統(tǒng)、網絡協(xié)議;結構化數據(數據庫)、半結構化數據(HTML)、非結構化數據(圖片);相同語義數據的不同表達形式,1.4 數據集成的分類,數據集成可以分為下述4個層次 基本數據集成 多級視圖集成 模式集成 多粒度數據集成,1.4.1基本數據集成,通用標識符問題是數據集成時遇到的最難的問題之一。由于同一業(yè)務實體存在于多個系統(tǒng)源中,并且沒有明確的辦法確認這些實體是同一實體時,就會產生這類問題。處理該問題的辦法如下。 (1)隔離。保證實體的每次出現(xiàn)都指派一個唯一標識符。 (2)調和。確認哪些實體是相同的,并且將該實體的
4、各次出現(xiàn)合并起來。,1.4.1、基本數據集成,當目標元素有多個來源時,指定某一系統(tǒng)在沖突時占主導地位。 數據丟失問題是最常見的問題之一,一般解決的辦法是為丟失的數據產生一個非常接近實際的估計值來進行處理。,1.4.2 多級視圖集成,多級視圖機制有助于對數據源之間的關系進行集成:底層數據表示方式為局部模型的局部格式,如關系和文件;中間數據表示為公共模式格式,如擴展關系模型或對象模型;高級數據表示為綜合模型格式。,1.4.2 多級視圖集成,視圖的集成化過程為兩級映射: (1)數據從局部數據庫中,經過數據翻譯、轉換并集成為符合公共模型格式的中間視圖。 (2)進行語義沖突消除、數據集成和數據導出處理,
5、將中間視圖集成為綜合視圖。,1.4.3 模式集成,模型合并屬于數據庫設計問題,其設計的好壞常視設計者的經驗而定,在實際應用中很少有成熟的理論指導。 實際應用中,數據源的模式集成和數據庫設計仍有相當的差距,如模式集成時出現(xiàn)的命名、單位、結構和抽象層次等沖突問題,就無法照搬模式設計的經驗。 在眾多互操作系統(tǒng)中,模式集成的基本框架如屬性等價、關聯(lián)等價和類等價可最終歸于屬性等價,1.4.4 多粒度數據集成,多粒度數據集成是異構數據集成中最難處理的問題,理想的多粒度數據集成模式是自動逐步抽象 數據綜合(或數據抽象)指由高精度數據經過抽象形成精度較低、但是粒度較大的數據。其作用過程為從多個較高精度的局部數
6、據中,獲得較低精度的全局數據。在這個過程中,要對各局域中的數據進行綜合,提取其主要特征。數據綜合集成的過程實際上是特征提取和歸并的過程。,1.4.4 多粒度數據集成,數據細化指通過由一定精度的數據獲取精度較高的數據,實現(xiàn)該過程的主要途徑有:時空轉換,相關分析或者由綜合中數據變動的記錄進行恢復。數據集成是最終實現(xiàn)數據共享和輔助決策的基礎。,1.5 常見數據集成方法(重點),1.數據轉換方法(聯(lián)邦數據庫系統(tǒng)) 松散集成, 通過轉換工具實現(xiàn)應用系統(tǒng)之間的數據轉換和交換,較低層次的集成 2.數據聚合方法(中間件模式) 借助于中間件系統(tǒng)構造一個虛擬的全局數據模式, 是一種集中式管理、分布式存儲的較高層次
7、的集成模式 3.析取、轉換和裝載(ETL) (數據倉庫模式) 通過對異構數據源中的數據進行分析、轉換和裝載, 建立一個數據倉庫,面向企業(yè)決策的數據集成方法,1.5.1 數據轉換方法聯(lián)邦數據庫系統(tǒng),通過轉換工具在數據庫之間進行模式映射,復制、轉換數據庫中的數據; 聯(lián)邦數據庫系統(tǒng)( FDBS)由半自治數據庫系統(tǒng)構成,相互之間分享數據,聯(lián)盟各數據源之間相互提供訪問接口,同時聯(lián)盟數據庫系統(tǒng)可以是集中數據庫系統(tǒng)或分布式數據庫系統(tǒng)及其他聯(lián)邦式系統(tǒng)。 在這種模式下又分為緊耦合和松耦合兩種情況,緊耦合提供統(tǒng)一的訪問模式,一般是靜態(tài)的,在增加數據源上比較困難;而松耦合則不提供統(tǒng)一的接口,但可以通過統(tǒng)一的語言訪問
8、數據源,其中核心的是必須解決所有數據源語義上的問題。,聯(lián)邦數據庫系統(tǒng),數據轉換方法數據轉換工具,1. DBMS自帶的轉換、遷移工具 Oracle的Migration Workbench Microsoft SQL Server的DTS 通用性不強,數據轉換方法數據轉換工具DTS,SQL Server 數據轉換服務DTS是一組圖形化的工具和可編程的對象集,可以從不同的源將數據抽取、轉換和合并到一個或多個目標位置。 DTS是一組工具,用于一個或多個數據源(MicrosoftSQLServer、 MicrosoftExcel或Microsoft Access )間導入、導出和轉換各種數據。通過用于O
9、DBC的OLEDB (一種數據訪問的開放式標準)提供連接和程序來支持ODBC(開放式數據庫連接)數據源 。,數據轉換方法應用系統(tǒng)內部集成轉換工具,2.應用系統(tǒng)內部集成的轉換工具 系統(tǒng)與其他應用系統(tǒng)之間的數據接口 分為兩種規(guī)范: 企業(yè)內部相關應用系統(tǒng)之間的數據轉換接口,設計人員規(guī)定或達成一致的數據轉換; 遵循某種標準的轉換接口,數據轉換為標準格式:EDI,EDI(Electric Data Interchange,電子數據交換)是一種利用計算機進行商務處理的新方法,它是將貿易、運輸、保險、銀行和海關等行業(yè)的信息,用一種國際公認的標準格式,通過計算機通信網絡,使各有關部門、公司和企業(yè)之間進行數據交
10、換和處理,并完成以貿易為中心的全部業(yè)務過程。 由于EDI的使用可以完全取代傳統(tǒng)的紙張文件的交換,因此也有人稱它為“無紙貿易”或“電子貿易”,數據轉換方法應用系統(tǒng)內部集成轉換工具EDI,數據轉換方法應用系統(tǒng)內部集成轉換工具EDI,EDI的優(yōu)點 1降低了紙張的消費。根據聯(lián)合國組織的一次調查,進行一次進出口貿易,雙方約需交換近200份文件和表格,其紙張、行文、打印及差錯可能引起的總開銷等大約為貨物價格的7。據統(tǒng)計,美國通用汽車公司采用EDI后,每生產一輛汽車可節(jié)約成本250美元,按每年生成500萬輛計算,可以產生125億美元的經濟效益。 2減少了許多重復勞動,提高了工作效率。如果沒有EDI系統(tǒng),即使
11、是高度計算機化的公司,也需要經常將外來的資料重新輸入本公司的電腦。調查表明,從一部電腦輸出的資料有多達70的數據需要再輸入其他的電腦,既費時又容易出錯。 3EDI使貿易雙方能夠以更迅速有效的方式進行貿易,大大簡化了訂貨或存貨的過程,使雙方能及時地充分利用各自的人力和物力資源。美國DEC公司應用了EDI后,使存貨期由5天縮短為3天,每筆訂單費用從125美元降到32美元。新加坡采用EDI貿易網絡之后,使貿易的海關手續(xù)從原來的34天縮短到1015分鐘。 4通過EDI可以改善貿易雙方的關系,廠商可以準確地估計日后商品的尋求量,貨運代理商可以簡化大量的出口文書工作,商戶可以提高存貨的效率,大大提高他們的
12、競爭能力。,數據轉換方法應用系統(tǒng)內部集成轉換工具EDI,EDI不是用戶間的簡單的數據交換系統(tǒng),EDI用戶需要按照國際通用的消息格式發(fā)送消息,接收方也需要按照國際統(tǒng)一規(guī)定的語法規(guī)則,對消息進行處理,并引起其他相關系統(tǒng)的EDI綜合處理,整個過程都是自動完成,不需要人工的干預,減少了差錯,提高了效率。 例如:有一個工廠采用了EDI系統(tǒng),它通過計算機通信網絡接收到來自用戶的一筆EDI方式的訂貨單,工廠的EDI系統(tǒng)隨即檢查訂貨單是否符合要求和工廠是否接收訂貨,然后向用戶回送確認信息。 工廠的EDI系統(tǒng)根據訂貨單的要求檢查庫存,如果需要則向相關的零部件和配套設備廠商發(fā)出EDI訂貨單;向鐵路、海運、航空等部
13、門預訂車輛、艙位和集裝箱;以EDI方式與保險公司和海關聯(lián)系,申請保險手續(xù)和辦理出口手續(xù);向用戶開EDI發(fā)票;同銀行以EDI方式結算帳目等。從訂貨、庫存檢查與零部件訂貨,辦理相關手續(xù)及簽發(fā)發(fā)貨票等全部過程都由計算機自動完成,既快速又準確。,1.5.2、數據聚合方法(中間件模式),數據聚合方法:將多個數據庫集成為一個統(tǒng)一的數據庫視圖;數據聚合體是一種虛擬的數據庫,包括多個實體的物理數據庫。 利用中間件集成異構數據源,不需要改變原始數據的存儲和管理方式。通過在中間層提供一個統(tǒng)一的數據邏輯視圖來隱藏底層的數據細節(jié),使得用戶可以把集成數據源看為一個統(tǒng)一的整體 中間件系統(tǒng)位于異構數據源(數據層)和應用程序
14、(應用層)之間 向下協(xié)調各數據庫系統(tǒng) 向上為訪問集成數據的應用系統(tǒng)提供統(tǒng)一的全局數據模式和數據訪問通用接口 目前比較流行的數據集成方法,這種模型下的關鍵問題是如何構造這個邏輯視圖并使得不同數據源之間能映射到這個中間層。,中間件模式,1.5.3、析取、轉換和裝載(ETL)方法 (數據倉庫模式),ETL方法是一種實現(xiàn)異構數據源的集中式管理、集中式存儲的方法。 ETL工具從多個數據源中抽取數據, 然后進行數據轉換和加載, 最終得到統(tǒng)一的、完備的數據倉庫 原來分散的應用系統(tǒng)仍然獨立運作, 原來存在的異構數據源仍然為各自的應用系統(tǒng)提供數據服務 不會破壞企業(yè)原有的應用架構, 比較適合于大量數據的遷移 可以提供復雜的數據轉換功能 可以集成多種數據源和復雜的商業(yè)規(guī)則, 能容忍數據在時間上的延遲,數據倉庫模式,1.6 數據集成的關鍵問題,異構數據源集成是數據庫領域的經典和熱點問題 .集成范圍問題: 不是所有數據源中的數據都能集成 .數據
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 春風合唱活動方案
- 監(jiān)控屏安裝方案(3篇)
- 沙子地面改造方案(3篇)
- 飲品批發(fā)招商方案(3篇)
- 小區(qū)秩序配置方案(3篇)
- 心理健康安全課程體系
- 豬群健康管理體系
- 銀行改造方案(3篇)
- 畢業(yè)繪本課件
- 走廊欄桿清洗方案(3篇)
- 生物安全程序文件(2025版)
- 黔西南州工業(yè)投資(集團)有限公司招聘筆試題庫2025
- 單原子催化劑可控合成及其催化效果研究
- 土地手續(xù)代辦協(xié)議書
- 貴州省建筑工程施工資料管理導則
- 預開票管理制度
- 中鐵四局分包勞務合同樣本
- 三方合作協(xié)議合同范本模板
- 景區(qū)消防安全知識培訓
- 瑞吉歐教育理念的環(huán)境觀
- 2025-2030水飛薊賓項目商業(yè)計劃書
評論
0/150
提交評論