第4章 數(shù)據(jù)與數(shù)據(jù)分析_第1頁
第4章 數(shù)據(jù)與數(shù)據(jù)分析_第2頁
第4章 數(shù)據(jù)與數(shù)據(jù)分析_第3頁
第4章 數(shù)據(jù)與數(shù)據(jù)分析_第4頁
第4章 數(shù)據(jù)與數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩95頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)與數(shù)據(jù)分析第4章講課人:***目錄01數(shù)據(jù)庫系統(tǒng)的基本概念02數(shù)據(jù)管理技術(shù)的產(chǎn)生和發(fā)展03數(shù)據(jù)模型和關(guān)系數(shù)據(jù)庫04關(guān)系數(shù)據(jù)庫標(biāo)準(zhǔn)語言SQL05數(shù)據(jù)倉庫和數(shù)據(jù)挖掘06大數(shù)據(jù)技術(shù)知識導(dǎo)圖本章主要介紹數(shù)據(jù)、數(shù)據(jù)存儲和數(shù)據(jù)處理的思維,從數(shù)據(jù)的概念出發(fā),引出了數(shù)據(jù)庫、數(shù)據(jù)庫管理系統(tǒng)、數(shù)據(jù)庫系統(tǒng)等基本概念,以及使用數(shù)據(jù)庫系統(tǒng)管理數(shù)據(jù)的優(yōu)勢,同時重點介紹了目前廣泛使用的關(guān)系數(shù)據(jù)庫,使用SQL語言如何進行數(shù)據(jù)處理,由于數(shù)據(jù)量急劇增加和應(yīng)用需求的推動,出現(xiàn)了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù),隨著物聯(lián)網(wǎng)、云計算的出現(xiàn)和發(fā)展,對于數(shù)據(jù)的思維上升到了大數(shù)據(jù)時代。本章內(nèi)容數(shù)據(jù)庫系統(tǒng)的基本概念第4章014.1.1數(shù)據(jù)和信息用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)創(chuàng)新已經(jīng)形成社會的一種常態(tài)和共識。美國管理學(xué)家、統(tǒng)計學(xué)家愛德華﹒戴明曾經(jīng)說過:“除了上帝,任何人都必須用數(shù)據(jù)說話?!彼鲝埼ㄓ袛?shù)據(jù)才是科學(xué)的度量。1.數(shù)據(jù)數(shù)據(jù)的概念不再僅指狹義的數(shù)值數(shù)據(jù),如14.56、$8、20等,而包括文字、聲音、圖形等一切能被計算機接收且能被處理的符號都是數(shù)據(jù)。數(shù)據(jù)是對現(xiàn)實世界的抽象表示,是描述客觀事物特征或性質(zhì)的某種符號,是客觀事實的反映和記錄。單獨的數(shù)據(jù)是沒有意義的,只有把數(shù)據(jù)放到具體的上下文環(huán)境中,數(shù)據(jù)才能顯示其含義。2.信息信息是人們消化理解的數(shù)據(jù),是關(guān)于現(xiàn)實世界事物存在方式或運動狀態(tài)反映的集合,是人們進行各種活動所需要的知識。數(shù)據(jù)與信息既有聯(lián)系又有區(qū)別。信息是一個抽象概念,是反映現(xiàn)實世界的知識,是被加工成特定形式的數(shù)據(jù),用不同的數(shù)據(jù)形式可以表示同樣的信息內(nèi)容。3.數(shù)據(jù)和信息的關(guān)聯(lián)數(shù)據(jù)是信息的符號表示,或稱為載體,是獲取信息的原材料,隨載荷其物理設(shè)備的形式而改變;而信息是數(shù)據(jù)的內(nèi)涵,是數(shù)據(jù)的語義解釋,是對原材料加工、處理的結(jié)果,不隨載荷其物理設(shè)備的形式而改變。構(gòu)成一定含義的有用的一組數(shù)據(jù)稱為信息,信息通過數(shù)據(jù)描述,又是數(shù)據(jù)的語義解釋。但在某些不需要嚴(yán)格分辨的場合下,可以把兩者不加區(qū)分地使用,例如信息處理也可以說成數(shù)據(jù)處理。4.1.2數(shù)據(jù)庫數(shù)據(jù)庫是長期存儲在計算機內(nèi)、有組織的、可共享的、大量數(shù)據(jù)的集合。數(shù)據(jù)庫中的數(shù)據(jù)按一定的數(shù)據(jù)模型組織、描述和存儲,具有較小的冗余度、較高的數(shù)據(jù)獨立性和易擴展性,并可為各種用戶共享。概況起來,數(shù)據(jù)庫具有永久存儲、有組織、可共享三個基本特點。4.1.3數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)(DataBaseManagementSystem,簡稱DBMS)是位于用戶與操作系統(tǒng)(OS)之間的一層數(shù)據(jù)管理軟件,它為用戶或應(yīng)用程序提供訪問數(shù)據(jù)庫的方法,包括數(shù)據(jù)庫的創(chuàng)建、查詢、更新及各種數(shù)據(jù)控制等,它是數(shù)據(jù)庫系統(tǒng)的核心。數(shù)據(jù)庫管理系統(tǒng)一般由計算機軟件公司提供,目前比較流行的DBMS有Informix、Sybase、MicrosoftAccess、MicrosoftSQLServer、MySQL、Oracle等。數(shù)據(jù)庫管理系統(tǒng)的主要功能包括數(shù)據(jù)定義、數(shù)據(jù)操縱、數(shù)據(jù)組織和存儲、數(shù)據(jù)庫運行管理以及數(shù)據(jù)庫的建立和維護等幾個方面。1.數(shù)據(jù)定義DBMS提供數(shù)據(jù)定義語言DDL(datadefinelanguage),用戶通過它可以方便地對數(shù)據(jù)庫中的數(shù)據(jù)對象進行定義。例如,為保證數(shù)據(jù)庫安全而定義的用戶口令和存取權(quán)限,為保證正確語義而定義的完整性規(guī)則。2.數(shù)據(jù)操縱DBMS提供數(shù)據(jù)操縱語言DML(datamanipulationlanguage),實現(xiàn)對數(shù)據(jù)庫的基本操作,包括檢索、插入、修改和刪除等。一類是宿主型DML,嵌人到宿主語言中使用,例如嵌入到VB、C等高級語言中;另一類是自主型或自含型DML,可以獨立使用。3.數(shù)據(jù)組織、存儲和管理DBMS要分類組織、存儲和管理各種數(shù)據(jù),包括數(shù)據(jù)字典、用戶數(shù)據(jù)和數(shù)據(jù)的存取路徑等。要確定以何種文件結(jié)構(gòu)和存取方式在存儲級上組織這些數(shù)據(jù),如何實現(xiàn)數(shù)據(jù)之問的聯(lián)系。數(shù)據(jù)組織和存儲的基本目標(biāo)是提高存儲空間的利用率和方便存取,提供多種存取方法(如索引查找、Hash查找和順序查找等),以提高存取效率。4.數(shù)據(jù)庫運行管理數(shù)據(jù)庫在建立、運行和維護時由數(shù)據(jù)庫管理系統(tǒng)統(tǒng)一管理、統(tǒng)一控制。DBMS通過對數(shù)據(jù)的安全性控制、數(shù)據(jù)的完整性控制、多用戶環(huán)境下的并發(fā)控制以及數(shù)據(jù)庫的恢復(fù),來確保數(shù)據(jù)正確、有效,以及數(shù)據(jù)庫系統(tǒng)的正常運行。5.數(shù)據(jù)庫的建立和維護功能數(shù)據(jù)庫的建立和維護功能主要包括;(1)數(shù)據(jù)庫的初始數(shù)據(jù)的裝入、轉(zhuǎn)換;(2)數(shù)據(jù)庫的轉(zhuǎn)儲、恢復(fù)、重組織;(3)系統(tǒng)性能監(jiān)視、分析等。數(shù)據(jù)庫系統(tǒng)(DataBaseSystem,簡稱DBS)是以計算機軟硬件為工具,把數(shù)據(jù)組織成數(shù)據(jù)庫形式并對其進行存儲、管理、處理和維護數(shù)據(jù)的高效能的信息處理系統(tǒng)。數(shù)據(jù)庫系統(tǒng)一般由數(shù)據(jù)庫、計算機硬件系統(tǒng)、軟件系統(tǒng)(含操作系統(tǒng)、DBMS、應(yīng)用程序開發(fā)工具、應(yīng)用系統(tǒng))以及數(shù)據(jù)庫用戶組成,如圖所示。4.1.4數(shù)據(jù)庫系統(tǒng)1.硬件系統(tǒng)硬件系統(tǒng)指存儲和運行數(shù)據(jù)庫系統(tǒng)的硬件設(shè)備。硬件系統(tǒng)主要包括CPU、內(nèi)存、大容量的存儲設(shè)備、輸入/輸出設(shè)備和外部設(shè)備等。2.軟件系統(tǒng)軟件系統(tǒng)主要包括支持DBMS運行的操作系統(tǒng)(OperationSystem,OS)、DBMS、應(yīng)用系統(tǒng),以及開發(fā)應(yīng)用系統(tǒng)使用的各種高級語言和相應(yīng)的編譯軟件。另外,為了提高應(yīng)用系統(tǒng)的開發(fā)效率,還需要一些表格軟件、圖形系統(tǒng)等應(yīng)用開發(fā)工具軟件。應(yīng)用系統(tǒng)主要是指實現(xiàn)業(yè)務(wù)邏輯的應(yīng)用程序,它必須為用戶提供一個友好的、人性化的操作數(shù)據(jù)的圖形用戶界面,通過數(shù)據(jù)庫語言或相應(yīng)的數(shù)據(jù)訪問接口存取數(shù)據(jù)庫中的數(shù)據(jù)。數(shù)據(jù)庫系統(tǒng)的各類用戶、應(yīng)用程序等對數(shù)據(jù)庫的各類操作都是通過DBMS來完成的,因此說DBMS是數(shù)據(jù)庫系統(tǒng)的核心。3.數(shù)據(jù)庫用戶數(shù)據(jù)庫系統(tǒng)中的用戶主要包括三類:數(shù)據(jù)庫管理員、應(yīng)用程序員和終端用戶。數(shù)據(jù)庫管理員,主要負(fù)責(zé)DBMS和數(shù)據(jù)庫的監(jiān)管和維護工作,保證DBMS服務(wù)和數(shù)據(jù)庫的可用性、可靠性、安全性和高性能等。應(yīng)用程序員,主要負(fù)責(zé)設(shè)計和編寫應(yīng)用系統(tǒng)的程序模塊,并進行調(diào)試和安裝,以便終端用戶對數(shù)據(jù)庫進行存取操作。最終用戶(EndUser),一般為非計算機專業(yè)的人員,主要通過應(yīng)用系統(tǒng)的用戶接口使用數(shù)據(jù)庫。數(shù)據(jù)管理技術(shù)的產(chǎn)生和發(fā)展第4章024.2.1人工管理階段20世紀(jì)40年代中期至50年代中期,計算機主要用于科學(xué)計算,處理的數(shù)據(jù)量有限,并且數(shù)據(jù)一般不需要長期存儲。硬件方面只有紙帶、卡片、磁帶,還沒有磁盤等直接存取的外部存儲設(shè)備,軟件方面只有匯編語言,還沒有操作系統(tǒng)和專門管理數(shù)據(jù)的軟件。這個階段數(shù)據(jù)管理具有如下特點。(1)數(shù)據(jù)不保存;(2)應(yīng)用程序管理數(shù)據(jù);(3)數(shù)據(jù)不共享;(4)數(shù)據(jù)不具有獨立性。在人工管理數(shù)據(jù)階段,程序與數(shù)據(jù)之間的一一對應(yīng)關(guān)系如圖所示。4.2.2文件系統(tǒng)管理階段20世紀(jì)50年代后期到60年代中期,計算機得到了很大程度的發(fā)展,不再局限應(yīng)用于科學(xué)計算,已經(jīng)開始進行信息管理。此時,硬件方面已經(jīng)有了磁盤、磁鼓等直接存取存儲設(shè)備,軟件方面出現(xiàn)了高級語言和操作系統(tǒng),操作系統(tǒng)中有專門進行數(shù)據(jù)管理的軟件,稱為文件系統(tǒng)。文件系統(tǒng)把數(shù)據(jù)組織成相互獨立的數(shù)據(jù)文件,利用“按文件名訪問,按記錄進行存取”的管理技術(shù),可以對文件中的數(shù)據(jù)進行存取操作。程序與數(shù)據(jù)間的關(guān)系在高級程序設(shè)計語言出現(xiàn)之后,程序員不僅可以創(chuàng)建文件長期保存數(shù)據(jù),而且還可以編寫應(yīng)用程序處理文件中的數(shù)據(jù),定義文件的結(jié)構(gòu),實現(xiàn)對文件中數(shù)據(jù)的插入、刪除、修改和查詢等操作。應(yīng)用程序?qū)?shù)據(jù)文件的訪問,需要通過操作系統(tǒng)中的文件系統(tǒng)來完成,文件系統(tǒng)真正實現(xiàn)對物理磁盤中文件中數(shù)據(jù)的存取操作。文件系統(tǒng)管理階段程序與數(shù)據(jù)間的對應(yīng)關(guān)系如圖所示。用文件存儲并管理數(shù)據(jù)示例設(shè)應(yīng)用程序A1實現(xiàn)“學(xué)生基本信息管理”功能,應(yīng)用程序A2實現(xiàn)“學(xué)生選課管理”功能。存在的問題文件系統(tǒng)管理階段對數(shù)據(jù)的管理有了很大進步,但并沒有徹底解決一些根本問題,主要體現(xiàn)在以下幾個方面:(1)程序員負(fù)擔(dān)仍然比較重;(2)易產(chǎn)生數(shù)據(jù)冗余;(3)數(shù)據(jù)獨立性較差;(4)數(shù)據(jù)間聯(lián)系弱;(5)難以滿足不同用戶對數(shù)據(jù)的需求。4.2.3數(shù)據(jù)庫系統(tǒng)管理階段20世紀(jì)60年代后期以來,為了解決多用戶、多應(yīng)用共享數(shù)據(jù)需求,數(shù)據(jù)庫技術(shù)應(yīng)運而生,出現(xiàn)了統(tǒng)一管理數(shù)據(jù)的專門軟件—數(shù)據(jù)庫管理系統(tǒng)。數(shù)據(jù)庫系統(tǒng)管理階段,用戶對數(shù)據(jù)的所有操作都是通過數(shù)據(jù)庫管理系統(tǒng)實現(xiàn)的,而且不再針對數(shù)據(jù)文件編寫應(yīng)用程序。數(shù)據(jù)庫系統(tǒng)管理階段數(shù)據(jù)管理特點如圖所示。數(shù)據(jù)庫系統(tǒng)與文件系統(tǒng)管理數(shù)據(jù)的不同使用文件系統(tǒng)管理數(shù)據(jù)時,應(yīng)用程序直接訪問數(shù)據(jù)文件;而使用數(shù)據(jù)庫管理數(shù)據(jù)時,應(yīng)用程序通過數(shù)據(jù)庫管理系統(tǒng)訪問數(shù)據(jù)。使用數(shù)據(jù)庫管理數(shù)據(jù)時,用戶不再逐一文件進行數(shù)據(jù)訪問,而是針對存儲某個單位或組織全部信息的數(shù)據(jù)庫進行訪問,數(shù)據(jù)文件的存儲位置和存儲結(jié)構(gòu)等信息被數(shù)據(jù)庫隱藏了,而且數(shù)據(jù)文件的這些信息由數(shù)據(jù)庫管理系統(tǒng)統(tǒng)一進行管理。數(shù)據(jù)庫系統(tǒng)階段管理數(shù)據(jù)的特點數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)冗余度低數(shù)據(jù)獨立性高數(shù)據(jù)共享性高并能保證數(shù)據(jù)的一致性數(shù)據(jù)安全性和可靠性較高保證數(shù)據(jù)完整性數(shù)據(jù)模型和關(guān)系數(shù)據(jù)庫第4章03準(zhǔn)備知識模型是對事物、對象、過程等客觀系統(tǒng)中人們感興趣的內(nèi)容的模擬和抽象表達,是理解系統(tǒng)的思維工具。數(shù)據(jù)模型也是一種模型,是計算機世界對現(xiàn)實世界數(shù)據(jù)特征的抽象、表示和處理的工具。數(shù)據(jù)庫不僅要反映數(shù)據(jù)本身內(nèi)容,而且要反映數(shù)據(jù)之間的聯(lián)系,而這種模擬是通過數(shù)據(jù)模型實現(xiàn)的。數(shù)據(jù)模型是數(shù)據(jù)庫的框架,是數(shù)據(jù)庫的核心和基礎(chǔ)。4.3.1兩類數(shù)據(jù)模型數(shù)據(jù)模型用于表達現(xiàn)實世界中的客觀對象,數(shù)據(jù)模型即要面向現(xiàn)實世界同時又要面向計算機世界。數(shù)據(jù)模型滿足三個方面的要求:(1)能夠真實地模擬現(xiàn)實世界;(2)容易被人們理解;(3)能夠方便地在計算機上實現(xiàn)。在數(shù)據(jù)庫系統(tǒng)中針對不同的使用對象和應(yīng)用目的,采用不同的數(shù)據(jù)模型:概念模型、邏輯模型和物理模型。兩類數(shù)據(jù)模型模型可以分為兩類,它們分別屬于兩個不同的層次。第一類是概念模型,第二類是邏輯模型和物理模型。概念模型也稱為信息模型,它是按用戶的觀點對數(shù)據(jù)和信息建模,是對現(xiàn)實世界的事物及其聯(lián)系的第一層抽象。邏輯模型是按計算機系統(tǒng)的觀點對數(shù)據(jù)進行建模,是對現(xiàn)實世界的第二層抽象,主要用于DBMS的實現(xiàn)。物理模型是對數(shù)據(jù)底層的抽象,它描述數(shù)據(jù)在磁盤或磁帶上的存儲方式和存取方法,是面向計算機系統(tǒng)的。客觀事物及其聯(lián)系的抽象過程4.3.2數(shù)據(jù)模型的組成要素數(shù)據(jù)模型是對現(xiàn)實世界中客觀事物的數(shù)據(jù)抽象描述,這種抽象描述能確切地反映事物、事物的特征和事物之間的聯(lián)系,形成一組嚴(yán)格定義的概念的集合。數(shù)據(jù)模型主要由數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)操作、數(shù)據(jù)的完整性約束條件等三要素組成。1.數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu),即數(shù)據(jù)的組織結(jié)構(gòu),主要描述數(shù)據(jù)庫的組成對象及對象之間的聯(lián)系。數(shù)據(jù)結(jié)構(gòu)主要描述兩方面的內(nèi)容:一是與數(shù)據(jù)類型、內(nèi)容、性質(zhì)有關(guān)的對象,例如,關(guān)系模型中的域、屬性、元組、關(guān)系等;二是與數(shù)據(jù)之間聯(lián)系有關(guān)的對象,例如,關(guān)系模型中的外鍵(foreignkey)。數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)模型最重要的組成部分,描述的是數(shù)據(jù)庫的靜態(tài)特征,不同的數(shù)據(jù)模型采用不同的數(shù)據(jù)結(jié)構(gòu)。2.數(shù)據(jù)操作數(shù)據(jù)操作是指對數(shù)據(jù)庫中各種對象(型)的實例(值)允許執(zhí)行的操作的集合,包括操作及有關(guān)的操作規(guī)則,是對系統(tǒng)動態(tài)特性的描述。數(shù)據(jù)庫主要包括檢索和更新兩大類操作,更新操作一般又包括插入、刪除和修改三類操作。數(shù)據(jù)模型必須定義這兩大類操作的確切含義、操作符號、操作規(guī)則(如優(yōu)先級)以及實現(xiàn)操作的語言。3.數(shù)據(jù)的完整性約束條件數(shù)據(jù)的完整性約束條件是一組完整性規(guī)則的集合。完整性規(guī)則是給定的數(shù)據(jù)模型中數(shù)據(jù)及其聯(lián)系所具有的制約和依存規(guī)則,用以限定符合數(shù)據(jù)模型的數(shù)據(jù)庫狀態(tài)以及狀態(tài)的變化,以保證數(shù)據(jù)的正確、有效和相容。數(shù)據(jù)模型應(yīng)該反映和規(guī)定本數(shù)據(jù)模型必須遵守的基本的、通用的完整性約束條件。4.3.3概念模型概念模型是現(xiàn)實世界到計算機世界的一個中間層,是數(shù)據(jù)庫設(shè)計的有力工具,可以很好地輔助數(shù)據(jù)庫設(shè)計人員和用戶進行交流。概念模型一方面應(yīng)該能夠方便、準(zhǔn)確、直接地表達現(xiàn)實世界,另一方面還應(yīng)該簡單、清晰、易于理解。相關(guān)概念實體(Entity):客觀存在并且可以相互區(qū)別的事物稱為實體。實體可以是具體的人、事、物,如一個學(xué)生、一門課程、一個教師,也可以是抽象的概念或聯(lián)系,如學(xué)生選修課程、學(xué)生和班級的隸屬關(guān)系、教師和院系的工作關(guān)系等。屬性(Attribute):實體所具有的某一特性稱為屬性,一個實體可以由若干個屬性來刻畫。例如,學(xué)生實體由學(xué)號、姓名、性別、年齡、院系等若干個屬性組成。屬性有“型”和“值”之分?!靶汀奔礊閷傩悦?,如姓名、性別、院系等都是屬性的型;“值”即為屬性具體的值,如(S01,韓耀飛,男,20,計算機與數(shù)據(jù)科學(xué)學(xué)院),這些屬性組合起來表示一個學(xué)生實體。實體型(EntityType):具有相同屬性的實體必然具有共同的特征和性質(zhì),用實體名及其屬性名集合來抽象和刻畫同類實體,稱為實體型。例如,學(xué)生(學(xué)號,姓名,性別,年齡,所在院系)就是一個實體型。相關(guān)概念實體集(EntitySet):同一類型的集合稱為實體集。例如,全體學(xué)生、全部課程、所有教師都是一個實體集。碼(Key):在實體型中,唯一標(biāo)識一個實體的屬性或?qū)傩约Q為實體的碼。例如,學(xué)號是學(xué)生實體的碼、課程號是課程實體的碼。域(Domain):某一屬性的取值范圍稱為該屬性的域。例如,姓名的域是長度為10的字符串集合,性別的域為(男,女)。相關(guān)概念聯(lián)系(Relationship):在現(xiàn)實世界中,事物內(nèi)部以及事物之間是有聯(lián)系的,這些聯(lián)系在信息世界中反映為實體(型)內(nèi)部的聯(lián)系和實體(型)之間的聯(lián)系。實體(型)內(nèi)部的聯(lián)系通常是指組成實體的各屬性之間的聯(lián)系;實體(型)之間的聯(lián)系通常是指不同實體集之間的聯(lián)系。實體之間的聯(lián)系有一對一、一對多和多對多等3種類型。實體之間的聯(lián)系一對一聯(lián)系(1:1):如果對于實體集A中的每一個實體,實體集B中至多有一個(也可以沒有)實體與之聯(lián)系,反之亦然,則稱實體集A與實體集B具有一對一聯(lián)系,記為1:1。一對多聯(lián)系(1:n):如果對于實體集A中的每一個實體,實體集B中有n個實體(n≥0)與之聯(lián)系,反之,對于實體集B中的每一個實體,實體集A中至多只有一個實體與之聯(lián)系,則稱實體集A與實體集B有一對多聯(lián)系,記為1:n。多對多聯(lián)系(m:n):如果對于實體集A中的每一個實體,實體集B中有n個實體(n≥0)與之聯(lián)系,反之,對于實體集B中的每一個實體,實體集A中也有m個實體(m≥0)與之聯(lián)系,則稱實體集A與實體B具有多對多聯(lián)系,記為m:n。實體之間的聯(lián)系1:11:nm:n4.3.4常用的邏輯數(shù)據(jù)模型邏輯數(shù)據(jù)模型是對現(xiàn)實世界進行抽象的工具,它按計算機系統(tǒng)的觀點對數(shù)據(jù)建模,是數(shù)據(jù)庫系統(tǒng)的核心和基礎(chǔ)。常用的邏輯數(shù)據(jù)模型主要有層次模型(hierarchicalmodel)、網(wǎng)狀模型(networkmodel)和關(guān)系模型(relationalmodel)。層次模型和網(wǎng)狀模型統(tǒng)稱為格式化數(shù)據(jù)模型,又稱非關(guān)系數(shù)據(jù)模型。曾在數(shù)據(jù)庫系統(tǒng)產(chǎn)品中占據(jù)主導(dǎo)地位,目前已逐漸被關(guān)系模型的數(shù)據(jù)庫系統(tǒng)取代。數(shù)據(jù)模型由數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)操作、數(shù)據(jù)的完整性約束條件三要素組成,它們能夠完整地描述一個數(shù)據(jù)模型。1.層次模型層次模型是數(shù)據(jù)庫系統(tǒng)中最早出現(xiàn)的數(shù)據(jù)模型,采用層次模型的數(shù)據(jù)庫的典型代表是IBM公司的IMS(InformationManagementSystem)數(shù)據(jù)庫管理系統(tǒng)。層次模型采用樹形數(shù)據(jù)結(jié)構(gòu)(有向樹)來表示各類實體及實體之間的聯(lián)系。層次模型由結(jié)點和結(jié)點之間的連線構(gòu)成,連線上端的結(jié)點是父結(jié)點或雙親結(jié)點,下端的結(jié)點是子結(jié)點或子女結(jié)點,同一雙親的子女結(jié)點稱為兄弟結(jié)點,沒有子女結(jié)點的結(jié)點稱為葉子結(jié)點。層次模型的結(jié)構(gòu)特點:(1)有且只有一個結(jié)點沒有雙親結(jié)點,這個結(jié)點稱為根結(jié)點;(2)根以外的其它結(jié)點有且只有一個雙親結(jié)點。層次數(shù)據(jù)模型實例層次數(shù)據(jù)對應(yīng)值示例層次模型的數(shù)據(jù)操作與完整性約束層次模型的數(shù)據(jù)操作主要包括插入、刪除、更新和查詢等四種。進行插入、刪除、更新操作時要滿足層次模型的完整性約束條件。進行插入操作時,允許插入沒有相應(yīng)雙親結(jié)點值的子女結(jié)點值。進行刪除操作時,如果刪除雙親結(jié)點值,則相應(yīng)的子女結(jié)點值也將被同時刪除。進行更新操作時,應(yīng)更新所有相應(yīng)記錄,以保證數(shù)據(jù)的一致性。層次模型的優(yōu)點層次模型的數(shù)據(jù)結(jié)構(gòu)比較簡單,易于在計算機內(nèi)實現(xiàn)。層次數(shù)據(jù)庫的查詢效率高。層次模型中從根結(jié)點到樹形結(jié)構(gòu)中任一結(jié)點都存在一條唯一的層次路經(jīng),當(dāng)要查詢某個結(jié)點的記錄值時,DBMS沿著這條路經(jīng)能很快找到該記錄值。層次數(shù)據(jù)模型提供了良好的完整性支持。層次模型的缺點不適合表示非層次的聯(lián)系,而現(xiàn)實世界中很多聯(lián)系是非層次性的。不能直接表示兩個以上實體型之間的復(fù)雜聯(lián)系和實體之間的多對多聯(lián)系,只能通過引入冗余節(jié)點或創(chuàng)建虛擬結(jié)點實現(xiàn),易產(chǎn)生不一致數(shù)據(jù),對插入和刪除操作的限制比較多。查詢子女結(jié)點必須通過雙親結(jié)點。由于結(jié)構(gòu)嚴(yán)密,層次命令趨于程序化。2.網(wǎng)狀模型在現(xiàn)實世界中事物之間的聯(lián)系更多的是非層次關(guān)系,使用層次模型不能直接方便地表示非層次關(guān)系,網(wǎng)狀模型則可以克服這一弊端。20世紀(jì)70年代數(shù)據(jù)系統(tǒng)語言研究會CODASYL下屬的數(shù)據(jù)庫任務(wù)組(DBTG)提出了一個系統(tǒng)方案,即DBTG系統(tǒng),又稱CoDASYL系統(tǒng),是網(wǎng)狀模型的典型代表。網(wǎng)狀模型的數(shù)據(jù)結(jié)構(gòu)網(wǎng)狀模型采用圖形數(shù)據(jù)結(jié)構(gòu)(有向圖)來表示各種實體及實體之間的聯(lián)系,它允許一個以上的結(jié)點無雙親,一個結(jié)點可以有多個雙親結(jié)點,允許兩個結(jié)點之間有多種聯(lián)系。網(wǎng)狀模型可以更直接地去描述現(xiàn)實世界,而層次模型實際上是網(wǎng)狀模型的一個特例。與層次模型一樣,網(wǎng)狀模型中每個結(jié)點表示一個記錄類型(實體),每個記錄類型可包含若干個字段(實體的屬性),結(jié)點間的帶箭頭的連線表示記錄類型(實體)之間的一對多聯(lián)系。網(wǎng)狀數(shù)據(jù)模型實例網(wǎng)狀模型的數(shù)據(jù)操作與完整性約束網(wǎng)狀模型的數(shù)據(jù)操作主要包括插入、刪除、更新和查詢等四種。進行插入、刪除、更新操作時要滿足網(wǎng)狀模型的完整性約束條件。進行插入操作時,如果沒有相應(yīng)的雙親結(jié)點值就不能插入它的子女結(jié)點值。進行刪除操作時,允許只刪除雙親結(jié)點值。進行更新操作時,只需更新指定記錄即可。網(wǎng)狀模型的優(yōu)缺點能夠更為直接地描述現(xiàn)實世界,可表示實體之間的多種聯(lián)系。具有良好的性能,存取效率較高。網(wǎng)狀模型的缺點結(jié)構(gòu)比較復(fù)雜,而且隨著應(yīng)用環(huán)境的擴大,數(shù)據(jù)庫的結(jié)構(gòu)就變得越來越復(fù)雜,最終用戶很難掌握。網(wǎng)狀模型的DDL和DML語言非常復(fù)雜,用戶不易掌握和使用。由于記錄之間的聯(lián)系實際上是通過存取路經(jīng)實現(xiàn)的,應(yīng)用程序在訪問數(shù)據(jù)庫中的數(shù)據(jù)時必須指定合適的存取路經(jīng),因此程序員必須了解系統(tǒng)結(jié)構(gòu)的細(xì)節(jié),加重了編寫應(yīng)用程序的負(fù)擔(dān)。3.關(guān)系模型關(guān)系模型是目前最常用的一種數(shù)據(jù)模型。關(guān)系數(shù)據(jù)庫系統(tǒng)采用關(guān)系模型作為數(shù)據(jù)的組織方式。1970年,美國IBM公司的研究員E.F.Codd首次提出了數(shù)據(jù)系統(tǒng)的關(guān)系數(shù)據(jù)模型,開創(chuàng)了數(shù)據(jù)庫關(guān)系方法和關(guān)系數(shù)據(jù)理論的研究,為數(shù)據(jù)庫技術(shù)奠定了理論基礎(chǔ)。關(guān)系模型的概念簡單、清晰,并且具有嚴(yán)格的數(shù)據(jù)基礎(chǔ),形成了關(guān)系數(shù)據(jù)理論,操作也直觀、容易,因此易學(xué)易用。關(guān)系模型的數(shù)據(jù)結(jié)構(gòu)關(guān)系模型的數(shù)學(xué)基礎(chǔ)是關(guān)系代數(shù)。關(guān)系模型是目前最重要的一種數(shù)據(jù)模型,它由一組關(guān)系組成,每個關(guān)系的數(shù)據(jù)邏輯結(jié)構(gòu)是一張規(guī)范化的二維表,它由表名、表頭和表體三部分構(gòu)成,表名為二維表的名稱,表頭為二維表的結(jié)構(gòu),表體為二維表中的數(shù)據(jù),如圖就是一個二維表,即學(xué)生關(guān)系。概念關(guān)系(relation):一個關(guān)系對應(yīng)一張二維表,表名和關(guān)系名相對應(yīng)。元組(tuple):二維表中的一行即為一個元組,有的系統(tǒng)中也稱為一條記錄,例如,上表中(S01,韓耀飛,男,20,08)就是一個元組。屬性(attribute):二維表中的一列為一個屬性(或字段),每個屬性都有一個名字,稱為屬性名。二維表中對應(yīng)某列的值為屬性值,例如,上表中學(xué)生關(guān)系有學(xué)號、姓名、性別、年齡、院系編號五個屬性。域(domain):二維表中屬性的取值范圍。例如,Sex的域為(男,女)。概念分量(element):元組中的一個屬性值為元組的一個分量,例如,(S01,韓耀飛,男,20,08)有5個分量,分別為“S01”、“韓耀飛”、“男”、“20”和“08”。碼(key):若二維表中的某個屬性或?qū)傩越M可以唯一的確定一個元組,則稱該屬性或?qū)傩越M為候選碼(candidatekey)。包含在候選碼中的屬性稱為主屬性。若一個關(guān)系有多個候選碼,則選定其中一個作為主碼(primarykey)。關(guān)系模式(relationmode):對關(guān)系的描述,一般的表示形式為關(guān)系名(屬性1,屬性2,…,屬性n),例如圖4-12中的學(xué)生關(guān)系的關(guān)系模式可以描述為學(xué)生(學(xué)號,姓名,性別,年齡,學(xué)院編號)。關(guān)系數(shù)據(jù)庫(relationdatabase):對應(yīng)于一個關(guān)系模型的所有關(guān)系的集合稱為關(guān)系數(shù)據(jù)庫。關(guān)系模型的數(shù)據(jù)操作關(guān)系模型的數(shù)據(jù)操縱主要包括插入、刪除、更新和查詢等四種。進行插入、刪除、更新操作時要滿足關(guān)系模型的完整性約束條件。關(guān)系模型中的數(shù)據(jù)操作是集合操作,操作對象和操作結(jié)果都是關(guān)系。關(guān)系的完整性約束關(guān)系的完整性約束主要包括實體完整性、參照完整性和用戶自定義完整性。假設(shè)有一個學(xué)生選課關(guān)系數(shù)據(jù)庫,包括學(xué)生、課程和選課三個關(guān)系,主碼用下劃線標(biāo)識,則這3個關(guān)系可表示為:學(xué)生(學(xué)號,姓名,性別,年齡,所在學(xué)院)課程(課程號,課程名,學(xué)分)選課(學(xué)號,課程號,成績)學(xué)生關(guān)系與選課關(guān)系存在屬性引用,即選課關(guān)系引用了學(xué)生關(guān)系的主碼“學(xué)號”,則稱“學(xué)號”屬性為選課關(guān)系的外碼,選課關(guān)系為參照關(guān)系,學(xué)生關(guān)系為被參照關(guān)系。同樣,“課程號”屬性也是選課關(guān)系的外碼,課程關(guān)系為被參照關(guān)系。綜上,有如下定義:(1)實體完整性:主屬性不能為空值,例如學(xué)生關(guān)系的“學(xué)號”的取值不能為空。(2)參照完整性:外碼的取值只能為空值或者等于被參照關(guān)系中某個主碼的值。例如選課關(guān)系中的“學(xué)號”只能為學(xué)生關(guān)系中“學(xué)號”的某個取值。(3)用戶自定義完整性:針對某一個具體應(yīng)用所定義的約束條件,例如學(xué)生的選課成績?nèi)≈抵荒転?~100某個值。關(guān)系模型的優(yōu)缺點與層次、網(wǎng)狀等非關(guān)系模型相比,關(guān)系模型的優(yōu)勢主要表現(xiàn)在以下三個方面。(1)關(guān)系模型是建立在嚴(yán)格的數(shù)學(xué)理論基礎(chǔ)之上的。(2)關(guān)系模型的數(shù)據(jù)結(jié)構(gòu)單一。無論是事物還是事物之間的聯(lián)系,都是用關(guān)系來表示的。(3)關(guān)系模型的存取路徑對用戶透明,從而具有更高的數(shù)據(jù)獨立性、更好的安全保密性,也簡化了程序員的工作和數(shù)據(jù)庫開發(fā)的工作。當(dāng)然,關(guān)系模型也有自身缺點,例如,由于存取路徑對用戶是隱蔽的,與非關(guān)系數(shù)據(jù)模型相比,查詢效率較低。4.3.5典型的關(guān)系數(shù)據(jù)庫產(chǎn)品目前使用的關(guān)系數(shù)據(jù)庫管理系統(tǒng)很多,根據(jù)所能夠容納的數(shù)據(jù)容量可以分為大型或中小型數(shù)據(jù)庫管理系統(tǒng),也可分為支持網(wǎng)絡(luò)的數(shù)據(jù)庫管理系統(tǒng)和只支持單用戶的數(shù)據(jù)庫管理系統(tǒng)。大型的數(shù)據(jù)庫軟件有IBM的DB2,甲骨文公司的Oracle,微軟公司的SQLServer等。中小型用戶的數(shù)據(jù)庫系統(tǒng)有微軟的FoxPro,Access等。關(guān)系數(shù)據(jù)庫標(biāo)準(zhǔn)語言SQL第4章04結(jié)構(gòu)化查詢語言結(jié)構(gòu)化查詢語言(StructuredQueryLanguage,SQL)是關(guān)系數(shù)據(jù)庫管理系統(tǒng)的標(biāo)準(zhǔn)語言,具有數(shù)據(jù)定義、數(shù)據(jù)查詢、數(shù)據(jù)操縱、數(shù)據(jù)控制等四個方面的功能。SQL語言結(jié)構(gòu)簡單,功能齊全,是目前最廣泛應(yīng)用的關(guān)系型數(shù)據(jù)庫查詢語言。SQL簡單易學(xué),功能豐富,幾乎所有主流的關(guān)系數(shù)據(jù)庫管理系統(tǒng)都是基于SQL基本命令實現(xiàn)。SQL的命令及功能SQLServer2019比較完整地支持了SQL語言的強大功能。SQL語言比較簡單,接近自然語言,功能強大,完成核心功能只用了9個動詞,如表所示。4.4.1數(shù)據(jù)定義數(shù)據(jù)庫的定義創(chuàng)建數(shù)據(jù)庫語句的簡化格式:CREATEDATABASE<數(shù)據(jù)庫名>;例如,創(chuàng)建一個學(xué)生選課管理數(shù)據(jù)庫xsxk的基本命令語句為CREATEDATABASExsxk;。數(shù)據(jù)表的定義定義數(shù)據(jù)表語句的一般格式為:CREATETABLE<表名>(<列名><數(shù)據(jù)類型>[列級完整性約束條件][,<列名><數(shù)據(jù)類型>[列級完整性約束條件]]……[,<表級完整性約束條件>]);數(shù)據(jù)表定義示例例如,在xsxk數(shù)據(jù)庫中創(chuàng)建學(xué)生基本信息表Student,包含學(xué)號(Sno)、姓名(Sname)、性別(Sex)、年齡(Age)、所在院系(Dept)等屬性。CREATETABLEStudent(SnoCHAR(10)PRIMARYKEY,SnameCHAR(20)UNIQUE,SexCHAR(2),AgeSMALLINT,DeptCHAR(30));4.4.2數(shù)據(jù)操縱數(shù)據(jù)操縱是指對表中的數(shù)據(jù)進行插入、修改、刪除等操作,與SQL中的數(shù)據(jù)操縱動詞INSERT、UPDATE、DELETE相對應(yīng)。1.插入數(shù)據(jù)插入數(shù)據(jù)語句的一般格式為:INSERTINTO<表名>[(列名1)[,(列名2)…]]VALUES(數(shù)值1[,數(shù)值2...]);該語句的功能是向特定表中插入一行數(shù)據(jù)(一個元組),新元組的屬性列1的值為常量1,屬性列2的值為常量2,以此類推。例如,向Student表中插入一個學(xué)生信息“085421101,張三,男,18,計算機與數(shù)據(jù)科學(xué)學(xué)院”。INSERTINTOStudentVALUES(‘085421101’,’張三’,‘男’,18,‘計算機與數(shù)據(jù)科學(xué)學(xué)院’);2.修改數(shù)據(jù)修改數(shù)據(jù)語句的一般格式為:UPDATE<表名>SET<列名1>=<表達式1>[,<列名n>=<表達式n>][WHERE<條件>];該語句的功能是修改特定表中滿足WHERE子句條件的元組,SET子句給出的表達式的值代替相應(yīng)的屬性列的值。如果省略WHERE子句,則表示要修改特定表中的所有元組。例如,將Student表中學(xué)號為085421101學(xué)生的年齡修改為20歲。UPDATEStudentSETAge=20WHERESno=‘085421101’;3.刪除數(shù)據(jù)刪除數(shù)據(jù)語句的一般格式為:DELETEFROM<表名>[WHERE<條件>];該語句的功能是刪除特定表中滿足WHERE子句條件的元組,若省略WHERE子句,則表示刪除表中全部元組。例如,刪除Student表中學(xué)號為085421101學(xué)生的信息。DELETEFROMStudentWHERESno=‘085421101’;4.4.3數(shù)據(jù)查詢數(shù)據(jù)查詢是指按照用戶的要求從數(shù)據(jù)庫總獲取所需要的數(shù)據(jù)。SQL提供了使用簡單、方式靈活、功能強大的查詢語句。查詢語句的一般語法格式為:SELECT[ALL|DISTINCT]<目標(biāo)列表達式>[別名][,<目標(biāo)列表達式>[別名]]...FROM<表名或視圖名>[別名][,<表名或視圖名>[別名]...]|(<SELECT語句>[AS]<別名>)[WHERE<條件表達式>][GROUPBY<列名1>[HAVING<條件表達式>]][ORDERBY<列名2>[ASC|DESC]];數(shù)據(jù)查詢示例查詢計算機與數(shù)據(jù)科學(xué)學(xué)院學(xué)生的學(xué)號、姓名、所在院系。SELECTSno,Sname,DeptFROMStudentWHEREDept=‘計算機與數(shù)據(jù)科學(xué)學(xué)院’;4.4.4數(shù)據(jù)控制1.授予權(quán)限GRANT語句向用戶授予權(quán)限,其一般語法格式為:GRANT<權(quán)限>[,<權(quán)限>]...ON<對象類型><對象名>[,<對象類型><對象名>]…TO<用戶>[,<用戶>]...[WITHGRANTOPTION];GRANT語句將對指定操作對象的指定操作權(quán)限授予指定的用戶;如果指定了WITHGRANTOPTION子句,則獲得某種權(quán)限的用戶還可以把這種權(quán)限再授予其他的用戶。例如,將查詢Student表的權(quán)限授予用戶zhang。

GRANTSELECTONTABLEStudentTOzhang;2.收回權(quán)限REVOKE語句收回已經(jīng)授予用戶的權(quán)限,其一般語法格式為:REVOKE<權(quán)限>[,<權(quán)限>]...ON<對象類型><對象名>[,<對象類型><對象名>]…FROM<用戶>[,<用戶>]...[CASCADE|RESTRICT];授予用戶的權(quán)限可以由數(shù)據(jù)庫管理員或其他授權(quán)者用REVOKE語句收回;CASCADE表示級聯(lián)收回,否則系統(tǒng)拒絕此操作。例如,收回向用戶zhang授予的查詢Student的權(quán)限。REVOKESELECTONStudentFROMzhang;數(shù)據(jù)倉庫和數(shù)據(jù)挖掘第4章054.5.1數(shù)據(jù)倉庫數(shù)據(jù)倉庫(DataWarehouse,簡稱DW)是近年來數(shù)據(jù)庫領(lǐng)域發(fā)展的一種新技術(shù),它建立在原有數(shù)據(jù)庫的基礎(chǔ)之上,是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合,用于支持企業(yè)(或組織)商業(yè)決策制定過程。1.?dāng)?shù)據(jù)倉庫的基本特征面向主題操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織。集成數(shù)據(jù)倉庫中的數(shù)據(jù)是從不同的數(shù)據(jù)源中抽取出來的,而不同數(shù)據(jù)源中的數(shù)據(jù)通常是分散的、異構(gòu)的、不一致的。因此,如果要將不同數(shù)據(jù)源中的數(shù)據(jù)合并到數(shù)據(jù)倉庫,必須按照統(tǒng)一的結(jié)構(gòu)和格式,相同的語義將這些數(shù)據(jù)進行加工和集成,以保證數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的、全局的、一致的信息。穩(wěn)定且不可更新操作型數(shù)據(jù)庫中的數(shù)據(jù)因業(yè)務(wù)操作通常不斷發(fā)生變化,實時更新。數(shù)據(jù)倉庫主要用于決策分析,主要涉及數(shù)據(jù)查詢和加載操作,一般不進行更新操作。隨時間不斷變化用戶雖然不能更改數(shù)據(jù)倉庫中的數(shù)據(jù),但隨著時間變化,數(shù)據(jù)倉庫系統(tǒng)會進行定期刷新,不斷添加新數(shù)據(jù)到數(shù)據(jù)倉庫,以隨時導(dǎo)出新的綜合數(shù)據(jù)和統(tǒng)計數(shù)據(jù),同時系統(tǒng)會刪除一些舊數(shù)據(jù)。2.?dāng)?shù)據(jù)倉庫的體系結(jié)構(gòu)一個典型的數(shù)據(jù)倉庫系統(tǒng)一般由后臺工具、數(shù)據(jù)倉庫服務(wù)器、OLAP服務(wù)器和前臺工具等幾部分組成,如圖所示。4.5.2數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,簡稱DM),是從大量數(shù)據(jù)中發(fā)現(xiàn)并提取隱藏在內(nèi)的、人們事先不知道的但又可能有潛在利用價值的信息和知識的一種新技術(shù)。從定義描述中,可以得出數(shù)據(jù)挖掘包含以下幾層含義。(1)數(shù)據(jù)是真實的、大量的;(2)發(fā)現(xiàn)的是用戶感興趣的知識;(3)發(fā)現(xiàn)的知識支持特定的問題,要可理解、可運用;典型的數(shù)據(jù)挖掘體系結(jié)構(gòu)數(shù)據(jù)挖掘方法分類和預(yù)測分類和預(yù)測可以對數(shù)據(jù)進行分析,找到一定的函數(shù)或者模型來描述和區(qū)分?jǐn)?shù)據(jù)類之間的不同,并用這些函數(shù)和模型對未來進行預(yù)測。關(guān)聯(lián)分析通過發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián),獲取有價值的知識,為決策提供依據(jù)。聚類聚類將數(shù)據(jù)劃分為多個有意義的子集(類),使得類內(nèi)部數(shù)據(jù)之間的差異最小,而類之間數(shù)據(jù)的差異最大。偏差檢測數(shù)據(jù)庫中的通常會有一些異常數(shù)據(jù),從數(shù)據(jù)庫中檢測這些偏差非常有意義。大數(shù)據(jù)技術(shù)第4章064.6.1大數(shù)據(jù)產(chǎn)生的背景現(xiàn)代信息技術(shù)產(chǎn)業(yè)已經(jīng)經(jīng)過70多年的發(fā)展歷程,伴著三次信息化浪潮,我們進入了一個以數(shù)據(jù)為中心的時代—大數(shù)據(jù)時代。隨著物聯(lián)網(wǎng)和云計算技術(shù)不斷地融入人們的生活,數(shù)據(jù)庫研究人員發(fā)現(xiàn)處理的數(shù)據(jù)呈現(xiàn)爆炸式增長,他們開始探索研究大數(shù)據(jù)技術(shù),以發(fā)現(xiàn)大數(shù)據(jù)不可忽視的商業(yè)價值。大數(shù)據(jù)是一次對國家宏觀調(diào)控、商業(yè)戰(zhàn)略決策、服務(wù)業(yè)務(wù)和管理方式以及每個人的生活都具有重大影響的一次數(shù)據(jù)技術(shù)革命。4.6.2大數(shù)據(jù)的特征巨量大數(shù)據(jù)的首要特征是數(shù)據(jù)量巨大,而且在持續(xù)、急劇地膨脹。據(jù)國際著名的咨詢公司IDC的研究報告稱,2020年全球數(shù)據(jù)總量約40ZB,人均5.2TB。多樣大數(shù)據(jù)的多樣性通常是指異構(gòu)的數(shù)據(jù)類型、不同的數(shù)據(jù)表示和語義解釋。現(xiàn)在,越來越多的計算機應(yīng)用領(lǐng)域產(chǎn)生的數(shù)據(jù)類型不再僅僅是純粹的關(guān)系數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù)),更多的是半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)??熳兇髷?shù)據(jù)的快變性也稱為實時性,一方面,社會、經(jīng)濟、文化等各個領(lǐng)域每分鐘都產(chǎn)生大量的數(shù)據(jù);另一方面,大數(shù)據(jù)時代很多應(yīng)用要求對數(shù)據(jù)實時響應(yīng),能夠進行數(shù)據(jù)處理的時間很短。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。價值大數(shù)據(jù)的價值是潛在的、巨大的。大數(shù)據(jù)不僅具有經(jīng)濟價值和產(chǎn)業(yè)價值,還具有科學(xué)價值。4.6.3大數(shù)據(jù)的關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù),是指從各種類型的數(shù)據(jù)中快速獲得有價值信息的技術(shù),涵蓋大數(shù)據(jù)存儲、處理、應(yīng)用等多方面。根據(jù)大數(shù)據(jù)的處理過程,可將大數(shù)據(jù)處理的關(guān)鍵技術(shù)分為大數(shù)據(jù)采集技術(shù)、大數(shù)據(jù)預(yù)處理技術(shù)、大數(shù)據(jù)存儲及管理技術(shù)、大數(shù)據(jù)分析及挖掘技術(shù)、大數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論