《財務(wù)大數(shù)據(jù)分析》課件項目一 任務(wù)2_第1頁
《財務(wù)大數(shù)據(jù)分析》課件項目一 任務(wù)2_第2頁
《財務(wù)大數(shù)據(jù)分析》課件項目一 任務(wù)2_第3頁
《財務(wù)大數(shù)據(jù)分析》課件項目一 任務(wù)2_第4頁
《財務(wù)大數(shù)據(jù)分析》課件項目一 任務(wù)2_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

VIP免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

任務(wù)1大數(shù)據(jù)基礎(chǔ)認(rèn)知任務(wù)2數(shù)據(jù)庫基礎(chǔ)認(rèn)知項目一大數(shù)據(jù)基礎(chǔ)什么是大數(shù)據(jù)/video/BV17P4y157Ke任務(wù)1大數(shù)據(jù)基礎(chǔ)知識01一、數(shù)據(jù)庫、數(shù)據(jù)庫系統(tǒng)及數(shù)據(jù)庫管理系統(tǒng)的基本概念數(shù)據(jù)庫(DataBase,簡稱DB):就是數(shù)據(jù)的倉庫,是長期儲存在計算機(jī)內(nèi)的、有組織的、可共享的數(shù)據(jù)集合。數(shù)據(jù)庫中的數(shù)據(jù)按一定的數(shù)據(jù)模型組織、描述和儲存,具有較小的冗余度、較高的數(shù)據(jù)獨立性和易擴(kuò)展性,并可被各種用戶共享。

數(shù)據(jù)庫系統(tǒng)(DataBaseSystem,簡稱DBS):是指在計算機(jī)系統(tǒng)中引入數(shù)據(jù)庫后的系統(tǒng),一般由數(shù)據(jù)庫、數(shù)據(jù)庫管理系統(tǒng)(及其開發(fā)工具)、應(yīng)用系統(tǒng)、數(shù)據(jù)庫管理員構(gòu)成。解析數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)庫是兩個概念。數(shù)據(jù)庫系統(tǒng)是一個人一機(jī)系統(tǒng),數(shù)據(jù)庫是數(shù)據(jù)庫系統(tǒng)的一個組成部分。但是在日常工作中人們常常把數(shù)據(jù)庫系統(tǒng)簡稱為數(shù)據(jù)庫。

數(shù)據(jù)庫管理系統(tǒng)(DataBaseManagementSystem,簡稱DBMS):是位于用戶與操作系統(tǒng)之間的一層數(shù)據(jù)管理軟件,用于科學(xué)地組織和存儲數(shù)據(jù)、高效地獲取和維護(hù)數(shù)據(jù)。數(shù)據(jù)庫管理系統(tǒng)是用來對數(shù)據(jù)進(jìn)行存儲、管理等操作的軟件。數(shù)據(jù)庫管理系統(tǒng)的主要功能包括數(shù)據(jù)定義、數(shù)據(jù)操縱、數(shù)據(jù)庫的運行管理、數(shù)據(jù)庫的建立和維護(hù)。(一)大數(shù)據(jù)的起源二、數(shù)據(jù)庫分類數(shù)據(jù)庫通常分為層次式數(shù)據(jù)庫、網(wǎng)絡(luò)式數(shù)據(jù)庫和關(guān)系式數(shù)據(jù)庫三種。而不同的數(shù)據(jù)庫是按不同的數(shù)據(jù)結(jié)構(gòu)來聯(lián)系和組織的。而在當(dāng)今的互聯(lián)網(wǎng)中,最常見的數(shù)據(jù)庫模型主要是兩種,即關(guān)系型數(shù)據(jù)庫(SQL)和非關(guān)系型數(shù)據(jù)庫(NoSQL,NotOnlySQL)。(一)大數(shù)據(jù)的起源

(一)關(guān)系型數(shù)據(jù)庫1.關(guān)系型數(shù)據(jù)庫的基本概念關(guān)系型數(shù)據(jù)庫是指采用了關(guān)系模型來組織數(shù)據(jù)的數(shù)據(jù)庫,其以行和列的形式存儲數(shù)據(jù),以便用戶理解。關(guān)系型數(shù)據(jù)庫這一系列的行和列被稱為表,一組表組成了數(shù)據(jù)庫。關(guān)系模型可以簡單理解為二維表格模型,而一個關(guān)系型數(shù)據(jù)庫就是由二維表及其之間的關(guān)系組成的一個數(shù)據(jù)組織。二維表格模型見表1-1。

表1-1二維表格模型

關(guān)系型數(shù)據(jù)庫的最大特點就是事務(wù)的一致性。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫讀寫操作都是事務(wù)的,具有ACID,即Atomic(原子性)、Consistency(一致性)、Isolation(隔離性)和Durability(持久性)的特點,這個特性使得關(guān)系型數(shù)據(jù)庫可以用于幾乎所有對一致性有要求的系統(tǒng)中,如典型的銀行系統(tǒng)。常見的關(guān)系型數(shù)據(jù)庫有以下幾種,見表1-2。

表1-2關(guān)系型數(shù)據(jù)庫類型2.關(guān)系型數(shù)據(jù)庫的特性關(guān)系型數(shù)據(jù)庫以其強(qiáng)大的功能備受業(yè)界青睞,并應(yīng)用廣泛。其具有以下特性:(1)關(guān)系型數(shù)據(jù)庫,是指采用了關(guān)系模型來組織數(shù)據(jù)的數(shù)據(jù)庫。(2)關(guān)系型數(shù)據(jù)庫的最大特點就是事務(wù)的一致性。(3)關(guān)系模型指的就是二維表格模型,而一個關(guān)系型數(shù)據(jù)庫就是由二維表及其之間的聯(lián)系所組成的一個數(shù)據(jù)組織。03

關(guān)系型數(shù)據(jù)庫有以下優(yōu)點:(1)容易理解:二維表結(jié)構(gòu)是非常貼近邏輯世界的一個概念,關(guān)系模型相對網(wǎng)狀、層次等其他模型來說更容易理解。(2)使用方便:通用的SQL語言使得操作關(guān)系型數(shù)據(jù)庫非常方便。(3)易于維護(hù):豐富的完整性(實體完整性、參照完整性和用戶定義的完整性)大大降低了數(shù)據(jù)冗余和數(shù)據(jù)不一致的概率。04關(guān)系型數(shù)據(jù)庫有以下缺點:(1)數(shù)據(jù)讀寫必須經(jīng)過sql解析,大量數(shù)據(jù)、高并發(fā)下讀寫性能不足。對于傳統(tǒng)關(guān)系型數(shù)據(jù)庫來說,硬盤I/O是一個很大的瓶頸。(2)具有固定的表結(jié)構(gòu),因此擴(kuò)展困難。(3)多表的關(guān)聯(lián)查詢導(dǎo)致性能欠佳。3.MySQL概述MySQL本質(zhì)上是一個數(shù)據(jù)庫管理系統(tǒng),最初是由“MySQLAB公司”開發(fā)的一套關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS-RelationDataBaseManagementSystem)。MySQL不僅是最流行的開源數(shù)據(jù)庫,而且是業(yè)界成長最快的數(shù)據(jù)庫,每天有超過7萬次的下載量,其應(yīng)用范圍從大型企業(yè)到專有的嵌入應(yīng)用系統(tǒng)。在MySQL服務(wù)器中,可以創(chuàng)建很多數(shù)據(jù)庫(database)。

MySQLAB是由:兩個瑞典人DavidAxmark、AllanLarsson和一個荷蘭人Michael“Monty”Widenius在瑞典創(chuàng)辦的。2008年年初,SunMicrosystems收購了MySQLAB公司。2009年,Oracle收購了Sun公司,使MySQL并入Oracle的數(shù)據(jù)庫產(chǎn)品線。MySQL是開放源碼的小型關(guān)系型數(shù)據(jù)庫管理系統(tǒng),廣泛應(yīng)用在中小型網(wǎng)站中,總體擁有成本低,規(guī)模較Oracle和DB2小。其具有以下優(yōu)點:(1)體積小、速度快、總體擁有成本低,開源,提供的接口支持多種語言連接操作,支持多種操作系統(tǒng)。(2)MySQL的核心程序采用完全的多線程編程。線程是輕量級的進(jìn)程,它可以靈活地為用戶提供服務(wù),而不過多的系統(tǒng)資源。用多線程和C語言實現(xiàn)的MySQL能很容易充分利用CPU。(3)MySQL有一個非常靈活而且安全的權(quán)限和口令系統(tǒng)。當(dāng)客戶與MySQL服務(wù)器連接時,它們之間所有的口令傳送被加密,而且MySQL支持主機(jī)認(rèn)證。

(4)MySQL能夠提供很多不同的使用者界面,包括命令行客戶端操作、網(wǎng)頁瀏覽器,以及各式各樣的程序語言界面,如C++、Perl、Java、PHP,以及Python。用戶可以使用事先包裝好的客戶端,或者干脆自己寫一個合適的應(yīng)用程序。MySQL可用于Unix、Windows,以及OS/2等平臺,因此它可以用在個人電腦或者服務(wù)器上。在使用過程中,MySQL的某些特性也限制了其進(jìn)一步發(fā)展,其缺點如下:(1)不支持熱備份。(2)MySQL不支持自定義數(shù)據(jù)類型。(3)MySQL最大的缺點是其安全系統(tǒng),主要是復(fù)雜而非標(biāo)準(zhǔn),另外只有到調(diào)用mysqladmin來重讀用戶權(quán)限時才發(fā)生改變。(4)MySQL對存儲過程和觸發(fā)器支持不夠良好。(5)盡管MySQL理論上仍是開源產(chǎn)品,也有人抱怨它誕生之后更新緩慢,但是應(yīng)該注意到有一些基于MySQL并完整集成的數(shù)據(jù)庫(如MariaDB)在標(biāo)準(zhǔn)的MySQL基礎(chǔ)上帶來了額外價值。(6)MySQL對XML支持不夠良好。

(二)非關(guān)系型數(shù)據(jù)庫1.非關(guān)系型數(shù)據(jù)庫的基本概念非關(guān)系型數(shù)據(jù)庫,也叫Nosql數(shù)據(jù)庫,全稱是notnolysql。非關(guān)系型數(shù)據(jù)庫提出另一種理念,例如,以鍵值對存儲,且結(jié)構(gòu)不固定,每一個元組可以有不一樣的字段,每個元組可以根據(jù)需要增加一些自己的鍵值對,這樣就不會局限于固定的結(jié)構(gòu),可以減少一些時間和空間的開銷。使用這種方式,用戶可以根據(jù)需要去添加自己需要的字段,這樣,為了獲取用戶的不同信息,不需要像關(guān)系型數(shù)據(jù)庫中要對多表進(jìn)行關(guān)聯(lián)查詢,僅需要根據(jù)id取出相應(yīng)的value就可以完成查詢。NoSQL數(shù)據(jù)存儲不需要固定的表結(jié)構(gòu),通常也不存在連接操作,就是表與表之間沒有直接關(guān)系,創(chuàng)建的話也不用遵循三大范式,并且是以鍵值對存儲。它的結(jié)構(gòu)不固定,每一個元組可以有不一樣的字段,每個元組可以根據(jù)需要增加一些自己的鍵值對,這樣就不會局限于固定的結(jié)構(gòu),可以減少一些時間和空間的開銷,可以處理超大量的數(shù)據(jù),運行在便宜的PC服務(wù)器集群上,能很大程度上節(jié)省開銷。常見的非關(guān)系型數(shù)據(jù)庫有:MongoDB、NoSql、Redis、Memcached、HBase等。2.非關(guān)系型數(shù)據(jù)庫的特性非關(guān)系型數(shù)據(jù)庫主要是為了解決復(fù)雜、海量數(shù)據(jù)的存儲問題,具有較高水平的橫向拓展水平。其有以下特性:(1)模式自由:不需要定義表結(jié)構(gòu),數(shù)據(jù)表中的每條記錄都可能有不同的屬性和格式。(2)逆規(guī)范化:不遵循范式要求,去掉完整性約束,減少表之間的依賴。(3)彈性可擴(kuò)展:可在系統(tǒng)運行的過程中動態(tài)地刪除和增加節(jié)點。(4)多副本異步復(fù)制:數(shù)據(jù)快速寫入一個節(jié)點,其余節(jié)點通過讀取寫入的日志來實現(xiàn)異步復(fù)制。(5)弱事務(wù):不能完全滿足事務(wù)的ACID特性,但是可以保證事務(wù)的最終一致性。非關(guān)系型數(shù)據(jù)庫為非結(jié)構(gòu)化的存儲方式,基于多維關(guān)系模型,而且具有特有的使用場景。其優(yōu)點有以下幾點:(1)高并發(fā),大數(shù)據(jù)下讀寫能力較強(qiáng)。(2)基于鍵值對的,數(shù)據(jù)之間沒有耦合性,可以想象成表中的主鍵和值的對應(yīng)關(guān)系,而且不需要經(jīng)過SQL層的解析,所以讀寫性能非常高。(3)基本支持分布式,易于擴(kuò)展,可伸縮。(4)簡單,弱結(jié)構(gòu)化存儲。非關(guān)系型數(shù)據(jù)庫的缺點如下:(1)不提供SQL支持,學(xué)習(xí)和使用成本較高;(2)無事務(wù)處理,附加功能bi和報表等支持也不好。

三、SQL概述SQL(StructuredQueryLanguage)全稱為結(jié)構(gòu)化查詢語言,是一種特殊目的的編程語言,是一種數(shù)據(jù)庫查詢和程序設(shè)計語言,用于存取數(shù)據(jù)以及查詢、更新和管理關(guān)系數(shù)據(jù)庫系統(tǒng)。通俗來講,SQL就是用來和數(shù)據(jù)庫打交道,用SQL語言完成和數(shù)據(jù)庫的通信,SQL也是一套標(biāo)準(zhǔn)。結(jié)構(gòu)化查詢語言是高級的非過程化編程語言,允許用戶在高層數(shù)據(jù)結(jié)構(gòu)上工作。它不要求用戶指定對數(shù)據(jù)的存放方法,也不需要用戶了解具體的數(shù)據(jù)存放方式,所以具有完全不同底層結(jié)構(gòu)的數(shù)據(jù)庫系統(tǒng)可以使用相同的結(jié)構(gòu)化查詢語言作為數(shù)據(jù)輸入與管理的接口。結(jié)構(gòu)化查詢語言語句可以嵌套,這使它具有極大的靈活性和強(qiáng)大的功能。

1.SQL語言的特點(1)綜合統(tǒng)一。SQL語言集數(shù)據(jù)定義語言(DDL)、數(shù)據(jù)操縱語言(DML)、數(shù)據(jù)控制語言(DCL)功能于一體,可以獨立完成數(shù)據(jù)庫生命周期中的全部活動。(2)高度非過程化。非關(guān)系型數(shù)據(jù)模型的數(shù)據(jù)操縱語言“面向過程”,必須指定存取路徑,而SQL只要提出“做什么”,無須了解存取路徑。存取路徑的選擇以及SQL的操作過程由系統(tǒng)自動完成。(3)面向集合的操作方式。SQL采用集合操作方式,操作對象、查找結(jié)果可以是元組的集合,一次插入、刪除、更新操作的對象也可以是元組的集合。(4)以同一種語法結(jié)構(gòu)提供多種使用方式。SQL是獨立的語言,能夠獨立地用于聯(lián)機(jī)交互的使用方式。SQL又是嵌入式語言,能夠嵌入高級語言(如C、C++、Java)程序中,供程序員設(shè)計程序時使用。(5)語言簡單,易學(xué)易用。盡管SQL的功能很強(qiáng),但語言十分簡潔,核心功能只用了9個動詞。SQL的語法接近英語口語,所以用戶很容易學(xué)習(xí)和使用。2.結(jié)構(gòu)化查詢語言包含的6個部分(1)數(shù)據(jù)查詢語言(DataQueryLanguage,DQL):也稱為“數(shù)據(jù)檢索語句”,用以從表中獲得數(shù)據(jù),確定數(shù)據(jù)怎樣在應(yīng)用程序給出。保留字SELECT是DQL(也是所有SQL)用得最多的動詞,其他DQL常用的保留字有WHERE、ORDERBY、GROUPBY和HAVING。這些DQL保留字常與其他類型的SQL語句一起使用。(2)數(shù)據(jù)操作語言(DataManipulationLanguage,DML):其語句包括動詞INSERT、UPDATE和DELETE,它們分別用于添加、修改和刪除。(3)事務(wù)控制語言(TCL):其語句能確保被DML語句影響的表的所有行及時得以更新,包括COMMIT(提交)命令、SAVEPOINT(保存點)命令、ROLLBACK(回滾)命令。(4)數(shù)據(jù)控制語言(DCL):其語句通過GRANT或REVOKE實現(xiàn)權(quán)限控制,確定單個用戶和用戶組對數(shù)據(jù)庫對象的訪問。某些RDBMS可用GRANT或REVOKE控制對表單個列的訪問。(5)數(shù)據(jù)定義語言(DDL):其語句包括動詞CREATE、ALTER和DROP。在數(shù)據(jù)庫中創(chuàng)建新表或修改、刪除表(CREATTABLE或DROPTABLE),為表加入索引等。(6)指針控制語言(CCL):其語句像DECLARECURSOR、FETCH

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論