版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)倉(cāng)庫(kù)-英文名稱為Data Warehoue,可簡(jiǎn)寫為DW或DWH。數(shù)據(jù)倉(cāng)庫(kù)的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(Deciinpt)??梢岳斫鉃?數(shù)據(jù)倉(cāng)庫(kù)是面向的(Subject-Oriented)、集成的(Integrated)、非易失的(Non-Volatile)和時(shí)變的(Time-Variant)數(shù)據(jù)集合,用以支持管理決策。面向集非易失時(shí)變數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別實(shí)際講的 OLTP(On-LineTransactionProcessing,),也可以稱面向交易分析型處理,叫聯(lián)機(jī)分析處理OLAP(On-Line yticalProcessing)一般針對(duì)某些的歷史數(shù)據(jù)進(jìn)行分析,支持管理決策。數(shù)據(jù)庫(kù)設(shè)計(jì)是盡量避免冗余,一般針對(duì)某一業(yè)務(wù)應(yīng)用進(jìn)行設(shè)計(jì),比如一張簡(jiǎn)單的Use記錄用戶名、等簡(jiǎn)單數(shù)據(jù)即可,符合業(yè)務(wù)應(yīng)用,但是不符合分析。數(shù)據(jù)倉(cāng)庫(kù)在設(shè)計(jì)是有意引入冗余,依照分析需求,分析維度、分析指標(biāo)進(jìn)行設(shè)計(jì)。按照數(shù)據(jù)流入流出的過程,數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)可分為三層——源數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)應(yīng)用
:也稱為細(xì)節(jié)層,DW層的數(shù)據(jù)應(yīng)該是一致的、準(zhǔn)確的、干凈的數(shù)據(jù)即對(duì)源系統(tǒng)數(shù)據(jù)進(jìn)行 (去除了雜質(zhì))后的數(shù)據(jù)
Extra,轉(zhuǎn)化Transfer裝載Load)的過程,ETL是數(shù)據(jù)倉(cāng)庫(kù)的流水線,也可以認(rèn)為是數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)(MetaDate),主要記錄數(shù)據(jù)倉(cāng)庫(kù)中模型的定義、各層級(jí)間的映射關(guān)系、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)狀態(tài)及ETL的任務(wù)運(yùn)行狀態(tài)。一般會(huì)通過元數(shù)據(jù)資料庫(kù)(MetadataRepository)來統(tǒng)元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)為開發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)的IT人員使用,HiveHive其本質(zhì)是將SQL轉(zhuǎn)換為MapReduce的任務(wù)進(jìn)行運(yùn)算,底層由HDFS來提供數(shù)據(jù)的,說白了Hive用戶接口:包括CI、CODC、WeGUI。其中,CLI(mmandlineinerae為s命令行;CDC是ive的JA實(shí)現(xiàn),與傳統(tǒng)數(shù)據(jù)庫(kù)DC類似;WeGI是通過瀏覽器訪問ive。元數(shù)據(jù):通常是在關(guān)系數(shù)據(jù)庫(kù)如mysql/derby中。Hive將元數(shù)據(jù)在數(shù)據(jù)庫(kù)中。Hive中的元數(shù)據(jù)包括表的名字,表的列和分區(qū)及其屬性,表的屬性(是否為外部表等),表的數(shù)據(jù)所在等。解釋器、編譯器、優(yōu)化器、執(zhí)行器:完成HQL查詢語句從詞法分析、語法分析、編譯、優(yōu)化以及查詢計(jì)劃的生成。生成的查詢計(jì)劃在HDFS中,并在隨后有MapReduce調(diào)用執(zhí)Hive與Hadoop的關(guān)Hive這里我們選用hive的版本是2.1.1地址為:apache-hive-2.1.1-之后,將我們的安裝包上傳到第三臺(tái)機(jī)器的/export/sowares 將我們的hive的安裝包上傳到第三臺(tái)服務(wù)器的/export/sowarescdcdtarzxvfapachehive2.1.1bin.tar.gzC第二步:安裝yumyuminstallmysqlmysql-servermysql-/etc/init.d/mysqld/etc/init.d/mysqldgrantgrantallprivilegeson*.*grantroot@identifiedby123456flushcd/export/servers/apachehive2.1.1cd/export/servers/apachehive2.1.1bin/confcphiveenv.sh.templatehiveenv.shHADOOP_HOME=/export/servers/hadoopexportHIVE_CONF_DIR=/export/servers/apachehive2.1.1修改hive-cdcd/export/servers/apachehive2.1.1vimhive<?xmlversion="1.0"encoding="UTF8"<?xmlstylesheettype="text/xsl" 將我們準(zhǔn)備好的mysql-connector-java-5.1.38.jar這個(gè)jar sudovimexportHIVE_HOME=/export/servers/apachehive2.1.1exportHivecdcd/export/servers/apachehive2.1.1bin/ createdatabaseifnotexistscdcd/export/servers/apachehive2.1.1bin/hivee"createdatabaseifnotexistscdcd/export/serversvimhive.sqlcreatedatabaseifnotexistsmytest;usemytest;createtablestu(idint,name通過hive-f來執(zhí)行我們的 bin/hivefHive創(chuàng)建數(shù)據(jù)庫(kù)createcreatedatabaseifnotexistsmyhive;usemyhive; createdatabasemyhive2location createdatabasefoowithdbproperties describedatabaseextended alterdatabasefoosetdbproperties查看數(shù)據(jù)庫(kù)詳細(xì)信 descdatabaseextended刪除數(shù)據(jù)庫(kù) dropdatabase dropdatabasemyhive創(chuàng)建表的語法createcreate[external]table[ifnotexists]table_name(col_namedata_type[comment'字段描述信息']col_namedata_type[comment'字段描述信息[comment'表的描述信息[partitionedby(col_namedata_type,...)][clusteredby(col_name,col_name,...)][sortedby(col_name[ascdesc],...)intonum_bucketsbuckets][rowformatrow_format][storted [location'指定表的路徑createEXISTS選項(xiàng)來忽略這個(gè)異常。(LOCATION),Hive創(chuàng)建內(nèi)部表時(shí),會(huì)將數(shù)據(jù)移動(dòng)到數(shù)據(jù)倉(cāng)庫(kù)指向的路徑;若創(chuàng)建外部表示注釋,默認(rèn)不能使用中文partitioned 下 clusteredbyHive可以進(jìn)一步組織成桶,也就是說桶是更為細(xì)粒度的數(shù)據(jù)范圍劃分。Hive也是針對(duì)某一列進(jìn)行桶的組織。sorted stortedas指定表文件的格式,常用格式:SEQUENCEFILE,TEXTFILE,RCFILE,如果文件數(shù)據(jù)是純文本,可以使用STOREDASTEXTFILE。如果數(shù)據(jù)需要壓縮,使用stortedas創(chuàng)建表時(shí),如果沒有使用external關(guān)鍵字,則該表是內(nèi)部表(managedtable)1字節(jié)的有符號(hào)整數(shù)-4個(gè)字節(jié)的帶符號(hào)整數(shù)18字節(jié)帶符號(hào)整數(shù)4字節(jié)單精度浮點(diǎn)數(shù)8字節(jié)雙精度浮點(diǎn)數(shù)‘2016-03-key-value,key必須為原始類型,value可以任意類字段集合,類型可以不同建表入門useusecreatetablestu(idint,nameinsertintostuvalues #插入數(shù)select*from createtableifnotexistsstu2(idint,namestring)rowformatdelimitedfieldsterminatedby'\t'; createtableifnotexistsstu2(idint,namestring)rowformatdelimitedfieldsterminatedby'\t'location'/user/stu2'; createtablestu3asselect*fromstu2;# createtablestu4like descformatted. droptable每天將收集到的日志定期流入HDFS文本文件。在外部表(原始日志表)的基礎(chǔ)上做大量 createexternaltableteacher(t_idstring,t_namestring)rowformatdelimitedfieldsterminatedby'\t'; createexternaltablestudent(s_idstring,s_namestring,s_birthstring,s_sexstring)rowformatdelimitedfieldsterminatedby'\t'; loaddatalocalinpath'/export/servers/hivedatas/student.csv'intotable loaddatalocalinpath'/export/servers/hivedatas/student.csv'overwriteintotablestudent;cdcdhdfshdfspputtecher.csvloaddatainpath'/hivedatas/techer.csv'intotable件,這樣每次操作一個(gè)小的文件就會(huì)很容易了,同樣的道理,在hive當(dāng)中也是支持這種思想unionunion createtablescore(s_idstring,c_idstring,s_scoreint)partitionedby(monthstring)rowformatdelimitedfieldsterminatedby'\t'; createtablescore2(s_idstring,c_idstring,s_scoreint)partitionedby(yearstring,monthstring,daystring)rowformatdelimitedfieldsterminatedby'\t'; loaddatalocalinpath'/export/servers/hivedatas/score.csv'intotablescorepartition(month='201806'); loaddatalocalinpath'/export/servers/hivedatas/score.csv'intotablescore2partition(year='2018',month='06',day='01'); select*fromscorewheremonth='201806'unionallselect*fromscorewheremonth='201806'; showpartitions altertablescoreadd altertablescore
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 北京市豐臺(tái)區(qū)市級(jí)名校2024屆高三下學(xué)期質(zhì)量檢測(cè)試題數(shù)學(xué)試題
- 人社局健康知識(shí)培訓(xùn)課件
- 動(dòng)物疫病知到智慧樹章節(jié)測(cè)試課后答案2024年秋海南職業(yè)技術(shù)學(xué)院
- 燃?xì)夤こ汰h(huán)境保護(hù)合同
- 酒店項(xiàng)目管理招聘協(xié)議
- 森林公園綠化保護(hù)工程合同
- 體育館更衣室修繕合同
- 海鮮市場(chǎng)冷藏柜租賃協(xié)議模板
- 營(yíng)養(yǎng)科醫(yī)生勞動(dòng)合同范本
- 酒店管理人才聘用合同樣本
- 大學(xué)體育與健康 教案全套 體育舞蹈 第1-16周
- 一年級(jí)數(shù)學(xué)練習(xí)題-20以內(nèi)加減法口算題(4000道)直接打印版
- 施工作業(yè)安全管理規(guī)定(4篇)
- 浙江省金華市(2024年-2025年小學(xué)五年級(jí)語文)人教版質(zhì)量測(cè)試((上下)學(xué)期)試卷及答案
- 傳媒行業(yè)突發(fā)事件應(yīng)急預(yù)案
- 2024年《工會(huì)法》知識(shí)競(jìng)賽題庫(kù)及答案
- 《中國(guó)血脂管理指南》考試復(fù)習(xí)題庫(kù)(含答案)
- 人教版道德與法治八年級(jí)上冊(cè)2.1網(wǎng)絡(luò)改變世界課件
- 外研版小學(xué)英語(三起點(diǎn))六年級(jí)上冊(cè)期末測(cè)試題及答案(共3套)
- 中醫(yī)診療規(guī)范
- 工業(yè)互聯(lián)網(wǎng)平臺(tái) 安全生產(chǎn)數(shù)字化管理 第2部分:石化化工行業(yè) 編制說明
評(píng)論
0/150
提交評(píng)論