講義-hive英文名稱為DataWarehouse可簡(jiǎn)寫或DWH數(shù)據(jù)_第1頁
講義-hive英文名稱為DataWarehouse可簡(jiǎn)寫或DWH數(shù)據(jù)_第2頁
講義-hive英文名稱為DataWarehouse可簡(jiǎn)寫或DWH數(shù)據(jù)_第3頁
講義-hive英文名稱為DataWarehouse可簡(jiǎn)寫或DWH數(shù)據(jù)_第4頁
講義-hive英文名稱為DataWarehouse可簡(jiǎn)寫或DWH數(shù)據(jù)_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)-英文名稱為Data Warehoue,可簡(jiǎn)寫為DW或DWH。數(shù)據(jù)倉(cāng)庫(kù)的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(Deciinpt)??梢岳斫鉃?數(shù)據(jù)倉(cāng)庫(kù)是面向的(Subject-Oriented)、集成的(Integrated)、非易失的(Non-Volatile)和時(shí)變的(Time-Variant)數(shù)據(jù)集合,用以支持管理決策。面向集非易失時(shí)變數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別實(shí)際講的 OLTP(On-LineTransactionProcessing,),也可以稱面向交易分析型處理,叫聯(lián)機(jī)分析處理OLAP(On-Line yticalProcessing)一般針對(duì)某些的歷史數(shù)據(jù)進(jìn)行分析,支持管理決策。數(shù)據(jù)庫(kù)設(shè)計(jì)是盡量避免冗余,一般針對(duì)某一業(yè)務(wù)應(yīng)用進(jìn)行設(shè)計(jì),比如一張簡(jiǎn)單的Use記錄用戶名、等簡(jiǎn)單數(shù)據(jù)即可,符合業(yè)務(wù)應(yīng)用,但是不符合分析。數(shù)據(jù)倉(cāng)庫(kù)在設(shè)計(jì)是有意引入冗余,依照分析需求,分析維度、分析指標(biāo)進(jìn)行設(shè)計(jì)。按照數(shù)據(jù)流入流出的過程,數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)可分為三層——源數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)應(yīng)用

:也稱為細(xì)節(jié)層,DW層的數(shù)據(jù)應(yīng)該是一致的、準(zhǔn)確的、干凈的數(shù)據(jù)即對(duì)源系統(tǒng)數(shù)據(jù)進(jìn)行 (去除了雜質(zhì))后的數(shù)據(jù)

Extra,轉(zhuǎn)化Transfer裝載Load)的過程,ETL是數(shù)據(jù)倉(cāng)庫(kù)的流水線,也可以認(rèn)為是數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)(MetaDate),主要記錄數(shù)據(jù)倉(cāng)庫(kù)中模型的定義、各層級(jí)間的映射關(guān)系、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)狀態(tài)及ETL的任務(wù)運(yùn)行狀態(tài)。一般會(huì)通過元數(shù)據(jù)資料庫(kù)(MetadataRepository)來統(tǒng)元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)為開發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)的IT人員使用,HiveHive其本質(zhì)是將SQL轉(zhuǎn)換為MapReduce的任務(wù)進(jìn)行運(yùn)算,底層由HDFS來提供數(shù)據(jù)的,說白了Hive用戶接口:包括CI、CODC、WeGUI。其中,CLI(mmandlineinerae為s命令行;CDC是ive的JA實(shí)現(xiàn),與傳統(tǒng)數(shù)據(jù)庫(kù)DC類似;WeGI是通過瀏覽器訪問ive。元數(shù)據(jù):通常是在關(guān)系數(shù)據(jù)庫(kù)如mysql/derby中。Hive將元數(shù)據(jù)在數(shù)據(jù)庫(kù)中。Hive中的元數(shù)據(jù)包括表的名字,表的列和分區(qū)及其屬性,表的屬性(是否為外部表等),表的數(shù)據(jù)所在等。解釋器、編譯器、優(yōu)化器、執(zhí)行器:完成HQL查詢語句從詞法分析、語法分析、編譯、優(yōu)化以及查詢計(jì)劃的生成。生成的查詢計(jì)劃在HDFS中,并在隨后有MapReduce調(diào)用執(zhí)Hive與Hadoop的關(guān)Hive這里我們選用hive的版本是2.1.1地址為:apache-hive-2.1.1-之后,將我們的安裝包上傳到第三臺(tái)機(jī)器的/export/sowares 將我們的hive的安裝包上傳到第三臺(tái)服務(wù)器的/export/sowarescdcdtarzxvfapachehive2.1.1bin.tar.gzC第二步:安裝yumyuminstallmysqlmysql-servermysql-/etc/init.d/mysqld/etc/init.d/mysqldgrantgrantallprivilegeson*.*grantroot@identifiedby123456flushcd/export/servers/apachehive2.1.1cd/export/servers/apachehive2.1.1bin/confcphiveenv.sh.templatehiveenv.shHADOOP_HOME=/export/servers/hadoopexportHIVE_CONF_DIR=/export/servers/apachehive2.1.1修改hive-cdcd/export/servers/apachehive2.1.1vimhive<?xmlversion="1.0"encoding="UTF8"<?xmlstylesheettype="text/xsl" 將我們準(zhǔn)備好的mysql-connector-java-5.1.38.jar這個(gè)jar sudovimexportHIVE_HOME=/export/servers/apachehive2.1.1exportHivecdcd/export/servers/apachehive2.1.1bin/ createdatabaseifnotexistscdcd/export/servers/apachehive2.1.1bin/hivee"createdatabaseifnotexistscdcd/export/serversvimhive.sqlcreatedatabaseifnotexistsmytest;usemytest;createtablestu(idint,name通過hive-f來執(zhí)行我們的 bin/hivefHive創(chuàng)建數(shù)據(jù)庫(kù)createcreatedatabaseifnotexistsmyhive;usemyhive; createdatabasemyhive2location createdatabasefoowithdbproperties describedatabaseextended alterdatabasefoosetdbproperties查看數(shù)據(jù)庫(kù)詳細(xì)信 descdatabaseextended刪除數(shù)據(jù)庫(kù) dropdatabase dropdatabasemyhive創(chuàng)建表的語法createcreate[external]table[ifnotexists]table_name(col_namedata_type[comment'字段描述信息']col_namedata_type[comment'字段描述信息[comment'表的描述信息[partitionedby(col_namedata_type,...)][clusteredby(col_name,col_name,...)][sortedby(col_name[ascdesc],...)intonum_bucketsbuckets][rowformatrow_format][storted [location'指定表的路徑createEXISTS選項(xiàng)來忽略這個(gè)異常。(LOCATION),Hive創(chuàng)建內(nèi)部表時(shí),會(huì)將數(shù)據(jù)移動(dòng)到數(shù)據(jù)倉(cāng)庫(kù)指向的路徑;若創(chuàng)建外部表示注釋,默認(rèn)不能使用中文partitioned 下 clusteredbyHive可以進(jìn)一步組織成桶,也就是說桶是更為細(xì)粒度的數(shù)據(jù)范圍劃分。Hive也是針對(duì)某一列進(jìn)行桶的組織。sorted stortedas指定表文件的格式,常用格式:SEQUENCEFILE,TEXTFILE,RCFILE,如果文件數(shù)據(jù)是純文本,可以使用STOREDASTEXTFILE。如果數(shù)據(jù)需要壓縮,使用stortedas創(chuàng)建表時(shí),如果沒有使用external關(guān)鍵字,則該表是內(nèi)部表(managedtable)1字節(jié)的有符號(hào)整數(shù)-4個(gè)字節(jié)的帶符號(hào)整數(shù)18字節(jié)帶符號(hào)整數(shù)4字節(jié)單精度浮點(diǎn)數(shù)8字節(jié)雙精度浮點(diǎn)數(shù)‘2016-03-key-value,key必須為原始類型,value可以任意類字段集合,類型可以不同建表入門useusecreatetablestu(idint,nameinsertintostuvalues #插入數(shù)select*from createtableifnotexistsstu2(idint,namestring)rowformatdelimitedfieldsterminatedby'\t'; createtableifnotexistsstu2(idint,namestring)rowformatdelimitedfieldsterminatedby'\t'location'/user/stu2'; createtablestu3asselect*fromstu2;# createtablestu4like descformatted. droptable每天將收集到的日志定期流入HDFS文本文件。在外部表(原始日志表)的基礎(chǔ)上做大量 createexternaltableteacher(t_idstring,t_namestring)rowformatdelimitedfieldsterminatedby'\t'; createexternaltablestudent(s_idstring,s_namestring,s_birthstring,s_sexstring)rowformatdelimitedfieldsterminatedby'\t'; loaddatalocalinpath'/export/servers/hivedatas/student.csv'intotable loaddatalocalinpath'/export/servers/hivedatas/student.csv'overwriteintotablestudent;cdcdhdfshdfspputtecher.csvloaddatainpath'/hivedatas/techer.csv'intotable件,這樣每次操作一個(gè)小的文件就會(huì)很容易了,同樣的道理,在hive當(dāng)中也是支持這種思想unionunion createtablescore(s_idstring,c_idstring,s_scoreint)partitionedby(monthstring)rowformatdelimitedfieldsterminatedby'\t'; createtablescore2(s_idstring,c_idstring,s_scoreint)partitionedby(yearstring,monthstring,daystring)rowformatdelimitedfieldsterminatedby'\t'; loaddatalocalinpath'/export/servers/hivedatas/score.csv'intotablescorepartition(month='201806'); loaddatalocalinpath'/export/servers/hivedatas/score.csv'intotablescore2partition(year='2018',month='06',day='01'); select*fromscorewheremonth='201806'unionallselect*fromscorewheremonth='201806'; showpartitions altertablescoreadd altertablescore

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論