版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
能獨(dú)立熟練完成Hadoop的安裝及熟悉Hadoop能獨(dú)立熟練完成Hadoop的安裝及熟悉Hadoop的配置與管熟練地在adoop能獨(dú)立制定數(shù)據(jù)集成方案了解Hive的原理及進(jìn)行HiveQL操2DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)服務(wù)器:ESXi,可以在上面部署10多臺服務(wù)器:ESXi,可以在上面部署10多臺虛擬機(jī),能同時(shí)啟動4PC:要求linux環(huán)境或windows+Cygwin,linux可以是standalone或者使用虛擬Vmwareclient:用于管理Hadoop:使用3DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Google搜索引擎,Gmail,安卓學(xué)術(shù),Google翻譯,Google+,Google搜索引擎,Gmail,安卓學(xué)術(shù),Google翻譯,Google+,下一步4DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)不使用超級計(jì)算機(jī),不使用存不使用超級計(jì)算機(jī),不使用存儲(淘寶的去i,去e,去o之路大量使用普通的pc服務(wù)器(去掉機(jī)箱,外設(shè),硬盤),提供有冗余的集群全世界多個數(shù)據(jù)中心,有些附帶發(fā)電運(yùn)營商向Google倒付5DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)MountainView,Calif的能效比為1.25(PUE為1表示數(shù)據(jù)中心沒有能源損耗,而根據(jù)2006年的統(tǒng)計(jì),一2.0GoogleMountainView,Calif的能效比為1.25(PUE為1表示數(shù)據(jù)中心沒有能源損耗,而根據(jù)2006年的統(tǒng)計(jì),一2.0Google1.162011年6DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)大量的網(wǎng)頁怎么存搜索大量的網(wǎng)頁怎么存搜索算Rank計(jì)算問7DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)8DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)8DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Page這是Google最核心的算法,用于給Page這是Google最核心的算法,用于給每個網(wǎng)頁價(jià)值評分,是Google“在垃圾中找黃”的關(guān)鍵算法,這個算法成就了今天的9DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Map-Bigtable(后面講DATAGURUMap-Bigtable(后面講DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Cutting開創(chuàng)的開源軟件,用java書寫代碼,Cutting開創(chuàng)的開源軟件,用java書寫代碼,實(shí)現(xiàn)與Google類似的全文搜索功,它提供了全文檢索引擎的架構(gòu),包括完整的查詢引擎和索引引早期發(fā)布在個人網(wǎng)站和Sooe,01年年底成為aach軟件基金會arta的一個子項(xiàng)目的目的是為軟件開發(fā)人員提供一個簡單易用的工具包,以方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎對于大數(shù)量的場景,Lucene面對與Google同樣的困難。迫使仿Google解決這些問題的辦一個微縮Cutting學(xué)習(xí)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)2003-2004年,Google公開了部分GFS和Mapreduce思想的細(xì)節(jié),以2003-2004年,Google公開了部分GFS和Mapreduce思想的細(xì)節(jié),以此為基礎(chǔ)Cutting等人用了2年業(yè)余時(shí)間實(shí)現(xiàn)了DFS和Mapreduce機(jī)制,使Nutch性能飆Yahoo招安Cutting及其項(xiàng)Hadoop2005LuceneNutchApache會。2006年3月份,Map-Reduce和NutchDistributedFileSystem(NDFS)Hadoop名字來源于Cutting兒子的玩具大DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)實(shí)現(xiàn)云計(jì)算的事準(zhǔn)開源實(shí)現(xiàn)云計(jì)算的事準(zhǔn)開源界紀(jì)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)HDFS的守護(hù)對內(nèi)存和I/O進(jìn)行集HDFS的守護(hù)對內(nèi)存和I/O進(jìn)行集中管是個單點(diǎn),發(fā)生故障將使集群DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Secondary監(jiān)控HDFS狀態(tài)的輔助后臺每個Secondary監(jiān)控HDFS狀態(tài)的輔助后臺每個集群都有DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)每臺從服務(wù)器都運(yùn)行統(tǒng)每臺從服務(wù)器都運(yùn)行統(tǒng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)用于處理作業(yè)(用戶提交代碼用于處理作業(yè)(用戶提交代碼)臺程DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)位于slave節(jié)點(diǎn)上,與datanode結(jié)(代位于slave節(jié)點(diǎn)上,與datanode結(jié)(代碼與數(shù)據(jù)一起的原則與jobtracker交DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Namenode、Jobtracker。瀏覽器(于觀看管理Namenode、Jobtracker。瀏覽器(于觀看管理界面),其它Hadoop工Slave:Tasktracker、Master不是唯一DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)WhyDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)WhyDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)原數(shù)據(jù)庫服務(wù)器配置:HP小型機(jī),128G內(nèi)存,48原數(shù)據(jù)庫服務(wù)器配置:HP小型機(jī),128G內(nèi)存,48顆CPU,2節(jié)點(diǎn)RAC,其中一個用于入庫,另外一個節(jié)點(diǎn)用于存儲:HP虛擬化存儲,>1000數(shù)據(jù)庫架構(gòu)采用Oracle雙節(jié)點(diǎn)2DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)數(shù)據(jù)日趨龐大,無論是入庫數(shù)據(jù)日趨龐大,無論是入庫和查詢,都出現(xiàn)性能瓶用戶的應(yīng)用和分析結(jié)果呈整合趨勢,對實(shí)時(shí)性和響應(yīng)時(shí)間要求越來使用的模型越來越復(fù)雜,計(jì)算量指數(shù)級DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)完美解決性能瓶頸,在可見完美解決性能瓶頸,在可見未來不容易出現(xiàn)新過去所擁有的技能可以平穩(wěn)過渡。比如SQL、轉(zhuǎn)移平臺的成本有多高?平臺軟硬件成本,再開發(fā)成本,技能再培養(yǎng)成本,維護(hù)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Whynot難以駕數(shù)據(jù)集Whynot難以駕數(shù)據(jù)集成困HadoopvsDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)主流:Java程輕量級的腳本主流:Java程輕量級的腳本語SQL技巧平穩(wěn)過DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Hadoop數(shù)據(jù)分析平臺Hadoop數(shù)據(jù)分析平臺第2DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)2DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)2DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)3DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)3DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)安裝虛擬機(jī)和linux,虛擬機(jī)推薦使用vmware,PC可安裝虛擬機(jī)和linux,虛擬機(jī)推薦使用vmware,PC可以使用workstation,服務(wù)器以使用ESXi,在管理上比較方便。ESXi還可以通過拷貝鏡像文件復(fù)制虛擬機(jī),復(fù)制后自動修改網(wǎng)卡號和ip,非??旖荨H绻皇菍?shí)驗(yàn)用途,硬盤大約預(yù)留20-30G空間。以Centos為例,分區(qū)可以選擇默認(rèn),安裝選項(xiàng)選擇DesktopGnome,以及Server、到Oracle官網(wǎng)下載jdk安裝包,并且進(jìn)行4DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)單機(jī)模式:安裝簡單,幾乎不用作單機(jī)模式:安裝簡單,幾乎不用作任何配置,但僅限于調(diào)試偽分布模式:在單節(jié)點(diǎn)上同時(shí)啟動namenode、datanode、jobtracker、、namenode等5個進(jìn)程,模擬分布式運(yùn)行的各個完全分布式模式:正常的Hadoop集群,由多個各司其職的節(jié)點(diǎn)5DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)下載并解壓Hadoop安裝包,為了和下載并解壓Hadoop安裝包,為了和教材一致,選用了0.20.2版進(jìn)入adop的解壓目錄,編輯of/adoop-sh文件(注意023版后配置文件的位置有所變化)編輯conf目錄下core-site.xml、hdfs-site.xml和mapred-site.xml三個核心配置配置ssh,生成密鑰,使到ssh可以免密碼連接格式化使用bin/start-all.sh啟動使用bin/stop-all.sh關(guān)閉6DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)7DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)7DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)8DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)8DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)9DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)9DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)詳細(xì)設(shè)置參見《權(quán)威指南詳細(xì)設(shè)置參見《權(quán)威指南》DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)NameNode的IP地址和DATAGURU專NameNode的IP地址和DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)客戶端向服務(wù)器端發(fā)出連客戶端向服務(wù)器端發(fā)出連接服務(wù)器端向客戶端發(fā)出自己的客戶端使用服務(wù)器端的公鑰加密通訊密鑰然后發(fā)給服務(wù)器鑰依然無法解密(SA算法)服務(wù)器端接收到密文后,用私鑰解密,獲知通訊密ssh-keygen命令給服務(wù)器端產(chǎn)生公私鑰密鑰對,cp命令將服務(wù)器端公鑰復(fù)制到客(注意在偽分布模式下服務(wù)器端和客戶端是同一臺機(jī)器),因此客戶端本身就擁服務(wù)器端公鑰,可以直接進(jìn)行免密碼DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)配置hosts文下載并解壓hadoop安裝配置hosts文下載并解壓hadoop安裝用jps檢驗(yàn)各后臺進(jìn)程是否成功DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)所有的節(jié)點(diǎn)都修改/etc/hosts,使彼此之所有的節(jié)點(diǎn)都修改/etc/hosts,使彼此之間都能把主機(jī)名解析為DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)在所有的節(jié)點(diǎn)上都建立運(yùn)行hadoop在所有的節(jié)點(diǎn)上都建立運(yùn)行hadoop的專用用戶DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)注意要以grid用戶登錄,在grid用戶的主注意要以grid用戶登錄,在grid用戶的主目錄下進(jìn)行操每個節(jié)點(diǎn)作相同DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)把各個節(jié)點(diǎn)的authorized_keys的內(nèi)容互相拷貝把各個節(jié)點(diǎn)的authorized_keys的內(nèi)容互相拷貝加入到對方的此文件中,然后就可密碼彼此ssh連DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)按照和偽分布模式相同的方按照和偽分布模式相同的方法修改core-site.xml,hdfs-site.xml,mapred-等配置修改hadoop-env.sh文修改masters和slaves文件,記錄集群中各個向各節(jié)點(diǎn)分發(fā)格式化在namenode上啟動守護(hù)進(jìn)程,系統(tǒng)會自動到各個節(jié)點(diǎn)啟動相應(yīng)的DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng) DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng) DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)下載及安裝unix仿真工具安裝下載及安裝unix仿真工具安裝修改系統(tǒng)環(huán)境啟動cygwin,在仿真終端下解壓配置后續(xù)步驟與linux情形雷DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)安裝時(shí)一定要選擇vi、openssh、perl安裝時(shí)一定要選擇vi、openssh、perlDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)啟動解壓hadoop包,注意映射的寫啟動解壓hadoop包,注意映射的寫/cygdrive/d/hadoop-DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)修改hadoop-env.sh,注意目錄名稱中如果有空格時(shí)修改hadoop-env.sh,注意目錄名稱中如果有空格時(shí)的寫法,例如與linux一樣,修改core-site.xml等幾個site文件,寫法運(yùn)行ssh-host-config配置openssh,然后類似linux的方法,配置ssh免密格式化啟動sshd啟動服DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)與linux的情況類DATAGURU專業(yè)數(shù)與linux的情況類DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Hadoop數(shù)據(jù)分析平臺Hadoop數(shù)據(jù)分析平臺第3DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Hello,對剛安裝好的hadoop集群做個測Hello,對剛安裝好的hadoop集群做個測2DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)3DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)3DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)4DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)4DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)通過用瀏覽器和http訪問jobtracker所通過用瀏覽器和http訪問jobtracker所在節(jié)點(diǎn)的50030端口監(jiān)控通過用瀏覽器和http訪問namenode所在節(jié)點(diǎn)的50070端口監(jiān)控5DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)6DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)6DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)7DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)7DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)8DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)8DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)9DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)9DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)硬件錯誤是常態(tài)。因此需硬件錯誤是常態(tài)。因此需要流式數(shù)據(jù)訪問。即數(shù)據(jù)批量讀取而非隨機(jī)讀寫,Haoop擅長做的是數(shù)據(jù)分析而不是事務(wù)處理大規(guī)模數(shù)是文件一經(jīng)寫入,關(guān)閉,就再也不能修改程序采用“數(shù)據(jù)就近”原則分配節(jié)點(diǎn)執(zhí)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)事務(wù)日映像文事務(wù)日映像文DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)管理文件系統(tǒng)的命名Datanode上的位置和副本管理文件系統(tǒng)的命名Datanode上的位置和副本件屬性DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)負(fù)責(zé)所在物理節(jié)存儲管一負(fù)責(zé)所在物理節(jié)存儲管一次寫入,多次(不修改DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)客戶端要訪問HDFS中的一文客戶端要訪問HDFS中的一文訪問datanode獲取數(shù)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)冗余副本機(jī)架策心跳冗余副本機(jī)架策心跳機(jī)安全模校驗(yàn)回收元數(shù)據(jù)快照機(jī)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)可以在hdfs-site.xml中設(shè)置復(fù)制因子指可以在hdfs-site.xml中設(shè)置復(fù)制因子指定副本所有數(shù)據(jù)塊都有Datanode啟動時(shí),遍歷本地文件系統(tǒng),產(chǎn)生一份hdfs數(shù)據(jù)塊和本地文件的對應(yīng)關(guān)系表(blockreport)匯報(bào)給DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)集群一般放在不同機(jī)架上,機(jī)集群一般放在不同機(jī)架上,機(jī)架間帶寬要比機(jī)架內(nèi)帶寬要HDFS的“機(jī)架感知一般在本機(jī)架存放一個副本,在其它機(jī)架再存放別的副本,這樣可以防止機(jī)架失效丟失數(shù)據(jù),也可以提高帶寬利用DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Namenode周期性從datanode接收心跳信號Namenode周期性從datanode接收心跳信號和塊報(bào)Namenode根據(jù)塊報(bào)告驗(yàn)證元數(shù)沒有按時(shí)發(fā)送心跳的datanode會被標(biāo)記為宕機(jī),不會再給它任何I/O請如果atane失效造成副本數(shù)量下降,并且低于預(yù)先設(shè)置的閾值,amnde會檢測出這些數(shù)據(jù)塊,并在合適的時(shí)機(jī)進(jìn)行重新復(fù)制引發(fā)重新復(fù)制的原因還包括數(shù)據(jù)副本本身損壞、磁盤錯誤,復(fù)制因子被增DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Namenode啟動時(shí)會先經(jīng)過一個“安Namenode啟動時(shí)會先經(jīng)過一個“安全模式”階安全模式階段不會產(chǎn)生數(shù)在此階段Namne收集各個datande的報(bào)告,當(dāng)數(shù)據(jù)塊達(dá)到最小副本數(shù)以上時(shí),會被認(rèn)為是“安全”的在一定比例(可設(shè)置)的數(shù)據(jù)塊被確定為“安全”后,再過若干時(shí)間,安全模式結(jié)當(dāng)檢測到副本數(shù)不足的數(shù)據(jù)塊時(shí),該塊會被復(fù)制直到達(dá)到最小副DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)在文件創(chuàng)立時(shí),每個數(shù)據(jù)塊都在文件創(chuàng)立時(shí),每個數(shù)據(jù)塊都產(chǎn)生校校驗(yàn)和會作為單獨(dú)一個隱藏文件保存在命名空客戶端獲取數(shù)據(jù)時(shí)可以檢查校驗(yàn)和是否相同,從而發(fā)現(xiàn)數(shù)據(jù)塊是否如果正在讀取的數(shù)據(jù)塊損壞,則可以繼續(xù)讀取其它DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)刪除文件時(shí),其實(shí)是放入回刪除文件時(shí),其實(shí)是放入回回收站里的文件可以快速可以設(shè)置一個時(shí)間閾值,當(dāng)回收站里文件的存放時(shí)間超過這個閾值,就被徹底刪除并且釋放占用的數(shù)據(jù)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)映像文件剛和事務(wù)日志是Namenode的映像文件剛和事務(wù)日志是Namenode的核心數(shù)據(jù)??梢耘渲脼閾碛卸鄠€副副本會降低Namenode的處理速度,但增加安Namenode依然是單點(diǎn),如果發(fā)生故障要手工DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)支持存儲某個時(shí)間點(diǎn)的映像支持存儲某個時(shí)間點(diǎn)的映像,需要時(shí)可以使數(shù)據(jù)重返這個時(shí)間點(diǎn)的Hadoop目前還不支持快照,已經(jīng)列入開發(fā)計(jì)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)命令行API方DATAGURU專命令行API方DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)注意,hadoop沒有當(dāng)前目錄的概念注意,hadoop沒有當(dāng)前目錄的概念,也沒有cd命DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)在新節(jié)點(diǎn)安裝好把namenode的有關(guān)在新節(jié)點(diǎn)安裝好把namenode的有關(guān)配置文件復(fù)制到該節(jié)修改masters和slaves文件,增加該設(shè)置ssh免密碼進(jìn)出該節(jié)運(yùn)行start-balancer.sh進(jìn)行數(shù)據(jù)負(fù)載DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Start-all.shDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Start-all.shDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)作用:當(dāng)節(jié)點(diǎn)出現(xiàn)故障,或新作用:當(dāng)節(jié)點(diǎn)出現(xiàn)故障,或新增加節(jié)點(diǎn)時(shí),數(shù)據(jù)塊分布可能不均勻,負(fù)載均衡可新平衡各個datanode上數(shù)據(jù)塊的分DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)HDFSDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)HDFSDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)《Java就業(yè)培訓(xùn)教程》,張孝《Java就業(yè)培訓(xùn)教程》,張孝祥,清華大學(xué)出《Java程序設(shè)計(jì)教程》,雍俊海,清華大學(xué)出DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Hadoop數(shù)據(jù)分析平臺Hadoop數(shù)據(jù)分析平臺第4DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)2DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)2DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)3DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)3DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)4DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)4DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Map-reduce的思想就是“分而治之Mapper負(fù)責(zé)“分Map-reduce的思想就是“分而治之Mapper負(fù)責(zé)“分”,即把復(fù)雜的任務(wù)分解為若干個“簡單的任務(wù)”執(zhí)“簡單的任務(wù)”有幾個含義數(shù)據(jù)或計(jì)算規(guī)模相對于原任務(wù)要大大縮小就近,即會被分配到存放了所需數(shù)據(jù)的節(jié)點(diǎn)進(jìn)行計(jì)算幾乎沒有依賴這些小任務(wù)可以并行計(jì)算,彼5DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)對map階段的結(jié)果進(jìn)行Reducer的對map階段的結(jié)果進(jìn)行Reducer的數(shù)目由mapred-site.xml配置文件里的項(xiàng)目mapred.reduce.tasks決定。省值為1,用戶可以覆蓋6DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)在mapper和reducer中間的一個步驟(在mapper和reducer中間的一個步驟(可以沒有可以把mapper的輸出按照某種e值重新切分和組合成n份,把ey值符合某種范圍的輸出送到特定的ducer那里去處理可以簡化reducer過7DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)8DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)8DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)9DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)9DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)究竟需要多少個輸入:大究竟需要多少個輸入:大文件優(yōu)于小減少網(wǎng)絡(luò)傳輸:壓縮map的輸優(yōu)化每個節(jié)點(diǎn)能運(yùn)行的任務(wù)數(shù):mapred.tasktracker.map.tasks.maximummapred.tasktracker.reduce.tasks.maximum(缺省值均為DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)缺省為先入先出作業(yè)隊(duì)列缺省為先入先出作業(yè)隊(duì)列支持公平調(diào)支持容量調(diào)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)業(yè)有被kill掉的推測式執(zhí)行缺省打開,但如果是代碼問題,并不能解決問題,而且會使集群更慢,通過在ap-si.l配置文件中設(shè)置aped.map.assspecuat.utin和apd.due.tassspecutv.eution可為map任務(wù)或edce任務(wù)開啟或關(guān)閉推測式執(zhí)行重用JVM,可以省去啟動新的VM消耗的時(shí)間,在ape-si.l配置文件中設(shè)置apd.jobus.jvm.num.tass設(shè)置單個VM上運(yùn)行的最大任務(wù)數(shù)(1,>1或-表示沒有限制)忽略模式,任務(wù)在讀取數(shù)據(jù)失敗2次后,會把數(shù)據(jù)位置告訴jobtrar,后者重新啟動該任務(wù)并且在遇到所記錄的壞數(shù)據(jù)時(shí)直接跳過(缺省關(guān)閉,用Sdcod方法打 開 DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)硬件故障是指jobtracker故障或tasktrackerJobtracker通硬件故障是指jobtracker故障或tasktrackerJobtracker通過心跳(周期1分鐘)信號了解tasktracker是否發(fā)生故障或負(fù)載過于Jobtracker將從任務(wù)節(jié)點(diǎn)列表中移除發(fā)生故障的如果故障節(jié)點(diǎn)在執(zhí)行map任務(wù)并且尚未完成,jobtracker會要求其它節(jié)點(diǎn)重新執(zhí)行如果故障節(jié)點(diǎn)在執(zhí)行reduce任務(wù)并且尚未完成,jobtracker尚未完成的reduce任DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)由于代碼缺陷或進(jìn)程崩潰引由于代碼缺陷或進(jìn)程崩潰引起任務(wù)失Jvm自動退出,向tasktracker父進(jìn)程發(fā)送方錯誤信息,錯誤信息也會寫入到astracr監(jiān)聽程序會發(fā)現(xiàn)進(jìn)程退出,或進(jìn)程很久沒有更新信息送回,將任務(wù)標(biāo)記為失敗標(biāo)記失敗任務(wù)后,任務(wù)計(jì)數(shù)器減去1以便接受新任務(wù),并通過心跳信號告訴jobtracr任務(wù)失敗的信息Jobtrack獲悉任務(wù)失敗后,將把該任務(wù)重新放入調(diào)度隊(duì)列,重新分配出去再如果一個任務(wù)失敗超過4次(可以設(shè)置),將不會再被執(zhí)行,同時(shí)作業(yè)也宣布失DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)HadoopAPIDATAGURU專業(yè)數(shù)據(jù)分析HadoopAPIDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)把perties配置文件中改為“INFO”可以打開審計(jì)日志。每個HDFS把perties配置文件中改為“INFO”可以打開審計(jì)日志。每個HDFS事件都會在namenode的log錄DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)調(diào)整log4j日志級別:在監(jiān)控網(wǎng)頁的url調(diào)整log4j日志級別:在監(jiān)控網(wǎng)頁的urlDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Hadoop數(shù)據(jù)分析平臺Hadoop數(shù)據(jù)分析平臺第5DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)HadoopAPI確定目開發(fā)軟測試結(jié)2DATAGURU專HadoopAPI確定目開發(fā)軟測試結(jié)2DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)專門對于Hadoop的插提供一個專門對于Hadoop的插提供一個目錄樹用于管理HDFS文件系提供良好的編程能夠直接在Eclipse3DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)把Hadoop安裝目錄下的contrib/eclipse-文件復(fù)制把Hadoop安裝目錄下的contrib/eclipse-文件復(fù)制到eclipse安裝目錄的pluginsDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)打開Window選擇Map/Reduce選Hadoop的安裝打開Window選擇Map/Reduce選Hadoop的安裝目DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)在Window--View中打開Locations在Window--View中打開LocationsDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)對著左邊的Locations下面的主機(jī)點(diǎn)選對著左邊的Locations下面的主機(jī)點(diǎn)選右鍵成功安裝的話就可以看得到HDFS目錄DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)對左側(cè)的目錄樹中的目錄點(diǎn)選右鍵,對左側(cè)的目錄樹中的目錄點(diǎn)選右鍵,選本上傳也可以采用傳統(tǒng)的命令行上傳DFS,然后把上述路由日志DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)創(chuàng)建MapReduce安裝插件之后,可以在Project創(chuàng)建MapReduce安裝插件之后,可以在Project頁面建立Project,便能自帶編程所需DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)任務(wù)要 現(xiàn)有一批路由日志(有刪減),需要提取MACMACDATAGURU專業(yè)數(shù)任務(wù)要 現(xiàn)有一批路由日志(有刪減),需要提取MACMACDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)輸出結(jié)果如下圖所示,分別輸出結(jié)果如下圖所示,分別是時(shí)間和Mac地DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)MapReduce程序包括一個Map函數(shù),一個MapReduce程序包括一個Map函數(shù),一個Reduce函數(shù),以及Main函Reduce函數(shù)是可選的,當(dāng)不指定Reduce的實(shí)現(xiàn)時(shí),系統(tǒng)自動使用缺省的Reduce函部分程序代碼不贅述,如以下Counter即是一個計(jì)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)KEY和VALUE輸計(jì)數(shù)KEY和VALUE輸計(jì)數(shù)器中的LINESKIP自DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)輸出VALUE輸出VALUEDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Run方法是運(yùn)行程序的一Run方法是運(yùn)行程序的一種在Run方法可以設(shè)定一些基本數(shù)據(jù),從而讓系統(tǒng)了解該如何運(yùn)行整個為了更好理解任務(wù),此Run方法在屏幕上輸出了一些基本DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)必須是當(dāng)前所在的Class必須是當(dāng)前所在的ClassDATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)只需在Main函數(shù)調(diào)用Run方法只需在Main函數(shù)調(diào)用Run方法,系統(tǒng)就會啟動一個MapReduce任DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)任務(wù)要現(xiàn)有一批電話通信清單,記錄了用戶A撥打用戶B需要做一個倒排索引,記錄撥打給用戶B的所有用戶DATAGURU專業(yè)任務(wù)要現(xiàn)有一批電話通信清單,記錄了用戶A撥打用戶B需要做一個倒排索引,記錄撥打給用戶B的所有用戶DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)任務(wù)輸出必須如下所示,主任務(wù)輸出必須如下所示,主叫以‘|’分DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)示例程序1不帶Reduce任務(wù),示例程序1不帶Reduce任務(wù),系統(tǒng)自動把Map函數(shù)的輸出發(fā)送到輸出文件,Map函的輸出格式必須與程序輸出格式示例程序2帶有duce任務(wù),系統(tǒng)首先把a(bǔ)ppr的輸出中e相同的部分都發(fā)送到同一個edue,然后再把duce函數(shù)的結(jié)果輸出,ap函數(shù)的輸出格式必須和Reduce函數(shù)的輸入格式一DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)此Map函數(shù)的主要作用是把兩個號碼此Map函數(shù)的主要作用是把兩個號碼分割,然后被叫作為Key,主叫作為DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)指定DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)指定DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)指定DATAGURU專業(yè)數(shù)據(jù)指定DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Hadoop數(shù)據(jù)分析平臺Hadoop數(shù)據(jù)分析平臺第6DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)2DATAGURU專2DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Hadoop客戶Pig自動把PigLatin映射為Map-ReduceHadoop客戶Pig自動把PigLatin映射為Map-Reduce3DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)GoogleBigtable的開源實(shí)列式數(shù)可GoogleBigtable的開源實(shí)列式數(shù)可集群適合高讀寫(insert)的場HQL查詢NoSQL的典型代表產(chǎn)4DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)數(shù)據(jù)倉庫工具??梢园袶adoop下原始數(shù)據(jù)倉庫工具??梢园袶adoop下原始結(jié)構(gòu)化數(shù)據(jù)變成Hive中的提供shell、JDBC/ODBC、Thrift5DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)GoogleChubby的開源實(shí)GoogleChubby的開源實(shí)6DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)用于在Hadoop和關(guān)系型數(shù)據(jù)之間交用于在Hadoop和關(guān)系型數(shù)據(jù)之間交換通過JDBC接口連入關(guān)系型數(shù)7DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)數(shù)據(jù)序列化工具,由Hadoop的創(chuàng)始人Cutting主持開數(shù)據(jù)序列化工具,由Hadoop的創(chuàng)始人Cutting主持開用于支持大批量數(shù)據(jù)交換的應(yīng)用。支持二進(jìn)制序列化方式,可以便捷,快速地處理量數(shù)動態(tài)語言友好,Avro提供的機(jī)制使動態(tài)語言可以方便地處ThriftAvro數(shù)據(jù)8DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)架構(gòu)在Hadoop之上的數(shù)據(jù)采集與分架構(gòu)在Hadoop之上的數(shù)據(jù)采集與分析框主要進(jìn)行日志采集和通過安裝在收集節(jié)點(diǎn)的“代理”采集最原始的日志代理將數(shù)據(jù)發(fā)給收收集器定時(shí)將數(shù)據(jù)寫入Hadoop集指定定時(shí)啟動的Map-Reduce作業(yè)隊(duì)數(shù)據(jù)進(jìn)行加工處理和分Hadoop基礎(chǔ)管理中心(HICC)最終展示數(shù)9DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)NoSQL,分布式的Key-Value型數(shù)據(jù)庫,由Facebook貢與NoSQL,分布式的Key-Value型數(shù)據(jù)庫,由Facebook貢與Hbase類似,也是借鑒Bigtable的思想體只有順序?qū)?,沒有隨機(jī)寫的設(shè)計(jì),滿足高負(fù)荷情形的性能DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)HBase是一個分布式的、面向列的開源數(shù)據(jù)HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,該技術(shù)來源于Google論文“Bigtable:一個結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系al所撰HBase是Apache的項(xiàng)目的子項(xiàng)目HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫.另一個同的是HBase基于列的而不是基于行的模DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)學(xué)生表的例子存放為關(guān)學(xué)生表的例子存放為關(guān)系的學(xué)以bigtable方式存放學(xué)生無所不包的大DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)以表的形式存放表由行與以表的形式存放表由行與列組成,每個列屬于某個列族,由行和列確定的存儲單元稱為每個元素保存了同一份數(shù)據(jù)的多個版本,由時(shí)間戳來標(biāo)識DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)行鍵是數(shù)據(jù)行在表里的唯一行鍵是數(shù)據(jù)行在表里的唯一標(biāo)識,并作為檢索記錄的給定行鍵的范圍全表掃行鍵可以是最大長度不超過64KB的任意字符串,并按照字典序?qū)τ诮?jīng)常要一起讀取的行,要對行鍵值精心設(shè)計(jì),以便它們能放在一起DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)列表示為<列族>:<限定ase列表示為<列族>:<限定ase在磁盤上按照列族存儲數(shù)據(jù),這種列式數(shù)據(jù)庫的設(shè)計(jì)非常適合于數(shù)據(jù)分析的情形列族里的元素最好具有相同的讀寫方式(例如等長的字符串),以提高DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)對應(yīng)每次數(shù)據(jù)操作的時(shí)間,可由系對應(yīng)每次數(shù)據(jù)操作的時(shí)間,可由系統(tǒng)自動生成,也可以由用戶顯式的賦常見的客戶端時(shí)間查詢:“某個時(shí)刻起的最新數(shù)據(jù)”或“給我全部版本的數(shù)元素行鍵,列族:限定符,時(shí)間戳唯一決元素以字節(jié)碼形式存放,沒有類型之DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)表在行方向上,按照行鍵表在行方向上,按照行鍵范圍劃分成若干的每個表最初只有一個region,當(dāng)記錄數(shù)增加到超過某個閾值時(shí),開始分裂成兩物理上所有數(shù)據(jù)存放在HDFS,由Region服務(wù)器提供region的管一臺物理節(jié)點(diǎn)只能跑一個一個Hregionserver可以管理多個Region實(shí)一個Region實(shí)例包括Hlog日志和存放數(shù)據(jù)的Hmaster作為Zookeeper負(fù)責(zé)調(diào)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)用于災(zāi)難預(yù)寫式日志,記用于災(zāi)難預(yù)寫式日志,記錄所有更新操作,操作先記錄進(jìn)日志,數(shù)據(jù)才會DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)-ROOT.META.HBase中有兩張?zhí)厥獾腡able,-ROOT??-ROOT.META.HBase中有兩張?zhí)厥獾腡able,-ROOT???.META.:記錄了用戶表的Region信息,.META.可以有多個-ROOT-:記錄了.META.表的Region信息,-ROOT-只有一個DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)一個region由多個store組成,每個一個region由多個store組成,每個store包含一個列族的所有數(shù)Store包括位于把內(nèi)存的memstore和位于硬盤的寫操作先寫入mese,當(dāng)mese中的數(shù)據(jù)量達(dá)到某個閾值,Hgsrver會啟動fashcache進(jìn)程寫入sf,每次寫入形成單獨(dú)一個sfle當(dāng)sf文件的數(shù)量增長到一定閾值后,系統(tǒng)會進(jìn)行合并,在合并過程中會進(jìn)行版本合并和刪除工作,形成更大的sfle當(dāng)sf大小超過一定閾值后,會把當(dāng)前的eon分割為兩個,并由Hmaster分配到相應(yīng)的gon服務(wù)器,實(shí)現(xiàn)負(fù)載均衡客戶端檢索數(shù)據(jù)時(shí),先在memstore找,找不到再找DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)Hbasevs索引不同造成行為的Hbasevs索引不同造成行為的Hbase適合大量插入同時(shí)又有讀的情Hbase的瓶頸是硬盤傳輸速度,Oracle的瓶頸是硬盤尋道時(shí)Hbase很適合尋找按照時(shí)間排序n的DATAGURU專業(yè)數(shù)據(jù)分析網(wǎng)數(shù)據(jù)存放在數(shù)據(jù)文數(shù)據(jù)文數(shù)據(jù)存放在數(shù)據(jù)文數(shù)據(jù)文件的基本組成單位:塊/塊內(nèi)結(jié)構(gòu):塊頭、數(shù)DATA
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- .7市場部培訓(xùn)紫琪爾項(xiàng)目
- 2025年全球及中國無人機(jī)測量軟件行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國珍珠奶茶配料行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國電信行業(yè)CRM軟件行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國便攜式四合一氣體檢測儀行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國塑料輔助設(shè)備行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025-2030全球機(jī)器人滾珠絲杠行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025年全球及中國一次性發(fā)熱暖袋行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國金屬箔電流傳感貼片電阻行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025-2030全球貓咪吹風(fēng)機(jī)行業(yè)調(diào)研及趨勢分析報(bào)告
- 2024-2025學(xué)年廣東省深圳市南山區(qū)監(jiān)測數(shù)學(xué)三年級第一學(xué)期期末學(xué)業(yè)水平測試試題含解析
- 廣東2024年廣東金融學(xué)院招聘專職輔導(dǎo)員9人筆試歷年典型考點(diǎn)(頻考版試卷)附帶答案詳解
- DB31∕731-2020 船舶修正總噸單位產(chǎn)品能源消耗限額
- 2024年衛(wèi)生專業(yè)技術(shù)資格考試衛(wèi)生檢驗(yàn)技術(shù)(初級(師)211)相關(guān)專業(yè)知識試題及答案指導(dǎo)
- 《手衛(wèi)生知識培訓(xùn)》培訓(xùn)課件
- 江蘇省南京鼓樓區(qū)2024年中考聯(lián)考英語試題含答案
- 兒科護(hù)理學(xué)試題及答案解析-神經(jīng)系統(tǒng)疾病患兒的護(hù)理(二)
- 15篇文章包含英語四級所有詞匯
- 人教版高中英語必修一單詞表(默寫版)
- 格式塔心理學(xué)與文藝心理學(xué)
- (汽車制造論文)機(jī)器人在汽車制造中應(yīng)用
評論
0/150
提交評論