![大數據平臺部署與運維高職全套教學課件_第1頁](http://file4.renrendoc.com/view11/M01/0B/2C/wKhkGWWKqmeAHHXyAAH9IqxF_aI514.jpg)
![大數據平臺部署與運維高職全套教學課件_第2頁](http://file4.renrendoc.com/view11/M01/0B/2C/wKhkGWWKqmeAHHXyAAH9IqxF_aI5142.jpg)
![大數據平臺部署與運維高職全套教學課件_第3頁](http://file4.renrendoc.com/view11/M01/0B/2C/wKhkGWWKqmeAHHXyAAH9IqxF_aI5143.jpg)
![大數據平臺部署與運維高職全套教學課件_第4頁](http://file4.renrendoc.com/view11/M01/0B/2C/wKhkGWWKqmeAHHXyAAH9IqxF_aI5144.jpg)
![大數據平臺部署與運維高職全套教學課件_第5頁](http://file4.renrendoc.com/view11/M01/0B/2C/wKhkGWWKqmeAHHXyAAH9IqxF_aI5145.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
《大數據平臺運維》課程介紹全套可編輯PPT課件《大數據平臺運維》課程整體介紹開設學期:大二上學期,專業(yè)核心課,64課時,4學分課程主要內容:大數據概述、Hadoop偽分布式、完全分布式部署與運維,HDFS實現分布式存儲、MapReduce分布式計算框架應用,Hadoop生態(tài)圈組件HBase、Hive、Spark、Flink等平臺部署與運維相關內容。課程教學目標:知識目標:掌握Hadoop(HDFS+MapReduce)、HBase、Hive、Spark、Flink等大數據平臺的部署和運行維護方法。能力目標:具備分布式大數據平臺的部署能力;具備大數據平臺基礎運維能力;具備大數據集群的運行問題排查和解決的能力。素質目標:具備良好的溝通和團隊合作能力;具備分析與解決問題的能力;具備嚴謹認真、精益求精的工匠精神、吃苦耐勞的勞動精神?!洞髷祿脚_運維》本課程在人才培養(yǎng)方案的地位在人才培養(yǎng)方案中,本課程具有承上啟下的作用:《大數據平臺部署與運維》課程整體介紹考核辦法:過程性考核60%+期末考試40%考核模塊考核內容考核形式成績比例實施策略過程性考核(60%)日??记谡n堂考勤10%突出學生的課堂表現和職業(yè)習慣,學生的每一次課堂突出表現都是其作為考核加分的機會,這有助于活躍課堂氣氛,激發(fā)學生的學習熱情和主動性。課堂表現學習的積極主動性、認真程度、團隊協作和解決問題的能力、專業(yè)學習研究能力、綜合應用本課程專業(yè)知識能力20%階段性實驗任務的完成情況平時上機實驗表現和實驗報告的完成情況30%突出學生學習的過程性和階段性的評價,注重學生實際動手實踐能力和解決問題能力的評價,有效防止評價片面性。終結性考核(40%)本課程專業(yè)理論知識百分制考卷40%本課程知識的紙質綜合性考核評價《大數據平臺部署與運維》單元1大數據簡介任務1.1認識大數據任務描述任務場景:中國古人有“結繩記事”“刻痕記數”,遠古時代人們需要準備石頭、樹木記載相應的數據;在公元前8000年至公元前3500年間,兩河流域有蘇美爾人的計數泥板,此時需要準備泥版;而后出現了紙張,出現了文檔;信息時代有了電子表格、數據庫,各類存儲介質大顯身手。當今,在我們使用電商軟件購買商品的時候,你是否曾經思考過,為什么每次自己瀏覽過的商品,就會出現在首頁推薦或者其他應用軟件的廣告中呢?當我們在電商軟件上瀏覽商品時,軟件后臺會收集你的瀏覽記錄,包括用戶賬號、商品類別等信息。此刻,如果你是技術人員,你會如何將瀏覽數據存放起來?在傳統(tǒng)開發(fā)思維中很多人會選擇:關系型數據庫。但是一天幾百、幾千億的商品瀏覽數據,主機需要多大的磁盤才能完成數據留存?關系型數據庫能處理這么多數據嗎?如何實時高效分析出用戶的瀏覽偏好?又如何實時反饋給用戶呢?本課程中我們將跟隨國內某大型IT企業(yè)大數據服務部技術經理和技術人員一起探索解決大數據平臺部署和運維相關知識。讓我們打開思維,融入大數據時代!任務描述學習內容:(1)知大數據的概念和特點;(2)大數據的發(fā)展背景;(3)大數據技術發(fā)展歷程;(4)大數據的意義和應用現狀;(5)大數據人才需求與崗位介紹;任務布置:本單元主要任務是對大數據及大數據技術有初步的了解,理解大數據的概念、大數據的發(fā)展歷程、大數據常用組件和大數據的應用場景,樹立明確的學習目標,保持良好的學習態(tài)度,培養(yǎng)學生良好的職業(yè)定位和職業(yè)規(guī)劃能力,為后續(xù)更好的開展大數據技術學習和從事相關工作任務打下基礎。認識大數據知識點1大數據的概念近幾年來,隨著互聯網及移動互聯網技術的迅猛發(fā)展和普及應用,行業(yè)應用系統(tǒng)的規(guī)模迅速擴大,行業(yè)應用所產生的數據呈爆炸性增長,大數據時代已經來臨!!!下面我們觀察這么一組單位:?1970s:超大規(guī)模數據庫(VLDB)【GB=10^9字節(jié)】?21世紀初:海量數據(MassiveData)【TB=10^12字節(jié)】?2008年:Bigdata【PB=10^15字節(jié)】?現在實際的數據量已經達到:ZB=10^3EB=10^6PB=10^21字節(jié)?新單位:1YB=10^3ZB=10^24字節(jié)?YB之后的單位:按順序BB、NB、DB【谷歌搜索】:Google搜索引擎包含30到500億個網頁。根據WebAlmanac所提供的信息,假設谷歌的年度平均頁面大小約為2.15MB,截至2021年,Google搜索引擎的數據總規(guī)模應約為62PB?!拘吕宋⒉?020年微博第二季度月活躍用戶數達到5.23億,同比增長3700萬用戶,其中移動端活躍用戶占月活躍用戶的94%。日活躍用戶達到2.29億,同比增加1800萬。每天微博數超過2500萬。每秒生成785條微博。知識點1:大數據的概念【大數據的概念-(維基百科)】一系列大規(guī)模、高復雜度的數據集合,它的規(guī)模和復雜程度已經無法通過現有的數據庫管理工具或是傳統(tǒng)的數據處理應用在合理的時間內對其進行獲取、管理、存儲、檢索、分享、傳輸、分析和可視化?!究破罩袊看髷祿枰厥獾募夹g,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規(guī)模并行處理(MPP)數據庫、數據挖掘、分布式文件系統(tǒng)、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統(tǒng)。【大數據技術-(IDC)】大數據技術作為新一代技術和體系架構,將能夠利用較低的成本,通過高速捕獲,發(fā)現并對超大量、眾多類型的數據進行分析,以獲得信息的價值。知識點1:大數據的概念大數據特點“4V”:知識點1:大數據的概念BigData格式多樣來源多樣
價值密度低據IDC預測:2025年全球數據總量將達到175ZB;中國產生的數據總量將達48.6ZB(澤字節(jié),簡稱ZB,1澤字節(jié)約等于10萬億億字節(jié)),占全球的27.8%;淘寶目前每天的活躍數據量已經超過50TB,;每天超過6000萬人次訪問;每天大約要處理幾億次的用戶行為;結構化/半結構化/非結構化文本/音頻/圖片/視頻微博/郵件/機器日志/金融記錄/短信/通話/醫(yī)療設備/物聯網設備/傳感器/移動設備-沙里淘金-為了發(fā)現金子,要保存全部沙子速度快響應速度快增長速度快-1秒鐘-18個月數據量大計算量大GB->TB->PB->EB->ZB認識大數據知識點2大數據的發(fā)展背景知識點2:大數據的發(fā)展背景大(巨)型機時代個人電腦時代互聯網時代云計算與大數據時代1945-19801980-19951995-20102010-計算模式發(fā)展過程中的四個時代:知識點2:大數據的發(fā)展背景大型機時代(1945-1980)大型計算機(巨型機) 起源于上世紀50年代。是一種超大型電子計算機,具有很強的計算和數據處理能力。優(yōu)點:高性能、大容量,配有多種外圍設備及豐富、高效的軟件系統(tǒng)。應用尖端領域:國防,天氣預報,宇宙研究等。缺點:體積大、成本高、功耗大,需要投入大量的人力、物力和資金。知識點2:大數據的發(fā)展背景世界上第一臺計算機:ENIAC第一臺電子計算機終于在1946年2月14日問世由17468個電子管、6萬個電阻器、1萬個電容器和6千個開關組成,重達30噸,占地160平方米,耗電174千瓦,耗資45萬美元。這臺計算機每秒只能運行5千次加法運算,僅相當于一個電子數字積分計算機(ENIAC即"埃尼阿克")知識點2:大數據的發(fā)展背景個人電腦時代(1980-1995)優(yōu)點:成本低、功耗低,功能全,應用軟件豐富。PC具備良好的人機交互界面,簡單易用,對計算機技術的普及,發(fā)揮了巨大的推動作用。缺點:性能較差知識點2:大數據的發(fā)展背景互聯網時代(1995-2010)1992年2月美國總統(tǒng)克林頓發(fā)表的國情咨文中提出:計劃用20年時間,耗資2000~4000億美元,建設美國國家信息基礎結構(NII),作為美國發(fā)展政策的重點和產業(yè)發(fā)展的基礎,即建設信息高速公路?;ヂ摼W時代到來。知識點2:大數據的發(fā)展背景云計算、大數據、人工智能時代(2010-至今)最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數據,已經滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。云計算設施為海量數據的存儲和計算提供基礎資源。同時,大數據為人工智能的飛速發(fā)展提供數據支撐。2012年3月,我國科技部發(fā)布的“十二五國家科技計劃信息技術領域2013年度備選項目征集指南”把大數據研究列在首位。中國分別舉辦了第一屆(2011年)和第二屆(2012年)“大數據世界論壇”。IT時代周刊等舉辦了“大數據2012論壇”,中國計算機學會舉辦了“CNCC2012大數據論壇”。國家科技部,863計劃信息技術領域2015年備選項目包括超級計算機、大數據、云計算、信息安全、第五代移動通信系統(tǒng)(5G)等。2015年8月31日,國務院正式印發(fā)《促進大數據發(fā)展行動綱要》。為貫徹落實《中華人民共和國國民經濟和社會發(fā)展第十三個五年規(guī)劃綱要》和《促進大數據發(fā)展行動綱要》,加快實施國家大數據戰(zhàn)略,推動大數據產業(yè)健康快速發(fā)展,2017年國家工信部編制了《大數據產業(yè)發(fā)展規(guī)劃(2016-2020年)》;2017年十九大報告中提出要推動大數據與實體經濟深度融合。知識點2:大數據的發(fā)展背景2020年在《關于構建更加完善的要素市場化配置體制機制的意見》中,大數據被正式列為新型生產要素。
2021《“十四五”發(fā)展規(guī)劃》中,提出完善大數據標準體系建設。
2021年6月,我國正式發(fā)布《中華人民共和國數據安全法》,于2021年9月1日起正式施行?!稊祿踩ā纷鳛閿祿I域的基礎性法律,聚焦數據安全領域的風險隱患,確立了數據分類分級管理、數據安全審查、數據安全風險評估、監(jiān)測預警和應急處置等基本制度,提升國家數據安全保障能力。
知識點2:大數據的發(fā)展背景認識大數據知識點3大數據技術的發(fā)展歷程知識點3:大數據技術的發(fā)展歷程
Hadoop被公認為行業(yè)大數據標準開源軟件,在分布式環(huán)境下提供了海量數據的處理能力幾乎所有主流廠商都圍繞Hadoop提供開發(fā)工具、開源軟件、商業(yè)化工具和技術服務,如谷歌、雅虎、微軟、思科、淘寶等,都支持Hadoop。
Hadoop最初是由ApacheLucene項目的創(chuàng)始人DougCutting開發(fā)的文本搜索庫。Hadoop源自于2002年的ApacheNutch項目——一個開源的網絡搜索引擎并且也是Lucene項目的一部分。在2004年,Nutch項目也模仿GFS開發(fā)了自己的分布式文件系統(tǒng)NDFS(NutchDistributedFileSystem),也就是HDFS的前身
2004年,谷歌公司又發(fā)表了另一篇具有深遠影響的論文,闡述了MapReduce分布式編程思想
2005年,Nutch開源實現了谷歌的MapReduce。知識點3:大數據技術的發(fā)展歷程
大數據技術的體系龐大且復雜,基礎的技術包含數據的采集、數據預處理、分布式存儲、NoSQL數據庫、數據倉庫、機器學習、并行計算、可視化等各種技術范疇和不同的技術層面,例如:文件存儲:HadoopHDFS、Tachyon、KFS離線計算:HadoopMapReduce、Spark流式、實時計算:Storm、SparkStreaming、S4、HeronK-V、NOSQL數據庫:HBase、Redis、MongoDB資源管理:YARN、Mesos日志收集:Flume、Scribe、Logstash、Kibana消息系統(tǒng):Kafka、StormMQ、ZeroMQ、RabbitMQ分布式協調服務:Zookeeper集群管理與監(jiān)控:Ambari、Ganglia、Nagios、ClouderaManager數據挖掘、機器學習:Mahout、SparkMLLib數據同步:Sqoop任務調度:Oozie查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid知識點3:大數據技術的發(fā)展歷程Hadoop生態(tài)圈及其核心組件知識點3:大數據技術的發(fā)展歷程時間主流大數據技術發(fā)展歷程2003年10月Google發(fā)表GoogleFileSystem論文2004年10月Google發(fā)表了MapReduce論文2006年2月Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發(fā)展2006年11月Google發(fā)表了Bigtable論文,這最終激發(fā)了Hbase的創(chuàng)建2007年10月第一個Hadoop用戶組會議召開,社區(qū)貢獻開始急劇上升2008年1月Hadoop成為Apache頂級項目2008年6月Hadoop的第一個SQL框架——Hive成為了Hadoop的子項目2008年11月ApachePig的最初版本發(fā)布2009年10月首屆HadoopWorld大會在紐約召開2010年5月HBase脫離Hadoop項目,成為Apache頂級項目2010年9月Hive(Facebook)脫離Hadoop,成為Apache頂級項目2010年9月Pig脫離Hadoop,成為Apache頂級項目2010-2011年擴大的Hadoop社區(qū)忙于建立大量的新組件(Crunch,Sqoop,Flume,Oozie等)來擴展Hadoop的使用場景和可用性2011年1月ZooKeeper脫離Hadoop,成為Apache頂級項目2012年3月重要功能HDFSNameNodeHA被加入Hadoop主版本2012年8月另外一個重要的企業(yè)適用功能YARN成為Hadoop子項目2012年10月第一個Hadoop原生MPP查詢引擎Impala加入Hadoop生態(tài)2014年2月Spark逐漸代替MapReduce成為Hadoop的缺省執(zhí)行引擎,并成為Apache基金會頂級項目2017年12月繼Hadoop3.0.0的四個Alpha版本和一個Beta版本后,第一個可用的Hadoop3.0.0版本發(fā)布認識大數據知識點4大數據的意義和應用現狀知識點4:大數據的意義和應用現狀大數據是21世紀的鉆石礦,隨著經濟的發(fā)展和科技的進步,大數據受到了越來越多行業(yè)的關注,應用了大數據的行業(yè)和領域發(fā)展速度大幅提升,并且還大大提升了這些行業(yè)和領域的發(fā)展空間。大數據的應用除了給人們的生產生活帶來便利之外,也有效促進了經濟的發(fā)揮,提升了綜合國力。大數據最聞名于互聯網行業(yè)的應用,目前已經在金融、電信、政府、醫(yī)療、能源、零售等各行各業(yè)中得到了廣泛的應用。金融行業(yè)互聯網醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)知識點4:大數據的意義和應用現狀公司具體應用阿里巴巴用于處理商業(yè)數據的排序,并將其應用于阿里巴巴的ISEARCH搜索引擎,垂直商業(yè)搜索引擎。阿里的飛天大數據平臺由全球范圍的上百萬臺服務器組成集群百度HADOOP集群主要應用日志分析,同時使用它做一些網頁數據庫的數據挖掘工作。Facebook主要用于存儲內部日志的拷貝,作為一個源用于處理數據挖掘和日志統(tǒng)計。主要使用了2個集群:一個由1100臺節(jié)點組成的集群,包括8800核CPU(即每臺機器8核),和12000TB的原始存儲(即每臺機器12T硬盤),一個有300臺節(jié)點組成的集群,包括2400核CPU(即每臺機器8核),和3000TB的原始存儲(即每臺機器12T硬盤),由此基礎上開發(fā)了基于SQL語法的項目:HIVETWITTER使用HADOOP用于存儲微博數據,日志文件和許多中間數據使用基于HADOOP構件的Cloudera'sCDH2系統(tǒng),存儲壓縮后的數據文件(LZO格式)雅虎主要用于支持廣告系統(tǒng)及網頁搜索集群機器數:
4000
個節(jié)點
(2*4cpuboxesw4*1TBdisk&16GBRAM)互聯網行業(yè)大數據技術應用知識點4:大數據的意義和應用現狀大數據挑戰(zhàn)發(fā)卡量增長迅速:2008年發(fā)卡約500萬張,2010年增加了一倍。業(yè)務數據增長迅速:隨著業(yè)務的迅猛增長,業(yè)務數據規(guī)模也線性膨脹。數據存儲、系統(tǒng)維護、數據有效利用都面臨巨大壓力。需求可擴展、高性能的數據倉庫解決方案能夠實現業(yè)務數據的集中和整合;可以支持多樣化和復雜化數據分析提升信用卡中心的業(yè)務效率;通過從數據倉庫提取數據,改進和推動有針對性的營銷活動。采用大數據方案后價值體現實時的商業(yè)智能可以結合實時、歷史數據進行全局分析,風險管理部門現在可以每天評估客戶的行為,并決定對客戶的信用額度在同一天進行調整;原有內部系統(tǒng)、模型整體性能顯著提高秒級營銷Greenplum數據倉庫解決方案提供了統(tǒng)一的客戶視圖,更有針對的進行營銷。2011年,中信銀行信用卡中心通過其數據庫營銷平臺進行了1286個宣傳活動,每個營銷活動配置平均時間從2周縮短到2-3天。EMCGreen-plum金融行業(yè):中信銀行信用卡中心大數據應用知識點4:大數據的意義和應用現狀
在中國移動“大云”產品總體架構中,分析型PaaS產品底層基于Hadoop數據存儲和分析平臺,在技術路線方面,選擇數據倉庫與Hadoop混搭的方式,借鑒關系型數據倉庫在傳統(tǒng)應用支持方面以及在復雜查詢和分析方面的快速響應能力,同時也借鑒了Hadoop的非結構化數據處理能力以及存儲的低成本。屏蔽Hadoop與數據倉庫的使用細節(jié),讓用戶在使用這些數據時盡量無感知;在數據的ETL采集預處理環(huán)節(jié),盡量采用Hadoop與分布式ETL的方式,提高數據轉換效率,同時降低成本。
電信行業(yè):中國移動的大數據應用知識點4:大數據的意義和應用現狀
2013年1月29日,住房和城鄉(xiāng)建設部公布了首批90個國家智慧城市試點名單,試點城市的公布標志著我國智慧城市發(fā)展進入規(guī)模推廣的階段。在目前智慧城市的發(fā)展階段,主要的應用還處于對感知設備傳遞的信息進行簡單處理的水平,充分認識大數據對于智慧城市建設的關鍵作用,對于避免智慧城市建設中出現“重感知,輕智慧”的通病具有重要意義。
從智慧城市的體系結構來看,由于智慧城市的基礎在于物聯網技術,因此智慧城市體系架構和物聯網的體系結構相類似,也可分為四層,分別為感知層、傳輸層、平臺層、應用層。智慧城市相對于之前數字城市概念,最大的區(qū)別在于對感知層獲取的信息進行了智慧的處理,因此也可以認為智慧城市是數字城市的升級版。由城市數字化到城市智慧化,關鍵是要實現對數字信息的智慧處理,其核心是大數據處理技術。政府:智慧城市建設的大數據應用知識點4:大數據的意義和應用現狀醫(yī)療行業(yè)產生的數據量主要來自于PACS影像、B超、病理分析等業(yè)務所產生的非結構化數據。人體不同部位、不同專科影像的數據文件大小不一,PACS網絡存儲和傳輸要采取不同策略。面對大數據,醫(yī)療行業(yè)遇到前所未有的挑戰(zhàn)和機遇。醫(yī)療行業(yè)大數據應用場景非常多,右圖僅以臨床操作和研發(fā)為例,展示醫(yī)療行業(yè)大數據應用場景。對于公共衛(wèi)生部門,可以通過過覆蓋全國的患者電子病歷數據庫,快速檢測傳染病,進行全面的疫情監(jiān)測,并通過集成疾病監(jiān)測和響應程序,快速進行響應。比較效果研究臨床操作臨床決策支持系統(tǒng)醫(yī)療數據透明度遠程病人監(jiān)控研發(fā)預測建模提高臨床試驗設計的統(tǒng)計工具和算法疾病模式的分析醫(yī)療行業(yè)大數據應用知識點4:大數據的意義和應用現狀能源行業(yè)大數據應用能源行業(yè)數據特征能源勘探開發(fā)數據的類型眾多,不同類型數據包含的信息各具特點,綜合各種數據所包含的信息才能得出地下真實的地質狀況。能源行業(yè)面臨的大數據問題能源行業(yè)企業(yè)對大數據產品和解決方案的需求集中體現在:可擴展存儲、高帶寬、可處理不同格式數據的分析方案。知識點4:大數據的意義和應用現狀第一:大數據自身能夠創(chuàng)造出更多的價值。大數據相關技術緊緊圍繞數據價值化展開,數據價值化將開辟出廣大的市場空間,重點在于數據本身將為整個信息化社會賦能。目前在互聯網領域,大數據技術已經得到了較為廣泛的應用。第二:大數據推動科技領域的發(fā)展。大數據的發(fā)展正在推動科技領域的發(fā)展進程,大數據的影響不僅僅體現在互聯網領域,也體現在金融、教育、醫(yī)療等諸多領域。在人工智能研發(fā)領域,大數據也起到了重要的作用,尤其在機器學習、計算機視覺和自然語言處理等方面,大數據正在成為智能化社會的基礎。第三:大數據產業(yè)鏈逐漸形成。經過近些年的發(fā)展,大數據已經初步形成了一個較為完整的產業(yè)鏈,包括數據采集、整理、傳輸、存儲、分析、呈現和應用,眾多企業(yè)開始參與到大數據產業(yè)鏈中,并形成了一定的產業(yè)規(guī)模。
第四:產業(yè)互聯網將推動大數據落地。當前互聯網正在經歷從消費互聯網向產業(yè)互聯網過渡,產業(yè)互聯網將利用大數據、物聯網、人工智能等技術來賦能廣大的傳統(tǒng)產業(yè),可以說產業(yè)互聯網的發(fā)展空間非常大,而大數據則是產業(yè)互聯網發(fā)展的一個重點,在產業(yè)互聯網階段,大數據將逐漸落地,也必然落地。認識大數據知識點5大數據人才需求與崗位介紹知識點5:大數據人才需求與崗位介紹大數據產業(yè)指以數據生產、采集、存儲、加工、分析、服務為主的相關經濟活動,包括數源建設、大數據軟硬件產品的開發(fā)、銷售和租賃活動,以及相關信息技術服務。大數據通過數據流引領及影響社會的組織分工,促進生產要素的變革,是推動經濟轉型發(fā)展的新動力。同時其持續(xù)創(chuàng)新商業(yè)模式,不斷催生新業(yè)態(tài),已成為互聯網等新興領域促進業(yè)務創(chuàng)新增值、提升企業(yè)核心價值的重要驅動力。大數據產業(yè)正在成為新的經濟增長點,將對未來信息產業(yè)格局產生重要影響。2020年全球大數據產業(yè)市場規(guī)模已達到560億美元,且增長率在10%以上。知識點5:大數據人才需求與崗位介紹根據大數據產業(yè)的發(fā)展情況,我國大數據技術職業(yè)崗位對人員的需求主要集中于互聯網服務、電子信息服務、軟件開發(fā)三大領域。按照調研企業(yè)提供的大數據崗位相關工作內容,可以把大數據崗位分為初級分析、挖掘算法、開發(fā)運維、產品運營四大類,具體招聘崗位類的數量分布如下圖所示。其中開發(fā)運維類主要包括大數據開發(fā)工程師、大數據結構工程師、大數據運維工程師、數據可視化工程師等。知識點5:大數據人才需求與崗位介紹從技術類崗位典型工作任務分析情況來看,平臺部署與配置、系統(tǒng)運維、數據分析和系統(tǒng)開發(fā)工作都是主要的典型工作任務,并且這些任務的重要程度也較高;另外,系統(tǒng)設計工作和數據與網絡安全管理雖然占比相對不高,但非常重要程度較高,說明這類任務相對比較精、專,對相應的技術技能要求也較高。技術類崗位典型工作任務如下圖所示:知識點5:大數據人才需求與崗位介紹從企業(yè)大數據專業(yè)相關崗位類型分布情況來看,如下圖所示,技術類崗位主要是大數據運維、數據采集、數據分析、數據可視化和應用開發(fā)類崗位;管理類崗位主要是項目管理、產品經理、數據庫管理和系統(tǒng)管理類崗位;服務類崗位主要是運營類、客戶技術支持類崗位。知識點5:大數據人才需求與崗位介紹企業(yè)對大數據專業(yè)相關崗位需要的認證,綜合來看企業(yè)對編程語言Java、Python相關認證、數據庫運維與管理類的認證需求較高,對大數據平臺運維和數據分析等相關認證也有一定需求。結合企業(yè)關注的崗位類型和典型工作任務分析,這些認證對應的技術技能都是崗位的基礎必備技術技能?!洞髷祿脚_部署與運維》單元2Hadoop偽分布式安裝部署任務2.1搭建Hadoop偽分布式01Hadoop的發(fā)展歷程與應用現狀02Hadoop優(yōu)勢與核心組成學習目標03Hadoop安裝方式04Hadoop各版本選擇05Hadoop偽分布式搭建基本流程搭建Hadoop偽分布式【任務場景】經理:我們公司現在數據量不斷上升,現有的架構需要升級,小張你有什么意見?小張:Hadoop適合應用于大數據存儲和大數據分析的應用,適合于服務器幾千臺到幾萬臺的集群運行,支持PB級的存儲容量。Hadoop典型應用有:搜索、日志處理、推薦系統(tǒng)、數據分析、視頻圖像分析、數據保存等。經理:對,Hadoop目前已經取得了非常突出的成績。隨著互聯網的發(fā)展,新的業(yè)務模式還將不斷涌現,Hadoop的應用會從互聯網領域向電信、電子商務、銀行、生物制藥等領域拓展。小張:好的,那我先部署一套偽分布式環(huán)境。搭建Hadoop偽分布式【任務布置】Hadoop是由Java語言開發(fā)的,所以Hadoop的部署和運行都依賴JDK,因此必須先將部署前基礎環(huán)境準備完成。本次任務要求在單節(jié)點上部署偽分布式Hadoop。一般在測試場景下經常會部署單節(jié)點的偽分布式Hadoop,理解并掌握Hadoop偽分布式的安裝部署,可以為后續(xù)生產環(huán)境下部署Hadoop分布式集群打下基礎。Hadoop的發(fā)展歷程與應用現狀Hadoop是Apache軟件基金會旗下的一個開源分布式存儲和計算平臺,是基于Java語言開發(fā)的,有很好的跨平臺性。Hadoop以分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)和MapReduce(GoogleMapReduce的開源實現)為核心,為用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎架構。HDFS的高容錯性、高伸縮性等優(yōu)點允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng);MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細節(jié)的情況下開發(fā)并行應用程序。Hadoop概述Hadoop這個名字不是一個縮寫,它是一個虛構的名字。該項目的創(chuàng)建者DougCutting解釋Hadoop的得名:“這個名字是我孩子給一個棕黃色的大象玩具命名的。我的命名標準就是簡短,容易發(fā)音和拼寫,沒有太多的意義,并且不會被用于別處,小孩子恰恰是這方面的高手?!盚adoop的發(fā)音是[h?du:p]。ApacheHadoop官方網站Inpioneerdaystheyusedoxenforheavypulling,andwhenoneoxcouldn’tbudgealog,theydidn’ttrytogrowalargerox.Weshouldn’tbetryingforbiggercomputers,butformoresystemsofcomputers.(在拓荒時期,他們用牛來拉重物,當一頭牛不能移動一根原木時,他們就不會試圖讓一頭牛長得更大。我們不應該嘗試更大的計算機,而是嘗試更多的計算機系統(tǒng)。)—GraceHopperHadoop優(yōu)勢與核心組成Hadoop發(fā)展:2002年Hadoop的源頭是ApacheNutch搜索引擎項目2003年Google發(fā)布了關于GFS的論文20042005年2006年2007年Nutch的開發(fā)者發(fā)布了NDFSGoogle公司發(fā)表了MapReduce,最初版本問世Nutch移植到新的框架,Hadoop在20個節(jié)點上穩(wěn)定運行DougCutting加入Yahoo,ApacheHadoop項目正式啟動以支持MapReduce和HDFS從Nutch中獨立處理發(fā)展。研究集群達到兩個1000個節(jié)點的集群2009年Cloudera推出CDHMapReduce和HadoopDistributedFileSystem(HDFS)成為Hadoop項目的獨立子項目2011年Hadoop1.0問世,標志著Hadoop已經初具生成規(guī)模2016年Hadoop3.0問世,正式進入3.x時代2008年Hadoop成為Apache頂級項目。Hive成為Apache子項目2010年Avro、Hbase、Hive、Pig脫離Hadoop項目,成為Apache頂級項目2013年Hadoop2.0問世,正式進入2.x時代Hadoop優(yōu)勢與核心組成Hadoop優(yōu)點:Hadoop是一個能讓用戶輕松開發(fā)和運行處理大數據的分布式平臺。它主要是有以下幾個優(yōu)點:(1)高可靠性;Hadoop按位存儲和處理數據的能力值得人們信賴。(2)高擴展性;Hadoop是在可用的計算機集群間分配數據并完成計算任務的,這些集群可以方便地擴展到數以千計的節(jié)點中。(3)高效性;Hadoop能夠在節(jié)點之間動態(tài)地移動數據,并保證各個節(jié)點的動態(tài)平衡,因此處理速度非???。(4)高容錯性;Hadoop能夠自動保存數據的多份副本,并且能夠自動將失敗的任務重新分配。Hadoop優(yōu)勢與核心組成Hadoop核心組成:在當下,Hadoop已經形成了一個龐大的體系,有數據的地方基本都會看到Hadoop的身影。目前的Hadoop逐漸演化出來兩種分類,廣義的Hadoop和狹義的Hadoop。狹義的Hadoop主要包括三大部分:HDFS(分布式文件系統(tǒng)),MapReduce(分布式計算系統(tǒng)),YARN(資源管理器)。廣義的Hadoop是指Hadoop的生態(tài)系統(tǒng),是一個龐大的體系,Hadoop只是其中最重要最基礎的部分,生態(tài)系統(tǒng)中的每個子系統(tǒng)只負責解決某個特定的問題域。Hadoop生態(tài)系統(tǒng)圖Hadoop優(yōu)勢與核心組成項目介紹分布式文件系統(tǒng)HDFSHDFS是Hadoop的存儲系統(tǒng),采用了主從(Master/Worker)結構模型,一個HDFS集群環(huán)境是由一個NameNode和若干的DataNode組成的。HDFS能夠實現對文件的操作,如刪除文件、移動文件等功能。HDFS提供了高可靠性(多副本實現)、高擴展性(添加機器進行線性擴展)、高吞吐率的數據存儲服務。分布式計算框架MapReduceMapReduce是一個分布式、并行處理的編程模型,他方便了編程人員將自己的程序部署到分布式系統(tǒng)中,MapReduce采用了“分而治之”的基本思想,他將一個大的任務分解成多個小的任務,分發(fā)到集群中不同計算機中,提高完成效率YARN(資源管理器)YARN是在Hadoop2.x中誕生的,他對Hadoop1.x中JobTracker和TaskTracker模型的優(yōu)化而誕生的,主要負責整個系統(tǒng)化的資源管理和調度,并且在YARN上能夠運行不同類型的執(zhí)行框架。Hive基于Hadoop的數據倉庫Hive是基于Hadoop的一個數據倉庫工具,由Facebook開源。Hive讓不熟悉MapReduce的開發(fā)人員編寫數據查詢語句(SQL語句),它會將其翻譯為Hadoop中的MapReduce作業(yè),并提交到Hadoop集群中運行。HBase(分布式數據庫)HBase是建立在HDFS之上,提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數據庫系統(tǒng)。HBase是谷歌BigTable的開源實現,通過Java語言進行編程,主要用來存儲非結構化和半結構化的松散數據。ZooKeeper(分布式協作服務)ZooKeeper是Hadoop的分布式應用程序協調服務,是Hadoop和HBase的重要組件,提供的功能包括:配置維護、域名服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。Hadoop優(yōu)勢與核心組成項目介紹Sqoop(數據同步工具)Sqoop是一個連通性工具,用于在關系型數據庫和數據倉庫(Hive)與Hadoop之間數據轉移框架Pig(基于Hadoop的數據流系統(tǒng))Pig是用于并行計算的高級數據流語言和執(zhí)行框架。他是構建在Hadoop之上的數據倉庫,定義了一種數據流語言–PigLatin。Pig突出的特點就是它的結構經得起大量并行任務的檢驗,這使得它能夠處理大規(guī)模數據集。Mahout(數據挖掘算法庫)Mahout是機器學習和數據挖掘的庫。它實現了三大算法:推薦、聚類、分類。Flume(日志收集工具)Flume是Cloudera開源的日志收集系統(tǒng),他具有分布式、高可靠、高容錯、易于定制和擴展的特點,是基于流式數據流的簡單而靈活的架構。它具有可靠的可靠性機制以及許多故障轉移和恢復機制,具有強大的容錯性和容錯能力。Oozie(作業(yè)流調度系統(tǒng))Oozie是一個用于管理ApacheHadoop作業(yè)的工作流調度程序系統(tǒng),能夠提供對HadoopMapReduce和PigJobs的任務調度與協調。Oozie工作流是放置在控制依賴DAG(有向無環(huán)圖)中的一組動作,需要部署到JavaServlet容器中運行。Hadoop優(yōu)勢與核心組成3.Hadoop安裝方式Hadoop安裝部署有以下三種模式:1.單機部署,Hadoop默認模式、即非分布式模式(本地模式),沒有守護進程,不分主從節(jié)點,這種部署方式非常少用。2.偽分布式部署,主從節(jié)點都在一臺主機上,可用在本機模擬一個主節(jié)點、一個從節(jié)點的集群。本單元以偽分布式模式進行Hadoop搭建。3.完全分布式集群部署,有多個節(jié)點,主從進程分別在不同的機器上運行。Hadoop各版本選擇1.Hadoop1.02011年,Hadoop1.0問世,由分布式存儲系統(tǒng)HDFS和分布式計算框架MapReduce組成。其中HDFS由一個NameNode和多個DateNode組成,MapReduce由一個JobTracker和多個TaskTracker組成。在實際的使用過程中,Hadoop1.x逐漸的暴露出許多問題:(1)主節(jié)點故障問題,HDFS和MapReduce都是主從結構,他們的主節(jié)點都是單節(jié)點結構,一旦主節(jié)點出現問題,導致集群癱瘓。(2)注銷速度問題,MapReduce的主節(jié)點JobTracker完成太多任務,當MapReduce任務非常多時,造成非常大的內存開銷。(3)服務器利用率不高,MapReduce主要分為兩個階段,一個為Map,一個為Reduce。在MapReduce時執(zhí)行時,大部分Reduce任務需要等待Map任務完成計算才能開始。(4)存儲文件格式單一問題,HDFS存儲的數據都是按照Block來存儲的,整個存儲只有這一個格式,而企業(yè)的數據是多種多樣的,存儲起來不但麻煩還造成資源的浪費。Hadoop各版本選擇MapReduce1.0架構圖關鍵詞含義Client
客戶端JobTrackerMaster節(jié)點,責資源監(jiān)控和作業(yè)調度,并監(jiān)管所有的TaskTrackerTaskTrackerWorker節(jié)點,接收JobTracker發(fā)送過來的命令并執(zhí)行相應的操作TaskScheduler任務調度器Hearbeat心跳機制MapTask解析每條數據記錄,傳遞給用戶編寫的map(),并執(zhí)行,將輸出結果寫入本地磁盤(如果為map-only作業(yè),直接寫入HDFS)ReduceTask從MapTask的執(zhí)行結果中,遠程讀取輸入數據,對數據進行排序,將數據按照分組傳遞給用戶編寫的reduce函數執(zhí)行Hadoop各版本選擇關鍵詞含義NameNode名字節(jié)點,管理文件系統(tǒng)命名空間的主服務器。DataNode數據節(jié)點,存儲文件塊replication文件塊的副本,目的是確保數據存儲的可靠性Rack機架,可以理解為兩個處于不同地方的機群,每個機群內部有自己的連接方式Client通過指令或代碼操作的一端都是客戶端Client的Read從HDFS下載文件到本地Client的Write上傳文件到HDFS上HDFS1.0架構圖Hadoop各版本選擇Hadoop2.0Hadoop1.0到Hadoop2.0架構變化圖2013年,Hadoop2.0問世,Hadoop2.0是為了解決Hadoop1.0中的出現的問題而提出的,內核主要由HDFS、MapReduce和YARN三個系統(tǒng)組成。針對Hadoop1.0中HDFS主節(jié)點故障問題,提出了HDFSFederation,兼容多個NameNode,讓多個NameNode分管不同的目錄來進行訪問的隔離和節(jié)點的橫向擴展,這樣就解決了HDFS單節(jié)點問題。針對MapReduce主節(jié)點故障和框架支持問題,將MapReduce的功能分開了,只保留了數據處理,將集群資源管理放到了Yarn中,誕生了全新的通用資源管理框架YARN。在MapReduce2.0中,具有和MapReduce1.0相同的編程模型和數據引擎處理,但是在運行時環(huán)境上引入全新的資源管理框架YARN,MapReduce變成了一個純粹的計算框架,不再負責管理。YARN是Hadoop2.0中資源管理系統(tǒng),負責資源管理和調度。他將JobTracker的資源管理和作業(yè)調度拆分成兩個獨立的進程,ApplicationMaster和ResourceManager。在Hadoop2.x中對HDFS做了改進,可以使NameNode橫向擴展成多個,每個NameNode分管部分目錄,誕生了HDFSFederation。組件Hadoop1.0問題Hadoop2.0改進HDFS單一名稱節(jié)點,存在單點失效問題設計了HDFSHA,提供名稱節(jié)點熱備機制HDFS單一命名空間,無法實現資源隔離設計了HDFSFederation,管理多個命名空間MapReduce資源管理效率低設計了新的資源管理框架YARNHadoop各版本選擇Hadoop3.02016年,Hadoop3.0問世,Hadoop3.0中引入了一些重要的功能和優(yōu)化,包括HDFS可擦除編碼、多Namenode支持、MRNativeTask優(yōu)化、YARN基于cgroup的內存和磁盤IO隔離、YARNcontainerresizing等。Hadoop3.0新特性:Java版本升級Hadoop3.0要求Java版本最低版本不低于1.8,有以往的Java版本不再支持Hadoop版本JDK1.6JDK1.7JDK1.8Hadoop1.x√××Hadoop2.x√√×Hadoop3.x××√2.部分服務默認端口修改在以往版本中,多個Hadoop服務的默認端口在Linux臨時端口范圍內(32768-61000)。這意味著在啟動時,服務有時會由于與另一個應用程序沖突而無法綁定到端口分類應用Haddop2.xportHaddop3.xportNNportsNameNode8020/90009820NNHTTPUI500709870NNHTTPSUI504709871SNNportsSNNHTTP500919869SNNHTTPUI500909868DNportsDNIPC500209867DN500109866DNHTTPUI500759864DNHTTPSUI504759865Hadoop各版本選擇HDFS支持糾刪碼YARN時間線服務v.2Shell腳本重寫重構HadoopClientJar包MapReduce任務級原生優(yōu)化支持兩個以上的NameNode支持與MicrosoftAzureDataLake和Aliyun對象存儲系統(tǒng)進行集成DataNode內平衡器重新設計的守護進程和任務堆管理S3Guard:S3A文件系統(tǒng)客戶端的一致性和元數據緩存基于HDFS路由器的聯合基于API的CapacityScheduler隊列配置配置YARN資源類型Hadoop偽分布式搭建基本流程Hadoop偽分布式安裝,是指在一個節(jié)點(即一臺主機或服務器)上安裝和部署HDFS和MapReduce+Yarn。實際上,偽分布式模式可以看成是單節(jié)點的完全分布式模式。Hadoop偽分布式搭建基本流程1.防火墻配置
Centos7使用Firewalld命令來操作防火墻,在Hadoop偽分布式搭建中,一般都選在局域網中進行搭建,沒有安全性考慮,因此關閉防火墻一般也不會存在安全隱患。2.SELinux配置
SELinux是安全增強型Linux(Security-EnhancedLinux)簡稱,它是一個Linux內核模塊,也是Linux的一個安全子系統(tǒng)。為了避免安裝過程出現各種錯誤,建議關閉。主機名配置
為了更方便的管理項目,建議對每個節(jié)點的主機名進行修改。4.SSH(secureshell)免密碼登錄配置
不管是Hadoop的偽分布還是全分布,Hadoop的名稱結點(NameNode)都需要啟動集群中所有機器的Hadoop守護進程,而這個過程可以通過SSH登錄來實現。由于Hadoop并沒有提供SSH輸入密碼登錄的形式,因此,為了能夠順利登錄每臺機器,就需要對其進行SSH的免密登錄配置。Hadoop偽分布式搭建基本流程5.JDK1.8配置 Hadoop是基于Java語言開發(fā)的,使用Java首先要安裝JDK(JavaDevelopmentKit),即Java開發(fā)工具,安裝完JDK還需要進行配置環(huán)境變量(PATH,CLASSPATH,JAVA_HOME)。6.Hadoop3.1.1偽分布式安裝配置 Hadoop3可以通過Hadoop官網下載,請下載hadoop-3.1.1.tar.gz格式文件,這種格式已經編譯好,另一個包含src的則是Hadoop源代碼,需要進行編譯才可使用。 Hadoop目錄,一共有7個目錄和3個txt說明文件,bin和sbin是可執(zhí)行文件的目錄,etc放的是配置文件目錄,include、lib和libexec均是放一些類庫的目錄,share是放一些共享類庫和jar包的。
在安裝Hadoop后,需要對Hadoop進行配置,這些配置文件存放在Hadoop目錄下的./etc/hadoop文件夾中。7.HDFS格式化配置
首次啟動前需要進行格式化。格式化本質是進行文件系統(tǒng)的初始化操作,創(chuàng)建一些Hadoop自己所需要的文件。格式化之后且啟動成功后,后續(xù)再也不需要進行格式化。格式化的操作在HDFS集群的主角色(NameNode)所在機器上操作。8.啟動偽分布Hadoop
Hadoop在格式化成功以后,接著開啟NameNode和DataNode守護進程,在Hadoop目錄下通過./sbin/start-dfs.sh命令啟動。通過WebUI監(jiān)控Hadoop平臺
當Hadoop成功啟動并通過jps可以看到指定進程后,可以訪問Web界面來查看HDFS和MapReduce相關信息。10.常見問題匯總搭建Hadoop偽分布式【工作流程】搭建偽分布式Hadoop的基本工作流程包括:關閉防火墻關閉SELinux修改主機名配置SSH(secureshell)免密碼登錄安裝配置JDK1.8安裝配置Hadoop搭建Hadoop偽分布式【操作步驟】1.關閉防火墻[root@localhost/]#/usr/sbin/sestatus-vSELinuxstatus:enforcing#臨時關閉SELinux[root@localhost/]#setenforce02.關閉SELinux[root@localhost
/]#systemctlstatusfirewalld●firewalld.service-firewalld-dynamicfirewalldaemonLoaded:loaded(/usr/lib/systemd/system/firewalld.service;disabled;vendorpreset:enabled)Active:active(running)sinceThu2021-11-1812:39:24UTC;1sagoDocs:man:firewalld(1)MainPID:31240(firewalld)Tasks:2Memory:28.1MCGroup:/system.slice/firewalld.service└─31240/usr/bin/python2-Es/usr/sbin/firewalld--nofork--nopid#關閉防火墻[root@localhost
/]#systemctlstopfirewalld#禁止開啟啟動[root@localhost
/]#systemctldisablefirewalld搭建Hadoop偽分布式4.配置SSH(secureshell)免密碼登錄[root@localhost/]#hostnamelocalhost#臨時修改主機名稱[root@localhost/]#hostnamectlset-hostname主機名#配置主機名與IP地址的映射,在文件末尾添加主機名與IP之間的映射關系[root@localhost/]#gedit
/etc/hosts當前主機IPlocalhost3.修改主機名稱,并配置主機名和IP地址的映射#生成秘鑰[root@localhost/]ssh-keygen-trsa#輸入后按照提示回車,直到完成命令Generatingpublic/privatersakeypair.Enterfileinwhichtosavethekey(/root/.ssh/id_rsa):#直接回車Enterpassphrase(emptyfornopassphrase):#直接回車Entersamepassphraseagain:#直接回車Youridentificationhasbeensavedin/root/.ssh/id_rsa.Yourpublickeyhasbeensavedin/root/.ssh/id_rsa.pub.Thekeyfingerprintis:SHA256:9NevFFklAS5HaUGJtVrfAlbYk82bStTwPvHIWY7as38root@node1Thekey'srandomartimageis:+---[RSA2048]----+|+*O*=.||.o=+=o+||...O+=||..**.%o||Soo%o+||.++.||.+.||.+E||o.o|+----[SHA256]-----+#拷貝id_rsa.pub,創(chuàng)建密鑰文件authorized_keys[root@localhost/]#cp~/.ssh/id_rsa.pub~/.ssh/authorized_keys#驗證免密登錄,可以正常進入,無需輸入免密視為配置成功[root@localhost/]#ssh
主機名搭建Hadoop偽分布式5.安裝配置JDK1.8#檢查JDK是否安裝[root@localhost/]#java-version#上傳已下載好的JKD壓縮包到/usr/local目錄下[root@localhost/]#cd/usr/local#解壓JDK壓縮包[root@localhost/]#tarzxvfjdk-8u112-linux-x64.tar.gz#修改文件名稱,方便填寫[root@localhost/]#mvjdk1.8.0_112jdk#設置環(huán)境變量,添加2行內容[root@localhost/]#vim/etc/profileexportJAVA_HOME=/usr/local/jdkexportPATH=.:$JAVA_HOME/bin:$PATH#使配置的環(huán)境變量生效[root@localhost/]#source/etc/profile[root@localhost/]#java-versionjavaversion"1.8.0_112"Java(TM)SERuntimeEnvironment(build1.8.0_112-b15)JavaHotSpot(TM)64-BitServerVM(build25.112-b15,mixedmode)6.安裝Hadoop3.1.1#上傳Hadoop壓縮包到/usr/local目錄下并解壓Hadoop壓縮包[root@localhost
/]#tar-zxvfhadoop-3.1.1.tar.gz-C/usr/local/[root@localhost
/]#mvhadoop-3.1.1hadoop#設置環(huán)境變量,添加以下幾行內容[root@ocalhost
/]#vim/etc/profileexportHADOOP_HOME=/usr/local/hadoopexportPATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH#hadoop-3.1.1必須添加如下5個變量否則啟動報錯exportHDFS_NAMENODE_USER=rootexportHDFS_DATANODE_USER=rootexportHDFS_SECONDARYNAMENODE_USER=rootexportYARN_RESOURCEMANAGER_USER=rootexportYARN_NODEMANAGER_USER=root[root@localhost
/]#source/etc/profile[root@localhost
/]#hadoopversionHadoop3.1.1Sourcecoderepository/apache/hadoop-r2b9a8c1d3a2caf1e733d57f346af3ff0d5ba529cCompiledbyleftnoteasyon2018-08-02T04:26ZCompiledwithprotoc2.5.0Fromsourcewithchecksumf76ac55e5b5ff0382a9f7df36a3ca5a0Thiscommandwasrunusing/usr/local/hadoop/share/hadoop/common/hadoop-common-3.1.1.jar搭建Hadoop偽分布式6.安裝Hadoop3.1.1修改Hadoop配置文件,這些配置文件都放在/usr/local/hadoop/etc/hadoop目錄下第一個:配置hadoop-env.sh文件#編輯文件,設置JAVA_HOME絕對路基(JDK1.8安裝路徑)[root@localhost/]#vimhadoop-env.shexportJAVA_HOME=/usr/local/jdk第二個:配置core-site.xml文件(HADOOP-HDFS系統(tǒng)內核文件)[root@localhost/]#vimcore-site.xml<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/hadoop/tmp</value>
</property></configuration>第三個:配置hdfs-site.xml文件[root@localhost/]#vimmapred-site.xml<configuration><property>
<name></name>
<value>yarn</value></property></configuration>第四個:配置mapred-site.xml文件[root@localhost/]#vimhdfs-site.xml<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.http.address</name>
<value>localhost:50070</value>
</property></configuration>搭建Hadoop偽分布式第五個:配置yarn-site.xml文件[root@localhost/]#vimyarn-site.xml#將configuration標簽中修改成如下內容<configuration><!--指定YARNResourceManager的地址--><property><name>yarn.resourcemanager.hostname</name><value>localhost</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>6.安裝Hadoop3.1.1任務總結了解Hadoop的發(fā)展歷程和生態(tài)系統(tǒng)中各組件的功能深入理解Hadoop的原理與體系架構掌握Hadoop三種安裝方式掌握Hadoop偽分布式安裝步驟。《大數據平臺部署與運維》單元2Hadoop偽分布式安裝部署2-2啟動與訪問Hadoop01Hadoop啟動關閉等操作命令02基于WebUI監(jiān)控Hadoop平臺學習目標啟動與訪問Hadoop【任務場景】經理:小張,Hadoop平臺搭建的怎么了?在搭建過程中有沒有遇到問題?小張:經理,Hadoop平臺搭建好了,這次搭建的是偽分布式模式的,部署在了單節(jié)點。經理:好,那你啟動訪問一下,向我們大家展示一下Hadoop的相關使用,并介紹下HadoopWebUI監(jiān)控頁面。小張:好的,經理。啟動與訪問Hadoop【任務布置】在上一個任務中,我們已經在單節(jié)點上部署了Hadoop的偽分布式模式,但是并沒有進行啟動測試。本次任務要格式化NameNode并啟動Hadoop。掌握Hadoop相關啟動命令,知道Hadoop常見問題處理方法,了解HadoopUI監(jiān)控相關功能,為后續(xù)生產環(huán)境下部署Hadoop分布式集群打下基礎。Hadoop啟動關閉等操作命令Hadoop啟動關閉等操作命令命令功能sbin/start-all.sh啟動所有的Hadoop守護進程。包括NameNode、SecondaryNameNode、DataNode、ResourceManager、NodeManagersbin/stop-all.sh停止所有的Hadoop守護進程。包括NameNode、SecondaryNameNode、DataNode、ResourceManager、NodeManagersbin/start-dfs.sh啟動HadoopHDFS守護進程NameNode、SecondaryNameNode、DataNodesbin/stop-dfs.sh停止HadoopHDFS守護進程NameNode、SecondaryNameNode和DataNodesbin/hadoop-daemons.shstartnamenode單獨啟動NameNode守護進程sbin/hadoop-daemons.shstopnamenode單獨停止NameNode守護進程sbin/hadoop-daemons.shstartdatanode單獨啟動DataNode守護進程sbin/hadoop-daemons.shstopdatanode單獨停止DataNode守護進程sbin/hadoop-daemons.shstartsecondarynamenode單獨啟動SecondaryNameNode守護進程sbin/hadoop-daemons.shstopsecondarynamenode單獨停止SecondaryNameNode守護進程sbin/start-yarn.sh啟動ResourceManager、NodeManagersbin/stop-yarn.sh停止ResourceManager、NodeManagersbin/yarn-daemon.shstartresourcemanager單獨啟動ResourceManagersbin/yarn-daemons.shstartnodemanager單獨啟動NodeManagersbin/yarn-daemon.shstopresourcemanager單獨停止ResourceManagersbin/yarn-daemons.shstopnodemanager單獨停止NodeManager基于WebUI監(jiān)控Hadoop平臺基于WebUI監(jiān)控Hadoop平臺1.HDFSUI監(jiān)控在任務2.1中,我們在hdfs-site.xml中配置HDFS的監(jiān)控頁面的地址為:localhost:50070,可以通過50070端口訪問到HDFS的監(jiān)控頁面?;赪ebUI監(jiān)控Hadoop平臺(1)標題欄:名稱含義Overview集群概述Datanode數據節(jié)點datanode-volume-failures數據節(jié)點卷故障snapshot快照startup-progress啟動進度(2)概述:名稱含義Started啟動時間Version版本號Compiled編譯信息ClusterID群集IDBlockPoolID塊池ID基于WebUI監(jiān)控Hadoop平臺(3)總結:名稱含義Safemodeisoff安全模式已關閉Securityisoff安全關閉ConfiguredCapacity集群配置的總的容量configuredRemoteCapacity配置遠程容量DFSUsed已使用的DFS集群總量NonDFSUsed已使用的非DFS的量DFSRemainingDFS未使用(剩余)的容量BlockPoolUsed數據塊使用的量DataNodesusages%(Min/Median/Max/stdDev)數據節(jié)點使用率(最小值/中間值/最大值/標準偏差)LiveNodes存活的節(jié)點(活動節(jié)點)DeadNodes宕機的節(jié)點(死節(jié)點)DecommissioningNodes已停用節(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 商務星球版地理八年級下冊:8.2 《新疆維吾爾自治區(qū)》 聽課評課記錄
- 八年級政治下冊第六單元我們的人身權利6.2《維護人格尊嚴》情境探究型聽課評課記錄(粵教版)
- 個人中介房屋租賃協議書范本
- 房屋轉租三方合同范本
- 樓層架管出租協議書范本
- 私立中學轉讓合同書
- 2025年度互聯網廣告合同終止的多重市場監(jiān)管情形
- 區(qū)中心房屋租賃合同范本
- 2025年度商品車運輸與新能源汽車充電設施安裝合同
- 二零二五年度新能源研發(fā)私人廠房租賃合同
- 電話接聽技巧與服務質量提升方案三篇
- 德國職業(yè)學校教育質量保障體系研究
- 2023-2024學年北師大版數學八年級上冊 期末測試卷
- 第3篇 助跑 項目六 異形芯片分揀與安裝講解
- 《建設工程施工現場消防安全技術規(guī)范》
- 承包貨車司機合同范本
- 傳統(tǒng)戲劇藝術與人工智能的創(chuàng)新傳播渠道
- 2024年越南天然食用香料與色素行業(yè)現狀及前景分析2024-2030
- HG-T 2006-2022 熱固性和熱塑性粉末涂料
- 老舍《駱駝祥子》名著讀后感
- 實體瘤療效評價標準(RECIST11)
評論
0/150
提交評論