大數(shù)據(jù)技術(shù)簡介_第1頁
大數(shù)據(jù)技術(shù)簡介_第2頁
大數(shù)據(jù)技術(shù)簡介_第3頁
大數(shù)據(jù)技術(shù)簡介_第4頁
大數(shù)據(jù)技術(shù)簡介_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、技術(shù)創(chuàng)新,變革未來大數(shù)據(jù)技術(shù)簡介內(nèi)容Hadoop的起源與發(fā)展Hadoop是什么 主流大數(shù)據(jù)技術(shù)Hadoop應(yīng)用現(xiàn)狀Hadoop偽分布式環(huán)境搭建Hadoop的起源與發(fā)展Hadoop的思想之源Google面對的數(shù)據(jù)存儲和計算難題大量的網(wǎng)頁怎么存儲搜索算法GoogleGFSMapReduceBigTableHadoop的起源與發(fā)展Doug CuttingHadoop是什么Hadoop是一個開源框架,可編寫和運行分布式 應(yīng)用處理大規(guī)模數(shù)據(jù)Hadoop框架的核心是HDFS、MapReduce、YarnHDFS 是分布式文件系統(tǒng),提供海量數(shù)據(jù)的存儲MapReduce 是分布式數(shù)據(jù)處理模型,提供數(shù)據(jù) 計算Y

2、arn是資源管理和調(diào)度工具主流大數(shù)據(jù)技術(shù)主流大數(shù)據(jù)技術(shù)Hadoop已經(jīng)成長為一個龐大的生態(tài)體系只要和海量數(shù)據(jù)相關(guān)的領(lǐng)域,有 Hadoop 身影MapReduce是把一個大數(shù)據(jù)集上的任務(wù)分解,并 在并行的多個節(jié)點中處理Hive在Hadoop中扮演數(shù)據(jù)倉庫的角色,Hive使 用類SQL語法進行數(shù)據(jù)操作HBase是面向列的數(shù)據(jù)庫,運行在HDFS之上, HBase以BigTable為藍本,可以快速在數(shù)十億行數(shù) 據(jù)中隨機存取數(shù)據(jù)主流大數(shù)據(jù)技術(shù)Storm是流式計算Spark是內(nèi)存計算、流式計算、圖計算Sqoop是從關(guān)系數(shù)據(jù)庫導(dǎo)入數(shù)據(jù)到Hadoop,并可 直接導(dǎo)入到HDFS或HiveFlume是將流數(shù)據(jù)或日

3、志數(shù)據(jù)導(dǎo)入HDFSZooKeeper協(xié)調(diào)集群成員Oozie提供管理工作流程和依賴的功能,將多個MapReduce作業(yè)連接到一起,定制彼此間依賴Ambari可對Hadoop集群提供監(jiān)控、部署、配置、升級和管理等核心功能大數(shù)據(jù)技術(shù)特點針對大規(guī)模數(shù)據(jù)處理的需求一直存在,受限于系統(tǒng) 的處理能力和費用,一直沒有得到大規(guī)模使用健壯:在一般商用硬件上運行,必須考慮硬件會 頻繁失效,可以從容地處理大多數(shù)故障??蓴U展:通過增加集群節(jié)點,可以線性地擴展以 處理更大的數(shù)據(jù)集。簡單方便:允許用戶快速編寫高效的并行代碼。大數(shù)據(jù)技術(shù)能做什么大數(shù)據(jù)技術(shù)的簡單方便、可擴展性和健壯性讓其在 大數(shù)據(jù)處理方面占盡優(yōu)勢,其主要應(yīng)用場

4、景有:搜索引擎,為大規(guī)模的網(wǎng)頁快速建立索引。大數(shù)據(jù)存儲,利用分布式存儲能力,建立數(shù)據(jù)備 份、數(shù)據(jù)倉庫等。大數(shù)據(jù)處理,利用分布式處理能力,例如數(shù)據(jù)挖掘、數(shù)據(jù)分析等。Hadoop的應(yīng)用現(xiàn)狀Hadoop的應(yīng)用現(xiàn)狀Yahoo:用戶行為分析、支持廣告系統(tǒng)、支持Web搜索、反垃圾郵件系統(tǒng)、個性化推薦Facebook:存儲內(nèi)部日志與多維數(shù)據(jù),并以此 做分析和機器學(xué)習(xí)百度:日志分析平臺、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘與分 析、推薦系統(tǒng)阿里巴巴:廣告系統(tǒng)、推薦引擎、搜索排行、歷史訂單Hadoop偽分布式環(huán)境搭建(1)Hadoop發(fā)行版選擇: ApacheCDH HDPHadoop版本選擇: 0.2X1.X2.X(2.7.3

5、)我們的選擇:CDH Hadoop 2.6.0Hadoop偽分布式環(huán)境搭建(2)Hadoop安裝模式:單機模式:占用資源最少的模式完全運行在本地不使用Hadoop文件系統(tǒng)不加載任何守護進程偽分布模式:“單節(jié)點集群”模式所有的守護進程都運行在同一臺機子上代碼調(diào)試可以查看HDFS的輸入/輸出,以及各守護進程全分布模式:真正的分布式集群配置,用于生產(chǎn)環(huán)境Hadoop偽分布式環(huán)境搭建(3)Linux環(huán)境,我們使用的是centos6.5關(guān)閉防火墻,因為它會妨礙hadoop集群間相互通信sudo chkconfig iptables offsudo service iptables stopjdk安裝配置ssh免密碼登錄安裝Hadoop格式化NameNo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論