




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、云計算趨勢介紹一、導(dǎo)致云計算的大背景二、云計算熱點分析三、云計算對信息產(chǎn)業(yè)的影響四、搭建開源Hadoop云平臺一、導(dǎo)致云計算的大背景從圖靈計算到網(wǎng)絡(luò)計算的演化Everything is over I P V4 V6 WEB Web1.0 WEB ServicesWeb2.0WWW1989Mosaic1993Packet Switching 1964ARPANET1969TCP/IP1974Internet1984Hypertext1965eCommerce1995Semantic Web1999Utility Computing2000CloudComputing2007 圖靈論文 74年 (
2、1936年) 計算機 66年 (1944年) 鼠標交互式計算 46年 (1964年) 互聯(lián)網(wǎng) 26年 (1984年) 萬維網(wǎng) 21年 (1989年) 網(wǎng)絡(luò)科學(xué) 12年 (1998年) 維基百科 9年 (2001年)技 術(shù) 路 線 圖Wiki2001ServicesWeb 3.0mouse1964互聯(lián)網(wǎng)環(huán)境軟件作為服務(wù) 催生云計算的大背景大眾參與計算5互聯(lián)網(wǎng)環(huán)境軟件作為服務(wù) 云計算就是互聯(lián)網(wǎng)環(huán)境下,軟件作為服務(wù)的大眾計算大眾參與計算蒸發(fā):服務(wù)的發(fā)布水氣凝結(jié)成云滴降水:按需即取Cloud Ecosystem云滴聚集成云水庫:“云數(shù)據(jù)中心”陽光:用戶需求云滴:服務(wù)云:服務(wù)的聚合類比水的生態(tài)循環(huán),水流
3、云在,看基于網(wǎng)絡(luò)的信息服務(wù)和信息流動?;ヂ?lián)網(wǎng)是什么?互聯(lián)網(wǎng)成為人人感知和認知不可或缺的裝備,人的感知能力和認知能力掙脫了時間和距離的束縛,得到極大地延伸;互聯(lián)網(wǎng)成為人與人之間溝通的不可或缺的裝備,人與人之間、人與社會之間溝通質(zhì)量和效率得到極大地提升;互聯(lián)網(wǎng)正在向物聯(lián)網(wǎng)滲透(CPS)?;ヂ?lián)網(wǎng)是什么?互聯(lián)網(wǎng)是人類二十世紀最偉大的發(fā)明,它改變了人類的生活方式、工作方式和休閑方式,改變了社會的民主、教育、經(jīng)濟、商務(wù)、健康與娛樂機制;它還顯示了適應(yīng)甚至激勵技術(shù)和應(yīng)用轉(zhuǎn)變的巨大能力,已經(jīng)成為推動社會變革和技術(shù)創(chuàng)新的最強大的發(fā)動機。 from NetSE Agenda, NSF, Sept 2009互聯(lián)網(wǎng)
4、世界上最大的計算機互聯(lián)網(wǎng) 圖靈機互聯(lián)網(wǎng)不是什么?云計算的定義 云計算是一種商業(yè)計算模型。它將計算任務(wù)分布在大量計算機構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計算力、存儲空間和信息服務(wù)。云計算到底是什么? 云計算有什么特點?在動態(tài)、多機構(gòu)參與的虛擬組織中協(xié)同共享資源和求解問題 同時使用多種計算資源解決計算問題的過程 將需要巨大計算能力的問題分成許多小部分進行處理,最后綜合結(jié)果分布式計算 并行計算網(wǎng)格計算 云計算云計算特點目標功能超大規(guī)模 虛擬化高可靠性 通用性 高可伸縮性 按需服務(wù) 極其廉價云計算服務(wù)類型SaaS0302PaaS01IaaS將硬件設(shè)備等基礎(chǔ)資源封裝成服務(wù)供用戶使用 對資源的
5、抽象層次更進一步,提供用戶應(yīng)用程序運行環(huán)境 針對性更強,它將某些特定應(yīng)用軟件功能封裝成服務(wù) 1、歐盟第七框架計劃(FP7)2、歐盟視覺云(Vision)項目3、英國政府云(G-Cloud)1、十二五戰(zhàn)略新興產(chǎn)業(yè)2、云計算創(chuàng)新發(fā)展試點示范工作3、“中國云”國家規(guī)劃即將推出 韓國云計算全面振興計劃 日本總務(wù)省云計算特區(qū)程 澳大利亞政府:出臺云計算戰(zhàn)略1、美國能源部麥哲倫(Magellan)項目2、美國航天局(Nebula)項目研發(fā)了彈性計算云EC2(Elastic Computing Cloud)和簡單存儲服務(wù)S3(Simple Storage Service)為企業(yè)提供計算和存儲服務(wù) 收費的服務(wù)
6、項目包括存儲空間、帶寬、CPU資源以及月租費 誕生不到兩年的時間內(nèi),Amazon的注冊用戶就多達44萬人,其中包括為數(shù)眾多的企業(yè)級用戶 Google搜索引擎建立在分布在30多個站點、超過200萬臺服務(wù)器構(gòu)成的云計算設(shè)施的支撐之上,這些設(shè)施的數(shù)量正在迅猛增長Google的一系列成功應(yīng)用,包括Google地球、地圖、Gmail、Docs等也同樣使用了這些基礎(chǔ)設(shè)施目前,Google已經(jīng)允許第三方在Google的云計算中通過Google App Engine運行大型并行應(yīng)用程序Hadoop模仿了Google的實現(xiàn)機制IBM在2007年11月推出了“改變游戲規(guī)則”的“藍云”計算平臺,為客戶帶來即買即用的
7、云計算平臺。IBM正在與17個歐洲組織合作開展名為RESERVOIR云計算項目,以“無障礙的資源和服務(wù)虛擬化”為口號。歐盟提供了1.7億歐元作為部分資金。IBM 已在全球范圍內(nèi)建立了 13個云計算中心,并且已幫助數(shù)個客戶成功部署了云計算中心 微軟于2008年10月推出了Windows Azure操作系統(tǒng)。Azure(譯為“藍天”)是繼Windows取代DOS之后,微軟的又一次顛覆性轉(zhuǎn)型。微軟在2010年10月的PDC大會上,公布了Windows Azure云計算平臺的未來藍圖,跳出單純的基礎(chǔ)架構(gòu)作服務(wù)的框架,將Windows Azure定位為平臺作服務(wù) 中國2008年,IBM先后在無錫和北京建
8、立了兩個云計算中心阿里巴巴成立了阿里云公司。還有許多公司觸云:騰訊、盛大、廣達、 800APP、世紀互聯(lián)中國移動研究院已經(jīng)建立起1024個CPU的云計算試驗中心;中國電信、中國聯(lián)通都有相應(yīng)動作。華為、中興都轉(zhuǎn)入了云計算研發(fā)作為云計算技術(shù)的一個分支,云安全技術(shù)通過大量客戶端的參與和大量服務(wù)器端的統(tǒng)計分析來識別病毒和木馬,取得了巨大成功 2008年11月25日,中國電子學(xué)會專門成立了云計算專家委員會 2009年5月22日,中國電子學(xué)會隆重舉辦首屆中國云計算大會,1200多人與會,盛況空前。2010年5月,將舉辦第二屆,規(guī)模將達3000人; 2009年12月,舉辦中國首屆云計算學(xué)術(shù)會議 2010年至
9、今每年5月,已連續(xù)舉辦六屆中國云計算大會二、云計算熱點分析云里霧里看不清?熱點一:虛擬計算通過超算中心獲得虛擬計算能力23 Virtualization is a term that refers to the abstraction of computer resources. (Wikipedia)什么是虛擬化?虛擬化技術(shù)早就存在操作系統(tǒng)是運用虛擬化技術(shù)弱化軟件運行環(huán)境與硬件平臺之間的依賴,甚至完全隔離中間件是運用虛擬化技術(shù)弱化應(yīng)用軟件與軟件運行環(huán)境之間的依賴, 甚至完全隔離無需關(guān)心計算中心的地理位置計算資源的虛擬化在網(wǎng)絡(luò)時代迅速發(fā)展無需關(guān)心計算平臺的操作系統(tǒng)以及軟件環(huán)境配置與管理無需關(guān)心
10、特定應(yīng)用軟件的服務(wù)方式(如是否被他人同時租用) 軟件工程向需求工程傾斜,互聯(lián)網(wǎng)環(huán)境下軟件作為服務(wù),使得用戶以更自然的交互方式,表達要求得到的個性化服務(wù):服務(wù)器托管的時代已近尾聲:身邊的云計算網(wǎng)絡(luò)搜索服務(wù)網(wǎng)絡(luò)Office多租賃的CRM計算能力的標準化租用:虛擬PC虛擬機如何實現(xiàn)要求的計算服務(wù)?虛擬機在物理機上的再分布問題是一個NP(非確定性多項式)難題高性能計算機能否服務(wù)虛擬計算?虛擬服務(wù)器超算中心負荷的自動調(diào)節(jié)要求超算功能的專一化,綠色計算的要求迫使高功耗、高性能計算機向高效用計算中心發(fā)展會不會有萬能的虛擬機?互聯(lián)網(wǎng)計算資源的虛擬化,使得端產(chǎn)品 iX擺脫了傳統(tǒng)的胖配置帶來的系統(tǒng)升級開銷,端產(chǎn)品
11、 iX更加簡潔、靈活、多樣。28熱點二 云存儲 面向存儲服務(wù)的超儲中心如何看待虛擬計算資源? 以提供CPU計算能力為主 以提供存儲能力為主, 以提供通信帶寬能力為主30面向存儲服務(wù)的超儲中心云存儲:改變傳統(tǒng)的“隸屬于主機的存儲設(shè)備”,把超儲中心作為重要節(jié)點直接聯(lián)到互聯(lián)網(wǎng),通過虛擬存儲管理,實現(xiàn)面向互聯(lián)網(wǎng)大眾用戶的存儲服務(wù),構(gòu)成個性化虛擬存儲。存儲內(nèi)容的多樣性和異構(gòu)性面向存儲服務(wù)的超儲中心虛擬存儲管理的重點在于海量存儲資源的動態(tài)調(diào)度、存儲區(qū)遷移和多用戶存取控制。熱點三 云計算標準 云計算的出現(xiàn)并不顛覆現(xiàn)有標準 也不存在云計算的專用標準Web服務(wù)基礎(chǔ)標準Web服務(wù)特性:可描述、可分布、可查找、可調(diào)
12、用、可綁定、可組合SOAP:簡單對象訪問協(xié)議WSDL: Web服務(wù)描述語言UDDI: 服務(wù)注冊與發(fā)現(xiàn)協(xié)議互操作標準是云計算的主要標準35網(wǎng)絡(luò)互連:TCP/IP服務(wù)互操作:MFI信息互通:HTTP、HTML等WWW對互操作的要求:普適、易懂、易用互聯(lián)網(wǎng)環(huán)境下的軟件服務(wù),以松耦合的互操作方式實現(xiàn)隨需而變36服務(wù)服務(wù)服務(wù)服務(wù)服務(wù)36面向領(lǐng)域,服務(wù)聚合,滿足社區(qū)需要用戶和服務(wù)之間互操作可松可緊37規(guī)范化表達互操作的元模型框架(MFI,Metamodel Framework for Interoperability) 用戶服務(wù)需求的元描述用RGPS表示角色服務(wù)目標流程通過R G P S描述的互操作元模型
13、框架38RR 角色對接 需求方服務(wù)方特定用戶簡單服務(wù)我是誰?想做什么?我為誰?能做什么特定用戶要求簡單服務(wù)的情況目標對接 GG通過R G P S描述的互操作元模型框架39RR 角色對接 需求方服務(wù)方用戶群簡單服務(wù)我們是誰?想做什么?我為誰?能做什么用戶群要求簡單服務(wù)的情況目標對接 GG中國在MFI系列標準的研制中發(fā)揮了領(lǐng)導(dǎo)作用40標準制定由中國、日本、韓國和英國承擔(dān),美國、加拿大、澳大利亞、德國等23國參與討論,12個國家參與投票英國&日本: MFI-1(ISO已正式發(fā)布)日本&韓國: MFI-2 (未正式發(fā)布)日本&加拿大:MFI-4 (未正式發(fā)布)中國 &日本:MFI-3 (ISO/IEC
14、 19763已正式發(fā)布),中國:MFI-5、MFI-7、MFI-8和MFI-9(正在研制)41Metamodel for Ontology RegistrationMetamodel for Model MappingRegistration ProcedureISO/IEC 19763 (MFI)RGPS-based On-Demand Model SelectionMetamodel for P model RegistrationMetamodel for S model RegistrationMetamodel for R/G RegistrationMFI-3MFI-9MFI-8M
15、FI-5MFI-7MFI-4MFI-6MFI-2MFI-1Reference ModelCore Model中國主持研制通過R G P S描述的互操作元模型框架42RR 角色對接 需求方服務(wù)方我是誰?想做什么?我為誰?能做什么特定用戶要求組合服務(wù)的情況目標對接 GG服務(wù)3服務(wù)2服務(wù)1服務(wù)流程流程對接 如何做?用什么做?PP服務(wù)對接 SS黃色框表示可缺省,也可是服務(wù)方P和S中的子集通過R G P S描述的互操作元模型框架43RR 角色對接 需求方服務(wù)方我們是誰?想做什么?我為誰?能做什么用戶群要求組合服務(wù)的情況目標對接 GG服務(wù)3服務(wù)2服務(wù)1服務(wù)流程流程對接 如何做?用什么做?PP服務(wù)對接 SS
16、黃色框表示可缺省,也可是服務(wù)方P和S中的子集通過R G P S描述的互操作元模型框架44RR 角色對接 需求方服務(wù)方我是誰?想做什么?我為誰?能做什么需求方是服務(wù),要求得到組合服務(wù)的情況目標對接 GG服務(wù)3服務(wù)2服務(wù)1服務(wù)流程流程對接 如何做?用什么做?PP服務(wù)對接 SS服務(wù)熱點四 云安全云計算本身安全不安全?云計算為改善安全能做出什么貢獻?因為有社會服務(wù)的需求,信息才上網(wǎng)。否則不必上網(wǎng)!云計算不是專門為了解決安全問題的新式武器,它不能避免軟件中出現(xiàn)漏洞,網(wǎng)絡(luò)上出現(xiàn)病毒等。云計算把安全作為服務(wù)的形式(SECaaS),實現(xiàn)安全服務(wù)的專業(yè)化、社會化,改變當前人人都在打補丁、個個都在殺病毒的狀況還可
17、以把備份作為服務(wù)的形式,實現(xiàn)專門的云備份服務(wù)人們普遍關(guān)心的云安全,實際上是云計算中的信任管理。如何理解可信任?信任是個社會問題 信任是個技術(shù)問題 X社會問題可以通過技術(shù)協(xié)助解決 基本理念互聯(lián)網(wǎng)也好,云計算也好,只要在網(wǎng)絡(luò)中存在有人機交互,存在有社區(qū),安全和可信就成為它的一項品質(zhì),是社區(qū)和社區(qū)演化所累積出來的品質(zhì)。身邊的事實人們普遍認為:淘寶網(wǎng)比QQ可信,支付寶又比淘寶網(wǎng)可信 有人認為:瑞士銀行比工商銀行可信,工商銀行又比地下錢莊可信 云安全:云計算中的信任管理圖靈機時代以正確性為核心的軟件理論、方法、技術(shù)和機制,不足以構(gòu)造出適應(yīng)互聯(lián)網(wǎng)的開放、動態(tài)環(huán)境下的信任管理,圖靈機無法描述交互式計算。信任
18、不是一次性測試出來的,也不是依靠一套固定指標測出來的,它是社區(qū)運作過程中累積出來的品質(zhì),是消除一個個不可信要素的過程,如維基百科中參與者的信任管理互聯(lián)網(wǎng)與傳統(tǒng)媒體的差別,在于其民主性所形成的由下而上的力量!這種力量是建立信譽的最基本、最重要的保證數(shù)據(jù)著色和云水印數(shù)據(jù)擁有方和存儲服務(wù)方之間形成一定的數(shù)據(jù)使用約定,通過雙方的信譽和雙約束的手段,共同解決數(shù)據(jù)的合理使用。通過云水印對用戶數(shù)據(jù)進行著色,特定的顏色為特定的用戶所有,保證用戶對數(shù)據(jù)的所有權(quán),又不影響數(shù)據(jù)的有效使用。EnForwardCloudGeneratorVirtual StorageUser Data Data Coloring Co
19、lored Data Color MatchingColored Data cloud dropsBackwordCloudGeneratorEnExHeCloud Drops ExtractingExHeService providerDataownerConfirmation通過云水印進行數(shù)據(jù)著色流程圖Negotiation熱點五 云計算平臺云計算平臺的架構(gòu)從一個繞口令談起如何理解SaaS,PaaS,and IaaS云計算平臺如何架構(gòu)對SaaS的更深理解SaaS 是軟件工程的大轉(zhuǎn)身,從面向?qū)崿F(xiàn)轉(zhuǎn)為面向服務(wù)的大轉(zhuǎn)身所有服務(wù)都可以是自治的、跨平臺的、位置不敏感的、不依存特定用戶的、可再綁定的S
20、aaS、PaaS、IaaS 不構(gòu)成層次關(guān)系,SaaS是根本, 因為SaaS,才有PaaS和IaaS云計算平臺的架構(gòu)服務(wù)的規(guī)?;?、集約化和專門化導(dǎo)致互聯(lián)網(wǎng)上出現(xiàn)各種各樣的云計算平臺當前,云計算平臺以服務(wù)器集群為主服務(wù)器平臺的典型架構(gòu)eSOA從SOA到SOC 服務(wù)計算導(dǎo)致用戶只為自己所得到的服務(wù)付費。服務(wù)高度綜合、集中、并專業(yè)化。一方面,龍頭服務(wù)企業(yè)凸顯;另一方面,又能夠滿足無窮無盡社區(qū)表現(xiàn)出的長尾市場的多樣化需求。三、云計算對信息產(chǎn)業(yè)的影響大量的中小企業(yè)軟件開發(fā)商面臨著工作平臺、工作對象、工作方式的重組:在云計算的大潮中要么做大做強服務(wù),成為“大款” ;要么“傍大款”,依附發(fā)展;否則被淘汰。影響
21、一:信息產(chǎn)業(yè)面臨重新洗牌面向單機面向網(wǎng)絡(luò)面向軟件面向服務(wù)軟件工程需求工程工作平臺:工作對象:工作方式: 如同電力時代高壓傳輸問題解決之后大規(guī)模甚至超大規(guī)模核電廠的建立一樣,信息時代做大做強了的大規(guī)模甚至超大規(guī)模的數(shù)據(jù)中心、存儲中心、軟件中心、計算中心、媒體中心、娛樂中心、安全中心的建立,勢必成為未來云計算的基本要素。云計算使得信息服務(wù)的社會化成為可能,改變并精細化了大眾需求,催生新的市場和新的服務(wù)業(yè);軟件產(chǎn)業(yè)結(jié)構(gòu)發(fā)生變化,基于內(nèi)容的信息服務(wù)業(yè)所占比重越來越大:單機的系統(tǒng)軟件和中間件所占比重逐漸減小,軟件依附于應(yīng)用;嵌入式軟件更加個性化、柔性化。 影響二:軟件產(chǎn)業(yè)結(jié)構(gòu)面臨調(diào)整2009年我國軟件產(chǎn)
22、值構(gòu)成分析如:詩詞消費群體,My MP3,個人匹配興趣搜索引擎等 用戶只為自己所得到的服務(wù)付費?;趦?nèi)容的服務(wù)(如音樂服務(wù)、視頻服務(wù)、交通服務(wù)、客戶關(guān)系管理服務(wù)、安全服務(wù)等)在高度綜合、集中、專業(yè)化的同時,又高度分化、碎片化、精細化。一方面,龍頭服務(wù)企業(yè)凸顯;另一方面,又能夠滿足無窮無盡社區(qū)表現(xiàn)出的長尾市場的多樣化需求?;趦?nèi)容的服務(wù)高度精細化、碎片化舞劇服務(wù)中心歌劇服務(wù)中心京劇服務(wù)中心地方劇服務(wù)中心二人轉(zhuǎn)服務(wù)中心趙本山文藝作品服務(wù)中心出現(xiàn)各種各樣開源、開放的軟件合作開發(fā)社區(qū)。淡化軟件產(chǎn)品的生命周期,軟件在線更新,貼近用戶新需求,強調(diào)軟件的演化。軟件頻繁地被重用和重組,在第一時間滿足客戶需求。
23、影響三:軟件開發(fā)的組織方式面臨變革移動互聯(lián)網(wǎng)的帶寬迅速增長移動互聯(lián)網(wǎng)的實時性、交互性、低成本、個性化和位置感知能力,形成移動用戶迅速增長的服務(wù)需求云計算是物聯(lián)網(wǎng)的基礎(chǔ)影響四:移動互聯(lián)網(wǎng)上云計算來得更快68以網(wǎng)絡(luò)購物的信譽評價為例。萬維網(wǎng)上的知名服務(wù)吸引了大眾普通參與開發(fā),確保了服務(wù)質(zhì)量,擴大了應(yīng)用覆蓋范圍,如維基百科。影響五:大眾普遍參與形成群體智慧網(wǎng)絡(luò)環(huán)境下泛在的計算手機、游戲機、數(shù)碼相機、電視機、上網(wǎng)本、筆記本電腦等功能交叉,差別細微,出現(xiàn)更多四不像的產(chǎn)品端產(chǎn)品 iX 更加簡潔、多樣,個性化對于端設(shè)備制造商而言:通過I/O接口連接網(wǎng)絡(luò)的端設(shè)備必須具備靈活的功能,能方便地進行功能的柔性重組,
24、解決廣義的“最后一公里”問題。影響六:網(wǎng)絡(luò)端設(shè)備多元化個性化云計算在中國:服務(wù)提振經(jīng)濟四、搭建開源HADOOP云平臺Hadoop簡介 HadoopApache開源組織的一個分布式計算框架,可以在大量廉價的硬件設(shè)備組成的集群上運行應(yīng)用程序,為應(yīng)用程序提供了一組穩(wěn)定可靠的接口,旨在構(gòu)建一個具有高可靠性和良好擴展性的分布式系統(tǒng) Hadoop云計算系統(tǒng)Google云計算系統(tǒng)Hadoop HDFSGoogle GFSHadoop MapReduceGoogle MapReduceHadoop HBaseGoogle BigtableHadoop ZooKeeperGoogle ChubbyHadoop
25、PigGoogle SawzallHadoop云計算系統(tǒng)與Google云計算系統(tǒng) Hadoop簡介開源項目Lucene:Java開發(fā)的開源高性能全文檢索工具包 開源項目Nutch:第一個開源的Web搜索引擎 Hadoop Hadoop簡介Hadoop項目組成 (1)Hadoop Common(2)Avro(3)Chukwa(4)HBase(5)HDFS(6)Hive(7)MapReduce(8)Pig(9)ZooKeeper Hadoop優(yōu)點 (1)可擴展(2)經(jīng)濟(3)可靠(4)高效設(shè)計前提與目標 設(shè)計前提與目標硬件錯誤是常態(tài)而不是異常 流式數(shù)據(jù)訪問 超大規(guī)模數(shù)據(jù)集 簡單一致性模型 移動計算
26、比移動數(shù)據(jù)更簡單 異構(gòu)軟硬件平臺間的可移植性 體系結(jié)構(gòu) HDFS主從結(jié)構(gòu)體系NameNode:主控制服務(wù)器,負責(zé)維護文件系統(tǒng)的命名空間(Namespace)并協(xié)調(diào)客戶端對文件的訪問,記錄命名空間內(nèi)的任何改動或命名空間本身的屬性改動 DataNode:負責(zé)它們所在的物理節(jié)點上的存儲管理 保障可靠性的措施 1冗余備份每個文件存儲成一系列數(shù)據(jù)塊(Block),默認塊大小為64MB(可配置)。為了容錯,文件的所有數(shù)據(jù)塊都會有副本(副本數(shù)量即復(fù)制因子,可配置) 2副本存放采用機架感知(Rack-aware)的策略來改進數(shù)據(jù)的可靠性、可用性和網(wǎng)絡(luò)帶寬的利用率 復(fù)制因子為3時數(shù)據(jù)塊分布情況 保障可靠性的措施
27、 3.心跳檢測NameNode周期性地從集群中的每個DataNode接受心跳包和塊報告,收到心跳包說明該DataNode工作正常 4.安全模式系統(tǒng)啟動時,NameNode會進入一個安全模式。此時不會出現(xiàn)數(shù)據(jù)塊的寫操作 5.數(shù)據(jù)完整性檢測 HDFS客戶端軟件實現(xiàn)了對HDFS文件內(nèi)容的校驗和(Checksum)檢查 保障可靠性的措施 6.空間回收 文件被用戶或應(yīng)用程序刪除時,先把它移動到/trash目錄里;只要還在這個目錄里,文件就可以被迅速恢復(fù) 7.元數(shù)據(jù)磁盤失效NameNode可以配置為支持維護映像文件和事務(wù)日志的多個副本,任何對映像文件或事務(wù)日志的修改,都將同步到它們的副本上 8.快照 快照
28、支持存儲某個時間的數(shù)據(jù)復(fù)制,當HDFS數(shù)據(jù)損壞時,可以回滾到過去一個已知正確的時間點。HDFS目前還不支持快照功能 邏輯模型MapReduce處理的任務(wù)基本要求:待處理的數(shù)據(jù)集可以分解成許多小的數(shù)據(jù)集,而且每一個小數(shù)據(jù)集都可以完全并行地進行處理 映射階段,用戶輸入的數(shù)據(jù)分割為M個片斷,對應(yīng)M個Map任務(wù)。每一個Map操作的輸入是數(shù)據(jù)片斷中的鍵值對集合,Map操作調(diào)用用戶定義的Map函數(shù),輸出一個中間態(tài)的鍵值對 集合。接著,按照中間態(tài)的K2將輸出的數(shù)據(jù)集進行排序,并生成一個新的元組,按照K2的范圍將這些元組分割為R個片斷 化簡階段,每一個Reduce操作的輸入是一個片斷,Reduce操作調(diào)用用戶
29、定義的Reduce函數(shù),生成用戶需要的鍵值對進行輸出 實現(xiàn)機制 實現(xiàn)機制1分布式并行計算2本地計算3任務(wù)粒度4Combine(連接)5Partition(分區(qū))6讀取中間結(jié)果7任務(wù)管道在Linux系統(tǒng)中安裝Hadoop 1安裝環(huán)境配置1)安裝Linux虛擬機 安裝軟件VMware Workstation v7.1.3 2)安裝SSH $ sudo apt-get install ssh3)安裝Java $ cd /usr/java/ $ /mnt/hgfs/share/jdk-6u24-linux-i586.bin4)解壓Hadoop安裝包 $ tar zxvf /mnt/hgfs/share
30、/hadoop-0.20.2.tar.gz5)編輯conf/hadoop-env.sh文件$ vi conf/hadoop-env.sh2安裝步驟 1)單機模式 默認情況下,Hadoop被配置成一個以非分布式模式運行的獨立Java進程,適合開始時做調(diào)試工作WordCount實例 $ mkdir input $ cd input $ echo hello world test1.txt $ echo hello hadoop test2.txt $ bin/hadoop jar hadoop-mapred-examples-0.20.2.jar wordcount input output 查看
31、執(zhí)行結(jié)果 $ cat output/*在Linux系統(tǒng)中安裝Hadoop 2安裝步驟 2)偽分布式模式 用不同的Java進程模擬分布式運行中各類節(jié)點 (1)Hadoop配置 在Linux系統(tǒng)中安裝Hadoop core-site.xml配置文檔hdfs-site.xml配置文檔mapred-site.xml配置文檔 (2)免密碼SSH設(shè)置 生成密鑰對 $ ssh-keygen -t rsa 一直按【Enter】鍵,按照默認的選項將生成的密鑰對保存在.ssh/id_rsa文件中 進入.ssh目錄 $ cp id_rsa.pub authorized_keys 執(zhí)行$ ssh localhost,
32、可以實現(xiàn)用SSH 連接并且不需要輸入密碼 在Linux系統(tǒng)中安裝Hadoop 將密鑰對保存在.ssh/id.rsa文件中 在Linux系統(tǒng)中安裝Hadoop (3)Hadoop運行 (a)格式化分布式文件系統(tǒng) $ bin/hadoop namenode format (b)啟動Hadoop守護進程 $ bin/start-all.sh 成功執(zhí)行后將會在本機上啟動NameNode、DataNode、JobTracker、TaskTracker和Secondary NameNode 5個新的Java進程 (c)運行WordCount實例 $ bin/hadoop dfs copyFromLocal
33、 input in $ bin/hadoop jar hadoop-mapred-examples-0.20.2.jar wordcount in out 查看Hadoop分布式文件系統(tǒng)上數(shù)據(jù)處理的結(jié)果 $ bin/hadoop dfs -cat out/* 把輸出文件從Hadoop分布式文件系統(tǒng)復(fù)制到本地文件系統(tǒng)查看 $ bin/hadoop dfs -get out output $ cat output/* (d) 停止Hadoop守護進程。最后需要停止Hadoop守護進程 $ bin/stop-all.sh3)完全分布式模式 (1)配置NameNode和DataNode (2)在所有的
34、機器上建立相同的用戶grid $ useradd -m grid $ passwd grid (3)SSH配置 在所有機器上建立.ssh目錄 $ mkdir .ssh 在ubuntunamenode上生成密鑰對 $ ssh-keygen -t rsa在Linux系統(tǒng)中安裝Hadoop 配置ubuntunamenode的/etc/hosts ubuntudata1和ubuntudata2的hosts配置 (3)SSH配置 然后一直按【Enter】鍵,就會按照默認的選項將生成的密鑰對保存在.ssh/id_rsa文件中 $cd /.ssh $cp id_rsa.pub authorized_keys $scp authorized_keys ubuntudata1:/home/grid/.ssh $scp authorized_keys ubuntudata2:/home/grid/.ssh 最后進入所有機器的.ssh目錄,改變authorized_keys文件的許可權(quán)限 $chmod 644 authorized_keys(4)在所有機器上配置Hadoop 在ubuntunamenode上配置 (a)編輯core-site.xml、hdfs-si
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 耐火材料的生產(chǎn)工藝優(yōu)化考核試卷
- 《六年級家長會課件》2
- 膠合板制造綜合課程資源考核試卷
- 《數(shù)學(xué)分析的基本概念》課件(新人教A版必修)
- 電視機的安裝和保養(yǎng)技巧考核試卷
- 航空法律法規(guī)與政策理解考核試卷
- 火車站應(yīng)急預(yù)案制定考核試卷
- 絕緣制品在建筑行業(yè)的應(yīng)用考核試卷
- 生物識別與安全認證軟件考核試卷
- 大學(xué)生創(chuàng)業(yè)教育體系構(gòu)建
- 秸稈買賣協(xié)議書模板
- 人教版小學(xué)二年級下冊數(shù)學(xué) 第6單元 第6課時 解決問題(2) 課件
- 2024年延安通和電業(yè)有限責(zé)任公司招聘考試真題
- 2025年中國礦山支護設(shè)備行業(yè)市場規(guī)模及投資前景預(yù)測分析報告
- 新形勢下如何抓好“兩個經(jīng)常性”工作
- 監(jiān)控立桿采購合同協(xié)議
- 貼改色膜合同協(xié)議
- 清理罐車合同協(xié)議
- 電工比武大賽試題及答案
- 郵政儲蓄大堂引導(dǎo)員培訓(xùn)
- 社工小組協(xié)議書范例
評論
0/150
提交評論