大數(shù)據(jù)及云計算培訓(xùn)資料_第1頁
大數(shù)據(jù)及云計算培訓(xùn)資料_第2頁
大數(shù)據(jù)及云計算培訓(xùn)資料_第3頁
大數(shù)據(jù)及云計算培訓(xùn)資料_第4頁
大數(shù)據(jù)及云計算培訓(xùn)資料_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)及云計算培訓(xùn)資料何為大?信息度量1Byte=8Bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes23Google每天要處理超過24PB的數(shù)據(jù)Facebook每天更新的照片量超過1000萬張YouTube每月接待多達(dá)8億的訪客,平均每一秒鐘就會有一段長度在一小時以上的視頻上傳twitter上的信息量幾乎每年翻一倍,截至2012年,每天都會發(fā)布超過4億條微博4數(shù)據(jù)都從哪里來?5表面張力vs萬有引力量變導(dǎo)致質(zhì)變一個月吃一碗飯一天吃一碗飯一餐吃一碗飯一個小時吃一碗飯一分鐘吃一碗飯一秒吃一碗飯6這么多數(shù)據(jù)要放哪里?怎樣處理?7不要問我從哪里來的

“不知所云”通過使計算分布在大量的分布式計算機上,而非本地計算機或遠(yuǎn)程服務(wù)器中,企業(yè)數(shù)據(jù)中心的運行將與互聯(lián)網(wǎng)更相似。這使得企業(yè)能夠?qū)①Y源切換到需要的應(yīng)用上,根據(jù)需求訪問計算機和存儲系統(tǒng)。8服務(wù)特征9把計算能力像水和電一樣提供給用戶10什么是云計算11權(quán)威定義Wiki定義:云計算是一種通過Internet以服務(wù)的方式提供動態(tài)可伸縮的虛擬化的資源的計算模式。美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)定義:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進(jìn)入可配置的計算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲,應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。12Googleの野望“瀏覽器=操作系統(tǒng)”13IaaS基礎(chǔ)設(shè)施云(代表:亞馬遜的S3)SaaS應(yīng)用云(代表:salesforce的CRM)PaaS平臺云(代表:GoogleAppEngine)私有云(數(shù)據(jù)中心–內(nèi)部網(wǎng))公共云(服務(wù)提供商–互連網(wǎng))混合云(公共和私有)XX就是服務(wù)14亞馬遜IaaS應(yīng)用案例:紐約時報15Google云計算SaaS16軟件終結(jié)者可提供隨需應(yīng)用的客戶關(guān)系管理(On-demandCRM)允許客戶與獨立軟件供應(yīng)商定制并整合其產(chǎn)品,同時建立他們各自所需的應(yīng)用軟件SalesforceCRM價格分別有5美元,17美元,65美元,125美元和250美元的不同版本17云計算的演化182006年8月9日Google

CEO埃里克·施密特(EricSchmidt)在搜索引擎大會(SESSanJose2006)首次提出“云計算”(CloudComputing)的概念。191996年,互聯(lián)網(wǎng)上只有一萬多個網(wǎng)站,現(xiàn)在有一億六千萬個96年能上網(wǎng)的人基本上使用28.8或者33.6Kbps的貓,高速的56Kbps貓直到97年才出來640×480才是主流,800×600是高端90年代20199720132122231998年24GoogolGoogle100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000025Google的BIDPROBLEM海量數(shù)據(jù)快速處理26搜索排名

Google的PageRank技術(shù)PageRank并不計算直接鏈接的數(shù)量,而是將從網(wǎng)頁A指向網(wǎng)頁B的鏈接解釋為由網(wǎng)頁A對網(wǎng)頁B所投的一票。評估每個投票網(wǎng)頁的重要性,因為某些網(wǎng)頁的投票被認(rèn)為具有較高的價值,這樣,它所鏈接的網(wǎng)頁就能獲得較高的價值。杜絕人工干預(yù)或操縱27Google的海量數(shù)據(jù)怎樣存儲?28摩爾定律正在走向終結(jié)…單芯片容納晶體管的增加,對制造工藝提出要求CPU制造18nm技術(shù),電子泄漏問題CPU主頻已達(dá)3GHz時代,難以繼續(xù)提高散熱問題(發(fā)熱太大,且難以驅(qū)散)功耗太高29Google云計算應(yīng)用MapReduce并行數(shù)據(jù)處理BigTable結(jié)構(gòu)化數(shù)據(jù)表GFS分布式文件系統(tǒng)Chubby分布式鎖30GFS設(shè)計原則:機器失效不能視為異常現(xiàn)象能應(yīng)付對大型/超大型文件處理支持大量用戶同時訪問GFS組成GFS集群:一個的Master和多個ChunkServer(塊服務(wù)器)組成,并可以多客戶端Client訪問GFS設(shè)計要點每個文件拆成若干個64M文件塊Chunk組成每個Chunk都由Master根據(jù)其創(chuàng)建時間指定ChunkHandle(64)文件塊被保存在ChunkServer本地磁盤中缺省情況下3處熱備份Chunk塊文件31GFS32P2P傳輸協(xié)議

多源文件傳輸協(xié)議MFTP

theMultisourceFileTransferProtocolBitTorrent專門為大容量文件的共享而設(shè)計,它采用了一種像傳銷一樣的通訊方式。33P2P34MapReduceGoogleMapReduce架構(gòu)設(shè)計師JeffreyDean只要執(zhí)行的簡單計算,而將并行化、容錯、數(shù)據(jù)分布、負(fù)載均衡的等雜亂細(xì)節(jié)放在一個庫里,使并行編程時不必關(guān)心它們35只需要編寫兩個函數(shù)://產(chǎn)生<key,value>映射關(guān)系Map:(in_key,in_value)//對相同的key進(jìn)行歸類處理Reduce:(key,[value1,value2…])36例子:單詞統(tǒng)計37Map

(key,value){

for(each‘world’invalue)

collect(‘world’,1);……}Reduce(key,value[]){

intcount=0;

for(eachwinvalue) count++;

collect(key,count);……}第一步編碼38第二步分割39第三步Map(映射)40第四步Fold(合并)41第五步Reduce(歸納)4243大數(shù)據(jù)、云計算有什么用?4445馬云成功預(yù)測2008年經(jīng)濟(jì)危機“2008年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關(guān)是賣了貨,出去以后再獲得數(shù)據(jù);而我們提前半年時間從詢盤上推斷出世界貿(mào)易發(fā)生變化了?!?647其他云平臺…48云計算平臺49商業(yè)化云計算平臺公司技術(shù)特性核心技術(shù)企業(yè)服務(wù)開發(fā)語言微軟整合其所用軟件及數(shù)據(jù)服務(wù)大型應(yīng)用軟件開發(fā)技術(shù)Azure平臺.NETGoogle儲存及運算水平擴(kuò)充能力平行分散技術(shù)MapReduce,BigTable,GFSGoogleAppEngine,應(yīng)用代管服務(wù)Python,JavaIBM整合其所有軟件及硬件服務(wù)網(wǎng)格技術(shù),分布式存儲,動態(tài)負(fù)載虛擬資源池提供,企業(yè)云計算整合方案Oracle軟硬件彈性虛擬平臺Oracle的數(shù)據(jù)存儲技術(shù),Sun開源技術(shù)EC2上的Oracle數(shù)據(jù)庫,OracleVM,SunxVMAmazon彈性虛擬平臺虛擬化技術(shù)XenEC2、S3,SimpleDB、SQSSaleforce彈性可定制商務(wù)軟件應(yīng)用平臺整合技術(shù)F服務(wù)Java,APEXEMC信息存儲系統(tǒng)及虛擬化技術(shù)Vmware的虛擬化技術(shù),一流存儲技術(shù)Atoms云存儲系統(tǒng),私有云解決方案阿里巴巴彈性可定制商務(wù)軟件應(yīng)用平臺整合技術(shù)軟件互聯(lián)平臺,云電子商務(wù)平臺中國移動堅實的網(wǎng)絡(luò)技術(shù)豐富的帶寬資源底層集群部署技術(shù),資源池虛擬技術(shù),網(wǎng)絡(luò)相關(guān)技術(shù)BigCloude-大云平臺50開源計算平臺平臺名稱描述AbiCloud(Abiquo公司)AbiCloud是一款用于公司的開源的云計算[1]平臺,使公司能夠以快速、簡單和可擴(kuò)展的方式創(chuàng)建和管理大型、復(fù)雜的IT基礎(chǔ)設(shè)施(包括虛擬服務(wù)器、網(wǎng)絡(luò)、應(yīng)用、存儲設(shè)備等)Hadoop(Apache基金會)該計劃是完全模仿Google體系架構(gòu)做的一個開源項目,主要包括Map/Reduce和HDFS文件系統(tǒng)Eucalyptus項目(加利福尼亞大學(xué))創(chuàng)建了一個使企業(yè)能夠使用它們內(nèi)部IT資源(包括服務(wù)器、存儲系統(tǒng)、網(wǎng)絡(luò)設(shè)備)的開源界面,來建立能夠和AmazonEC2兼容的云MongoDB(10gen)MongoDB是一個高性能、開源、無模式的文檔型數(shù)據(jù)庫,它在許多場景下可用于替代傳統(tǒng)的關(guān)系型數(shù)據(jù)庫或鍵/值存儲方式Enomalism彈性計算平臺它提供了一個功能類似于EC2的云計算框架。Enomalism基于Linux,同時支持Xen和KernelVirtualMachine(KVM)。與其他純IaaS解決方案不同的是,Enomalism提供了一個基于TurboGearsWeb

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論