云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)全面剖析(圖)_第1頁(yè)
云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)全面剖析(圖)_第2頁(yè)
云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)全面剖析(圖)_第3頁(yè)
云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)全面剖析(圖)_第4頁(yè)
云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)全面剖析(圖)_第5頁(yè)
已閱讀5頁(yè),還剩131頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

【轉(zhuǎn)】云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)全面剖析(圖)

1,luB

題目并不吸引人,主要是作者犯懶,羅列了一下關(guān)鍵詞而已,當(dāng)然好處是一看就知道文章要

說(shuō)啥。

簡(jiǎn)單說(shuō)下結(jié)構(gòu),首先講講云計(jì)算,其次是數(shù)據(jù)中心,再然后是網(wǎng)絡(luò),重點(diǎn)還是技術(shù)。內(nèi)容是

循序漸進(jìn)的,可以理解前面每個(gè)詞都是后面詞的定語(yǔ)。

本文希望能夠幫讀者對(duì)云計(jì)算的數(shù)據(jù)中心的網(wǎng)絡(luò)的技術(shù)建立起全面的結(jié)構(gòu)性認(rèn)識(shí),因此除了

總體思路的描述外,在介紹過(guò)程中也會(huì)力爭(zhēng)用三言兩語(yǔ)對(duì)前面部分中涉及的每個(gè)技術(shù)點(diǎn)都有

所說(shuō)明,至少讓人明白這個(gè)東東怎么來(lái)的,要干啥和怎么干。但由于受篇幅所限,無(wú)法做到

很詳細(xì),大家如果對(duì)某個(gè)技術(shù)點(diǎn)真感興趣時(shí),還是去網(wǎng)上找些更細(xì)節(jié)的資料來(lái)理解,本文是

打算沒(méi)有寫(xiě)成一本書(shū)的。

力爭(zhēng)做到讓文檔讀起來(lái)不感到枯燥吧,對(duì)作者來(lái)說(shuō)那是相當(dāng)有挑戰(zhàn)的。

2、云計(jì)算

最早接觸這個(gè)詞好像是06年了,當(dāng)時(shí)也是剛剛開(kāi)始接觸數(shù)據(jù)中心不久,這幾年眼睜睜看著

它被炒作得一塌糊涂,現(xiàn)在已經(jīng)成為非常給力的一個(gè)概念。和別人談數(shù)據(jù)中心要是不提云計(jì)

算,你還真不好意思張這個(gè)嘴。

服務(wù)器廠商在喊云計(jì)算,網(wǎng)絡(luò)、操作系統(tǒng)、應(yīng)用軟件甚至存儲(chǔ)廠商都在喊。大家各喊各的,

讓我們感覺(jué)聽(tīng)上去都有那么點(diǎn)兒味道,但下來(lái)仔細(xì)一琢磨大都還在云里霧里。看看這張網(wǎng)上

截取的云計(jì)算產(chǎn)業(yè)全景圖,估計(jì)沒(méi)有幾個(gè)能夠不頭暈的。

YelpSaaS《N?AI>P

SauceLabs(BPaaS^^**nycheck

Echo%S,a,eoZephyrDoxo

GrotimuitGroupOn九]朋岫即MckBai^uOpenAir

偉庫(kù)Tur%?iAppJeli零/RigkScalcLivcr:

CEZohoCapoteScheduler(MlddlcwJlrc)WaveMaker髭卜;

SEnCl噸CSRCFW<>%?段3_力啊Facebook

Pingidentity'▼QuickbaQW"],]]、儂fbrm」W'."'

s&y,戲洲AppClGudiLO、名疝山國(guó)化「Vc*cnSKatus--

G瑞SGridBluK,裕ml、詞曲5皿。嚴(yán).啊湫jmBos-P^Pal

?盤(pán)曲期Tibc。/Skytap''

a;]即:,、8蟲(chóng)htNow

iunev虬f^ingSu6<iardBiiieCloudIJ-電mWpgVM?昧2皿

Nh).)TwihoC,loudStackajwtQRMblexiscaiuNihn^anniivxAkocumulus14asAnuuia

SAPDelwdoJdSGEe&wis;2時(shí)不福xP般M

小"ZAMq咨丁遜yM雌ga,

BvlkWigaVirtMbSoXk^[g*\SnowflM°酸)2Apm"°曲g

Adobe?larrf^sFc(;PSNavisitc貨"hiScriix"J"'"’

AcrobatEgenqmNewRMc

F咆夕辱■

Connect彘%%黑'<",鱷/舉

疇訊:\K:,.;.*也、昌1%

1>d]hlueStnp6J.,

A猶曲哨。盤(pán)髭彘歌

MsloiideraOix-nNebula坐"舄:'y"飛北卜收*水

、f'<'*一t-...D.、

L

TipjirAlisonHeriSku,"一<|;-AppNcxus1aremnrk^<'?fSourul.-Med|pnica|

哂絲…!.:如一FastScale卜i%航蹴k

>K(x1ks-HPCupckwd舟anFmlSsle

Avahrai幌mmbo設(shè)、、尚卯5絮黑

TriCip;「Morpl\MSjzu"咋黑叮轆

國(guó)CkMlkt、癡“8"大皿,&.1k&;"%ws?/Liiltfedln

McCafec&udkjckT自m\翁E.皿KiMcipbcchpariNrYoutube

TuitterIttiancul4nalUK%PhtformK淞Hdgcftalfbnn底)卜‘展器

WindowsXtoohBungeeGix?gle/A^EiigineBMCZuofa成1r

LiveShiftboara(loudfoundryFair^Schcdulcr()中1。

VMK新uflfiscoUC$刖QuickenSaaS

kf喊黑翻:器eE3

c烯型AppsBaMxan,?.siria.corfi.cri/cl9|Jdgrid

bitsCN.com

云計(jì)算的各方面定義很多,基于用戶的視角來(lái)看,目的就是讓使用者在不需了解資源的具體

情況下做到按需分配,將計(jì)算資源虛擬化為一片云。站在高處看,當(dāng)前的主流云計(jì)算更貼切

于云服務(wù),個(gè)人認(rèn)為可理解為早先運(yùn)營(yíng)商提供數(shù)據(jù)中心服務(wù)器租用服務(wù)的延伸.以前用戶租

用的是一臺(tái)臺(tái)物理服務(wù)器,現(xiàn)在租用的是虛擬機(jī),是軟件平臺(tái)甚至是應(yīng)用程序。公認(rèn)的三個(gè)

云計(jì)算服務(wù)層次是laaS(InfrastructureasaService\PaaS(PlatformasaService)

和SaaS(SoftwareasaService),分別對(duì)應(yīng)硬件資源、平臺(tái)資源和應(yīng)用資源。對(duì)于用戶

來(lái)說(shuō):

1、當(dāng)提供商給你的是一套a個(gè)核CPU、bG大小內(nèi)存的主機(jī)、cM帶寬網(wǎng)絡(luò)以及dG大

小存儲(chǔ)空間,需要你自己去裝系統(tǒng)和搞定應(yīng)用程序,那么這就是laaS,舉例如AmazonEC2;

2、當(dāng)提供的是包含基本數(shù)據(jù)庫(kù)和中間件程序的一套完整系統(tǒng),但你還需要根據(jù)接口編寫(xiě)自

己的應(yīng)用程序時(shí),那么就是PaaS,舉例如GoogleAppEngine、MicrosoftAzure和

AmazonSimpleDB,SQS;

3、最傻瓜的方式自然是連應(yīng)用程序都寫(xiě)好了,例如你只需要告訴服務(wù)提供商想要的是個(gè)500

人的薪酬管理系統(tǒng),返回的服務(wù)就是個(gè)HTTPS的地址,設(shè)定好帳號(hào)密碼就可以訪問(wèn)過(guò)去直

接使用,這就是SaaS了,如SalesForce,YahooHadoop和CiscoWebex:Collaboration

SaaS等。

AmazonGoogleMicrosoftYahoo

屬性EC2AppEngineAzureHadoop

架構(gòu)laaS/PaaSPaaSPaaSSaaS

股務(wù)形態(tài)Compute/WebWebandnon-Software

Storageapplicationweb

管理技術(shù)OSonXenApplicationOSthroughMap/Reduce

hypervisorcontainerFabricArchitecture

controller

使用者界面EC2Web-basedWindowsCommand

Command-lineAdministratioAzureportallineandweb

toolsnconsole

APIsyesyesyesyes

收密yesyesyesno

AMI(AmazonPython.NETJava.

MachineImage)framework

bitsCN.com

為啥舉例都是國(guó)外的呢,因?yàn)閲?guó)內(nèi)目前的云服務(wù)狀況是,能提供的都處于laaS階段,有喊

著要做PaaS的,但還沒(méi)聽(tīng)說(shuō)有SaaS的。

說(shuō)完公共的,該講些私貨了。

個(gè)人理解云計(jì)算的核心首先是計(jì)算,什么網(wǎng)絡(luò)、存儲(chǔ)、安全等等都是外延,從技術(shù)上講云計(jì)

算就是計(jì)算虛擬化。最早的云計(jì)算來(lái)自于網(wǎng)格計(jì)算,通過(guò)一堆性能較差的服務(wù)器完成一臺(tái)超

級(jí)計(jì)算機(jī)才能完成的計(jì)算任務(wù),簡(jiǎn)單的說(shuō)就是計(jì)算多虛一。但是現(xiàn)如今一虛多(VM/XEN

等)也被一些廠商扯著大旗給忽悠進(jìn)來(lái),并且成為主流。但是單從技術(shù)角度來(lái)看,這兩者是

南轅北轍的。因此云計(jì)算技術(shù)在下面被作者主觀的分為集中云與分散云兩個(gè)概念來(lái)闡述。

2.1集中云

首先是集中云,根正苗紅的多虛一,最早期的也是目前最大的一個(gè)典型實(shí)際用戶就是

GoogleT(注意這里說(shuō)的不是現(xiàn)在Google云服務(wù))。搜索引擎是超級(jí)消耗資源的典型應(yīng)用,

從你在網(wǎng)頁(yè)上一個(gè)關(guān)鍵詞的搜索點(diǎn)擊,到搜索結(jié)果的產(chǎn)生,后臺(tái)是經(jīng)過(guò)了幾百上千臺(tái)服務(wù)器

的統(tǒng)一計(jì)算。至于搜索引擎的工作模型本文就不多說(shuō)了,網(wǎng)上很多資料的。隨著互聯(lián)網(wǎng)的發(fā)

展,現(xiàn)在的開(kāi)心、淘寶、新浪微博等等(好孩子不翻墻),雖然使用者看到的只是在簡(jiǎn)單的

頁(yè)面進(jìn)行點(diǎn)擊輸入,但是后臺(tái)的工作量已經(jīng)遠(yuǎn)遠(yuǎn)不是少量幾臺(tái)大型服務(wù)器能夠勝任的了,即

使天河一號(hào)也不見(jiàn)得能搞定。集中云的應(yīng)用主力就是這些大型的互聯(lián)網(wǎng)內(nèi)容提供商們,當(dāng)然

還有一些傳統(tǒng)應(yīng)用如地震、氣象和科研項(xiàng)目的計(jì)算也會(huì)存在此類需求。

J98

U

J

0

J

l

n

b

c>

a:

fis

M

p

u

e

g

了解了需求,下面簡(jiǎn)單談下技術(shù),上圖是Cluster集群多虛一技術(shù)的簡(jiǎn)單分布,除了按照承

載網(wǎng)絡(luò)類型可分成Infiniband和Ethernet外,根據(jù)技術(shù)分,還可分為Active-Standby主

備與LoadBalance負(fù)載均衡兩類。

主備模式好理解,所有的Server里面只有一臺(tái)干活,其他都是候著的,只有偵聽(tīng)到干活的

歇菜了,才開(kāi)始接管處理任務(wù)。主備模式大部分就二虛一提供服務(wù),多了如三虛T十么的其

實(shí)意義都不太大,知E是為了再多增加些可靠性。主備模式以各類HA集群技術(shù)為代表。

而負(fù)載均衡模式復(fù)雜一些,在所有的LB技術(shù)中都存在兩個(gè)角色,協(xié)調(diào)者與執(zhí)行者,協(xié)調(diào)者

一般是一個(gè)或多個(gè)(需要主備冗余時(shí)),主要工作就是接活兒和分活兒(有點(diǎn)兒像包工頭);

而執(zhí)行者就只處理計(jì)算了,分到啥就完成啥,典型的苦力。從流量模型上來(lái)說(shuō),LB集群技

術(shù)有來(lái)回路徑一致和三角傳輸兩種,來(lái)回路徑一致指流量都是客戶發(fā)起連接,請(qǐng)求協(xié)調(diào)者進(jìn)

行處理,協(xié)調(diào)者分配任務(wù)給執(zhí)行者進(jìn)行計(jì)算,計(jì)算完成后結(jié)果會(huì)都返回到協(xié)調(diào)者,再由協(xié)調(diào)

者應(yīng)答客戶。

這種結(jié)構(gòu)簡(jiǎn)單,計(jì)算者不需要了解外界情況,由協(xié)調(diào)者統(tǒng)一作為內(nèi)外接口,安全性最高。此

模型主要應(yīng)用于搜索和地震氣象科研計(jì)算等業(yè)務(wù)處理中。三角傳輸模型指計(jì)算者完成計(jì)算后

直接將結(jié)果反饋給客戶,此時(shí)由于計(jì)算者會(huì)和客戶直接通信,造成安全性降低,但返回流量

減少了協(xié)調(diào)者這個(gè)處理節(jié)點(diǎn),性能得到很大提升。此模型主要應(yīng)用于騰訊新浪的新聞頁(yè)面和

阿里淘寶的電子商務(wù)等WEB訪問(wèn)業(yè)務(wù)。

集中云在云服務(wù)中屬于富人俱樂(lè)部的范圍,不是給中小企業(yè)和個(gè)人玩的,實(shí)際上都是各大互

聯(lián)網(wǎng)服務(wù)提供商自行搭建集中云以提供自己的業(yè)務(wù)給用戶,不會(huì)說(shuō)哪天雅虎去租用個(gè)

Google的云來(lái)向用戶提供自己的新聞頁(yè)面訪問(wèn)。集中云服務(wù)可能的租用對(duì)象是那些高度科

研項(xiàng)目,因而也導(dǎo)致當(dāng)前集中云建設(shè)上升到國(guó)家宏觀戰(zhàn)略層面的地位。你能想象哪天百度的

云服務(wù)提供給總裝研究院去計(jì)算個(gè)導(dǎo)彈軌跡,核裂變什么嘛,完全不可能的事。

最后是多虛一對(duì)網(wǎng)絡(luò)的需求。在集中云計(jì)算中,服務(wù)器之間的交互流量多了,而外部訪問(wèn)的

流量相對(duì)減少,數(shù)據(jù)中心網(wǎng)絡(luò)內(nèi)部通信的壓力增大,對(duì)帶寬和延遲有了更高的要求,自然而

然就催生出后面會(huì)講到的一些新技術(shù)(L2MP/TRILL/SPB等\

題外話,當(dāng)前的多虛一技術(shù)個(gè)人認(rèn)為不夠給力,現(xiàn)在把10臺(tái)4核CPU的服務(wù)器虛擬合一后,

虛擬的服務(wù)器遠(yuǎn)遠(yuǎn)達(dá)不到一個(gè)40核CPU的計(jì)算能力。準(zhǔn)確的說(shuō)現(xiàn)在的多虛一只能基于物理

服務(wù)器的粒度進(jìn)行合并,理想的情況應(yīng)該是能夠精細(xì)到CPU核以及每臺(tái)設(shè)備的內(nèi)存緩存等

等物理構(gòu)件虛擬合一。這塊應(yīng)該就涉及到超算了,不熟不深談??偟膩?lái)說(shuō)認(rèn)為技術(shù)進(jìn)步空間

巨大,有些搞頭。

2.2分散云

再講分散云,這塊是目前的主流,也是前面提到的云服務(wù)的關(guān)鍵底層技術(shù)。由于有VMware

和Citrix等廠家在大力推廣,而且應(yīng)用內(nèi)容較集中云更加平民化,隨便找臺(tái)PC或服務(wù)器,

裝幾個(gè)虛擬機(jī)大家都能玩一玩,想干點(diǎn)兒啥都成,也就使其的認(rèn)知度更加廣泛。

一虛多的最主要目的是為了提高效率,力爭(zhēng)讓所有的CPU都跑到100%,力爭(zhēng)讓所有的內(nèi)

存和帶寬都占滿。以前10臺(tái)Server干的事,我整兩臺(tái)Server每臺(tái)跑5個(gè)虛擬機(jī)VM(Virtual

Machine)就搞定了,省電省空間省制冷省網(wǎng)線,總之省錢(qián)是第一位的(用高級(jí)詞兒就是

綠色環(huán)保I技術(shù)方面從實(shí)現(xiàn)方案來(lái)看,目前大致可分為三類:

操作系統(tǒng)虛擬化OS-Level

在操作系統(tǒng)中模擬出一個(gè)個(gè)跑應(yīng)用程序的容器,所有虛擬機(jī)共享內(nèi)核空間,性能最好,耗費(fèi)

資源最少,一個(gè)CPU號(hào)稱可最多模擬500個(gè)VPS(VirtualPrivateServer)或VE(Virtual

Environment),缺點(diǎn)是操作系統(tǒng)唯一,如底層操作系統(tǒng)跑的Windows,VPS/VE就都得跑

Windows。代表是Parallels公司(以前叫SWso代)的Virtuozzo(商用產(chǎn)品)和OpenVZ

(開(kāi)源項(xiàng)目1Cisco的Nexus7000猜測(cè)也是采用這種方案運(yùn)行的VDC技術(shù),但不太清楚

為什么會(huì)有最多4個(gè)VDC的數(shù)量限制,也許是基于當(dāng)前應(yīng)用場(chǎng)景進(jìn)行規(guī)格控制的一種商業(yè)

手段。

主機(jī)虛擬化Hosted

先說(shuō)下Hypervisor或叫做VirtualMachineMonitor(VMM),它是管理虛擬機(jī)VM的軟

件平臺(tái)。在主機(jī)虛擬化中,Hypervisor就是跑在基礎(chǔ)操作系統(tǒng)上的應(yīng)用軟件,與OS-Level

中VE的主要區(qū)別在于:

Hypervisor構(gòu)建出一整套虛擬硬件平臺(tái)(CPU/Memory/Storage/Adapter),上面需要你

再去安裝新的操作系統(tǒng)和需要的應(yīng)用軟件,這樣底層和上層的OS就可以完全無(wú)關(guān)化,諸如

Windows上跑Linux一點(diǎn)兒?jiǎn)栴}沒(méi)有;

VE則可以理解為盜用了底層基礎(chǔ)操作系統(tǒng)的資源去欺騙裝在VE上的應(yīng)用程序,每新創(chuàng)建

出一個(gè)VE,其操作系統(tǒng)都是已經(jīng)安裝好了的,和底層操作系統(tǒng)完全一樣,所以VE比較VM

(包括主機(jī)虛擬化和后面的裸金屬虛擬化)運(yùn)行在更高的層次上,相對(duì)消耗資源也少很多。

主機(jī)虛擬化中VM的應(yīng)用程序調(diào)用硬件資源時(shí)需要經(jīng)過(guò):VM內(nèi)核"Hypervisor->主機(jī)內(nèi)

核,導(dǎo)致性能是三種虛擬化技術(shù)中最差的。主機(jī)虛擬化技術(shù)代表是VMwareServer(GSX\

Workstation和MicrosoftVirtualPC、VirtualServer等。

裸金屬虛擬化Bare-metal

裸金屬虛擬化中Hypervisor直接管理調(diào)用硬件資源,不需要底層操作系統(tǒng),也可以理解為

Hypervisor被做成了一個(gè)很薄的操作系統(tǒng)。這種方案的性能處于主機(jī)虛擬化與操作系統(tǒng)虛

擬化之間。代表是、和

VMwareESXServerCitrixXenServerMicrosoftHyper-Vo

HostedBare-Metal

上圖描述了三種虛擬化方案的形態(tài)區(qū)別。當(dāng)前分散云數(shù)據(jù)中心服務(wù)器虛擬化使用的主要是

Bare-Metal方案。分散云給數(shù)據(jù)中心網(wǎng)絡(luò)帶來(lái)了新的挑戰(zhàn),虛擬機(jī)之間的數(shù)據(jù)通信管理需

求促使了一系列網(wǎng)絡(luò)新技術(shù)的發(fā)展。在OS-Level與Hosted方案中,虛擬機(jī)都是架設(shè)于操

作系統(tǒng)之上的,因此VM/VE之間的通信主要由同樣運(yùn)行于基礎(chǔ)操作系統(tǒng)之上的網(wǎng)絡(luò)交換應(yīng)

用程序來(lái)完成。而在最主流的Bare-Metal結(jié)構(gòu)中,由于Hypervisor薄操作系統(tǒng)的引入,

性能、管理、安全和可靠性等多維度的考慮,造成VM間網(wǎng)絡(luò)通信管理發(fā)展出不同的技術(shù)

道路(EVB與BPE),后文會(huì)對(duì)這些技術(shù)方向加以詳述。

VMwareESX與Xen/Hyper-V的Bare-Metal方案實(shí)現(xiàn)結(jié)構(gòu)有所不同,簡(jiǎn)單如下圖所示。

XEN/Hyper-VPara-Virtualization

分散云除了給網(wǎng)絡(luò)帶來(lái)上述的VM通信問(wèn)題,同樣由于其對(duì)服務(wù)器硬件能力的極端榨取,

造成網(wǎng)絡(luò)中的流量壓力增大,與集中云一樣存在著帶寬擴(kuò)展的需求。原本一臺(tái)服務(wù)器一個(gè)操

作系統(tǒng)跑一個(gè)應(yīng)用只需要10M流量帶寬就夠了,現(xiàn)在裝了10個(gè)VM跑10個(gè)應(yīng)用,帶寬可能

就需要100M了。

大型機(jī)與小型機(jī)的一虛多技術(shù)早在30年前IBM就做出來(lái)了,現(xiàn)在RISC平臺(tái)上已經(jīng)相當(dāng)完

善了,相匕檄而言X86架構(gòu)的虛擬化才處于起步階段,但X86架構(gòu)由于性價(jià)比更高成為了

分散云計(jì)算的首選。

X86架構(gòu)最早期是純軟件層面的Hypervisor提供虛擬化服務(wù),缺陷很多,性能也不夠,直

至!12006年Intel推出了實(shí)現(xiàn)硬件輔助虛擬化的VT技術(shù)CPU產(chǎn)品后才開(kāi)始迅猛發(fā)展(AMD

也跟著出了VM技術(shù)X硬件輔助虛擬化技術(shù)主要包括CPU/Chipset/NetworkAdapter

等幾個(gè)方面,和網(wǎng)絡(luò)技術(shù)緊密相關(guān)的就是網(wǎng)卡虛擬化了,后文會(huì)對(duì)如SR-IOV等網(wǎng)卡虛擬化

技術(shù)應(yīng)用進(jìn)行更具體分析。隨著2007年IntelVTFlexMigration技術(shù)的推出,虛擬機(jī)遷移

成為可能,2009年Intel支持異構(gòu)CPU間動(dòng)態(tài)遷移再次向前邁進(jìn)。

vMotion

這里再多嘮叨幾句vMotion技術(shù)。vMotion是VMware公司提出的虛擬機(jī)動(dòng)態(tài)遷移技術(shù)

名稱(XEN也有相應(yīng)的XENMotion技術(shù)),由于此名稱被喊得最早,范圍最廣,認(rèn)知度最

高,因此下文提到虛擬機(jī)遷移技術(shù)時(shí)大都會(huì)使用vMotion來(lái)代稱。

先要明確vMotion是一項(xiàng)資源管理技術(shù),不是高可靠性技術(shù),如果你的某臺(tái)服務(wù)器或VM

突然宕機(jī)了,vMotion是無(wú)助于應(yīng)用訪問(wèn)進(jìn)行故障切換和快速恢復(fù)的。vMotion是將一個(gè)

正常的處于服務(wù)提供中的VM從一臺(tái)物理服務(wù)器搬家到另一臺(tái)物理服務(wù)器的技術(shù),vMotion

的目的是盡可能方便的為服務(wù)管理人員提供資源調(diào)度轉(zhuǎn)移手段,當(dāng)物理服務(wù)器需要更換配件

關(guān)機(jī)重啟啦,當(dāng)數(shù)據(jù)中心需要擴(kuò)容重新安排資源啦,這種時(shí)候vMotion就會(huì)有用武之地了。

設(shè)想一下沒(méi)有vMotion上述遷移工作是怎么完成的,首先需要將原始物理服務(wù)器上的VM

關(guān)機(jī),再將VM文件拷貝到新的物理服務(wù)器上,最后將VM啟動(dòng),整個(gè)過(guò)程VM對(duì)夕屣供

的服務(wù)中斷會(huì)達(dá)到幾分鐘甚至幾小時(shí)的級(jí)別。而且需要來(lái)回操作兩臺(tái)物理服務(wù)器上的VM,

對(duì)管理人員來(lái)說(shuō)也很忙叨。

使用vMotion后,兩臺(tái)物理服務(wù)器使用共享存儲(chǔ)來(lái)保存VM文件,這樣就節(jié)省了上述步驟

2中的時(shí)間,vMotion只需在兩臺(tái)物理服務(wù)器間傳遞當(dāng)前的服務(wù)狀態(tài)信息,包括內(nèi)存和TCP

等上層連接表項(xiàng),狀態(tài)同步的拷貝時(shí)間相對(duì)較短,而且同步時(shí)原始VM還可以提供服務(wù)使

其不會(huì)中斷。同步時(shí)間跟VM當(dāng)前負(fù)載情況及遷移網(wǎng)絡(luò)帶寬有關(guān),負(fù)載大了或帶寬較低使

同步時(shí)間較長(zhǎng)時(shí),有可能會(huì)導(dǎo)致vMotion出現(xiàn)概率性失敗。當(dāng)狀態(tài)同步完成后,原始物理

服務(wù)器上的VM會(huì)關(guān)閉,而新服務(wù)器上的VM激活(系統(tǒng)已經(jīng)在狀態(tài)同步前啟動(dòng)完畢,始

終處于等待狀態(tài)),此時(shí)會(huì)有個(gè)較短的業(yè)務(wù)中斷時(shí)間,可以達(dá)到秒級(jí)。再者vMotion是通過(guò)

VMware的vCenter管理平臺(tái)一鍵化完成的,管理人員處理起來(lái)輕松了許多。

這里要注意vMotion也一定會(huì)出現(xiàn)業(yè)務(wù)中斷,只是時(shí)間長(zhǎng)短區(qū)別,不要輕易被一些宣傳所

忽悠。想想原理,不論怎么同步狀態(tài),只要始終有新建發(fā)生,在同步過(guò)程中原始服務(wù)器上新

建立的客戶連接,新服務(wù)器上都是沒(méi)有的,切換后這部分連接勢(shì)必被斷開(kāi)重建,零丟包只能

是理想值。VMware也同樣建議將vMotion動(dòng)作安排在業(yè)務(wù)量最少的時(shí)候進(jìn)行。

vMotion什么場(chǎng)景適用呢?首先肯定得是一虛多的VM應(yīng)用場(chǎng)景,然后是對(duì)外業(yè)務(wù)中斷恢

復(fù)的可靠性要求極高,一般都是7*24小時(shí)不間斷應(yīng)用服務(wù)才用得上,最后是計(jì)算節(jié)點(diǎn)規(guī)模

始終在不斷增長(zhǎng),資源調(diào)度頻繁,管理維護(hù)工作量大的數(shù)據(jù)中心。

另外共享存儲(chǔ)這個(gè)強(qiáng)制要求會(huì)給數(shù)據(jù)中心帶來(lái)了整體部署上的限制,尤其是下面提到的跨數(shù)

據(jù)中心站點(diǎn)vMotion時(shí),跨站點(diǎn)共享存儲(chǔ)的問(wèn)題解決起來(lái)是很麻煩的,由于這部分內(nèi)容和

網(wǎng)絡(luò)關(guān)系不大,屬于存儲(chǔ)廠商的地盤(pán),對(duì)跨站點(diǎn)共享存儲(chǔ)技術(shù)有興趣的讀者可以參考

EMC/IBM等廠商的資料看看,本文就不過(guò)多介紹了。

vMotion的出現(xiàn)推動(dòng)了數(shù)據(jù)中心站點(diǎn)間大二層互聯(lián)和多站點(diǎn)動(dòng)態(tài)選路的網(wǎng)絡(luò)需求,從而導(dǎo)

致OTV和LISP等一系列新網(wǎng)絡(luò)技術(shù)的出現(xiàn)。

2.3云計(jì)算小結(jié)

通過(guò)前面的描述,希望大家能對(duì)云計(jì)算有個(gè)較為清晰的概念。云計(jì)算還有一大塊內(nèi)容是平臺(tái)

管理資源調(diào)度方面(目前很多廠家吆喝的云計(jì)算都是云平臺(tái)1這部分主要針對(duì)客戶如何更

便捷的創(chuàng)建與獲取虛擬化服務(wù)資源,實(shí)際過(guò)程就是用戶向平臺(tái)管理軟件提出服務(wù)請(qǐng)求,管理

平臺(tái)通過(guò)應(yīng)用程序接口API(ApplicationProgramInterface)將請(qǐng)求轉(zhuǎn)化為指令配置下

發(fā)給服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)和操作系統(tǒng)、數(shù)據(jù)庫(kù)等,自動(dòng)生成服務(wù)資源。需要網(wǎng)絡(luò)做的就是設(shè)

備能夠識(shí)別管理平臺(tái)下發(fā)的配置,從技術(shù)創(chuàng)新的角度講,沒(méi)有啥新鮮東西,就不多說(shuō)了。當(dāng)

前的云平臺(tái)多以IaaS/PaaS為主,能做到提供SaaS的極少。但在今后看來(lái),SaaS將會(huì)成

為云服務(wù)租用主流,中小企業(yè)和個(gè)人可以節(jié)省出來(lái)IT建設(shè)和維護(hù)的費(fèi)用,更專注于自身的

業(yè)務(wù)發(fā)展。

總結(jié)一下云計(jì)算給數(shù)據(jù)中心網(wǎng)絡(luò)帶來(lái)的主要變化:

1、更高的帶寬和更低的延遲

2、服務(wù)器節(jié)點(diǎn)(VM)規(guī)模的增加

3、VM間通信管理

4、跨數(shù)據(jù)中心站點(diǎn)間的二層互聯(lián)以承載vMotion

題外再多說(shuō)兩句,計(jì)算虛擬化中一虛多與多虛一結(jié)合使用才是王道。但目前云計(jì)算服務(wù)提供

商能夠提供的只是先將物理服務(wù)器一虛多成多臺(tái)VM,再通過(guò)LB/集群計(jì)算等技術(shù)將這些

VM對(duì)外多虛一成一個(gè)可用的資源提供服務(wù)。個(gè)人感覺(jué),如果能做到先將一堆物理服務(wù)器虛

擬成一臺(tái)幾萬(wàn)個(gè)核SuperComputer,用戶再根據(jù)自己的需要幾個(gè)幾十個(gè)核的自取資源,

這樣才更有云計(jì)算的樣子,SuperComputer就是那朵云。當(dāng)然計(jì)算虛擬化的時(shí)候不光是

核的調(diào)配,還要包括IO/Memory等一起進(jìn)行調(diào)度,這里只是簡(jiǎn)單舉例。

3、數(shù)據(jù)中心

數(shù)據(jù)中心的產(chǎn)生有多早?從人類開(kāi)始將信息記錄到介質(zhì)上傳遞開(kāi)始就有了數(shù)據(jù)中心,那個(gè)記

載信息的介質(zhì)(石頭或樹(shù)皮)就是數(shù)據(jù)中心,不過(guò)那時(shí)的網(wǎng)絡(luò)是靠手手相傳而已。如果更甚

一些,可以理解人類產(chǎn)生語(yǔ)言開(kāi)始,知識(shí)最多的人(酋長(zhǎng)/祭祀)就是數(shù)據(jù)中心,口口相傳

就相當(dāng)于現(xiàn)如今的網(wǎng)絡(luò)傳輸。有人該說(shuō),夸張了哈,寫(xiě)作手法而已,只是想突出一下數(shù)據(jù)中

心的重要性。

當(dāng)計(jì)算機(jī)網(wǎng)絡(luò)連接到Server的那一刻起,整個(gè)世界的網(wǎng)絡(luò)就從網(wǎng)狀變成了樹(shù)狀,一個(gè)個(gè)數(shù)

據(jù)中心就是網(wǎng)絡(luò)世界的根。

3.1Client與Server

在所有的數(shù)據(jù)通信會(huì)話中,只有兩個(gè)永恒的角色,Client與Server,為了下文敘述簡(jiǎn)便,

作者把數(shù)據(jù)中心內(nèi)部的終端統(tǒng)一稱之為Server,數(shù)據(jù)中心外部的為Client.這樣網(wǎng)絡(luò)間的

流量通信就只剩下Client-Server(CS)與Server-Server(SS)兩種了。其實(shí)更準(zhǔn)確說(shuō)還

是只有CS一種,SS通信也是有個(gè)發(fā)起方和響應(yīng)方的。QQ/MSN等即時(shí)通信軟件的流量模

型實(shí)際可理解為CSC,睢有P2P對(duì)CS結(jié)構(gòu)有所顛覆,但不管怎么處理也必定會(huì)存在Server

角色進(jìn)行最初的調(diào)度。

所有數(shù)據(jù)中心需要處理的業(yè)務(wù)就是CS和SS兩種,CS肯定是基于IP進(jìn)行L3轉(zhuǎn)發(fā)的了,SS

則分為基于IP的L3和基于MAC的L2兩種轉(zhuǎn)發(fā)方式?;贗P的SS通信主要是不同業(yè)務(wù)間

的數(shù)據(jù)調(diào)用,如WEB/APP服務(wù)器去調(diào)用DB服務(wù)器上的數(shù)據(jù),再如有個(gè)員工離職,職工管

理系統(tǒng)會(huì)同步通知薪酬管理、考勤管理、績(jī)效管理等一系列系統(tǒng)進(jìn)行刪除信息的相關(guān)操作。

基于MAC的SS通信則是同一類服務(wù)器間的數(shù)據(jù)同步計(jì)算,比如使用WEB集群分流用戶

訪問(wèn)時(shí),需要對(duì)修改或增刪的城進(jìn)行集群同步;再比如多虛一中集群一起計(jì)算任務(wù)時(shí)協(xié)調(diào)

者和執(zhí)行者之間的大量通信進(jìn)行任務(wù)調(diào)度。

可以看出云計(jì)算數(shù)據(jù)中心給網(wǎng)絡(luò)帶來(lái)的挑戰(zhàn)主要是基于MAC的二層(OSI模型)SS通信。

在一虛多技術(shù)影響下,Server的概念已經(jīng)擴(kuò)展到以單臺(tái)VM為基礎(chǔ)單元,因此可以引出下

面這個(gè)圖,看看新網(wǎng)絡(luò)技術(shù)是如何劃分的。

Client

DCSite2

VM/PSVM/PS

<^$^/sicalServer(PS)

bitsCN.com

Networkl:VM到VM之間的SS二層互聯(lián)網(wǎng)絡(luò)

Network2:DC站點(diǎn)內(nèi)部SS二層互聯(lián)網(wǎng)絡(luò)

Networks:跨DC站點(diǎn)間的SS二層互聯(lián)網(wǎng)絡(luò)

Network4:DC到Client之間的CS三層互聯(lián)網(wǎng)絡(luò)

后文的技術(shù)章節(jié)就會(huì)針對(duì)這些部分進(jìn)行展開(kāi),詳細(xì)說(shuō)下都有哪些技術(shù)分別對(duì)應(yīng)在這四段網(wǎng)絡(luò)

中,這些技術(shù)的特點(diǎn)是什么。

3.2層次化與扁平化

數(shù)據(jù)中心的網(wǎng)絡(luò)結(jié)構(gòu)取決于應(yīng)用計(jì)算模型,計(jì)算模型主要分為層次化與扁平化兩種結(jié)構(gòu)。層

次化結(jié)構(gòu)如下圖所示,典型的應(yīng)用如WEB-APP-DB、搜索引擎或高性能計(jì)算(地震、科研)

等。特點(diǎn)是客戶請(qǐng)求計(jì)算結(jié)果必須逐層訪問(wèn),返回?cái)?shù)據(jù)也要逐層原路返回。

OientOient

OutsideNetworkLayer

Interface

Layer

Date

Layer1

Dat

LaZ<

bitsCN.com

計(jì)算模型扁平化結(jié)構(gòu)如下圖所示,特點(diǎn)是數(shù)據(jù)層服務(wù)器會(huì)將結(jié)果直接返回給客戶,不需要再

由接口層服務(wù)器進(jìn)行處理,也有管這種模型叫做三角傳輸?shù)?。典型的?yīng)用如一些Internet

網(wǎng)站服務(wù)采用的LB結(jié)構(gòu),LB服務(wù)器就是只做調(diào)度,WEB服務(wù)器會(huì)直接將請(qǐng)求結(jié)果返回給

用戶。

CiicnlClient

NetworkLayer

ServerServerServerServer

bitsczB盟rfaceLayerDataLayer

注意,上面說(shuō)的是計(jì)算模型,和網(wǎng)絡(luò)模型并不是——對(duì)應(yīng),采用層次化結(jié)構(gòu)計(jì)算模型一樣可

以進(jìn)行扁平化組網(wǎng),如下圖所示。

Clifnl

NetworkLayer

ServerSrfwrSrrvrrSrrvrt

bit/您常"aceLayerDataLayer

從網(wǎng)絡(luò)角度講,扁平化相比較層次化結(jié)構(gòu)最大的好處是可以減少服務(wù)器的網(wǎng)卡接口數(shù)量(省

錢(qián)),然而缺點(diǎn)是沒(méi)有清晰的層次,部署維護(hù)的復(fù)雜度就會(huì)相應(yīng)提升??傮w來(lái)說(shuō),當(dāng)前數(shù)據(jù)

中心實(shí)際組網(wǎng)建設(shè)中,這兩種方式誰(shuí)都沒(méi)占據(jù)到絕對(duì)優(yōu)勢(shì),上哪種結(jié)構(gòu)完全看規(guī)劃者的考量

重點(diǎn)是在哪個(gè)方面。

前面說(shuō)過(guò),云計(jì)算主要分為多虛一與一虛多兩種虛擬化結(jié)構(gòu)。一虛多對(duì)傳統(tǒng)計(jì)算模型沒(méi)有太

大影響,只是將其服務(wù)器從物理機(jī)到虛擬機(jī)數(shù)量規(guī)模擴(kuò)大了N倍,網(wǎng)絡(luò)規(guī)模也隨之進(jìn)行擴(kuò)

大。而多虛一中,協(xié)調(diào)者角色對(duì)應(yīng)了接口層服務(wù)器,執(zhí)行者角色則對(duì)應(yīng)數(shù)據(jù)層服務(wù)器,由于

此時(shí)大量的通信交互是在不同執(zhí)行者之間或執(zhí)行者與協(xié)調(diào)者之間,需要重點(diǎn)關(guān)注的大規(guī)模網(wǎng)

絡(luò)就由原來(lái)的接口層服務(wù)器之前,轉(zhuǎn)移到了接口層服務(wù)器與數(shù)據(jù)層服務(wù)器之間。

3.3三層結(jié)構(gòu)與兩層結(jié)構(gòu)

在以往的數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)時(shí),關(guān)注的重點(diǎn)都是指接口層服務(wù)器前的網(wǎng)絡(luò),傳統(tǒng)的三層網(wǎng)絡(luò)

結(jié)構(gòu)如下圖所示。其中的匯聚層作為服務(wù)器網(wǎng)關(guān),可以增加防火墻、負(fù)載均衡和應(yīng)用加速等

應(yīng)用優(yōu)化設(shè)備。

CoreCore

LayerSwitch

Aggregation

Layer

AccessAccewAcceuAccrss

LayerSwitchSwitchSwitch

但在云計(jì)算數(shù)據(jù)中心里面Ethernet網(wǎng)絡(luò)規(guī)模擴(kuò)大,流量帶寬需求增加,因此不會(huì)在網(wǎng)絡(luò)中

間位置再插入安全和優(yōu)化設(shè)備了,轉(zhuǎn)發(fā)性能太低,上去就是瓶頸,匯聚層的位置也就可有可

無(wú)了。再加上帶寬收斂比的問(wèn)題,短期內(nèi)大型云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)里面不會(huì)出現(xiàn)匯聚層的概

念。以前是百兆接入、千兆匯聚、萬(wàn)》&核心,現(xiàn)在服務(wù)器接入已經(jīng)普及千兆向著萬(wàn)兆邁進(jìn)了,

除非在框式交換機(jī)上40G/100G接口真的開(kāi)始大規(guī)模部署,還有可能在云計(jì)算數(shù)據(jù)中心里

面再見(jiàn)到超過(guò)兩層的級(jí)聯(lián)結(jié)構(gòu)網(wǎng)絡(luò)?,F(xiàn)如今的云計(jì)算數(shù)據(jù)中心流行的都是如下圖所示的千兆

接入,萬(wàn)兆核心的兩層網(wǎng)絡(luò)結(jié)構(gòu)。

CoreCoreCore

LayerSwitchSwitch

AccessAccraAcc。外Acce?Acceu

LayerSwitchSwitchSwitchSwitch

此兩層網(wǎng)絡(luò)結(jié)構(gòu)部署在接口層服務(wù)器之前,則一般會(huì)將服務(wù)器網(wǎng)關(guān)部署在CoreSwitch上,

但前提是網(wǎng)絡(luò)規(guī)模不會(huì)太大,Core不會(huì)太多(2個(gè)就差不多了),否則VRRP/HSRP等多網(wǎng)

關(guān)冗余協(xié)議只能走到一個(gè)活動(dòng)網(wǎng)關(guān),會(huì)導(dǎo)致網(wǎng)絡(luò)效率很低。還有一種方式是將服務(wù)器網(wǎng)關(guān)部

署在AccessSwitch±,AccessSW與CoreSW之間通過(guò)OSPF等動(dòng)態(tài)路由協(xié)議達(dá)到全

互聯(lián),使用等價(jià)路由達(dá)到多CoreSW的負(fù)載均擔(dān)。但此方式的缺點(diǎn)是L3路由交互轉(zhuǎn)發(fā)效率

較低,部署復(fù)雜且占用大量IP地址。在未來(lái)的TRILL/SPB等二層Ethernet技術(shù)結(jié)構(gòu)中,

可能會(huì)出現(xiàn)專門(mén)作為網(wǎng)關(guān)與外部進(jìn)行IP層面通信用的邊緣交換機(jī)(由于出口規(guī)模有限,2-4

臺(tái)足夠處理),內(nèi)部的CoreSW只做二層轉(zhuǎn)發(fā),可以大規(guī)模部署以滿足內(nèi)部服務(wù)器交互的

需求,如下圖所示。

CoreCoreCor*Core

LayerSwitchSwitchSwitch

AccessAccess

AccessAccessAccess

LayerSwitchISwitchSwitchISwitch

當(dāng)遇到多虛一高性能計(jì)算的模型,則二層網(wǎng)絡(luò)結(jié)構(gòu)會(huì)被部署在接口服務(wù)器與數(shù)據(jù)服務(wù)器之

間,為二者構(gòu)建純二層的大規(guī)模交互網(wǎng)絡(luò),結(jié)構(gòu)如下圖所示。

CoreCoreCoreCore

LayerSwitchSwitchSwitch

3.4Server與Storage

前面說(shuō)的CS/SS網(wǎng)絡(luò)可以統(tǒng)稱為數(shù)據(jù)中心前端網(wǎng)絡(luò),目前和以后基本上都是IP+Ethernet

一統(tǒng)天下(IBInfiniband只能吃到高性能計(jì)算的一小口\有前端當(dāng)然就有后端,在數(shù)據(jù)中

心里面,服務(wù)器與存儲(chǔ)設(shè)備連接的網(wǎng)絡(luò)部分統(tǒng)稱為數(shù)據(jù)中心后端網(wǎng)絡(luò)。就目前和短期的未來(lái)

來(lái)看,這塊兒都是FC的天下。

簡(jiǎn)單說(shuō)兩句存儲(chǔ),DAS(DirectAttachedStorage)直連存儲(chǔ)就是服務(wù)器里面直接掛磁盤(pán),

NAS(NetworkAttachedStorage)則是網(wǎng)絡(luò)中的共享文件服務(wù)器,此二者大多與數(shù)據(jù)中

心級(jí)別存儲(chǔ)沒(méi)什么關(guān)系。只有SAN(StorageAreaNetwork)才是數(shù)據(jù)中心存儲(chǔ)領(lǐng)域的霸

主,磁盤(pán)陣列會(huì)通過(guò)FC或TCP/IP網(wǎng)絡(luò)注冊(cè)到服務(wù)器上模擬成直連的磁盤(pán)空間。而目前FC

SAN是主流中的主流,基于TCP/IP的IPSAN等都是配太子讀書(shū)的角色。

在服務(wù)器到存儲(chǔ)的后端網(wǎng)絡(luò)中,涉及到I。同步問(wèn)題,高速、低延遲與無(wú)丟包是對(duì)網(wǎng)絡(luò)的基

本需求,而Ethernet技術(shù)擁有沖突丟包的天然缺陷,F(xiàn)C的無(wú)丟包設(shè)計(jì)使其領(lǐng)先一步,加上

早期Ethernet還掙扎在100M帶寬時(shí),F(xiàn)C已經(jīng)可以輕松達(dá)到2G,所以在后端網(wǎng)絡(luò)中從開(kāi)

始到現(xiàn)在都是FC獨(dú)占鰲頭。但是從發(fā)展的眼光看,Ethernet目前已經(jīng)向著40G/100G邁

進(jìn),而FC的演進(jìn)并不理想,無(wú)論是BASE10的10/20/40G路線(主要用在FC交換機(jī)之間,

目前基本已經(jīng)被淘汰)還是BASE2的2/4/8/16/32G路線(當(dāng)前主流FC應(yīng)用)都已經(jīng)落后,

加上各種以太網(wǎng)零丟包技術(shù)(CEE/DCE/DCB)的出現(xiàn),以后鹿死誰(shuí)手還真不好說(shuō)。

在目前階段為了兼容數(shù)據(jù)中心已有的主流FC網(wǎng)絡(luò)和存儲(chǔ)設(shè)備在基于iSCSI技術(shù)的IPSAN

技術(shù)沒(méi)能開(kāi)花結(jié)果的情況下,眾多Ethernet網(wǎng)絡(luò)廠商又推出了FCoE來(lái)蠶食服務(wù)器到存儲(chǔ)

這塊蛋糕。下文技術(shù)章節(jié)會(huì)專門(mén)介紹FCoE的內(nèi)容。

先簡(jiǎn)單說(shuō)下,F(xiàn)CoE沒(méi)有惦著像IPSAN那樣一下子完全取代FC去承載后端網(wǎng)絡(luò),而是走

前后端網(wǎng)絡(luò)融合,逐步蠶食的路線,是網(wǎng)絡(luò)廠商們將數(shù)據(jù)中心的核心由服務(wù)器向網(wǎng)絡(luò)設(shè)備轉(zhuǎn)

移的重要武器。如下圖,就是看誰(shuí)做太陽(yáng),誰(shuí)做星星。相比較IPSAN的壯烈犧牲,F(xiàn)CoE

采用了一條更為迂回的兼容道路,目前已經(jīng)出現(xiàn)了支持FCoE的存儲(chǔ)設(shè)備,也許Ethernet

完全替代FC的時(shí)代真的能夠到來(lái)。

OaentClient

fP/Ether

ClientIF/Rher

net

net

NetworkNetwork

Network

iP/tther

FCoE

Servernet

Switch

Network

dH:

bitsC^.£°T.onal?IPSANFCoE

如果FCoE能成功,雖然短期內(nèi)交換機(jī)、服務(wù)器和存儲(chǔ)的價(jià)格對(duì)比不會(huì)有太大的變化,但是

占據(jù)了核心位置,對(duì)未來(lái)的技術(shù)發(fā)展就有了更大的話語(yǔ)權(quán),附加值會(huì)很高。又如當(dāng)前的EVB

(EdgeVirtualBridging)和BPE(BridgingPortExtend)技術(shù)結(jié)構(gòu)之爭(zhēng)也同樣是話語(yǔ)

權(quán)之爭(zhēng)。

順便一提,當(dāng)一項(xiàng)完全不能向前兼容的全新技術(shù)出現(xiàn)時(shí),除非是有相當(dāng)于一個(gè)國(guó)家的力量去

推動(dòng)普及,而且原理簡(jiǎn)單到8-80歲都一聽(tīng)就明白,否則注定會(huì)夭折,與技術(shù)本身優(yōu)劣無(wú)太

大關(guān)系。老話說(shuō)得好,一口吃不成胖子。

3.5數(shù)據(jù)中心多站點(diǎn)

這是個(gè)有錢(qián)人的話題,且符合2-8原則,能夠建得起多個(gè)數(shù)據(jù)中心站點(diǎn)的在所有數(shù)據(jù)中心項(xiàng)

目中數(shù)量也許只能占到20%,但他們占的市場(chǎng)份額肯定能達(dá)到80%。

建多個(gè)數(shù)據(jù)中心站點(diǎn)主要有兩個(gè)目的,一是擴(kuò)容,二是災(zāi)備。

擴(kuò)容

首先說(shuō)擴(kuò)容,一個(gè)數(shù)據(jù)中心的服務(wù)器容量不是無(wú)限的,建設(shè)數(shù)據(jù)中心時(shí)需要考慮的主要因素

是空間、電力、制冷和互聯(lián)。數(shù)據(jù)中心購(gòu)買設(shè)備場(chǎng)地建設(shè)只是占總體耗費(fèi)的一部分,使用過(guò)

程中的耗能維護(hù)開(kāi)銷同樣巨大,以前就鬧過(guò)建得起用不起的笑話。當(dāng)然現(xiàn)在建設(shè)時(shí)要規(guī)范得

多,考慮也會(huì)更多,往往做預(yù)算時(shí)都要考慮到10年甚至以上的應(yīng)用損耗。

再講個(gè)故事,以前曾有某大型ISP打算找個(gè)雪山峽谷啥的建數(shù)據(jù)中心,荒郊野外空間本來(lái)就

大,融雪制冷,水力發(fā)電,聽(tīng)上去一切都很美,但是就忘了T牛事,互聯(lián)。光纖從哪里拉過(guò)

去,那么遠(yuǎn)的距離中間怎么維護(hù),至少?gòu)哪壳半A段來(lái)說(shuō)這個(gè)問(wèn)題無(wú)解。也許等到高速通信發(fā)

展到可以使用類似鉞星的無(wú)線技術(shù)搞定時(shí),數(shù)據(jù)中心就真的都會(huì)建到渺無(wú)人煙的地方吧,現(xiàn)

在還只能在城市周邊徘徊。貌似聽(tīng)說(shuō)過(guò)國(guó)外有建得比較偏遠(yuǎn)的大型數(shù)據(jù)中心,但個(gè)人覺(jué)得應(yīng)

該還是人家通信行業(yè)發(fā)達(dá),光纖資源豐富,四處都能接入。但至少目前國(guó)內(nèi)的運(yùn)營(yíng)商們不見(jiàn)

得會(huì)支持,大城市周邊搞搞就算了,遠(yuǎn)了沒(méi)人會(huì)陪你玩。

有些扯遠(yuǎn),回到正題。現(xiàn)在國(guó)內(nèi)已經(jīng)有超過(guò)10k臺(tái)物理服務(wù)器在一個(gè)數(shù)據(jù)中心站點(diǎn)的項(xiàng)目了,

再多我還沒(méi)有聽(tīng)說(shuō)過(guò)。只有幾百上千的物理服務(wù)器就敢喊搞云計(jì)算是需要一定勇氣的,既然

是云,規(guī)模就應(yīng)永無(wú)止境。所以建多個(gè)數(shù)據(jù)中心站點(diǎn)來(lái)擴(kuò)容就成了必然之舉。這時(shí)就可能遇

到Cluster集群計(jì)算任務(wù)被分配在多個(gè)站點(diǎn)的物理服務(wù)器或虛擬機(jī)來(lái)完成的情況,從而提出

了跨多個(gè)數(shù)據(jù)中心站點(diǎn)的Ethernet大二層互聯(lián)需求。

在擴(kuò)容時(shí)就可以充分利用vMotion等虛擬機(jī)遷移技術(shù)來(lái)進(jìn)行新數(shù)據(jù)中心站點(diǎn)的建設(shè)部署,

同樣需要站點(diǎn)間的大二層互通。支持IP層的vMotion目前雖然已經(jīng)出現(xiàn),但由于技術(shù)不夠

成熟,限制很多,實(shí)用性不強(qiáng),還是以Ethernet二層遷移技術(shù)為主。

災(zāi)備

再說(shuō)說(shuō)災(zāi)備,最近幾年天災(zāi)人禍著實(shí)不少,數(shù)據(jù)中心容災(zāi)就越來(lái)越受到重視。擴(kuò)容和災(zāi)備的

主要區(qū)別就是:擴(kuò)容的多個(gè)站點(diǎn)針對(duì)同一應(yīng)用都要提供服務(wù),?而災(zāi)備則只有主站點(diǎn)提供服務(wù),

備份站點(diǎn)當(dāng)主站點(diǎn)掛掉的時(shí)候才對(duì)外服務(wù),平時(shí)都處于不運(yùn)行或者空運(yùn)行的狀態(tài)。

參考國(guó)標(biāo)《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》GB/T20988-2007,災(zāi)備級(jí)別大致可劃分為數(shù)據(jù)級(jí)別

(存儲(chǔ)備份),應(yīng)用級(jí)別(服務(wù)器備份),網(wǎng)絡(luò)級(jí)別(網(wǎng)絡(luò)備份),和最高的業(yè)務(wù)級(jí)別(包括

電話、人員等所有與業(yè)務(wù)相關(guān)資源I

國(guó)內(nèi)外統(tǒng)一的容災(zāi)衡量標(biāo)準(zhǔn)是RPO(RecoveryPointObjective}RTO(RecoveryTime

Objective)和RAO(RecoveryAccessObjective)了,通過(guò)下圖形象一些來(lái)體現(xiàn)他們的

關(guān)系。

天C小mn分?■b

■-一八一__八___A___/

YYY、一▼Y

簡(jiǎn)單來(lái)說(shuō)RPO衡量存儲(chǔ)數(shù)據(jù)恢復(fù),RTO衡量服務(wù)器應(yīng)用恢復(fù),RAO衡量網(wǎng)絡(luò)訪問(wèn)恢復(fù)。

一般來(lái)說(shuō)RPO設(shè)計(jì)都應(yīng)小于RTO。國(guó)外按照RTO/RPO的時(shí)間長(zhǎng)短對(duì)災(zāi)難恢復(fù)分級(jí)參考由

高到低為:

Class1/ARTO=0-4hrs;RPO=0-4hrs

Class2/BRTO=8-24hrs;RP0=4hrs

Class3/CRT0=3day;RPO=1day

Class4/DRT0=5+days;RPO=1day

標(biāo)準(zhǔn)歸標(biāo)準(zhǔn),真正建設(shè)時(shí)候最重要的參考條件還是應(yīng)用的需求,像銀行可以直接去調(diào)研儲(chǔ)戶

能容忍多長(zhǎng)時(shí)間取不出來(lái)錢(qián),騰訊去問(wèn)問(wèn)QQ用戶能容忍多長(zhǎng)時(shí)間上不了線,就都知道該

怎么設(shè)計(jì)容災(zāi)恢復(fù)時(shí)間了。

真正在玩多中心災(zāi)備的行業(yè),國(guó)內(nèi)集中在金融系統(tǒng)(尤其是銀行),政府和能源電力等公字

頭產(chǎn)業(yè),國(guó)外的不太清楚,但我想以盈利為主要目的企業(yè)不會(huì)有太強(qiáng)烈意愿去建設(shè)這種純備

份的低效益站點(diǎn),更多的是在不同站點(diǎn)內(nèi)建設(shè)一些應(yīng)用服務(wù)級(jí)別的備份,所有站點(diǎn)都會(huì)對(duì)外

提供服務(wù)。

小結(jié)

在云計(jì)算規(guī)模的數(shù)據(jù)中心中,對(duì)于LB類型的多虛一集群技術(shù),執(zhí)行者(概念參見(jiàn)文檔前面

集中云部分沙上幾個(gè)不會(huì)影響全局任務(wù)處理的只要在擴(kuò)容時(shí)做到數(shù)據(jù)中心間大二層互通,

所有站點(diǎn)內(nèi)都有計(jì)算任務(wù)的執(zhí)行者,并且配合HA技術(shù)將協(xié)調(diào)者在不同站點(diǎn)做幾個(gè)備份,就

已經(jīng)達(dá)到了應(yīng)用容災(zāi)的效果。針對(duì)一虛多的VM備份,VMware/XEN等都提出了虛擬機(jī)集

群HA技術(shù),此時(shí)同樣需要在主中心站點(diǎn)與備份中心站點(diǎn)的服務(wù)器間提供二層通道以完成

HA監(jiān)控管理流量互通,可以達(dá)到基于應(yīng)用層面的備份。

云計(jì)算數(shù)據(jù)中心多站點(diǎn)主要涉及的還是擴(kuò)容,會(huì)部署部分針對(duì)VM做HA的后備服務(wù)器,

但是不會(huì)搞純?yōu)膫湔军c(diǎn)。針對(duì)多站點(diǎn)間網(wǎng)絡(luò)互聯(lián)的主要需求就是能夠做而二層互聯(lián),當(dāng)站點(diǎn)

數(shù)量超過(guò)兩個(gè)時(shí)所有站點(diǎn)需要二層可達(dá),并部署相關(guān)技術(shù)提供冗余避免環(huán)路。

3.6多站點(diǎn)選擇

數(shù)據(jù)中心建設(shè)多站點(diǎn)后,由于同一應(yīng)用服務(wù)可以跑在多個(gè)站點(diǎn)內(nèi)部,對(duì)Client來(lái)說(shuō)就面臨

著選擇的問(wèn)題。

首先要記住的是一個(gè)Client去往一個(gè)應(yīng)用服務(wù)的流量必須被指向一臺(tái)物理或虛擬的

Server.你可以想象一個(gè)TCP請(qǐng)求的SYN到ServerA,而ACK到了ServerB時(shí),ServerA

和B為了同步會(huì)話信息都會(huì)瘋掉。想辦法維持一對(duì)Client-Server通信時(shí)的持續(xù)專一是必須

的。

Client到Server的訪問(wèn)過(guò)程一般分為如下兩步:

LClient訪問(wèn)域名服務(wù)器得到ServerIP地址(很少人會(huì)去背IP地址,都是靠域名查找)

2、Client訪問(wèn)ServerIP,建立會(huì)話,傳遞數(shù)據(jù)。

當(dāng)前的站點(diǎn)選擇技術(shù)也可以對(duì)應(yīng)上面兩個(gè)步驟分為兩大類。

第一類是在域名解析時(shí)做文章,原理簡(jiǎn)單來(lái)說(shuō)就是域名服務(wù)器去探測(cè)多個(gè)站點(diǎn)內(nèi)IP地址不

同的服務(wù)器狀態(tài),再根據(jù)探測(cè)結(jié)果將同一域名對(duì)應(yīng)不同IP返回給不同的Client這樣一是

可以在多個(gè)Client訪問(wèn)同一應(yīng)用時(shí),對(duì)不同站點(diǎn)的服務(wù)器進(jìn)行負(fù)載均擔(dān),二是可以當(dāng)域名

服務(wù)器探測(cè)到主站點(diǎn)服務(wù)器故障時(shí),解析其他站點(diǎn)的服務(wù)器IP地址給Client達(dá)到故障冗余

目的。這時(shí)要求不同站點(diǎn)的服務(wù)地址必須在不同的三層網(wǎng)段,否則核心網(wǎng)沒(méi)法提供路由。缺

點(diǎn)很明顯,對(duì)域名解析服務(wù)器的計(jì)算壓力太大,需要經(jīng)常去跟蹤所有服務(wù)器狀態(tài)并Hash分

配Client請(qǐng)求的地址。此類解決方案的代表是F5/Radware/Cisco等廠商的

3DNS/GSLB/GSS等技術(shù)。

第二類就是把多個(gè)站點(diǎn)的服務(wù)IP地址配置成一樣,而各個(gè)站點(diǎn)向外發(fā)布路由時(shí)聚合成不同

位數(shù)的掩碼(如主中心發(fā)布/25位路由,備中心發(fā)布/24位路由),或通過(guò)相同路由部署不同

路由協(xié)議Cost值以達(dá)到主備路由目的。使用掩碼的問(wèn)題是太細(xì)則核心網(wǎng)轉(zhuǎn)發(fā)設(shè)備上的路由

數(shù)量壓力大,太粗則地址使用不好規(guī)劃很浪費(fèi)。使用Cost則需要全網(wǎng)IP路由協(xié)議統(tǒng)一,節(jié)

點(diǎn)規(guī)模受到很大限制。另外這種方式只能將所有Client訪問(wèn)同一服務(wù)IP的流量指向同一個(gè)

站點(diǎn),負(fù)載分擔(dān)只能針對(duì)不同的服務(wù)。好處則是這種站點(diǎn)選擇技術(shù)誰(shuí)都能用,不需要專門(mén)設(shè)

備支持,部署成本低成為其存活的根據(jù)。

在云計(jì)算大二層數(shù)據(jù)中心部署下,各個(gè)站點(diǎn)提供同一服務(wù)的Server都處于一個(gè)二層網(wǎng)絡(luò)內(nèi),

且不能地址沖突,與前面描述的兩種站點(diǎn)選擇技術(shù)對(duì)服務(wù)器IP設(shè)置要求都不匹配,因此需

要配合SLB設(shè)備一起使用??梢岳斫馄錇橐环N基于IP粒度的多虛一技術(shù),使用專門(mén)LB硬

件設(shè)備作為協(xié)調(diào)者,基于IP地址來(lái)分配任務(wù)給服務(wù)組中不同的Server執(zhí)行成員。LB設(shè)備

通常將多個(gè)Server對(duì)應(yīng)到一個(gè)NAT組中,外部訪問(wèn)到一個(gè)NATServer虛擬IP地址,由

LB設(shè)備按照一定算法分擔(dān)給各個(gè)成員。LB設(shè)備同時(shí)會(huì)探測(cè)維護(hù)所有Server成員狀態(tài)。當(dāng)

各個(gè)站點(diǎn)內(nèi)LB設(shè)備將同一服務(wù)對(duì)外映射為不同的虛擬IP地址時(shí),可以配合域名解析方式提

供Client選路;而配置為相同時(shí)則可以配合路由發(fā)布方式使用。

現(xiàn)有的站點(diǎn)選擇技術(shù)都不盡如人意,即使是下文介紹的Cisco新技術(shù)LISP也只是部分的解

決了路由發(fā)布技術(shù)中,發(fā)布服務(wù)器地址掩碼粒度過(guò)細(xì)時(shí),給核心網(wǎng)帶來(lái)較大壓力的問(wèn)題,目

前還不算是一套完整的站點(diǎn)選擇解決方案。個(gè)人感覺(jué),最好的路還是得想法改造DNS的處

理流程,目前的DNS機(jī)制并不完備,在攻擊面前脆弱不堪,后面的安全附加章節(jié)中會(huì)對(duì)此

再深入討論。

3.7數(shù)據(jù)中心小結(jié)

又到了小結(jié)部分,云計(jì)算數(shù)據(jù)中心相比較傳統(tǒng)數(shù)據(jù)中心對(duì)網(wǎng)絡(luò)的要求有以下變化:

1、Server-Server流量成為主流,而且要求二層流量為主。

2、站點(diǎn)內(nèi)部物理服務(wù)器和虛擬機(jī)數(shù)量增大,導(dǎo)致二層拓?fù)渥兇蟆?/p>

3、擴(kuò)容、災(zāi)備和VM遷移要求數(shù)據(jù)中心多站點(diǎn)間大二層互通。

4、數(shù)據(jù)中心多站點(diǎn)的選路問(wèn)題受大二層互通影響更加復(fù)雜。

題內(nèi)話,F(xiàn)CoE并不是云計(jì)算的需求,而是數(shù)據(jù)中心以網(wǎng)絡(luò)為核心演進(jìn)的需求,至于云計(jì)算

里面是不是一定要實(shí)現(xiàn)以網(wǎng)絡(luò)為核心,就看你是站在哪個(gè)設(shè)備商的角度來(lái)看了。

4、網(wǎng)絡(luò)

說(shuō)到網(wǎng)絡(luò),這里關(guān)注的重點(diǎn)是前文提到的數(shù)據(jù)中心內(nèi)部服務(wù)器前后端網(wǎng)絡(luò),對(duì)于廣泛意義上

的數(shù)據(jù)中心,如園區(qū)網(wǎng)、廣域網(wǎng)和接入網(wǎng)等內(nèi)容,不做過(guò)多擴(kuò)散。

4.1路由與交換

網(wǎng)絡(luò)世界永遠(yuǎn)的主題,至少目前看來(lái)還沒(méi)有出現(xiàn)能取代這二者技術(shù)的影子,擴(kuò)展開(kāi)足夠?qū)懞?/p>

幾本書(shū)的了。

數(shù)據(jù)中心的網(wǎng)絡(luò)以交換以太網(wǎng)為主,只有傳統(tǒng)意義的匯聚層往上才是IP的天下。參考前文

的需求可以看出,數(shù)據(jù)中心的以太網(wǎng)絡(luò)會(huì)逐步擴(kuò)大,IP轉(zhuǎn)發(fā)的層次也會(huì)被越推越高。

數(shù)據(jù)中心網(wǎng)絡(luò)從設(shè)計(jì)伊始,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論