2021數(shù)據(jù)中心設(shè)施運(yùn)維指南_第1頁
2021數(shù)據(jù)中心設(shè)施運(yùn)維指南_第2頁
2021數(shù)據(jù)中心設(shè)施運(yùn)維指南_第3頁
2021數(shù)據(jù)中心設(shè)施運(yùn)維指南_第4頁
2021數(shù)據(jù)中心設(shè)施運(yùn)維指南_第5頁
已閱讀5頁,還剩313頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)中心設(shè)施運(yùn)維指南目錄序123前言作者群維人說Part1 運(yùn)維經(jīng)理人手記Chapter1 接手運(yùn) 初來乍到 冷卻系統(tǒng)驗(yàn)證 配電系統(tǒng)驗(yàn)證 消防和安防系統(tǒng)驗(yàn)Chapter2 人員與組織 管理目標(biāo) 人員配置 組織架構(gòu) 人員資質(zhì)要Chapter3 網(wǎng)絡(luò)運(yùn)維 網(wǎng)絡(luò)設(shè)計(jì) 網(wǎng)絡(luò)割接 網(wǎng)絡(luò)運(yùn)維 網(wǎng)絡(luò)安全Chapter4 培訓(xùn)與演 崗位技能培訓(xùn) 演練方案 真刀真槍的實(shí)Chapter5 運(yùn)維安全 安全事件 安全意識(shí) 安全實(shí)Chapter6 巡檢 初現(xiàn)端倪 刨根究底 指導(dǎo)改進(jìn) 貫徹落Chapter7 維護(hù) 完善維護(hù)計(jì)劃 落實(shí)高壓維護(hù)方案 方案執(zhí)行到位 面面俱到的維護(hù)預(yù)Chapter8 操作流程 變更操作 故障 操作流程 反思Chapter9 應(yīng)急處 火警 滅火 缺水報(bào)警 應(yīng)急處置Chapter10 服務(wù)器上 資源評(píng)估 上架 高密安排 變更資料更Chapter11 高效運(yùn)行 綠色——從概念到實(shí)踐 機(jī)房氣流組織現(xiàn)狀 現(xiàn)存問題與措施Chapter12 獲得第三方認(rèn) 第三方認(rèn)證的價(jià)值 找差距,補(bǔ)差距 認(rèn)證 總結(jié)Part2 關(guān)鍵設(shè)備運(yùn)維指南Chapter1 高低壓配電操作及維護(hù)指1 前言 高低壓系統(tǒng)組成及應(yīng)用 高低壓設(shè)備維護(hù)保養(yǎng) 高低壓配電操作要點(diǎn) 生命周期管理建議Chapter2 備用發(fā)電機(jī)系統(tǒng)操作及維護(hù)指1 前言 發(fā)電機(jī)在數(shù)據(jù)中心中的應(yīng)用 發(fā)電機(jī)組的保養(yǎng)與維Chapter3 UPS維護(hù)指南 前言 UPS系統(tǒng)的作用 UPS系統(tǒng)安裝、驗(yàn)收 UPS系統(tǒng)投運(yùn)前的準(zhǔn)備 UPS系統(tǒng)維護(hù)要求 UPS設(shè)備日常巡檢內(nèi)容 UPS系統(tǒng)輸入/輸出配電設(shè)備定期巡檢 UPS例行化定期維護(hù)檢查 模擬故障檢查應(yīng)急操作指南Chapter4 蓄電池維護(hù)操作指1 前言 蓄電池在數(shù)據(jù)中心中的應(yīng)用 數(shù)據(jù)中心機(jī)房對(duì)蓄電池的要求 蓄電池結(jié)構(gòu)與原理 蓄電池運(yùn)行要求 蓄電池例行化維護(hù)保養(yǎng)Chapter5 冷凍水型空調(diào)系統(tǒng)維護(hù)指 前言 冷凍水型空調(diào)系統(tǒng)原理 數(shù)據(jù)中心空調(diào)系統(tǒng)注意事項(xiàng) 水系統(tǒng)操作 水系統(tǒng)維護(hù)Chapter6 風(fēng)冷型空調(diào)運(yùn)維指南 風(fēng)冷精密空調(diào)室內(nèi)機(jī)的主要維護(hù)工作 室內(nèi)機(jī)的維護(hù)計(jì)劃Chapter7 綜合布線系統(tǒng)運(yùn)維指 數(shù)據(jù)中心布線系統(tǒng)運(yùn)維管理區(qū)域 傳統(tǒng)跳線管理流程 智能布線運(yùn)維管理方式Chapter8 KVM系統(tǒng)操作及維護(hù)指 前言 設(shè)備測(cè)試驗(yàn)收要點(diǎn) 定期保養(yǎng)維護(hù)要點(diǎn) 標(biāo)準(zhǔn)操作流程 常見問題及應(yīng)急處理建Chapter9 DCIM維護(hù)要點(diǎn) 前言 DCIM系統(tǒng)驗(yàn)收工作的實(shí)施 DCIM系統(tǒng)定期維護(hù)保養(yǎng)工作的要點(diǎn) DCIM系統(tǒng)的標(biāo)準(zhǔn)操作流程(SOP)及維護(hù)保養(yǎng)操作流程(MOP)Chapter10 運(yùn)維操作管理系統(tǒng)DCOM使用指南 數(shù)據(jù)中心操作管理(DCOM)產(chǎn)生的業(yè)務(wù)背景 數(shù)據(jù)中心操作管理(DCOM)方案內(nèi)Appendix 微模塊介紹 微模塊數(shù)據(jù)中心定義及特征 微模塊產(chǎn)品定義及系統(tǒng)組成 侵權(quán)盜版聲明運(yùn)維人說樣寬闊包容,卻又如鏡湖一樣平靜淡定的心。臺(tái)上一分鐘,臺(tái)下十年功。作為IT生產(chǎn)環(huán)境的守護(hù)者,日常需要細(xì)心識(shí)風(fēng)險(xiǎn)、排隱患,一次次化解危機(jī)于無形;節(jié)假日寶貴的時(shí)間不會(huì)堅(jiān)守到今天。Part1 運(yùn)維經(jīng)理人手記位于成都的萬達(dá)云基地有望成為國內(nèi)第一個(gè)通過UptimeTierIV建造認(rèn)證(TCCF)的數(shù)據(jù)中心Chapter1 接手運(yùn)維1 初來乍到在北京城難得的藍(lán)天下,Tom是傳說中的“數(shù)據(jù)中心!”這座單體建筑,從外表看不出里面有幾層樓,但Tom的直覺告訴他這個(gè)建筑的面積得有2萬~3萬平方米。比起Tom同學(xué)之前在一家國企負(fù)責(zé)的300平方米機(jī)房,這個(gè)建筑就是“巨無霸”了。300平方米的機(jī)房可以說是麻雀雖小,五臟俱全。UPS、配電、空調(diào)、高架地板、監(jiān)控,各種專業(yè)的設(shè)備該有的也都有了。一手負(fù)責(zé)建設(shè)了個(gè)300平方米的機(jī)房、還運(yùn)行了5的Tom同學(xué),覺得自己也算是半個(gè)機(jī)房專家了。但不知道從哪天起,周圍的人都開始管機(jī)房叫數(shù)據(jù)中心了,Tom原來一直感覺數(shù)據(jù)中心比起機(jī)房,就是換湯不換藥的時(shí)髦叫法,純屬某些廠商忽悠出來的概念。但今天看著這大型數(shù)據(jù)中心外面的專用變電站,Tom開始感覺到這數(shù)據(jù)中心確實(shí)和自己負(fù)責(zé)的機(jī)房有點(diǎn)不一樣。自己要干好這大型數(shù)據(jù)中心運(yùn)維的活,還真有不少新知識(shí)需要學(xué)習(xí)。Tom是上個(gè)月決定跳槽到這家數(shù)據(jù)中心來做運(yùn)維的。其實(shí)Tom對(duì)于自己一手建設(shè)運(yùn)行業(yè)務(wù),這就對(duì)他們IT支撐部門提出了24小時(shí)不間斷運(yùn)行的要求。Tom帶領(lǐng)著一個(gè)小團(tuán)隊(duì),負(fù)責(zé)公司唯一的數(shù)據(jù)機(jī)房的運(yùn)維,從基礎(chǔ)設(shè)施日常維護(hù),到服務(wù)器上架和配置、故障處理,都得親自上陣。盡管沒日沒夜、兢兢業(yè)業(yè)地忙碌,卻還是免不了出各種狀況。Tom原覺得運(yùn)維就是簡(jiǎn)單重復(fù)的事情,沒有太多價(jià)值。因此,老板在Tom團(tuán)隊(duì)的人員編制上卡得很緊,又不讓請(qǐng)外包。Tom就經(jīng)常捉襟見肘,疲于應(yīng)付。終于有一天,積重難返,各種問被業(yè)務(wù)投訴,被領(lǐng)導(dǎo)“修理”。Tom感覺再也堅(jiān)持不下去了。他想改變,立即改變,一刻也不要等!人生最幸福的事情,莫過于:你想睡覺時(shí),剛好有人送來一個(gè)松軟的枕頭,還有一個(gè)溫暖的被窩。這天晚上,已經(jīng)很晚了,Tom沒有收到枕頭,卻收到了一條微信。發(fā)微信的人是Peter。Tom是去年在一次研討會(huì)上認(rèn)識(shí)Peter的。Peter是數(shù)據(jù)中心的前輩,當(dāng)時(shí)正在負(fù)責(zé)一個(gè)大型綠色數(shù)據(jù)中心的規(guī)劃,講起PPT來兩眼放光、口若懸河,號(hào)稱他正在設(shè)計(jì)的數(shù)據(jù)中心是國內(nèi)領(lǐng)先,國際也領(lǐng)先。Tom在下面聽著,對(duì)Peter先生的敬仰如滔滔江水連綿不絕。休息時(shí)趕緊主動(dòng)遞了張名片,聊了一會(huì)兒,越發(fā)地佩服這位言談中時(shí)不時(shí)帶著幾個(gè)英文單詞的專家。而Peter也很欣賞有著豐富一線經(jīng)驗(yàn)的Tom。兩人聊得甚是投機(jī),加了微信,常有聯(lián)系。卻說Peter在IT語好,還愛學(xué)習(xí),肯鉆研,知識(shí)面特別廣。所以,行業(yè)里每次有啥新浪潮,他總是弄潮兒。雖然Peter是做IT出身的,但自從美國人開始聊綠色數(shù)據(jù)中心、PUE啥的,他就開始在露個(gè)臉、講個(gè)話,因此Peter也在行業(yè)里積累了不少粉絲。有一天,他所在的單位要建一個(gè)新數(shù)據(jù)中心,英語好又懂?dāng)?shù)據(jù)中心的Peter就陪著領(lǐng)導(dǎo)去美國溜達(dá)了一圈。在回國的路上,領(lǐng)導(dǎo)語重心長(zhǎng)地對(duì)Peter說:“我們的目標(biāo)是要建設(shè)一個(gè)二十年不落后的數(shù)據(jù)中心,這件事就交給你了!”很快,Peter被正式任命為數(shù)據(jù)中心總經(jīng)理,負(fù)責(zé)這個(gè)數(shù)據(jù)中心的建設(shè)和運(yùn)行。這一年多下來,Peter又是找人規(guī)劃設(shè)計(jì),進(jìn)行各種論證,又是招標(biāo)走流程,過五關(guān)斬六將,時(shí)不時(shí)還得親自盯著建設(shè)現(xiàn)場(chǎng),確保質(zhì)量。眼看著機(jī)房建設(shè)得差不多了,他忽然想起后期得找人幫著看好運(yùn)維這攤子事啊,于是就想起了Tom。畢竟Peter自己之前沒有做過一線的機(jī)房運(yùn)維工作,他需要Tom這樣有著豐富實(shí)戰(zhàn)經(jīng)驗(yàn)的人來幫他管好運(yùn)維。于是他拿起了手機(jī),給Tom發(fā)了條微信。Peter發(fā)微信時(shí)想起喬布斯那句著名的“你想賣一輩子糖水,還是跟我一起改變世界?”就來了一句:“你想一輩子守著300平方米的機(jī)房,還是跟我一起運(yùn)行最高端的數(shù)據(jù)中心?”這邊Tom本來已經(jīng)是窮途思變,還有啥可多想的?于是,就有了今天Tom正式入職的日子。走進(jìn)這座高大且裝修精致的建筑樓,前臺(tái)的接待人員禮貌地接待了Tom,然后替他呼叫了Peter。轉(zhuǎn)眼間,戴著安全帽的Peter如一陣風(fēng)似地出現(xiàn),手里還替Tom拿了一頂安全帽。沒有太多寒暄,Peter直截了當(dāng)?shù)馗嬖VTom:“這幾天機(jī)房一期的建設(shè)到了最后的測(cè)試驗(yàn)證階段,你一起參加一下吧。”“測(cè)試驗(yàn)證?”這個(gè)對(duì)于Tom很新鮮,當(dāng)年他負(fù)責(zé)建設(shè)那個(gè)300平方米的機(jī)房時(shí),沒做過啥測(cè)試驗(yàn)證,頂多是給UPS接上假負(fù)載,看看電池的時(shí)間是否夠。Peter拍拍他的肩膀說“數(shù)據(jù)中心工程建設(shè)就是一個(gè)設(shè)備集成過程,即使每個(gè)單個(gè)設(shè)備都是好的,但集成在一起,未必就會(huì)按照設(shè)計(jì)時(shí)預(yù)想的目標(biāo)來運(yùn)行。只有通過測(cè)試驗(yàn)證,才可以發(fā)現(xiàn)設(shè)計(jì)或者建造過程中的問題,確保機(jī)房達(dá)到運(yùn)行的目標(biāo)?,F(xiàn)在國外所有數(shù)據(jù)中心的建設(shè),都已經(jīng)把最終的第三方測(cè)試驗(yàn)證(TestingandCommissioning)當(dāng)成建設(shè)的標(biāo)準(zhǔn)步驟。就拿汽車組裝為例,假設(shè)你的車架、發(fā)動(dòng)機(jī)、方向盤、輪胎,每個(gè)部件都是用奔馳最牛的部件,但是我隨便找個(gè)組裝廠給你組裝好了,還沒有試車,直接就交給你了,你敢開嗎?”Tom有點(diǎn)明白了。腦子里閃過某馬大俠說的淘寶上可以買到所有零件來組裝一輛蘭博基尼的故事。馬大俠充分說明了淘寶上貨品的豐富性,不過要是直接在杭州誰家車庫里把這車組裝好了,估計(jì)馬大俠自己肯定不會(huì)坐的。Peter繼續(xù)說道:“國內(nèi)很多領(lǐng)導(dǎo)還沒有意識(shí)到測(cè)試驗(yàn)證的重要性,經(jīng)常因?yàn)轫?xiàng)目工期緊,或者前期沒有申請(qǐng)預(yù)算,就把這個(gè)重要的步驟給忽略了。這樣,建設(shè)和設(shè)計(jì)過程中的疏漏就很容易留下來,成為后期運(yùn)維的重大隱患。這些都有很多血的教訓(xùn),所以我們說測(cè)試驗(yàn)證是數(shù)據(jù)中心運(yùn)維的起點(diǎn)?!崩鋮s系統(tǒng)驗(yàn)證說著話,Peter已經(jīng)帶著Tom走進(jìn)機(jī)房,穿過走廊,他們首先來到的是DCIM(DataCenterInfrastructureManagement)監(jiān)控室。大部分的數(shù)據(jù)中心機(jī)房參觀,都是從監(jiān)控室開始。因?yàn)楸O(jiān)控室里一般都有大屏幕,那上面的各種數(shù)字、圖表、視頻很容易讓人感受到科技的震撼。Peter很得意地介紹了這套象征著他們“鳥槍換炮”、從此步入自動(dòng)化運(yùn)行新時(shí)代的監(jiān)控系統(tǒng)。他逐一展示了EPMS(工程業(yè)務(wù)管理系統(tǒng))、ITMS(智能監(jiān)控管理系統(tǒng))、BMS(樓宇管理系統(tǒng))、CCTV(視頻監(jiān)控系統(tǒng))、ACCESSsystem(門禁管理系統(tǒng))、Firesystem(消防監(jiān)控系統(tǒng))。盡管這些系統(tǒng)還沒有完全調(diào)試完,屏幕上時(shí)不時(shí)閃爍著紅色的、黃色的、綠色的字符或者標(biāo)識(shí),提示著一個(gè)個(gè)不太安分的存在。從監(jiān)控室展示的系統(tǒng)架構(gòu)圖上可以看出這是一個(gè)高等級(jí)的數(shù)據(jù)中心,T3和T4級(jí)別的模塊混合部署,部分模塊采用的是業(yè)界較為先進(jìn)的三母線架構(gòu)設(shè)計(jì),中溫和低溫冷凍水。其中,T4模塊還采用了雙冷源精密空調(diào)。Peter為了實(shí)現(xiàn)綠色數(shù)據(jù)中心的夢(mèng)想,讓PUE合理性最高,采用了多項(xiàng)節(jié)能技術(shù),也選用了高效節(jié)能的設(shè)備。這時(shí)候,對(duì)講機(jī)有人呼叫Peter,冷水機(jī)組的群控系統(tǒng)調(diào)試驗(yàn)證馬上就要開始了。來到安裝冷水系統(tǒng)的房間,里面一屋子人。Peter快速給Tom介紹了來自第三方測(cè)試驗(yàn)證公司的王工、總包的項(xiàng)目經(jīng)理,還有冷凍水機(jī)組廠家和安裝公司的人員。王工是今天測(cè)試驗(yàn)證工作的總指揮。按行規(guī),做驗(yàn)證的時(shí)候,第三方測(cè)試公司的職責(zé)是提出測(cè)試方案,在甲方認(rèn)可后負(fù)責(zé)協(xié)調(diào)實(shí)施。實(shí)際測(cè)試的時(shí)候,測(cè)試公司負(fù)責(zé)給出需要做的操作指令并記錄數(shù)據(jù),具體操作則由設(shè)備供應(yīng)商或者原廠商派技術(shù)人員來執(zhí)行,這樣做的好處,是可以規(guī)避操作過程中萬一設(shè)備出問題時(shí)責(zé)任不好認(rèn)定的尷尬。此前,冷水系統(tǒng)在安裝施工階段,已經(jīng)對(duì)水管進(jìn)行了分段吹掃和清洗。安裝完成后,又整體進(jìn)行了清洗和打壓、保壓,符合驗(yàn)收標(biāo)準(zhǔn)后,再對(duì)管道補(bǔ)刷了防銹漆和面漆,并按設(shè)計(jì)要求進(jìn)行了保溫。驗(yàn)收前,管道正式充水,同時(shí)通過水處理加藥系統(tǒng)按要求投加緩蝕劑、阻垢劑、滅藻劑等藥物進(jìn)行預(yù)膜,以防止管道腐蝕生銹。冷卻水泵和冷凍水泵也通電進(jìn)行檢查和試運(yùn)行。試運(yùn)行期間,要及時(shí)對(duì)壓力表進(jìn)行檢查,根據(jù)壓差判斷系統(tǒng)是否有臟堵,特別是Y型過濾器,在系統(tǒng)投入初期,要特別進(jìn)行關(guān)注,及時(shí)清理。隨后逐個(gè)對(duì)離心式制冷主機(jī)、精密空調(diào)、新風(fēng)機(jī)組、排風(fēng)機(jī)組、冷卻塔、板式換熱器、連續(xù)制冷蓄冷罐、電動(dòng)閥、平衡閥等分別進(jìn)行加電檢查,并做好單機(jī)調(diào)試記錄,以備驗(yàn)收接管時(shí)作為原始資料移交給業(yè)主存檔備案。之前所有的單機(jī)調(diào)試已經(jīng)完成了,最后的環(huán)節(jié)就是今天的群控聯(lián)調(diào)。所有相關(guān)人員均已到場(chǎng)了,王工看了Peter一眼,Peter點(diǎn)頭示意可以開始。然后王工就開始給出今天驗(yàn)證的場(chǎng)景指令。首先驗(yàn)證的是場(chǎng)景一:機(jī)房環(huán)境溫度偏高,冷水主機(jī)正常啟機(jī)。系統(tǒng)先對(duì)各輔助設(shè)備及制冷主機(jī)進(jìn)行自檢,正常后,按順序開啟1#冷卻水電動(dòng)閥、冷卻水泵、冷卻塔風(fēng)扇、冷凍水電動(dòng)閥、冷凍水泵,然后開啟1#冷水主機(jī),機(jī)房?jī)?nèi)精密空調(diào)也按一定延時(shí),順序逐臺(tái)開啟,檢查各項(xiàng)運(yùn)行參數(shù)是否在工藝標(biāo)準(zhǔn)范圍內(nèi)。人為調(diào)高機(jī)房溫度檢測(cè)探頭顯示溫度至設(shè)定閾值,2#冷水主機(jī)系統(tǒng)也按正常順序開啟;依次對(duì)3#、4#冷水主機(jī)系統(tǒng)進(jìn)行測(cè)試,一切正常。開局不錯(cuò),大家都非常興奮。馬上開始第二個(gè)場(chǎng)景:機(jī)房環(huán)境溫度偏低,冷水主機(jī)自動(dòng)停機(jī)。運(yùn)行一段時(shí)間后,機(jī)房溫度逐漸下降到20℃以下,精密空調(diào)先依次進(jìn)入怠機(jī)狀態(tài),冷水主機(jī)電流百分比逐漸下降到30%左右,自動(dòng)卸載停機(jī),約5分鐘后,冷卻水泵和冷凍水泵自動(dòng)停機(jī),冷卻塔風(fēng)扇停止,電動(dòng)閥也關(guān)閉。一切都按預(yù)想的進(jìn)行,“Nosurprise”,Peter對(duì)自己說了一句。同時(shí)也為自己當(dāng)初力主公司花高價(jià)錢買的這些一線品牌設(shè)備暗暗點(diǎn)贊,產(chǎn)品質(zhì)量就是過硬,關(guān)鍵時(shí)候沒有掉鏈子。冷水機(jī)組檢測(cè)下面這個(gè)場(chǎng)景是檢驗(yàn)Peter的綠色數(shù)據(jù)中心概念的重要環(huán)節(jié)。場(chǎng)景三:室外溫度低于10℃,切換到freecooling系統(tǒng)。1套冷水主機(jī)長(zhǎng)時(shí)間低負(fù)載運(yùn)行,測(cè)定室外溫度低于設(shè)定溫度,系統(tǒng)切換到freecooling,已經(jīng)停止的冷卻塔風(fēng)扇開啟,板式換熱器前后端閥門打開,換熱器開始通水工作,幾分鐘后冷凍水泵停止工作,電動(dòng)閥關(guān)閉,制冷主機(jī)停機(jī)。系統(tǒng)平穩(wěn)切換到freecooling系統(tǒng)。逐漸提高室外溫度,系統(tǒng)又回切到制冷主機(jī)工作模式,一切盡在掌握,順利得沒有朋友。接下來,還得把蓄冷罐的充放冷邏輯確定下來。首先,由設(shè)計(jì)師將冷凍水系統(tǒng)蓄冷罐的充放冷邏輯思路給參加聯(lián)調(diào)的人員講解一遍,并將幾個(gè)關(guān)鍵的設(shè)定值同現(xiàn)場(chǎng)團(tuán)隊(duì)作了確認(rèn)。負(fù)責(zé)弱電安裝的供應(yīng)商和制冷機(jī)廠家代表分別提出了幾個(gè)優(yōu)化建議,現(xiàn)場(chǎng)立即進(jìn)行了變更并將最終的邏輯進(jìn)行了存檔,同時(shí)作了備份。是要給數(shù)據(jù)中心出各種難題,挑戰(zhàn)其抗風(fēng)險(xiǎn)的能力。現(xiàn)在,模擬故障的第四個(gè)場(chǎng)景開始了:運(yùn)行設(shè)備故障,備用設(shè)備自動(dòng)開啟。人為模擬現(xiàn)場(chǎng)閥門關(guān)閉,導(dǎo)致正在運(yùn)行的1#冷卻水中斷,1#冷凍機(jī)因冷卻水中斷自動(dòng)保護(hù)停機(jī)。系統(tǒng)自動(dòng)開啟備用的2#動(dòng)閥給1#冷水主機(jī)供冷卻水,但1#主機(jī)開不起來,這時(shí)2#主機(jī)及配套的輔助設(shè)備逐臺(tái)開啟,2#制冷主機(jī)系統(tǒng)正常運(yùn)行。依次測(cè)試3#和4#也均能自動(dòng)開啟。但對(duì)4#測(cè)試完,模擬關(guān)停4#水和冷凍水均供應(yīng)正常,壓力正常,但沒有一臺(tái)制冷主機(jī)能自動(dòng)啟動(dòng)?,F(xiàn)場(chǎng)先是一陣沉默,大家你看看我,我看看你,接著開始躁動(dòng)起來,剛才還得意淡定的Peter也hold不住了,不知道哪里出了差錯(cuò)。過了好一會(huì)兒,王工突然發(fā)話了:“是不是冷凍機(jī)設(shè)定的停機(jī)保護(hù)時(shí)間還是出廠設(shè)置的30分鐘,沒有修改?”真是一語點(diǎn)醒夢(mèng)中人。剛才大家都關(guān)注設(shè)備操作,竟然忘記了設(shè)備出廠設(shè)定值沒有根據(jù)實(shí)際應(yīng)用場(chǎng)景進(jìn)行核對(duì)驗(yàn)證。幸虧在模擬調(diào)試階段及時(shí)發(fā)現(xiàn)了,要是在業(yè)務(wù)運(yùn)行時(shí)發(fā)生此類問題,沒能及時(shí)處理并恢復(fù)冷凍水供應(yīng)的話,短時(shí)間則可能導(dǎo)致高溫告警,服務(wù)器宕機(jī);如果高溫長(zhǎng)時(shí)間得不到及時(shí)消除,則可能觸發(fā)消防系統(tǒng)啟動(dòng),一場(chǎng)災(zāi)難將無法避免。特別是現(xiàn)在數(shù)據(jù)中心中高熱密度機(jī)柜越來越多,單位時(shí)間升溫比原來快多了。經(jīng)歷了這一趟折騰,大家的緊張度又提升了。Tom也深切感受到測(cè)試驗(yàn)證的必要性。配電系統(tǒng)驗(yàn)證后面幾天是供配電系統(tǒng)的聯(lián)調(diào)驗(yàn)證。供配電系統(tǒng)可以說是數(shù)據(jù)中心第一大潛在殺手,大部分的數(shù)據(jù)中心故障——導(dǎo)致IT系統(tǒng)中斷的事件,都是由供配電系統(tǒng)引起的。所以,Peter對(duì)供配電系統(tǒng)的驗(yàn)證特別重視。這次供配電系統(tǒng)的聯(lián)調(diào)分三個(gè)大的場(chǎng)景:A路停電、B路停電、雙路停電。測(cè)試團(tuán)隊(duì)按事先的分工,各自穿戴好EHS裝備,各就各位,并帶上提前打印好的checklist(工作清單)和對(duì)講機(jī),由總指揮和指揮組按checklist下達(dá)指令,操作組逐項(xiàng)實(shí)施。所有的高、低壓設(shè)備操作均由合格電工嚴(yán)格按雙重檢查(double check)原則,一人唱票,一人確認(rèn)并完成實(shí)施,同時(shí)將操作結(jié)果用對(duì)講機(jī)及時(shí)匯報(bào)給指揮組。場(chǎng)景一:A路停電。各小組人員就位,穿戴完整,操作組組長(zhǎng)向總指揮匯報(bào)準(zhǔn)備工作完成,等待指令。總指揮下令:A路斷電。2位高壓電工都是具備20多年經(jīng)驗(yàn)的老搭檔了,他們技術(shù)精湛,分工明確,配合默契。盡管戴著防護(hù)眼鏡,但透過厚厚的鏡片,仍然只需要一個(gè)眼神,都能彼此心領(lǐng)神會(huì),分頭行動(dòng)。A路開關(guān)斷開,按設(shè)定的邏輯,高壓母聯(lián)迅速合上,檢查確認(rèn)末端雙路供電正常,無任何告警;手動(dòng)將高壓母聯(lián)斷開,大約幾秒鐘,低壓母聯(lián)合上,末端仍然是雙路供電,無任何告警,驗(yàn)證合格。供配電系統(tǒng)的聯(lián)調(diào)場(chǎng)景二:B路停電。按同樣的流程,對(duì)B路進(jìn)行停電測(cè)試驗(yàn)證也正常。場(chǎng)景三:雙路停電。將A、B兩路市電都斷開,這時(shí)發(fā)電機(jī)啟動(dòng)。先啟動(dòng)1臺(tái),很快其時(shí)間和開關(guān)動(dòng)作順序做好記錄,驗(yàn)證控制邏輯是否準(zhǔn)確,同時(shí)供今后應(yīng)急故障處理作參考?;謴?fù)市電供電:按操作規(guī)程進(jìn)行檢查,確認(rèn)符合送電要求,開始A、B路分別送電。開關(guān)依次動(dòng)作,雙路供電正常,發(fā)電機(jī)卸載,約5分鐘后,各發(fā)電機(jī)自動(dòng)停機(jī)。人員確認(rèn)系統(tǒng)各設(shè)備運(yùn)行正常后順序撤離。配電系統(tǒng)的綜合測(cè)試沒有出什么大的問題,只是在局部測(cè)試的時(shí)候,發(fā)現(xiàn)了線纜接口螺絲沒有擰緊,接觸不良,在負(fù)載加大的時(shí)候產(chǎn)生溫升,這是做帶負(fù)載測(cè)試中最常發(fā)現(xiàn)的問題,也是需要用假負(fù)載進(jìn)行測(cè)試驗(yàn)證的重要原因之一。消防和安防系統(tǒng)驗(yàn)證數(shù)據(jù)中心兩大關(guān)鍵系統(tǒng)——供配電和制冷系統(tǒng)聯(lián)調(diào)順利完成,Peter心里的兩塊巨石的VESDA系統(tǒng),即極早期煙霧報(bào)警系統(tǒng)。顧名思義,這個(gè)系統(tǒng)是為了在不可見煙階段,員對(duì)煙感、溫感也分別進(jìn)行了再次抽檢,一切正常。確認(rèn)各消防系統(tǒng)正常并置于自動(dòng)狀聯(lián)動(dòng)。這時(shí),人為對(duì)著一個(gè)煙感探頭吹入煙霧,同時(shí),將溫感探頭置于一杯高于68報(bào)火警,要求人員緊急疏散,電梯迫降,消防卷簾門關(guān)閉,門禁釋放,消防水泵立即啟到預(yù)期目的。將所有系統(tǒng)檢查并復(fù)位到正常狀態(tài)后,手動(dòng)開啟主閥,并掛牌:“閥門常開,不得關(guān)閉”??斓阶詈笠魂P(guān)了,Peter有些小激動(dòng),眼看一年多的設(shè)計(jì)建設(shè)“馬拉松長(zhǎng)跑”就快到終點(diǎn)了。他與Tom對(duì)了一個(gè)眼色,宣布正式進(jìn)入安全監(jiān)控系統(tǒng)的測(cè)試。因?yàn)槎际羌磿r(shí)設(shè)定的場(chǎng)景,事先并沒有通知任何值班人員,而且是多個(gè)場(chǎng)景連續(xù)測(cè)沒有白費(fèi)。Peter有些暗自得意。成功總是留給有準(zhǔn)備的人,這真是句大大大大的實(shí)話?。〗裉焓莻€(gè)值得紀(jì)念的日子,也是眾人舉杯相慶的日子。辛苦了那么久,付出了那么多個(gè)日夜,總算對(duì)公司有個(gè)交代,可以準(zhǔn)備正式移交進(jìn)入運(yùn)維階段了。為什么說是準(zhǔn)備呢?因?yàn)?,從建設(shè)移交給運(yùn)維,就像皇帝嫁女兒一樣,儀式是不能怠慢的,豐厚的嫁妝也是一點(diǎn)也不能馬虎的。數(shù)據(jù)中心移交運(yùn)維也如此,有一大波流程要走,當(dāng)然,還有少不了的圖紙、記錄、報(bào)告、手冊(cè)、證明等文件資料。還有鑰匙、隨機(jī)備件、配套工具……想想都讓人頭到了后期運(yùn)維的時(shí)候,就后患無窮。所謂“人無遠(yuǎn)慮,必有近憂”,很多運(yùn)維的問題,都是在建設(shè)階段留下的。所以,磨刀不誤砍柴工,該慢的時(shí)候還是要慢下來。百度陽泉云計(jì)算中心——首個(gè)全預(yù)制模塊化數(shù)據(jù)中心,100%整機(jī)柜部署;首個(gè)高溫運(yùn)行的數(shù)據(jù)中心,全年96%時(shí)間利用自然冷源;首個(gè)通過設(shè)計(jì)、運(yùn)營雙5A認(rèn)證Chapter2 人員與組織管理目標(biāo)眼看著測(cè)試驗(yàn)證進(jìn)入尾聲,數(shù)據(jù)中心即將投產(chǎn),Peter更著急運(yùn)維團(tuán)隊(duì)的組建問題。之前就有人建議他應(yīng)該在建設(shè)后期就把運(yùn)維團(tuán)隊(duì)組建好,這樣就可以利用測(cè)試驗(yàn)證的機(jī)會(huì)讓整個(gè)團(tuán)隊(duì)有機(jī)會(huì)參與部分操作,畢竟測(cè)試階段本來就沒有帶真實(shí)負(fù)載,即使操作錯(cuò)誤,也不會(huì)有和業(yè)務(wù)相關(guān)的后果,所以這也是運(yùn)維團(tuán)隊(duì)演練的好機(jī)會(huì)。但領(lǐng)導(dǎo)和財(cái)務(wù)部門都希望他控制人員成本,分步增加人手而不是一次到位。所以,到了測(cè)試驗(yàn)證的后期,到崗的也只有幾位關(guān)鍵的人員。下周就該向領(lǐng)導(dǎo)提交他的運(yùn)維團(tuán)隊(duì)的編制計(jì)劃了。該如何搭建運(yùn)維團(tuán)隊(duì)的組織架構(gòu)、確定合適的人員配置?對(duì)人員應(yīng)該有什么樣的要求?Peter還是沒有徹底想明白。這天晚飯后,他帶著Tom,約了兩位他認(rèn)為的行業(yè)高人:來自某運(yùn)營商的薛先生和在某著名外企管理數(shù)據(jù)中心的吳先生一起來到酒吧街,找了個(gè)安靜的酒吧,幾杯啤酒下肚后,哥兒幾個(gè)話就多了起來。薛先生正在業(yè)余攻讀哲學(xué)博士,所以說話都帶哲學(xué)味:“搞數(shù)據(jù)中心運(yùn)維什么最重要?人才?。 盩om覺得這句話不太像哲學(xué)家說的,倒像葛優(yōu)說的。但薛先生后面的話就充滿哲學(xué)思辨:“修正手段的不足,人可以完善制度流程的缺陷??傊?,人是可以動(dòng)態(tài)地面對(duì)整個(gè)數(shù)據(jù)中心的核心!”“數(shù)據(jù)中心是動(dòng)態(tài)的,對(duì)吧?數(shù)據(jù)中心雖然放在那里不會(huì)跑,可里面的上千套設(shè)備,幾萬個(gè)接頭,各種電子器件,隨時(shí)隨刻都在發(fā)生變化。更何況還有時(shí)刻可能中斷的外電供應(yīng)、異常高溫的天氣、不請(qǐng)自來的雷電、饑餓的小動(dòng)物、莫名其妙的漏水、悄然起火的易燃物。俗話說人吃五谷雜糧,哪能不生病呀?數(shù)據(jù)中心也是人建的,哪能不生???這些設(shè)備,不會(huì)說、不會(huì)講,病了、痛了,如果沒有人平時(shí)主動(dòng)維護(hù),故障時(shí)及時(shí)修復(fù),最終系統(tǒng)出事是必然的,不出事是偶然的?!盩om一邊景仰地點(diǎn)著頭,一邊問道:“聽說現(xiàn)在國外的數(shù)據(jù)中心自動(dòng)化程度很高,是不是以后可以用自動(dòng)化手段降低或者完全取消對(duì)運(yùn)維人員的要求呢?”旁邊的吳先生笑了一聲,說道:“Tom,其實(shí)國外數(shù)據(jù)中心里面的運(yùn)維人員配置也還是不少的。而且所謂的DCIM,或者國內(nèi)叫動(dòng)力環(huán)境監(jiān)控這些手段雖然已經(jīng)很先進(jìn),但還是有可能誤報(bào)和漏報(bào)。因此,機(jī)房的安全運(yùn)維依然少不了運(yùn)維人員的巡檢。美國的UptimeInstitute去年主要針對(duì)歐美數(shù)據(jù)中心的調(diào)查統(tǒng)計(jì)結(jié)論是:大約50%的機(jī)房風(fēng)險(xiǎn)是由監(jiān)控系統(tǒng)發(fā)現(xiàn)的,還有50%是由運(yùn)維人員在巡檢時(shí)發(fā)現(xiàn)的。如果在這些國家都是這樣,就不用說咱們國內(nèi)了。老外的人員那么貴,但凡能用自動(dòng)化的人家早用了,對(duì)吧?所以說,用自動(dòng)化運(yùn)維手段替代人員,恐怕還需要相當(dāng)長(zhǎng)的時(shí)間。”吳先生是新加坡人,在新加坡有著豐富的數(shù)據(jù)中心管理經(jīng)驗(yàn),還給新加坡政府做過IT顧問,算是資深人士。雖然在北京已經(jīng)住了多年,但說起話來,還是帶著點(diǎn)新加坡的“胡建”口音。他轉(zhuǎn)頭對(duì)Peter說道:“我認(rèn)為規(guī)劃運(yùn)維團(tuán)隊(duì)的時(shí)候,最主要的是要考慮兩個(gè)因素:①SLA,就是你的服務(wù)水平承諾;②成本預(yù)算。這兩個(gè)目標(biāo)是互相矛盾的,你的SLA目標(biāo)越高,需要的人員配置就越多,相應(yīng)的成本當(dāng)然就高;如果預(yù)算沒有那么多,你就需要控制人員,相應(yīng)的SLA就會(huì)降低。所以,你就是要在這兩個(gè)目標(biāo)之間找尋平衡。最終就看你們的領(lǐng)導(dǎo)能夠接受的平衡點(diǎn)在哪里?!眳窍壬^續(xù)說道:“如果你的服務(wù)水平承諾不高,那5×8的服務(wù)就可以了。但如果你的服務(wù)承諾要求到99.99%,甚至有的單位領(lǐng)導(dǎo)直接要求100%,那你的團(tuán)隊(duì)配置就完全不同了?!睆目茖W(xué)的角度說,任何系統(tǒng)都不可能100%沒有故障。數(shù)據(jù)中心即使達(dá)到T4的建設(shè)和運(yùn)維標(biāo)準(zhǔn),也不可能做到100%不間斷運(yùn)行。但很多領(lǐng)導(dǎo)對(duì)故障零容忍的心情,也是可以理解的。畢竟,現(xiàn)在很多企業(yè)的業(yè)務(wù)系統(tǒng)都依賴于信息系統(tǒng)的支撐,如果數(shù)據(jù)中心出現(xiàn)故障,導(dǎo)致業(yè)務(wù)系統(tǒng)中斷,無論是從經(jīng)濟(jì)效益還是社會(huì)效益角度來看,負(fù)面影響都太大,作為主要的責(zé)任領(lǐng)導(dǎo),也必然要承擔(dān)責(zé)任。所以,負(fù)責(zé)運(yùn)維的領(lǐng)導(dǎo),每天都是如履薄冰。人員配置Peter一邊揮手讓服務(wù)員再加幾瓶啤酒,一邊問道:“哥兒幾個(gè)說得都有道理,那我到底需要配多少人呢?”薛先生點(diǎn)著一根煙,說道:“我們的做法是:①首先進(jìn)行設(shè)施資產(chǎn)的盤點(diǎn),先數(shù)數(shù)你有多少臺(tái)備用發(fā)電機(jī)組、多少臺(tái)冷水機(jī)組、多少臺(tái)UPS……這些資產(chǎn)就是你們要管理和維確定,比如4小時(shí)一次,或者6有接待或者陪同領(lǐng)導(dǎo)、客戶參觀講解的時(shí)間。數(shù)據(jù)中心一般都是領(lǐng)導(dǎo)感覺特別自豪的地方,所以經(jīng)常要接待上級(jí)領(lǐng)導(dǎo)、兄弟單位或者潛在客戶,有時(shí)候還應(yīng)準(zhǔn)備PPT講解,別小看了這些事務(wù)性工作,也是要用掉運(yùn)維團(tuán)隊(duì)不少的時(shí)間。對(duì)了,還別忘了留夠培訓(xùn)時(shí)長(zhǎng)哦,看您的團(tuán)隊(duì)基礎(chǔ)了,每個(gè)月總得留出4~6飯打個(gè)尖,取個(gè)0.8~0.7的有效工作時(shí)間系數(shù),把有效工作時(shí)間除以這個(gè)系數(shù),就大致可以得出總的工作時(shí)間了?!盤eter聽了覺得頗有道理,自己還從來沒有這么去思考過運(yùn)維需要的時(shí)間,他趕緊叮囑Tom之后好好做個(gè)計(jì)算統(tǒng)計(jì)。吳先生插嘴道:“這種工時(shí)算法很有道理,但并非決定人員配置的唯一因素,因?yàn)檫@種算法并沒有考慮到值班人員的最低配置因素?!盩om覺得這又是他第一次聽到的新概念?!笆裁词侵蛋嗳藛T的最低配置因素?”吳先生說道:“最低配置因素決定了你在任何一個(gè)時(shí)間點(diǎn)對(duì)于事件的處理能力。首先,基于行業(yè)數(shù)據(jù)的統(tǒng)計(jì),事件發(fā)生并沒有特別集中的時(shí)間點(diǎn),就是說24小時(shí)任何一個(gè)時(shí)間發(fā)生事件的概率其實(shí)是一樣的。我自己把人員配置定義了三個(gè)等級(jí)。如果你只有5×8的人員值守配置,同時(shí)又沒有很好的監(jiān)控遠(yuǎn)程報(bào)警功能,意味著你在上班時(shí)間外對(duì)于數(shù)據(jù)中心發(fā)生的事件有可能完全不知,這就是C級(jí)配置;如果你沒有7×24人員值守,但是有很完善的監(jiān)控及遠(yuǎn)程報(bào)警功能,那么如果事件發(fā)生,至少你會(huì)知道,我們也可以定義為“即時(shí)報(bào)警”,這個(gè)定義為B級(jí)配置。當(dāng)然,從你得到報(bào)警信號(hào),到派人趕到現(xiàn)場(chǎng)進(jìn)行處置,這個(gè)過程一定會(huì)有時(shí)間的耽擱,就有可能加大事件轉(zhuǎn)化為故障的可能性。如果有7×24人員值守,而且這些人員又具備了現(xiàn)場(chǎng)處置問題的能力,那么就可以達(dá)到對(duì)于事件“即時(shí)處置”的能力,這樣就是最理想的A級(jí)配置??紤]到電力、暖通、弱電專業(yè)的技術(shù)復(fù)雜程度,一個(gè)技術(shù)人員很難做到全才,所以,對(duì)于要求SLA在99.99%以上的數(shù)據(jù)中心,比較理想的配置是每一個(gè)值班組至少同時(shí)擁有這三個(gè)專業(yè)的人。這樣當(dāng)事件發(fā)生時(shí),特定專業(yè)都有專業(yè)人士來制定應(yīng)急措施。從人數(shù)上看,這種配置可以在事件發(fā)生時(shí),安排兩個(gè)人到現(xiàn)場(chǎng)處置,另外一個(gè)人留守在監(jiān)控室。兩個(gè)人同時(shí)到現(xiàn)場(chǎng)處置是從安全角度考慮,這點(diǎn)在電力行業(yè)都是這樣要求的。而在監(jiān)控室的人,一方面可以監(jiān)視是否有其他并發(fā)事件發(fā)生,另一方面還可以起到與其他相關(guān)部門溝通的作用?;诓煌燃?jí)的事件定義,運(yùn)維人員有不同的告知義務(wù)。比較嚴(yán)重的事件,需要盡快向領(lǐng)導(dǎo)匯報(bào),并及時(shí)告知可能受到影響的IT部門或者客戶。”Tom問道:“我們以前的機(jī)房上班時(shí)間是我們自己管理,下班后都委托給大樓物業(yè)人員來幫我們監(jiān)控,這樣算哪個(gè)級(jí)別呢?”吳先生道:“你說的這種情況在中小機(jī)房的運(yùn)維中確實(shí)很常見。我們可以這么分析:如果夜間機(jī)房有事件發(fā)生,你的監(jiān)控系統(tǒng)報(bào)警,大樓物業(yè)人員收到報(bào)警信息。這時(shí)候他需要判定是否要介入事件的處置。一般你們也會(huì)事先定義事件的級(jí)別及他們相對(duì)應(yīng)的處置權(quán)限。如果相對(duì)復(fù)雜些的事件,一般來說都不會(huì)授權(quán)給他們處置的。因?yàn)槿绻幹貌划?dāng),很有可能把事件擴(kuò)大。好,對(duì)于他們不能處置的事件,他們可以做的事情只能是通知你們的技術(shù)人員,由你們安排人員到現(xiàn)場(chǎng)處置。而你們安排的人員到場(chǎng),同樣也有時(shí)間滯后。所以,這種情況和我們剛才講的B級(jí)配置,沒有本質(zhì)區(qū)別。”吳先生喝了口啤酒,繼續(xù)說道:“值守人員配置等級(jí)越高,系統(tǒng)的可靠性當(dāng)然就越高。UptimeInstitute的統(tǒng)計(jì)數(shù)據(jù)表明,配備7×24值守的數(shù)據(jù)中心的故障概率,是沒有配置的數(shù)據(jù)中心的50%。當(dāng)然,值守人員配置等級(jí)越高,運(yùn)維人員成本必然越高。那么是否有必要提升這個(gè)配置等級(jí),最終取決于業(yè)務(wù)上的要求。例如,有家單位做了仔細(xì)的測(cè)算分析,一個(gè)小時(shí)業(yè)務(wù)中斷的損失可以達(dá)到800萬美元,這樣的數(shù)據(jù)中心,當(dāng)然就值得提升值置的要求,這樣必然導(dǎo)致機(jī)房故障概率提升,最終很有可能得不償失。”組織架構(gòu)聽了吳先生的話,Peter掐指一算,自己這機(jī)房規(guī)模這么大,設(shè)備這么多,運(yùn)行的業(yè)務(wù)這么重要,值守人員的配置怎么也得按A級(jí),每個(gè)班組得配3~4個(gè)人?!昂?,我就安排每組4個(gè)人,4組輪班。整個(gè)團(tuán)隊(duì)的架構(gòu)應(yīng)該怎么設(shè)置呢?”薛先生拍了拍Tom的肩膀,“你這位兄弟就可以做你的運(yùn)維經(jīng)理,幫你整體管著運(yùn)維的事情。他下面招幾個(gè)技術(shù)好的二線支持人員。這些人平時(shí)主要是上白班,負(fù)責(zé)提供技術(shù)支持、編寫操作流程、設(shè)定運(yùn)維保養(yǎng)計(jì)劃,當(dāng)然,有必要的時(shí)候也得值班。然后就是你的一線值守團(tuán)隊(duì)。要說起來也不復(fù)雜?!眳窍壬鷵u了搖頭,對(duì)于薛先生這種簡(jiǎn)明扼要的回答表示不贊同:“沒那么簡(jiǎn)單。團(tuán)隊(duì)的組織架構(gòu),包括每個(gè)崗位的職責(zé),必須非常清晰地定義好,而且要確保全員都非常了恰巧出國無法聯(lián)系上,大家就都不知道該怎么辦了。所以A-B角的事先設(shè)定,很有必要?!盤eter聽完幾輪談話,已經(jīng)對(duì)于自己將來的運(yùn)維組織架構(gòu)胸有成竹了,Tom也對(duì)于自己將要領(lǐng)導(dǎo)一個(gè)兵強(qiáng)馬壯的運(yùn)維團(tuán)隊(duì),感到十分興奮。明天就開始招人,可是招什么樣的人合適呢?人員資質(zhì)要求哲學(xué)家薛先生說話了:“數(shù)據(jù)中心維護(hù)團(tuán)隊(duì)中有這么幾種角色,是不可或缺的,就如唐僧的取經(jīng)團(tuán)隊(duì),需要目標(biāo)明確的組織者,他的作用是圍繞著數(shù)據(jù)中心的整體目標(biāo),把各種資源進(jìn)行有機(jī)的整合,持續(xù)改進(jìn)維護(hù)體系,絕不放棄?!闭f這話時(shí),他瞟了一眼Tom,Tom頓時(shí)覺得自己離唐僧的境界還有比較大的差距,后續(xù)擔(dān)子還不輕。薛先生繼續(xù)發(fā)表高論:“除了組織者以外,還必須有對(duì)技術(shù)的執(zhí)著追求者。根據(jù)海恩法則——每一起嚴(yán)重事故的背后,必然有29起輕微事故和300起未遂先兆,以及1000起事故隱患。面對(duì)各種莫名的問題,一定要有一個(gè)刨根問底、不找到原因絕不放棄的技術(shù)管理專家,因?yàn)橹挥羞@樣才能把隱患消滅于無形。默默無聞的執(zhí)行者,行百里者半九十,西天取經(jīng)挑擔(dān)子的人是多么重要,恐怕只有孫悟空最清楚。如果讓他去每天完成千篇一律的日常工作,恐怕激情早已磨滅,半路就要回家了?!盤eter說:“我準(zhǔn)備從國企挖來的那幾位電工師傅倒真的很符合這種標(biāo)準(zhǔn),有點(diǎn)啥事非要刨根問底,特別認(rèn)真。老一代革命同志確實(shí)不一樣。現(xiàn)在年輕人能夠沉下心來做工作的不多啊。”薛先生還沒說完:“這幾種人你必須得放對(duì)位置了,如果讓技術(shù)狂人總體負(fù)責(zé),那么犀利的語言、對(duì)技術(shù)的不懈追求,往往讓整個(gè)團(tuán)隊(duì)內(nèi)耗不停,累呀!如果讓一位只顧低頭拉車的老好人全面負(fù)責(zé),大家每天都高高興興,因?yàn)榭吹靡姷墓ぷ魉呀?jīng)都干了,看不見的工作無人理會(huì)。根據(jù)墨菲定律,只要有隱患沒有解決,那么一定會(huì)出事的,只是早晚的問題?!盤eter對(duì)薛先生笑道:“你這一晚上給我們說了幾個(gè)定律了?好了,趕緊給我點(diǎn)實(shí)用的。我招一線值守人員需要他們有點(diǎn)啥資質(zhì)吧?”薛先生被從哲學(xué)境界拉回來,感覺意猶未盡。他又點(diǎn)了根煙,說:“如果從技術(shù)能力上談,那就是最基本的三證:電工證、暖通證、高壓操作證。沒有這幾項(xiàng)證,是不能上崗的。但話說回來,現(xiàn)在有些認(rèn)證機(jī)構(gòu)給證是很任性的,所以有證的人是否真正具備了相應(yīng)的能力,還需要實(shí)際評(píng)估,這個(gè)你懂得。”Tom問道:“這些人需不需要分專業(yè)呢?能否讓他們做到一專多能呢?我以前就是既管IT,又管UPS和空調(diào)。”吳先生笑道:“你這個(gè)一專多能,就看你專到什么程度。你們?cè)瓉淼臋C(jī)房小,UPS無非幾臺(tái)小功率的,超不過200kVA,對(duì)吧?空調(diào)也是很簡(jiǎn)單的風(fēng)冷空調(diào)。整個(gè)機(jī)房系統(tǒng)都比較簡(jiǎn)單。而且你們也不承擔(dān)真正意義上的運(yùn)維保養(yǎng),有什么事就把UPS、空調(diào)的供應(yīng)商叫來,對(duì)吧?”Tom點(diǎn)了點(diǎn)頭,在他原來管理300平方米機(jī)房時(shí),給他們供UPS、空調(diào)的代理商進(jìn)他們機(jī)房,就跟進(jìn)自己家一樣,熟門熟路,通行無阻。實(shí)際上這些人都已經(jīng)成了他的外圍運(yùn)維資源。他是不給他們費(fèi)用的,但是作為回報(bào),Tom也會(huì)照顧他們的生意。買硬件送服務(wù)的習(xí)慣,導(dǎo)致大家都沒有采購服務(wù)的概念,都把這部分成本攤到設(shè)備采購的隱形費(fèi)用中。中國人以前的習(xí)慣是搬家找朋友幫忙;裝臺(tái)電腦,找周圍朋友幫忙;做個(gè)機(jī)房規(guī)劃,找周圍懂行的人幫忙;做個(gè)設(shè)計(jì),也找周圍懂行的人幫忙。作為回報(bào),當(dāng)然會(huì)請(qǐng)人吃飯。但其實(shí)這些被拉去幫忙的人的心里話是:給我折現(xiàn)了吧!這些年隨著專業(yè)服務(wù)商的出現(xiàn),這種習(xí)慣有所轉(zhuǎn)變,尤其在大城市,大家的時(shí)間成本都很高,對(duì)于專業(yè)服務(wù)能力的價(jià)值也都比較認(rèn)可。但在很多二三線城市,專業(yè)服務(wù)依然還沒有被充分認(rèn)可。吳先生繼續(xù)說道:“對(duì)于大型數(shù)據(jù)中心,尤其你們這么大規(guī)模的數(shù)據(jù)中心,在電力上已經(jīng)配備了10kVA中高壓設(shè)備,這方面的操作就牽涉非常嚴(yán)肅的電力設(shè)備的專業(yè)知識(shí)了。如果專業(yè)知識(shí)不夠,輕則導(dǎo)致系統(tǒng)中斷,重則可能導(dǎo)致人員安全問題。你看人家電力行才你們講了,你們希望值守的級(jí)別是A級(jí),就是一旦有問題當(dāng)時(shí)就能處置,那么現(xiàn)場(chǎng)人員急預(yù)案,也需要專業(yè)人士來判定哪種預(yù)案更合適。更何況有些事件表現(xiàn)出來的狀態(tài)未必100%是按照你們的預(yù)案描寫的。所以,需要按專業(yè)技能分工,要求他們達(dá)到一定的技能。二線人員就更需要按專業(yè)了,他們必須成為自己專業(yè)的專家?!笨纯幢恚瑫r(shí)間已晚,雖然都是好兄弟,但Peter也不好意思再占用兩位專家的時(shí)間。連連對(duì)兩位專家拱手,感謝兄弟們的寶貴時(shí)間。而且感覺多和行業(yè)里的同行交流很有必要,尤其在人員配置這種讓老板花錢的事情上,光靠自己說不行,必須和老板聊別人家的“最佳實(shí)踐”。別讓老板光看到“別人家的機(jī)房”好,看不到別人家的投入。寶德(深圳觀瀾)云計(jì)算數(shù)據(jù)中心——中國領(lǐng)先的中立數(shù)據(jù)中心及云服務(wù)提供商Chapter3 網(wǎng)絡(luò)運(yùn)維網(wǎng)絡(luò)設(shè)計(jì)如果把數(shù)據(jù)中心設(shè)施想象成一個(gè)黑盒子,這個(gè)盒子有兩根與外界連接的重要線:一根是負(fù)責(zé)輸送電力的電力線,另一根是負(fù)責(zé)通信的網(wǎng)絡(luò)線。如果比較這兩根線的重要性,那么網(wǎng)絡(luò)線似乎更加重要。因?yàn)殡娏€如果中斷了,還可以靠設(shè)施自帶的發(fā)電機(jī)來彌補(bǔ)動(dòng)力供給;而網(wǎng)絡(luò)線如果中斷,數(shù)據(jù)中心就成了名副其實(shí)的信息孤島。之前發(fā)生過某寶的數(shù)據(jù)中心被挖掘機(jī)鏟斷了網(wǎng)絡(luò)線,就導(dǎo)致了影響業(yè)務(wù)運(yùn)行的重大故障。Peter深知網(wǎng)絡(luò)對(duì)于數(shù)據(jù)中心的利害關(guān)系。所以,他手下還有一位畢業(yè)于某郵電學(xué)院的強(qiáng)將Jack。Jack和Tom:一個(gè)管網(wǎng)絡(luò),一個(gè)管設(shè)施,是Peter的左膀右臂。設(shè)計(jì)網(wǎng)絡(luò)系統(tǒng)時(shí),Peter組織了一群網(wǎng)絡(luò)技術(shù)專家,邀請(qǐng)了多家國內(nèi)外知名廠商一起參與設(shè)計(jì),加上Jack手下的網(wǎng)絡(luò)運(yùn)維骨干,經(jīng)過多輪討論,大到網(wǎng)絡(luò)架構(gòu)、設(shè)備選型,小到路由協(xié)議、端口配比都進(jìn)行了詳細(xì)的論證?!皞鹘y(tǒng)網(wǎng)絡(luò)架構(gòu)穩(wěn)定成熟,”Jack說道,“個(gè)人認(rèn)為應(yīng)該切合業(yè)務(wù)構(gòu)建大二層網(wǎng)絡(luò),至于是VPC還是VXLAN,技術(shù)問題都不大”。網(wǎng)絡(luò)設(shè)備廠家的技術(shù)人員也提出了很多見解和建議,會(huì)議室熱鬧非凡,大家都表達(dá)了各自的意見,并最終達(dá)成了共識(shí)。“非常感謝大家,經(jīng)過討論,出口路由器雙平面+核心接入交換機(jī)大二層組網(wǎng)是最適合咱們數(shù)據(jù)中心的核心網(wǎng)絡(luò)架構(gòu),既能保證出口的冗余安全,又能保證業(yè)務(wù)層對(duì)大二層組網(wǎng)的需求;出口路由器還是用400GB平臺(tái)的高端產(chǎn)品,核心交換機(jī)采用堆疊方式與接入交換機(jī)VXLAN大二層組網(wǎng)?!盤eter在設(shè)計(jì)初審會(huì)上敲定了網(wǎng)絡(luò)設(shè)計(jì)方案。這高大上的數(shù)據(jù)中心將有兩個(gè)核心網(wǎng)絡(luò)機(jī)房,并且兩個(gè)核心網(wǎng)絡(luò)機(jī)房物理隔離、供電冗余配備,核心網(wǎng)絡(luò)設(shè)備自然平均安裝到了這兩個(gè)機(jī)房里,保證即使一個(gè)機(jī)房發(fā)生火災(zāi)、斷電等情況也不會(huì)阻斷互聯(lián)網(wǎng)絡(luò)出口。如果有了冗余的網(wǎng)絡(luò)路由,就不會(huì)輕易地被挖掘機(jī)的一鏟子把業(yè)務(wù)都中斷了。網(wǎng)絡(luò)割接接下來便是新網(wǎng)絡(luò)系統(tǒng)割接入網(wǎng)的重要環(huán)節(jié)了,割接入網(wǎng)小組迅速成立,Peter責(zé)無旁貸地?fù)?dān)任總指揮,入網(wǎng)方案之前已經(jīng)過多次審核,直到細(xì)節(jié)無一點(diǎn)疏漏,設(shè)備已提前加電、拷機(jī)、刷系統(tǒng)、打補(bǔ)丁,確保穩(wěn)定運(yùn)行,包括入網(wǎng)環(huán)境也在入網(wǎng)當(dāng)天認(rèn)真檢查,確保凌晨的入網(wǎng)萬無一失。晚上11點(diǎn),數(shù)據(jù)中心核心機(jī)房里燈火通明,Peter身邊已圍了一圈人,有今晚負(fù)責(zé)割接入網(wǎng)小組組長(zhǎng)Jack,還有運(yùn)維骨干工程師Tim,若干經(jīng)驗(yàn)豐富的設(shè)備廠家工程師和施工人員。Jack發(fā)令道:“請(qǐng)最后檢查各自負(fù)責(zé)的部分,如無問題新網(wǎng)絡(luò)系統(tǒng)將于凌晨準(zhǔn)時(shí)入網(wǎng)”。隨即大家各司其職,檢查設(shè)備運(yùn)行情況、傳輸鏈路情況、網(wǎng)絡(luò)設(shè)備配置調(diào)試情況、入網(wǎng)環(huán)境情況等,30分鐘后回報(bào)一切正??梢园从?jì)劃入網(wǎng)。隨著時(shí)間逼近,大家心里都不免有點(diǎn)激動(dòng)和緊張。凌晨到了,大家精神抖擻,第一步先進(jìn)行最重要的出口路由器入網(wǎng)工作,隨著鏈路的放通,BGP協(xié)議鄰居已建立正常。“收全球路由”,“全球路由已收,路由表顯示正?!保伴_始第二平面出口路由器入網(wǎng)”,“第二臺(tái)路由器入網(wǎng)完成”?!伴_始路由切換測(cè)試、開始單一平面路由器承載測(cè)試”,隨后經(jīng)過多次檢查測(cè)試,確定出口路由器已順利入網(wǎng),大家都很高興,緊張的心情已稍微緩和下來。第二步開始核心接入交換機(jī)入網(wǎng),設(shè)備、鏈路都確認(rèn)沒問題后,進(jìn)行大二層組網(wǎng),并在大二層的基礎(chǔ)上疊加了OSPF動(dòng)態(tài)路由組網(wǎng)以滿足三層網(wǎng)絡(luò)用戶動(dòng)態(tài)負(fù)載分擔(dān)等需求,最終順利完成組網(wǎng)。第三步終于可以開始加載業(yè)務(wù)了,兩名工程師登錄設(shè)備進(jìn)行業(yè)務(wù)開通配置,隨著第一批幾位大客戶業(yè)務(wù)的開通上線,緊張的工作氣氛也緩解了下來,此時(shí)割接入網(wǎng)大部分工作已搞定。“大家再接再厲,按入網(wǎng)方案的要求完成最后的業(yè)務(wù)測(cè)試”,此時(shí)Peter提醒了大家還有最后一步未完成,大家經(jīng)過測(cè)試緊張的開通,認(rèn)真調(diào)試測(cè)驗(yàn),最終順利完成了今晚的入網(wǎng)工作?!案兄x大家今晚的辛苦付出,我正式宣布咱們數(shù)據(jù)中心網(wǎng)絡(luò)已于凌晨6點(diǎn)正式完成開通入網(wǎng),隨后請(qǐng)入網(wǎng)人員盡快休息,監(jiān)控人員立即接續(xù)監(jiān)控工作”,Peter看著手表,興奮地宣布。與此同時(shí),一應(yīng)俱全的網(wǎng)絡(luò)安全系統(tǒng)、網(wǎng)絡(luò)監(jiān)控管理系統(tǒng)、網(wǎng)絡(luò)流量分析系統(tǒng)、網(wǎng)絡(luò)配套設(shè)施也迅速完成了部署。網(wǎng)絡(luò)運(yùn)維隨著網(wǎng)絡(luò)建設(shè)接近尾聲,業(yè)務(wù)系統(tǒng)的上線試運(yùn)行,與運(yùn)維部門的交接工作也提上了日程。Jack從頭參與了網(wǎng)絡(luò)設(shè)計(jì)和測(cè)試,相當(dāng)于建設(shè)部門和運(yùn)維部門都是他負(fù)責(zé),因此,整個(gè)交接過程非常平滑。Jack組織網(wǎng)絡(luò)專業(yè)運(yùn)維小組進(jìn)行審核驗(yàn)收?!鞍凑站W(wǎng)絡(luò)SOP驗(yàn)收標(biāo)準(zhǔn),路由器、交換機(jī)的線纜標(biāo)簽未按標(biāo)準(zhǔn)機(jī)打張貼,設(shè)計(jì)圖紙未全部移交,設(shè)備配置未按規(guī)范配置……”,在驗(yàn)收會(huì)上,維護(hù)部網(wǎng)絡(luò)專業(yè)提出了不少問題,建設(shè)部門詳細(xì)記錄后,立即開始驗(yàn)收整改,不過幾日便將問題一一修正后,正式交到了運(yùn)維的手上。網(wǎng)絡(luò)建設(shè)這一關(guān)順利過了,但接下來Jack要面臨網(wǎng)絡(luò)運(yùn)維的一系列難題。難題一:太多手工操作費(fèi)時(shí)費(fèi)力,還容易出錯(cuò)。容易出錯(cuò)。如果網(wǎng)絡(luò)運(yùn)維可以有自動(dòng)部署的方式,那么可以大大減少運(yùn)維人員的工作時(shí)間,也不容易出錯(cuò),作為數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維人員,沒必要對(duì)這些網(wǎng)絡(luò)底層命令有過多了解,只要通過網(wǎng)絡(luò)變更滿足業(yè)務(wù)需求即可。實(shí)際上,這類難題在運(yùn)維工作中是最為突出的,很多網(wǎng)絡(luò)設(shè)備命令晦澀,讓人難以理解,運(yùn)維的人根本沒有時(shí)間和能力去讀每篇RFC文檔,需要的是簡(jiǎn)單明了的解決方案。雖然現(xiàn)在已部署了SDN想辦法多加人手了。難題二:網(wǎng)絡(luò)變更很困難,跟不上需求。數(shù)據(jù)中心用戶業(yè)務(wù)的需求是多種多樣的,尤其是業(yè)務(wù)部門,為了業(yè)績(jī),很多不合理的需求也接納,到了實(shí)施的時(shí)候才發(fā)現(xiàn)困難重重。很多業(yè)務(wù)部門對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)并沒有清晰的了解,也不知道現(xiàn)有的網(wǎng)絡(luò)能夠提供什么,這就導(dǎo)致兩面的脫節(jié),最終導(dǎo)致很多需求根本無法通過網(wǎng)絡(luò)變更來實(shí)現(xiàn),或者網(wǎng)絡(luò)變更會(huì)影響現(xiàn)有業(yè)務(wù),付出很大的代價(jià)。所幸在網(wǎng)絡(luò)設(shè)計(jì)階段,業(yè)務(wù)部門已深入?yún)⑴c,現(xiàn)有網(wǎng)絡(luò)不僅支持大二層,還支持跨設(shè)備的流量負(fù)載均衡及動(dòng)態(tài)接入,但仍有一些特殊需求無法用簡(jiǎn)單變更滿足,如MPLSVPN、L2VPN、GRE隧道等。難題三:業(yè)務(wù)部署方案沒有系統(tǒng)集成商協(xié)助。組網(wǎng),不僅需要深入了解用戶業(yè)務(wù)需求,還需要根據(jù)需求制訂相應(yīng)的接入方案、風(fēng)險(xiǎn)預(yù)不小了,再去深入了解業(yè)務(wù)需求確定接入方案,無論是從時(shí)間還是經(jīng)驗(yàn)來說都是一種挑戰(zhàn),如果此時(shí)能有個(gè)系統(tǒng)集成商該多好。此時(shí)Jack已經(jīng)在盤算如何向上面匯報(bào)此問題了。難題四:忙于日常維護(hù),難于抽身分析優(yōu)化。數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維人員也是每天都忙于巡檢、開通、記錄資料表單、處理各種各樣的網(wǎng)絡(luò)問題,尤其是已經(jīng)影響到業(yè)務(wù)運(yùn)行的問題,這樣根本沒有精力去針對(duì)現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)流進(jìn)行分析優(yōu)化,更別說下一代先進(jìn)的網(wǎng)絡(luò)技術(shù)了,這樣缺乏不斷更新進(jìn)步的數(shù)據(jù)中心網(wǎng)絡(luò)遲早會(huì)被淘汰??磥矸峙蓭讉€(gè)資深網(wǎng)絡(luò)工程師成立專職的網(wǎng)絡(luò)研究小組勢(shì)在必行。難題五:網(wǎng)絡(luò)設(shè)備類型多,工具太多,協(xié)議更多,全掌握難度大。數(shù)據(jù)中心網(wǎng)絡(luò)涵蓋了傳輸設(shè)備、數(shù)據(jù)網(wǎng)絡(luò)設(shè)備、光纜線路、網(wǎng)絡(luò)配套系統(tǒng)等不同類別的設(shè)備,同一類別不同廠家的設(shè)備命令風(fēng)格和含義均不同,就算是一個(gè)廠商、不同型號(hào)的設(shè)備也會(huì)有不同。這給網(wǎng)絡(luò)運(yùn)維帶來了極大的困難,運(yùn)維人員不得不掌握數(shù)據(jù)中心所有設(shè)備的基本操作手冊(cè),要花大量的時(shí)間去熟悉這些設(shè)備。一般的網(wǎng)絡(luò)設(shè)備命令都有數(shù)千條,以太網(wǎng)RFC協(xié)議有8000多篇,根據(jù)網(wǎng)絡(luò)的五大層有多種多樣的協(xié)議定義。正是網(wǎng)絡(luò)協(xié)議的多樣性,才要設(shè)計(jì)很多輔助工具去掌握它,在進(jìn)行網(wǎng)絡(luò)分析時(shí)也要借助很多工具。例如,XPING、Tracert、抓包工具、IP掩碼換算。以上這些只是了解基本RFC協(xié)議,都需要足夠的培訓(xùn)時(shí)間,要完全掌握基本不可能??磥硪欢ㄒ獏^(qū)分網(wǎng)絡(luò)維護(hù)工程師的側(cè)重點(diǎn),加強(qiáng)專業(yè)化培訓(xùn)。難題六:網(wǎng)管自動(dòng)化程度不高。目前數(shù)據(jù)中心的網(wǎng)管主要是對(duì)運(yùn)行的網(wǎng)絡(luò)設(shè)備進(jìn)行監(jiān)控,實(shí)際上主要是將設(shè)備上的日志告警提取出來,然后給出一些告警提示,還有就是通過網(wǎng)管可以獲取一些設(shè)備信息。實(shí)際上,網(wǎng)管對(duì)運(yùn)維工作支持不是很大。真正的智能網(wǎng)管應(yīng)該代替運(yùn)維人員的部分工作,如下發(fā)配置變更、業(yè)務(wù)故障自動(dòng)切換網(wǎng)絡(luò)、網(wǎng)絡(luò)自檢等,通過網(wǎng)管實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)真正的智能化管理,減少運(yùn)維人員的工作量,要實(shí)現(xiàn)這些還需要網(wǎng)管技術(shù)進(jìn)一步提升。顯而易見,數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維面臨不少難題,是數(shù)據(jù)中心的短板。哪個(gè)數(shù)據(jù)中心能解決好網(wǎng)絡(luò)運(yùn)維的問題,就能在這個(gè)圈內(nèi)混得好,Peter當(dāng)然也深知這個(gè)道理。做好網(wǎng)絡(luò)運(yùn)維的過程也就是解決以上問題的過程,隨后開展的網(wǎng)絡(luò)運(yùn)維工作里,他著重針對(duì)上面幾個(gè)問題加強(qiáng)解決力度。數(shù)據(jù)中心網(wǎng)絡(luò)維護(hù)工作在Jack的帶領(lǐng)下有條不紊地開展著。網(wǎng)絡(luò)安全俗話說得好,“常在河邊走,怎能不濕鞋”,網(wǎng)絡(luò)攻擊并沒有放過Peter。一日異常流量系統(tǒng)發(fā)出重大告警,值班電話接連響起,連續(xù)幾家用戶反映業(yè)務(wù)訪問不穩(wěn)定、丟包嚴(yán)重。值班人員緊急上報(bào),隨即啟動(dòng)重大故障應(yīng)急預(yù)案,Jack和幾名網(wǎng)絡(luò)資深技術(shù)專家、運(yùn)維骨干迅速到位?!癆平面出口路由器上聯(lián)鏈路下行方向已占滿300GB,凡是經(jīng)過這個(gè)平面的用戶業(yè)務(wù)肯定會(huì)影響質(zhì)量,發(fā)生丟包情況”,Jack首先發(fā)現(xiàn)了問題突破口。資深技術(shù)專家Tim立馬提示道:“檢查流量系統(tǒng)的此流量的成分,是否是異常流量,盡快確定攻擊目標(biāo)地址,有可能是大規(guī)模流量攻擊。”“已查明系統(tǒng)報(bào)告其中有200GB屬于異常流量,目標(biāo)地址已確定是M用戶的2個(gè)地址,攻擊流量很大”,一名網(wǎng)絡(luò)骨干回報(bào)。對(duì)于單個(gè)數(shù)據(jù)中心來說也是鮮有的,由于流量清洗系統(tǒng)在出口路由器之下,就算可以經(jīng)過,流量清洗系統(tǒng)也只具備120GB的清洗能力,這個(gè)流量到達(dá)清洗系統(tǒng)還沒處理系統(tǒng)就崩潰了。如果讓攻擊流量如此肆虐,緊接著便會(huì)有N個(gè)用戶投訴,故障超時(shí)的話會(huì)涉及賠付,給公司帶來更大的負(fù)面影響。故障發(fā)生已歷時(shí)半個(gè)小時(shí),距離合同SLA上承諾時(shí)間已不到20分鐘,聯(lián)系上游網(wǎng)絡(luò)管理部門處理已來不及了。“迅速確認(rèn)現(xiàn)在的正常業(yè)務(wù)流量為多少”,Jack在大家都沉思時(shí)發(fā)話了,大家都看向了他,充滿疑問。“正常業(yè)務(wù)流量現(xiàn)在203GB”,一名網(wǎng)維工程師報(bào)告。Jack隨后解釋道:“我有個(gè)建議,大家看是否可行,現(xiàn)在或許只有這個(gè)辦法了——利用BGP協(xié)議的策略屬性把異常攻擊流量切到B平面,把B平面的正常業(yè)務(wù)流量切到A平面,保證正常流量在A平面的安全”。“不失為補(bǔ)救的好辦法”,Peter表示贊同,其他人也一致同意。前期網(wǎng)絡(luò)設(shè)計(jì)時(shí)出口路由器為雙平面負(fù)載,為的就是防止一平面出現(xiàn)故障這種極端情況的發(fā)生,沒想到這次竟然用到了規(guī)避網(wǎng)絡(luò)攻擊故障上。幾名骨干工程師迅速分工合作,互相檢查,很快將正常業(yè)務(wù)流量切到了A平面,將異常攻擊流量切換到了B平面。“報(bào)告,流量已切換完畢,現(xiàn)在A平面的正常業(yè)務(wù)流量202GB,B平面的異常業(yè)務(wù)流量已達(dá)到300GB,上聯(lián)鏈路下行方向已滿?!本W(wǎng)絡(luò)骨干工程師Tim報(bào)告切換成功?!耙鸦卦L申告用戶,除了M用戶受攻擊地址外,剩余已暫時(shí)恢復(fù)。”一名工程師報(bào)告。大家終于松了一口氣,故障歷時(shí)40分鐘,未超時(shí),故障算暫時(shí)控制住了,但是還不算最終處理結(jié)束。網(wǎng)絡(luò)攻擊處理辦法一方面要疏導(dǎo),更重要的是要從上層網(wǎng)絡(luò)開始查找封堵直至找到攻擊源頭進(jìn)行整治,隨即一名網(wǎng)絡(luò)工程師已緊急聯(lián)系上游網(wǎng)絡(luò)管理部門開始協(xié)助排查處理。終于在4小時(shí)后,攻擊源和攻擊路徑得到封堵處理,此次網(wǎng)絡(luò)攻擊徹底得以解決,數(shù)據(jù)中心網(wǎng)絡(luò)工程師確認(rèn)已無風(fēng)險(xiǎn)后將流量進(jìn)行了切換復(fù)原。故障處理完畢,第二天一份完整的故障報(bào)告出現(xiàn)在了Peter的辦公桌上。Tom對(duì)于網(wǎng)絡(luò)技術(shù)沒有太深的了解,各網(wǎng)絡(luò)協(xié)議、指令在他看來都像天書。Jack看著配電設(shè)施的高壓警告,以及發(fā)出巨大噪聲的冷水機(jī)組,也感覺非??植馈z人都感覺隔行如隔山,不過他們都很慶幸有彼此這樣靠譜的小伙伴支撐對(duì)方,畢竟要搞好數(shù)據(jù)中心的運(yùn)行,設(shè)施和網(wǎng)絡(luò)專業(yè)缺一不可。國富瑞北京3#數(shù)據(jù)中心,成功入圍第一批綠色數(shù)據(jù)中心試點(diǎn)單位Chapter4 培訓(xùn)與演練1 崗位技能培訓(xùn)數(shù)據(jù)中心上線一段時(shí)間了,Tom的運(yùn)維團(tuán)隊(duì)也逐漸組建完成。要說把這些人招聘齊也費(fèi)了九牛二虎之力。市場(chǎng)上真正有數(shù)據(jù)中心運(yùn)維經(jīng)驗(yàn)的人員并不多,而現(xiàn)在新建成投產(chǎn)的數(shù)據(jù)中心又很多,需求遠(yuǎn)大于供給。因此,Tom也只能在關(guān)鍵崗位上確保人員有機(jī)房的運(yùn)維經(jīng)驗(yàn),其余崗位也只能從其他干過物業(yè)管理工作的人員中招聘??粗@只能力參差不齊的團(tuán)隊(duì),Tom頗有些擔(dān)心,畢竟他之前也沒有帶過這么大的團(tuán)隊(duì),責(zé)任又這么重大,一時(shí)感覺有點(diǎn)手足無措。這天,Tom向Peter匯報(bào)工作時(shí),談到自己對(duì)團(tuán)隊(duì)和人員的擔(dān)心。Peter敏銳地意識(shí)到潛在的問題,當(dāng)即支招:通過系統(tǒng)性的培訓(xùn)和演練,發(fā)現(xiàn)不足,持續(xù)改進(jìn),不斷提高員工職業(yè)素質(zhì)和崗位技能,提高獨(dú)立分析與解決問題的能力。Tom受命而去,挖空心思琢磨了好幾天,又虛心向同行請(qǐng)教,精心炮制出一套培訓(xùn)和演練方案,立即把培訓(xùn)計(jì)劃向Peter做了匯報(bào)。Tom提交的培訓(xùn)計(jì)劃中,不僅包含新員工的培訓(xùn)計(jì)劃、運(yùn)維人員的年度培訓(xùn)計(jì)劃、設(shè)備廠商對(duì)于運(yùn)維人員的技能培訓(xùn)及行業(yè)內(nèi)經(jīng)驗(yàn)交流,還包含每一次培訓(xùn)工作的參與人員、培訓(xùn)材料,以及人員考核要求和考核記錄。以新員工為例,除了人力資源部組織的入職培訓(xùn)外,針對(duì)新員工進(jìn)行上崗培訓(xùn):安排專人輔導(dǎo)和帶領(lǐng)新員工對(duì)其開展崗位技能、崗位技術(shù)、實(shí)際操作等必備的專業(yè)知識(shí)能力的培訓(xùn),經(jīng)考試合格后方可上崗操作,以此作為試用期員工轉(zhuǎn)正的考核內(nèi)容。其他所有員工也都要進(jìn)行崗位規(guī)范培訓(xùn),包括服務(wù)請(qǐng)求、事件、問題、變更的流程培訓(xùn),工具使用培訓(xùn),設(shè)備維護(hù)專業(yè)培訓(xùn),安全管理培訓(xùn)及運(yùn)維管理體系流程培訓(xùn)。不同崗位人員要定期針對(duì)各個(gè)專業(yè)的專業(yè)技術(shù)和知識(shí)進(jìn)行培訓(xùn)。Peter看完洋洋灑灑的培訓(xùn)計(jì)劃,暗自點(diǎn)頭,心想自己找來的這個(gè)Tom還真不錯(cuò),雖然沒有大型數(shù)據(jù)中心的運(yùn)維經(jīng)驗(yàn),但是腦子靈,愛鉆研肯干,磨煉幾年肯定是把好手。不過,Peter沒有讓剛上任不久的Tom察覺出他的滿意,而是板著臉問道“人均培訓(xùn)時(shí)間是多長(zhǎng)?師資怎么解決?”“年度人均培訓(xùn)時(shí)間計(jì)劃72小時(shí),新員工培訓(xùn)、流程培訓(xùn)、工具使用培訓(xùn)、設(shè)備培訓(xùn)會(huì)在這一兩個(gè)月的周末或者工作時(shí)間段見縫插針、集中安排;外部專家技術(shù)交流和參加外部認(rèn)證培訓(xùn)會(huì)讓參加培訓(xùn)的員工根據(jù)實(shí)際情況自行申請(qǐng)安排?!薄皫熧Y的話,除了調(diào)動(dòng)內(nèi)部資源,以老帶新,還會(huì)邀請(qǐng)變壓器、柴發(fā)、空調(diào)、UPS、配電柜、水冷機(jī)組等設(shè)備廠商的技術(shù)專家開展如下培訓(xùn):設(shè)備介紹、架構(gòu)設(shè)計(jì)、操作流程和方法、日常維護(hù)操作、應(yīng)急預(yù)案及操作流程。”雖然覺得Tom的培訓(xùn)計(jì)劃做得很周密,Peter還是提醒道“怎么考核培訓(xùn)效果呢?”“我想先把手底下這撥人按照工作崗位職能定崗定責(zé)。運(yùn)維值班員:主要工作內(nèi)容涉及按照操作規(guī)范、操作流程、工作計(jì)劃的要求對(duì)場(chǎng)地基礎(chǔ)設(shè)施、設(shè)備進(jìn)行巡檢、故障或隱患的記錄、報(bào)告和處置。運(yùn)維值班長(zhǎng):主要工作內(nèi)容涉及帶領(lǐng)運(yùn)維值班團(tuán)隊(duì),執(zhí)行運(yùn)維工作計(jì)劃,報(bào)告和處理突發(fā)故障、突發(fā)事件,值班長(zhǎng)對(duì)于其值班期間系統(tǒng)的高效穩(wěn)定運(yùn)行負(fù)主要責(zé)任。技術(shù)工程師:主要工作內(nèi)容涉及場(chǎng)地基礎(chǔ)設(shè)施維護(hù)、檢修,編寫與審定各種運(yùn)行手冊(cè)、操作流程、工作計(jì)劃及方案。每個(gè)崗位的職能不同,要求的技能不同,相應(yīng)的培訓(xùn)設(shè)計(jì)也不同。對(duì)于開展的各項(xiàng)培訓(xùn)活動(dòng),培訓(xùn)后要通過筆試和口試等考察學(xué)習(xí)情況,并結(jié)合工作崗位需要,安排實(shí)際操作環(huán)節(jié)。當(dāng)培訓(xùn)后仍未能達(dá)到崗位工作要求時(shí),可再次對(duì)其培訓(xùn)。多次培訓(xùn)不達(dá)標(biāo)者,可降級(jí)或辭退處理。”“OK,那就盡快落實(shí)執(zhí)行吧”,Peter拍了板,并且補(bǔ)充了一條意見:“以后對(duì)于運(yùn)維團(tuán)隊(duì)除了原有基本的高壓本、電工本、制冷維修證的要求外,還要爭(zhēng)取讓大家都拿到數(shù)據(jù)中心運(yùn)維的相關(guān)行業(yè)認(rèn)證?!盩om應(yīng)聲去執(zhí)行,各種燒腦培訓(xùn)和考試隨即陸續(xù)展開,雖然大家叫苦連天,但確實(shí)讓整個(gè)團(tuán)隊(duì)的功力有了明顯提高。理論知識(shí)的學(xué)習(xí)雖然在短期看來沒有什么直接用途,但可以讓運(yùn)維人員做到知其然,也知其所以然,這樣在數(shù)據(jù)中心出現(xiàn)狀況的時(shí)候,可以找到問題的癥結(jié),并采取相應(yīng)的行動(dòng)。不過理論培訓(xùn)再好,畢竟是紙上談兵。就像要培訓(xùn)好戰(zhàn)士,就必須有實(shí)戰(zhàn)演習(xí)。要確保運(yùn)維團(tuán)隊(duì)能夠在出現(xiàn)狀況時(shí)不會(huì)慌亂,最終還得靠應(yīng)急演練。2 演練方案Tom召集自己的核心技術(shù)骨干,同設(shè)備供應(yīng)商的工程師們,制定了一個(gè)周密的“真槍實(shí)戰(zhàn)”的應(yīng)急演練。演練目標(biāo)如下:驗(yàn)證應(yīng)急操作方案的適用性和有效性,不斷優(yōu)化和完善技術(shù)應(yīng)急預(yù)案。檢驗(yàn)運(yùn)維團(tuán)隊(duì)選擇正確的應(yīng)急預(yù)案并實(shí)施的能力,以便持續(xù)改進(jìn)。演練的內(nèi)容如下:續(xù)表Peter看完Tom做的演練計(jì)劃,也非常重視,畢竟這是第一次綜合檢驗(yàn)運(yùn)維團(tuán)隊(duì)能力的良好機(jī)會(huì)。他說“到時(shí)候我會(huì)邀請(qǐng)領(lǐng)導(dǎo)來現(xiàn)場(chǎng)觀摩,可不能掉鏈子啊。演練前一是要安排培訓(xùn),包括產(chǎn)品介紹、應(yīng)急預(yù)案步驟分析、場(chǎng)地操作勘察,讓相關(guān)人員通過培訓(xùn)在演練前掌握應(yīng)急操作的基礎(chǔ)知識(shí),了解事件的處理和響應(yīng)流程,了解事件發(fā)生時(shí)自己的崗位職責(zé)和要求;二是要多次進(jìn)行桌面推演,充分準(zhǔn)備演練方案、保障演練資源,貼近實(shí)際故障情況設(shè)計(jì)演練場(chǎng)景;三是要在演練中,通過集中監(jiān)控中心對(duì)各個(gè)演練現(xiàn)場(chǎng)統(tǒng)一監(jiān)測(cè)、指揮和調(diào)度,保障演練安全有序。同時(shí),現(xiàn)場(chǎng)演練觀察員要認(rèn)真觀察演練執(zhí)行情況、實(shí)時(shí)記錄演練問題。演練結(jié)束后,演練人員將集中討論分析演練效果,優(yōu)化應(yīng)急預(yù)案?!盩om拍著胸脯說:“領(lǐng)導(dǎo)放心,我會(huì)認(rèn)真貫徹落實(shí)每個(gè)細(xì)節(jié),保證不出岔子。”3 真刀真槍的實(shí)戰(zhàn)經(jīng)過兩周的認(rèn)真準(zhǔn)備,周六上午10點(diǎn),應(yīng)急演練將拉開帷幕。這次演練選擇在剛投產(chǎn)不久的二期數(shù)據(jù)中心模塊進(jìn)行,這樣既鍛煉隊(duì)伍,也對(duì)設(shè)施本身進(jìn)行一次問題的排查。既興奮又緊張的Tom早上8點(diǎn)趕到數(shù)據(jù)中心一看,不但其他同事都到齊了,連Peter也已經(jīng)一臉嚴(yán)肅地坐在監(jiān)控室——此次應(yīng)急演練的總指揮中心,正在看實(shí)時(shí)監(jiān)控的鏡頭畫面。Tom抓緊時(shí)間和演練小組又過了一遍演練流程。按照計(jì)劃,工程師小王帶領(lǐng)廠商先到故障。畢竟,萬一在演練過程中弄假成真,就需要具有真正的應(yīng)急處理能力。9點(diǎn)半,前來參觀的領(lǐng)導(dǎo)和其他用戶部門的同事陸續(xù)來到現(xiàn)場(chǎng)。辦好手續(xù)進(jìn)入機(jī)房,Peter首先為他們講解了這個(gè)數(shù)據(jù)中心模塊的基礎(chǔ)設(shè)施配置和這次演練的流程;接著介紹解決現(xiàn)場(chǎng)發(fā)現(xiàn)的問題以便進(jìn)行動(dòng)環(huán)系統(tǒng)優(yōu)化。聽了介紹,領(lǐng)導(dǎo)們一臉期待地等著演練開始。此時(shí),監(jiān)控畫面實(shí)時(shí)顯示前臺(tái)大廳、設(shè)施通道、發(fā)動(dòng)機(jī)控制室、發(fā)電機(jī)機(jī)房、配電室、制冷機(jī)房、低壓配電房的動(dòng)態(tài),一切盡在掌握之中。整個(gè)演練的分工如下:由Peter基于演練的方案扮演藍(lán)軍角色,發(fā)起事件模擬的指令,Tom的團(tuán)隊(duì)負(fù)責(zé)進(jìn)行應(yīng)急應(yīng)對(duì)方案制定和操作。離10點(diǎn)還差2分鐘,所有人員就位,Tom做最后的戰(zhàn)前檢查:“市電停電切換油機(jī)帶載演練即將開始,各崗位報(bào)告人員狀態(tài)?!敝宦牳鱾€(gè)負(fù)責(zé)人井然有序地回復(fù):“報(bào)告指揮中心,低壓配電人員已到位,報(bào)告完畢。報(bào)告指揮中心,UPS人員已到位,報(bào)告完畢。報(bào)告指揮中心,發(fā)電機(jī)人員已到位,報(bào)告完畢。報(bào)告指揮中心,冷卻塔人員已到位,報(bào)告完畢。報(bào)告指揮中心,動(dòng)環(huán)人員已到位,報(bào)告完畢?!?#變壓器停電10點(diǎn)整,Peter在指揮中心下達(dá)1#變壓器停電指令,1#變壓器輸出分閘,空調(diào)系統(tǒng)及徹整個(gè)大廳,油機(jī)一檢測(cè)到停電信號(hào),3臺(tái)發(fā)電機(jī)馬上啟動(dòng),待3定后傳輸?shù)紸TS,ATS自動(dòng)切換為油機(jī)供電,樓層精密空調(diào)供電恢復(fù)自啟,但1#離心機(jī)電柜主斷路器出現(xiàn)跳閘、1#冷凍水泵變頻器出現(xiàn)故障告警。這一上來就出了點(diǎn)小狀況,Tom演練小組進(jìn)行了問題分析:(1)1#離心機(jī)斷路器跳閘,是由于ATS切換時(shí)間非常短,離心機(jī)在運(yùn)轉(zhuǎn)過程接觸器還來不及完全釋放供電,冷機(jī)、電機(jī)供電經(jīng)歷通—斷—差,即冷凝器處在高壓狀態(tài),這時(shí)離心機(jī)在排氣口高壓狀態(tài)下啟動(dòng)電流超出斷路器整定值,造成斷路器跳閘保護(hù)。處理方法:待蒸發(fā)器與冷凝器壓力平衡后,重新閉合斷路器??偨Y(jié)經(jīng)驗(yàn):在演練時(shí)空調(diào)系統(tǒng)負(fù)載ATS切換前,先關(guān)閉空調(diào)系統(tǒng),再切換供電。(2)冷凍泵變頻器故障是由于ATS切換時(shí)變頻器供電出現(xiàn)閃斷,變頻器供電經(jīng)歷通—斷—通階段。造成直流回路儲(chǔ)能電容的充電電流過大,變頻器保護(hù)故障告警。處理方法:關(guān)閉變頻器供電電源,等變頻器儲(chǔ)能電容放電完畢后,恢復(fù)變頻器供電。經(jīng)過快速處理,空調(diào)系統(tǒng)恢復(fù)正常運(yùn)行,Tom仔細(xì)查看BA監(jiān)控上的數(shù)據(jù),生怕有一絲遺漏。之后又按計(jì)劃模擬了BA系統(tǒng)故障,采用全手動(dòng)控制空調(diào)系統(tǒng),檢驗(yàn)設(shè)備本地、遠(yuǎn)程開關(guān)切換狀態(tài),考核運(yùn)維人員手動(dòng)操作各開關(guān)熟悉程度、先后次序、應(yīng)急能力等。2#變壓器停電10點(diǎn)20分,Peter在指揮中心下達(dá)2#變壓器停電命令,2#變壓器與4#變壓器等級(jí)為2N系統(tǒng)互備,在二樓設(shè)有2#變壓器與4#變壓器相互切換的母聯(lián)柜。斷開2#變壓器輸出開關(guān),在正常情況下,停電后2#變壓器饋電柜在動(dòng)環(huán)監(jiān)控上應(yīng)該顯示為紅色,但是,負(fù)責(zé)動(dòng)環(huán)監(jiān)控的小李卻發(fā)現(xiàn),2#變壓器饋電柜卻一直顯示綠色狀態(tài),小李犯起了嘀咕,難道是數(shù)據(jù)太多,動(dòng)環(huán)串口服務(wù)器運(yùn)作不過來,存在停滯現(xiàn)象?可是后面發(fā)現(xiàn)別的數(shù)據(jù)都恢復(fù)正常了,就這個(gè)饋電柜還沒恢復(fù),這肯定有問題,于是小李馬上把問題反饋給Tom和指揮中心。在一旁待命的廠商馬上對(duì)2#變壓器饋電柜進(jìn)行檢查,很快發(fā)現(xiàn)原來是檢測(cè)點(diǎn)關(guān)聯(lián)有誤,為三相不平衡電流測(cè)點(diǎn),后關(guān)聯(lián)改為電壓測(cè)點(diǎn),2#變壓器饋電柜顯示恢復(fù)正常。3#變壓器停電10點(diǎn)30分左右,Peter下達(dá)斷開3#變壓器輸出開關(guān)(3樓IT負(fù)載和4樓IT負(fù)載)命令,此時(shí)ATS檢測(cè)到市電失壓,1秒切換至發(fā)電機(jī)供電(因此前斷開1#變壓器總開關(guān)時(shí)發(fā)電機(jī)已合閘將電送至ATS,此時(shí)轉(zhuǎn)換只需1秒)。由于3樓IT負(fù)載和4樓IT負(fù)載的主路均由3#變壓器供電,轉(zhuǎn)換過程中UPS前端會(huì)有1秒的失電狀態(tài),此時(shí)會(huì)由電池供電,IT負(fù)載供電不受影響。ATS轉(zhuǎn)換完成后由發(fā)電機(jī)供電。小李在動(dòng)環(huán)監(jiān)控界面上發(fā)現(xiàn)3樓U323電柜計(jì)量?jī)x無法通信,小李和Tom檢查后發(fā)現(xiàn)計(jì)量?jī)x沒有顯示,初步判斷可能瞬間過電流,導(dǎo)致計(jì)量?jī)x保險(xiǎn)熔斷或計(jì)量?jī)x燒毀,此問題由電柜廠家后續(xù)處理。4#變壓器停電2#變壓器與4#變壓器等級(jí)為2N系統(tǒng)互備,2#變壓器停電后負(fù)載全部轉(zhuǎn)為4#變壓器供電,二樓區(qū)域A、B兩路電源瞬間停電,這將考驗(yàn)二樓UPS蓄電池供電帶載能力。10點(diǎn)40分左右,指揮中心下達(dá)4#變壓器停電命令,ATS正常切換,IT負(fù)載轉(zhuǎn)由發(fā)電機(jī)供電,切換完成后UPS現(xiàn)場(chǎng)負(fù)責(zé)人對(duì)電池放電電流、電壓等運(yùn)行參數(shù)進(jìn)行了一系列檢查,未發(fā)現(xiàn)異?,F(xiàn)象,一切進(jìn)展順利,但大家依然緊繃著一根弦,不敢有絲毫的放松。油機(jī)11點(diǎn)50分左右,機(jī)房用電負(fù)荷已由發(fā)動(dòng)機(jī)帶載近兩小時(shí),演練小組對(duì)發(fā)動(dòng)機(jī)進(jìn)風(fēng)量、排風(fēng)量、冷卻水溫度、油壓、油箱儲(chǔ)油量等進(jìn)行了檢查,小張用熱成像儀檢查發(fā)現(xiàn)1#發(fā)電機(jī)風(fēng)機(jī)皮帶發(fā)熱,傳動(dòng)輪溫度達(dá)到130℃,相對(duì)其他機(jī)組溫度68℃高出近一倍,指揮中心決定手動(dòng)關(guān)閉1#發(fā)電機(jī)指令。考核在缺少一臺(tái)油機(jī)供電時(shí)的應(yīng)急處理(三缺一),為減輕發(fā)電機(jī)負(fù)荷,采取提高冷凍水溫度、降低精密空調(diào)風(fēng)速等措施,在可控范圍內(nèi)適當(dāng)提高機(jī)房溫度,從而減輕發(fā)電機(jī)運(yùn)行負(fù)荷。通過40分鐘的油機(jī)帶載運(yùn)行考驗(yàn),帶載油機(jī)運(yùn)行各項(xiàng)指標(biāo)正常,能夠滿足現(xiàn)時(shí)負(fù)荷需求。發(fā)電機(jī)帶載運(yùn)行演練12點(diǎn)30分,油機(jī)已帶載運(yùn)行兩個(gè)多小時(shí),各子系統(tǒng)檢查并反饋指揮中心設(shè)備運(yùn)行正常。市電恢復(fù)12點(diǎn)32分左右,指揮中心Peter依次發(fā)出恢復(fù)4#、3#、2#變壓器供電指令,ATS正常切換為市電供電,UPS運(yùn)行正常,樓層IT負(fù)載供電不受影響。在1#變壓器恢復(fù)市電供電前,為減少對(duì)1#冷水主機(jī)的沖擊(由于發(fā)電機(jī)切換到市電的時(shí)間很短,容易造成沖擊,從而造成斷路器開關(guān)跳閘保護(hù),目前發(fā)現(xiàn)造成影響的有冷凍水泵及冷水主機(jī)),Tom選擇在BA系統(tǒng)上手動(dòng)關(guān)閉1#冷水主機(jī)。待1#主機(jī)停止運(yùn)行后,指揮中心下達(dá)恢復(fù)1#變壓器供電指令,ATS正常切換為市電供電,BA系統(tǒng)上重新開啟冷水機(jī)組。冷水機(jī)組巡查演練12點(diǎn)45分,所有系統(tǒng)恢復(fù)正常運(yùn)行,Peter在指揮中心宣布模擬市電停電油機(jī)帶載演練圓滿結(jié)束,然后做了一個(gè)OK的手勢(shì),見狀Tom放松了緊繃一上午的身體,心想:雖然有些小插曲,好在準(zhǔn)備充分,總體還算順利。午飯后,按照演練計(jì)劃,又開始了消防聯(lián)動(dòng)測(cè)試的準(zhǔn)備工作,目的在于檢測(cè)火災(zāi)自動(dòng)報(bào)警系統(tǒng)和消防聯(lián)動(dòng)功能。13點(diǎn)50分,消防聯(lián)動(dòng)測(cè)試開始,一是檢測(cè)火災(zāi)自動(dòng)報(bào)警系統(tǒng)(試),二是檢測(cè)消防聯(lián)動(dòng)功能。Peter選擇在四樓機(jī)房做消防測(cè)試,首先進(jìn)行煙感測(cè)試,在機(jī)房?jī)?nèi)選一個(gè)煙感探測(cè)器,對(duì)其進(jìn)行吹煙,直到煙感信號(hào)燈由閃爍變?yōu)槌A?,停止吹信?hào)燈動(dòng)作,發(fā)出聲響,同時(shí)1樓監(jiān)控中心消防主機(jī)接收到報(bào)警信號(hào),發(fā)出聲響,消防圖文顯示器彈出報(bào)警位置?;饐?dòng)倒計(jì)時(shí)30秒(消防聯(lián)動(dòng)動(dòng)作必須滿足有煙感和溫感兩個(gè)動(dòng)作信號(hào)),同時(shí)1樓監(jiān)控中心消防主機(jī)接收到報(bào)警信號(hào),消防圖文顯示器彈出報(bào)警位置,30作啟動(dòng),自動(dòng)切斷樓層內(nèi)走道照明電源及機(jī)房?jī)?nèi)部分照明(部分照明由機(jī)房UPS直接供電),自動(dòng)切斷樓層精密空調(diào)和UPS前端輸入電源,樓層UPS轉(zhuǎn)由電池供電,電池處于放電工作狀態(tài),IT負(fù)載供電運(yùn)行正常,樓層精密空調(diào)停止運(yùn)行。與此同時(shí),消防排煙風(fēng)機(jī)、應(yīng)急照明自動(dòng)啟動(dòng)。接下來,Peter又出了幾道題,讓演練小組模擬了多種故障:的電源也無法恢復(fù)的演練。當(dāng)機(jī)房發(fā)生火災(zāi)時(shí),檢驗(yàn)值班人員消防應(yīng)急組織、應(yīng)急對(duì)應(yīng)火災(zāi)的能力。當(dāng)發(fā)生火情時(shí),檢驗(yàn)運(yùn)維人員疏散自救、火場(chǎng)組織、協(xié)調(diào)指揮能力等。臨近下班,全部演練結(jié)束,基本按照預(yù)期的目標(biāo)順利完成。Peter緊皺的眉頭終于舒展開來。通過這次實(shí)戰(zhàn)演練,不僅有效檢驗(yàn)了機(jī)房供配電系統(tǒng)、消防系統(tǒng)、動(dòng)力環(huán)境監(jiān)測(cè)系統(tǒng)等基礎(chǔ)設(shè)施的運(yùn)行狀況,同時(shí)也鍛煉了隊(duì)伍的應(yīng)急響應(yīng)速度,提高了突發(fā)事件下的應(yīng)急處置操作程序熟練度,提升了整體應(yīng)急響應(yīng)與處置能力,也證明Tom的團(tuán)隊(duì)已經(jīng)初步通過考驗(yàn)。最后,Peter帶著Tom和演練小組送別前來參觀的領(lǐng)導(dǎo)和相關(guān)部門的同事,領(lǐng)導(dǎo)拍拍Tom的肩膀,看著Peter說:“這次演練效果總體不錯(cuò)啊。不過,看得出來,你們事先出好了題目,也做了很多事先應(yīng)對(duì)的準(zhǔn)備。這就意味著你們給自己留了比較充分的應(yīng)對(duì)時(shí)間。下一個(gè)更大的挑戰(zhàn),是在沒有事先準(zhǔn)備的時(shí)候,看看你們的應(yīng)急應(yīng)對(duì)效果會(huì)是怎樣的。大部分事件都發(fā)生在我們沒有充分準(zhǔn)備的時(shí)候,如果沒有事先全體的準(zhǔn)備,在很短的處理時(shí)間內(nèi)、很大的現(xiàn)場(chǎng)壓力下,我們的值守團(tuán)隊(duì)還能應(yīng)對(duì)自如,那才是最高境界。”華為東莞數(shù)據(jù)中心Chapter5 運(yùn)維安全安全事件每天上班,看著自己親手打造、日趨完善的數(shù)據(jù)中心,Peter好像回到那些意氣風(fēng)發(fā)的年輕歲月,整個(gè)人都煥發(fā)著光彩。這樣的Peter使得他身邊的Tom等人也受到了感染,干勁十足。這天上午,分配完當(dāng)天的工作后,Peter和Tom一邊討論著后期的工作安排,一邊來到了機(jī)房?jī)?nèi)。就在這時(shí),一聲突兀的爆炸聲從機(jī)房空調(diào)間里傳了出來。Tom下意識(shí)地發(fā)足狂奔,那一刻,他唯一的希望就是千萬不要有人受傷。也許是Tom的祈禱起了作用,現(xiàn)場(chǎng)人員安然無恙。事件發(fā)生在一個(gè)未帶IT負(fù)載的模塊,運(yùn)維人員做相序測(cè)試,但因檢查不到人在配電柜面前,躲開了強(qiáng)烈的閃弧火球。遭遇驚魂一刻的現(xiàn)場(chǎng)人員被嚇壞了,極力鎮(zhèn)靜,還是不由自主地牙顫唇抖,只能斷斷續(xù)續(xù)地?cái)⑹鍪鹿式?jīng)過。Peter聽著現(xiàn)場(chǎng)人員的匯報(bào),雖然表面上一臉的鎮(zhèn)定無事,其實(shí)心里一點(diǎn)也不淡定:內(nèi)心如潮,脊背冰寒,眼前不停閃現(xiàn)著某個(gè)員工被火球擊中的畫面,這一后果無論是他,還是剛成長(zhǎng)起來的數(shù)據(jù)中心都無法承受。回到辦公室,Peter將整個(gè)身體沉入辦公椅后陷入了沉思,他開始意識(shí)到,自己對(duì)運(yùn)維人員安全方面的重視還不夠。Peter不禁聯(lián)想起摩根士丹利的一個(gè)真實(shí)案例。摩根士丹利在英國的西思羅有一個(gè)數(shù)據(jù)中心,一直外包給了諾蘭管理服務(wù)有限公司進(jìn)行運(yùn)行和維護(hù)。但由于建造的時(shí)間比較早,只有一路市電供電,可靠性略顯不足。為此,摩根士丹利于2010年決定投資數(shù)百萬英鎊來對(duì)這個(gè)數(shù)據(jù)中心的基礎(chǔ)設(shè)施進(jìn)行升級(jí)改造,包括新建一個(gè)變電站、安裝一些新的配電柜和靜態(tài)切換開關(guān)。經(jīng)過投標(biāo),巴爾弗·貝蒂工程服務(wù)有限公司獲得了這份合同。同時(shí),又將電氣安裝的工作外包給了綜合布線服務(wù)有限公司。路來自新安裝的變電站,以提供更高的可用性。摩根士丹利為了保證達(dá)到升級(jí)改造的結(jié)常運(yùn)行。第一臺(tái)靜態(tài)切換開關(guān)進(jìn)行了成功的改造、測(cè)試并接入了現(xiàn)有的基礎(chǔ)設(shè)施。然而,來自綜合布線服務(wù)有限公司的電纜連接工馬丁·沃爾頓的前額觸到了第二臺(tái)靜態(tài)切換開關(guān)上415V的帶電端子,造成了這名27歲的小伙子當(dāng)場(chǎng)死亡。經(jīng)過五年的法庭調(diào)查和訴訟,英國法庭對(duì)這起案件做出了最終的裁定:巴爾弗·貝蒂公司承認(rèn)違反了英國1974年的《健康和安全工作法》,被罰款28萬英鎊,諾蘭公司違反了《健康和安全工作法》而被罰款10萬英鎊。法院裁定,管理失誤導(dǎo)致雇員在不知情的情況下在緊鄰帶電的系統(tǒng)處工作,釀成事故。巴爾弗·貝蒂公司則指責(zé)客戶施加壓力來完成該項(xiàng)目是這起事故的原因。但英國健康和安全執(zhí)行局認(rèn)為:“這起事故是由于溝通和管理失誤所帶來的。現(xiàn)有的電源是在諾蘭公司的控制下,而新的電源是在巴爾弗·貝蒂工程服務(wù)有限公司的控制之下。雖然巴爾弗·貝蒂公司聲稱受到了工作困難和要求苛刻的客戶的壓力,但不能原諒他們的是忽略了對(duì)風(fēng)險(xiǎn)的有效控制。諾蘭公司為馬丁·沃爾頓發(fā)放了從現(xiàn)有的電源重新布線到新安裝的靜態(tài)切換開關(guān)的工作許可,在參與工作的所有人中,沒有一個(gè)人準(zhǔn)確、全面地了解正在開展的工作,其結(jié)果是,馬丁·沃爾頓和其他人毫不知情地在裸露的帶電電氣端子附近工作。這一破壞性的影響,本來是完全可以預(yù)防的?!卑踩庾R(shí)Peter把這個(gè)案例轉(zhuǎn)發(fā)給Tom,他在郵件中寫道:“任何員工發(fā)生安全事故,他將來的生活和人生就可能發(fā)生根本性的改變,也是我們天津港發(fā)生的安全事件,以及北京某學(xué)校建筑工地多人傷亡事件對(duì)于我們都是深刻的教訓(xùn)。相當(dāng)嚴(yán)重。之前,我自己對(duì)安全這方面也沒有足夠的重視,原來我們做IT的管理,幾乎完全不用考慮人身安全的事情?,F(xiàn)在我充分意識(shí)到設(shè)施運(yùn)維與IT運(yùn)維非常不同的一條,就是我們必須學(xué)會(huì)面對(duì)這些高電壓的機(jī)電設(shè)備,要把人身安全意識(shí)提升一個(gè)高度。識(shí),提高自我防范意識(shí),遵從安全的最佳實(shí)踐,確保人身和設(shè)施設(shè)備的安全:編制一份正式的數(shù)據(jù)中心工作場(chǎng)所安全計(jì)劃。配備安全防護(hù)裝備和個(gè)人防護(hù)裝備。電氣是數(shù)據(jù)中心最易發(fā)生安全隱患的系統(tǒng),必須給予足夠的重視和強(qiáng)調(diào)。對(duì)現(xiàn)場(chǎng)的所有安全危害進(jìn)行識(shí)別和分析。建立安全危害溝通的流程。了天津港的危險(xiǎn)品爆炸事件以后。嚴(yán)格遵守國家、行業(yè)和地方發(fā)布的有關(guān)安全的法律、法規(guī)、標(biāo)準(zhǔn)?!笔盏絇eter的郵件,Tom不敢怠慢,馬上回復(fù)?!班耍琍eter:昨天上午發(fā)生的事故以及這個(gè)案例,都可以說是教訓(xùn)慘痛。理論上來說,任何事故都是可以預(yù)防的。按照海因里希法則,發(fā)生1次重大的事故前,有29次輕微的事故,有300起隱患或者違規(guī),只要識(shí)別并消除了所有的安全隱患和違規(guī)行為,就可以預(yù)防事故的發(fā)生。關(guān)于加強(qiáng)安全措施,我們將盡快落實(shí)以下工作:嚴(yán)格遵守標(biāo)準(zhǔn)化的安全操作規(guī)程,提高工作人員的安全意識(shí)。理和監(jiān)督,包括安全方面。報(bào)給大家,以便吸取教訓(xùn),不再犯同樣的錯(cuò)誤。并采取必要的預(yù)防措施。時(shí)進(jìn)行穿戴,如護(hù)目鏡、安全帽等。識(shí)牌、鑰匙箱等。BestRegards!Tom”安全實(shí)踐假期后上班的第一天,Tom一大早興致勃勃地來到了Peter的辦公室。他要給領(lǐng)導(dǎo)匯報(bào)一下他這段時(shí)間加班的成績(jī):數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)行和維護(hù)的安全體系。這套安全體系主要針對(duì)人身安全,共分為如下七大部分。數(shù)據(jù)中心工作場(chǎng)所安全計(jì)劃通過設(shè)定數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維的安全方針來明確安全管理的方向;確立組織的安全原則、安全責(zé)任和組織架構(gòu);建立嚴(yán)格的安全生產(chǎn)的規(guī)范和流程、安全作業(yè)的最佳實(shí)踐、安全培訓(xùn)等,確保所有員工都受到針對(duì)其工作崗位所需要的合適的安全程序的培訓(xùn);所有和工作相關(guān)的傷害和疾病都得到準(zhǔn)確的報(bào)告;在安全和無危險(xiǎn)的情況下對(duì)他們責(zé)任范圍內(nèi)的設(shè)備和資產(chǎn)進(jìn)行維護(hù);一旦觀察到不安全的做法或者情況,立即進(jìn)行糾正,并報(bào)告給管理層。個(gè)人防護(hù)裝備設(shè)施管理團(tuán)隊(duì)?wèi)?yīng)該確定存在哪些需要使用個(gè)人防護(hù)裝備的危害,并為所有員工采買合身的、適當(dāng)?shù)膫€(gè)人防護(hù)裝備,同時(shí)教授員工正確使用這些個(gè)人防護(hù)裝備。日常運(yùn)維工具所有個(gè)人防護(hù)裝備都應(yīng)該正確地保存在容易取用的地方并得到正確的維護(hù)。個(gè)人防護(hù)裝備還應(yīng)該按照相關(guān)規(guī)定和裝備制造廠商的建議進(jìn)行測(cè)試和更換。電氣安全設(shè)施管理團(tuán)隊(duì)?wèi)?yīng)該創(chuàng)建一份電氣安全計(jì)劃,以最小化所有在設(shè)施中工作的人員暴露在電氣傷害中的風(fēng)險(xiǎn),并確保符合適用于現(xiàn)場(chǎng)電氣系統(tǒng)的相關(guān)法規(guī)的要求。除非停電帶來的危險(xiǎn)更嚴(yán)重或無法實(shí)現(xiàn),否則,要求所有在電氣設(shè)備上開展的工作都應(yīng)該在斷電的情況下進(jìn)行。電氣安全計(jì)劃中應(yīng)該包含有關(guān)的條款來確保所有的電氣工作都是由有資質(zhì)的員工來實(shí)施。應(yīng)該為這些有資質(zhì)的員工提供相應(yīng)的安全工作程序、個(gè)人防護(hù)裝備和諸如上鎖掛牌裝置等其他的控制手段,并接受對(duì)以上程序、裝備和手段的培訓(xùn)。危害分析所有操作程序應(yīng)該包含一份正式的危害分析,記錄在每份程序中。這份危害分析應(yīng)該識(shí)別所有的作業(yè)安全風(fēng)險(xiǎn),并應(yīng)該針對(duì)每一個(gè)安全風(fēng)險(xiǎn)確定相應(yīng)的安全措施,來達(dá)到一個(gè)可以接受的風(fēng)險(xiǎn)等級(jí),以便執(zhí)行該程序。危害溝通該計(jì)劃應(yīng)該應(yīng)用到在正?;蚓o急情況下,員工可能接觸到有害物質(zhì)的所有作業(yè)操作。該計(jì)劃應(yīng)該包括以下要件:場(chǎng)地有害化學(xué)品清單;安全數(shù)據(jù)表的使用;所有有害物質(zhì)容器的正確標(biāo)識(shí)。對(duì)員工就其工作中所接觸的化學(xué)品的危害性質(zhì)、安全處理程序、不受到這些化學(xué)品傷害的自我保護(hù)措施進(jìn)行培訓(xùn)。危險(xiǎn)品所有危險(xiǎn)品(如爆炸物、可燃物、有毒物品、放射性物質(zhì)、腐蝕性或氧化物質(zhì))應(yīng)該按照生產(chǎn)廠商的建議和適用的法律和條例進(jìn)行正確識(shí)別、標(biāo)識(shí)、存儲(chǔ)、維護(hù)、使用、運(yùn)輸和處理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論