




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
目錄 1、安全設(shè)計原則052、安全風(fēng)險識別和檢測071、卓越運營設(shè)計原則454、運營階段55 穩(wěn)定性穩(wěn)定性成本優(yōu)化成本優(yōu)化運營模型識別企業(yè)內(nèi)部、外部的安全要求和監(jiān)管訴求,在云環(huán)境中針對網(wǎng)絡(luò)安全、身份安全、主機安全、數(shù)據(jù)安全等全方位地進(jìn)行規(guī)劃和實施,同時持續(xù)對威脅進(jìn)行檢測和快速響應(yīng)。穩(wěn)定性無論在何種環(huán)境都無法避免單個組件故障的發(fā)生。穩(wěn)定性的目標(biāo)就是要盡量降低單個組件故障對業(yè)務(wù)帶來的整體影響。該支柱側(cè)重于如何讓業(yè)務(wù)系統(tǒng)利用現(xiàn)代云平臺的基礎(chǔ)設(shè)施達(dá)到高可用,做到面向失敗設(shè)計,具備一定容災(zāi)性的能力。同時把控應(yīng)用系統(tǒng)的變更流程、部署架構(gòu)、配置規(guī)范等,制定企業(yè)應(yīng)用治理規(guī)范,設(shè)定應(yīng)用層面的治理通過技術(shù)手段了解云資源的成本分布,幫助企業(yè)平衡業(yè)務(wù)目標(biāo)與云上成本,通過充分高效使用云服務(wù)來構(gòu)建業(yè)務(wù)應(yīng)用,盡可能提升云環(huán)境和業(yè)務(wù)需求之間的契合度,通過持續(xù)優(yōu)化來避免資源浪費,減少不必要的云上開支并提升運營效率。卓越運營高效性能基于這五大支柱,卓越架構(gòu)提供相應(yīng)的設(shè)計原則和最佳實踐,以及可落地的方案。同時,卓越架構(gòu)還提供了免費的架構(gòu)評估工具和度量模型,來評估當(dāng)前架構(gòu)設(shè)計與期望值的差距,并提供相應(yīng)的改進(jìn)指引和方案。在設(shè)計和實施過程中,阿里云提供了專家服務(wù)和認(rèn)證的合作伙伴,協(xié)助架構(gòu)的演進(jìn)。阿里云卓越架構(gòu)框架面向的是首席技術(shù)官(CTO)、架構(gòu)師、運維、安全、研發(fā)等角色。通過了解卓越架構(gòu)中定義的最佳實踐和解決方案,組織中的這些職能角色能夠不斷的將應(yīng)用架構(gòu)和卓越架構(gòu)中的最佳實踐進(jìn)行比較,并不斷進(jìn)行架構(gòu)的迭代和改進(jìn),從而降低風(fēng)險、控制成本、提升效率,為業(yè)務(wù)的高速發(fā)展提供堅實的基礎(chǔ)。安全合規(guī)安全合規(guī)安全管理的目的是風(fēng)險管理,識別企業(yè)內(nèi)部、外部的安全要求和監(jiān)管訴求,在云環(huán)境中針對網(wǎng)絡(luò)安全、身份安全、主機安全、數(shù)據(jù)安全等全方位地進(jìn)行規(guī)劃和實施,同時持續(xù)對威脅進(jìn)行檢測和快速響應(yīng)。云安全的責(zé)任模型是共擔(dān)的責(zé)任模型,基于云的客戶應(yīng)用,云供應(yīng)商要保障云平臺自身安全并提供相應(yīng)的安全能力和產(chǎn)品給云上的客戶??蛻魟t負(fù)責(zé)基于云供應(yīng)商提供的服務(wù)或原子化能力構(gòu)建保障應(yīng)用系統(tǒng)或業(yè)務(wù)的安全體系。用戶業(yè)務(wù)安全用戶應(yīng)用安全用戶數(shù)據(jù)安全用戶基礎(chǔ)安全云產(chǎn)品安全虛擬化安全硬件安全物理安全阿里云云盾安全服務(wù)&云安全生態(tài)阿里云平臺側(cè)安全能力用戶賬戶安全云平臺內(nèi)部身份與訪問控制云平臺安全監(jiān)控和運營用戶安全監(jiān)控和運營安全需要設(shè)計和規(guī)劃,應(yīng)在構(gòu)建基于云或本地數(shù)據(jù)中心的的同時,建設(shè)安全系統(tǒng)和相關(guān)控制措施,建立配套安全管理流程和機制,建立安全意識管理體系等。將技術(shù)控制措施、管理流程、人員組織配套融入云基礎(chǔ)設(shè)施的構(gòu)建、業(yè)務(wù)開發(fā),應(yīng)用上線和日常運營當(dāng)中。和法律風(fēng)險 整體建議如下整體建議如下通用的安全設(shè)計原則有安全風(fēng)險識別和檢測包含以下4個維度,通過梳理企業(yè)客戶上云面臨的整體風(fēng)險,才能有針對性的對安全架構(gòu)進(jìn)行建議、檢測和建設(shè)。(PaaS服務(wù)、域名、鏡像等),面對資產(chǎn)的脆弱性(包含資產(chǎn)基線和資產(chǎn)漏洞)應(yīng)該進(jìn)行事前的風(fēng)險識別和檢 定的條件下訪問對應(yīng)的云資源。它涉及到識別用戶和身份(身份驗證),確定該身份可以訪問哪些資源(授權(quán)),以及審計相應(yīng)身份的訪問和操作記錄(監(jiān)控和審計)。身份是指在云環(huán)境中執(zhí)行操作的實體。云上主要有兩種身份類型:人員身份和程序身份。人員身份通常代表組織中的個人,比如企業(yè)中的安全管理員、運維管理員、應(yīng)用開發(fā)者。通常通過阿里云的控制臺、CLI、特定場景下的客戶端等方式對云上的資源進(jìn)行操作。在阿里云官網(wǎng)注冊阿里云賬號后,即可通過用戶名和密碼的方式登錄到阿里云控制臺,登錄成功后,即獲得了密碼泄漏,風(fēng)險極高。應(yīng)該盡可能的使用阿里云訪問控制RAM(ResourceAccessManagement)身份進(jìn)行云上資源的訪問。通過集中化的身份提供商(IdentityProvider,簡稱IdP)來進(jìn)行人員身份的統(tǒng)一認(rèn)證,能夠簡化人員身份的管理,確保組織內(nèi)在云上、云下的人員身份的一致性。阿里云支持基于SAML2.0協(xié)議的單點登錄(Sin-過云SSO或RAMSSO的方式跟組織內(nèi)的IdP實現(xiàn)人員身份的統(tǒng)一認(rèn)證。對于人員身份來說,保護好登錄憑證(如用戶名和密碼)能夠有效降低身份泄漏風(fēng)險。可以從以下幾種方式提升登錄方式的安全性:提升密碼強度、避免混用憑證、定期輪轉(zhuǎn)密碼、設(shè)置多因素驗證。 云上的權(quán)限管理是為了控制某個身份在什么條件下對哪些資源能夠執(zhí)行哪些操作。云上的權(quán)限管理的核心原則就是權(quán)限最小化,只給身份授予必要的權(quán)限,確保權(quán)限最小夠用?;谠撛瓌t,針對不同的身份類型,在阿里云上有以下最佳實踐可以參考。針對人員所屬職能(如管理員、運維、安全等)進(jìn)行權(quán)限劃分,并進(jìn)行權(quán)限的抽象,簡化授權(quán)過程,降低管理成本。在對職能權(quán)限進(jìn)行抽象后,可以通過將人員身份加入到指定職能用戶組的方式進(jìn)行組織,提升授權(quán)效率。在云上,建議通過阿里云賬號或資源組兩種方式,區(qū)分不同業(yè)務(wù)應(yīng)用的資源。在資源合理分類的基礎(chǔ)上,按照人員所管理的業(yè)務(wù)應(yīng)用對應(yīng)的資源范圍進(jìn)行授權(quán),能夠簡化授權(quán)邏輯,提高權(quán)限策略復(fù)用率,進(jìn)而在權(quán)限最小化和管理效率中取得平衡。針對程序身份,建議進(jìn)行精細(xì)化授權(quán)。除一些特定業(yè)務(wù)場景外,應(yīng)用程序所需要訪問的阿里云資源,對應(yīng)進(jìn)行的操作是可以預(yù)期的,盡可能的通過自定義權(quán)限策略來定義該程序身份所需要的最小權(quán)限。關(guān)注特權(quán)身份和閑置權(quán)限,確保每個身份的權(quán)限持續(xù)滿足最小夠用原則。多賬號場景下,通過管控策略,限制成員賬號內(nèi)的RAM身份權(quán)限范圍,禁用一些高危操作降低身份泄漏風(fēng)險。 網(wǎng)絡(luò)安全保護網(wǎng)絡(luò)安全防護中最重要的原則就是零信任。無論是云上和云下,還是VPC與VPC之間,以及VPC內(nèi)部的流量,都需要設(shè)計系統(tǒng)化的安全防護方案。相關(guān)的設(shè)計建議如下:云上的VPC默認(rèn)是互相隔離的。不同業(yè)務(wù)、不同環(huán)境、不同組件通過VPC進(jìn)行分區(qū),如數(shù)據(jù)庫往往不需要和公網(wǎng)通信,可以單獨放在一個無公網(wǎng)路由的VPC內(nèi)。防火墻進(jìn)行流量控制。不受信任的VPC之間,可以通過在南北向,使用云防火墻進(jìn)行流量控制。對于應(yīng)用暴露公網(wǎng)可訪問的端口,建議使用WAF、APIGateway等產(chǎn)品安全暴露服務(wù)。使用DDoS防護應(yīng)對未知的網(wǎng)絡(luò)攻擊。工作負(fù)載安全保護工作負(fù)載相關(guān)的安全保護主要是指計算資源的防護。根據(jù)工作負(fù)載部署的方式(如ECS、容器等),會有不同的防護方案,通用的最佳實踐如下:無論對于ECS,還是容器化的部署方式,都需要關(guān)注鏡像的安全,尤其是規(guī)模化的部署場景。建議通過自動化流水線的方式定期構(gòu)建黃金鏡像(Goldenlmage),過云安全中心進(jìn)行鏡像安全的掃描,確保應(yīng)用運行環(huán)境云上數(shù)據(jù)安全,是云用戶的生命線,也是云上架構(gòu)安全整體水位的一個最重要具象表現(xiàn)。數(shù)據(jù)安全應(yīng)從以下三個維度入手:數(shù)據(jù)分類和識別在數(shù)據(jù)創(chuàng)建的源頭就需要保障數(shù)據(jù)的識別和分類分級在第一時間能夠完成,這樣才能保證后續(xù)對云上數(shù)據(jù)的保護做到有的放矢。其中,第一步是對數(shù)據(jù)中的敏感信息,如個人驗證信息(PersonalIdentifiableInformation,PII),進(jìn)行發(fā)現(xiàn)和檢測。第二步是針對數(shù)據(jù)中的敏感信息,根據(jù)用戶的使用場景、合規(guī)需求和安全要求,對數(shù)據(jù)進(jìn)行分類分級。在阿里云上,可以通過數(shù)據(jù)安全中心DSC(DataSecurityCenter)產(chǎn)品實現(xiàn)對MaxCompute、RDS和OSS中的數(shù)據(jù)進(jìn)行識別和分類。靜態(tài)數(shù)據(jù)保護主要是指數(shù)據(jù)在存儲過程中的安全防護。建議從以下幾個方向?qū)嵤┓雷o:數(shù)據(jù)存儲安全主要是通過數(shù)據(jù)落盤加密來保障的。阿里云上已經(jīng)有不同的云產(chǎn)品提供了數(shù)據(jù)存儲加密功能,如塊存儲EBS、對象存儲OSS、RDS數(shù)據(jù)庫等。對于有明確的更強加密訴求(如自選密鑰、密鑰輪轉(zhuǎn)等)的用戶,可以基于阿里云密鑰管理服務(wù)KMS(KeyManagementSer-vice)實現(xiàn)密鑰的管理,并用于數(shù)據(jù)存儲加密。遵循最小化原則為相應(yīng)身份設(shè)置合適的權(quán)限。對人員身份來說,建議盡可能避免直接接觸數(shù)據(jù)。對于程序身份來說,則采用精細(xì)化授權(quán)的方式來進(jìn)行合理的訪問授權(quán),確保明確定義需要訪問的數(shù)據(jù)范圍、所需要的操作以及對應(yīng)的權(quán)限生效條件。對于一些特定的存儲場景,如OSS,還可以進(jìn)行BucketPolicy的設(shè)置,進(jìn)行更精細(xì)化的管控。 動態(tài)數(shù)據(jù)保護 對于云上企業(yè)來說,建議通過資源目錄構(gòu)建多賬號體系,將日志存儲在單獨的云賬號中進(jìn)行歸檔,該云賬號不用于日常的其他操作,只用于日志存儲。同時僅給必要的人(如安全團隊、審計團隊)授予該賬號的訪問權(quán)限,嚴(yán)格控制各類身份對于該日志的權(quán)限,尤其關(guān)注寫、刪類型的權(quán)限。對于存儲在OSS中的日志,可以開啟合規(guī)保留策略,實現(xiàn)“不可刪除、不可篡改”方式保存和使用數(shù)據(jù)。在日志收集的基礎(chǔ)上,接下來需要系統(tǒng)化的構(gòu)建日志分析能力,并構(gòu)建相應(yīng)的指標(biāo)和告警。最佳實踐是將安全事件的發(fā)現(xiàn)流程深度集成到工作流系統(tǒng)中,如工單系統(tǒng)或缺陷系統(tǒng),或者是安全信息與事件系統(tǒng)(SIEM)。在云上,通過SLS可以將存儲的事件日志通過HTTPS或Syslog等方式投遞到SIEM或第三方的日志分析系統(tǒng)中。接下來根據(jù)事件類型、等級進(jìn)行進(jìn)一步的響為了降低安全事件發(fā)生后對業(yè)務(wù)造成的影響,企業(yè)應(yīng)該盡早構(gòu)建安全應(yīng)急和響應(yīng)流程??梢詤⒖紭I(yè)界中已有的標(biāo)準(zhǔn)和建議,如NISTSP800-61等,結(jié)合阿里云上相關(guān)的云產(chǎn)品,進(jìn)行流程的設(shè)計與驗證。有以下最佳實踐建議: 專業(yè)的7X24遠(yuǎn)程緊急響應(yīng)處理服務(wù),幫助云上用戶快速響應(yīng)和處理信息安系統(tǒng)架構(gòu)持續(xù)迭代升級,系統(tǒng)的復(fù)雜度隨之增加,面對更多的非預(yù)期事件風(fēng) +2.2面向精細(xì)的運維管控原則2.3面向風(fēng)險的應(yīng)急快恢原則 面向精細(xì)化的運維管控面向精細(xì)化的運維管控演練驗證面向失敗的架構(gòu)設(shè)計面向風(fēng)險的應(yīng)急快恢3.1架構(gòu)設(shè)計原則◆容災(zāi)◆容錯容量在企業(yè)的運維管理與運行過程中,就會有變更產(chǎn)生。變更是指添加、修改或刪除任何可能對服務(wù)產(chǎn)生直接或間接影響的內(nèi)容。當(dāng)變更失敗時可能會帶來嚴(yán)重后果:業(yè)務(wù)中斷、客戶輿情等等一系列問題。為了降低變更帶來的業(yè)務(wù)風(fēng)險,需要遵循變更設(shè)計原則:可灰度、可監(jiān)控、可回滾。 可觀測云上實踐3.3應(yīng)急響應(yīng)機制應(yīng)急響應(yīng)機制的關(guān)鍵點在于事件發(fā)生后,有標(biāo)準(zhǔn)的操作流程和動作。阿里巴巴在過去十幾年的安全生產(chǎn)過程中,沉淀了一套故障應(yīng)急響應(yīng)機制,簡稱應(yīng)急響應(yīng)1-5-10。是指在1分鐘內(nèi)發(fā)現(xiàn)故障,5分鐘內(nèi)組織相關(guān)人員進(jìn)行初步排查,10分鐘內(nèi)開展故障恢復(fù)和處理工作。企業(yè)在設(shè)計應(yīng)急響應(yīng)機制時,可以參考該方式明確響應(yīng)期間的標(biāo)準(zhǔn)動作和流程,確保在事件發(fā)生時,相關(guān)干系人都能夠明確自身職責(zé)和所需要采取的措施。 故障發(fā)現(xiàn)故障響應(yīng)在故障發(fā)生時,系統(tǒng)會自動產(chǎn)生告警信息。為了更好地定位故障原因,需要對各種告警信息進(jìn)行關(guān)聯(lián)分析。這樣可以快速確定故障的范圍和影響,并且能夠幫助排查故障的根本原因。告警關(guān)聯(lián)分析可以使用各種工具和算法,如事件關(guān)聯(lián)分析、機器學(xué)習(xí)等。知識圖譜是指通過將各種數(shù)據(jù)和知識進(jìn)行關(guān)聯(lián)和組織,建立一種知識庫或知識圖譜,以便在故障發(fā)生時快速定位和解決問題。在應(yīng)急響應(yīng)中,知識圖譜可以指導(dǎo)故障排查和處理工作,提高效率和準(zhǔn)確性。知識圖譜可以使用各種工具和技術(shù),如自然語言處理、圖數(shù)據(jù)庫等。定位故障原因后,按照應(yīng)急預(yù)案快速恢復(fù)業(yè)務(wù),并在事后進(jìn)行復(fù)盤總結(jié)。故障自愈在故障響應(yīng)的過程中,需要按照事先制定的應(yīng)急預(yù)案進(jìn)行執(zhí)行。應(yīng)急預(yù)案包括了應(yīng)急響應(yīng)流程、各個崗位的職責(zé)、處理流程等。預(yù)案執(zhí)行能夠保證故障恢復(fù)和處理的規(guī)范化和標(biāo)準(zhǔn)化。故障自愈是指系統(tǒng)自動檢測到故障并采取自動恢復(fù)措施。故障自愈技術(shù)可以幫助故障恢復(fù)和處理更加快速和準(zhǔn)確。例如,利用容器技術(shù),系統(tǒng)可以自動遷移容器來解決故障。故障復(fù)盤是指對故障進(jìn)行分析和總結(jié),以便更好地避免故障的再次發(fā)生。在故障復(fù)盤過程中,需要對故障的起因、影響、處理過程等進(jìn)行詳細(xì)的記錄和分析,并制定相關(guān)的措施。故障復(fù)盤也是一種學(xué)習(xí)和提高的過程,能夠不斷完善系統(tǒng)和提高團隊的應(yīng)急響應(yīng)能力。 3.4演練常態(tài)化故障演練提供了一種端到端的測試?yán)砟钆c工具框架,本質(zhì)是通過主動引入故障來充分驗證軟件質(zhì)量的脆弱性。從提前發(fā)現(xiàn)系統(tǒng)風(fēng)險、提升測試質(zhì)量、完善風(fēng)險預(yù)案、加強監(jiān)控告警、提升故障應(yīng)急效率等方面做到故障發(fā)生前有效預(yù)防,故障發(fā)生時及時應(yīng)對,故障恢復(fù)后回歸驗證。基于故障本身打造分布式系統(tǒng)韌性,持續(xù)提升軟件質(zhì)量,增強團隊對軟件生產(chǎn)運行的信心。故障演練可分為方案驗證的容災(zāi)演練、穩(wěn)定性驗收的紅藍(lán)攻防,以及故障應(yīng)急驗證的突襲演練。突襲演練是一種手段以及目標(biāo)對紅軍不透明的組織形式。通過突襲演練可以全面檢驗技術(shù)團隊在面對突發(fā)故障時的應(yīng)急和恢復(fù)能力,提升人員的安全意識。在突襲演練中,紅藍(lán)雙方是純對抗的關(guān)系,因此對紅藍(lán)雙方提出了更高的要求,藍(lán)軍不僅需要了解目標(biāo)系統(tǒng)的薄弱點,更需要了解目標(biāo)系統(tǒng)的業(yè)務(wù),紅軍不僅僅需要修復(fù)故障,還需要快速的發(fā)現(xiàn)故障和有效的應(yīng)急協(xié)同。相比較計劃演練,突襲演練涉及到的人員,場景,流程也會更加復(fù)雜,同時不但確保演練計劃的私密性,還需要充分評估在紅軍未及時處理故障時的影響面控制。成本優(yōu)化成本優(yōu)化成本優(yōu)化支柱提供了云上成本管理及優(yōu)化的設(shè)計原則和最佳實踐,幫助企業(yè)高效地使用云服務(wù)來構(gòu)建業(yè)務(wù)應(yīng)用,減少不必要的開支并提升運營效率,讓企業(yè)在云上更具經(jīng)濟效益。在成本優(yōu)化過程中需要遵循一些重要的優(yōu)化原則,這些原則能夠幫助企業(yè)提升成本管理效率,更好地達(dá)成優(yōu)化目標(biāo)。企業(yè)內(nèi)部需要貫徹成本文化、建立成本責(zé)任制,由相關(guān)團隊協(xié)作共同參與財務(wù)規(guī)劃管理,在云上規(guī)劃實施與組織架構(gòu)相匹配的賬號架構(gòu)及財務(wù)管理模式。設(shè)定業(yè)務(wù)目標(biāo)及云成本預(yù)算,通過衡量投入產(chǎn)出比(ROI)推動云上成本持續(xù)優(yōu)化。全面了解業(yè)務(wù)目標(biāo)及需求,除基礎(chǔ)業(yè)務(wù)目標(biāo)外還應(yīng)包含工作負(fù)載在穩(wěn)定性、性能、安全合規(guī)等方面的要求,根據(jù)業(yè)務(wù)需求選擇適合企業(yè)的云產(chǎn)品及資源規(guī)格,結(jié)合業(yè)務(wù)特性及資源利用情況選擇計費方式。針對業(yè)務(wù)特性,為穩(wěn)定的應(yīng)用負(fù)載預(yù)留資源,為動態(tài)負(fù)載引入彈性伸縮機制,通過動態(tài)供應(yīng)資源在滿足業(yè)務(wù)目標(biāo)的同時節(jié)約成本。成本管理及優(yōu)化是一個反復(fù)迭代和持續(xù)運營的過程,需要在預(yù)算目標(biāo)達(dá)成、成本構(gòu)成、資源利用率等方面持續(xù)進(jìn)行監(jiān)控分析,在企業(yè)內(nèi)建立定期檢查及治理流程,發(fā)現(xiàn)問題并持續(xù)優(yōu)化。 2.1云上成本管理框架制定數(shù)據(jù)驅(qū)動的支出決策,使組織能夠獲得最大的業(yè)務(wù)價值”。監(jiān)控分析◆云上成本管理貫穿上云用云全生命周期 人員、工具和機制是云上成本管理的關(guān)鍵要素2.2用云計劃階段◆用云成本需求分析●業(yè)務(wù)連續(xù)性和穩(wěn)定性●成本優(yōu)化目標(biāo)●技術(shù)團隊管理安全性●自動化和標(biāo)準(zhǔn)化組織規(guī)劃◆財務(wù)規(guī)劃 ●根據(jù)業(yè)務(wù)特點對資源計費方式進(jìn)行選型,例如能夠預(yù)估資源使用量時可以選擇預(yù)付費、使用量波動較大時考慮按量付費等,實現(xiàn)云上成本更優(yōu)。阿里云為客戶提供按量計費、節(jié)省計劃、資源包等豐富的計費方式,兼顧成本與靈活性。資源規(guī)劃幫助在成本需求分析后管理需求和供應(yīng)資源。按照業(yè)務(wù)需求和成本需求進(jìn)行資源規(guī)劃,并在即時供應(yīng)和預(yù)置需求之間取得平衡。對資源進(jìn)行規(guī)劃建議主要考慮以企業(yè)可通過調(diào)研業(yè)務(wù)部門未來一段時間的業(yè)務(wù)規(guī)劃,梳理并列出適合業(yè)務(wù)并留有一定冗余量的資源規(guī)格和用產(chǎn)品和服務(wù)的成本可能因位置而異,阿里云支持獲取云產(chǎn)品區(qū)域和可用區(qū)列表。主要包括云上計算資源、存儲資源、流量資源規(guī)劃,例如阿里云云服務(wù)器ECS提供資源管家?guī)椭髽I(yè)進(jìn)行計算資阿里云提供配額中心集中管理云服務(wù)配額,通過配額中心可以查詢及提升云服務(wù)的配額限制;云服務(wù)器ECS提供配額權(quán)益,支持配額查看及提升。根據(jù)業(yè)務(wù)特性選擇合適的付費方式來優(yōu)化成本,阿里云提供按量付費、資源包、節(jié)省計劃和預(yù)留實例等計費方式滿足不同業(yè)務(wù)場景。良好的資源標(biāo)簽體系能夠幫助企業(yè)提升資源管理效率及成本分?jǐn)傂?。阿里云提供資源標(biāo)簽設(shè)計原則及預(yù)置標(biāo)簽產(chǎn)品能力,幫助企業(yè)更好地進(jìn)行標(biāo)簽規(guī)劃。2.3用云執(zhí)行階段財務(wù)管理 對資源進(jìn)行分層分組管理是管好資源及資源成本優(yōu)化的基礎(chǔ)。阿里云資源管理服務(wù)是一系列企業(yè)IT治理產(chǎn)品和服務(wù)的集合,主要包括資源目錄、資源組、資源共享和標(biāo)簽,幫助企業(yè)實現(xiàn)資源分層分組管理??梢允褂觅Y源目錄在云上構(gòu)建企業(yè)業(yè)務(wù)組織關(guān)系,使用資源組和標(biāo)簽分層管理云上資源,使用資源共享在企業(yè)成員之間共享云上資成本分?jǐn)倢⒃粕铣杀颈M量準(zhǔn)確地分?jǐn)偟綐I(yè)務(wù)是云上成本管理的關(guān)鍵環(huán)節(jié),是推進(jìn)云成本持續(xù)優(yōu)化的重要前提。將成本進(jìn)行分?jǐn)偛拍苈鋵嵆杀矩?zé)任制,定期對責(zé)任團隊所分?jǐn)偟某杀具M(jìn)行監(jiān)控分析,追蹤超支原因,讓責(zé)任團隊能夠主動、持續(xù)的優(yōu)化成本。建議基于成本標(biāo)簽實現(xiàn)企業(yè)內(nèi)各責(zé)任團隊自動化分賬,關(guān)鍵步驟包括:對資源標(biāo)簽體系進(jìn)行統(tǒng)一規(guī)劃。阿里云提供標(biāo)簽設(shè)計原則及預(yù)置標(biāo)簽產(chǎn)品能力,幫助企業(yè)進(jìn)行標(biāo)簽規(guī)劃設(shè)計。從費用歸屬視角設(shè)計財務(wù)單元目錄樹。阿里云用戶中心提供財務(wù)單元能力,支持多維度自動化資源費用歸屬。準(zhǔn)確的資源成本標(biāo)簽是標(biāo)簽分賬的基礎(chǔ),建議在創(chuàng)建資源時即進(jìn)行打標(biāo)。阿里云支持通過云產(chǎn)品控制臺、標(biāo)簽建議在財務(wù)單元中按標(biāo)簽設(shè)定自動分配規(guī)則,提升成本分?jǐn)傂?。對成本?biāo)簽進(jìn)行自動化審計,提升標(biāo)簽覆蓋度及準(zhǔn)確性。阿里云提供標(biāo)簽策略能力,企業(yè)可以通過限定資源上必須綁定的成本標(biāo)簽,對標(biāo)簽進(jìn)行自動檢測及修復(fù),提升標(biāo)簽管理效率。2.3監(jiān)控分析階段成本監(jiān)控有助于發(fā)現(xiàn)成本問題和成本優(yōu)化機會點,因此應(yīng)該通過各種監(jiān)控工具同時對成本數(shù)據(jù)和資源數(shù)據(jù)進(jìn)行有效監(jiān)控。通過預(yù)警的方式通知到相關(guān)的運維人員或財務(wù)人員,對發(fā)現(xiàn)的問題或優(yōu)化機會進(jìn)行跟蹤處理,避免預(yù)期外費用、優(yōu)化資源使用率,從而實現(xiàn)成本節(jié)約。建議從以下方面對成本進(jìn)行監(jiān)控預(yù)警:通過預(yù)算管理實現(xiàn)云上成本管理閉環(huán),提高云上成本精細(xì)化管理水平。對費用異常進(jìn)行自動化檢測,及時發(fā)現(xiàn)成本異常,更快地定位問題發(fā)生原因、解決問題。對可用額度進(jìn)行預(yù)警,避免因資金問題導(dǎo)致服務(wù)中斷。在云產(chǎn)品維度對高額消費進(jìn)行預(yù)警,及時發(fā)現(xiàn)異常消費、控制成本。對抵扣資源設(shè)置額度預(yù)警,避免發(fā)生抵扣資源不足的情況、推高資源成本。監(jiān)控云上云資源利用率,根據(jù)負(fù)載情況動態(tài)調(diào)整資源供應(yīng),充分高效使用云資源進(jìn)而節(jié)省成本。阿里云產(chǎn)品及服務(wù)能夠覆蓋上述監(jiān)控預(yù)警需求,例如阿里云用戶中心提供預(yù)算管理、費用異常檢測、資金可用額度預(yù)警、資源包額度預(yù)警等功能,阿里云云監(jiān)控(CloudMonitor)支持收集資源監(jiān)控指標(biāo),并可針對指標(biāo)設(shè)置警報。 通過成本分?jǐn)偒@得了有效分?jǐn)偟某杀緮?shù)據(jù),接下來可以采用成本可視化工具對成本進(jìn)行多維度分析,找到更多的成本問題或成本優(yōu)化機會。建議從以下方面實施成本可視對云上成本進(jìn)行多維度構(gòu)成分析,發(fā)現(xiàn)優(yōu)化機會。通過阿里云提供的成本分析功能,能夠幫助用戶從多維度查看資源成本趨勢及成本構(gòu)成。對預(yù)算執(zhí)行情況進(jìn)行分析,找出預(yù)實差距,推動責(zé)任團隊不斷優(yōu)化成本。通過阿里云預(yù)算管理能夠幫助企業(yè)查看預(yù)算與實際消費金額的對比情況,發(fā)現(xiàn)實際執(zhí)行與預(yù)算之間的差距。關(guān)注已經(jīng)購買的資源包、預(yù)留實例券等抵扣資源,可定期查看和分析其實例生效狀態(tài)、覆蓋率等,防止抵扣資源浪費或抵扣不足造成成本上升。阿里云提供抵扣資源使用率和覆蓋率分析報表,便于企業(yè)對抵扣資源的使用情況進(jìn)行分析。定期分析并預(yù)測成本,有助于做好預(yù)算管理和財務(wù)規(guī)劃。阿里云為客戶提供成本預(yù)測算法,并支持在預(yù)算管理和成本分析兩個場景中的預(yù)測。2.4成本優(yōu)化階段計費方式優(yōu)化阿里云提供豐富靈活的計費方式,滿足不同的業(yè)務(wù)場景需求,通過選擇合適的計費方式,在滿足安全、彈性的同時節(jié)約成本。計費方式優(yōu)化通常無需改變資源性能和數(shù)量,僅通過改變計費方式即可獲得更低折扣從而節(jié)省成本??紤]從以下方式進(jìn)行計費節(jié)省計劃是阿里云提供的一種折扣權(quán)益計劃,可抵扣按量付費實例的賬單,通過承諾使用時長幫助用戶節(jié)省成本。節(jié)省計劃適用于電商大促、熱點時間等泛互聯(lián)網(wǎng)共相對于按量付費ECS實例價格有一定的折扣,降低部分場景下使用ECS實例的成本。搶占式實例適用于無狀態(tài)的應(yīng)用場景,例如可彈性伸縮的Web站點服務(wù)、圖像渲染、大數(shù)據(jù)分析和大規(guī)模并行計算等。云數(shù)據(jù)傳輸(CloudDataTransfer,簡稱CDT)提供云上流量統(tǒng)一計費和出賬功能,提升對賬便捷性,支持用的越多越便宜的階梯計費模式。在能夠預(yù)估資源用量的情況下,通過購買預(yù)留實例券、存儲容量單位包、資源包等抵扣資源降低按量付費資源使用成本,抵扣資源實例的售賣單價會比按量付費的單價更低。 資源使用優(yōu)化從資源使用維度對資源的進(jìn)行優(yōu)化是實現(xiàn)成本優(yōu)化的有效手段。需要通過資源現(xiàn)狀評估、合理選擇及使用資源、對資源利用進(jìn)行監(jiān)控發(fā)現(xiàn)優(yōu)化機會,結(jié)合業(yè)務(wù)特性、性能、成本等綜合考慮后謹(jǐn)慎執(zhí)行。資源使用優(yōu)化建議遵循以下原則:通過工具輔助人工方式定期對云上整體資源進(jìn)行梳理、調(diào)整和更新,將資源可視化,指導(dǎo)資源優(yōu)化方向。建議通過對應(yīng)用進(jìn)行分類及成本建模,根據(jù)業(yè)務(wù)應(yīng)用的特點分類選擇適合的產(chǎn)品及規(guī)格。以計算資源為例,預(yù)先確定合適的機型選型以及應(yīng)用屬性配置,根據(jù)應(yīng)用的業(yè)務(wù)選擇合適的CPU/內(nèi)存比例,考慮吞吐量要求及是否需要增強型的機型規(guī)格。企業(yè)需要根據(jù)云資源需求詳細(xì)了解云產(chǎn)品使用最佳用法,設(shè)計符合業(yè)務(wù)場景的資源架構(gòu)并持續(xù)治理優(yōu)化。以存儲資源為例,按數(shù)據(jù)生命周期合理劃分存儲單元、對日志數(shù)據(jù)進(jìn)行加工分類、僅對必要的數(shù)設(shè)置索引等方式節(jié)約成本。為穩(wěn)定的應(yīng)用負(fù)載預(yù)留資源,為動態(tài)負(fù)載引入彈性伸縮機制。申請云資源時按照最小需要的原則進(jìn)行申請,跟隨業(yè)務(wù)發(fā)展、訪問量情況進(jìn)行彈性擴縮容??煽紤]使用阿里云彈性伸縮(AutoScaling)及容器服務(wù)ACKtes)等服務(wù),幫助應(yīng)用負(fù)載實現(xiàn)自動彈性伸縮,滿足業(yè)務(wù)目標(biāo)并優(yōu)化成本。為應(yīng)用負(fù)載配置資源利用率監(jiān)控,獲取資源使用水位分析報告和評估詳情,根據(jù)利用率情況對資源進(jìn)行擴縮容、升降配等方式節(jié)約成本??啥ㄆ谑褂迷票O(jiān)控資源水位分析工具對特定周期內(nèi)云資源的運行情況進(jìn)行匯總分析,為后續(xù)資源規(guī)劃及使用優(yōu)化提供參考依據(jù)。持續(xù)架構(gòu)優(yōu)化平衡目標(biāo)與成本快速構(gòu)建新業(yè)務(wù)、減少故障處理、對業(yè)務(wù)進(jìn)行持續(xù)觀測、提升業(yè)務(wù)系統(tǒng)穩(wěn)定卓越運營設(shè)計原則面對眾多的技術(shù)/工具選型,組織應(yīng)參考長期技術(shù)演進(jìn)路線、社區(qū)活躍程做好卓越運營,不僅需要開發(fā)/運維團隊參與進(jìn)來,更需要各個團隊(財 1.5做好工作流程制定設(shè)施代碼管理與本地倉庫之間的工作流,如代碼評審流程、代碼合并流程1.6做好生產(chǎn)環(huán)境的運營管理和運營是一個復(fù)雜的積累過程,并非一蹴而就,組織可以選擇覆蓋面廣、能快速提升效率的場景入手,通過不斷完善自動化做好生產(chǎn)環(huán)境的運系統(tǒng)需要收集和顯示有關(guān)運行狀況的指標(biāo),例如CPU使用率、內(nèi)存使用率、網(wǎng)絡(luò)流量等。監(jiān)控系統(tǒng)的指標(biāo)可以讓我們了解系統(tǒng)的健康狀況和性能情況,幫助我們在系統(tǒng)出現(xiàn)異常時快速發(fā)現(xiàn)問題。當(dāng)系統(tǒng)出現(xiàn)問題時,需要能夠追蹤系統(tǒng)中每個組件的行為和交互情況。通過在系統(tǒng)中實現(xiàn)分布式跟蹤,可以快速定位問題并進(jìn)行有效的故障排除。系統(tǒng)需要記錄關(guān)鍵事件和故障,以幫助診斷問題和解決故障。對于一個系統(tǒng)來說,日志是非常重要的。它可以記錄在系統(tǒng)中發(fā)生的一切,包括成功的操作、錯誤的操作、警告信息等等。因此,日志記錄是可觀測性設(shè)計中最基本的需求之一。通過將事件和錯誤信息記錄到日志文件或數(shù)據(jù)庫中,可以方便地進(jìn)行故障排除和問題診斷。為了更好地理解系統(tǒng)的運行狀況,需要將監(jiān)測指標(biāo)和跟蹤信息可視化展示??梢暬梢酝ㄟ^圖表、儀表盤等方式來實現(xiàn)。系統(tǒng)需要監(jiān)測安全事件和行為,例如未經(jīng)授權(quán)的訪問、惡意攻擊等。安全監(jiān)測可以通過實現(xiàn)安全日志記錄和實時警報來實現(xiàn)。阿里云提供了功能豐富的可觀測產(chǎn)品,包括對監(jiān)控指標(biāo)采集的Prometheus、云監(jiān)控等能夠定期收集指標(biāo),提供可視化的指標(biāo)報表。企業(yè)可以通過阿里云應(yīng)用實時監(jiān)控服務(wù)ARMS實現(xiàn)鏈路追蹤,通過阿里云Grafana服務(wù)配置統(tǒng)一監(jiān)控報表實現(xiàn)可視化。 2.2自動化方案設(shè)計在自動化方案設(shè)計過程中,需要先結(jié)合業(yè)務(wù)發(fā)展方向,定義清楚組織在當(dāng)前階段的自動化目標(biāo),再根據(jù)目標(biāo)選擇合適的自動化手段。2.3定義符合組織當(dāng)前階段的自動化目標(biāo)制訂自動化目標(biāo)需要符合以下三條原則:是指在組織云上業(yè)務(wù)自動化中,應(yīng)該首先從小的業(yè)務(wù)需求入手,逐步擴大自動化的范圍,靈活地組合各種自動化工具和技術(shù),達(dá)到最優(yōu)的自動化效果。這種方式可以幫助組織逐步掌握自動化的技術(shù)和方法,并且能夠通過逐步了解和抽象自身業(yè)務(wù)過程中錘煉業(yè)務(wù)與技術(shù)的平衡性,同時也可以最大化地提升業(yè)務(wù)效率和質(zhì)量。業(yè)務(wù)驅(qū)動是指在組織云上業(yè)務(wù)自動化中,應(yīng)該以業(yè)務(wù)為中心,通過逐步實現(xiàn)各項業(yè)務(wù)需求來驅(qū)動自動化。這種方式可以讓組織更好地理解自動化的價值和意義,同時也可以降低自動化實施的風(fēng)險和復(fù)雜度,逐步成型,最終實現(xiàn)業(yè)務(wù)的全面自動化。從業(yè)務(wù)依賴單一、ROI高的“小閉環(huán)”場景入手,并逐步組成由多個小場景組合而成的復(fù)雜鏈路來落地自動化,對組織來說是風(fēng)險低、可靠性強的解決辦法。場景整合是指在組織云上業(yè)務(wù)自動化中,應(yīng)該綜合考慮各種場景,通過智能化的方式提高自動化效率和質(zhì)量。這種方式可以將各種自動化工具和技術(shù)整合起來,實現(xiàn)更加智能化的自動化過程,提高自動化效率和質(zhì)量。同時,場景整合也可以幫助組織更好地識別自動化和人工操作的邊界,從而實現(xiàn)最優(yōu)的資源利用和效率提升。組織在做自動化技術(shù)選型過程中,應(yīng)從實際組織需求角度出發(fā),而不是管理者偏好出發(fā),選擇長期的、可持續(xù)的和符合組織發(fā)展的技術(shù)方案。建議遵循5符合3關(guān)注的原則:組織在選擇自動化手段時,可以參考上述原則對備選方案進(jìn)行評估,最終設(shè)計出最符合組織需求的自動化方案。服務(wù)構(gòu)建階段關(guān)注風(fēng)險及效率,在這個階段主要關(guān)注兩個層面:變更管理工作貫穿在整個云上環(huán)境各類系統(tǒng)生命周期,是ITIL管理中非常重要的一個流程環(huán)節(jié),和其他流程關(guān)系非常緊密,稍有不慎就容易導(dǎo)致故障。如何讓變更有章可循,是組織需要在這個階段重點考慮的問題。 與傳統(tǒng)IDC相比,云最大的變化就是基礎(chǔ)設(shè)施可以通過API編排,極大地提升了整個部署效率。在云上,建議優(yōu)先采用自動化手段來完成各層資源部署。變更管理是一種IT實踐。旨在在對關(guān)鍵系統(tǒng)和服務(wù)進(jìn)行操作的同時最大限度的減少服務(wù)中斷的風(fēng)險。變更管理是任何系統(tǒng)穩(wěn)定運行的重要環(huán)節(jié)之一。如果變更管理運行良好,可以讓業(yè)務(wù)團隊的工作方式更接近標(biāo)準(zhǔn)的行為準(zhǔn)則,提升變更操作的規(guī)范性,從而降低變更導(dǎo)致的故障數(shù)量,最終提升業(yè)務(wù)運行的穩(wěn)定性。變更管理流程是變更管理最佳實踐的第一步。該流程應(yīng)該包括變更發(fā)起、變更審批、變更實施和變更驗證等環(huán)節(jié)。在引入變更管理流程時,需要確保流程的透明度和可追溯性,以便在變更過程中及時發(fā)現(xiàn)和解決問題。標(biāo)準(zhǔn)的變更管理數(shù)據(jù)庫是變更管理最佳實踐的第二步。該流程應(yīng)該包括變更系統(tǒng)、變更等級、變更對象的分類、以及確定不同變更內(nèi)容的對應(yīng)標(biāo)準(zhǔn)審批流程。并及時保證數(shù)據(jù)的完整性與準(zhǔn)確性,保證變更發(fā)起時可以匹配到對應(yīng)的數(shù)據(jù)。變更數(shù)據(jù)持續(xù)運營是變更管理最佳實踐的第三步。該流程應(yīng)該包括變更結(jié)果數(shù)據(jù)統(tǒng)計、變更看板等。在看板內(nèi)可對數(shù)據(jù)進(jìn)行篩選分析,逐漸規(guī)范組織內(nèi)的變更流程與操作規(guī)范。從而讓業(yè)務(wù)更好的連續(xù)運行。3.2部署管理基礎(chǔ)設(shè)施自動化 通過OpenAPI和原生工具集成云服務(wù)●通過資源化方式集成云服務(wù)伙伴/客戶/集成商伙伴/客戶/集成商從伴/客戶/集成商CreateECSCLI伏伴/客戶/集成商伙伴/客戶/集成商RDK模式伙件/客戶/集成商伙伴/客戶/集成商SDK伙伴/客戶/集成商伙伴/客戶/集成商云控制API呂空空454 企業(yè)數(shù)字化轉(zhuǎn)型過程中,產(chǎn)研數(shù)字化已變成必選項。需要打通業(yè)務(wù)、產(chǎn)品、開發(fā)和運維的價值交付鏈路,保障業(yè)務(wù)發(fā)展和激發(fā)業(yè)務(wù)創(chuàng)新。隨著業(yè)務(wù)上云之后,研發(fā)模型也在往DevOps轉(zhuǎn)型。企業(yè)有必要落地一套研發(fā)工具鏈,統(tǒng)一數(shù)字化模型,共享底層數(shù)據(jù),連通協(xié)作和工程,重構(gòu)交付鏈路,提升交付的效率、質(zhì)量和有效性。提升團隊的持續(xù)交付能力規(guī)劃和探素有效的產(chǎn)品阿里云平臺提供云效(BizDevOps)提升應(yīng)用研發(fā)上線效率。能夠幫助云上客戶實現(xiàn)一站式應(yīng)用部署管理,事件是指任何可能中斷或降低服務(wù)質(zhì)量(或具有此類威脅)的計劃外事件。例如業(yè)務(wù)出現(xiàn)風(fēng)1.事件來源2.事件識別3.事件分派4.事件處理5.事4.2故障管理快速構(gòu)建新業(yè)務(wù)、減少故障處理、對業(yè)務(wù)進(jìn)行持續(xù)觀測、提升業(yè)務(wù)系統(tǒng)穩(wěn)定●根據(jù)業(yè)務(wù)性能目標(biāo)選擇合適的資源類型●通過性能壓測驗證架構(gòu)設(shè)計●設(shè)計可伸縮、可擴展的云架構(gòu)●對生產(chǎn)環(huán)境進(jìn)行性能監(jiān)控1.2評估合適的云服務(wù)阿里云產(chǎn)品主要特征業(yè)務(wù)場景運行于物理機之上、滿足VM層面系統(tǒng)設(shè)置需求、豐富的類型與規(guī)格服務(wù)器遷移、整體應(yīng)用環(huán)境、定制化鏡像Kubernetes版(ACK)彈性容器實例(ECI)運行于云服務(wù)器之上、輕量化、快速部署、可移植、可擴展微服務(wù)、混合云部署函數(shù)計算(FC)并發(fā)能力強、單個函數(shù)計算能力較弱且限制較多事件驅(qū)動的應(yīng)用 其次,需要考慮各計算方案涉及云產(chǎn)品的指標(biāo),如單臺服務(wù)器網(wǎng)絡(luò)帶寬可達(dá)10Gbps等,并將識別和收集的業(yè)務(wù)系統(tǒng)指標(biāo)與之關(guān)聯(lián)。最后,結(jié)合指標(biāo)的跟蹤分析,綜合考慮工作負(fù)載與CPU、內(nèi)存、磁盤以及網(wǎng)絡(luò)使用率的關(guān)聯(lián)性,用以選擇合適的類型與內(nèi)存核數(shù)比,滿足最佳性能的同時優(yōu)化成本效益。存儲云相對傳統(tǒng)自建數(shù)據(jù)中心,有更豐富的存儲業(yè)務(wù)場景以及與之相匹配的存儲服務(wù),建議針對業(yè)務(wù)場景以及對應(yīng)工作負(fù)載的存儲需求進(jìn)行梳理,并明確核心存儲指標(biāo),用以評估符合需求且合適的解決方案。常規(guī)存儲方案會重點從塊存儲、對象存儲以及文件存儲這三類來進(jìn)行評估:阿里云產(chǎn)品主要特征業(yè)務(wù)場景高性能、低延遲,應(yīng)用程序、OLTP數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫等I/0密集型的高性能、低時延業(yè)務(wù)本,多種訪問方式,99.999999999999%數(shù)據(jù)可大規(guī)模數(shù)據(jù)分層存儲、數(shù)據(jù)備份、網(wǎng)站托管、動靜資源分離、CDN加速高吞吐、低延遲,學(xué)計算、容器共享訪問與數(shù)據(jù)持久化、企業(yè)在線生產(chǎn)應(yīng)用數(shù)科學(xué)計算、容器共享訪問與數(shù)據(jù)持久化、企業(yè)在業(yè)務(wù)場景、功能和架構(gòu)的基礎(chǔ)上,建議將業(yè)務(wù)系統(tǒng)數(shù)據(jù)轉(zhuǎn)化為存儲性能指標(biāo)以便進(jìn)一步評估存儲產(chǎn)品和類型選擇,主要的存儲指標(biāo)包括吞吐量、IOPS、I/O延遲、訪問頻率、數(shù)據(jù)規(guī)模、數(shù)據(jù)增長率、數(shù)據(jù)可靠性等,必要的基準(zhǔn)測試以及持續(xù)的性能數(shù)據(jù)收集將有助于我們獲取和分析這些指標(biāo)。網(wǎng)絡(luò)阿里云產(chǎn)品主要特征業(yè)務(wù)場景混合云組網(wǎng)混合云組網(wǎng)高可用、高安全、易部署,高質(zhì)游戲加速、企業(yè)應(yīng)用加速、互聯(lián)網(wǎng)應(yīng)用加速高可靠性,轉(zhuǎn)發(fā)功能豐富按需業(yè)務(wù)轉(zhuǎn)發(fā)、云原生應(yīng)用高性能、高可靠、易運維統(tǒng)一公網(wǎng)出口加速范圍廣、低延時、易部署、高可用網(wǎng)站加速、互聯(lián)網(wǎng) 當(dāng)系統(tǒng)需要面對大量用戶的高并發(fā)訪問和存儲海量數(shù)據(jù),通過集群的方式將計算資源和存儲資源等組成一個整體提供服務(wù),在需要的場景下,可以及時通過調(diào)整計算和存儲資源來緩解高并發(fā)帶來的計算和存儲壓力,從而實現(xiàn)在訪問峰值場景下可以向用戶有效提供穩(wěn)定的服務(wù),在訪問低谷的時期又可以釋放不必要的資源或保持系統(tǒng)的低位運行來節(jié)省IT支出?!粼品?wù)自動擴縮在阿里云上實現(xiàn)計算資源ECS和ECI實例的自動伸縮能力依賴的是阿里云彈性伸縮產(chǎn)品(ESS),也稱為AutoScaling,是指根據(jù)業(yè)務(wù)需求和策略自動調(diào)整計算能力(即實例數(shù)量)的服務(wù)。彈性伸縮具有廣泛的應(yīng)用場景,不僅適合業(yè)務(wù)量不斷波動的應(yīng)用程序,同時也適合業(yè)務(wù)量穩(wěn)定的應(yīng)用程序。主要應(yīng)用場景如下:業(yè)務(wù)量波動無規(guī)律,訪問量突增和回落的具體時間難以預(yù)測,通過手動調(diào)整實例很難做到及時性,而且調(diào)整數(shù)量也不確定。此時可以利用彈性伸縮的報警任務(wù),由阿里云自動根據(jù)CPU使用率等衡量指標(biāo)進(jìn)行彈性伸縮。波動有規(guī)律,但是每天手動調(diào)整計算資源浪費人力和時間成本。此時可以利用彈性伸縮的定時任務(wù),由阿里云在流量高峰到來之前擴容,另外一個在流量高峰結(jié)束后業(yè)務(wù)現(xiàn)有計算資源突然出現(xiàn)故障,導(dǎo)致業(yè)務(wù)受到影響且很難及時進(jìn)行故障修復(fù)。此時可以利用彈性伸縮的高可用優(yōu)勢,開啟健康檢查模式。阿里云會自動檢查實例的健康狀態(tài),當(dāng)發(fā)現(xiàn)存在實例不健康時,自動增加實例替換不健康的實例,確保故障的計算資源及時得到修復(fù)。根據(jù)業(yè)務(wù)場景靈活組合以上功能,從而在使用彈性伸縮的時候獲得更豐富靈活的使用體驗。阿里云卓越架構(gòu)白皮書一般來說討論伸縮都是水平伸縮實現(xiàn)快速擴容,不過在特殊場景下也需要縱向的垂直伸縮。垂直伸縮能夠調(diào)整按量付費實例的實例規(guī)格(如vCPU和內(nèi)存)。針對使用云原生技術(shù)部署的業(yè)務(wù)應(yīng)用,阿里云容器服務(wù)ACK也提供了彈性伸縮的能力。典型的場景包含在線業(yè)務(wù)彈性、大規(guī)模計算訓(xùn)練、深度學(xué)習(xí)GPU或共享GPU的訓(xùn)練與推理、定時周期性負(fù)載變化等。彈性伸縮分為兩個維度:●調(diào)度層彈性,主要是負(fù)責(zé)修改負(fù)載的調(diào)度容量變化。例如,HPA是典型的調(diào)度層彈性組件,通過HPA可以調(diào)整應(yīng)用的副本數(shù),調(diào)整的副本數(shù)會改變當(dāng)前負(fù)載占用的調(diào)度容量,從而實現(xiàn)調(diào)度層的伸縮?!褓Y源層彈性,主要是集群的容量規(guī)劃不能滿足集群調(diào)度容量時,會通過彈出ECS或ECI兩層的彈性組件與能力可以分開使用,也可以結(jié)合在一起使用,并且兩者之間是通過調(diào)度層面的容量狀態(tài)進(jìn)行解耦。對于用戶來說,之前無論是云服務(wù)的伸縮還是容器的伸縮都還是需要用戶一定程度上參與基礎(chǔ)設(shè)施層面的資源管理和維護。而Serverless技術(shù)則無需用戶關(guān)心基礎(chǔ)設(shè)施層面的擴容或者伸縮。Serverless相關(guān)的產(chǎn)品具有彈性快(毫秒級擴容)、成本優(yōu)(按實際使用量付費)、開發(fā)效率高(不用關(guān)心底層云資源)的特點。 性能測試是通過自動化的測試工具模擬多種正常、峰值以及異常負(fù)載條件來對系統(tǒng)的各項性能指標(biāo)進(jìn)行測試。性能測試主要的應(yīng)用場景是:要達(dá)成精準(zhǔn)衡量業(yè)務(wù)承接能力的目標(biāo),業(yè)務(wù)壓測就需要做到5個一樣:做到5個"一樣",讓系統(tǒng)提前進(jìn)行“模擬考”,從而達(dá)到精準(zhǔn)衡量業(yè)務(wù)模型實際處理能力的目標(biāo),便于相應(yīng)的性能提升、限流降級方案準(zhǔn)備等配套工
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小區(qū)電力合同范本
- 2025年全球及中國全斷面隧道掘進(jìn)機行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告
- 零碳數(shù)據(jù)算力中心技術(shù)可行性分析
- 中國棉及化纖制品制造市場前景及投資研究報告
- 2025年磁化中藥粉行業(yè)深度研究分析報告
- 足浴運營合同范本
- 2020-2025年中國代步平衡車行業(yè)市場調(diào)研分析及投資戰(zhàn)略規(guī)劃報告
- 水利發(fā)電站項目投資分析報告
- 巴彥淖爾智能制造項目評估報告
- 肝包蟲患者的術(shù)后護理
- 2025人教版一年級下冊數(shù)學(xué)教學(xué)進(jìn)度表
- 2025年四川司法警官職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年常考版參考題庫含答案解析
- 新建污水處理廠工程EPC總承包投標(biāo)方案(技術(shù)標(biāo))
- 山東省德州市2024-2025學(xué)年高三上學(xué)期1月期末生物試題(有答案)
- 本人報廢車輛委托書
- 雙減政策與五項管理解讀
- 2025年道德與法治小學(xué)六年級下冊教學(xué)計劃(含進(jìn)度表)
- 過橋資金操作流程
- 貨物學(xué) 課件1.2貨物的特性
- 新時代中國特色社會主義理論與實踐2024版研究生教材課件全集2章
- 2024年公路水運工程施工企業(yè)主要負(fù)責(zé)人和安全生產(chǎn)管理人員安全生產(chǎn)考核試題庫(含答案)
評論
0/150
提交評論