相比于傳統(tǒng)架構成熟的應急處置體系,業(yè)界關于云平臺存儲開展應急演練和管理方面則稍顯欠缺。本文將梳理云平臺存儲應急演練與傳統(tǒng)IT架構的區(qū)別,列舉云平臺存儲常見的故障場景,并分析如何針對各類場景更有針對性的制定應急演練計劃。

俗話說,“光說不練假把式”。IT系統(tǒng)的應急演練是實現(xiàn)企業(yè)驗證業(yè)務連續(xù)性能力、組織、預案、團隊能否滿足既定目標的方式。隨著云計算技術的推廣,云平臺存儲逐漸成為一種有效解決企業(yè)海量數(shù)據(jù)存儲和管理問題的方式。但相比于傳統(tǒng)架構成熟的應急處置體系,業(yè)界關于云平臺存儲開展應急演練和管理方面則稍顯欠缺。以下內(nèi)容將進一步梳理云平臺存儲應急演練與傳統(tǒng)IT架構的區(qū)別,列舉云平臺存儲常見的故障場景,并分析如何針對各類場景更有針對性的制定應急演練計劃。
一、居安思危,云平臺存儲的應急演練缺失之殤
云平臺存儲能夠?qū)ζ髽I(yè)日常生產(chǎn)過程中產(chǎn)生的不同類型非結構化數(shù)據(jù)進行統(tǒng)一存儲和管理。企業(yè)可選擇相應類型的云平臺存儲(包括文件存儲、對象存儲、塊存儲等),并利用分布式存儲架構所提供的軟件即存儲能力,構建具有高可用特性的企業(yè)云服務的基礎存儲服務層,為云上各類的微服務應用提供云存儲和云共享服務。可以說云平臺存儲的底層架構設計比傳統(tǒng)存儲更加關注數(shù)據(jù)和服務的持久性和高可用性,不僅為上層應用提供了更為靈活的軟硬件一體化部署模式,同時也兼具更加健壯的高可用模式。
但很多企業(yè)沒有針對云平臺存儲形成一整套成熟的應急演練機制,大多數(shù)應急方案仍然是針對傳統(tǒng)存儲架構所設計的。云平臺存儲在開展應急演練和容災管理方面,應更加關注彈性云計算資源、云硬盤設備、分布式存儲設備等服務。
但是在開展應急演練方面和管理方面,則需要基于現(xiàn)有云上的業(yè)務策略,按需配置云存儲的保護實例,并通過存儲同步復制技術、磁盤映射技術、數(shù)據(jù)緩存冗余等技術構建云存儲的高可用性,為業(yè)務提供數(shù)據(jù)的可靠性以及業(yè)務連續(xù)性。在演練過程中,通常是將云存儲彈性云服務器的數(shù)據(jù)、配置信息復制到容災站點,并支持應用所在的服務器停機期間從另外的位置啟動并正常運行,從而提升業(yè)務連續(xù)性。相比于傳統(tǒng)存儲,基于云平臺存儲的容災方式,能夠更好的降低容災建設成本。
二、有備無患,云平臺存儲應急演練中的常見問題分析
相比于傳統(tǒng)存儲較為成熟的應急預案、流程,針對云平臺存儲的應急演練進行測試和評估,則可發(fā)現(xiàn)大多存在如下問題:
1. 缺乏針對云平臺存儲的演練標準體系
由于基于云平臺存儲的業(yè)務平臺,采用分布式計算機存儲系統(tǒng),天然形成了數(shù)據(jù)冗余存儲、具有自動恢復機制,提高了存儲數(shù)據(jù)抵抗外界諸如硬件故障、單臺存儲設備故障等不可抗風險。因此,在構建基于云架構的演練標準體系方面,缺乏了應有的關注。
筆者認為構建基于云平臺存儲的演練體系應至少應包括:
1)明確云平臺存儲突發(fā)事件應急各環(huán)節(jié)中的角色和責任,提高云平臺存儲各項響應和操作能力; 對存儲的運維也從硬件層面轉變?yōu)閷煤臀⒎盏闹巍?/p>
2)構建云平臺存儲應急演練手段技術體系,利用真實可模擬的微服務存儲故障等突發(fā)事件應急環(huán)境,增強參演人員的心適應能力和調(diào)整能力。
3) 明確云平臺存儲在應急演練各環(huán)節(jié)關鍵的功能要素,包括SSD云盤的IOPS、吞吐量和訪問時延。并據(jù)此從定性和量化兩個方面構建科學的演練效果評估指標體系;
2. 缺少以云原生視角去拓寬演練領域的思路
分布式云存儲日益復雜,但是業(yè)內(nèi)普遍缺乏以云原生視角去擴展演練領域的思路,僅僅是按諸多傳統(tǒng)架構中不存在的不確定因素。比如,機器高負載、網(wǎng)絡異常、磁盤 IO、節(jié)點調(diào)度等故障,以及云平臺自身的資源、應用服務、容器以及基礎設施各環(huán)節(jié)導致的問題。
筆者認為以云原生視角拓寬演練領域至少應該包括如下顆粒度。其中,以下幾項尤為重要:
1)評估IaaS層、PaaS層是否健壯:模擬云存儲不可用,驗證系統(tǒng)的容錯能力、測試調(diào)度任務是否自動遷移到可用節(jié)點。
2)衡量容器及微服務的容錯能力:查看發(fā)生故障的節(jié)點或?qū)嵗欠癖蛔詣痈綦x、下線,流量調(diào)度是否正確,預案是否有效,同時觀察系統(tǒng)整體的QPS或RT是否受影響。
3)驗證容器編排配置是否合理:模擬殺服務Pod、殺節(jié)點、增大Pod資源負載,觀察系統(tǒng)服務可用性,驗證副本配置、資源限制配置以及Pod下部署的容器是否合理。
4)驗證監(jiān)控告警的時效性:對系統(tǒng)注入故障,驗證監(jiān)控指標是否準確,監(jiān)控維度是否完善,告警閾值是否合理,告警是否快速,告警接收人是否正確,通知渠道是否可用等,提升監(jiān)控告警的準確和時效性。
三、戰(zhàn)時心不慌,梳理云存儲應急預案場景
針對不同類型的云存儲類型及故障場景建立不同的應急預案
場景一:塊存儲集群中,單臺設備故障無法正常使用
使用技術:備份一體機 DP 進行恢復
RPO =1Day (可恢復 1 天前的備份副本);RTO = 2-3Hour(200G 數(shù)據(jù)需恢復需10Min)。
業(yè)務恢復步驟:選擇存儲卷及備份副本,完成云存儲及業(yè)務恢復。
場景二:文件存儲中的部分非結構化數(shù)據(jù)被誤刪除或丟失
使用技術:備份一體機 DP 進行恢復
RPO =1Day (可恢復 1 天前的文件);RTO = 30Min-2Hour(200G 數(shù)據(jù)需恢復需10Min)。
業(yè)務恢復步驟:選擇虛擬機及備份副本,確認丟失文件的路徑,選擇恢復的目標,完成丟失文件的恢復。
場景三:對象存儲損壞或丟失
使用技術:備份一體機 DP 進行恢復
RPO =1Day (可恢復 1 天前的文件);RTO = 30Min-2Hour(200G 數(shù)據(jù)需恢復需10Min)。
業(yè)務恢復步驟:選擇數(shù)據(jù)庫副本文件進行數(shù)據(jù)恢復,恢復后確保數(shù)據(jù)完整性及數(shù)據(jù)庫可用性。
場景四:核心業(yè)務系統(tǒng)發(fā)生宕機無法快速恢復
使用技術:通過 RP 技術進行恢復
RPO = 30sec ;RTO = 5min。
業(yè)務恢復步驟:選擇相應的時間點,進行容災切換,將備機直接開啟,并確認業(yè)務是否可以使用。
云平臺存儲的應急切換演練能夠顯著減少和預防企業(yè)在云架構模式下發(fā)生安全事件。在當下,數(shù)字化轉型時代逐步會成為構建業(yè)務連續(xù)性方面需要考慮的重要環(huán)節(jié)。然而與IT傳統(tǒng)架構在應急演練方面的所具備的成熟體系和經(jīng)驗相比,在云架構模式下,對云平臺存儲的應急演練起步較晚且存在諸多不足,亟需從標準體系、演練領域、演練流程、演練形式、人才等角度進行完善、創(chuàng)新。
【作者】珺祎 某國有銀行系統(tǒng)架構師






