免费影院在线,国产午夜精品免费一二区,日韩中文字幕电影

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會員：747

云平臺存儲應急演練常見問題分析

發(fā)布時間：2023-12-08 21:38:21 作者：網(wǎng)友整理

相比于傳統(tǒng)架構成熟的應急處置體系，業(yè)界關于云平臺存儲開展應急演練和管理方面則稍顯欠缺。本文將梳理云平臺存儲應急演練與傳統(tǒng)IT架構的區(qū)別，列舉云平臺存儲常見的故障場景，并分析如何針對各類場景更有針對性的制定應急演練計劃。

云平臺存儲應急演練常見問題分析

俗話說，“光說不練假把式”。IT系統(tǒng)的應急演練是實現(xiàn)企業(yè)驗證業(yè)務連續(xù)性能力、組織、預案、團隊能否滿足既定目標的方式。隨著云計算技術的推廣，云平臺存儲逐漸成為一種有效解決企業(yè)海量數(shù)據(jù)存儲和管理問題的方式。但相比于傳統(tǒng)架構成熟的應急處置體系，業(yè)界關于云平臺存儲開展應急演練和管理方面則稍顯欠缺。以下內(nèi)容將進一步梳理云平臺存儲應急演練與傳統(tǒng)IT架構的區(qū)別，列舉云平臺存儲常見的故障場景，并分析如何針對各類場景更有針對性的制定應急演練計劃。

一、居安思危，云平臺存儲的應急演練缺失之殤

云平臺存儲能夠?qū)ζ髽I(yè)日常生產(chǎn)過程中產(chǎn)生的不同類型非結構化數(shù)據(jù)進行統(tǒng)一存儲和管理。企業(yè)可選擇相應類型的云平臺存儲(包括文件存儲、對象存儲、塊存儲等)，并利用分布式存儲架構所提供的軟件即存儲能力，構建具有高可用特性的企業(yè)云服務的基礎存儲服務層，為云上各類的微服務應用提供云存儲和云共享服務。可以說云平臺存儲的底層架構設計比傳統(tǒng)存儲更加關注數(shù)據(jù)和服務的持久性和高可用性，不僅為上層應用提供了更為靈活的軟硬件一體化部署模式，同時也兼具更加健壯的高可用模式。

但很多企業(yè)沒有針對云平臺存儲形成一整套成熟的應急演練機制，大多數(shù)應急方案仍然是針對傳統(tǒng)存儲架構所設計的。云平臺存儲在開展應急演練和容災管理方面，應更加關注彈性云計算資源、云硬盤設備、分布式存儲設備等服務。

但是在開展應急演練方面和管理方面，則需要基于現(xiàn)有云上的業(yè)務策略，按需配置云存儲的保護實例，并通過存儲同步復制技術、磁盤映射技術、數(shù)據(jù)緩存冗余等技術構建云存儲的高可用性，為業(yè)務提供數(shù)據(jù)的可靠性以及業(yè)務連續(xù)性。在演練過程中，通常是將云存儲彈性云服務器的數(shù)據(jù)、配置信息復制到容災站點，并支持應用所在的服務器停機期間從另外的位置啟動并正常運行，從而提升業(yè)務連續(xù)性。相比于傳統(tǒng)存儲，基于云平臺存儲的容災方式，能夠更好的降低容災建設成本。

二、有備無患，云平臺存儲應急演練中的常見問題分析

相比于傳統(tǒng)存儲較為成熟的應急預案、流程，針對云平臺存儲的應急演練進行測試和評估，則可發(fā)現(xiàn)大多存在如下問題：

1. 缺乏針對云平臺存儲的演練標準體系

由于基于云平臺存儲的業(yè)務平臺，采用分布式計算機存儲系統(tǒng)，天然形成了數(shù)據(jù)冗余存儲、具有自動恢復機制，提高了存儲數(shù)據(jù)抵抗外界諸如硬件故障、單臺存儲設備故障等不可抗風險。因此，在構建基于云架構的演練標準體系方面，缺乏了應有的關注。

筆者認為構建基于云平臺存儲的演練體系應至少應包括：

1)明確云平臺存儲突發(fā)事件應急各環(huán)節(jié)中的角色和責任，提高云平臺存儲各項響應和操作能力; 對存儲的運維也從硬件層面轉變?yōu)閷煤臀⒎盏闹巍?/p>

2)構建云平臺存儲應急演練手段技術體系，利用真實可模擬的微服務存儲故障等突發(fā)事件應急環(huán)境，增強參演人員的心適應能力和調(diào)整能力。

3) 明確云平臺存儲在應急演練各環(huán)節(jié)關鍵的功能要素，包括SSD云盤的IOPS、吞吐量和訪問時延。并據(jù)此從定性和量化兩個方面構建科學的演練效果評估指標體系;

2. 缺少以云原生視角去拓寬演練領域的思路

分布式云存儲日益復雜，但是業(yè)內(nèi)普遍缺乏以云原生視角去擴展演練領域的思路，僅僅是按諸多傳統(tǒng)架構中不存在的不確定因素。比如，機器高負載、網(wǎng)絡異常、磁盤 IO、節(jié)點調(diào)度等故障，以及云平臺自身的資源、應用服務、容器以及基礎設施各環(huán)節(jié)導致的問題。

筆者認為以云原生視角拓寬演練領域至少應該包括如下顆粒度。其中，以下幾項尤為重要：

1)評估IaaS層、PaaS層是否健壯：模擬云存儲不可用，驗證系統(tǒng)的容錯能力、測試調(diào)度任務是否自動遷移到可用節(jié)點。

2)衡量容器及微服務的容錯能力：查看發(fā)生故障的節(jié)點或?qū)嵗欠癖蛔詣痈綦x、下線，流量調(diào)度是否正確，預案是否有效，同時觀察系統(tǒng)整體的QPS或RT是否受影響。

3)驗證容器編排配置是否合理：模擬殺服務Pod、殺節(jié)點、增大Pod資源負載，觀察系統(tǒng)服務可用性，驗證副本配置、資源限制配置以及Pod下部署的容器是否合理。

4)驗證監(jiān)控告警的時效性：對系統(tǒng)注入故障，驗證監(jiān)控指標是否準確，監(jiān)控維度是否完善，告警閾值是否合理，告警是否快速，告警接收人是否正確，通知渠道是否可用等，提升監(jiān)控告警的準確和時效性。

三、戰(zhàn)時心不慌，梳理云存儲應急預案場景

針對不同類型的云存儲類型及故障場景建立不同的應急預案

場景一：塊存儲集群中，單臺設備故障無法正常使用

使用技術：備份一體機 DP 進行恢復

RPO =1Day (可恢復 1 天前的備份副本);RTO = 2-3Hour(200G 數(shù)據(jù)需恢復需10Min)。

業(yè)務恢復步驟：選擇存儲卷及備份副本，完成云存儲及業(yè)務恢復。

場景二：文件存儲中的部分非結構化數(shù)據(jù)被誤刪除或丟失

使用技術：備份一體機 DP 進行恢復

RPO =1Day (可恢復 1 天前的文件);RTO = 30Min-2Hour(200G 數(shù)據(jù)需恢復需10Min)。

業(yè)務恢復步驟：選擇虛擬機及備份副本，確認丟失文件的路徑，選擇恢復的目標，完成丟失文件的恢復。

場景三：對象存儲損壞或丟失

使用技術：備份一體機 DP 進行恢復

RPO =1Day (可恢復 1 天前的文件);RTO = 30Min-2Hour(200G 數(shù)據(jù)需恢復需10Min)。

業(yè)務恢復步驟：選擇數(shù)據(jù)庫副本文件進行數(shù)據(jù)恢復，恢復后確保數(shù)據(jù)完整性及數(shù)據(jù)庫可用性。

場景四：核心業(yè)務系統(tǒng)發(fā)生宕機無法快速恢復

使用技術：通過 RP 技術進行恢復

RPO = 30sec ;RTO = 5min。

業(yè)務恢復步驟：選擇相應的時間點，進行容災切換，將備機直接開啟，并確認業(yè)務是否可以使用。

云平臺存儲的應急切換演練能夠顯著減少和預防企業(yè)在云架構模式下發(fā)生安全事件。在當下，數(shù)字化轉型時代逐步會成為構建業(yè)務連續(xù)性方面需要考慮的重要環(huán)節(jié)。然而與IT傳統(tǒng)架構在應急演練方面的所具備的成熟體系和經(jīng)驗相比，在云架構模式下，對云平臺存儲的應急演練起步較晚且存在諸多不足，亟需從標準體系、演練領域、演練流程、演練形式、人才等角度進行完善、創(chuàng)新。

【作者】珺祎某國有銀行系統(tǒng)架構師

分享到：

標簽：平臺