本文作者:云報資深記者郭濤
導言
早在2013年,民生銀行就建立了“數據中心流量分析平臺”,隨著業務不斷增長,IT構架技術變革,原有流量平臺已經無法承載多樣化的業務流量分析需求。而隨著運維技術的新趨勢進一步向AIOps(智能化運維)演進,挖掘流量數據價值,通過流量分析平臺對各項目及業務系統提供數據支撐,需求已經非常迫切。2019年,民生銀行上線了新一代的流量數據分析平臺,并進行了數據驅動運維的應用場景探索,本次云報記者郭濤采訪了民生銀行總行信息科技部網絡管理中心的項目負責人馮晶晶和王全,請他們分享在場景驅動下的應用創新經驗。
01「 痛點:快速故障定位的困擾 」
記者:最初考慮要對網絡流量進行監控和管理是出于什么樣的需求和痛點呢?
馮晶晶:網絡作為上層應用的最重要的基礎設施,當系統應用和業務應用出現問題時,大部分人都會率先想到是不是網絡出現了問題。如果沒有一個好的監控分析系統,就沒辦法快速定位故障根本原因并第一時間解決故障。后續隨著我們數據中心的運維工作逐漸向AIOps轉變,我們開始嘗試利用網絡流量數據,在實現有效監控的基礎上,同時輸出高級應用場景推動整個運維工作的自動化和智能化,這時流量工具就從輔助角色變成了關鍵角色,除了監控更重要是智能分析能力。
記者:有沒有與其他銀行的網絡運維特點不太一樣的特征?
馮晶晶:我們希望用科技給業務賦能,助力業務的快速發展,那么具體的工作應該如何有效開展?站在網絡角度,首先我們需要建立一套智能的流量數據分析系統,將網絡流量數據進行深度挖掘和系統性的整合,從而利用這套系統輸出對業務有高價值的應用場景;其次,把智能分析系統以產品形式對外提供服務,數據價值直觀體現。
記者:之前的流量監控平臺是什么樣的情況呢?
馮晶晶:早期我們在流量監控這塊是結合國外的一套產品來做的,由于他們的研發人員在國外,而伴隨使用的深入,我們不斷產生了新的應用場景急需落地,而對方往往反饋和響應時間較長,難以匹配時效性要求。如美國的Riverbed廠商在2019年月突然宣布退出亞太區市場,不再提供產品的升級和相關服務,這更加給我們工作帶來較大的困擾,對項目的連續性也有很大的阻礙。同時,鑒于其他多方面原因,我行在2019年進行國內廠商新產品的引入,目前我們是與智維數據分析平臺做了產品對接,結合我們運維團隊對場景和技術的理解,形成了新的可視化流量數據分析平臺以及相關應用。
02「 新的探索:從運維實際出發構建應用場景 」
記者:能不能描述下有哪些創新的應用場景?
王全:在數據分析這一方面,我們知道,在網絡架構里負載均衡設備是眾多關鍵業務的匯集點,物理位置優勢讓其成為絕佳的數據源,因此我們實現了將負載均衡業務流量和日志實時發送給流量分析平臺,并與數據中心CMDB系統對接,自動生成端到端視圖,實現了應用層的業務數據多維度細顆粒的展示與分析。

圖1 URL優化統計分析詳情(demo模擬)
之前,手機銀行頁面的URL詳情開發人員和業務人員是不容易實時獲取分析的,通過流量分析平臺與負載均衡設備實時高速日志對接之后,就可以實時對請求和響應頁面詳情進行監控,并定期出具報表,輸出訪問量高且占用流量較大的頁面,告知開發人員對其進一步評估和優化頁面大小,從而降低互聯網帶寬。我們每年互聯網運營商的帶寬費用是比較高的,采用這個方案之后,可不斷地降低帶寬流量,單寬帶費一項每年就能節省很多。
再一個就是去年我們大力推進應用系統和數據庫系統的域名化改造工作,多種類型的操作系統屬于首次啟用域名解析功能,系統產生了大量未知或異常的DNS請求信息,在增加了網絡里非必要垃圾流量的同時也給DNS系統帶來了較大的性能壓力。

圖2 DNS分析界面展示(demo模擬)
在建立新的流量分析平臺后,通過可視化界面實時展示DNS請求的詳情,對其請求類型智能分類和訪問量排名,可實時識別出正常或異常的DNS域名請求信息,按需輸出數據報表。將數據提供給系統或業務人員進行優化。通過此項功能我們快速高效地優化了大量DNS請求數據,從而使域名系統的運營效率得到了大幅提升。
記者:剛才您提到對域名系統運營效率的提升,那么在其他方面還有嗎?我們是如何借助應用場景創新,提升整體運維效率的呢?
王全:借助新的流量分析平臺我們可獲取網絡的全量流量,同時通過AI算法庫、專家知識圖譜、智能巡檢等智能算法,可自動輸出智能分析結果,展示問題根因,很大程度上提升了日常運維工作效率。例如,基于采集的數據和定期巡檢任務可主動發現數據中心的異常流量及隱患問題,還可通過定期任務自動分析異常事件,可及時發現異常跨區訪問、高危端口、惡意掃描等異常事件,實現主動發現和及時解決。這些都是基于我們日常運維中特別難、特別慢、特別繁瑣又急需提升效率的場景去做的,而建立這些創新應用的目的就是減少對運營人員個體經驗和技能的依賴,降低維護成本,從而提升整體運營效率和用戶滿意度。
記者:剛才說到的這些應用場景與前臺業務是一種怎樣的關系呢?通過后臺運維技術的創新,能提升前臺的客戶體驗嗎?
王全:民生銀行科技部一直在不斷探索和利用人工智能、云計算、邊緣計算等前沿技術提升客戶體驗,打造有溫度的銀行,快速響應客戶需求,提供更優質的服務。所有的這些服務和系統都運行在數據中心,而數據中心的各種設備和系統關系越來越復雜,那么這些都給運維帶來了新的挑戰,這也是我們要不斷提升運維技術與能力的源動力。
再以上面手機銀行的例子來說,客戶在手機銀行辦理業務的時候,能感知到的是使用的體驗是否順暢,效率是否高等等,這些穩定性和效率的保障一部分也來源于我們流量分析平臺在異常檢測和故障定位兩方面的能力。通過對這些實際場景的創新型技術探索,比如在日志異常檢測層面去分析,定位問題根因等,再通過可視化的方式展現出來,就可以得到推薦的解決方案,更好的為前臺業務的穩定性服務。
03
「 展望未來:
持續創新,不斷產出高價值的數據挖掘場景 」
記者:這次新一代網絡流量分析平臺的建設和創新,在我們民生銀行內部有一些什么樣的反饋呢?對AIOps實踐之路未來的愿景是怎樣的?
馮晶晶:2020年我們在智能分析這塊實現了很多價值,流量分析監控包括智能告警還有故障定位等等反饋都非常好;另一方面,我們也初步實現了業務系統的互訪關系視圖,包括CMDB的資產數據展示等,這些都是基于業務部門的迫切需求來實現的,我們也給業務部門、調度部門、應用部門組織了多次培訓,獲得了他們的積極反饋。當然這些場景還有很多優化的空間,現在是基本實現了底層功能,但今年伴隨業務部門對應用場景的進一步理解,在此基礎上會萌生進一步的數據應用需求,比如剛才提到的資產管理和互訪關系的數據關聯等。我們希望未來與智維數據可以持續深入合作,把數據應用及場景進一步豐富起來,把這個流量分析平臺完善成一個有架構的,有統一前端使用界面的優秀產品展現給業務用戶,為自動化運維、智能化運維提供更大的價值。







