導(dǎo)言
中山大學(xué)附屬第一醫(yī)院,簡稱中山一院,位于廣州市,始建于1910年,2019年中國醫(yī)院排行榜發(fā)布,中山一院位居第六。
作為一家現(xiàn)代化大型三甲醫(yī)院,中山一院在信息化系統(tǒng)的建設(shè)上是較為全面的,基于HIE的可擴(kuò)展基礎(chǔ)架構(gòu)建立了包括HIS、EMR、HRP、LIS、 PACS等應(yīng)用的信息化管控體系。雖然信息中心投入了很大精力在IT系統(tǒng)的建設(shè)和基礎(chǔ)架構(gòu)的維護(hù)上,但還是會出現(xiàn)系統(tǒng)運(yùn)行緩慢,用戶體驗(yàn)感不佳等問題。由于醫(yī)療行業(yè)的業(yè)務(wù)特殊性,對系統(tǒng)的連續(xù)性和使用效率要求非常高,因此急需建設(shè)一套完善的網(wǎng)絡(luò)流量監(jiān)控分析系統(tǒng)。

2020年,中山一院采用了新的智能流量分析平臺,實(shí)現(xiàn)了網(wǎng)絡(luò)質(zhì)量和應(yīng)用系統(tǒng)性能的實(shí)時監(jiān)測,并實(shí)現(xiàn)了快速故障分析能力。本次IB資訊記者王永智采訪了中山一院信息中心技術(shù)負(fù)責(zé)人劉翰騰,請他分享中山一院從流量角度實(shí)現(xiàn)穩(wěn)定運(yùn)維,提升用戶體驗(yàn)的最佳實(shí)踐。
1:系統(tǒng)7×24小時全年穩(wěn)定在線是實(shí)現(xiàn)高效就醫(yī)的基礎(chǔ)
記者:就醫(yī)院行業(yè)來說,其網(wǎng)絡(luò)運(yùn)維特點(diǎn)有哪些不同于其他行業(yè)的地方?
劉翰騰:醫(yī)院信息系統(tǒng),尤其是核心系統(tǒng),都是7×24小時全年都不能停機(jī)的,最大的停機(jī)時間窗只有半小時左右,否則就會影響患者排隊(duì)就醫(yī)。這種行業(yè)特性,就需要網(wǎng)絡(luò)運(yùn)維能夠快速定位故障,及時排查。業(yè)務(wù)的特殊性決定了對網(wǎng)絡(luò)運(yùn)維的要求,對連續(xù)性的保障程度要求是比較高的。因此,在網(wǎng)絡(luò)監(jiān)控工具的選擇上,我們要求工具對信息系統(tǒng)傳遞的及時性,跟流程驅(qū)動的準(zhǔn)確性,這是和其它行業(yè)有差異的地方。
記者:醫(yī)院智能化運(yùn)維建設(shè)的難點(diǎn)是什么?
劉翰騰:醫(yī)院的智能運(yùn)維常規(guī)還是以軟件運(yùn)維優(yōu)先的,但軟件運(yùn)維它又需要載體,就是硬件跟網(wǎng)絡(luò)要有比較強(qiáng)的支撐。我們現(xiàn)在感覺智能運(yùn)維這一塊之所以難做的原因,就是軟件跟硬件之間的銜接度不高,各種不同的系統(tǒng)各自獨(dú)立,導(dǎo)致后面其它系統(tǒng)取數(shù)據(jù)的時候,底層資源的關(guān)聯(lián)性較差,這種情況會導(dǎo)致后續(xù)的很多故障定位的問題,比如經(jīng)常會出現(xiàn)整體資源夠用,但是局部慢的情況。出現(xiàn)問題時,軟硬件維護(hù)人員之間會互相推諉,沒有快速定位的方法的話就會責(zé)任界定不清。
記者:中山一院日常的用戶有哪些?這些人員的數(shù)量級是多少?
劉翰騰:我們的用戶分為終端內(nèi)的用戶、開發(fā)運(yùn)維的用戶以及患者,也就是前端互聯(lián)網(wǎng)的用戶。終端就是我們的醫(yī)生、護(hù)士跟管理人員。我們內(nèi)網(wǎng)大約有3000臺左右的終端,醫(yī)生站、護(hù)士站、收費(fèi)處、取藥處、自助機(jī),這些我們都定位為內(nèi)網(wǎng)的醫(yī)療業(yè)務(wù)終端;我們還有2000個左右的辦公終端,就是上互聯(lián)網(wǎng)做一些溝通協(xié)調(diào)的用途;開發(fā)運(yùn)維工程師的電腦目前的規(guī)模有兩三百臺?;颊?、前端互聯(lián)網(wǎng)用戶的數(shù)量,我們是按門診量去估算的,每天規(guī)模大概在15,000左右。
2 :智能監(jiān)測與巡檢,提升用戶體驗(yàn)
記者:信息中心對網(wǎng)絡(luò)運(yùn)維的能力要求是怎樣的?
劉翰騰:作為運(yùn)維團(tuán)隊(duì)我們希望了解對于終端我們開放了哪些網(wǎng)絡(luò)端口,哪些端口允許連入我們的網(wǎng)絡(luò);服務(wù)器開多少臺,提供什么系統(tǒng)程序;開了哪些數(shù)據(jù)庫,多少個服務(wù)端口等等,這些流程要有一個從發(fā)布到批準(zhǔn)到后面上線的審核過程,也要有配套的監(jiān)測運(yùn)維的機(jī)制。我們會做一些日志審計(jì),以及對于流量和數(shù)據(jù)庫的操作行為審計(jì)。然后對這些審計(jì)的結(jié)果,建立巡檢,把運(yùn)作過程中的問題通過巡檢發(fā)現(xiàn)出來,最后建立事件響應(yīng)流程,有需要的話采取運(yùn)維干預(yù)的措施,這是日常供給側(cè)的。
還有一側(cè)是故障側(cè)。前端業(yè)務(wù)是連續(xù)在用的,比如有醫(yī)生、護(hù)士或者病人在使用,那么前端在使用的時候我們后臺就會建立服務(wù)臺的故障處理流程,比如去判斷前端事故的類型,能夠快速定位故障的話,就可以盡量縮窄故障的影響面。所以關(guān)于故障的定位的時效性跟準(zhǔn)確性是比較頭疼的問題,是希望找各種工具來完善的。
我們這次采用的是智維數(shù)據(jù)的nCompass可視化智能流量監(jiān)控平臺。其實(shí)我們在采用現(xiàn)在這套工具之前,我們也上了很多運(yùn)維監(jiān)測類的其他工具,有關(guān)于主機(jī)性能的,數(shù)據(jù)庫性能的,還有整個機(jī)房的環(huán)控這些,但是問題在于每個環(huán)節(jié)都是一個獨(dú)立診斷模型,碰到一個跨系統(tǒng)的故障的時候,我們就需要運(yùn)維團(tuán)隊(duì)的每個人都把自己負(fù)責(zé)的系統(tǒng)狀態(tài)報一下,故障出在哪里只能憑團(tuán)隊(duì)的運(yùn)維經(jīng)驗(yàn)去猜測,導(dǎo)致我們的診斷機(jī)制跟定位的精度都不是太高,想要縮窄對業(yè)務(wù)的影響面那就更難了。
記者:這次采用新的網(wǎng)絡(luò)運(yùn)維工具,實(shí)現(xiàn)了哪些目標(biāo)?
劉翰騰:nCompass可視化智能流量監(jiān)控平臺(以下簡稱nCompass)就像保衛(wèi)部安防監(jiān)控的總控室,它可以知道醫(yī)院整體的各個服務(wù)環(huán)節(jié)之間的通訊過程,知道誰找誰的時候變化量是多少,性能延遲是多大,流量有多高。各個環(huán)節(jié)之間的通訊流量回溯的時候,可以為定位診斷故障的原因提供一個更好的視角。從整體到局部的故障定位會加速很多,提高了人效和準(zhǔn)確性。
3:從創(chuàng)新技術(shù)到醫(yī)療應(yīng)用場景的落地,支撐前、中、后端臺高效運(yùn)轉(zhuǎn)的秘訣
記者:能不能請您介紹幾個流量監(jiān)控平臺幫助解決運(yùn)維故障定位的例子?
案例1 全景影像無法打開
劉翰騰:我們影像有兩類典型用戶,一類是放射科的醫(yī)生,因?yàn)樗鶕?jù)檢查的影像寫報告,如果他的診斷報告沒出來,那么外科比如需要做一些手術(shù)干預(yù)前,要等這些意見的時候,就會降低臨床的工作效率了。另外一類用戶是其他科室的醫(yī)生,他可能也會自己直接去看影像結(jié)果,比如說門診的醫(yī)生,他要對病人的病情做評估,去做一些門診處方的判定等,如果這個影像慢,也會直接影響到門診病人流量的周轉(zhuǎn),就會導(dǎo)致門診排隊(duì)。還有我們正在開發(fā)的第三個業(yè)務(wù),就是“云膠片”。以后可能會允許病人在手機(jī)端直接打開影像,病人可以拿這個影像給第三方的醫(yī)生看。如果這個體驗(yàn)不好,那么其他醫(yī)生在會診時可能就會覺得這個資料我不看了,我就看其它的,這個對醫(yī)療質(zhì)量的全面性就會有影響了?,F(xiàn)在有了nCompass以后,就能精準(zhǔn)定位到全景影像打開慢到底是哪里出了問題,知道該如何去優(yōu)化。
比如去年12月28日下午四點(diǎn)半左右很多用戶反饋訪問“全景影像系統(tǒng)”時出現(xiàn)頁面打不開無法訪問的情況。經(jīng)過nCompass可以看到一些指標(biāo)異常的情況,初步懷疑是F5負(fù)載節(jié)點(diǎn)出現(xiàn)了問題。


通過HTTP分析模板和數(shù)據(jù)包驗(yàn)證,可以得到分析結(jié)論,是由于掃描漏洞設(shè)備的瞬間大量訪問,觸發(fā)了F5安全保護(hù)機(jī)制,導(dǎo)致部分正常的業(yè)務(wù)訪問也無法進(jìn)行,從而引發(fā)此次故障。那么我們就很快進(jìn)行了針對性處理,使全景影像系統(tǒng)恢復(fù)了正常打開。
案例2 預(yù)約掛號慢
劉翰騰:還有比如我們門診的叫號系統(tǒng),醫(yī)生也經(jīng)常反映說叫號很慢,但是又不是全部科室的叫號慢,可能只是某個科室慢。這種情況下獨(dú)立看每一臺服務(wù)器的性能都正常,但是通過nCompass就可以發(fā)現(xiàn),原來服務(wù)器在調(diào)用某個科室時它的調(diào)用表的邏輯是有問題的。通過nCompass的模型可以細(xì)致定位出某個功能函數(shù)的入?yún)⒂袉栴},這一點(diǎn)已經(jīng)有很大的啟發(fā)性了。

案例3 電子申請單慢

劉翰騰:之前由于只是對設(shè)備的可用性進(jìn)行監(jiān)控,缺少應(yīng)用可用性方面的監(jiān)控,很多時候出現(xiàn)投訴時,很難找到問題所在。例如,門診醫(yī)生投訴訪問電子病歷慢,之前的工具只能對設(shè)備的可用性進(jìn)行監(jiān)控及排查,沒有辦法快速有效地評估客戶的使用體驗(yàn),判斷具體是訪問哪個URL慢,調(diào)用哪個參數(shù)以及查詢的哪個數(shù)據(jù)庫語句是有延遲的,無法對用戶訪問進(jìn)行全程的跟蹤。包括電子申請單,以前也是經(jīng)常被門診醫(yī)生投訴,等待電子申請單彈出的時間太長了,導(dǎo)致醫(yī)生門診的效率變低,患者體驗(yàn)不好。
現(xiàn)在我們也是通過這種流量模型來看,通過應(yīng)用的端到端視圖展現(xiàn)業(yè)務(wù)系統(tǒng)各節(jié)點(diǎn)的訪問關(guān)系以及運(yùn)行狀態(tài),可以做到實(shí)時監(jiān)控,而且視圖中的數(shù)據(jù)支持靈活的編輯、深度鉆取等功能,可以進(jìn)行業(yè)務(wù)邏輯梳理,形成各業(yè)務(wù)系統(tǒng)的端到端可視化監(jiān)控。當(dāng)故障發(fā)生時可通過指標(biāo)顏色以及數(shù)值的變化快速鎖定故障節(jié)點(diǎn)。這樣就可以幫助我們運(yùn)維人員很快找到到底是誰的通訊過程是有問題的。
4:展望:智慧醫(yī)療的IT架構(gòu)設(shè)計(jì)基礎(chǔ)是以用戶體驗(yàn)為核心
記者:未來對醫(yī)院的運(yùn)維自動化還有哪些建設(shè)想法?
劉翰騰:去年我院獲得“2020全國智慧醫(yī)院建設(shè)優(yōu)秀案例”授牌。這也是對我院堅(jiān)持信息技術(shù)創(chuàng)新,提升服務(wù)能力的階段性成果給予了充分肯定。作為醫(yī)院的技術(shù)支持部門,信息中心一直以用戶體驗(yàn)為核心,并積極探索優(yōu)化醫(yī)院IT資產(chǎn)管理效率的最佳實(shí)踐路徑。
目前在智能監(jiān)控方面我們已經(jīng)基本實(shí)現(xiàn)了精準(zhǔn)告警,那么在未來的運(yùn)維建設(shè)上,我們還有一些目標(biāo)想要實(shí)現(xiàn),比如在應(yīng)用的可用性監(jiān)測方面,使用智能基線跟蹤生產(chǎn)側(cè)的變化過程,基于AI算法及產(chǎn)品內(nèi)置的故障分析邏輯,實(shí)現(xiàn)告警事件自動化智能分析,提升故障的響應(yīng)效率。而在性能側(cè)方面通過深層次的隱患巡檢分析,能幫我們及時發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)運(yùn)行中的隱患問題,規(guī)避嚴(yán)重故障的發(fā)生。在安全側(cè)則想要建立及時預(yù)警的機(jī)制,比如基于網(wǎng)絡(luò)流量和防火墻配置,監(jiān)控防火墻實(shí)時狀態(tài),實(shí)現(xiàn)策略優(yōu)化、合規(guī)檢查和策略變更分析等。
這些都是我們下一步想通過nCompass平臺實(shí)現(xiàn)的技術(shù)能力,相信結(jié)合這些先進(jìn)的技術(shù)能力,會進(jìn)一步提升前端用戶體驗(yàn),提升我院的綜合服務(wù)能力。