在上一篇推文中,我們使用時序數據庫 InfluxDb 做了流控數據存儲,但是數據存儲不是目的,分析監控預警才是最終目標,那么問題來了,如何更好的實現呢?用過阿里巴巴 Sentinel 控制臺的小伙伴,是不是覺得它的控制臺丑爆了,而且只有短短的五厘米,顯然不能滿足大部分人或者場景的使用。
架構

工具
- sentinel-dashboard(控制臺,收集數據)
- Influxdb(時序數據庫,存儲數據)
- Chronograf (展示控制臺,顯示數據并實現預警)
安裝
Sentinel 控制臺 和 時序數據庫 Influxdb 的安裝方式前面已經聊過,這里不再贅述,簡單說下 Chronograf 展示控制臺的安裝方式,這里推薦使用 Docker 安裝方式。
$ docker run -p 8888:8888 -v $PWD:/var/lib/chronograf chronograf
安裝成功以后,瀏覽器訪問 http://ip:8888 你應該看到一個歡迎頁面:

然后,自行配置數據源,根據業務場景組裝監控大屏。
大屏
這里根據 Sentinel 限流組件采集的數據,組裝了一個簡單的監控大屏,可以監控歷史訪問總量、最近一小時的訪問量、限流數以及最近幾分鐘或者幾小時的訪問曲線等等,相比于阿里演示版是不是瞬間高大上的些許。

總訪問量
SELECT SUM("successQps") AS "總訪問量" FROM "sentinel_log"."autogen"."sentinelInfo"
最近一小時訪問量
SELECT SUM("successQps") AS "訪問量" FROM "sentinel_log"."autogen"."sentinelInfo" WHERE TIME > NOW() - 1h
最近一小時限流數
SELECT SUM("blockQps") AS "限流數" FROM "sentinel_log"."autogen"."sentinelInfo" WHERE time > now() - 1h
最近一小時異常數
SELECT SUM("exceptionQps") AS "異常數" FROM "sentinel_log"."autogen"."sentinelInfo" WHERE time > now() - 1h
最近一小時的訪問趨勢圖(秒級別)
SELECT SUM("successQps") AS "訪問量" FROM "sentinel_log"."autogen"."sentinelInfo" WHERE time > now() - 1h GROUP BY time(1s)
最近12小時資源訪問排名
SELECT SUM("successQps") AS "成功qps", SUM("blockQps") AS "限流qps" FROM "sentinel_log"."autogen"."sentinelInfo" WHERE time > now() - 12h GROUP BY resource
預警
后期我們在 Chronograf 中接入 Kapacitor ,Chronograf會自動打開該Configure Alert Endpoints部分,Kapacitor支持多個警報端點/事件處理程序。有興趣的小伙伴也可以在 Sentinel 控制臺中根據流控數據進行更智能化的設置,比如根據限流失敗數以及機器指標動態調整流控規則。