三、監控告警
監控告警是上線后的風險治理必要機制,一旦出現告警,我們可以第一時間排查和解決,防止更多的客訴產生。
1. RPC 層監控
? 超時監控
? 異常報錯
? 可用率
2. CACHE 監控
? redis 連接異常
? r2m 可用率
? r2m 容量
? r2m 主從切換
3. MQ 監控
? MQ 接收重復
? MQ 發送失敗
? MQ 內處理失敗
4. Task 監控
? 定時任務未執行
? 定時任務超時
? 定時任務執行異常
5. 業務異常監控
? 獲取鎖異常
? AKS 和防刷未通過異常
? 任務領獎 / 接取等異常
? 人群沒有權限
6. JVM 監控
? fullGc 日志與告警
? jvm 監控告警
7. 容器監控
? 實例存活
? CPU 負載 & 使用率
? 機器內存
8. DB 監控
? DB 層 CRUD 執行異常
? cleverBD 慢 SQL 定期巡查
? DB 查詢操作時間超長
? 線上環境(應用、數據庫、配置等)審批負責人是否為當前 leader
9. 利益點監控
? 營銷發獎失敗
? 庫存不足
? 活動未開始 / 已結束
? 被風控
? 防重失敗
? 單個用戶領取利益數量超過配置的警戒線
? 活動整體發放量超過配置的警戒線
? 其他異常失敗
10. 業務響應碼監控
? 第三方接口正常碼和異常碼配置來監控可用率
11. 配置校驗
? 獲取配置異常
? 配置中該配應配字段未配置
? 配置中字段配置類型異常
? 沒有符合當前時間的配置
? 活動已結束但仍然有大量用戶訪問
? 多個配置的時間點沖突
? 配置的獎勵 Id / 任務 Id 等在第三方接口未查詢到
? 每次運營修改配置,修改項通過告警發送到研發,對告警分等級
12. 活動資格校驗
? 繞開某個校驗告警
? 應是老用戶領獎但新用戶通過前置校驗進入領獎流程

作者:京東科技 胡駿
來源:京東云開發者社區 轉載請注明來源






