開發排查系統問題用得最多的手段就是查看系統日志,在分布式環境中一般使用ELK來統一收集日志,但是在并發大時使用日志定位問題還是比較麻煩,我們來看下面的圖
上圖一個用戶請求一個url,整個鏈路如圖,每個處理層都會產生日志,那我們如何把這些日志串在一些,形成一個請求全路徑日志。
在現有的系統中,由于大量的其他用戶/其他線程的日志也一起輸出穿行其中導致很難篩選出指定請求的全部相關日志。那我們如何來處理呢?
解決思路
我們可以把每個請求弄一個唯一標識,然后我們可以在日志打印的時候代上每個請求都使用一個唯一標識,而且那個唯一標識需要傳遞給下游服務,下游服務打印日志的時候也帶上這個唯一標識,這樣就很好的追蹤全部的鏈路顯示在日志中。
那技術實現方案是什么呢?我們應該盡可能的對代碼無入侵,使用Logback的MDC機制日志模板中加入traceId標識,取值方式為%X{traceId}。
什么是MDC
MDC(MApped Diagnostic Context,映射調試上下文)是 log4j 和 logback 提供的一種方便在多線程條件下記錄日志的功能。MDC 可以看成是一個與當前線程綁定的Map,可以往其中添加鍵值對。
MDC 中包含的內容可以被同一線程中執行的代碼所訪問。當前線程的子線程會繼承其父線程中的 MDC 的內容。當需要記錄日志時,只需要從 MDC 中獲取所需的信息即可。MDC 的內容則由程序在適當的時候保存進去。對于一個 Web 應用來說,通常是在請求被處理的最開始保存這些數據。
方案實現
由于MDC內部使用的是ThreadLocal所以只有本線程才有效,子線程和下游的服務MDC里的值會丟失;所以方案主要的難點是解決值的傳遞問題,主要包括以幾下部分:
- API網關中的MDC數據如何傳遞給下游服務
- 服務如何接收數據,并且調用其他遠程服務時如何繼續傳遞
- 異步的情況下(線程池)如何傳給子線程
修改日志模板
logback配置文件日志格式添加該標識
網關添加過濾器
此過濾器就是來解決網關如何把MDC的數據傳遞給下游服務
生成traceId并通過header傳遞給下游服務
上面代碼有個MDC是屬于org.slf4j.MDC中的,下面就是常量的值
/**
* 日志鏈路追蹤id信息頭
*/
String TRACE_ID_HEADER = "x-traceId-header";
/**
* 日志鏈路追蹤id日志標志
*/
String LOG_TRACE_ID = "traceId";
下游服務增加spring攔截器
接收并保存traceId的值
下游服務增加feign攔截器
繼續把當前服務的traceId值傳遞給下游服務
解決父子線程傳遞問題
主要針對業務會使用線程池(異步、并行處理),并且spring自己也有@Async注解來使用線程池,要解決這個問題需要以下兩個步驟:
重寫logback的LogbackMDCAdapter
由于logback的MDC實現內部使用的是ThreadLocal不能傳遞子線程,所以需要重寫替換為阿里的TransmittableThreadLocal
TransmittableThreadLocal 是Alibaba開源的、用于解決 “在使用線程池等會緩存線程的組件情況下傳遞ThreadLocal” 問題的 InheritableThreadLocal 擴展。若希望 TransmittableThreadLocal 在線程池與主線程間傳遞,需配合TtlRunnable和TtlCallable使用。
其他代碼與
ch.qos.logback.classic.util.LogbackMDCAdapter一樣,只需改為調用copyOnInheritThreadLocal變量
TtlMDCAdapterInitializer類用于程序啟動時加載自己的mdcAdapter實現
擴展線程池實現
增加TtlRunnable和TtlCallable擴展
場景測試
測試代碼如下
log.info("測試")
@Async
public void test(){
log.info("測試1")
}
userService.findByUserName("gu")
api網關打印的日志
ELK聚合日志通過traceId查詢整條鏈路日志
當系統出現異常時,可直接通過該異常日志的traceId?的值,在日志中心中詢該請求的所有日志信息,類似下圖






