作者:李鵬博
愛可生 DBA 團(tuán)隊(duì)成員,主要負(fù)責(zé) MySQL 故障處理和 SQL 審核優(yōu)化。對(duì)技術(shù)執(zhí)著,為客戶負(fù)責(zé)。
本文來(lái)源:原創(chuàng)投稿
*愛可生開源社區(qū)出品,原創(chuàng)內(nèi)容未經(jīng)授權(quán)不得隨意使用,轉(zhuǎn)載請(qǐng)聯(lián)系小編并注明來(lái)源。
作者自畫像
MySQL 8 添加了新的 clone 插件,被用于 MGR 的分布式恢復(fù)當(dāng)中,也可以用來(lái)進(jìn)行物理備份恢復(fù)。
但是在進(jìn)行 clone 操作的過(guò)程中,當(dāng)拉取數(shù)據(jù)完成并進(jìn)行自動(dòng)重啟 server 時(shí),總是會(huì)出現(xiàn)重啟失敗的現(xiàn)象,如:
日志報(bào)錯(cuò)提示 RESTART 失敗,需要在后面手動(dòng)重啟,錯(cuò)誤代碼3707,即:ERROR 3707 (HY000): Restart server failed (mysqld is not managed by supervisor process)。
而在關(guān)于 clone 的官方文檔相關(guān)鏈接:https://dev.mysql.com/doc/refman/8.0/en/clone-plugin-remote.html中,也特別說(shuō)明了這個(gè)報(bào)錯(cuò):
意思說(shuō)是當(dāng) recipient server 在 clone 數(shù)據(jù)拉取完成后會(huì)進(jìn)行重啟操作,前提是監(jiān)控進(jìn)程可用。而當(dāng)出現(xiàn)相關(guān)報(bào)錯(cuò)時(shí)也不用擔(dān)心,并不能說(shuō)明 clone 失敗了,隨后只需要手動(dòng)重啟就可以了。
通過(guò)上面的日志和官方文檔我們得到了出現(xiàn)重啟失敗的兩個(gè)線索:RESTART 、監(jiān)控進(jìn)程。
先看關(guān)于 RESTART 的相關(guān)官方文檔說(shuō)明(https://dev.mysql.com/doc/refman/8.0/en/restart.html):
通過(guò)這段文檔我們可以知道,如果想要成功執(zhí)行“RESTART”命令,需要有一個(gè)監(jiān)控進(jìn)程,所以“RESTART”執(zhí)行成功與否的關(guān)鍵就在于這個(gè)監(jiān)控進(jìn)程,而這個(gè)監(jiān)控進(jìn)程到底是什么文檔在后面也進(jìn)行了說(shuō)明:
這時(shí)候我們就知道在類 Unix 系統(tǒng)中使用 systemd 或 mysqld_safe 來(lái)實(shí)現(xiàn)這個(gè)監(jiān)控進(jìn)程。
但是有時(shí)當(dāng)我們使用自建的 systemd 的 MySQL service 服務(wù)時(shí),依舊不能實(shí)現(xiàn)自動(dòng)重啟,而問(wèn)題的關(guān)鍵還是在于沒有配置好相關(guān)的監(jiān)控進(jìn)程,我們可以參考官方 rpm 包安裝 MySQL Server 時(shí)生成的 systemd 的 service 文件的“[Service]”區(qū)域:
Restart=on-failure
RestartPreventExitStatus=1
# Set enviroment variable MYSQLD_PARENT_PID. This is required for restart.
Environment=MYSQLD_PARENT_PID=1
官方的 systemd 的 service 文件已經(jīng)指出了如果想要實(shí)現(xiàn)自動(dòng)重啟,最重要的就是要設(shè)置“Environment=MYSQLD_PARENT_PID=1”,PID為1的進(jìn)程就是 systemd 的進(jìn)程。
而官方設(shè)置的重啟時(shí)機(jī)是“on-failure” , 即數(shù)據(jù)庫(kù)當(dāng)遇到異常宕機(jī)、進(jìn)程中斷信號(hào)或監(jiān)控超時(shí)時(shí)就會(huì)進(jìn)行重啟,但是當(dāng)數(shù)據(jù)庫(kù)異常宕機(jī)時(shí),有時(shí)我們并不想讓數(shù)據(jù)庫(kù)立刻自動(dòng)重啟,而是需要在運(yùn)維和開發(fā)人員確認(rèn)過(guò)問(wèn)題之后進(jìn)行手動(dòng)重啟,這時(shí)候我們就需要調(diào)整自動(dòng)重啟的策略。
在“RESTART”相關(guān)的官方文檔中,明確指出了“RESTART”命令執(zhí)行時(shí)數(shù)據(jù)庫(kù)關(guān)閉時(shí)的退出狀態(tài)碼:16。這時(shí)我們就可以設(shè)置只有當(dāng)數(shù)據(jù)庫(kù)退出狀態(tài)碼為16時(shí)才進(jìn)行自動(dòng)重啟,而在其余情況下不會(huì)進(jìn)行自動(dòng)重啟,MySQL 的 systemd 的 service 的“[Service]”區(qū)域進(jìn)行如下配置:
RestartForceExitStatus=16
RestartPreventExitStatus=1
# Set enviroment variable MYSQLD_PARENT_PID. This is required for restart.
Environment=MYSQLD_PARENT_PID=1
“RestartForceExitStatus=16”的意思就是說(shuō)不管是否配置了“Restart=”,當(dāng)服務(wù)的退出狀態(tài)碼為16時(shí)都會(huì)進(jìn)行自動(dòng)重啟,這樣就解決了 clone 自動(dòng)重啟失敗的問(wèn)題,同時(shí)也保證了數(shù)據(jù)庫(kù)在其他異常情況下不會(huì)進(jìn)行自動(dòng)重啟。
如給 MySQL 發(fā)送中斷信號(hào)時(shí)不會(huì)自動(dòng)重啟:
當(dāng)執(zhí)行 clone 操作時(shí)可以自動(dòng)重啟
沒有了之前的報(bào)錯(cuò),進(jìn)行自動(dòng)重啟






