不懂優(yōu)雅停機,搞掛了線上服務該咋辦?
公司項目是用 consul 進行注冊的,在發(fā)布微服務的時候,總是會導致調用方出現(xiàn)一定幾率的調用失敗。一開始百思不得其解,后來咨詢了資深的同事才知道:原來是服務下線的時候沒有優(yōu)雅停機,沒有去 consul 將自己下線再停機,導致調用方拿到了舊的調用地址,導致調用失?。?/strong> 看來優(yōu)雅停機還是一個蠻重要的知識點,可不能忽略,今天就讓我們來盤盤它吧!
一、什么是優(yōu)雅停機?
在 Linux 世界里,一切都是資源。當我們啟動一個 JVM 的時候,我們就加載了許多的資源。而當我們關閉 JVM 的時候,JVM 只會釋放內(nèi)存這個資源,而其他資源是不會釋放的,例如:網(wǎng)絡連接、文件句柄等等。
Linux 的網(wǎng)絡連接數(shù)、文件句柄數(shù)都是有限的,如果我們沒有及時釋放,時間久了就會導致一些奇怪的問題。那么如何在 JVM 關閉的時候,釋放這些資源呢?答案就是:利用 Java 提供的 ShutdownHook 接口。 我們所說的優(yōu)雅停機,就是利用 Java 提供的 ShutdownHook 接口注冊一個鉤子,讓 JVM 在關閉之前執(zhí)行鉤子函數(shù)的代碼,讓其關閉對應的資源。
二、適用場景
在學會怎么使用優(yōu)雅停機之前,我們需要弄清楚優(yōu)雅停機適用于哪些場景,那我們就需要先弄清楚 JVM 關閉的幾種情況了。JVM 關閉的情況可以分為 3 大類 11 個情況,如下圖所示:
JVM 關閉的場景
在 JVM 關閉的 3 大類場景中,只有正常關閉與異常關閉是支持優(yōu)雅停機的,而強制關閉則是不支持的。下面我們通過三個例子來驗證一下。
1、JVM 正常關閉
JVM 正常關閉這種情況,我們只需要正常運行一個 main 函數(shù),然后為其注冊一個 ShutdownHook 即可,其代碼如下所示。
public class NormalShutdownTest {
public void start() {
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數(shù)被執(zhí)行,可以在這里關閉資源。")
));
}
public static void main(String[] args) {
new NormalShutdownTest().start();
System.out.println("主應用程序在執(zhí)行,正常關閉。");
}
}
輸出結果為:
主應用程序在執(zhí)行,正常關閉。
鉤子函數(shù)被執(zhí)行,可以在這里關閉資源。
可以看到鉤子函數(shù)的代碼正常執(zhí)行了。如果你在 main 函數(shù)增加 System.exit(0) 代碼,執(zhí)行之后的結果也還是一樣。這說明 JVM 正常關閉情況下,是支持優(yōu)雅停機的。
2、異常關閉
JVM 異常關閉這種情況,我們嘗試制造內(nèi)存溢出。只需要聲明一個 500 MB 的數(shù)組,然后設置 JVM 堆最大為 20 MB 即可(-Xmx20M),其代碼如下所示。
public class OomShutdownTest {
public void start() {
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數(shù)被執(zhí)行,可以在這里關閉資源")
));
}
public static void main(String[] args) throws Exception {
new OomShutdownTest().start();
System.out.println("主應用程序在執(zhí)行,內(nèi)存溢出關閉。");
byte[] b = new byte[500 * 1024 * 1024];
}
}
執(zhí)行結果為:
主應用程序在執(zhí)行,內(nèi)存溢出關閉。
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at tech.shuyi.javacodechip.shutdownhook.OomShutdownTest.main(OomShutdownTest.java:13)
鉤子函數(shù)被執(zhí)行,可以在這里關閉資源
可以看到 JVM 拋出了 OOM 錯誤,但是鉤子函數(shù)還是被執(zhí)行了。如果你在 main 函數(shù)中自行拋出 RuntimeException,鉤子函數(shù)也還是會被執(zhí)行。感興趣的朋友可以自行嘗試一下。
3、強制關閉
JVM 強制關閉這種情況,我們可以使用 Runtime.getRuntime().halt(1) 進行測試,其代碼如下所示。
public class ForceShutdownTest {
public void start() {
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數(shù)被執(zhí)行,可以在這里關閉資源。")
));
}
public static void main(String[] args) throws Exception {
new ForceShutdownTest().start();
System.out.println("主應用程序在執(zhí)行,強制關閉。");
Runtime.getRuntime().halt(1);
}
}
執(zhí)行結果:
主應用程序在執(zhí)行,強制關閉。
可以看到鉤子函數(shù)并沒有被執(zhí)行,所以 JVM 強制關閉這種場景不支持優(yōu)雅停機。
三、最佳實踐
看了上面的例子,看起來優(yōu)雅停機沒那么復雜嘛。實際上,優(yōu)雅停機用不好,很可能出現(xiàn)一些其他問題。這里給出幾個最佳實踐原則,幫助大家用好優(yōu)雅停機!
1、只注冊一個鉤子
我們都知道 JVM 可以注冊多個鉤子,而鉤子本質上是一個線程,可以并發(fā)執(zhí)行。那么就很可能出現(xiàn)鉤子之間相互依賴,這樣就會導致依賴死鎖了。另外,也可能因為多個鉤子操作同一個資源,導致資源競爭出現(xiàn)死鎖。因此,較好的一種方式就是只注冊一個鉤子,所有的資源釋放都在這個鉤子中操作。
2、確保線程安全
因為鉤子本質上也是一個線程,JVM 可能會并發(fā)執(zhí)行多個鉤子,JVM 并不保證它們的執(zhí)行順序,因此需要保證鉤子中的操作是線程安全的。當然了,如果你只有一個鉤子的話,那這個提示可以忽略了。
3、不要做耗時的操作
在鉤子中,不要做耗時的操作。因為當我們要關閉 JVM 時,用戶肯定是希望盡快關閉,因此鉤子中主要用于關閉殘留資源,不應該再做其他耗時的操作。
4、不要做注冊、移除鉤子的操作
在關閉鉤子中,不能執(zhí)行注冊、移除鉤子的操作,否則 JVM 拋出 IllegalStateException。
5、不要調用 System.exit () 操作
也不能調用 System.exit () 操作,但是調用 Runtime.halt() 操作是可以的。我想,這是因為調用 System.exit () 操作會導致循環(huán)進入鉤子,導致死循環(huán)吧。
6、需要考慮的資源
除了上面一些代碼上的操作需要考慮,我們還需要注意下面這些場景的處理:
池化資源的釋放:數(shù)據(jù)庫連接池、HTTP 連接池、線程池。
在處理線程的釋放:已經(jīng)被連接的 HTTP 請求。
MQ 消費者的處理:正在處理的消息。
隱形受影響的資源的處理:Zookeeper、Nacos 實例下線等。
四、應用案例
Java 提供的優(yōu)雅停機機制,可以說是許多框架的基礎。諸如 Spring、Consul 等中間件框架,都是利用 Java 提供的這個機制進行優(yōu)雅停機的。
1、Spring 的優(yōu)雅停機
例如 Spring 是基于 Java 語言開發(fā)的框架,那其也勢必依賴于 JVM 的 ShutdownHook。Spring 關于優(yōu)雅停機的代碼在 org.springframework.context.support.AbstractApplicationContext#registerShutdownHook 處,代碼如下圖所示。
@Override
public void registerShutdownHook() {
if (this.shutdownHook == null) {
// No shutdown hook registered yet.
this.shutdownHook = new Thread(SHUTDOWN_HOOK_THREAD_NAME) {
@Override
public void run() {
synchronized (startupShutdownMonitor) {
doClose();
}
}
};
// 增加 ShutdownHook 鉤子
Runtime.getRuntime().addShutdownHook(this.shutdownHook);
}
}
可以看到 Spring 在 registerShutdownHook() 函數(shù)里,注冊了一個關閉的鉤子,鉤子中調用了 doClose() 方法。
2、服務治理的優(yōu)雅停機
不論是 Dubbo 還是 Spring Cloud 的分布式服務框架,需要關注的是怎么能在服務停止前,先將提供者在注冊中心進行反注冊,然后在停止服務提供者,這樣才能保證業(yè)務系統(tǒng)不會產(chǎn)生各種 503、timeout 等現(xiàn)象。為了實現(xiàn)上述說到的效果,那么我們就必須關注優(yōu)雅停機這件事情。
彩蛋
我們都知道通過 kill -15 可以讓 JVM 優(yōu)雅停機,那我們是否可以監(jiān)聽特定的信號量,從而讓程序做特定的操作呢?例如:讓 JVM 監(jiān)聽第 12 信號量,然后打印一條日志,隨后優(yōu)雅停機。
答案是當然可以啦!我們只需要利用 Signal 類,并實現(xiàn)一個 SignHandler 類就可以了。其實現(xiàn)代碼如下所示:
public class CustomShutdownTest {
public void start() {
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數(shù)被執(zhí)行,可以在這里關閉資源。")
));
}
public static void main(String[] args) {
// custom signal kill
Signal sg = new Signal("USR2"); // kill -12 pid
Signal.handle(sg, new SignalHandler() {
@Override
public void handle(Signal signal) {
System.out.println("接收到信號量:" + signal.getName());
// 監(jiān)聽信號量,通過System.exit(0)正常關閉JVM,觸發(fā)關閉鉤子執(zhí)行收尾工作
System.exit(0);
}
});
// other logic
new CustomShutdownTest().start();
System.out.println("主應用程序在執(zhí)行,正常關閉。");
try {
Thread.sleep(30000);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
我們啟動該類后,先讓其休眠 30 秒,隨后用 jps 命令找到進程 ID,隨后運行 kill -USR2 PID 即可,如截圖所示。
隨后可以看到控制臺打印出如下消息:
主應用程序在執(zhí)行,正常關閉。
接收到信號量:USR2
鉤子函數(shù)被執(zhí)行,可以在這里關閉資源。
從上面消息我們知道,JVM 成功接收到了 USR2 信號量,也成功執(zhí)行了鉤子函數(shù)。搞定!
提示:其實 USR2 是 Linux 第 12 個信號量,是留給用戶使用的一個信號量。我們可以通過該信號量做一些定制化操作,從而實現(xiàn)更加復雜的功能。