如何加快 Node.js 應(yīng)用的啟動速度

我們平時在開發(fā)部署 Node.js 應(yīng)用的過程中，對于應(yīng)用進程啟動的耗時很少有人會關(guān)注，大多數(shù)的應(yīng)用 5 分鐘左右就可以啟動完成，這個過程中會涉及到和集團很多系統(tǒng)的交互，這個耗時看起來也沒有什么問題。

目前，集團 Serverless 大潮已至，Node.js serverless-runtime 作為前端新研發(fā)模式的基石，也發(fā)展的如火如荼。Serverless 的優(yōu)勢在于彈性、高效、經(jīng)濟，如果我們的 Node.js FaaS 還像應(yīng)用一樣，一次部署耗時在分鐘級，無法快速、有效地響應(yīng)請求，甚至在脈沖請求時引發(fā)資源雪崩，那么一切的優(yōu)勢都將變成災(zāi)難。

所有提供 Node.js FaaS 能力的平臺，都在絞盡腦汁的把冷/熱啟動的時間縮短，這里面除了在流程、資源分配等底層基建的優(yōu)化外，作為其中提供服務(wù)的關(guān)鍵一環(huán) —— Node.js 函數(shù)，本身也應(yīng)該參與到這場時間攻堅戰(zhàn)中。

Faas平臺從接到請求到啟動業(yè)務(wù)容器并能夠響應(yīng)請求的這個時間必須足夠短，當(dāng)前的總目標(biāo)是 500ms，那么分解到函數(shù)運行時的目標(biāo)是 100ms。這 100ms 包括了 Node.js 運行時、函數(shù)運行時、函數(shù)框架啟動到能夠響應(yīng)請求的時間。巧的是，人類反應(yīng)速度的極限目前科學(xué)界公認為 100ms。

Node.js 有多快

在我們印象中 Node.js 是比較快的，敲一段代碼，馬上就可以執(zhí)行出結(jié)果。那么到底有多快呢？

以最簡單的 console.log 為例（例一），代碼如下：

// console.js
console.log(process.uptime() * 1000);

在 Node.js 最新 LTS 版本 v10.16.0 上，在我們個人工作電腦上：

node console.js
// 平均時間為 86ms
time node console.js
// node console.js 0.08s user 0.03s system 92% cpu 0.114 total

看起來，在 100ms 的目標(biāo)下，留給后面代碼加載的時間不多了。。。

在來看看目前函數(shù)平臺提供的容器里的執(zhí)行情況：

node console.js
// 平均時間在 170ms
time node console.js
// real 0m0.177s
// user 0m0.051s
// sys 0m0.009s

Emmm… 情況看起來更糟了。

我們在引入一個模塊看看，以 serverless-runtime 為例（例二）：

// require.js
console.time('load');
require('serverless-runtime');
console.timeEnd('load');

本地環(huán)境：

node reuqire.js
// 平均耗時 329ms

服務(wù)器環(huán)境：

node require.js
// 平均耗時 1433ms

我枯了。。。

這樣看來，從 Node.js 本身加載完，然后加載一個函數(shù)運行時，就要耗時 1700ms。

看來 Node.js 本身并沒有那么快，我們 100ms 的目標(biāo)看起來很困難啊！

為什么這么慢

為什么會運行的這么慢？而且兩個環(huán)境差異這么大？我們需要對整個運行過程進行分析，找到耗時比較高的點，這里我們使用 Node.js 本身自帶的 profile 工具。

node --prof require.js
node --prof-process isolate-xxx-v8.log > result
[Summary]:
ticks total nonlib name
 60 13.7% 13.8% JAVAScript
 371 84.7% 85.5% C++
 10 2.3% 2.3% GC
 4 0.9% Shared libraries
 3 0.7% Unaccounted
[C++]:
ticks total nonlib name
 198 45.2% 45.6% node::contextify::ContextifyScript::New(v8::FunctionCallbackInfo<v8::Value> const&)
 13 3.0% 3.0% node::fs::InternalModuleStat(v8::FunctionCallbackInfo<v8::Value> const&)
 8 1.8% 1.8% void node::Buffer::(anonymous namespace)::StringSlice<(node::encoding)1>(v8::FunctionCallbackInfo<v8::V
alue> const&)
 5 1.1% 1.2% node::GetBinding(v8::FunctionCallbackInfo<v8::Value> const&)
 4 0.9% 0.9% __memmove_ssse3_back
 4 0.9% 0.9% __GI_mprotect
 3 0.7% 0.7% v8::internal::StringTable::LookupStringIfExists_NoAllocate(v8::internal::String*)
 3 0.7% 0.7% v8::internal::Scavenger::ScavengeObject(v8::internal::HeapObjectReference**, v8::internal::HeapObject*)
 3 0.7% 0.7% node::fs::Open(v8::FunctionCallbackInfo<v8::Value> const&)

對運行時啟動做同樣的操作

[Summary]:
ticks total nonlib name
 236 11.7% 12.0% JavaScript
 1701 84.5% 86.6% C++
 35 1.7% 1.8% GC
 47 2.3% Shared libraries
 28 1.4% Unaccounted
[C++]:
ticks total nonlib name
 453 22.5% 23.1% t node::fs::Open(v8::FunctionCallbackInfo<v8::Value> const&)
 319 15.9% 16.2% T node::contextify::ContextifyContext::CompileFunction(v8::FunctionCallbackInfo<v8::Value> const&)
 93 4.6% 4.7% t node::fs::InternalModuleReadJSON(v8::FunctionCallbackInfo<v8::Value> const&)
 84 4.2% 4.3% t node::fs::Read(v8::FunctionCallbackInfo<v8::Value> const&)
 74 3.7% 3.8% T node::contextify::ContextifyScript::New(v8::FunctionCallbackInfo<v8::Value> const&)
 45 2.2% 2.3% t node::fs::InternalModuleStat(v8::FunctionCallbackInfo<v8::Value> const&)
 ...

可以看到，整個過程主要耗時是在 C++ 層面，相應(yīng)的操作主要為 Open、ContextifyContext、CompileFunction。這些調(diào)用通常是出現(xiàn)在 require 操作中，主要覆蓋的內(nèi)容是模塊查找，加載文件，編譯內(nèi)容到 context 等。

看來，require 是我們可以優(yōu)化的第一個點。

如何更快

從上面得知，主要影響我們啟動速度的是兩個點，文件 I/O 和代碼編譯。我們分別來看如何優(yōu)化。

? 文件 I/O

整個加載過程中，能夠產(chǎn)生文件 I/O 的有兩個操作：

一、查找模塊

因為 Node.js 的模塊查找其實是一個嗅探文件在指定目錄列表里是否存在的過程，這其中會因為判斷文件存不存在，產(chǎn)生大量的 Open 操作，在模塊依賴比較復(fù)雜的場景，這個開銷會比較大。

二、讀取模塊內(nèi)容

找到模塊后，需要讀取其中的內(nèi)容，然后進入之后的編譯過程，如果文件內(nèi)容比較多，這個過程也會比較慢。

那么，如何能夠減少這些操作呢？既然模塊依賴會產(chǎn)生很多 I/O 操作，那把模塊扁平化，像前端代碼一樣，變成一個文件，是否可以加快速度呢？

說干就干，我們找到了社區(qū)中一個比較好的工具 ncc，我們把 serverless-runtime 這個模塊打包一次，看看效果。

服務(wù)器環(huán)境：

ncc build node_modules/serverless-runtime/src/index.ts
node require.js
// 平均加載時間 934ms

看起來效果不錯，大概提升了 34% 左右的速度。

但是，ncc 就沒有問題嘛？我們寫了如下的函數(shù)：

import * as _ from 'lodash';
import * as Sequelize from 'sequelize';
import * as Pandorajs from 'pandora';
console.log('lodash: ', _);
console.log('Sequelize: ', Sequelize);
console.log('Pandorajs: ', Pandorajs);

測試了啟用 ncc 前后的差異：

可以看到，ncc 之后啟動時間反而變大了。這種情況，是因為太多的模塊打包到一個文件中，導(dǎo)致文件體積變大，整體加載時間延長。可見，在使用 ncc 時，我們還需要考慮 tree-shaking 的問題。

? 代碼編譯

我們可以看到，除了文件 I/O 外，另一個耗時的操作就是把 Javascript 代碼編譯成 v8 的字節(jié)碼用來執(zhí)行。我們的很多模塊，是公用的，并不是動態(tài)變化的，那么為什么每次都要編譯呢？能不能編譯好了之后，以后直接使用呢？

這個問題，V8 在 2015 年已經(jīng)替我們想到了，在 Node.js v5.7.0 版本中，這個能力通過 VM.Script 的 cachedData暴露了出來。而且，這些 cache 是跟 V8 版本相關(guān)的，所以一次編譯，可以在多次分發(fā)。

我們先來看下效果：

//使用 v8-compile-cache 在本地獲得 cache，然后部署到服務(wù)器上
node require.js
// 平均耗時 868ms

大概有 40% 的速度提升，看起來是一個不錯的工具。

但它也不夠完美，在加載 code cache 后，所有的模塊加載不需要編譯，但是還是會有模塊查找所產(chǎn)生的文件 I/O 操作。

? 黑科技

如果我們把 require 函數(shù)做下修改，因為我們在函數(shù)加載過程中，所有的模塊都是已知已經(jīng) cache 過的，那么我們可以直接通過 cache 文件加載模塊，不用在查找模塊是否存在，就可以通過一次文件 I/O 完成所有的模塊加載，看起來是很理想的。

不過，可能對遠程調(diào)試等場景不夠優(yōu)化，源碼索引上會有問題。這個，之后會做進一步嘗試。

近期計劃

有了上面的一些理論驗證，我們準(zhǔn)備在生產(chǎn)環(huán)境中將上述優(yōu)化點，如：ncc、code cache，甚至 require 的黑科技，付諸實踐，探索在加載速度，用戶體驗上的平衡點，以取得速度上的提升。

其次，會 review 整個函數(shù)運行時的設(shè)計及業(yè)務(wù)邏輯，減少因為邏輯不合理導(dǎo)致的耗時，合理的業(yè)務(wù)邏輯，才能保證業(yè)務(wù)的高效運行。

最后，Node.js 12 版本對內(nèi)部的模塊默認做了 code cache，對 Node.js 默認進程的啟動速度提升比較明顯，在服務(wù)器環(huán)境中，可以控制在 120ms 左右，也可以考慮引用嘗試下。

未來思考

其實，V8 本身還提供了像 Snapshot 這樣的能力，來加快本身的加載速度，這個方案在 Node.js 桌面開發(fā)中已經(jīng)有所實踐，比如 NW.js、Electron 等，一方面能夠保護源碼不泄露，一方面還能加快進程啟動速度。Node.js 12.6 的版本，也開啟了 Node.js 進程本身的在 user code 加載前的 Snapshot 能力，但目前看起來啟動速度提升不是很理想，在 10% ~ 15% 左右。我們可以嘗試將函數(shù)運行時以 Snapshot 的形式打包到 Node.js 中交付，不過效果我們暫時還沒有定論，現(xiàn)階段先著手于比較容易取得成果的方案，硬骨頭后面在啃。

另外，Java 的函數(shù)計算在考慮使用 GraalVM 這樣方案，來加快啟動速度，可以做到 10ms 級，不過會失去一些語言上的特性。這個也是我們后續(xù)的一個研究方向，將函數(shù)運行時整體編譯成 LLVM IR，最終轉(zhuǎn)換成 native 代碼運行。不過又是另一塊難啃的骨頭。

作者：杜佳昆（凌恒）