我們平時在開發(fā)部署 Node.js 應(yīng)用的過程中,對于應(yīng)用進程啟動的耗時很少有人會關(guān)注,大多數(shù)的應(yīng)用 5 分鐘左右就可以啟動完成,這個過程中會涉及到和集團很多系統(tǒng)的交互,這個耗時看起來也沒有什么問題。
目前,集團 Serverless 大潮已至,Node.js serverless-runtime 作為前端新研發(fā)模式的基石,也發(fā)展的如火如荼。Serverless 的優(yōu)勢在于彈性、高效、經(jīng)濟,如果我們的 Node.js FaaS 還像應(yīng)用一樣,一次部署耗時在分鐘級,無法快速、有效地響應(yīng)請求,甚至在脈沖請求時引發(fā)資源雪崩,那么一切的優(yōu)勢都將變成災(zāi)難。
所有提供 Node.js FaaS 能力的平臺,都在絞盡腦汁的把冷/熱啟動的時間縮短,這里面除了在流程、資源分配等底層基建的優(yōu)化外,作為其中提供服務(wù)的關(guān)鍵一環(huán) —— Node.js 函數(shù),本身也應(yīng)該參與到這場時間攻堅戰(zhàn)中。
Faas平臺從接到請求到啟動業(yè)務(wù)容器并能夠響應(yīng)請求的這個時間必須足夠短,當(dāng)前的總目標(biāo)是 500ms,那么分解到函數(shù)運行時的目標(biāo)是 100ms。這 100ms 包括了 Node.js 運行時、函數(shù)運行時、函數(shù)框架啟動到能夠響應(yīng)請求的時間。巧的是,人類反應(yīng)速度的極限目前科學(xué)界公認為 100ms。
Node.js 有多快
在我們印象中 Node.js 是比較快的,敲一段代碼,馬上就可以執(zhí)行出結(jié)果。那么到底有多快呢?
以最簡單的 console.log 為例(例一),代碼如下:
// console.js console.log(process.uptime() * 1000);
在 Node.js 最新 LTS 版本 v10.16.0 上,在我們個人工作電腦上:
node console.js // 平均時間為 86ms time node console.js // node console.js 0.08s user 0.03s system 92% cpu 0.114 total
看起來,在 100ms 的目標(biāo)下,留給后面代碼加載的時間不多了。。。
在來看看目前函數(shù)平臺提供的容器里的執(zhí)行情況:
node console.js // 平均時間在 170ms time node console.js // real 0m0.177s // user 0m0.051s // sys 0m0.009s
Emmm… 情況看起來更糟了。
我們在引入一個模塊看看,以 serverless-runtime 為例(例二):
// require.js console.time('load'); require('serverless-runtime'); console.timeEnd('load');
本地環(huán)境:
node reuqire.js // 平均耗時 329ms
服務(wù)器環(huán)境:
node require.js // 平均耗時 1433ms
我枯了。。。
這樣看來,從 Node.js 本身加載完,然后加載一個函數(shù)運行時,就要耗時 1700ms。
看來 Node.js 本身并沒有那么快,我們 100ms 的目標(biāo)看起來很困難啊!
為什么這么慢
為什么會運行的這么慢?而且兩個環(huán)境差異這么大?我們需要對整個運行過程進行分析,找到耗時比較高的點,這里我們使用 Node.js 本身自帶的 profile 工具。
node --prof require.js node --prof-process isolate-xxx-v8.log > result [Summary]: ticks total nonlib name 60 13.7% 13.8% JAVAScript 371 84.7% 85.5% C++ 10 2.3% 2.3% GC 4 0.9% Shared libraries 3 0.7% Unaccounted [C++]: ticks total nonlib name 198 45.2% 45.6% node::contextify::ContextifyScript::New(v8::FunctionCallbackInfo<v8::Value> const&) 13 3.0% 3.0% node::fs::InternalModuleStat(v8::FunctionCallbackInfo<v8::Value> const&) 8 1.8% 1.8% void node::Buffer::(anonymous namespace)::StringSlice<(node::encoding)1>(v8::FunctionCallbackInfo<v8::V alue> const&) 5 1.1% 1.2% node::GetBinding(v8::FunctionCallbackInfo<v8::Value> const&) 4 0.9% 0.9% __memmove_ssse3_back 4 0.9% 0.9% __GI_mprotect 3 0.7% 0.7% v8::internal::StringTable::LookupStringIfExists_NoAllocate(v8::internal::String*) 3 0.7% 0.7% v8::internal::Scavenger::ScavengeObject(v8::internal::HeapObjectReference**, v8::internal::HeapObject*) 3 0.7% 0.7% node::fs::Open(v8::FunctionCallbackInfo<v8::Value> const&)
對運行時啟動做同樣的操作
[Summary]: ticks total nonlib name 236 11.7% 12.0% JavaScript 1701 84.5% 86.6% C++ 35 1.7% 1.8% GC 47 2.3% Shared libraries 28 1.4% Unaccounted [C++]: ticks total nonlib name 453 22.5% 23.1% t node::fs::Open(v8::FunctionCallbackInfo<v8::Value> const&) 319 15.9% 16.2% T node::contextify::ContextifyContext::CompileFunction(v8::FunctionCallbackInfo<v8::Value> const&) 93 4.6% 4.7% t node::fs::InternalModuleReadJSON(v8::FunctionCallbackInfo<v8::Value> const&) 84 4.2% 4.3% t node::fs::Read(v8::FunctionCallbackInfo<v8::Value> const&) 74 3.7% 3.8% T node::contextify::ContextifyScript::New(v8::FunctionCallbackInfo<v8::Value> const&) 45 2.2% 2.3% t node::fs::InternalModuleStat(v8::FunctionCallbackInfo<v8::Value> const&) ...
可以看到,整個過程主要耗時是在 C++ 層面,相應(yīng)的操作主要為 Open、ContextifyContext、CompileFunction。這些調(diào)用通常是出現(xiàn)在 require 操作中,主要覆蓋的內(nèi)容是模塊查找,加載文件,編譯內(nèi)容到 context 等。
看來,require 是我們可以優(yōu)化的第一個點。
如何更快
從上面得知,主要影響我們啟動速度的是兩個點,文件 I/O 和代碼編譯。我們分別來看如何優(yōu)化。
? 文件 I/O
整個加載過程中,能夠產(chǎn)生文件 I/O 的有兩個操作:
一、查找模塊
因為 Node.js 的模塊查找其實是一個嗅探文件在指定目錄列表里是否存在的過程,這其中會因為判斷文件存不存在,產(chǎn)生大量的 Open 操作,在模塊依賴比較復(fù)雜的場景,這個開銷會比較大。
二、讀取模塊內(nèi)容
找到模塊后,需要讀取其中的內(nèi)容,然后進入之后的編譯過程,如果文件內(nèi)容比較多,這個過程也會比較慢。
那么,如何能夠減少這些操作呢?既然模塊依賴會產(chǎn)生很多 I/O 操作,那把模塊扁平化,像前端代碼一樣,變成一個文件,是否可以加快速度呢?
說干就干,我們找到了社區(qū)中一個比較好的工具 ncc,我們把 serverless-runtime 這個模塊打包一次,看看效果。
服務(wù)器環(huán)境:
ncc build node_modules/serverless-runtime/src/index.ts node require.js // 平均加載時間 934ms
看起來效果不錯,大概提升了 34% 左右的速度。
但是,ncc 就沒有問題嘛?我們寫了如下的函數(shù):
import * as _ from 'lodash'; import * as Sequelize from 'sequelize'; import * as Pandorajs from 'pandora'; console.log('lodash: ', _); console.log('Sequelize: ', Sequelize); console.log('Pandorajs: ', Pandorajs);
測試了啟用 ncc 前后的差異:

可以看到,ncc 之后啟動時間反而變大了。這種情況,是因為太多的模塊打包到一個文件中,導(dǎo)致文件體積變大,整體加載時間延長。可見,在使用 ncc 時,我們還需要考慮 tree-shaking 的問題。
? 代碼編譯
我們可以看到,除了文件 I/O 外,另一個耗時的操作就是把 Javascript 代碼編譯成 v8 的字節(jié)碼用來執(zhí)行。我們的很多模塊,是公用的,并不是動態(tài)變化的,那么為什么每次都要編譯呢?能不能編譯好了之后,以后直接使用呢?
這個問題,V8 在 2015 年已經(jīng)替我們想到了,在 Node.js v5.7.0 版本中,這個能力通過 VM.Script 的 cachedData暴露了出來。而且,這些 cache 是跟 V8 版本相關(guān)的,所以一次編譯,可以在多次分發(fā)。
我們先來看下效果:
//使用 v8-compile-cache 在本地獲得 cache,然后部署到服務(wù)器上 node require.js // 平均耗時 868ms
大概有 40% 的速度提升,看起來是一個不錯的工具。
但它也不夠完美,在加載 code cache 后,所有的模塊加載不需要編譯,但是還是會有模塊查找所產(chǎn)生的文件 I/O 操作。
? 黑科技
如果我們把 require 函數(shù)做下修改,因為我們在函數(shù)加載過程中,所有的模塊都是已知已經(jīng) cache 過的,那么我們可以直接通過 cache 文件加載模塊,不用在查找模塊是否存在,就可以通過一次文件 I/O 完成所有的模塊加載,看起來是很理想的。
不過,可能對遠程調(diào)試等場景不夠優(yōu)化,源碼索引上會有問題。這個,之后會做進一步嘗試。
近期計劃
有了上面的一些理論驗證,我們準(zhǔn)備在生產(chǎn)環(huán)境中將上述優(yōu)化點,如:ncc、code cache,甚至 require 的黑科技,付諸實踐,探索在加載速度,用戶體驗上的平衡點,以取得速度上的提升。
其次,會 review 整個函數(shù)運行時的設(shè)計及業(yè)務(wù)邏輯,減少因為邏輯不合理導(dǎo)致的耗時,合理的業(yè)務(wù)邏輯,才能保證業(yè)務(wù)的高效運行。
最后,Node.js 12 版本對內(nèi)部的模塊默認做了 code cache,對 Node.js 默認進程的啟動速度提升比較明顯,在服務(wù)器環(huán)境中,可以控制在 120ms 左右,也可以考慮引用嘗試下。
未來思考
其實,V8 本身還提供了像 Snapshot 這樣的能力,來加快本身的加載速度,這個方案在 Node.js 桌面開發(fā)中已經(jīng)有所實踐,比如 NW.js、Electron 等,一方面能夠保護源碼不泄露,一方面還能加快進程啟動速度。Node.js 12.6 的版本,也開啟了 Node.js 進程本身的在 user code 加載前的 Snapshot 能力,但目前看起來啟動速度提升不是很理想,在 10% ~ 15% 左右。我們可以嘗試將函數(shù)運行時以 Snapshot 的形式打包到 Node.js 中交付,不過效果我們暫時還沒有定論,現(xiàn)階段先著手于比較容易取得成果的方案,硬骨頭后面在啃。
另外,Java 的函數(shù)計算在考慮使用 GraalVM 這樣方案,來加快啟動速度,可以做到 10ms 級,不過會失去一些語言上的特性。這個也是我們后續(xù)的一個研究方向,將函數(shù)運行時整體編譯成 LLVM IR,最終轉(zhuǎn)換成 native 代碼運行。不過又是另一塊難啃的骨頭。
作者:杜佳昆(凌恒)