亞馬遜旗下的云服務(wù)巨頭AWS,近期對(duì)其旗艦級(jí)機(jī)器學(xué)習(xí)平臺(tái)SageMaker實(shí)施了一系列重大革新,此舉旨在深度優(yōu)化用戶(hù)體驗(yàn),并在激烈的市場(chǎng)競(jìng)爭(zhēng)中搶占先機(jī)。此次升級(jí)的核心亮點(diǎn)包括引入全新的監(jiān)控能力、無(wú)縫對(duì)接本地開(kāi)發(fā)環(huán)境,以及對(duì)GPU集群的高效管理。
自2024年起,SageMaker平臺(tái)已轉(zhuǎn)型為一個(gè)集數(shù)據(jù)整合、多種機(jī)器學(xué)習(xí)工具于一體的綜合解決方案中心。AWS此次改版的重心,在于幫助用戶(hù)精準(zhǔn)定位模型性能下滑的根源,并賦予他們更廣泛的權(quán)限來(lái)精細(xì)調(diào)配計(jì)算資源。
在接受《VentureBeat》專(zhuān)訪時(shí),AWS SageMaker的掌舵人Ankur Mehrotra透露,許多創(chuàng)新功能的靈感均源自用戶(hù)的直接反饋。他指出,生成AI模型的客戶(hù)經(jīng)常遇到的一個(gè)難題是,當(dāng)模型運(yùn)行出現(xiàn)問(wèn)題時(shí),難以迅速鎖定故障的具體層級(jí)。
為破解這一難題,SageMaker引入了HyperPod監(jiān)控功能,使工程師得以全面審視計(jì)算層、網(wǎng)絡(luò)層等多個(gè)維度的狀態(tài)。一旦模型性能出現(xiàn)波動(dòng),系統(tǒng)會(huì)立即觸發(fā)警報(bào),并在儀表盤(pán)上實(shí)時(shí)展示相關(guān)性能指標(biāo)。
除了監(jiān)控功能的增強(qiáng),SageMaker還新增了本地集成開(kāi)發(fā)環(huán)境(IDE)的接入選項(xiàng),這一改動(dòng)意味著工程師可以在本地編寫(xiě)AI項(xiàng)目后,無(wú)縫遷移至平臺(tái)進(jìn)行部署。Mehrotra強(qiáng)調(diào),以往本地編碼的模型只能在本地運(yùn)行,這大大限制了開(kāi)發(fā)者的擴(kuò)展能力。如今,通過(guò)AWS的安全遠(yuǎn)程執(zhí)行功能,用戶(hù)無(wú)論是在本地還是在托管IDE上開(kāi)發(fā),都能輕松與SageMaker連接,靈活應(yīng)對(duì)多樣化的工作需求。
AWS在2023年12月推出的SageMaker HyperPod,旨在為用戶(hù)提供訓(xùn)練模型服務(wù)器集群的高效管理工具。HyperPod能夠根據(jù)實(shí)際需求模式智能調(diào)度GPU資源,助力用戶(hù)實(shí)現(xiàn)資源與成本的完美平衡。AWS表示,許多客戶(hù)都希望能在推理任務(wù)中也享受到類(lèi)似的服務(wù)。考慮到推理任務(wù)往往集中在白天,而訓(xùn)練任務(wù)則多安排在非高峰時(shí)段,這一新功能無(wú)疑為開(kāi)發(fā)者提供了更高的靈活性。
盡管在基礎(chǔ)模型領(lǐng)域,亞馬遜或許不如谷歌和微軟那般耀眼,但AWS始終致力于為企業(yè)構(gòu)建AI模型、應(yīng)用或代理提供堅(jiān)實(shí)可靠的基礎(chǔ)設(shè)施支持。除了SageMaker之外,AWS還推出了Bedrock平臺(tái),專(zhuān)門(mén)服務(wù)于應(yīng)用和代理的構(gòu)建需求。隨著SageMaker的持續(xù)升級(jí),AWS在企業(yè)AI領(lǐng)域的競(jìng)爭(zhēng)力正日益凸顯。






