數(shù)字化轉(zhuǎn)型趨勢下,各行業(yè)對數(shù)據(jù)生產(chǎn)力的探索與追求逐步進(jìn)入深水區(qū)。現(xiàn)實的問題是,企業(yè)數(shù)據(jù)倉庫存儲、數(shù)據(jù)湖多種技術(shù)并存的局面將長期存在,如何才能擺脫技術(shù)協(xié)同的內(nèi)耗,讓大數(shù)據(jù)直通生產(chǎn)力的彼岸?
8月11日下午,網(wǎng)易數(shù)帆于線上舉辦企業(yè)級流式湖倉服務(wù)Arctic開源發(fā)布會,宣布以開源的Arctic完善現(xiàn)有數(shù)據(jù)湖底座,拓展數(shù)據(jù)平臺的邊界,改善產(chǎn)品、數(shù)據(jù)孤島和流程規(guī)范割裂帶來的低效和成本浪費,推動湖倉一體、流批融合落地,實現(xiàn)數(shù)據(jù)生產(chǎn)力,驅(qū)動業(yè)務(wù)價值。
Arctic開源:不魔改,不封閉,推動數(shù)據(jù)生產(chǎn)力落地
面對網(wǎng)易的多元化業(yè)務(wù)、多元化技術(shù),網(wǎng)易數(shù)帆在推動數(shù)據(jù)生產(chǎn)力時遇到了文章開頭提到的問題,但網(wǎng)易數(shù)帆從基礎(chǔ)設(shè)施、數(shù)據(jù)研發(fā)、數(shù)據(jù)中臺到數(shù)據(jù)產(chǎn)品,建設(shè)了一套完善的大數(shù)據(jù)技術(shù)體系,并推廣應(yīng)用到金融、零售、流通、制造等行業(yè)三百余家客戶。
網(wǎng)易數(shù)帆大數(shù)據(jù)產(chǎn)品線總經(jīng)理余利華表示,這成果得益于網(wǎng)易數(shù)帆構(gòu)建大數(shù)據(jù)體系時的兩大技術(shù)原則:開放式架構(gòu)和開源。開放式架構(gòu)采用模塊化設(shè)計和大量開源組件實現(xiàn),這使得該體系能力全面、生命力強,同時建設(shè)成本低。當(dāng)然這也帶來了使用復(fù)雜、維護復(fù)雜的問題,而網(wǎng)易數(shù)帆通過融入開源社區(qū)解決這個問題,典型的如通過開源Apache Kyuubi構(gòu)建統(tǒng)一SQL網(wǎng)關(guān),為數(shù)據(jù)湖提供統(tǒng)一的入口。
網(wǎng)易數(shù)帆大數(shù)據(jù)產(chǎn)品線總經(jīng)理 余利華
參與到金融行業(yè)數(shù)字化轉(zhuǎn)型,讓網(wǎng)易數(shù)帆發(fā)現(xiàn)了新的挑戰(zhàn):金融企業(yè)希望融合實時數(shù)據(jù)湖與數(shù)據(jù)倉庫,打造實時數(shù)據(jù)中臺支撐其數(shù)字化業(yè)務(wù)創(chuàng)新。這本質(zhì)上正是湖倉一體的思路,但目前的主流數(shù)據(jù)湖技術(shù)等只解決了更新、大表訪問性能、流式消費等問題,仍然遺留小文件導(dǎo)致性能損耗、兼容性和流失更新等性能和易用性相關(guān)問題,而開源社區(qū)尚未出現(xiàn)對應(yīng)的解決方案。這就是網(wǎng)易數(shù)帆研發(fā)并開源流式湖倉服務(wù)Arctic項目的直接原因。
Arctic 是搭建在 Apache Iceberg之上的流式湖倉服務(wù)(Streaming LakeHouse Service)。通過 Arctic,用戶可以在 Flink、Spark、Trino 等引擎上實現(xiàn)更加優(yōu)化的 CDC、流式更新、OLAP 等功能, 結(jié)合數(shù)據(jù)湖高效的離線處理能力,Arctic 能夠服務(wù)于更多流批混用的場景;同時,Arctic 的結(jié)構(gòu)自優(yōu)化、并發(fā)沖突解決以及標(biāo)準(zhǔn)化的湖倉管理功能,可以有效減少用戶在數(shù)據(jù)湖管理和優(yōu)化上的負(fù)擔(dān)。
余利華表示,秉承開放式架構(gòu)原則,Arctic立足開源數(shù)據(jù)湖,拒絕魔改,不綁定計算引擎,注重與傳統(tǒng)數(shù)倉Hive的兼容。這是繼SQL統(tǒng)一入口之后,網(wǎng)易數(shù)帆大數(shù)據(jù)體系再次在存儲層面實現(xiàn)統(tǒng)一,這使得數(shù)據(jù)中臺體系可以無縫擴展到實時場景,企業(yè)數(shù)據(jù)生產(chǎn)力的發(fā)揮將不再被孤島所困擾。金融行業(yè)的應(yīng)用實踐,也驗證了這一思路的價值。
Arctic設(shè)計:重塑成本、性能和數(shù)據(jù)新鮮度的平衡
網(wǎng)易數(shù)帆大數(shù)據(jù)實時計算技術(shù)專家、湖倉一體項目負(fù)責(zé)人馬進(jìn)進(jìn)一步介紹了Arctic項目的目標(biāo)、特性、規(guī)劃以及給開源用戶帶來的價值。
馬進(jìn)表示,Arctic的定位是流式湖倉服務(wù),流式強調(diào)向?qū)崟r能力的拓展,服務(wù)則強調(diào)管理、標(biāo)準(zhǔn)化度量,以及其他可以抽象到基礎(chǔ)軟件中的湖倉一體能力。
網(wǎng)易數(shù)帆大數(shù)據(jù)實時計算技術(shù)專家、湖倉一體項目負(fù)責(zé)人 馬進(jìn)
當(dāng)前數(shù)據(jù)湖技術(shù)雖多,提供的都是各種數(shù)據(jù)湖格式,而非真正的湖倉一體平臺。這些格式已經(jīng)存在于企業(yè)環(huán)境,Arctic作為服務(wù)可以去適配不同的數(shù)據(jù)湖格式,使得企業(yè)無需擔(dān)心數(shù)據(jù)湖技術(shù)的選型問題,持續(xù)優(yōu)化數(shù)據(jù)分析能力,也讓數(shù)據(jù)流管理變得簡單。
在能力上,Arctic不僅提供了基于主鍵高效地流式更新,數(shù)據(jù)自動分桶、結(jié)構(gòu)自優(yōu)化的特性,還支持將數(shù)據(jù)湖和消息隊列封裝成統(tǒng)一的表,實現(xiàn)比傳統(tǒng)方案更低延遲的流批一體,從根本上優(yōu)雅地解決性能問題。另一方面,Arctic還提供流式數(shù)倉標(biāo)準(zhǔn)化的度量,dashboard 和相關(guān)管理工具,并為流批并發(fā)寫入提供事務(wù)性保障。
在架構(gòu)上,Arctic設(shè)計簡潔,只有AMS、optimizer和dashboard三個組件,在數(shù)據(jù)湖和計算引擎之間提供湖倉一體落地所需的能力,但卻支持Spark和Flink讀寫Trino查詢,百分百兼容Iceberg/Hive的表格式和語法,這使得它的使用成本很低。
馬進(jìn)還強調(diào)了Arctic定位的深層意義:“當(dāng)我們將數(shù)據(jù)湖的能力拓展到實時場景,成本、性能和數(shù)據(jù)新鮮度三者的關(guān)系將呈現(xiàn)更為復(fù)雜和微妙的狀態(tài),Arctic 的服務(wù)和管理功能,將為用戶和上層平臺理清這個三角關(guān)系。”
華泰證券:Arctic助力金融數(shù)智中臺實時湖倉完善
華泰證券大數(shù)據(jù)流計算技術(shù)專家陳豐介紹了Arctic在華泰數(shù)智中臺實時湖倉建設(shè)中發(fā)揮的作用。實時湖倉在華泰證券日內(nèi)數(shù)據(jù)離線加工、實時關(guān)聯(lián)大量歷史數(shù)據(jù)、金融數(shù)據(jù)頻繁修正、統(tǒng)一埋點加工鏈路等方面具有極大的價值,然而當(dāng)前數(shù)倉建設(shè)面臨流批鏈路分開建設(shè)、純實時業(yè)務(wù)邏輯復(fù)雜、數(shù)據(jù)存儲不統(tǒng)一、數(shù)據(jù)更新復(fù)雜以及演進(jìn)難等五大問題。
華泰證券大數(shù)據(jù)流計算技術(shù)專家 陳豐
“業(yè)界給出了Iceberg、Hudi等解決方案,但我們業(yè)務(wù)、平臺需要的不僅僅是單一的開源數(shù)據(jù)湖組件。”陳豐說,華泰證券對實時數(shù)據(jù)湖建設(shè)設(shè)定了流批一體、高性能低延遲、兼容現(xiàn)有Hive/Impala等多重目標(biāo)。
華泰證券與網(wǎng)易數(shù)帆合作,引入Arctic實現(xiàn)實時湖倉,并在融資融券、埋點日志運營等場景實現(xiàn)了良好的應(yīng)用和出色的性能。例如融資融券場景包括了大量歷史數(shù)據(jù)聯(lián)合計算,使用流式計算實現(xiàn)邏輯復(fù)雜。從離線架構(gòu)到實時架構(gòu),再到實時湖倉架構(gòu)的升級后,整體實現(xiàn)邏輯明了,且端到端延遲時間從T+1天縮短到了T+20分鐘。
社區(qū)規(guī)劃:歡迎所有成員貢獻(xiàn)、分享、協(xié)作
馬進(jìn)還介紹了Arctic開源社區(qū)的規(guī)劃,將為開發(fā)者、用戶等成員建立一個公開、自由的全球數(shù)據(jù)湖技術(shù)交流社區(qū),所有成員可通過貢獻(xiàn)、分享、協(xié)作的方式參與社區(qū)。
共建企業(yè)參與計劃同步啟動,華泰證券作為 Arctic 開源社區(qū)的首家共建單位,在 Arctic 項目開源之初率先了加入社區(qū)參與建設(shè),不僅作為用戶結(jié)合業(yè)務(wù)場景提供真實的使用反饋,也作為開發(fā)力量共同持續(xù)探索流式湖倉技術(shù)領(lǐng)域創(chuàng)新性功能。
未來,華泰證券將進(jìn)一步繁榮 Arctic 社區(qū)生態(tài),與Arctic 社區(qū)小伙伴一起,共同打造一款全球領(lǐng)先的流式湖倉服務(wù)創(chuàng)新產(chǎn)品,構(gòu)建繁榮的數(shù)據(jù)湖倉生態(tài)圈。