亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

秉承網(wǎng)易數(shù)帆“架構(gòu)開放,內(nèi)核開源”的理念,Arctic即將開源!

8月11日,網(wǎng)易數(shù)帆將舉辦“企業(yè)級流式湖倉服務(wù) Arctic 開源發(fā)布會”,邀請網(wǎng)易數(shù)帆大數(shù)據(jù)產(chǎn)品線及合作伙伴相關(guān)負(fù)責(zé)人聯(lián)袂解讀對數(shù)據(jù)技術(shù)演進(jìn)及 Arctic 開源的思考,介紹 Arctic 項目進(jìn)展、未來發(fā)展及社區(qū)規(guī)劃,分享企業(yè)湖倉一體實踐成果與心得。

數(shù)據(jù)基礎(chǔ)設(shè)施發(fā)展的腳步從未停歇,當(dāng)前風(fēng)頭正盛的是湖倉一體(Lakehouse)。

湖倉一體,顧名思義是數(shù)據(jù)湖和數(shù)據(jù)倉庫優(yōu)勢的結(jié)合。隨著企業(yè)數(shù)智化的推進(jìn),湖倉一體已不僅僅是開源社區(qū)的熱點技術(shù),硅谷頂級風(fēng)頭投機(jī)構(gòu)A16Z版圖的視野中心,更是眾多大數(shù)據(jù)商業(yè)產(chǎn)品家族的重要成員。

那么,湖倉一體真的會成為企業(yè)大數(shù)據(jù)基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)?我們是否應(yīng)當(dāng)關(guān)注這一技術(shù)?它的未來是什么?

為什么需要湖倉一體

借用Databricks的定義,湖倉一體平臺能同時提供數(shù)據(jù)倉庫的可靠性、強(qiáng)大的治理和性能,以及數(shù)據(jù)湖的開放性、靈活性和機(jī)器學(xué)習(xí)支持。網(wǎng)易數(shù)帆湖倉一體項目負(fù)責(zé)人馬進(jìn)認(rèn)為,湖倉一體是接力Apache Hadoop蓬勃生態(tài)的新賽道,它的核心特性就是在數(shù)據(jù)湖上構(gòu)建事務(wù)層,把數(shù)據(jù)處理和管理高級功能嫁接到低成本數(shù)據(jù)存儲架構(gòu)上。這是業(yè)務(wù)需求驅(qū)動的架構(gòu)演進(jìn),畢竟業(yè)務(wù)數(shù)據(jù)類型及規(guī)模不斷擴(kuò)大,而對計算實時性的要求又更高。

以網(wǎng)易為例,從T+1 離線數(shù)據(jù)生產(chǎn),到引入實時化并不斷完善,如引入Apache Kudu解決Hive離線數(shù)倉在實時數(shù)據(jù)更新上的不足,形成了流批分割的Lambda架構(gòu)(這也是業(yè)界大數(shù)據(jù)架構(gòu)演進(jìn)的一個縮影),然后數(shù)據(jù)孤島、研發(fā)體系割裂以及指標(biāo)和語義的二義性等問題逐漸暴露,這就需要一個更加優(yōu)雅的統(tǒng)一數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu),也就是湖倉一體來解決。基于數(shù)據(jù)湖開源三劍客(Delta Lake、Apache Iceberg、Apache Hudi)的實現(xiàn)方案,則成為了熱門的選擇。

網(wǎng)易數(shù)帆流式湖倉的創(chuàng)新

盡管在造詞法上Lakehouse確實是Data Lake和Data Warehouse的縫合怪,然而要成為生產(chǎn)級的新技術(shù),湖倉一體畢竟不是數(shù)據(jù)湖和數(shù)據(jù)倉庫1+1=2那么簡單。在馬進(jìn)看來,目前湖倉一體方案存在兩大不足:一是所讀即所寫,會產(chǎn)生流式攝取導(dǎo)致海量小文件等問題;二是實時能力不足,比如基于湖倉一體的流計算延遲在分鐘級別。

基于此,馬進(jìn)帶領(lǐng)團(tuán)隊研發(fā)了命名為Arctic的流式湖倉服務(wù),提出了五個設(shè)計目標(biāo):提供可靠的湖倉一體服務(wù),解決主流湖倉一體的不足,面向更多流批一體的場景,盡可能不要重復(fù)造輪子,和尋求代際型解決方案。

技術(shù)方案上,Arctic搭建在Iceberg表格式之上,復(fù)用Iceberg各種功能,并完全兼容Hive。Arctic面向流場景提供優(yōu)化的CDC(變更數(shù)據(jù)獲?。┖土魇礁履芰?,也可以開放式地集成 MQ、KV 等中間件,向 Flink、Spark、Trino 等主流計算引擎提供流批統(tǒng)一的表服務(wù),以實現(xiàn)數(shù)據(jù)湖和數(shù)倉的統(tǒng)一,并融入實時的能力,流計算延遲可達(dá)毫秒級。

由此,Arctic 可視為一個獨(dú)立的實時數(shù)倉服務(wù),用戶無需關(guān)心數(shù)據(jù)存儲結(jié)構(gòu)、大小和分布,或是否引入其他中間件。

流式湖倉的未來

三十年前,西方學(xué)者面對社會變遷發(fā)出“歷史的終結(jié)”的感慨,但歷史已經(jīng)給這一論斷打臉。那么,流式湖倉又是否會成為現(xiàn)代大數(shù)據(jù)基礎(chǔ)架構(gòu)的終點?回顧數(shù)據(jù)分析領(lǐng)域,先后出現(xiàn)的數(shù)據(jù)倉庫、OLAP、BI、大數(shù)據(jù)、數(shù)據(jù)中臺等各種方法論,都已融入企業(yè)數(shù)據(jù)生命周期,而底層的Hadoop體系依然在廣泛使用,我們有理由相信,流式湖倉服務(wù)這一源自業(yè)務(wù)需求的設(shè)計,實現(xiàn)方式可能會升級,但這一思想必將長存于數(shù)據(jù)基礎(chǔ)設(shè)施。

從A16Z的全景圖我們也可以看到,企業(yè)級數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)的穩(wěn)定往往伴隨著長時間的沉淀,而Arctic開放的架構(gòu)及對Hadoop生態(tài)的兼容,已經(jīng)預(yù)示著它的生命力。

分享到:
標(biāo)簽:網(wǎng)易 助推 開源 落地 Arctic 湖倉一體
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定