亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

從流批一體、湖倉一體、NoETL、數(shù)據(jù)中臺到DataOps,現(xiàn)代數(shù)據(jù)分析領(lǐng)域熱詞迭出,企業(yè)如何抓住本質(zhì),經(jīng)營數(shù)據(jù)生產(chǎn)力以提質(zhì)增效?

9月26-27日,ArchSummit全球架構(gòu)師峰會杭州站舉辦,網(wǎng)易副總裁、網(wǎng)易杭州研究院執(zhí)行院長、網(wǎng)易數(shù)帆總經(jīng)理汪源受邀在會上發(fā)表主題演講,深入淺出地剖析了現(xiàn)代化數(shù)據(jù)分析架構(gòu)中最值得關(guān)注的三條主線,包括統(tǒng)一的基礎(chǔ)設(shè)施、統(tǒng)一的中間層和統(tǒng)一的數(shù)據(jù)資產(chǎn),并介紹了國內(nèi)外的相關(guān)技術(shù)實踐。

統(tǒng)一的基礎(chǔ)設(shè)施:流式湖倉,Iceberg+Arctic將成核心

統(tǒng)一的基礎(chǔ)設(shè)施要解決四大問題:湖倉一體、流批一體、標準格式和存算分離——不僅是文件格式,還包括表格式。汪源表示,理想的統(tǒng)一基礎(chǔ)設(shè)施是流式湖倉的基礎(chǔ)設(shè)施,即湖倉和流批都做到一體。除了最底層的對象存儲,目前已有可用的開源實現(xiàn)。

統(tǒng)一的基礎(chǔ)設(shè)施包括六層架構(gòu)。最底層是存儲層,往上是Parquet文件格式層,中間加了緩存加速層,用來彌補上層需求和底層對象存儲之間的性能差距,現(xiàn)在出現(xiàn)的有Alluxio、JuiceFS、CurveFS,其中CurveFS是網(wǎng)易數(shù)帆開源的一個文件存儲系統(tǒng)。

最核心的是最近兩三年出現(xiàn)了兩個新的層次,一個是表格式(table format),如Iceberg、Hudi,一個是表服務(wù)(table service),如Arctic。這兩個層次能夠讓底層大數(shù)據(jù)體系支持湖倉一體、實時更新、版本一致性、ACID等等,之前的大數(shù)據(jù)沒有這些功能,所以它無法做一些實時的分析服務(wù),只能做T+1的分析。最上層是分析引擎層。

汪源認為Iceberg是最有希望成為table format標準的項目。Iceberg從數(shù)據(jù)層面提供了ACID的能力,并且可以讀到任何時間點的數(shù)據(jù);第二個從元數(shù)據(jù)層面解決了HMS性能瓶頸,把原來集中式的元數(shù)據(jù)變成了分布式的元數(shù)據(jù),并且相當于給數(shù)據(jù)構(gòu)建了一個多級的索引,能夠支持高級過濾,這能解決很多問題。比如大數(shù)據(jù)場景常見千萬甚至億級文件的查詢,基于Hive的查詢啟動可能要花20分鐘,而Iceberg可以做到一分鐘以內(nèi),這是一個非常夸張的進步。

Arctic由網(wǎng)易數(shù)帆于2022年8月宣布開源,但在網(wǎng)易數(shù)帆內(nèi)部研發(fā)已經(jīng)將近三年。Arctic主要用來幫助Iceberg把整體的技術(shù)體系構(gòu)建完整,因為Iceberg只是一種格式,無法單獨形成面向分析性能最優(yōu)化的狀態(tài)。Arctic首先提供了基于Iceberg的自優(yōu)化的能力,以及upsert的功能,支持高效的數(shù)據(jù)更新。其次支持流批一體,流表和批表定義一致,可以復(fù)用。最后是兼容Hive和Iceberg,從而可以快速落地。

汪源認為,今天由Iceberg和Arctic共同構(gòu)建的這一層會成為一個新的事實的標準,在它下面有不同的存儲,在它上面有不同的計算體系。“這個中間基本上勝出的只有一家,不可能有多家,否則這個技術(shù)棧就混亂了。”

統(tǒng)一的中間層:數(shù)據(jù)倉庫+HeadlessBI

數(shù)據(jù)分析的過程,理想的狀態(tài)是理論大師們規(guī)劃的路線:在數(shù)據(jù)倉庫里面做好了所有的數(shù)據(jù)轉(zhuǎn)化,每一個團隊用很好的BI工具只做數(shù)據(jù)的展現(xiàn)和交互,所有的計算邏輯應(yīng)該都在數(shù)倉里面完成。但實際上每一個團隊都會在自己的BI里面去做很多的計算邏輯,這是數(shù)據(jù)倉庫的計算邏輯不夠用,導(dǎo)致計算邏輯分散的問題。汪源指出,大家在不同的BI產(chǎn)品中看到的數(shù)據(jù)口徑和結(jié)果的差異,就是由分散的計算邏輯帶來的。

解決該問題的“中國方案”是數(shù)據(jù)中臺,通過OneData、OneService、OneID,解決指標口徑不一致的問題,所有的口徑定義、計算邏輯都在中臺做好。數(shù)據(jù)中臺包括了數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫定義了一套規(guī)范的指標層,包括原始指標、派生指標、復(fù)合指標。上面是數(shù)據(jù)服務(wù)層,提供所有對外的數(shù)據(jù)。同時又引入了數(shù)據(jù)治理來保證中臺輸出的數(shù)據(jù)符合質(zhì)量和安全要求。

國際方案包括三個核心概念:Semantic Layer、HeadlessBI和Metric Layer。汪源認為最貼切的描述是HeadlessBI,以國外的Cube產(chǎn)品設(shè)計為例,數(shù)據(jù)輸入來自左邊的各種數(shù)倉,中間HeadlessBI要做的是數(shù)據(jù)建模、安全相關(guān)的訪問控制、性能加速,最后以API的方式提供給右邊的下游消費者,主要是BI工具以及嵌入式的分析。

在這個方向上,網(wǎng)易數(shù)帆強調(diào)的是開發(fā)和治理一體化,在建數(shù)倉、建指標等開發(fā)活動的過程中把數(shù)據(jù)治理同步完成,讓指標、模型等持續(xù)保持高質(zhì)量。此前,網(wǎng)易數(shù)帆發(fā)現(xiàn)很多客戶先找開發(fā)的方案來做開發(fā),做完之后發(fā)現(xiàn)數(shù)據(jù)質(zhì)量不佳,又去做數(shù)據(jù)治理的項目。汪源表示,在開發(fā)環(huán)節(jié)同時把開發(fā)治理做好了,就不會有這樣的后遺癥。

汪源對統(tǒng)一的中間層的期待,包括數(shù)據(jù)倉庫和HeadlessBI兩層,后者能做建模,包括指標,做權(quán)限、加速和服務(wù),同時把開發(fā)和治理一體化,通過統(tǒng)一的模型指標計算邏輯和口徑,實現(xiàn)事前事中事后的持續(xù)治理。這樣BI層可以真正聚焦在展現(xiàn)和交付上,汪源將其命名為“NecklessBI”,與HeadlessBI對應(yīng)。

汪源還強調(diào),在此過程中,ETL不會被消除,它只能被轉(zhuǎn)移或隱藏,因為從數(shù)據(jù)源到分析所需要的數(shù)據(jù)一定是有很多不匹配的,比較現(xiàn)實的是做ETL的自動化,即AutoETL。

統(tǒng)一的數(shù)據(jù)資產(chǎn):Data Fabric已落地

數(shù)據(jù)資產(chǎn)管理面臨的問題,是數(shù)據(jù)找不到,找到了看不懂,看了之后信不過、不敢用,管不牢等。汪源認為比較可行的思路就是分析機構(gòu)提出的Data Fabric,它的目的是實現(xiàn)數(shù)據(jù)的整合利用,它是一個架構(gòu)思想或者設(shè)計理念,并不綁定一個特定的技術(shù)實現(xiàn)。

Data Fabric和其他數(shù)據(jù)整合利用的方式有明顯的區(qū)別:數(shù)據(jù)倉庫或者數(shù)據(jù)中臺,比較強調(diào)數(shù)據(jù)的集中,同時也強調(diào)數(shù)據(jù)比較深度的預(yù)加工。數(shù)據(jù)湖強調(diào)數(shù)據(jù)的集中,但是它強調(diào)數(shù)據(jù)不要做太多的預(yù)加工,應(yīng)該按照原始的數(shù)據(jù)格式都存在湖里面,需要的時候再把它拿出來處理。Data Fabric則強調(diào)元數(shù)據(jù)的集中。

Data Fabric的實際落地需要構(gòu)建四個方面的核心能力,包括連接數(shù)據(jù)源、主動元數(shù)據(jù)(active metadata)、數(shù)據(jù)虛擬化和邏輯數(shù)據(jù)湖。汪源認為數(shù)據(jù)虛擬化能最大程度發(fā)揮Data Fabric的能力,因為它能夠在數(shù)據(jù)沒有完成集中之前就能夠做一定程度的利用,但并非所有的數(shù)據(jù)分析都可以基于數(shù)據(jù)虛擬化來做。網(wǎng)易數(shù)帆已經(jīng)落地的邏輯數(shù)據(jù)湖,也是Data Fabric的一種實現(xiàn),它從邏輯上看是一個湖,但是從物理實現(xiàn)上數(shù)據(jù)還是分散存儲在Hadoop、Oracle、MySQL等系統(tǒng)里面。

總結(jié)

總體來說,現(xiàn)代數(shù)據(jù)分析技術(shù)的三大主題,第一個是構(gòu)建一個統(tǒng)一的基礎(chǔ)設(shè)施,能夠支撐實時數(shù)據(jù)更新與消費,并且是開放、低成本的流式湖倉基礎(chǔ)設(shè)施。第二個是統(tǒng)一的中間層,包括數(shù)據(jù)倉庫和HeadlessBI兩個層次,要做到統(tǒng)一的模型、指標、計算邏輯和口徑,并實現(xiàn)事前事中事后持續(xù)的數(shù)據(jù)治理。第三個是統(tǒng)一的數(shù)據(jù)資產(chǎn),目的是企業(yè)全域數(shù)據(jù)資產(chǎn)的高效的發(fā)現(xiàn)、整合和管理,它在實現(xiàn)上能夠兼容各種風格的數(shù)據(jù)處理技術(shù)。

“我希望整個行業(yè)能夠往這些方向去聚焦,不要產(chǎn)生太多的相互割裂的概念。”汪源說。

分享到:
標簽:迭出 值得關(guān)注 分析 數(shù)據(jù) 汪源
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定