亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

企業(yè)如何找到數(shù)據(jù)、了解數(shù)據(jù)以及使用數(shù)據(jù)?

這離不開數(shù)據(jù)目錄的能力。數(shù)據(jù)目錄有著類似于“字典”的作用,能夠幫助數(shù)據(jù)生產(chǎn)者和使用者快速定位數(shù)據(jù)、解釋數(shù)據(jù)、找到數(shù)據(jù),并從中提取業(yè)務(wù)價(jià)值。

對(duì)以研發(fā)人員為代表的數(shù)據(jù)生產(chǎn)者來說,他們利用數(shù)據(jù)目錄來組織、梳理各類元數(shù)據(jù)。例如,數(shù)據(jù)生產(chǎn)者會(huì)將元數(shù)據(jù)以目錄等形式編排到一起,方便維護(hù),并通過打業(yè)務(wù)標(biāo)簽、添加應(yīng)用場(chǎng)景描述、字段解釋等豐富業(yè)務(wù)相關(guān)屬性。

對(duì)于數(shù)據(jù)分析師、產(chǎn)品、運(yùn)營等數(shù)據(jù)使用者來說,他們通過數(shù)據(jù)目錄來查找和理解數(shù)據(jù),例如通過關(guān)鍵字檢索,或目錄瀏覽,來查找業(yè)務(wù)場(chǎng)景數(shù)據(jù),并瀏覽詳情介紹、字段描述、產(chǎn)出關(guān)系等,進(jìn)一步理解并利用數(shù)據(jù)決策。

在字節(jié)跳動(dòng),也有這么一套被內(nèi)部廣泛使用的數(shù)據(jù)目錄系統(tǒng)。目前,該系統(tǒng)已通過火山引擎DataLeap數(shù)據(jù)地圖平臺(tái)對(duì)外輸出。外部用戶也可以在DataLeap數(shù)據(jù)地圖平臺(tái),收集、組織、訪問和補(bǔ)充元數(shù)據(jù)信息,為自身數(shù)據(jù)建設(shè)和治理提供支持。

圖片 1.png

火山引擎DataLeap數(shù)據(jù)地圖平臺(tái)-數(shù)據(jù)目錄

要構(gòu)建一套擴(kuò)展性強(qiáng)、易維護(hù)且易用的數(shù)據(jù)目錄系統(tǒng)并非易事。在大數(shù)據(jù)領(lǐng)域,各類計(jì)算和存儲(chǔ)系統(tǒng)百花齊放,概念和原理又千差萬別,對(duì)于元數(shù)據(jù)的采集、組織、理解、信任等,都帶來了很大挑戰(zhàn)。

在調(diào)研各個(gè)開源軟件及技術(shù)體系基礎(chǔ)上,火山引擎DataLeap選擇基于Apache Atlas改造,而這套數(shù)據(jù)目錄系統(tǒng)主要依賴五大關(guān)鍵技術(shù):

第一,數(shù)據(jù)模型統(tǒng)一。一方面,DataLeap通過充分復(fù)用各種元數(shù)據(jù)類型間的相似能力,獲得數(shù)據(jù)模型定制靈活性;另一方面,DataLeap將數(shù)據(jù)源關(guān)聯(lián)的能力進(jìn)行收斂到一起,以降低后續(xù)的維護(hù)成本。

第二,數(shù)據(jù)接入標(biāo)準(zhǔn)化。當(dāng)用戶接入新的元數(shù)據(jù)時(shí),只需要重新編寫Source和Diff Operator,而其他組件可直接復(fù)用,以標(biāo)準(zhǔn)化的connector節(jié)省接入和運(yùn)維成本。

第三,搜索優(yōu)化。在數(shù)據(jù)目錄中,搜索是用戶最廣泛使用的功能,也是用戶找數(shù)主要的手段。搜索優(yōu)化可分為離線部分和在線部分。離線部分負(fù)責(zé)匯集各類與搜索相關(guān)的數(shù)據(jù),完成數(shù)據(jù)清洗或者模型訓(xùn)練,再根據(jù)不同的用途,寫入不同的存儲(chǔ),供給在線搜索模塊使用。在線部分則分為搜索理解、召回、精排三個(gè)主要階段,步驟和概念與通用搜索引擎對(duì)齊。

第四,血緣能力。完備的血緣能力,既可以幫助數(shù)據(jù)生產(chǎn)者梳理、組織元數(shù)據(jù),也可以幫助數(shù)據(jù)消費(fèi)者找數(shù)、理解數(shù)據(jù)上下文。火山引擎DataLeap在設(shè)計(jì)上充分考慮血緣鏈路的多樣性和復(fù)雜性,并在血緣質(zhì)量上,通過定義有效的血緣準(zhǔn)確率、覆蓋率和時(shí)效性,確保血緣信息準(zhǔn)確、全面和實(shí)時(shí)性。

第五,存儲(chǔ)層優(yōu)化。當(dāng)業(yè)務(wù)中有越來越多的元數(shù)據(jù)接入數(shù)據(jù)目錄,圖存儲(chǔ)中的點(diǎn)和邊將分別到達(dá)百萬和千萬量級(jí),造成讀寫性能出現(xiàn)問題。在讀優(yōu)化和寫優(yōu)化層面,火山引擎DataLeap分別通過開啟MutilPreFetch 能力、去除Guid全局唯一性檢查,最終實(shí)現(xiàn)小表性能小于100ms、中表性能2~5s、大表性能0.5~1min。

據(jù)介紹,火山引擎DataLeap能幫助企業(yè)快速完成數(shù)據(jù)集成、開發(fā)、運(yùn)維、治理、資產(chǎn)、安全等全套數(shù)據(jù)中臺(tái)建設(shè),其中數(shù)據(jù)目錄能力主要涵蓋在數(shù)據(jù)地圖平臺(tái),該平臺(tái)通過提供數(shù)據(jù)檢索、元數(shù)據(jù)詳情查看、數(shù)據(jù)理解等功能,解決找數(shù)難、理解數(shù)據(jù)難的痛點(diǎn),同時(shí)支持?jǐn)?shù)據(jù)專題、血緣圖譜、數(shù)據(jù)發(fā)現(xiàn)、庫表管理等特色功能。

圖片 2.png

目前,火山引擎DataLeap的數(shù)據(jù)地圖平臺(tái)已接入全鏈路核心元數(shù)據(jù),包括LAS、MySQL、ByteHouse CE、ByteHouse CDW、TOS、LasFS、EMR hive等,提供可視化的血緣關(guān)系展示能力,幫助用戶全面的探查了解數(shù)據(jù),支持表、字段級(jí)別血緣可視化查詢,以及按層級(jí)、范圍篩選展示,為用戶提供靈活、易用的數(shù)據(jù)服務(wù)。(作者:于宇燦)

分享到:
標(biāo)簽:火山引擎DataLeap:五個(gè)關(guān)鍵技術(shù) 幫助企業(yè)搭建“數(shù)據(jù)目錄” 熱點(diǎn)資訊
用戶無頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績?cè)u(píng)定