亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

一、基本概念1.1數倉發展歷史


 


 

數據湖是以集中方式存儲各種類型數據,提供彈性的 容量和吞吐能力,能夠覆蓋廣泛的數據源,支持多種計算與處理分析引擎直接對數據進行訪問的統一存儲平臺。它 能夠實現數據分析、機器學習,數據訪問和管理等細粒度的授權、審計等功能。

數據湖對存取的數據沒有格式類型的限制,數據產生后,可以按照數據的原始內容和屬性,直接存儲到數據湖, 無需在數據上傳之前對數據進行任何的結構化處理。數據湖可以存儲結構化數據(如關系型數據庫中的表),半結 構化數據(如 CSV、JSON 、XML、日志等),非結構化數據(如電子郵件、文檔、PDF 等)以及二進制數據 (如圖形、音頻、視頻等)

1.2數據湖、數據倉、湖倉一體發展歷程


 

(1)數據倉庫,適合結構化數據,但不適合非結構化數據。

(2)數據湖:支持多種格式存儲數據庫。但不支持事務處理、不保證數據質量in過去缺乏一致性/隔離性,無法實現混合追加和讀取數據,以及完成批處理和流式作業。

(3)lakehouse:直接在用于數據湖的低成本存儲上實現與數據倉庫中類似的數據結構和數據管理功能。

1.3數據湖

1.3.1數據湖特征

 

  • 保真性,有一份業務原始數據,對業務數據一模一樣完整拷貝。
  • 靈活性,讀取型Schema,數據邏輯處理延后
  • 可管理,數據管理能力,包括數據源、數據連接、數據格式、數據schema(庫/表/列/行),權限等。
  • 可追溯,數據生命周期管理,定義、接入、存儲、處理、分析、應用全過程,可清楚重現數據完整產生過程和流動過程。
  • 豐富計算引擎,批處理+流式技術+交互式分析+機器學習。
  • 多模態的存儲引擎

 

1.3.2數據湖架構


 


 

通用數據湖架構


 

1.3.3云原生數據湖的特征


 

1.4數據湖與數據倉庫對比


 

首先,數據捕獲時未定義架構。數據湖在功能上可以實現各種類型數據的存儲,數據湖中的數據可以是非結構 化的、未處理的形態,數據可以在確定需要使用時才會對數據進行對應處理與轉換;而數據倉庫則通常存放的是經 過處理的、結構化的數據,數據存儲的 Schema 在數據存儲之前就需要被定義好。

其次,存儲到數據湖中的數據通常會按照原始形態直接存儲,隨著業務和使用場景的發展,會使用不同的計算 存儲的數據進行分析與處理,數據湖中的數據在一個企業組織中通常會被多個不同應用、系統和部門使覆蓋的場景廣泛并且范圍也會動態延展,因此需要提供更多的靈活性以適應快速變化的應用場景;數據通常使用場景是在數據收集期間就已經明確,數據倉庫通常集中在 BI、業務、運營等商業決策相關場 倉庫也可以把已經存在的數據轉換到新場景,但在靈活性方面不如數據湖,需要有更多的數據轉換時間 投入。


 

1.5批處理和流式處理區別:

(1)數據范圍:批處理對數據集中的所有或大部分數據進行查詢或處理。流處理對滾動時間窗口內的數據或僅對最近的數據記錄進行查詢或處理。

(2)數據大小 ,批處理針對的是大批量數據(如GB或者PB級別)。流處理針對的是單條記錄或包含幾條記錄的微批數據(如KB或者MB)。

(3)性能 ,批處理所需的時間一般是幾分鐘至幾小時的延遲。流處理所需的時間幾毫秒至幾秒的延遲。

(4)場景 ,批處理使用的場景分析起來很復雜。流處理只需要簡單的響應調用,聚合和滾動指標。


 

二、阿里大數據治理平臺2.1產品架構

DataWorks(大數據開發治理平臺)是阿里云重要的PaaS(Platform-as-a-Service)平臺產品,為您提供數據集成、數據開發、數據地圖、數據質量和數據服務等全方位的產品服務,一站式開發管理的界面,幫助企業專注于數據價值的挖掘和探索。

DataWorks支持多種計算和存儲引擎服務,包括離線計算MaxCompute、開源大數據引擎E-MapReduce、實時計算(基于Flink)、機器學習PAI、云原生數據倉庫 AnalyticDB for PostgreSQL,云原生數據倉庫AnalyticDB for MySQL,并且支持用戶自定義接入計算和存儲服務。DataWorks為您提供全鏈路智能大數據及AI開發和治理服務。


 

 

  • 全面托管的調度
    • DataWorks提供強大的調度功能,詳情請參見調度配置。
      • 支持根據時間、依賴關系,進行任務觸發的機制。詳情請參見時間屬性配置說明和配置同周期調度依賴。
      • 支持每日千萬級別大規模周期性任務調度,其將根據DAG關系準確、準時地運行。
      • 支持分鐘、小時、天、周、月、年多種調度周期配置。

 

 

    • 完全托管的服務,無需關心調度的服務器資源問題。
    • 提供隔離功能,確保不同租戶之間的任務不會相互影響。
  • DataWorks提供豐富的節點類型,詳情可參考:選擇數據開發節點。全面的引擎能力封裝,讓您無需接觸復雜的引擎命令行。并提供自定義節點插件化機制,支持您擴展計算任務類型,自主接入自定義計算服務,同時,支持您結合DataWorks其他節點進行復雜數據處理。
    • 數據集成:依托DataWorks中數據集成的強力支撐,支持超過20種數據源,為您提供穩定高效的數據傳輸功能。詳情請參見數據集成。
    • 數據轉化:
      • 依托引擎強大的能力,保證了大數據的分析處理性能。例如:創建ODPS SQL節點、ODPS spark、EMR Hive、EMR MR等節點。
      • 提供通用類型節點,,結合引擎節點可實現復雜數據分析處理過程。例如:賦值節點、do-while、for-each等節點。
      • 支持自定義節點,通過自定義計算服務進行數據開發。關于自定義節點配置詳情,可參考文檔:概述。
  • 可視化開發DataWorks提供可視化的代碼開發、工作流設計器頁面,無需搭配任何開發工具,簡單拖拽和開發,即可完成復雜的數據分析任務。詳情請參見界面功能點介紹。只要有瀏覽器有網絡,您即可隨時隨地進行開發工作。
  • 監控告警運維中心提供可視化的任務監控管理工具,支持以DAG圖的形式展示任務運行時的全局情況,詳情請參見運維中心。您可以方便地配置各類報警方式,任務發生錯誤可及時通知相關人員,保證業務正常運行。詳情請參見智能監控。
2.2功能介紹

 

2.2.1數據集成

數據集成有兩個定位,第一是數據中臺對接外界核心樞紐,即對接云上系統之間數據流轉的打通;第二是跨云跨網一站式數據傳輸,即在數據集成中,所有數據的進出都可以提供一站式的解決方案。


 


 


 

批量配置數據源和批量配置同步任務。

向導模式和腳本模式,向導模式配置數據源后,參數自動生成。

過程:選擇數據源-添加同步任務。

規則類型,8種,例如,目標表前綴;新增字段、字段賦值;目標表子端替換;


 

同步任務運行方式:測試運行、補數據運行和周期運行。

同步速度調優:任務切分(切分鍵、作業并發數)、資源占用;

 

  • 切分鍵,切分源端數據;并發數小于DMU兩倍。
    • 資源單位DMU,為完成同步需要占用的CPU、內存、網絡資源
    • 任務DMU<=5,并發資源數<=10
  • 自定義資源組,獨占資源,利用專線+獨占資源=提高速度

 

2.2.2數據建模


 

DataWorks 數據建模同時支持關系(ER、3NF)建模和維度建模(星型,雪花)。不同類型的模型沒有最好,只有更適合。用戶應該從企業的實際場景出發選擇建模方式。根據經驗總結,大多數企業都會同時存在以上兩種建模方式,底層模型用關系建模,力求做到數據精簡,往上維度建模就更適合,靠數據冗余帶來可用性、分析性和可操作性。


 


 

2.2.3數據開發-降本增效利器

DataWorks數據開發(DataStudio、StreamStudio、HoloStudio)面向各引擎提供可視化開發的主界面,賦予用戶智能代碼開發、多引擎混編工作流、規范化任務發布的強大能力,讓用戶輕松構建離線數倉、實時數倉與即席分析系統。支持引擎:MaxCompute、E-MapReduce、Flink、Hologres、AnalyticDB for PostgreSQL,滿足用戶不同的企業級業務場景。
大幅提升工作效率

 

  • 非技術人員1~2小時即可掌握完整的數據研發流程
  • 無需維護各類開源技術棧,釋放更多人力專注于業務

 

從容面對復雜場景

 

  • 支持順序、循環、分支、判斷等節點類型
  • 支持跨引擎、跨地域、跨周期的任務調度

 

提供更規范、科學的開發模式

 

  • 高效的多人協同任務開發模式
  • 規范且安全的任務發布上線流程

 


 

2.2.4數據治理


 

2.2.5數據服務


 

2.3應用場景

  • 資源優化:幫您節省計算、存儲費用
  • 移動運維:輕松搞定任務運維
  • 運行診斷:為您快速定位疑難問題
  • 智能監控:提高生產力,更加智慧的告警處理方式
  • 字段級數據血緣:快速定位臟數據源頭
  • 多種控制節點:滿足復雜業務場景邏輯
  • 數據保護傘:進行數據安全保障
  • 實時流計算開發:極大降低新技術使用門檻
  •  
三、華為數據湖治理中心- DGC

 

https://support.huaweicloud.com/usermanual-dgc/dgc_01_0024.html

3.1產品架構

華為云整個的數據湖解決方案,完整覆蓋了數據處理的生命周期,并且明確支持了數據治理,并提供了基于模型和指標的數據治理流程工具,在華為云的數據湖解決方案中逐漸開始往“湖倉一體化”方向演進。


 

DGC基于數據湖底座,提供數據集成、開發、治理、開放等能力。DGC支持對接所有華為云的數據湖與數據庫云服務作為數據湖底座,例如數據湖探索(Data Lake Insight,簡稱DLI)、MRS hive、數據倉庫服務DWS等,也支持對接企業傳統數據倉庫,例如Oracle、Greenplum等。DGC包含如下功能組件:

 

  • 管理中心,提供DGC數據連接管理的能力,將DGC與數據湖底座進行對接,用于數據開發與數據治理等活動。
  • 數據集成之批量數據遷移,批量數據遷移提供20+簡單易用的遷移能力和多種數據源到數據湖的集成能力,全向導式配置和管理,支持單表、整庫、增量、周期性數據集成。
  • 數據集成之實時數據集成,實時數據接入為處理或分析流數據的自定義應用程序構建數據流管道,主要解決云服務外的數據實時傳輸到云服務內的問題。實時數據接入每小時可從數十萬種數據源(例如日志和定位日志事件、網站點擊流、社交媒體源等)中連續捕獲、傳送和存儲數TB數據。
  • 規范設計,作為數據治理的一個核心模塊,承擔數據治理過程中的數據加工并業務化的功能,提供智能數據規劃、自定義主題數據模型、統一數據標準、可視化數據建模、標注數據標簽等功能,有利于改善數據質量,有效支撐經營決策。
  • 數據開發,大數據開發環境,降低用戶使用大數據的門檻,幫助用戶快速構建大數據處理中心。支持數據建模、數據集成、腳本開發、工作流編排等操作,輕松完成整個數據的處理分析流程。
  • 數據質量,數據全生命周期管控,數據處理全流程質量監控,異常事件實時通知。
  • 數據資產,提供企業級的元數據管理,厘清信息資產。通過數據地圖,實現數據資產的數據血緣和數據全景可視,提供數據智能搜索和運營監控。
  • 數據服務,數據服務定位于標準化的數據服務平臺,提供一站式數據服務開發、測試部署能力,實現數據服務敏捷響應,降低數據獲取難度,提升數據消費體驗和效率,最終實現數據資產的變現。
  • 數據安全,數據安全為數據湖治理中心提供數據生命周期內統一的數據使用保護能力。通過敏感數據識別、分級分類、隱私保護、資源權限控制、數據加密傳輸、加密存儲、數據風險識別以及合規審計等措施,幫助用戶建立安全預警機制,增強整體安全防護能力,讓數據可用不可得和安全合規。
3.2數據集成(批量數據遷移)

 

批量數據遷移基于分布式計算框架,利用并行化處理技術,支持用戶穩定高效地對海量數據進行移動,實現不停服數據遷移,快速構建所需的數據架構。


 

 

  • 表/文件/整庫遷移支持批量遷移表或者文件,還支持同構/異構數據庫之間整庫遷移,一個作業即可遷移幾百張表。
  • 增量數據遷移支持文件增量遷移、關系型數據庫增量遷移、HBase/CloudTable增量遷移,以及使用Where條件配合時間變量函數實現增量數據遷移。
  • 事務模式遷移支持當CDM作業執行失敗時,將數據回滾到作業開始之前的狀態,自動清理目的表中的數據。
  • 字段轉換支持去隱私、字符串操作、日期操作等常用字段的數據轉換功能。
  • 文件加密在遷移文件到文件系統時,CDM支持對寫入云端的文件進行加密。
  • MD5校驗一致性支持使用MD5校驗,檢查端到端文件的一致性,并輸出校驗結果。
  • 臟數據歸檔支持將遷移過程中處理失敗的、被清洗過濾掉的、不符合字段轉換或者不符合清洗規則的數據單獨歸檔到臟數據日志中,便于用戶查看。并支持設置臟數據比例閾值,來決定任務是否成功。
3.3數據開發

 

使用數據開發模塊,用戶可進行數據管理、腳本開發、作業開發、作業調度、運維監控等操作,輕松完成整個數據的處理分析流程。


 

支持的功能

說明

數據管理

支持管理DWS、DLI、MRS Hive等多種數據倉庫。支持可視化和DDL方式管理數據庫表。

腳本開發

提供在線腳本編輯器,支持多人協作進行SQL、Shell、Python/ target=_blank class=infotextkey>Python腳本在線代碼開發和調測。支持使用變量和函數。

作業開發

提供圖形化設計器,支持拖拉拽方式快速構建數據處理工作流。預設數據集成、SQL、Shell等多種任務類型,通過任務間依賴完成復雜數據分析處理。支持導入和導出作業。

資源管理

支持統一管理在腳本開發和作業開發使用到的file、jar、archive類型的資源。

作業調度

支持單次調度、周期調度和事件驅動調度,周期調度支持分鐘、小時、天、周、月多種調度周期。

運維監控

支持對作業進行運行、暫停、恢復、終止等多種操作。支持查看作業和其內各任務節點的運行詳情。支持配置多種方式報警,作業和任務發生錯誤時可及時通知相關人,保證業務正常運行。

3.4總結

華為的數據湖解決方案比較完整,DLI承擔了所有的數據湖構建、數據處理、數據管理、數據應用的核心功能。DLI最大的特色是在于分析引擎的完備性,包括基于SQL的交互式分析以及基于Spark+Flink的流批一體處理引擎。在核心存儲引擎上,DLI依然通過內置的OBS來提供,和AWS S3的能力基本對標。華為數據湖解決方案在上下游生態上做的比AWS相對完善,對于外部數據源,幾乎支持所有目前華為云上提供的數據源服務。

DLI可以與華為的CDM(云數據遷移服務)和DIS(數據接入服務)對接:1)借助DIS,DLI可以定義各類數據點,這些點可以在Flink作業中被使用,做為source或者sink;2)借助CDM,DLI甚至能接入IDC、第三方云服務的數據。

為了更好的支持數據集成、數據開發、數據治理、質量管理等數據湖高級功能,華為云提供了DAYU平臺。DAYU平臺是華為數據湖治理運營方法論的落地實現。DAYU涵蓋了整個數據湖治理的核心流程,并對其提供了相應的工具支持;甚至在華為的官方文檔中,給出了數據治理組織的構建建議。DAYU的數據治理方法論的落地實現如圖11所示(來自華為云官網)。

四、阿里云數據湖方案

對象存儲 OSS 是基于阿里云自研的分布式存儲引擎——盤古搭建,提供體系化的數據采 力,支持結構化/半結構化/非結構化數據源。體系由數據湖對象存儲 OSS、云原生數據湖分析 DLA、數據湖構建 DLF、E-MapReduce、 Works 等產品強強組合,在存儲與計算分離架構下,提供“湖存儲”、“湖加速”、“湖計算”的企業級數據湖解決方案。


 

 

  • 數據存儲:OSS
  • 數據加工:數據湖構建+E-mapreduce
    • 數據湖構建(DLF),云原生數據湖架構核心組成部分,幫助用戶簡單快速構建云原生數據湖解決方案,DLF提供湖上云數據統一管理、企業級權限控制,并無縫對接多種計算引擎,打破數據孤島,洞察業務價值。
    • E-mapreduce,構建在阿里云服務器ECS上的開源Hadoop、spark、Hbase、hive、Flink生態大數據Pass產品。提供用戶在云上使用開源技術建設數據倉庫、離線批處理、在線流式處理、即時分析、機器學習等場景下的大數據解決方案。
  • 數據分析與治理,對企業數據的可用性、完整性和安全性全面管理。數據湖采用API接口讓數據湖實現多引擎的統一元數據管理和權限管理。
    • MaxCompute :MaxCompute 是一項面向分析的大數據計算服務,它以 Serverless 架構提供快速、全托 管的在線數據倉庫服務,消除傳統數據平臺在資源擴展性和彈性方面的限制,最小化用戶運維投入,使您經濟并高 效的分析處理海量數據。
    • 云原生數據湖分析(Data Lake Analytics,簡稱 DLA) 采用全新的云原生+Serverless+ 據庫與大數據一體化架構,支持企業級權限管理、高效入湖、 ETL、機器學習、流計算與交互式分析等。核心組 包括:統一Meta、Lakehouse、Serverless Spark、Serverless Presto.
    • 機器學習 PAI:機器學習 PAI(Platform of Artificial Intelligence)是阿里云面向企業客戶及開發者,提供 輕量化、高性價比的云原生機器學習平臺支持百億特征、千億樣本規模加速訓練,百余種落地場景,全面提升機器 學習工程效率
    • 日志服務SLS,日志大數據解決方案,一站式提供數據收集、清洗、分析、可視化和告警功能。
    • dataworks,基于EMR/MC-Hologres 等大數據計算引擎,為客戶提供專業高效、安全可 的一站式大數據開發與治理平臺。
4.1數據湖架構

 


 


 

4.2數據湖構建(Data Lake Formation,簡稱 DLF)

4.2.1產品架構

阿里云數據湖構建(Data Lake Formation,簡稱 DLF)是一款全托管的快速幫助用戶構建云上數據湖及Lakehouse的服務,為客戶提供了統一的元數據管理、統一的權限與安全管理、便捷的數據入湖能力以及一鍵式數據探索能力。DLF可以幫助用戶快速完成云原生數據湖及Lakehouse方案的構建與管理,并可無縫對接多種計算引擎,打破數據孤島,洞察業務價值。

 

  • 元數據管理,通過控制臺查看和管理數據湖中元數據庫和表的信息,通過API的方式操作元數據,集成到第三方應用服務。并支持多版本管理、可通過元數據發現和入湖任務自動生成元數據。
  • 數據入湖,通過入湖任務的方式將分散在MySQL、Kafka和PolarDB等數據統一存儲,入湖過程如果沒有定義元數據信息,入湖任務會自動生成元數據的表信息。
  • 數據權限管理,可以加強湖上數據權限控制,保障數據安全。可支持對元數據庫、元數據表、元數據列三種粒度的權限。
  • 數據探索,為您提供一鍵式數據探索能力,可支持Spark 3.0 SQL語法,可以保存歷史查詢,預覽數據,導出結果,一鍵生產tpc-ds測試數據集。
  • 湖管理,將為您提供對湖內數據存儲的分析及優化建議,加強對數據生命周期管理,優化使用成本,方便您進行數據運維管理。

 


 

4.2.2應用場景

 

  • 數據分析場景,通過元數據發現、數據探索能力,可以快速的對OSS內結構化、半結構化數據進行分析、探索。
  • 結合E-MapReduce、OSS兩個產品,DLF協助客戶快速構建云上數據湖。

 


 

 

  • 結合MaxCompute、Dataworks、E-MapReduce3個產品,DLF協助客戶快速構建湖倉一體架構。

 


 

 

  • 結合Databricks、OSS產品,構建云上全托管Lakehouse數據架構。

 


 

4.2.3阿里DDI(databricks datainsight 數據洞察)


 

產品核心:

 

  • 基于商業版 Spark 的全托管大數據分析& AI 平臺
  • 內置商業版 Spark 引擎 Databricks Runtime ,在計算層面提供高效、穩定的保障
  • 與阿里云產品集成互通,提供數據安全、動態擴容、監控告警等企業級特性

 

產品引擎與服務:

 

  • 100% 兼容開源 Spark,經阿里云與 Databricks 聯合研發性能優化
  • 提供商業化 SLA 保障與7*24小時 Databricks 專家支持服務

 

產品關鍵信息與優勢


 


 

4.2.3.1產品架構


 

 

  • Databricks數據洞察構建在ECS之上,使用阿里云對象存儲服務(OSS)為核心存儲。存儲訪問加速層方便您可以像操作HDFS上的數據一樣訪問OSS上的數據。
  • Databricks數據洞察提供了兩種執行Spark作業的方式,包括通過Notebook或者在項目空間里新建Spark作業。
  • Databricks數據洞察還提供了監控告警、元數據管理、權限管理等功能,方便您對集群資源進行管理。

 

4.2.3.2應用場景

1、數據湖分析

使用阿里云對象存儲OSS作為云上存儲,DDI集群提供靈活的計算資源,OSS上的數據可以被多個DDI集群共享,減少數據冗余。同時,DataInsight Notebook支持多用戶同時協同工作,您可以在Notebook中完成作業編輯、提交和結果查看。


 

2、實時數倉

利用Databricks Delta Lake的ACID事務特性,可以構建云上大數據的實時數倉。


 

五、華為數據湖探索(Data Lake Insight,以下簡稱DLI)5.1產品架構

數據湖探索(Data Lake Insight,以下簡稱DLI)是完全兼容Apache Spark、Apache Flink、openLooKeng(基于Presto)生態,提供一站式的流處理、批處理、交互式分析的Serverless融合處理分析服務。DLI是完全托管的大數據處理分析服務,企業使用標準SQL、Spark、Flink程序就可輕松完成多數據源的聯合計算分析,挖掘和探索數據價值。數據無需復雜的抽取、轉換、加載(ETL),使用SQL或程序就可以對云上CloudTable、RDS、DWS、css、OBS、ECS自建數據庫以及線下數據庫的異構數據進行探索。


 

5.2功能介紹

DLI用戶可以通過可視化界面、Restful API、JDBC、ODBC、Beeline等多種接入方式對云上CloudTable、RDS和DWS等異構數據源進行查詢分析,數據格式兼容CSV、JSON、Parquet、Carbon和ORC五種主流數據格式。

 

  • 三大基本功能
    • SQL作業支持SQL查詢功能:可為用戶提供標準的SQL語句。具體內容請參考《數據湖探索SQL語法參考》。
    • Flink作業支持Flink SQL在線分析功能:支持Window、Join等聚合函數、地理函數、CEP函數等,用SQL表達業務邏輯,簡便快捷實現業務。具體內容請參考《數據湖探索SQL語法參考》。
    • Spark作業提供全托管式Spark計算特性:用戶可通過交互式會話(session)和批處理(batch)方式提交計算任務,在全托管Spark隊列上進行數據分析。具體內容請參考《數據湖探索API參考》。
  • 多數據源分析:
    • Spark跨源連接:可通過DLI訪問CloudTable,DWS,RDS和CSS等數據源。具體內容請參考《數據湖探索用戶指南》。
    • Flink跨源支持與多種云服務連通,形成豐富的流生態圈。數據湖探索的流生態分為云服務生態和開源生態:具體內容請參見《數據湖探索開發指南》。
      • 云服務生態:數據湖探索在Flink SQL中支持與其他服務的連通。用戶可以直接使用SQL從這些服務中讀寫數據,如DIS、OBS、CloudTable、MRS、RDS、SMN、DCS等。
      • 開源生態:通過增強型跨源連接建立與其他VPC的網絡連接后,用戶可以在數據湖探索的租戶獨享隊列中訪問所有Flink和Spark支持的數據源與輸出源,如Kafka、Hbase、ElasticSearch等。
  • BI工具
    • 對接永洪BI:與永洪BI對接實現數據分析。具體內容請參考《數據湖探索開發指南》。
  • 支持地理空間查詢。具體內容請參考《數據湖探索開發指南》。
5.3應用場景

 

(1)大數據ETL處理

 

  • 大數據ETL:具備TB~EB級運營商數據治理能力,能快速將海量運營商數據做ETL處理,為分布式批處理計算提供分布式數據集。
  • 高吞吐低時延:采用Apache Flink的Dataflow模型,高性能計算資源,從用戶自建的Kafka、MRS-Kafka、DMS-Kafka消費數據,單CU每秒吞吐1千~2萬條消息。
  • 細粒度權限管理:P公司內部有N個子部門,子部門之間需要對數據進行共享和隔離。DLI支持計算資源按租戶隔離,保障作業SLA;支持數據權限控制到表/列,幫助企業實現部門間數據共享和權限管理。

 


 

(2)異構數據源聯邦分析

 

  • 多源數據分析免搬遷:關系型數據庫RDS中存放車輛和車主基本信息,表格存儲CloudTable中存放實時的車輛位置和健康狀態信息,數據倉庫DWS中存放周期性統計的指標。通過DLI無需數據搬遷,對多數據源進行聯邦分析。
  • 數據分級存儲:車企需要保留全量歷史數據支撐審計類等業務,低頻進行訪問。溫冷數據存放在低成本的對象存儲服務OBS上,高頻訪問的熱數據存放在數據引擎(CloudTable和DWS)中,降低整體存儲成本。
  • 告警快速敏捷觸發服務器彈性伸縮:對CPU、內存、硬盤空間和帶寬無特殊要求。

 

(3)海量日志分析

 

  • 高效的Spark編程模型:使用Spark Streaming直接從DIS中獲取數據,進行數據清理等預處理操作。只需編寫處理邏輯,無需關心多線程模型。
  • 簡單易用:直接使用標準SQL編寫指標分析邏輯,無需關注背后復雜的分布式計算平臺。
  • 按需計費:日志分析按實效性要求按周期進行調度,每次調度之間存在大量空閑期。DLI按需計費只在使用期間收費,成本較獨占隊列降低50%以上。
六.Dremio(產品定位有差異)6.1公司簡介

 

Dremio由MapR的前員工:Tomer Shiran(CEO)和Jacques Nadeau(CTO)于2015年創立。融資總額為4500萬美元。其總部位于美國,2017年發布了v1.0產品,客戶包括帝亞吉歐(Diageo)、微軟、瑞銀、Nutanix和皇家加勒比游輪公司。


 

6.2產品架構

Dremio是一款DaaS(Data-as-a-Service)數據即服務平臺,可對接多類數據源來進行BI分析,該產品直接使用數據湖的源數據進行快速訪問以達到直接進行數據分析而不經過數據的清洗、處理、加工、建模等方式。數據湖的意思就是將不同存儲類型、不同種類的數據匯聚在一起,這個存儲集群統一對外就是一個數據湖了。而Dremio通過直接在云數據湖存儲中進行實時的、交互式的查詢來釋放數據價值。


 

Dremio的技術特點:

 

  • 快速的數據查詢

 

在Dremio中,查詢數據是直達數據湖存儲的,無論數據是存儲在S3、ADLS、Hadoop、MySQL、Mongodb等載體上。Dremio使用了包括不限于以下技術來加速每次的查詢:

 

    • Data Reflections
    • Columnar Cloud Cache (C3)
    • Predictive Pipelining work alongside Apache Arrow
  • 使用Predictive Pipelining和Columnar Cloud Cache(C3)技術加速數據讀取

 

Dremio的Predictive Pipelining技術使得來自數據源的數據只有在執行引擎真正需要到時才會去拉取,這個做法能顯著降低引擎等待數據的時間成本。同樣地,C3技術則是會自動地在數據存取時將數據緩存到本地的NVMe存儲載體,使得查詢訪問數據湖中的數據能有NVMe存取速度級別的表現。

 

  • 為云而建造的現代化執行引擎

 

Dremio的執行引擎是建立在Apache Arrow及其生態技術上的,一個Dremio集群能夠根據存儲數據的體量規模彈性伸縮。

 

  • Data Reflections - 能夠更高效查詢速度的開關

 

通過在Dremio提供的客戶端頁面的幾下點擊,就能夠創建反射,反射是一種物理層面上對數據結構的優化,能夠加速各種查詢模式,根據你的需要可以創建任意數量的反射,Dremio會隱形并自動地在查詢計劃中合并反射,并保證查詢到最新數據。

 

  • Arrow Flight - 以1000x的倍速移動數據

 

AF被設計出來是用于取代處理小規模數據的ODBC和JDBC協議,AF在高速、分布式傳輸協議的基礎上,為Dremio和應用的數據傳輸提供了1000x倍速度提升的吞吐。

 

  • 自助式服務語義層

 

Dremio提供了一個應用安全和商業意義的抽象層,以支持用戶能夠探索數據,以及派生出新的虛擬數據集。

 

  • 可自定義化的語義抽象層

 

Dremio的語義層是一個能夠索引出所有用戶元數據的集成化、可搜索的目錄。在此語義層上,虛擬數據集以及空間構成了語義層,并且都是能夠倍索引和搜索的。

 

  • 高效的數據上下文管理

 

通過虛擬上下文的管理,Dremio讓可以使得篩選、轉換、聯表、聚合一個或多個數據源的數據變得快速,容易并且成本低。另外,Dremio的虛擬數據集是通過標準SQL定義的,如此我們使用起來舊不需要再另外學習一套查詢語法了。

 

  • 直接應用在BI或數據科學工具上

 

Dremio其實就如同關系型數據庫一樣,并且Dremio可以暴露ODBC、JDBC、REST以及Arrow Flight協議的接口,這樣我們就可以在一些BI應用上連接Dremio獲取數據。

 

  • 細粒度的訪問權限控制

 

Dremio提供行級和列級的權限控制,可以讓我們基于敏感數據、基于角色來控制對數據的訪問權限。

 

  • 數據血緣

 

Dremio的data graph管理著數據源、虛擬數據集以及查詢語句之間的關系,我們可以通過data graph獲知到當前查詢的數據集的來源。

七.Databricks7.1公司概況

1、Databricks 于 2013 年在舊金山成立,是大型數據分析工具的最大供應商之一,由美國伯克利大學AMP實驗室的開源處理引擎系統Apache Spark的多位創始人聯合創立,專注于大數據和AI人工智能,致力于提供基于Spark的云服務及開放統一的數據平臺。

2、Databricks開創了云計算領域的“Lakehouse”結構概念,這一術語是由“Data Lakes”與“Data Warehouses”合成而成。目前Databricks提供四種產品:Spark、Delta Lake、MLflow(開發和維護 AI 生命周期管理平臺)和Koalas(數據分析工具)。

3、公司定位:

 

  • Databricksis the Data + AI company,為客戶提供數據分析、數據工程、數據科學和人工智能方面的服務,一體化的 Lakehouse 架構
  • 開源版本 VS 商業版本:公司絕大部分技術研發資源投入在商業化產品
  • 多云策略,與頂級云服務商合作,提供數據開發、數據分析、機器學習等產品,Data+AI 一體化分析平臺

 

4、市場地位

 

  • Databricks的全球客戶數量達5000多家,且全球有超過40%的財富500強企業都在使用Databricks的云平臺。
  • 2021年8月20日,H輪,15億美元,估值380億美元。
7.2不同產品介紹

 

7.2.1Delta Lake

Delta Lake 是一個統一的數據管理系統,為云上數據湖帶來數據可靠性和快速分析。Delta Lake 運行在現有數據湖之上,并且與 Apache Spark 的 API 完全兼容。使用Delta Lake,您可以加快高質量數據導入數據湖的速度,團隊也可以在云服務上快速使用這些數據,安全且可擴展。

 

  • ACID 事務性:Delta Lake 在多個寫操作之間提供 ACID 事務性。每一次寫操作都是一個事務操作,事務日志(Transaction Log)中記錄的寫操作都有一個順序序列。事務日志(Transaction Log)跟蹤了文件級別的寫操作,并使用了樂觀鎖進行并發控制,這非常適用于數據湖,因為嘗試修改相同文件的多次寫操作的情況并不經常發生。當發生沖突時,Delta Lake 會拋出一個并發修改異常,拋給供用戶處理并重試其作業。Delta Lake 還提供了最高級別的隔離(可序列化隔離),允許工程師不斷地向目錄或表寫入數據,而使用者不斷地從同一目錄或表讀取數據,讀取數據時會看到數據的最新快照。
  • Schema 管理(Schema management):Delta Lake 會自動驗證正在寫入的DataFrame 的 Schema 是否與表的 Schema 兼容。若表中存在但 DataFrame 中不存在的列則會被設置為 null。如果 DataFrame 中有額外的列不在表中,那么該操作將會拋出異常。Delta Lake 具有 DDL(數據定義語言)顯式添加新列的功能,并且能夠自動更新 Schema。
  • 可伸縮的元數據(Metadata)處理:Delta Lake 將表或目錄的元數據信息存儲在事務日志(Transaction Log)中,而不是元數據 Metastore 中。這使得 Delta Lake夠在固定時間內列出大目錄中的文件,并且在讀取數據時效率很高。
  • 數據版本控制和時間旅行(Time Travel):Delta Lake 允許用戶讀取表或目錄的歷史版本快照。當文件在寫入過程中被修改時,Delta Lake 會創建文件的新的版本并保留舊版本。當用戶想要讀取表或目錄的較舊版本時,他們可以向 Apach Spark的 read API 提供時間戳或版本號,Delta Lake 根據事務日志(Transaction Log)中的信息來構建該時間戳或版本的完整快照。這非常方便用戶來復現實驗和報告,如果需要,還可以將表還原為舊版本。
  • 統一批流一體:除了批處理寫入之外,Delta Lake 還可以作為 Apache Spark 的結構化流的高效流接收器(Streaming Sink)。與 ACID 事務和可伸縮元數據處理相結合,高效的流接收器(Streaming Sink)支持大量近實時的分析用例,而無需維護復雜的流和批處理管道。
  • 記錄更新和刪除:Delta Lake 將支持合并、更新和刪除的 DML(數據管理語言)命令。這使得工程師可以輕松地在數據湖中插入和刪除記錄,并簡化他們的變更數據捕獲和 GDPR(一般數據保護條例)用例。由于 Delta Lake 在文件級粒度上進行跟蹤和修改數據,因此它比讀取和覆蓋整個分區或表要高效得多。

 

7.2.2產品架構


 


 


 


 


 

1、Databricks 產品支持執行 Spark、Python、Scala、JAVA 和 R 等語言,甚至支持 SQL,適用于不同類型的用戶。

2、強大的數據版本控制:Databricks 原生支持 DELTA 格式。Delta Lake 是完全兼容 ACID 的,這就解決了 Spark 的 不兼容 ACID 這一主要問題。

7.2.3湖倉一體

 

  1. 事物支持:Lakehouse 在企業級應用中,許多數據管道通常會同時讀取和寫入數據。通常多方同時使用 SQL 讀取或寫入數據,Lakehouse 保證支持ACID事務的一致性。
  2. 模式實施和治理:Lakehouse 應該有一種支持模式實施和演變的方法,支持 DW 模式規范,例如 star /snowflake-schemas。該系統應該能夠推理數據完整性,并且應該具有健壯的治理和審核機制。
  3. BI支持:Lakehouse 可以直接在源數據上使用BI工具。這樣可以減少陳舊度和等待時間,提高新近度,并且降低必須在數據湖和倉庫中操作兩個數據副本的成本。
  4. 存儲與計算分離:事實上,這意味著存儲和計算使用單獨的群集,因此這些系統能夠擴展到更多并發用戶和更大數據量。一些現代數據倉庫也具有這種屬性。
  5. 兼容性:Lakehouse 使用的存儲格式是開放式和標準化的,例如 Parquet,并且它提供了多種 API,包括機器學習和 Python/R 庫,因此各種工具和引擎都可以直接有效地訪問數據。
  6. 支持從非結構化數據到結構化數據的多種數據類型:Lakehouse 可用于存儲,優化,分析和訪問許多新數據應用程序所需的數據類型,包括圖像,視頻,音頻,半結構化數據和文本。
  7. 支持各種工作場景:包括數據科學,機器學習和 SQL 分析。這些可能依賴于多種工具來支持的工作場景,它們都依賴于相同的數據存儲庫。
  8. 端到端流式任務:實時報告是許多企業的日常需要。對流處理的支持消除了對專門服務于實時數據應用程序的單獨系統的需求。
八、confluent調研8.1公司概況

 

1、團隊背景

(1)LinkedIn開發Apache Kafka實時信息列隊技術的程序員,創立confluent,核心是利用Apache Kafka。

 

  • 三個創始人:Jay Kreps(美國加州人)和清華畢業的饒軍(Jun Rao)及來自印度的女生納赫(Neha Narkhede)。

 

2、融資情況

2021-6-25美股上市,市值143.64億美元。


 

3、商業化產品

商業化產品有3大類:

 

  • 主營產品:Confluent Platform,Confluent Cloud
  • 支撐產品:無法單獨購買,主要用來給樓上引流,例如應用市場中的各種插件
  • 咨詢服務類:例如專家服務,培訓等

 


 

4、不同實時計算工具的對比

Spark 做批處理、Flink 做流處理、Clickhouse 做交互分析,這是最簡單的一套。再復雜一點,可能還要部署 HBase 做 KV 查詢,用 ElasticSearch 做文本檢索。

產品

Spark streaming

不是特別適合于做秒級甚至亞秒級的計算

Kafka streaming

很難滿足我們對大體量的復雜計算的需求

Storm

沒有批處理能力

Flink

批流結合

8.2產品架構

Confluent是用來管理和組織不同數據源的流媒體平臺,可以實時地把不同源和位置的數據集成到一個中心的事件流平臺。而且還強調了這個平臺很可靠、性能很高,總之就是很好用,很強大。Confluent目前提供了社區版和商業版兩個版本,社區版永久免費,商業版面向企業收費。

 

  • 社區版提供了Connectors、REST Proxy、KSQL、Schema-Registry等基礎服務。
  • 商業版為企業提供了控制面板、負載均衡,跨中心數據備份、安全防護等高級特性。

 


 

(1)Confluent Control Center(控制中心),讓我們很容易地管理kafka的連接,創建,編輯,和管理與其他系統的連接。我們可以從producer到consumer監控data streams,保證我們的每一條消息都被傳遞,還能測量出消息的傳輸耗時多久。使用confluent control center能讓開發人員不寫一句代碼,也能構建基于kafka的數據生產管道。

(2)Confluent Replicator(數據復制與遷移),Confluent Platform使我們可以比以往更輕松地在多個數據中心內維護多個Kafka群集。管理數據中心之間的數據復制和topic配置,比方說:ative-active地理定位部署:允許用戶訪問最近(附近)的數據中心,以優化其架構,實現低延遲和高性能

 

  • 集中分析:將來自多個Kafka集群的數據聚合到一個地方,以進行組織范圍的分析
  • 云遷移:可以使用kafka完成本地應用與云之間的數據遷移

 

我們可以利用Confluent Replicator從Confluent Control Center或CLI工具配置管理所有這些方案的復制。

(3)Confluent Auto Data Balancer(解決負載均衡),隨著集群的增長,topic和partition以不同的速度增長,隨著時間的推移,添加和刪除會導致跨數據中心資源的工作負載不平衡。有一些brokers是空閑的(數據傾斜),而其他brokers則對大量或多個partitions負載,從而減慢了消息傳遞的速度。當執行時,Confluent Auto Data Balancer會監控您的群集中的broker數量,partition大小,partition數量以及群集中的broker數量。它允許我們轉移數據以在整個群集中創建均勻的工作負載,同時限制重新平衡流量,以最大限度地減少重新平衡時對生產工作負載的影響。

(4)Confluent JMS Client,Confluent Platform包含適用于Kafka的JMS兼容客戶端。通過用Kafka替換舊的JMS消息代理,現有的應用程序可以與我們的現代流式平臺集成,而無需重新編寫應用程序。

(5)Confluent Security Plugins,目前,有一個可用于Confluent REST Proxy的插件,它有助于驗證傳入的請求并將經過身份驗證傳到kafka請求。

Kafka Brokers(開源)。構成Kafka的消息,數據持久性和存儲層。

Kafka Java Clients(開源)。Java 庫,寫消息到kafka 或者從kafka 讀消息。

Kafka Streams(開源)。Kafka Streams是一個庫使kafka轉換成功能齊全的流處理系統。

Kafka Connect(開源)。一種可擴展的和可靠的連接Kafka框架與外部系統(如數據庫,鍵值存儲,搜索索引和文件系統)的框架。

除了Kafka以外, Confluent Platform 包括更多的工具和服務,使構建和管理數據流平臺更加容易。

Confluent Control Center(閉源)。管理和監控Kafka最全面的GUI驅動系統。

Confluent Kafka Connectors(開源)。連接SQL數據庫/Hadoop/Hive

Confluent Kafka Clients(開源)。對于其他編程語言,包括C/C++,Python

Confluent Kafka REST Proxy(開源)。允許一些系統通過HTTP和kafka之間發送和接收消息。

Confluent Schema Registry(開源)。幫助確定每一個應用使用正確的schema當寫數據或者讀數據到kafka中。

總的來說,Confluent Platform平臺的組件給你的團隊朝著建立統一而靈活的方式建立一個企業范圍的數據流平臺。

分享到:
標簽:數據倉庫
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定