亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

報告編委

愛分析

黃勇 合伙人&首席分析師

張揚 合伙人&首席分析師

洪逸群 高級分析師

任理 分析師

中國信通院云大所

魏凱 中國信通院云計算與大數(shù)據(jù)研究所副所長

序言

數(shù)字化時代,數(shù)據(jù)使用場景呈現(xiàn)多元化趨勢,數(shù)據(jù)規(guī)模也隨之爆發(fā)式增長。海量異構(gòu)數(shù)據(jù)的爆發(fā)式增長,對數(shù)據(jù)庫的存儲和計算能力提出了更高的要求。分析型數(shù)據(jù)庫因其在處理海量實時數(shù)據(jù)時具有優(yōu)秀的存算和管理能力,近年來贏得了市場的青睞。

分析型數(shù)據(jù)庫最早的定義是指從分散的數(shù)據(jù)源中抽取、清理和匯集各類結(jié)構(gòu)化數(shù)據(jù),形成面向特定分析主題的、相對穩(wěn)定且能反映歷史變化的數(shù)據(jù)集合,并通過OLAP(聯(lián)機分析處理引擎)來對這些數(shù)據(jù)進行分析,即通常意義的數(shù)據(jù)倉庫。其中OLAP數(shù)據(jù)庫概念最早由關(guān)系型數(shù)據(jù)庫之父E.F.Codd于1993年首次提出,他認為用戶的決策分析需要對關(guān)系型數(shù)據(jù)庫進行大量計算才能得到結(jié)果,OLTP(聯(lián)機事務(wù)處理)已經(jīng)不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念。OLAP數(shù)據(jù)庫的提出引起了很大的反響,OLAP數(shù)據(jù)庫作為一類產(chǎn)品同OLTP數(shù)據(jù)庫明顯區(qū)分開來。

在此后近30年的演進中,分析型數(shù)據(jù)庫先后出現(xiàn)了共享存儲架構(gòu)數(shù)倉、大規(guī)模并行處理(MPP)架構(gòu)數(shù)據(jù)倉庫以及數(shù)據(jù)湖等技術(shù)架構(gòu)。近年來,隨著企業(yè)數(shù)據(jù)分析需求的不斷提升,具有流批一體和存算分離,能通過元數(shù)據(jù)層在數(shù)據(jù)湖上實現(xiàn)數(shù)據(jù)管理功能的智能湖倉受到了更多關(guān)注,分析型數(shù)據(jù)庫迎來新階段—智能湖倉。伴隨企業(yè)數(shù)字化轉(zhuǎn)型戰(zhàn)略深入推進,分析型數(shù)據(jù)庫內(nèi)涵也在不斷擴展,我們認為當下的分析型數(shù)據(jù)庫是指為應(yīng)對企業(yè)管理、業(yè)務(wù)、數(shù)據(jù)分析師、數(shù)據(jù)科學家等人員對數(shù)據(jù)的各類分析和應(yīng)用需求而提供的各類數(shù)據(jù)存儲和計算引擎,包括傳統(tǒng)數(shù)據(jù)倉庫、云數(shù)據(jù)倉庫、數(shù)據(jù)湖等,以及目前正在興起的智能湖倉。

后疫情時代背景下,分析型數(shù)據(jù)庫在更多業(yè)務(wù)場景中實現(xiàn)了更廣泛的應(yīng)用,如流調(diào)溯源、時空分析等,分析型數(shù)據(jù)庫市場也迎來了爆發(fā)式增長。近些年國內(nèi)分析型數(shù)據(jù)庫創(chuàng)業(yè)公司日益涌現(xiàn),產(chǎn)業(yè)資本不斷涌入,獲得融資的公司數(shù)量及額度均大幅增長。據(jù)公開資料統(tǒng)計,2013-2021年,主打數(shù)據(jù)分析場景的數(shù)據(jù)庫企業(yè)成立數(shù)量為11家,占總數(shù)據(jù)庫企業(yè)總成立數(shù)量的24%,融資次數(shù)共計約40余次,融資總額約近50億元人民幣。競爭激烈的市場,哪些公司具有真正潛力;當前火熱的市場是否只是一場泡沫;“智能湖倉”階段后,分析型數(shù)據(jù)庫又將向哪個方向發(fā)展,本報告將進行一一梳理和詳細解答。

魏凱

中國信通院云計算與大數(shù)據(jù)研究所副所長

前言:為什么要研究分析型數(shù)據(jù)庫

隨著數(shù)據(jù)成為驅(qū)動社會與經(jīng)濟發(fā)展的核心生產(chǎn)要素,作為關(guān)鍵數(shù)字基礎(chǔ)設(shè)施的數(shù)據(jù)庫,其技術(shù)趨勢和市場格局正在經(jīng)歷劇烈的變化。

一方面,數(shù)據(jù)規(guī)模的迅速膨脹,以及大量創(chuàng)新性的數(shù)據(jù)分析和應(yīng)用場景的出現(xiàn),對分析型數(shù)據(jù)庫的存儲和計算能力也提出了更復(fù)雜的要求。

另一方面,為應(yīng)對新的趨勢,國內(nèi)外傳統(tǒng)數(shù)據(jù)庫廠商、新銳數(shù)據(jù)庫廠商和公有云廠商等各類廠商近年來紛紛加大對分析型數(shù)據(jù)庫的投入和布局,它們或推出了新一代的智能湖倉產(chǎn)品,或?qū)鹘y(tǒng)的數(shù)據(jù)倉庫、數(shù)據(jù)湖進行了重大升級。

變化也意味著機遇,為了挖掘出該領(lǐng)域具備潛力的代表性公司,本報告將詳細梳理分析型數(shù)據(jù)庫的發(fā)展歷程和技術(shù)演進趨勢,重點闡明中國分析型數(shù)據(jù)庫市場的價值和發(fā)展空間,建立分析型數(shù)據(jù)庫廠商的評估模型,并對重點公司的產(chǎn)品技術(shù)、研發(fā)能力、商業(yè)模式、行業(yè)落地情況進行分析。

一、分析型數(shù)據(jù)庫的定義與發(fā)展歷程

分析型數(shù)據(jù)庫的誕生

分析型數(shù)據(jù)庫最早是從交易型數(shù)據(jù)庫衍生而來。在數(shù)據(jù)庫誕生和發(fā)展的早期,其應(yīng)用場景主要是對數(shù)據(jù)進行統(tǒng)一的存儲、管理和訪問,因此用戶需要數(shù)據(jù)庫能夠?qū)崿F(xiàn)對數(shù)據(jù)的增改刪操作,也即聯(lián)機事務(wù)處理(OLTP),此類數(shù)據(jù)庫被稱為交易型數(shù)據(jù)庫(也稱事務(wù)型數(shù)據(jù)庫)。隨著用戶的需求從查看單個交易數(shù)據(jù)逐漸衍生出對交易數(shù)據(jù)的匯總、對比等分析需求,數(shù)據(jù)倉庫在1980年代開始出現(xiàn)。一直到1993年,關(guān)系型數(shù)據(jù)庫之父 Edgar F. Codd正式提出聯(lián)機分析處理(OLAP)的概念后,分析型數(shù)據(jù)庫的概念也由此正式誕生。

分析型數(shù)據(jù)庫的定義及其延伸

分析型數(shù)據(jù)庫最早的定義的是指從分散的數(shù)據(jù)源中抽取、清理和匯集各類結(jié)構(gòu)化數(shù)據(jù),形成面向特定分析主題的、相對穩(wěn)定且能反映歷史變化的數(shù)據(jù)集合,并通過OLAP引擎來對這些數(shù)據(jù)進行分析,也即通常所說的數(shù)據(jù)倉庫。

隨著企業(yè)數(shù)據(jù)分析需求的不斷變化,以及技術(shù)的持續(xù)演進,分析型數(shù)據(jù)庫的定義和內(nèi)涵也在不斷延伸。我們認為,當下的分析型數(shù)據(jù)數(shù)據(jù)庫是指為應(yīng)對企業(yè)管理、業(yè)務(wù)、數(shù)據(jù)分析師、數(shù)據(jù)科學家等人員對數(shù)據(jù)的各類分析和應(yīng)用需求而提供的各類數(shù)據(jù)存儲和計算引擎,包括了傳統(tǒng)的數(shù)據(jù)倉庫、數(shù)據(jù)湖,以及目前正在興起的智能湖倉。

分析型數(shù)據(jù)庫的發(fā)展歷程

分析型數(shù)據(jù)庫已經(jīng)經(jīng)歷了數(shù)十年的發(fā)展,期間伴隨了多個關(guān)鍵概念的提出,以及眾多廠商推出的重要產(chǎn)品,這些事件成了串聯(lián)分析型數(shù)據(jù)庫發(fā)展歷程的關(guān)鍵節(jié)點,也大致勾勒出了分析型數(shù)據(jù)庫的演進趨勢。

圖1: 國內(nèi)外分析型數(shù)據(jù)庫發(fā)展歷程重要節(jié)點

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

2. 分析型數(shù)據(jù)庫的技術(shù)演進趨勢及其驅(qū)動因素

分析型數(shù)據(jù)庫誕生至今,已經(jīng)經(jīng)歷了共享存儲架構(gòu)數(shù)據(jù)倉庫、MPP數(shù)據(jù)倉庫、數(shù)據(jù)湖三代的發(fā)展,目前正在往第四代智能湖倉方向演進。在這一發(fā)展歷程中,驅(qū)動分析型數(shù)據(jù)庫代際演進的因素主要包括了應(yīng)用場景、數(shù)據(jù)以及計算環(huán)境三個層面不斷發(fā)生的變化,也由此造成幾代分析型數(shù)據(jù)庫在技術(shù)架構(gòu)、功能和性能層面的根本差異。

表1:分析型數(shù)據(jù)庫的代際演進

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

第一代分析型數(shù)據(jù)庫——共享存儲架構(gòu)數(shù)據(jù)倉庫

基于數(shù)據(jù)庫的共享存儲架構(gòu)數(shù)據(jù)倉庫是分析型數(shù)據(jù)庫最早的形態(tài),其可以追溯到誕生于1970年代末到1980年代初的Oracle、DB2。在該階段,企業(yè)的數(shù)據(jù)分析的應(yīng)用場景較單一,主要是面向管理層提供若干固定報表。數(shù)據(jù)類型為結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量也相對有限。

技術(shù)架構(gòu)層面,對于該階段的數(shù)據(jù)分析需求,企業(yè)通常是建設(shè)一套用于分析查詢的歷史數(shù)據(jù)庫來匯集不同事務(wù)型數(shù)據(jù)庫的原始數(shù)據(jù)。

功能層面,共享存儲架構(gòu)數(shù)倉具備很強的穩(wěn)定性,支持各類SQL標準,以及ACID特性(即數(shù)據(jù)庫的原子性、一致性、隔離性、持久性)。

性能層面,由于共享存儲架構(gòu)數(shù)倉的計算節(jié)點能夠訪問任意的存儲節(jié)點,其需要配備專有物理硬件,其性能優(yōu)化良好。但共享存儲架構(gòu)的缺點是可擴展性較差,一般擴展到十幾個節(jié)點就會遇到瓶頸,因此當數(shù)據(jù)量達到千萬、億級別時,數(shù)據(jù)的計算就會出現(xiàn)延時。

第二代分析型數(shù)據(jù)庫——MPP數(shù)據(jù)倉庫

最早的MPP(大規(guī)模并行處理)數(shù)據(jù)倉庫是Teradata于1984年推出的基于專有硬件的無共享架構(gòu)MPP數(shù)倉,后來也出現(xiàn)了基于x86通用服務(wù)器的MPP數(shù)倉Greenplum、Vertica。在該階段,企業(yè)數(shù)據(jù)分析的應(yīng)用場景已經(jīng)從面向少數(shù)管理人員提供固定報表,轉(zhuǎn)變?yōu)槊嫦驑I(yè)務(wù)人員提供更廣泛的批處理報告、BI和可視化,以支持業(yè)務(wù)決策。與此同時,企業(yè)需要處理的數(shù)據(jù)類型依舊是結(jié)構(gòu)化數(shù)據(jù),但數(shù)據(jù)量出現(xiàn)了快速增長,達到了GB或TB級。

技術(shù)架構(gòu)層面,為了應(yīng)對上述的數(shù)據(jù)分析需求,專用于OLAP的分析型數(shù)據(jù)庫從事務(wù)型數(shù)據(jù)庫中分離出來,形成了沿用至今的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的設(shè)計是為了支持快速的數(shù)據(jù)查詢和數(shù)據(jù)分析任務(wù),其技術(shù)架構(gòu)是建立了一套數(shù)據(jù)流,通過預(yù)先定義Schema的方式,將事務(wù)型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)經(jīng)過ETL操作,形成“表”結(jié)構(gòu)的數(shù)據(jù)寫入數(shù)據(jù)倉庫中。與此同時,數(shù)據(jù)倉庫在數(shù)據(jù)組織方式上開始普遍使用列存儲取代交易型數(shù)據(jù)庫的行存儲,由于列存儲具備自動索引、減少總I/O、利于數(shù)據(jù)壓縮等優(yōu)勢,數(shù)據(jù)倉庫因此得以極大地提升其查詢性能。

圖2:數(shù)據(jù)倉庫架構(gòu)

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

功能層面,由于MPP數(shù)倉底層的數(shù)據(jù)依舊由事務(wù)型數(shù)據(jù)庫提供,并且經(jīng)過長時間的發(fā)展,其SQL標準,以及ACID特性的穩(wěn)定性和可靠性變得更高。但MPP數(shù)倉僅能處理結(jié)構(gòu)化數(shù)據(jù),無法處理半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

性能層面,MPP數(shù)倉采用無共享存儲架構(gòu),各計算節(jié)點都有獨立的存儲節(jié)點,因此并行處理和擴展能力更好,能夠滿足大數(shù)據(jù)量(GB或TB級)下的高并發(fā)、高性能需求,并且其可擴展性相比共享存儲架構(gòu)有了較大提升。但當集群擴展到數(shù)百節(jié)點時,MPP數(shù)倉依然會出現(xiàn)性能瓶頸,擴容成本同樣不菲。

第三代分析型數(shù)據(jù)庫——數(shù)據(jù)湖

以Hadoop為代表的數(shù)據(jù)湖出現(xiàn)在2005年之后。在該階段,由于互聯(lián)網(wǎng)的興起,企業(yè)需要處理的數(shù)據(jù)呈現(xiàn)出多類型、大規(guī)模的特點。一方面,數(shù)據(jù)類型除了包含大量結(jié)構(gòu)化數(shù)據(jù),為包含了各類半結(jié)構(gòu)化數(shù)據(jù)(如CSV、XML、日志)、非結(jié)構(gòu)化數(shù)據(jù)(如文檔、圖片、音頻、視頻)。另一方面,數(shù)據(jù)量從GB或TB級進一步提升至 TB或PB級。與此同時,企業(yè)的數(shù)據(jù)分析的應(yīng)用場景已經(jīng)變得更加豐富,除了傳統(tǒng)的數(shù)據(jù)查詢、固定報表,也出現(xiàn)了大量面向業(yè)務(wù)監(jiān)測和洞察的自助式分析,并且出現(xiàn)了一定的實時性數(shù)據(jù)分析場景。

技術(shù)架構(gòu)層面,為了承載對大量結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的存儲與處理,Hadoop體系使用HDFS做數(shù)據(jù)存儲,可以靈活地以低成本存儲任意類型的原始數(shù)據(jù),使用Mapreduce、Spark等引擎做大數(shù)據(jù)計算。隨著Hive、SparkSQL等大數(shù)據(jù)組件的出現(xiàn),企業(yè)可以基于Hadoop實現(xiàn)數(shù)據(jù)倉庫(SQL-on-Hadoop)的功能,即將數(shù)據(jù)湖的數(shù)據(jù)經(jīng)過ETL到數(shù)據(jù)倉庫,以支持BI等應(yīng)用。與此同時,Storm、Flink等流處理引擎,也能夠一定程度滿足企業(yè)實時數(shù)據(jù)處理的需求。盡管2015年后,云服務(wù)商提供的對象存儲如AWS S3大量取代私有部署的HDFS,存儲成本降低很多,但基于數(shù)據(jù)湖的大數(shù)據(jù)架構(gòu)基本沒有改變。

圖3:數(shù)據(jù)湖架構(gòu)

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

功能層面,由于數(shù)據(jù)湖中各種類型數(shù)據(jù)都是按原樣存儲,采用分析時寫入Schema(schema-on-read)的模式,因此數(shù)據(jù)湖的SQL 標準、ACID特性支持較差,其數(shù)據(jù)版本控制和索引功能也不足,并且Hive本身不支持單條記錄的修改,這些原因?qū)е聰?shù)據(jù)湖難以取代MPP數(shù)倉對結(jié)構(gòu)化數(shù)據(jù)的處理能力。

性能層面,SQL-on-Hadoop在軟件上實現(xiàn)了存儲節(jié)點和計算節(jié)點的互相獨立,可以分別獨立擴展,因此其節(jié)點可以擴展至數(shù)千規(guī)模。由于實踐中,企業(yè)部署Hadoop主要還是基于物理機,在硬件層面,其計算與存儲資源仍然是綁定的。

第四代分析型數(shù)據(jù)——智能湖倉

當前企業(yè)數(shù)據(jù)分析與應(yīng)用需求的變化趨勢

在解析第四代分析型數(shù)據(jù)庫在技術(shù)架構(gòu)、功能和性能層面的特征之前,我們需要首先了解近年來數(shù)據(jù)分析的應(yīng)用場景、數(shù)據(jù)以及計算環(huán)境等方面發(fā)生的重大變化趨勢,以及現(xiàn)有的分析型數(shù)據(jù)庫在應(yīng)對這些變化時的主要缺陷。

首先,企業(yè)數(shù)據(jù)分析的應(yīng)用場景變得更加廣泛。數(shù)據(jù)正在成為業(yè)務(wù)創(chuàng)新的核心,基于數(shù)據(jù)分析,企業(yè)可以預(yù)測客戶行為、提供個性化的客戶體驗、預(yù)測市場趨勢、制定業(yè)務(wù)戰(zhàn)略等,從而提高企業(yè)的競爭力。與此同時,數(shù)據(jù)分析門檻的降低使得企業(yè)內(nèi)部越來越多的業(yè)務(wù)人員成為數(shù)據(jù)消費者,并向“人人都是分析師”的方向演進。

在這樣的背景下,企業(yè)內(nèi)部的數(shù)據(jù)分析與應(yīng)用數(shù)量急劇增長,除了傳統(tǒng)基于結(jié)構(gòu)化數(shù)據(jù)的BI應(yīng)用,實時數(shù)據(jù)處理與分析的需求在快速增加。與此同時,大量的創(chuàng)新性的AI/ML應(yīng)用層出不窮。根據(jù)愛分析預(yù)測,頭部企業(yè)潛在AI/ML應(yīng)用場景數(shù)量最多可達到5000到10000例,中長尾企業(yè)的AI/ML應(yīng)用場景數(shù)量可達到100到1000例。

圖4:企業(yè)潛在AI/ML應(yīng)用場景數(shù)量

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

測算邏輯: 場景指人工智能技術(shù)能夠應(yīng)用的最小單點應(yīng)用,如點餐APP智能推薦,潛在應(yīng)用場景通過(企業(yè)內(nèi)部系統(tǒng)數(shù))*(每個系統(tǒng)中可以應(yīng)用人工智能替換人工操作或規(guī)則模型數(shù)量)進行估算

表2:重點行業(yè)典型數(shù)據(jù)智能創(chuàng)新應(yīng)用場景

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

其次,企業(yè)的總數(shù)據(jù)量以及實時數(shù)據(jù)正在以前所未有的速度爆發(fā)式增長。隨著互聯(lián)網(wǎng)的深入發(fā)展,以及云、5G等基礎(chǔ)設(shè)施的成熟和興起,大規(guī)模的應(yīng)用程序、移動設(shè)備、邊緣設(shè)備的聯(lián)網(wǎng)導致數(shù)據(jù)規(guī)模激增,大量企業(yè)需要處理數(shù)據(jù)量將達到PB級,甚至更高。根據(jù)IDC的數(shù)據(jù),到2025年全球數(shù)據(jù)總量將達到175ZB,而其中有超過25%為實時數(shù)據(jù)。

圖5:2025年全球數(shù)據(jù)總量及構(gòu)成

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

最后,企業(yè)業(yè)務(wù)和分析系統(tǒng)上云正在加速。隨著企業(yè)的業(yè)務(wù)系統(tǒng)、分析系統(tǒng)在往云端逐步遷移,其數(shù)據(jù)分析系統(tǒng)也因此在云端進行部署,以充分利云的可擴展性和相關(guān)技術(shù)資源。根據(jù)IDC的數(shù)據(jù),到2025年全球49%的數(shù)據(jù)將存儲在公有云中。盡管國內(nèi)市場由于政策監(jiān)管、企業(yè)接受度等原因,國內(nèi)企業(yè)上云步伐不如國外激進,但長期而言,這一趨勢不會改變。

傳統(tǒng)分析型數(shù)據(jù)庫應(yīng)對當前需求的主要缺陷

在實踐中,大量企業(yè)還在使用傳統(tǒng)的數(shù)據(jù)倉庫和基于數(shù)據(jù)湖的大數(shù)據(jù)解決方案,并且很多企業(yè)內(nèi)部有多套數(shù)據(jù)系統(tǒng)并行,滿足不同的數(shù)據(jù)分析需求。但由于諸多原因,這些解決方案通常存在以下主要的缺陷:

存儲計算資源難以彈性擴展,制約了大數(shù)據(jù)量下數(shù)據(jù)分析的性能和速度。無論是MPP數(shù)倉還是本地部署的Hadoop大數(shù)據(jù)解決方案,其存儲和計算資源都是耦合的。這種設(shè)計通常會導致存儲資源冗余而計算資源不足,擴展成本高,并且節(jié)點擴展會存在上限。面對大數(shù)據(jù)集,企業(yè)可能需要花費數(shù)小時或者更長時間來查詢數(shù)據(jù),從而限制了大數(shù)據(jù)分析的性能和速度。

缺乏優(yōu)化的性價比,資源消耗大、成本高。一方面,在數(shù)據(jù)湖加數(shù)倉的兩層架構(gòu)中,數(shù)據(jù)會首先被ETL到數(shù)據(jù)湖中,之后再被ETL到數(shù)倉中,這會在系統(tǒng)中引入額外的復(fù)雜性,不僅需要付出大量的ETL作業(yè)成本,并且將數(shù)據(jù)從數(shù)據(jù)湖復(fù)制到數(shù)倉中也會需要支付兩倍的存儲成本。另一方面,由于數(shù)倉使用的是專有數(shù)據(jù)格式,將這些數(shù)據(jù)或工作負載遷移到其他系統(tǒng)也會產(chǎn)生額外的成本。

對人工智能和機器學習等高級分析的支持不足。當前流行的TensorFlow、PyTorch和XGBoost等機器學習系統(tǒng)很難在現(xiàn)有分析型數(shù)據(jù)庫之上高效運行,因為這些系統(tǒng)從數(shù)倉或數(shù)據(jù)湖中讀取大型的數(shù)據(jù)集時需要寫非常復(fù)雜的非SQL代碼,并且數(shù)據(jù)湖本身缺少數(shù)倉豐富的數(shù)據(jù)管理能力,如ACID特性、數(shù)據(jù)索引、數(shù)據(jù)版本控制等,進一步加大了讀取數(shù)據(jù)的難度。

系統(tǒng)架構(gòu)復(fù)雜,穩(wěn)定性差,管理和維護成本高。企業(yè)在過往多年的發(fā)展中,由于技術(shù)能力、資源、制度流程等多種因素的限制,采取了很多臨時的數(shù)據(jù)方案。一方面,企業(yè)會在原有數(shù)倉和大數(shù)據(jù)系統(tǒng)中,根據(jù)需求不斷做升級、打補丁。另一方面,由于數(shù)據(jù)倉庫和數(shù)據(jù)湖都存在各自的不足,為了滿足不同的數(shù)據(jù)處理與分析需求,企業(yè)經(jīng)常會建立獨立的系統(tǒng)來處理數(shù)據(jù),例如單獨建立的數(shù)倉、數(shù)據(jù)湖、流數(shù)據(jù)處理平臺等。這些因素導致企業(yè)實際的數(shù)據(jù)系統(tǒng)架構(gòu)非常復(fù)雜,技術(shù)債務(wù)累計,系統(tǒng)的管理和維護成本非常高。

圖6:典型多套系統(tǒng)并行的企業(yè)數(shù)據(jù)平臺

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

第四代分析型數(shù)據(jù)庫“智能湖倉”的誕生

通過分析近年來數(shù)據(jù)分析的應(yīng)用場景、數(shù)據(jù)以及計算環(huán)境等方面發(fā)生的變化,以及現(xiàn)有的分析型數(shù)據(jù)庫在應(yīng)對這些變化時的主要缺陷,我們認為,下一代的分析型數(shù)據(jù)庫必然會朝著增強分析性能、提升易用性、降低使用成本的方向發(fā)展。

在這樣的技術(shù)趨勢下,Databricks于2016年推出Delta Lake,旨在在數(shù)據(jù)湖上支持類似DBMS的數(shù)據(jù)管理功能,而隨著Databricks于2020年率先在業(yè)內(nèi)提出LakeHouse的概念,智能湖倉由此開始興起。

在國外市場,Snowflake推出了數(shù)據(jù)云產(chǎn)品,在其云上數(shù)據(jù)倉庫的基礎(chǔ)上增加了數(shù)據(jù)湖的功能。亞馬遜云科技基于Amazon S3 構(gòu)建數(shù)據(jù)湖,繞湖集成數(shù)據(jù)倉庫、大數(shù)據(jù)處理、日志分析、機器學習數(shù)據(jù)服務(wù)實現(xiàn)智能湖倉。在國內(nèi)市場,公有云廠商如華為云、阿里云,新銳數(shù)據(jù)庫廠商如滴普科技也于近年推出智能湖倉產(chǎn)品,并收獲了一批行業(yè)頭部客戶。

圖7:智能湖倉架構(gòu)

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

智能湖倉在技術(shù)架構(gòu)、功能和性能層面主要具備以下主要特征:

通過元數(shù)據(jù)層在數(shù)據(jù)湖上實現(xiàn)數(shù)據(jù)管理功能。智能湖倉使用標準文件格式(如Parquet)將數(shù)據(jù)存儲在對象存儲中,并在對象存儲上構(gòu)建元數(shù)據(jù)層,從而在元數(shù)據(jù)層實現(xiàn)諸如ACID事務(wù)處理、版本控制等數(shù)據(jù)管理功能,使得多種計算引擎可以共享統(tǒng)一的數(shù)據(jù)存儲。同時,通過對緩存、輔助數(shù)據(jù)結(jié)構(gòu)(如索引、統(tǒng)計信息)和數(shù)據(jù)布局進行優(yōu)化,智能湖倉也具備了良好的SQL性能。

流批一體,簡化系統(tǒng)架構(gòu)。智能湖倉可以實現(xiàn)批處理與流處理的統(tǒng)一,通過CDC(Change Data Capture)將業(yè)務(wù)系統(tǒng)數(shù)據(jù)實時抽取到數(shù)據(jù)湖,實時加工后傳輸至OLAP系統(tǒng)中對外服務(wù),實現(xiàn)端到端過程的分鐘級時延。與此同時,系統(tǒng)架構(gòu)得到簡化,大幅降低了系統(tǒng)維護以及數(shù)據(jù)開發(fā)工作的難度。

云原生、存算分離。基于云原生架構(gòu),智能湖倉存儲和計算資源得到有效分離,企業(yè)可以基于需求靈活地對存儲和計算資源進行分別擴展,且擴展需求幾乎沒有限制,從而實現(xiàn)對大規(guī)模數(shù)據(jù)查詢與分析的高性能,并顯著降低TCO(Total Cost of Ownership)。

3. 中國分析型數(shù)據(jù)庫市場規(guī)模

中國分析型數(shù)據(jù)庫市場發(fā)展的驅(qū)動因素

近期因素:企業(yè)數(shù)據(jù)處理與分析需求升級

分析型數(shù)據(jù)庫市場發(fā)展的近期驅(qū)動因素是企業(yè)的數(shù)據(jù)處理與分析需求的升級。面對新的數(shù)據(jù)處理與分析需求,企業(yè)原先的數(shù)據(jù)系統(tǒng)存在諸多限制,因此需要對分析型數(shù)據(jù)庫的功能也進行相應(yīng)升級,這些需求包括:

超大規(guī)模結(jié)構(gòu)化數(shù)據(jù)的查詢:滿足對百萬甚至千萬級表單數(shù)據(jù)查詢的的高性能;

實時數(shù)據(jù)處理:滿足大規(guī)模實時數(shù)據(jù)處理的需求;AI/ML應(yīng)用:提供大規(guī)模AI/ML應(yīng)用開發(fā)的數(shù)據(jù)讀取和相關(guān)功能支持;統(tǒng)一存儲與分倉隔離:解決數(shù)據(jù)孤島問題,并針對不同業(yè)務(wù)需求進行數(shù)倉建設(shè);現(xiàn)有系統(tǒng)架構(gòu)運維復(fù)雜:現(xiàn)有數(shù)據(jù)平臺多個系統(tǒng)并行,管理和運維成本高。

受產(chǎn)業(yè)特性、行業(yè)和企業(yè)發(fā)展階段,企業(yè)數(shù)字化程度等因素影響,國內(nèi)企業(yè)在實踐中對上述因素的需求程度存在較大差異。對此,我們對多個行業(yè)企業(yè)的相關(guān)需求進行了調(diào)研,發(fā)現(xiàn)金融、能源、先進制造、零售等行業(yè)企業(yè)目前存在多個顯著的數(shù)據(jù)處理與分析需求升級因素。

圖8:重點行業(yè)數(shù)據(jù)處理與分析需求升級因素

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

遠期因素:分析型數(shù)據(jù)庫全面迭代

企業(yè)對分析型數(shù)據(jù)庫的功能升級需求,近期內(nèi)會存在沿用傳統(tǒng)的數(shù)據(jù)倉庫或數(shù)據(jù)湖進行功能升級,以及采用全新智能湖倉兩種路徑。長期來看,我們認為,未來的企業(yè)都會是高度數(shù)字化的,在需要處理的數(shù)據(jù)規(guī)模以及數(shù)據(jù)分析場景廣泛性方面也都會趨于統(tǒng)一,企業(yè)都需要構(gòu)建統(tǒng)一數(shù)據(jù)存儲與計算底座,而傳統(tǒng)的分析型數(shù)據(jù)庫由于自身的種種局限性,將會逐漸被智能湖倉取代,企業(yè)將完成分析型數(shù)據(jù)庫的全面迭代。

圖9:未來企業(yè)的數(shù)據(jù)平臺架構(gòu)

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

中國分析型數(shù)據(jù)庫市場規(guī)模與增速

分析型數(shù)據(jù)庫包括了數(shù)據(jù)倉庫、數(shù)據(jù)湖以及智能湖倉,因此,分析型數(shù)據(jù)庫的市場規(guī)模為這三者的市場規(guī)模之和。

根據(jù)IDC的數(shù)據(jù),2021年,中國數(shù)據(jù)倉庫市場規(guī)模為87.1億元人民幣,大數(shù)據(jù)平臺軟件市場規(guī)模為162.8億元。其中,IDC定義的大數(shù)據(jù)平臺的存儲計算引擎包含了數(shù)據(jù)湖和智能湖倉兩類。因此,可以認為2021年中國分析型數(shù)據(jù)庫的市場規(guī)模為當年數(shù)據(jù)倉庫與大數(shù)據(jù)平臺市場規(guī)模之和,為249.9億元。

同時,根據(jù)IDC的預(yù)測數(shù)據(jù),到2024年,中國數(shù)據(jù)倉庫市場規(guī)模為168.5億元,中國大數(shù)據(jù)平臺軟件市場規(guī)模為352.9億元。綜上數(shù)據(jù),預(yù)計2024年,中國分析型數(shù)據(jù)庫市場規(guī)模將達到521.4億元,復(fù)合增長率CAGR為27.7%。

智能湖倉在未來將逐步替代傳統(tǒng)的數(shù)據(jù)倉庫和數(shù)據(jù)湖,其潛在可觸達的市場即為整個分析型數(shù)據(jù)庫的市場。作為下一代分析型數(shù)據(jù)庫,智能湖倉能夠直接在數(shù)據(jù)湖的低成本存儲上實現(xiàn)類似數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)管理功能,從而兼具了傳統(tǒng)數(shù)據(jù)倉庫與數(shù)據(jù)湖的數(shù)據(jù)存儲與計算能力,在功能、性能、成本等方面具備顯著優(yōu)勢。因此,我們認為長期來看,隨著企業(yè)數(shù)據(jù)量的進一步增長,分析場景的更加豐富,智能湖倉將逐步替代傳統(tǒng)的數(shù)據(jù)倉庫和數(shù)據(jù)湖,其潛在可觸達的市場規(guī)模即為數(shù)據(jù)倉庫與大數(shù)據(jù)平臺軟件的市場規(guī)模之和。

圖10:中國分析型數(shù)據(jù)庫市場規(guī)模及增速

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

測算邏輯補充:

1、數(shù)據(jù)倉庫和大數(shù)據(jù)平臺軟件市場規(guī)模數(shù)據(jù)都包含了本地部署和云端部署兩種模式。

2、大數(shù)據(jù)平臺軟件還包括了數(shù)據(jù)開發(fā)、數(shù)據(jù)資產(chǎn)管理、平臺監(jiān)控管理等運營管理工具。由于數(shù)據(jù)湖或智能湖倉廠商通常也會提供這些軟件服務(wù),因此可以認為大數(shù)據(jù)平臺軟件市場規(guī)模屬于這類廠商能夠觸達的市場規(guī)模。

4.分析型數(shù)據(jù)庫廠商關(guān)鍵競爭要素

分析型數(shù)據(jù)庫市場參與者眾多,為了更準確地判斷市場格局,理解主要廠商的競爭優(yōu)勢,我們從五個維度梳理了分析型數(shù)據(jù)庫廠商關(guān)鍵競爭要素,包括:廠商背景、自研能力、技術(shù)架構(gòu)、商業(yè)模式、行業(yè)落地。

廠商背景:團隊背景和產(chǎn)品定位

廠商背景能夠反映廠商在相關(guān)領(lǐng)域的底蘊、研發(fā)實力、發(fā)展策略等,主要關(guān)注成立時間、團隊背景、產(chǎn)品定位等信息。

廠商成立的時間較早一般意味著其在數(shù)據(jù)庫市場有較深厚的積累,這類廠商有著較高的市場知名度,產(chǎn)品通常成熟穩(wěn)定,服務(wù)的客戶數(shù)量也較多,而近年來新成立的廠商通常在產(chǎn)品技術(shù)層面有較大創(chuàng)新,能夠滿足企業(yè)快速變化的數(shù)據(jù)處理需求。

團隊背景反映的是廠商在數(shù)據(jù)庫產(chǎn)品方面的技術(shù)積累和研發(fā)經(jīng)驗,頭部數(shù)據(jù)庫廠商的核心團隊成員通常來自國內(nèi)外老牌數(shù)據(jù)庫大廠、公有云廠商,或者頂尖院校。

產(chǎn)品定位則反映廠商在分析型數(shù)據(jù)庫領(lǐng)域產(chǎn)品能力、服務(wù)客群、服務(wù)范圍等。

技術(shù)架構(gòu):技術(shù)路線和場景適用能力

廠商的分析型數(shù)據(jù)庫產(chǎn)品采用不同的技術(shù)架構(gòu),代表了其技術(shù)路線和場景適用能力的不同。目前市場上主流廠商提供的分析型數(shù)據(jù)庫包括了前文所述的第二代到第四代,即MPP數(shù)據(jù)倉庫,數(shù)據(jù)湖(基于Hadoop生態(tài))以及智能湖倉。

表3:不同技術(shù)架構(gòu)分析型數(shù)據(jù)庫關(guān)鍵指標

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

自研能力:完善功能、提高穩(wěn)定性、保障安全性

自研能力較強的廠商能夠掌握分析型數(shù)據(jù)庫的核心代碼,從而在數(shù)據(jù)庫的功能迭代和管理運維方面提供原廠級服務(wù),具備較強的競爭優(yōu)勢。廠商掌握核心代碼可以從源頭解決軟件的核心問題,一方面,廠商因此可以主導產(chǎn)品的功能迭代,并針對不同客戶的個性化需求做定制化功能;另一方面,廠商可以在網(wǎng)絡(luò)存儲計算資源、安全管控等方面做更深的優(yōu)化,提供原廠級的數(shù)據(jù)庫管理運維工具,以提升數(shù)據(jù)庫的性能,并使得數(shù)據(jù)庫具備更高的穩(wěn)定性和安全性。

分析型數(shù)據(jù)庫廠商的自研能力包含兩種方式,即自研數(shù)據(jù)庫內(nèi)核或基于開源技術(shù)做源碼級改造并回饋開源社區(qū)。自研數(shù)據(jù)庫內(nèi)核的在數(shù)據(jù)倉庫廠商中較常見,但國內(nèi)外主流數(shù)據(jù)湖和智能湖倉廠商通常都是基于開源技術(shù)做二次開發(fā)。例如,智能湖倉廠商主要基于Netflix開源的Iceberg或Uber開源的Hudi做商業(yè)化版本產(chǎn)品,典型廠商產(chǎn)品如基于Iceberg的滴普FastData、基于Hudi的華為MRS、基于Flink+Iceberg的網(wǎng)易Arctic平臺等。盡管DataBricks目前已經(jīng)開源了其Delta Lake,但DataBricks之外,市場上暫無主流的相關(guān)商業(yè)化版本產(chǎn)品。

圖11:分析型數(shù)據(jù)庫廠商自研方式、目標與價值

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

基于開源技術(shù)做二次開發(fā),廠商能持續(xù)給開源社區(qū)做貢獻,并在開源社區(qū)的具備較高技術(shù)影響力是關(guān)鍵。廠商對源代碼的更改如果不被主流社區(qū)接納,其產(chǎn)品技術(shù)與存在與主流社區(qū)脫節(jié),產(chǎn)品穩(wěn)定性不足的風險。

因此,對于分析型數(shù)據(jù)庫廠商,尤其是智能湖倉廠商,我們應(yīng)重點關(guān)注其與開源社區(qū)的聯(lián)系緊密度,以其在開源社區(qū)的技術(shù)影響力,只有廠商對開源技術(shù)的二次開發(fā)能持續(xù)回饋到主流社區(qū),在主流社區(qū)建立較領(lǐng)先的地位,并可以一定程度上影響開源社區(qū)的技術(shù)發(fā)展路徑,才可以被認為具備較強的自研能力。

商業(yè)模式:提供數(shù)據(jù)平臺全棧產(chǎn)品和服務(wù)

商業(yè)模式層面,國外廠商以提供數(shù)據(jù)庫產(chǎn)品為主,而在國內(nèi)市場,由于企業(yè)的數(shù)字基礎(chǔ)建設(shè)整體上較落后,企業(yè)通常需要廠商提供出數(shù)據(jù)庫產(chǎn)品之外,搭建數(shù)據(jù)平臺所需的工具組件,以及相關(guān)實施和咨詢服務(wù)。

國內(nèi)廠商依據(jù)不同分類,其商業(yè)模式也有相應(yīng)差異。傳統(tǒng)的數(shù)據(jù)庫廠商通常只為企業(yè)提供數(shù)據(jù)庫產(chǎn)品,以及數(shù)據(jù)庫運維工具和部署服務(wù);大數(shù)據(jù)解決方案提供商,包括數(shù)據(jù)湖或智能湖倉廠商除了提供數(shù)據(jù)庫產(chǎn)品,通常也會提供包括數(shù)據(jù)開發(fā)、數(shù)據(jù)治理、數(shù)據(jù)資產(chǎn)管理等搭建數(shù)據(jù)平臺所需的工具組件,以及針對數(shù)據(jù)平臺搭建的實施和咨詢服務(wù)。這其中,廠商間的主要差異在于,各廠商的數(shù)據(jù)平臺相關(guān)的工具組件數(shù)量和功能完善度存在一定區(qū)別,受限于服務(wù)過的客戶范圍和經(jīng)驗積累,其實施和咨詢服務(wù)的效率和體驗也存在優(yōu)劣之分。

我們建議重點關(guān)注能夠提供完善數(shù)據(jù)平臺全棧產(chǎn)品,以及實施和咨詢服務(wù)經(jīng)驗豐富的廠商,這類廠商通常能滿足更多類型的客戶需求,獲得更多的市場份額。此外,公有云廠商在商業(yè)模式也存在一定特殊性,這類廠商雖然也能提供數(shù)據(jù)平臺相關(guān)的產(chǎn)品、實施和咨詢服務(wù),但其側(cè)重點在于為企業(yè)提供云端部署的標準化數(shù)據(jù)庫產(chǎn)品,且其通常會將數(shù)據(jù)庫產(chǎn)品與自家云基礎(chǔ)設(shè)施服務(wù)綁定銷售,定制化服務(wù)通常只面向行業(yè)大客戶。

圖12:分析型數(shù)據(jù)庫廠商典型商業(yè)模式

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

行業(yè)落地:在行業(yè)領(lǐng)域的經(jīng)驗積累

分析型數(shù)據(jù)庫在行業(yè)的落地情況反映的是廠商的產(chǎn)品技術(shù)能力得到行業(yè)客戶的驗證程度,以及在行業(yè)領(lǐng)域的經(jīng)驗積累情況。不同行業(yè)企業(yè)由于其所需處理數(shù)據(jù)量、數(shù)據(jù)類型、分析場景存在差異,其對分析型數(shù)據(jù)庫的功能、性能、成本等方面的要求也各有不同。例如金融、能源等行業(yè)頭部企業(yè)通常都有著PB級超大規(guī)模的數(shù)據(jù),需要數(shù)據(jù)庫具備千萬級單表查詢的高性能,對數(shù)據(jù)的實時處理能力要求也很高,因此,分析型數(shù)據(jù)庫廠商如果能獲得較多金融、能源行業(yè)頭部客戶的使用,意味著廠商在超大規(guī)模數(shù)據(jù)的計算查詢、實時數(shù)據(jù)處理層面具備很好的性能表現(xiàn),且數(shù)據(jù)庫產(chǎn)品穩(wěn)定性較高;而零售行業(yè)企業(yè)存在大量探索性的分析場景,且對數(shù)據(jù)存儲與處理的成本較敏感,因此,廠商如果積累了較多零售行業(yè)企業(yè),則說明其在零售領(lǐng)域有較深的行業(yè)理解,能滿足這類企業(yè)個性化的分析場景的需求,且產(chǎn)品具備較高的性價比。

5.分析型數(shù)據(jù)庫市場競爭格局

分析型數(shù)據(jù)庫市場參與者眾多。在幾十年的發(fā)展歷程中,分析型數(shù)據(jù)庫已經(jīng)經(jīng)歷過四代演進,傳統(tǒng)數(shù)據(jù)庫廠商通過不斷迭代產(chǎn)品滿足用戶需求,依然是該市場中的主要參與者。近年來,隨著數(shù)據(jù)成為企業(yè)最重要的生產(chǎn)要素,企業(yè)對數(shù)據(jù)存儲與處理變得更加復(fù)雜,國內(nèi)外市場中涌現(xiàn)出了一批新銳的數(shù)據(jù)庫廠商,他們在產(chǎn)品設(shè)計上采用了最新一代湖倉一體的的架構(gòu)設(shè)計,而各大公有云廠商也推出了面向多種應(yīng)用場景的分析型數(shù)據(jù)庫產(chǎn)品。

圖13:國內(nèi)外分析型數(shù)據(jù)庫市場代表廠商

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

注:部分最近幾年新成立的數(shù)據(jù)庫廠商,主推傳統(tǒng)MPP數(shù)倉或數(shù)據(jù)湖產(chǎn)品,同樣歸為傳統(tǒng)數(shù)據(jù)庫廠商。

由于公司底蘊,技術(shù)路線等原因,不同類型廠商在產(chǎn)品技術(shù)能力、商業(yè)模式、客戶積累等方面存在諸多差異,因此具備相應(yīng)的優(yōu)勢與不足。

傳統(tǒng)數(shù)據(jù)庫廠商

傳統(tǒng)數(shù)據(jù)庫廠商包含兩類,一類主要提供傳統(tǒng)的MPP數(shù)倉,另一類主要提供基于Hadoop生態(tài)的數(shù)據(jù)湖服務(wù)。這類廠商很多都有著悠久的歷史,甚至伴隨著幾代數(shù)據(jù)庫的發(fā)展至今,如Oracle、Teradata等。

優(yōu)勢

穩(wěn)定性和安全性高。成立時間較久的傳統(tǒng)數(shù)據(jù)庫廠商,其產(chǎn)品經(jīng)過長期的打磨迭代,已經(jīng)得到大量客戶的使用和驗證,因此其通常具備很高的穩(wěn)定性和安全性。例如,Cloudera基于Hadoop生態(tài)先后推出了大數(shù)據(jù)平臺CDH和CDP,尤其目前的發(fā)行版產(chǎn)品CDP在計算引擎、多種分析功能、管理工具、資源調(diào)度等方面都做了大量深度優(yōu)化,并且Cloudera在全球有700多名研發(fā)工程師,能保證用戶獲得穩(wěn)定的使用體驗。同時,借助共享數(shù)據(jù)體驗技術(shù)(SDX)、CDP 中的安全和治理功能,CDP能夠?qū)崿F(xiàn)不同云上企業(yè)數(shù)據(jù)安全、隱私和合規(guī)的一致性。

客戶基礎(chǔ)好。在分析型數(shù)據(jù)庫開始興起的早期,一些傳統(tǒng)數(shù)據(jù)庫廠商憑借領(lǐng)先的產(chǎn)品和技術(shù),完善的管理工具和服務(wù),占據(jù)了大量市場份額,并一致延續(xù)到現(xiàn)在。以O(shè)racle為例,在國內(nèi)市場,大量金融、電信等行業(yè)企業(yè)至今還在使用基于Oracle數(shù)據(jù)庫構(gòu)建的數(shù)據(jù)倉庫。而在國外市場,大部分世界500強,以及更多中小型企業(yè)也是Oracle的用戶。隨著分析型數(shù)據(jù)庫的技術(shù)發(fā)展,Oracle也不斷與時俱進,推出了云數(shù)倉產(chǎn)品Oracle ADW,從而滿足更多客戶的需求。

不足:

技術(shù)架構(gòu)傳統(tǒng)。傳統(tǒng)數(shù)據(jù)庫廠商通常都是沿用原先的技術(shù)架構(gòu),針對新的功能需求做技術(shù)升級和大補丁,由此會造成系統(tǒng)架構(gòu)越來越復(fù)雜,管理和運維成本高。同樣以Cloudera CDP為例,盡管最新版的CDP已經(jīng)在混合云和多云部署、存算分離、多功能分析做更多的支持,但CDP依然沿用了Hadoop生態(tài)體系的技術(shù),目前CDP中已經(jīng)包含了多達39個開源項目,涵蓋存儲、計算、流處理、編排、SQL、NoSQL等多種組件,這樣的系統(tǒng)架構(gòu)非常復(fù)雜,管理維護成本高。同時,這種傳統(tǒng)架構(gòu)對一些新的功能支持不足,例如,不支持數(shù)據(jù)庫之上提供完整的數(shù)據(jù)鏈路等。

新銳數(shù)據(jù)庫廠商

優(yōu)勢

技術(shù)架構(gòu)先進、滿足多種分析場景。新銳數(shù)據(jù)庫廠商在技術(shù)架構(gòu)上很多采用了全新一代的設(shè)計,包括了湖倉一體、流批一體、云原生等,并且對存儲計算引擎做了大量優(yōu)化,能夠以低成本、高性能滿足企業(yè)的多種分析需求。 以滴普科技為例,其智能湖倉產(chǎn)品FastData底層采用了統(tǒng)一的數(shù)據(jù)存儲,通過統(tǒng)一技術(shù)元數(shù)據(jù)層實現(xiàn)完善的數(shù)據(jù)管理能力,并對接各類分析引擎,滿足企業(yè)對多模數(shù)據(jù)統(tǒng)一存儲與處理,以及批處理、流式計算、交互式分析、機器學習等各類分析需求。同時,F(xiàn)astData采用流批一體架構(gòu),能夠?qū)崿F(xiàn)PB級數(shù)據(jù)秒級實時分析。

不足

客戶接受度有待提升。新銳數(shù)據(jù)庫廠商在產(chǎn)品技術(shù)層面具備領(lǐng)先優(yōu)勢,但企業(yè)用戶對新一代的分析型數(shù)據(jù)庫的接受度還有較大提升空間。一方面,大中型企業(yè)通常數(shù)字化程度較高,它們在傳統(tǒng)的數(shù)倉、數(shù)據(jù)湖建設(shè)上已經(jīng)有了較大投入,其數(shù)據(jù)平臺中已經(jīng)有了大量的業(yè)務(wù)應(yīng)用和ETL任務(wù),直接遷移的工作量和成本非常高。因此,目前企業(yè)通常都是出現(xiàn)大量新的數(shù)據(jù)存儲和處理需求的時候,才會引入智能湖倉。另一方面,區(qū)別于國外企業(yè)對于上云的激進步伐,國內(nèi)企業(yè)整體上上云步伐較慢,很多企業(yè)目前還是采用本地部署的模式,難以發(fā)揮云原生帶來的敏捷、彈性、低成本等多種優(yōu)勢。

公有云廠商

優(yōu)勢

產(chǎn)品類型豐富、滿足多種應(yīng)用場景。公有云廠商通常會提供多種類型的分析型的數(shù)據(jù)庫,滿足企業(yè)各類分析需求。以阿里云為例,其分析型數(shù)據(jù)庫產(chǎn)品包括云原生數(shù)據(jù)倉庫AnalyticDB MySQL版、AnalyticDB PostgreSQL版,實時數(shù)倉Hologres、大數(shù)據(jù)計算服務(wù)MaxCompute、基于Hadoop的大數(shù)據(jù)平臺 E-MapReduce,智能湖倉Data Lake Formation。

不足

銷售綁定云服務(wù),缺少中立性。公有云廠商在IaaS、PaaS和SaaS層提供了豐富的產(chǎn)品和服務(wù),其在銷售數(shù)據(jù)庫產(chǎn)品時,通常會綁定其IaaS層的存儲、計算資源、以及相關(guān)的運維服務(wù),這會降低企業(yè)的選擇范圍,增加使用成本。

服務(wù)能力不足。公有云廠商的業(yè)務(wù)重點是在云端為企業(yè)用戶提供標準化的產(chǎn)品,而國內(nèi)大量企業(yè)目前還傾向使用私有化部署的模式,應(yīng)對這類需求,公有云廠商通常會與生態(tài)合作伙伴合作,將實時部署服務(wù)外包,缺乏原廠服務(wù)會造成項目質(zhì)量參差不齊。此外,對于部分企業(yè)的定制化功能需求,公有云廠商通常也難以滿足。

分析型數(shù)據(jù)庫典型產(chǎn)品分類

重點關(guān)注國內(nèi)提供新一代分析型數(shù)據(jù)庫的廠商。一方面,由于廠商底蘊、定位等方面的不同,國內(nèi)外很多廠商會提供多種類型的分析型數(shù)據(jù)庫產(chǎn)品,我們認為新一代架構(gòu)的分析型數(shù)據(jù)庫產(chǎn)品智能湖倉在處理大規(guī)模數(shù)據(jù),支持多種分析場景方面具備領(lǐng)先的優(yōu)勢,未來將會逐步成為分析型數(shù)據(jù)庫市場的主流。另一方面,由于信創(chuàng)政策的影響,國內(nèi)企業(yè),尤其是金融、電信、能源等國有企業(yè)在應(yīng)對未來分析型數(shù)據(jù)庫升級需求時,基本都會選擇國內(nèi)廠商的相關(guān)產(chǎn)品。

圖14:國內(nèi)外分析型數(shù)據(jù)庫典型產(chǎn)品分類

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

6.國內(nèi)代表廠商分析

南大通用GBase

南大通用自2004年成立以來,專注于數(shù)據(jù)庫軟件的自主創(chuàng)新,保持產(chǎn)品核心技術(shù)和底層代碼自主可控,旗下分析型數(shù)據(jù)庫和交易型數(shù)據(jù)庫產(chǎn)品完全依靠自研,2014 年通過引進 Informix 數(shù)據(jù)庫源代碼推出了高端事務(wù)型數(shù)據(jù)庫,逐步形成全技術(shù)棧的數(shù)據(jù)庫產(chǎn)品和服務(wù)。

圖15:南大通用GBase8a發(fā)展大事記

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

技術(shù)架構(gòu)層面,南大通用核心產(chǎn)品GBase 系列數(shù)據(jù)庫隨著客戶需求場景的更迭,發(fā)展出多種架構(gòu)來支持不同的業(yè)務(wù)需求。其中面向數(shù)據(jù)分析市場的,主要是分析型數(shù)據(jù)管理系統(tǒng)GBase 8a和統(tǒng)一數(shù)據(jù)平臺GBase UP。GBase 8a以大規(guī)模并行處理、列存儲,高壓縮和智能索引技術(shù)為基礎(chǔ),具有滿足各個數(shù)據(jù)密集型行業(yè)日益提高的數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和即席查詢等需求的能力。最新的超大規(guī)模集群版本GBase 8a MPP Cluster單個集群支持部署 300 個以上的數(shù)據(jù)節(jié)點,整套集群可處理 15PB 以上數(shù)據(jù)。

GBase UP是融合自有MPP 數(shù)據(jù)庫、事務(wù)型數(shù)據(jù)庫和開源Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)平臺產(chǎn)品,兼顧大規(guī)模分布式并行計算、穩(wěn)定高效的事務(wù)處理,以及Hadoop的多種結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù),能夠適應(yīng)OLAP、OLTP和NOSQL三種計算模型的業(yè)務(wù)場景。

商業(yè)模式層面,南大通用通過構(gòu)筑產(chǎn)品上下游生態(tài)體系提升市場競爭力,將自身數(shù)據(jù)庫產(chǎn)品與國內(nèi)云平臺、操作系統(tǒng)、處理器、中間件等進行深度適配,改進產(chǎn)品并且創(chuàng)新商業(yè)模式,推出適應(yīng)行業(yè)的銷售策略。截至目前,南大通用GBase系列數(shù)據(jù)庫已與國內(nèi)主要廠商的上千款軟硬件產(chǎn)品完成兼容適配認證,并持續(xù)加強與集成商、云廠商、軟件開發(fā)商以及開源社區(qū)的生態(tài)合作,深化產(chǎn)品結(jié)合與優(yōu)化。

GBase 8a已經(jīng)在金融、電信、能源等行業(yè)服務(wù)超過2000家企業(yè),主要包括中國移動、中國聯(lián)通、中國電信、銀監(jiān)會、公安部、安全部、工信部、國稅總局、國家海洋局、中國石油等重要部門和大型國央企,部署節(jié)點超過25000個,管理超過200PB數(shù)據(jù)。

滴普科技FastData

滴普科技成立于2018年,是國內(nèi)領(lǐng)先數(shù)據(jù)智能產(chǎn)品及服務(wù)提供商,其核心產(chǎn)品云原生數(shù)據(jù)智能平臺FastData,包含核心實時湖倉引擎DLink,旨在為企業(yè)建立湖倉一體和流批一體的分析型數(shù)據(jù)庫。公司研發(fā)人員占比85%以上,核心成員是來自華為、阿里、AWS、IBM、Oracle等頭部廠商多年的數(shù)據(jù)庫產(chǎn)品技術(shù)專家。

技術(shù)架構(gòu)層面,F(xiàn)astData對底層各個技術(shù)棧進行了統(tǒng)一,從而實現(xiàn)湖倉一體與流批一體。FastData 在數(shù)據(jù)存儲中采用統(tǒng)一的數(shù)據(jù)存儲格式,通過統(tǒng)一元數(shù)據(jù)層兼容 Hive Meta Store 接口,可實現(xiàn) Flink、Trino、Hive 等常用大數(shù)據(jù)分析、計算引擎的無縫接入和良好的互操作性,并且使用統(tǒng)一的 SQL 編輯器支持各主流的 SQL 類操作。同時,F(xiàn)astData 基于 Iceberg、Flink 和 Trino 引擎做了大量技術(shù)優(yōu)化,用一套架構(gòu)實現(xiàn)數(shù)據(jù)的采集、轉(zhuǎn)換、存儲和分析的實時能力(分鐘級)。

圖16:滴普科技FastData DLink架構(gòu)

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

自研能力層面,滴普科技與開源社區(qū)聯(lián)系緊密,其在客戶服務(wù)過程中結(jié)合客戶的實際場景和需求,在元數(shù)據(jù)管理、數(shù)據(jù)存儲格式和數(shù)據(jù)分析性能上做了大量工作,例如,滴普科技聯(lián)合Iceberg社區(qū)在索引和維表等技術(shù)之上做了增強和優(yōu)化,大幅提升了數(shù)據(jù)查詢性能;在統(tǒng)一元數(shù)據(jù)之后,滴普科技在 Trino 和 Flink 之上構(gòu)建了統(tǒng)一的 ANSI SQL 層,提供了一致的使用體驗,進一步提升易用性。滴普科技將這些Flink、Iceberg、Trino 等開源組件上的優(yōu)化和新特性逐步回饋開源社區(qū),在開源社區(qū)具有較高的活躍度和影響力。

商業(yè)模式層面,滴普科技在數(shù)據(jù)庫產(chǎn)品之外也為企業(yè)提供數(shù)據(jù)平臺全棧產(chǎn)品以及相關(guān)服務(wù)。FastData能為企業(yè)全棧數(shù)據(jù)運營管理能力,包括提供完善的數(shù)據(jù)治理體系和數(shù)據(jù)資源盤點工具;通過開發(fā)、發(fā)布、運維的全鏈條管道管理,實現(xiàn)諸如清洗、統(tǒng)計 、歸檔等各類ELT任務(wù)的高效開發(fā)和智能運維;提供數(shù)據(jù)資產(chǎn)管理工具對數(shù)據(jù)資產(chǎn)進行可視化管理、加工及服務(wù),通過指標/標簽/模型等元素實現(xiàn)對企業(yè)業(yè)務(wù)場景的數(shù)據(jù)化,并提供數(shù)據(jù)資產(chǎn)的編制和運營能力等。與此同時,滴普科技也為客戶提供實施和咨詢服務(wù),為企業(yè)提供高質(zhì)量和具備性價比的原廠服務(wù),并能滿足客戶的定制化開發(fā)需求。

滴普科技在精益制造、商業(yè)流通、生物醫(yī)藥、金融科技、能源雙碳等領(lǐng)域服務(wù)過100多家頭部客戶,包括百麗國際、新華聯(lián)、九洲電器、科倫藥業(yè)、百果園、OPPO、VIVO等,并與深圳市龍華區(qū)、佛山市順德區(qū)、攀枝花東區(qū)等政府單位合作。滴普科技FastData 能夠很好地滿足不同行業(yè)企業(yè)對分析型數(shù)據(jù)庫的需求。例如,在零售行業(yè),F(xiàn)astData 的湖倉一體能力可以很好地支持探索式分析和自助分析,幫助企業(yè)實現(xiàn)數(shù)據(jù)驅(qū)動的管理和業(yè)務(wù)創(chuàng)新;針對先進制造、半導體等行業(yè)面臨海量數(shù)據(jù)的快速去重問題,F(xiàn)astData 可以滿足高并發(fā)、低延遲的PB級數(shù)據(jù)處理需求。

華為云MRS

華為云MRS是華為云于2020年推出的原生數(shù)據(jù)湖服務(wù),是華為云大數(shù)據(jù)云服務(wù)產(chǎn)品FusionInsight的存儲計算引擎。華為云FusionInsight專注于為政企客戶構(gòu)建企業(yè)級數(shù)據(jù)湖提供完整的數(shù)據(jù)存儲、計算、運營管理產(chǎn)品和解決方案服務(wù)。

技術(shù)架構(gòu)方面,MRS云原生數(shù)據(jù)湖是湖倉一體、云原生的數(shù)據(jù)湖解決方案,主要是基于云原生的存算分離架構(gòu)部署大數(shù)據(jù)環(huán)境,并對離線、實時、邏輯三種數(shù)據(jù)湖構(gòu)建了統(tǒng)一的底層架構(gòu)。在數(shù)據(jù)處理層面,引入Hudi簡化數(shù)據(jù)入湖鏈路、采用增量處理框架,實現(xiàn)數(shù)據(jù)增量更新、T+0實時入湖;加強了自研的HetuEngine數(shù)據(jù)虛擬化引擎進行跨源跨域統(tǒng)一SQL訪問,實現(xiàn)不同專題數(shù)據(jù)之間進行聯(lián)合分析;以及將Clickhouse用于自助式OLAP分析。

MRS在不足在于其全套方案是通過集成華為內(nèi)部產(chǎn)品(如GaussDB數(shù)據(jù)庫)和第三方廠商產(chǎn)品(如永洪BI工具)來覆蓋數(shù)據(jù)基礎(chǔ)設(shè)施和大數(shù)據(jù)處理流程各個階段的能力,不同產(chǎn)品組件的連接和統(tǒng)一管理方面的功能不夠完善。

圖17:華為云MRS架構(gòu)

2022愛分析· 中國分析型數(shù)據(jù)庫市場研究報告 | 愛分析報告

自研能力方面,F(xiàn)usionInsight保持開放路線,先后在開源社區(qū)貢獻CarbonData和openLooKeng等大數(shù)據(jù)組件,在Hadoop社區(qū)貢獻達到Top2、Spark社區(qū)貢獻達到Top4。

客戶服務(wù)層面,MRS的客戶基礎(chǔ)覆蓋全球60+國家和地區(qū)、3000+政企客戶,目前聚焦在政府、金融、運營商、大企業(yè)等行業(yè),在IDC發(fā)布的中國大數(shù)據(jù)平臺市場份額評估中連續(xù)三年排名第一。

結(jié)語:國內(nèi)分析型數(shù)據(jù)庫廠商的機遇

隨著國內(nèi)企業(yè)數(shù)字化轉(zhuǎn)型的加速推進,分析型數(shù)據(jù)庫市場有望迎來重大機遇。在近期,金融、先進制造、能源、零售等行業(yè)領(lǐng)先企業(yè)由于其數(shù)據(jù)量大、分析場景更多樣、實時性要求高等因素會率先對分析型數(shù)據(jù)庫功能進行更新升級。在遠期,大部分企業(yè)都將會是高度數(shù)字化的,它們的主要業(yè)務(wù)都由數(shù)據(jù)驅(qū)動,因此需要采用新一代的數(shù)據(jù)存儲與計算引擎,方便滿足更多樣化分析需求,并且具備高性能、低成本等特征。

正是由于上述因素的推動,分析型數(shù)據(jù)庫經(jīng)歷了四代的持續(xù)演進,并在技術(shù)架構(gòu)、功能和性能方面不斷進化。我們認為,傳統(tǒng)的分析型數(shù)據(jù)庫包括數(shù)據(jù)倉庫、數(shù)據(jù)湖在當下依然能滿足一些企業(yè)的部分需求,并且它們也依然會在市場中存在較長的時間,但作為下一代分析型數(shù)據(jù)庫智能湖倉由于其具備的諸多優(yōu)勢,必然會逐漸成為大部分企業(yè)的核心數(shù)據(jù)底座。

在這一趨勢下,國內(nèi)數(shù)據(jù)庫市場也有望借助智能湖倉的興起實現(xiàn)彎道超車,誕生出數(shù)據(jù)庫領(lǐng)域的頭部公司,改變在交易型數(shù)據(jù)庫為主的時代,數(shù)據(jù)庫市場被國外巨頭把持的局面。而為了實現(xiàn)這個目標,就需要國內(nèi)的數(shù)據(jù)庫廠商積極擁抱分析型數(shù)據(jù)庫的發(fā)展趨勢,并持續(xù)在技術(shù)研發(fā)上做大量投入,抓住行業(yè)發(fā)展機遇。

分享到:
標簽:分析 分析報告 中國 市場研究報告 數(shù)據(jù)庫
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定