得數據者得天下。數據,是未來企業發展的基石。在全民都高喊數字化轉型的大背景下,不管是企業的運營,還是民生,整個社會無時無刻不在產生數據。而關于如何更好地存儲和運用這些海量的數據,是我們永遠都繞不開的話題。
今天我們將從歷史的角度,分析歷代數據庫的發展脈絡及各自的優缺點。以及在各種“卡脖子”的世界格局之下,國產數據庫的“異軍突起”-OushuDB是如何在眾多數據庫的“拼殺”中脫穎而出,成為世界上最快的分析型數據庫,并成為中國唯一一家把自主研發的高性能數據庫產品出售到美國市場。
歷史回顧
- 第一代(19世紀70年代) 關系型數據庫
早在19世紀70年代,第一代專門用來存儲計算機產生的數據的數據庫就已經誕生。以甲骨文、IBM為代表的公司,研發了第一代數據庫Oracle和DB2,這些算是數據庫的鼻祖,也一直延用至今。與此同時,用于數據庫數據查詢的語言,SQL的標準,也是在這個時代誕生。ANSI在1986年發布了首個SQL標準。
第一代數據庫主要應用于關系型數據的存儲和一些業務報表的分析,它一般以單節點的形式存在,最多只能擴展到十幾個節點,而且擴展也比較困難。它的性能屬于中差水平,無法應對海量數據的快速分析。
代表:oracle 、DB2、sqlserver
節點:十幾;擴展困難
SQL兼容性:好性能:中
云支持:差
- 第二代(20世紀70年代中期) 分布式數據庫
伴隨著互聯網的高速發展,數據的規模成指數級增長。第一代數據庫無論是在存儲容量上或是在計算速度上,都已經無法滿足需求。一次商業計算分析任務,可能要花上幾個小時的等待,才能得出結果。大規模并行計算正是在這個時代發展起來。它的核心應用方向就是大數據分析,通過分而治之的思想,來實現分析任務的快速完成。
代表:teradata、greenplum
節點:幾百;擴展困難
SQL兼容性:好性能:中
云支持:差
- 第三代(2000s) SQL-on-Hadoop架構
這一代的數據庫特點是以Hadoop、HDFS為理論基礎,通過存算分離的架構,來實現大數據的存儲與計算。而作為通用的數據操作語言SQL,自然也被容入到了這個體系中來。典型的有HiveSQL、SparkSQL等應用框架
代表:cloudera、hive、spark
節點:上千節點,易擴展
SQL兼容性:差性能:較好
云支持:中
主角登場
OushuDB應用架構
雖然第三代數據庫架構已經解決了大規模存儲和大規模計算等問題,但其在SQL兼容性、在實時性、在云原生支持等方面,并不那么理想。而第四代數據庫,不僅僅解決了大規模的存算問題,同時還擁有更好SQL兼容、大規模集群、流批一體、湖倉一體以及天生的云原生支持等特性。
作為第四代數據庫中國產數據庫的代表,OushuDB具備以上所有的特性,同時還具備以下特點:
OushuDB特點
從下圖可以看出,OushuDB在與其它數據倉庫的對比中,各項指標都占據上峰:
OuShuDB與其它數據倉庫的比較
OushuDB采用存算分離架構,不管是存儲節點還是計算節點,都支持云原生狀態下的獨立自由擴展。
關于存儲:
OushuDB的存儲單元通過可插撥的方式進行自由擴展,支持S3、HDFS以及自研的Magma存儲方式。三種存儲方式各有特點,用戶可根據不同的應用場景和預算要求,選擇合適的存儲方式。此處我們重點了解一下自研的Magma存儲方式:
1、作為存儲,Magma存儲的數據是表數據,是結構化數據,不是簡單的KV。
2、Magma支持對表數據做更新和刪除操作。
3、它的高可用是通過Raft的協議數據復制來實現的。
4、它的事務特性是通過多版本來實現的。
5、它的高性能的是通過行列混合的存儲格式來支持OLAP高性能查詢。
6、它提供了數據索引功能,可以建立主鍵索引和非主鍵索引。
7、作為分布式的存儲,它整合數據預處理技術,提供了便捷的集群擴展、集群容錯以及負載均衡。
關于計算:
OushuDB是目前全球最快的新一代分析型云原生數據庫引擎,基于SIMD技術,可以實現PB級大數據交互式查詢。其性能比傳統數據倉庫快5-10倍,比傳統SQL on Hadoop引擎快幾十倍。其領先的性能優化技術包括:
1、采用了基于SIMD的全新執行器
2、動態流水線架構
3、基于SIMD的壓縮解壓算法
關于標準支持:
OushuDB完整兼容ANSI-SQL-92, SQL-99, SQL-2003標準, 以及OLAP擴展。對于剛接觸OushuDB的用戶來說,入門的門檻極低。
1、與PostgreSQL和GPDB語法兼容
2、支持事務ACID
3、支持標準JDBC, ODBC連接
4、支持存儲過程(PL/pgSQL, PL/Python et al)
5、支持混合工作負載
6、提供了存儲、查詢和修改空間數據的能力產品亮點
關于AI支持:
OushuDB集成LittleBoyAI平臺,可提供無縫的AI應用能力支持。
1、支持內置機器學習算法庫,擴展數據庫分析功能
2、支持LittleBoy自動化機器學習,降低AI應用開發的難度
3、提供多種數據轉換、數據探索、統計、數據挖掘和機器學習算法
4、針對分布式架構對機器學習算法庫進行了優化,易于使用并提升算法性能
最后
隨著各種“卡脖子”事件的不斷發生,隨著國家信創的不斷推進。各類技術的完全自主國產化發展必定是未來的主流方向,數據庫也不例外。今天的OushuDB已經是在國際數據庫竟爭中展露頭角,未來相信OushuDB能給我們帶來更多的驚喜。也希望國內能夠有更多的優秀數據庫廠家加入這場“戰爭”。讓中國的數據庫解決方案走向世界,走向未來。






