開源就能搞定,還要選商業(yè)方案嗎?
我是小白用戶,開源方案上手快嗎?
性能有極致要求,開源能滿足嗎?
追求性價比,哪種方案更適合我?
我對MySQL很熟悉,
數(shù)據(jù)分析場景適合嗎?
上述問題如何解?
看阿里云幫你對比分析!
近些年來在數(shù)據(jù)分析領域,涌現(xiàn)出很多開源的技術方案,例如Presto、Spark、Impala等。面對多種選擇,客戶往往會比較困惑、無從下手。此外,MySQL生態(tài)非常火熱,但對于數(shù)據(jù)分析類場景,使用此類關系型數(shù)據(jù)庫是否合適呢?
阿里云近期,基于常見的開源數(shù)據(jù)分析產(chǎn)品和數(shù)據(jù)庫與阿里云自研的分析型數(shù)據(jù)庫MySQL版進行了對比性能測試,希望從中能幫你找到答案。具體測試細節(jié),可參見阿里云官網(wǎng)鏈接。
01、測試標準:TPC-H
本次對比測試,是使用TPC-H標準。TPC-H(商業(yè)智能計算測試)是美國交易處理效能委員會(TPC,Transaction Processing Performance Council) 組織制定的用來模擬決策支持類應用的一個測試集。
目前在學術界和工業(yè)界普遍采用它來評價決策支持技術方面應用的性能。這種商業(yè)測試可以全方位評測系統(tǒng)的整體商業(yè)計算綜合能力,對廠商的要求更高,同時也具有普遍的商業(yè)實用意義。
TPC-H 是根據(jù)真實的生產(chǎn)運行環(huán)境來建模,模擬了一套銷售系統(tǒng)的數(shù)據(jù)倉庫。其共包含8個基本關系,數(shù)據(jù)量可設定從1G~3T不等。其基準測試共包含了22個查詢,主要評價指標各個查詢的響應時間,即從提交查詢到結果返回所需時間。其測試結果可綜合反映系統(tǒng)處理查詢時的能力。
02、測試方案
測試基于阿里云基礎環(huán)境,在同等(或接近)的硬件配置下,對比分析型數(shù)據(jù)庫MySQL版與MySQL、Presto、Spark、Impala在同等數(shù)據(jù)規(guī)模(100G)下,標準TPC-H的測試結果對比。測試環(huán)境如下表:
*點擊查看大圖
03、測試結果
如下表可以看出,分析型數(shù)據(jù)庫MySQL版比MySQL8.0性能提升100多倍,比其他開源數(shù)據(jù)分析產(chǎn)品也有6~10倍的性能提升。
*點擊查看大圖
*表格中對比數(shù)據(jù)為性能提高倍數(shù),計算方法為(開源-ADB)/ADB。
*測試中Impala、Presto因語法或資源問題,無法全部完成測試。
04、解讀數(shù)據(jù)
在與關系型數(shù)據(jù)庫典型產(chǎn)品-MySQL對比中,分析型數(shù)據(jù)庫MySQL版實現(xiàn)了百余倍的提升。雖然MySQL采用了最新的8.0版本,在復雜SQL處理能方面有了長足的進步,但與專業(yè)數(shù)據(jù)分析類產(chǎn)品對比,差距明顯。
在實際使用中,對于查詢不太復雜、數(shù)據(jù)規(guī)模不大、響應時間要求不高的情況下,使用原生MySQL是可以接受的。對于稍顯復雜的場景,還是建議選擇專業(yè)的分析類產(chǎn)品。(廣告下:分析型數(shù)據(jù)庫MySQL版已推出MySQL分析型實例,歡迎關注!)
對Presto、Spark、Impala的對比中,分析型數(shù)據(jù)庫MySQL版也實現(xiàn)了6~10余倍的性能提升。同樣作為分布式數(shù)據(jù)分析類產(chǎn)品,分析型數(shù)據(jù)庫MySQL版經(jīng)過多年技術積累,在存儲架構、優(yōu)化器、執(zhí)行引擎等多領域的創(chuàng)新性成果,可大幅提高海量數(shù)據(jù)的實時查詢性能。
測試中除分析型數(shù)據(jù)庫MySQL版外,其余產(chǎn)品都進行部分調(diào)優(yōu)工作(包括參數(shù)調(diào)整、數(shù)據(jù)結構調(diào)整、語句改寫等);而只有分析型數(shù)據(jù)庫MySQL版真正實現(xiàn)了“開箱即用”,零優(yōu)化、免維護、無開發(fā)。除在TPC-H提供的建表語句中增加對分布鍵的定義外(原有測試標準未考慮到分布式數(shù)據(jù)庫場景),其余未做任何調(diào)整。
05、客戶選擇
回到文章之初的問題,客戶如何來選擇?這里簡單整理了幾點:
- 極致性能
對比測試結果來看,分析型數(shù)據(jù)庫MySQL版在性能上優(yōu)勢明顯。這也是依賴于多年技術積累所致。
- 語法兼容
從測試過程來看,分析型數(shù)據(jù)庫MySQL版對MySQL生態(tài)兼容很好,語句無需修改即可使用。其他產(chǎn)品在兼容性方面還需進一步加強。
- 技術基礎
如技術較薄弱的客戶,選擇分析型數(shù)據(jù)庫MySQL版的商用方案無疑是很合適的。如果客戶已經(jīng)在其他大數(shù)據(jù)棧有了多年積累,可快速解決問題,則可以選擇其他產(chǎn)品。
- 高性價比
上述測試中,未算考慮經(jīng)濟投入。在使用同樣云端資源的情況下,分析型數(shù)據(jù)庫MySQL版較其他產(chǎn)品,具有明顯的經(jīng)濟優(yōu)勢。同時,分析型數(shù)據(jù)庫MySQL版也提供了豐富的規(guī)格選擇,進一步為客戶降低成本。例如之前推出的基礎版規(guī)格,將大數(shù)據(jù)分析門檻大幅降低;新推出的大存儲規(guī)格,則面向具備海量數(shù)據(jù)體量用戶;其未來還將有更為豐富且具有彈性的規(guī)格推出。(廣告下,3月末還將有重磅產(chǎn)品發(fā)布,敬請期待!)
- 簡單易用
零維護、免優(yōu)化,這是分析型數(shù)據(jù)庫MySQL版給很多客戶的直觀印象。其將數(shù)據(jù)分析這一原本門檻較高的領域,變得觸手可得。感興趣的同學,可以根據(jù)文檔說明,快速復現(xiàn)上述測試過程,真正體會下分析型數(shù)據(jù)庫MySQL版帶來的價值。






