亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會員：747

OLAP引擎：基于Druid組件進行數(shù)據(jù)統(tǒng)計分析

發(fā)布時間：2023-07-03 02:39:13 作者：網(wǎng)友整理

一、Druid概述

1、Druid簡介

Druid是一款基于分布式架構(gòu)的OLAP引擎，支持?jǐn)?shù)據(jù)寫入、低延時、高性能的數(shù)據(jù)分析，具有優(yōu)秀的數(shù)據(jù)聚合能力與實時查詢能力。在大數(shù)據(jù)分析、實時計算、監(jiān)控等領(lǐng)域都有相關(guān)的應(yīng)用場景，是大數(shù)據(jù)基礎(chǔ)架構(gòu)建設(shè)中重要組件。

與現(xiàn)在相對熱門的Clickhouse引擎相比，Druid對高并發(fā)的支持相對較好和穩(wěn)定，但是Clickhouse在任務(wù)隊列模式中的數(shù)據(jù)查詢能力十分出色，但是對高并發(fā)支持不夠友好，需要做好很多服務(wù)監(jiān)控和預(yù)警。大數(shù)據(jù)組件中OLAP引擎的選型有很多，在數(shù)據(jù)的查詢引擎層通常都具有兩種或者以上的OLAP引擎，選擇合適的組件解決業(yè)務(wù)需求是優(yōu)先原則。

2、基本特點

分布式

分布式的OLAP數(shù)據(jù)引擎，數(shù)據(jù)分布在多個服務(wù)節(jié)點中，當(dāng)數(shù)據(jù)量激烈增長的時候，可以通過增加節(jié)點的方式進行水平擴容，數(shù)據(jù)在多個節(jié)點相互備份，如果單個節(jié)點出現(xiàn)故障，則可基于Zookeeper調(diào)度機制重新構(gòu)建數(shù)據(jù)，這是分布式OLAP引擎的基本特點，在之前Clickhouse系列中也說過這個策略。

聚合查詢

主要針對時間序列數(shù)據(jù)提供低延時數(shù)據(jù)寫入和快速聚合查詢，時序數(shù)據(jù)庫特點寫入即可查詢，Druid在數(shù)據(jù)寫入時就會對數(shù)據(jù)預(yù)聚合，進而減少原始數(shù)據(jù)量，節(jié)省存儲空間并提升查詢效率;數(shù)據(jù)聚合粒度可以基于特定策略，例如分鐘、小時、天等。必須要強調(diào)Druid適合數(shù)據(jù)分析場景，并不適合單條數(shù)據(jù)主鍵查詢的業(yè)務(wù)。

列式存儲

Druid面向列的存儲方式，并且可以在集群中進行大規(guī)模的并行查詢，這意味在只需要加載特定查詢所需要的列情況下，查詢速度可以大幅度提升。

3、基礎(chǔ)架構(gòu)

統(tǒng)治者節(jié)點

即Overlord-Node，任務(wù)的管理節(jié)點，進程監(jiān)視MiddleManager進程，并且是數(shù)據(jù)攝入Druid的控制器，負(fù)責(zé)將提取任務(wù)分配給MiddleManagers并協(xié)調(diào)Segement發(fā)布。

協(xié)調(diào)節(jié)點

即Coordinator-Node，主要負(fù)責(zé)數(shù)據(jù)的管理和在歷史節(jié)點上的分布，協(xié)調(diào)節(jié)點告訴歷史節(jié)點加載新數(shù)據(jù)、卸載過期數(shù)據(jù)、復(fù)制數(shù)據(jù)、和為了負(fù)載均衡移動數(shù)據(jù)。

中間管理節(jié)點

即MiddleManager-Node，攝入實時數(shù)據(jù)，已生成Segment數(shù)據(jù)文件，可以理解為overlord節(jié)點的工作節(jié)點。

歷史節(jié)點

即Historical-Node，主要負(fù)責(zé)歷史數(shù)據(jù)存儲和查詢，接收協(xié)調(diào)節(jié)點數(shù)據(jù)加載與刪除指令，historical節(jié)點是整個集群查詢性能的核心所在，因為historical會承擔(dān)絕大部分的segment查詢。

查詢節(jié)點

即Broker-Node，扮演著歷史節(jié)點和實時節(jié)點的查詢路由的角色，接收客戶端查詢請求，并將這些查詢轉(zhuǎn)發(fā)給Historicals和MiddleManagers，當(dāng)Brokers從這些子查詢中收到結(jié)果時，它們會合并這些結(jié)果并將它們返回給調(diào)用者。

數(shù)據(jù)文件存儲庫

即DeepStorage，存放生成的Segment數(shù)據(jù)文件。

元數(shù)據(jù)庫

即MetadataStorage，存儲Druid集群的元數(shù)據(jù)信息，比如Segment的相關(guān)信息。

協(xié)調(diào)中間件

即Zookeeper，為Druid集群提供協(xié)調(diào)服務(wù)，如內(nèi)部服務(wù)的監(jiān)控，協(xié)調(diào)和領(lǐng)導(dǎo)者選舉。

二、Druid部署

1、安裝包

imply對druid做了集成，并提供從部署到配置到各種可視化工具的完整的解決方案。

https://static.imply.io/release/imply-2.7.10.tar.gz

解壓并重新命名。

[root@hop01 opt]# tar -zxvf imply-2.7.10.tar.gz
[root@hop01 opt]# mv imply-2.7.10 imply2.7

2、Zookeeper配置

配置Zookeeper集群各個節(jié)點，逗號分隔。

[root@hop01 _common]# cd /opt/imply2.7/conf/druid/_common
[root@hop01 _common]# vim common.runtime.properties 
druid.zk.service.host=hop01:2181,hop02:2181,hop03:2181

關(guān)閉Zookeeper內(nèi)置校驗并且不啟動。

[root@hop01 supervise]# cd /opt/imply2.7/conf/supervise
[root@hop01 supervise]# vim quickstart.conf

注釋掉如下內(nèi)容：

3、服務(wù)啟動

依次啟動相關(guān)組件：Zookeeper、Hadoop相關(guān)組件，然后啟動imply服務(wù)。

[root@hop01 imply2.7]# /opt/imply2.7/bin/supervise -c /opt/imply2.7/conf/supervise/quickstart.conf

注意虛擬機內(nèi)存問題，在如下的目錄中Druid各個組件的JVM配置，條件不允許的話適當(dāng)拉低，并且要拉高JVM相關(guān)內(nèi)存參數(shù)。

[root@hop01 druid]# cd /opt/imply2.7/conf/druid

啟動默認(rèn)端口：9095，訪問界面如下：

三、基礎(chǔ)用法

1、數(shù)據(jù)源配置

選擇上述Http的方式，基于imply提供的JSON測試文件。

https://static.imply.io/data/wikipedia.json.gz

2、數(shù)據(jù)在線加載

執(zhí)行上述：Sample and continue。

樣本數(shù)據(jù)加載配置：

數(shù)據(jù)列的配置：

配置項總體概覽：

最后執(zhí)行數(shù)據(jù)加載任務(wù)即可。

3、本地樣本加載

[root@hop01 imply2.7]# bin/post-index-task --file quickstart/wikipedia-index.json

這樣讀取兩份數(shù)據(jù)腳本。

4、數(shù)據(jù)立方體

數(shù)據(jù)加載完成后，查看可視化數(shù)據(jù)立方體：

數(shù)據(jù)立方體中提供一些基礎(chǔ)的視圖分析，可以在多個維度上拆分?jǐn)?shù)據(jù)集并進行數(shù)據(jù)分析：

5、SQL查詢

可以基于可視化工具對Druid進行SQL查詢，語法與常用規(guī)則幾乎一樣：

SELECT COUNT(*) AS Edits FROM wikipedia;
SELECT * FROM wikipedia WHERE "__time" BETWEEN TIMESTAMP '開始' AND TIMESTAMP '結(jié)束';
SELECT page, COUNT(*) AS Edits FROM wikipedia GROUP BY page LIMIT 2;
SELECT * FROM wikipedia ORDER BY __time DESC LIMIT 5;
SELECT * FROM wikipedia LIMIT 3;

6、Segment文件

文件位置：

/opt/imply2.7/var/druid/segments/wikipedia/

Druid基于Segment實現(xiàn)對數(shù)據(jù)的切割，數(shù)據(jù)按時間的時序分布，將不同時間范圍內(nèi)的數(shù)據(jù)存儲在不同的Segment數(shù)據(jù)塊中，按時間范圍查詢數(shù)據(jù)時，可以避免全數(shù)據(jù)掃描效率可以極大的提高，同時面向列進行數(shù)據(jù)壓縮存儲，提高分析的效率。

分享到：

標(biāo)簽：Druid