大數據平臺
Hadoop
離線數據的分布式存儲和計算基礎框架
分布式存儲HDFS
離線計算引擎MapReduce
資源調度Apache YARN
CDH
基于穩定版Hadoop及相關項目最成型的發行版本, 成為企業部署最廣泛的大數據系統
可視化的UI界面中方便的管理
配置和監控Hadoop以及其它所有相關組件
簡單來說將十幾個hadoop開源項目集成在一起
HDP
基于hadoop生態系統開源組件構建的大數據分析平臺
集群管理與監控
Cloudera Manager
用于部署和管理CDH集群的軟件
Hadoop平臺的管理軟件,具備Hadoop組件的安裝、管理、運維
文件系統
HDFS
分布式文件系統
資源調度
YARN
hadoop的資源管理和作業調度系統
協調框架
Zookeeper
分布式協調服務,解決分布式數據一致性方案 實現諸如數據發布
訂閱、負載均衡、命名、集群管理 master節點管理
分布式鎖和分布式隊列
數據存儲
Hbase
分布式面向列的NoSQL開源數據庫
Cassandra
分布式的混合NoSQL數據庫 ,還有C++版本ScyllaDB
MongDB
面向文檔的開源分布式數據庫
redis
開源的支持網絡,基于內存可持久化日志,key-value數據庫,可用于
數據庫
緩存
消息中間件
Neo4j
開源高性能的NoSQL圖形數據庫
數據處理
MapReduce
分布式離線的計算框架
批處理
日漸被spark和flink取代
Spark
通用的一站式計算框架
SparkCore批處理
SparkSQL交互式處理
SparkStreaming流處理
Spark Graphx圖計算
Spark MLlib機器學習
Flink
流處理和批處理分布式數據處理框架
核心是一個流式的數據流執行引擎 類似于Spark
批處理
數據流處理
交互處理
圖形處理和機器學習
Storm
分布式實時大數據處理系統
毫秒級別的實時數據處理能力
實時分析的領導者
數據查詢分析
Hive
基于hadoop的數據倉庫,結構化
SparkSQL
處理結構化數據的spark組件
分布式的SQL查詢引擎
Impala
實時交互SQL大數據查詢引擎
Druid
實時大數據分析引擎
Elastic Search
分布式可擴展的實時搜索和分析引擎,基于Apache Lucene搜索引擎
數據收集
Flume
分布式海量日志采集、聚合和傳輸系統
Logstash
具有實時管道功能的開源數據收集引擎
數據交換
sqoop
數據遷移工具,用來在不同數據存儲軟件之間進行數據傳輸的開源軟件
DataX
阿里巴巴開源的離線數據同步工具,用于實現包括關系型數據庫(MySQL、Oracle等)
HDFS、Hive、ODPS、HBase、FTP等各種異構數據源之間穩定高效的數據同步
消息系統
Pulsar
企業級分布式消息系統,有替代Kafka的趨勢
Kafka
發布/訂閱的消息系統,由Scala寫成
RocketMQ
阿里巴巴分布式、隊列模型的消息中間件
任務調度
Azkaban
批量工作流任務調度器,將所有正在運行的工作流的狀態保存在其內存
Oozie
基于Hadoop的企業級工作流調度框架
將所有正在運行的工作流的狀態保存SQL數據庫
Cloudeara貢獻給Apache的頂級項目
數據治理
Ranger
Hadoop 平臺上并提供操作、監控、管理綜合數據安全的框架
提供一個集中的管理機制,所有數據權限
Sentry
Hadoop集群元數據和數據存儲提供集中、細粒度的訪問控制項目
數據可視化
Kibana
用于和 Elasticsearch 一起使用的開源的分析與可視化平臺
數據挖掘
Mahout
基于hadoop的機器學習和數據挖掘的一個分布式框架
Spark MLlib
Spark的機器學習庫
MADlib
基于SQL的數據庫內置的可擴展的機器學習庫
云平臺技術
AWS S3
一種對象存儲服務,提供行業領先的可擴展性、數據可用性、安全性和性能
存儲和保護各種用例數據
GCP
google提供的一套云計算服務
注冊一個帳號,在分布在全球各地數十個google機房使用所有的基礎架構服務






