亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

Hadoop介紹 (直奔主題)

開源的數據分析平臺,解決了大數據(大到一臺計算機無法進行存儲,一臺計算機無法在要求的時間內進行處理)的可靠存儲和處理。適合處理非結構化數據,包括HDFS,MapReduce基本組件與擴展組件Pig、Hive、Hbase、Sqoop、Flume、ZooKeeper和Spark等。

Hadoop基本組件

HDFS組件:提供了一種跨服務器的彈性數據存儲系統,在由普通PC組成的集群上提供高可靠的文件存儲,通過將塊保存多個副本的辦法解決服務器或硬盤壞掉的問題。

存儲結構如下圖:

大數據之Hadoop初識篇

MapReduce組件:通過簡單的MApper和Reducer的抽象提供一個編程模型,可以在一個由幾十臺上百臺的PC組成的不可靠集群上并發地,分布式地處理大量的數據集,而把并發、分布式(如機器間通信)和故障恢復等計算細節隱藏起來。而Mapper和Reducer的抽象,又是各種各樣的復雜數據處理都可以分解為的基本元素。這樣,復雜的數據處理可以分解為由多個Job(包含一個Mapper和一個Reducer)組成的有向無環圖(DAG),然后每個Mapper和Reducer放到Hadoop集群上執行,就可以得出結果。

MapReduce工作原理圖如下:

大數據之Hadoop初識篇

Hadoop 擴展組件

這些技術主要包括了Sqoop、Flume、Hive、Pig、ZooKeeper、Spark等。

Pig組件:Apache Pig也是Hadoop框架中的一部分,Pig提供類SQL語言(Pig Latin)通過MapReduce來處理大規模半結構化數據。而Pig Latin是更高級的過程語言,通過將MapReduce中的設計模式抽象為操作,如Filter,GroupBy,Join,OrderBy。

Hive組件:是一個基于 hadoop 的開源數據倉庫工具,用于存儲和處理海量結構化數據。它把海量數據存儲于 hadoop 文件系統,而不是數據庫,但提供了一套類數據庫的數據存儲和處理機制,并采用 HQL (類 SQL )語言對這些數據進行自動化管理和處理。我們可以把 Hive 中海量結構化數據看成一個個的表,而實際上這些數據是分布式存儲在 HDFS 中的。 Hive 經過對語句進行解析和轉換,最終生成一系列基于 hadoop 的 map/reduce 任務,通過執行這些任務完成數據處理。

Hbase組件:

HBase是一個構建在HDFS上的分布式列存儲系統

HBase是基于google BigTable模型開發的,典型的key/value系統;

HBase是Apache Hadoop生態系統中的重要一員,主要用于海量結構化數據存儲;

從邏輯上講,HBase將數據按照表、行和列進行存儲。

與hadoop一樣,Hbase目標主要依靠橫向擴展,通過不斷增加廉價的商用服務器,來增加計算和存儲能力。

與HDFS關系圖如下:

大數據之Hadoop初識篇

Sqoop組件:Sqoop 工具是hadoop環境下連接關系數據庫(如 :MySQL ,Oracle) ,和hadoop存儲系統的橋梁,支持多種關系數據源和hive,hdfs,hbase的相互導入。一般情況下,關系數據表存在于線上環境的備份環境,需要每天進行數據導入,根據每天的數據量而言,sqoop可以全表導入,對于每天產生的數據量不是很大的情形可以全表導入,但是sqoop也提供了增量數據導入的機制。

Flume組件:Flume是Cloudera提供的日志收集系統,Flume支持在日志系統中定制各類數據發送方,用于從網站服務器上收集數據。同時Flume提供對數據進行簡單處理,并寫到HDFS,HBase等集中存儲器中。Flume是一個分布式、可靠、和高可用的海量日志采集、聚合和傳輸的系統。

應用場景比如我們在做一個電子商務網站,然后我們想從消費用戶中訪問點特定的節點區域來分析消費者的行為或者購買意圖. 這樣我們就可以更加快速的將他想要的推送到界面上,實現這一點,我們需要將獲取到的她訪問的頁面以及點擊的產品數據等日志數據信息收集并移交給Hadoop平臺上去分析.而Flume正是幫我們做到這一點。現在流行的內容推送,比如廣告定點投放以及新聞私人定制也是基于次,不過不一定是使用FLume,畢竟優秀的產品很多,比如facebook的Scribe,還有Apache新出的另一個明星項目chukwa,還有淘寶Time Tunnel。

結構如下圖所示:

大數據之Hadoop初識篇

ZooKeeper組件:一種集中服務,其用于維護配置信息,命名,提供分布式同步,以及提供分組服務。

ZooKeeper是一個典型的分布式數據一致性的解決方案,分布式程序可以基于它實現諸如數據發布/訂閱、負載均衡、命名服務、分布式協調通知、集群管理、master選舉、分布式鎖、分布式隊列等功能。ZooKeeper可以保證如下分布式一致性特性。

順序一致性:從同一個客戶端發起的事務請求,最終將嚴格按照其發起順序被應用到ZooKeeper中。

原子性:更新操作要么成功要么失敗,沒有中間狀態

單一視圖:不管客戶端連接哪一個服務器,客戶端看到服務端的數據模型都是一致的(the same view of service)。

可靠性:一旦一個更新成功,那么那就會被持久化,直到客戶端用新的更新覆蓋這個更新。

實時性:Zookeeper僅保證在一定時間內,客戶端最終一定能夠從服務端讀到最新的數據狀態。

Spark組件:Spark是一個Apache項目,它被標榜為“快如閃電的集群計算”。它擁有一個繁榮的開源社區,并且是目前最活躍的Apache項目之一。

Spark提供了一個更快、更通用的數據處理平臺。和Hadoop的MapReduce相比,Spark可以讓你的程序在內存中運行時速度提升100倍,或者在磁盤上運行時速度提升10倍。去年,在100 TB Daytona GraySort比賽中,Spark戰勝了Hadoop,它只使用了十分之一的機器,但運行速度提升了3倍。Spark也已經成為 針對 PB 級別數據排序的最快的開源引擎。注:MapReduce適合歷史數據分析計算,Spark適合實時數據分析計算。

Cloudera:100%開源的商業化Apache Hadoop發行版本(CDH, Cloudera’s Distribution including Apache Hadoop)和相關的組件,其中包括了各類安全高效的企業級數據管理工具,如Hive, HBase,Oozie, Zookeeper等。

Hortonworks:Hortonworks是一家基于Hadoop提供大數據服務的公司,致力于開發Hadoop框架內軟件,提升大數據的處理能力。開發了很多增強特性并提交至核心主干,這使得Hadoop能夠在包括windows Server和Azure在內平臺上本地運行。

MapR:獲取更好的性能和易用性而支持本地Unix文件系統而不是HDFS。提供諸如快照、鏡像或有狀態的故障恢復等高可用性特性。領導著Apache Drill項目,是Google的Dremel的開源實現,目的是在Hadoop數據上執行類似SQL的查詢以提供實時處理。

結合上面介紹來一張各組件整體結構圖如下:

大數據之Hadoop初識篇

分享到:
標簽:數據
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定