
第一階段 Spark基礎入門
第1課 Spark系統(tǒng)概述與編程接口
知識點1:Spark系統(tǒng)概述
知識點2:Spark RDD分區(qū)及依賴關系
知識點3:RDD API-transformation、action
實戰(zhàn)項目:PageRank中的依賴關系
第2課 Spark運行模式及原理
知識點1:Spark運行模式
知識點2:Spark基本工作流程
知識點3:Spark Shuffle講解
實戰(zhàn)項目:YARN cluster模式–部署、運行、內(nèi)部實現(xiàn)及其原理
第二階段 Spark進階:存儲、調(diào)度、性能調(diào)優(yōu)
第3課 Spark存儲、調(diào)度、與監(jiān)控分析
知識點1:存儲管理模塊整體架構
知識點2:RDD持久化
知識點3:Shuffle數(shù)據(jù)持久化
知識點4:廣播(Broadcast)變量持久化
知識點5:Spark調(diào)度相關流程
實戰(zhàn)項目:Spark監(jiān)控管理
第4課 Spark性能調(diào)優(yōu)
知識點1:開發(fā)調(diào)優(yōu)
知識點2:資源調(diào)優(yōu)
知識點3:數(shù)據(jù)傾斜調(diào)優(yōu)
實戰(zhàn)項目:shuffle調(diào)優(yōu)
第三階段 Spark深入:即時查詢、流計算與圖計算
第5課 Spark即時查詢講解
知識點1:SQLContext 及DataFrame的介紹
知識點2:常用的查詢操作
知識點3:流計算系統(tǒng)的對比
知識點4:Spark streaming的介紹與數(shù)據(jù)處理流程
知識點5:流數(shù)據(jù)源的接入
知識點6:transformation與window操作
實戰(zhàn)項目:SQL優(yōu)化配置、及流計算項目的部署與調(diào)優(yōu)
第6課 Spark圖計算講解
知識點1:屬性圖的介紹
知識點2:edge、vertex、triplet介紹與創(chuàng)建
知識點3:屬性圖的操作
知識點4:圖算法介紹
實戰(zhàn)項目:圖的調(diào)優(yōu)
第四階段 Spark機器學習實戰(zhàn)
第7課 Spark機器學習講解
知識點1:Mllib 機器學習庫介紹
知識點2:基本的統(tǒng)計分析功能
知識點3:基本的機器學習庫使用介紹
知識點4:模型的評價標準庫使用介紹
實戰(zhàn)項目:使用邏輯回歸完成KDD99的分類問題
第8課 Spark機器學習應用
實戰(zhàn)項目:使用Mllib的樹模型完成分類問題
實戰(zhàn)項目:使用Mllib搭建推薦系統(tǒng)






