大數據在不論在研究還是工程領域都是熱點之一,算法是大數據管理與計算的核心主題。本課程試圖簡要介紹大數據計算中涉及到的基本算法設計方法。適用于大數據研究與開發人員,也適用于數據科學愛好者。
大數據算法這門課程旨在通過講授一些大數據上基本算法設計思想,包括概率算法、I/O有效算法和并行算法,讓聽課的同學們接觸到和傳統算法課程不一樣的算法設計與分析思路,并且以最新的研究成果為導向,讓參與這門課程學習的同學了解大數據算法的前沿知識。通過這門課程的學習,同學可以掌握大數據算法設計的基本思想,掌握大數據算法設計與分析的技術。
【課程目錄】
第1章 大數據算法概述
大數據的定義與特點
大數據算法
大數據算法設計與分析
第2章 亞線性算法概述
亞線性算法的定義
水庫抽樣—空間亞線性算法
平面圖直徑—時間亞線性計算算法
全0數組判定—時間亞線性判定算法
第3章 亞線性算法例析
數據流中頻繁元素
最小生成樹
序列有序的判定
第4章 外存算法概述
外存存儲結構與外存算法
外存算法示例:外存排序算法
外存數據結構示例:外存查找樹
第5章 外存查找結構
B樹
KD樹
第6章 外存圖數據算法
表排序及其應用
時間前向處理方法
縮圖法
第7章 基于MapReduce的并行算法設計
MapReduce概述
字數統計
平均數計算
單詞共現矩陣的計算
第8章 MapReduce算法例析
連接(Join)算法
圖算法
第9章 非MapReduce的并行算法設計
基于迭代處理平臺的并行算法
基于圖處理平臺的并行算法
第10章 眾包算法
眾包的定義
眾包的實例
眾包的要素
眾包算法例析