核心概念

Flink的核心概念實際上是流式處理的概念，對于流式數據來說最重要的就是時間
Time類型Processing TimeEvent TimeIngestion Time
Watermark 這是Flink的一個難點，在此我想強調的是很多人翻譯為水印，對新手有誤導作用，譯做水位更為合理，Watermark實質上就是一個時間戳，具體場景可以簡化為如何處理遲到的數據，由于在分布式環境下，會受到網絡等影響，數據并不能按時到達，于是就有了watermark機制，在此做簡單說明，圖譜每個節點我都會出詳細文章說明，對于小白而言，我們首先要了解的是這個東西到底是干什么的，而不是一頭扎進去研究，了解---應用--剖析是一個更合理的路線
Trigger 觸發器又是什么呢？上文中提到watermark是為了遲到的數據，觸發器實際上是決定數據處理完后什么時候落地的
State什么是狀態？這其實是流式數據的特性，計算數據處理的中間結果，舉個例子，agg操作中state會記錄中間聚合的結果為什么需要有？記錄狀態的目的是為了恢復或者重啟任務，試想一下，流數據任務過程突然掛了怎么辦？有了中間的結果記錄，不久能夠做到快速恢復任務？
區別（面試常問）核心：
- Flink是標準的流式處理引擎，基于數據驅動，把批處理看作流處理的一種特殊情況，Spark恰恰相反，Spark是微批處理模型，把無界的流處理劃分為一個一個的階段，縮小為一系列的批次，有一個形象的比喻，對于微積分來說，就是劃分為一個一個有界的面積進行逼近計算的。
- 架構：Spark是Driver master worker executor,Flink則是JobManager TaskManager Client
- 時間：Spark只支持處理時間，Flink支持處理事件，事件時間，注入時間，同時有watermark處理滯后數據
- 容錯【大數據核心】：Spark無法做到僅消費一次，Flink可以做到

特性

特性分為兩點，API和架構

對于數據處理引擎來說，我們需要解決的問題就是計算，所以核心就是在哪進行計算？計算任務如何找到相應的資源，這就是架構做的事情，核心就是 資源和任務的匹配 API
老生常談就是對數據進行的操作，畢竟誰不是調參小能手呢

SQL/Table API :Table API 和 SQL 借助了 Apache Calcite 來進行查詢的解析，校驗以及優化。它們可以與 DataStream 和 DataSet API 無縫集成，并支持用戶自定義的標量函數，聚合函數以及表值函數。
DataStream APIDataStream API 為許多通用的流處理操作提供了處理原語。這些操作包括窗口、逐條記錄的轉換操作，在處理事件時進行外部數據庫查詢等ProcessFunction是 Flink 所提供的最具表達力的接口。
ProcessFunction 可以處理一或兩條輸入數據流中的單個事件或者歸入一個特定窗口內的多個事件。它提供了對于時間和狀態的細粒度控制
- 是否有些深奧？這三者的區別在哪里？在這里可以簡單的認為DataStream是ProcessFunction封裝好的黑盒操作，通過提供一些已經寫好的算子，用戶直接調用就可以，但缺點也是顯而易見的，它并不能滿足所有自定義的需求，也就是無法細粒度的處理，這時候就需要實現底層的ProcessFunction
Task 真正干活的單位，經過一系列請求過后，Task匹配到資源執行，我們知道，大數據之一就是體現在數據量大，那么對于巨大的數據量來說，就出現了一下幾個問題
- 如何劃分Task呢？
- Task的多少和什么有關的？
- Task掛了怎么辦？如何恢復任務呢