從大數據發展的歷史長河來看,谷歌的“三駕馬車”—— 《GFS》、《MapReduce》和《BigTable》,加上亞馬遜的一篇關于 Dynamo 系統的論文奠定了大數據時代發展的基礎。從“大數據之父”道格·卡丁創造了 Hadoop 到現在許多廠商開始單獨造輪子、做開源,大數據的發展首先是獲得了大規模數據的處理能力,然后再解決了數據的分析與挖掘問題,到如今又開始解決“如何實時查詢數據”的問題,從近 20 年的發展中基本可以看出,這些演進的背后都是由企業需求和業務發展驅動的。
英特爾院士、大數據技術全球 CTO 戴金權曾提出,未來大數據的發展主要有三大方向:大數據平臺云原生化;湖倉一體;大數據與人工智能重塑數據價值,本文將對三大方向逐一展開解讀。
1 大數據平臺云原生化是必然趨勢
眾所周知,大數據系統是一個復雜性很高的系統,傳統的大數據系統運維成本很高,比如處理資源分配、進行容錯等這些工作其實并不能對終端業務產生直接價值。然而,如今的大多企業都面臨著日益增長的數據量、各種類型數據的實時化和智能化處理的需求,企業亟需降低運維成本,并希望能夠通過對數據的挖掘產生支撐業務側的洞見與預測!
于是,云原生大數據平臺因為其高彈性擴展、多租戶資源管理、海量存儲、異構數據類型處理及低成本計算分析的特點,受到了企業的歡迎,這也是大數據系統的必然發展趨勢,將大數據運行在云上,以云服務的形式提供給用戶,能大大提高企業服務化能力,用戶可以直接在云上進行價值挖掘。而且,當廠商通過云服務提供大數據技術后,很多新能力也變得很透明,企業無需經過摸索和集成,就可以將自己的服務無縫提供給用戶。
但另外一方面,云原生大數據也有非常多的技術挑戰。許多大數據系統最初并不是為云原生架構而設計的,比如開發者在做數據的 Shuffle 時,思考的是如何利用本地 IO 能力來提高效率。
企業為了能夠讓業務更好地運行在云的體系架構之上,當前一般采用的都是架構層的解決方案,融合了高性能計算(HPC)強大算力和云服務安全性、易用性的云原生超級計算似乎是當前最佳的有效方案。但事實上,軟件層的升級多少還是會受硬件層的影響。所以,不如換個方向,思考一下如何利用硬件能力來提高數據處理效率。
廠商在硬件層提升性能的方式往往是,通過使用服務器來響應對高性能計算 (HPC) 集群的需求,通過對 CPU 升級來處理更大規模的高性能計算 (HPC) 應用。像英特爾® 至強® 可擴展處理器提供業界領先、經工作負載優化的性能,具有內置人工智能加速功能,可提供無縫性能基礎,就是許多企業的選擇。
應對業務側日益增長的需求和不斷演變的數據服務模式,企業可利用英特爾® 至強® 可擴展處理器上集成的英特爾® 高級矢量擴展 512(英特爾® AVX-512)來繼續進行工作負載優化創新。英特爾® 高級矢量擴展 512(英特爾® AVX-512)是一組指令集,可以加速工作負載和用例的性能,如科學模擬、金融分析、人工智能 (AI) / 深度學習、3D 建模和分析、圖像和音頻 / 視頻處理、密碼學和數據壓縮等。英特爾® AVX-512 可以處理苛刻的計算任務,借助兩個 512 位融合乘加 (FMA) 單元,應用程序在 512 位矢量內的每個時鐘周期每秒可打包 32 次雙精度和 64 次單精度浮點運算,以及八個 64 位和十六個 32 位整數,大大地提高了數據處理效率。
2 “湖倉一體”是解決實時性數據問題的新興架構
隨著人工智能等技術的興起,數據規模越來越大,存儲的數據類型也越來越豐富,與文字相比,體積更大空間的圖片、聲音和視頻存儲需求爆發。面對這些海量數據治理需求,數據倉庫、數據湖架構被企業廣泛應用。
當前許多人認為,面向領域主題的、集成的、穩定的、能夠反映歷史數據變化的數據倉庫,已經滿足不了 人工智能、機器學習技術的數據需求,開始逐漸走下坡路,數據治理架構正在逐漸從數據倉庫跨越到數據湖。他們認為,數據湖是多結構數據的系統或存儲庫,以原始格式和模式存儲,通常作為對象“blob”或文件存儲,可以更好地解決企業數據需求,甚至有人認為數據湖就是下一代數據倉庫。
事實上,大多數企業目前至少有一個或者多個數據倉庫服務于各種下游應用程序,而且把所有的原始數據都放到數據湖,可能會提升數據的使用難度,對于企業數據治理來說也不是一個小的挑戰;此外,從實時性方面,數據湖也做不到真正的實時。
然而,企業數據的使用場景如今已然發生巨大變化,需求從離線場景轉變到實時數據分析場景。數據規模發展到一定程度后,離線數據的缺點就會愈發凸顯,企業對于實時數據治理有了更高的要求,希望從業務端獲取到數據后,能夠立即被清洗處理,從而滿足基于數據的挖掘、預測和分析。
所以“湖倉一體”作為一種新興架構,結合了數據倉庫與數據湖的優點,在類似數據湖的低成本存儲上,實現了與數據倉庫中類似的數據結構和數據管理功能,在擴展性、事務性以及靈活度上都體現出了獨有的優勢,是解決目前企業數據治理需求的更優解。
火山引擎與英特爾在云原生大數據領域深入合作,從用戶云業務需求出發提升數據價值。從湖倉一體方面,英特爾技術團隊和火山引擎技術團隊聯合對 ClickHouse 軟件進行優化,通過對硬件指令等其他的優化,使 ClickHouse 核心代碼的性能有了 1.5 倍以上的提升,ClickHouse(Repartition-Block shuffle)性能加速 4.2 倍。

英特爾和火山引擎 ByteHouse 的合作優化
總體而言,湖倉一體是一種更開放的新型架構,有人做了一個比喻,“這種操作方式類似于在湖邊搭建了很多小房子,有的負責數據分析,有的運轉機器學習,有的來檢索音視頻等,至于那些數據源流,都可以從數據湖里輕松獲取。”
Gartner 也發布了湖倉一體的未來應用場景預測,“湖倉一體架構需要支持三類實時場景,第一類是實時持續智能;第二類是實時按需智能;第三類是離線按需智能。這三類場景將可以通過快照視圖、實時視圖以及實時批視圖提供給數據消費者,這同樣是未來湖倉一體架構需要持續演進的方向。”
3 “AI 與大數據一體化”重塑數據價值
如今各行各業都在探索怎樣讓 AI 在實際應用中提高工作效率或者體驗,但有數據表明,85% 以上的人工智能項目都是以失敗而告終的,并沒有真正地得到交付。歸其原因是,實驗室中正在跑的人工智能模型、算法和真正落地到生產環境或業務場景中的東西要求是不一樣的。這意味著,企業想真正地將算法、AI 模型運用到生產系統中,需要經過非常復雜的 AB 測試,但將 AI 模型算法和真實的業務數據流水線相結合是一個非常大的挑戰。
回想一下,在構建一些 AI 架構時,大家通常的做法是利用一個大數據處理平臺,然后對數據進行處理,處理完后再將數據拷貝到另外一個 AI 集群或是深度學習的集群中進行訓練。顯而易見,數據拷貝的過程會產生一定的時間成本和移植成本,解決了這個問題,可以大大提高企業研發效率,快速實現降本增效。
將大數據分析與 AI 平臺融為一體的模式成為了企業解決以上問題的方案,其也正在成為一種行業的新趨勢。構建一個端到端的大數據 AI 的流水線,將大數據 +AI 的流程從數據的獲得、讀取、數據的處理到特征的處理、建模、訓練、部署、推理等流水線都統一起來,是實現 AI 真正落地的關鍵點。

為了支撐大數據的處理,英特爾在“AI+ 大數據”方面做的第一件事情就是構建統一的大數據 AI 平臺、集群——英特爾 BigDL ,其是用于 Spark 的分布式深度學習庫,可以直接在現有 Spark 或 Apache Hadoop 集群之上運行,并可以將深度學習應用程序編寫為 Scala 或 Python/ target=_blank class=infotextkey>Python 程序。
作為底層計算平臺,英特爾 BigDL 針對分布式的英特爾® 至強® 處理器 CPU 集群進行了大數據 AI 平臺的構建,包括在硬件上的眾多優化,包括 CPU 本身對 AI 的支持。雖然英特爾® 至強® 處理器是一個通用處理器,但它提供了非常多的硬件指令及針對 AI 優化和加速的硬件支持,包括在低精度 INT8 上的 AVX512_VNNI , 以提升 DL 性能。其主要具有以下特點:
- 豐富的深度學習支持:基于 Torch BigDL 為深度學習提供全面支持,包括數值計算(通過 Tensor 和高級神經網絡);此外,可以將預訓練的 Caffe * 或 Torch 模型加載到 Spark 框架中,然后使用 BigDL 庫運行推理應用他們的數據。
-
高效的橫向擴展:BigDL 可以通過使用 Spark 以及同步隨機梯度下降 (SGD) 和 Spark 中的 all-reduce 通信的有效實現,有效地向外擴展以執行“大數據規模”的數據分析。
-
極高的性能:BigDL 在每個 Spark 任務中使用英特爾® 數學核心函數庫(英特爾® MKL)和多線程編程,BigDL 和英特爾® MKL 專為英特爾® 至強® 處理器設計和優化,可提供極高的性能。

萬事達卡在企業的數據倉庫建構在分布式大數據平臺之上,便是直接用英特爾 BigDL 來構建 AI 應用,將大數據的數據處理與人工智能的處理直接統一起來,幫助平臺支撐超過 20 億的用戶。平臺上的幾千億的交易數據訓練了非常多的 AI 模型,其中最大的模型在一個任務運行在 500 臺以上的英特爾服務器上進行大規模分布式訓練,差不多在 5 小時之內訓練出一個大規模的 AI 模型,提高各種 AI 能力,實現了超大規模用戶量的支撐。
4 寫在最后
經過近 20 年的發展,大數據的技術棧逐漸成熟,“大數據”如今幾乎已經是程序員技術棧的標配,基本上大多數應用環境都會牽扯到數據治理、數據處理。
近年來,云計算、人工智能等技術的發展,還有底層芯片和內存端的變化以及視頻等應用的普及,都給大數據技術帶來了新的要求。不管是應用基于數據還是要用數據改善應用,怎樣能夠把整個技術平臺和軟件平臺做得更加易用,這對于廠商來說是亟待解決的難題。此外,人工智能、大數據技術的應用場景都非常廣泛,但在具體應用開發的技術實現上還有很多缺陷,如何實現技術突破和技術創新,這是所有人都面臨的難點。
我們可以預測到的是,未來的大數據技術會沿著異構計算、云化,AI 融合、內存計算等方向持續更迭,目前我們看到的這些難點應該都會被逐一解決,但當我們在進行算法、架構優化時,也要記得硬件是實現所有技術演進升級的基本盤。當在軟件層找不到解決方案的時候,也可以嘗試把目光放到硬件層。
大數據到底是什么?又該如何用它為我們服務?業界前沿技術有哪些?點擊下方與英特爾院士戴金權深度對話,了解在 AI 時代重新解構大數據的概念、平臺和價值。






