構建高性能計算HPC(High Performance Computing)集群可提升業務的運算速度(使其達到每秒萬億次級的計算速度),因此HPC被應用于解決大規模科學問題的計算和海量數據的處理,其中就包括科學研究、氣象預報、計算模擬、軍事研究、生物制藥、基因測序等。為保障文件、對象、大數據等多種格式數據,在HPC場景下,進行統一存儲性能的高要求,這無疑是對傳統數據存儲方式發起了存儲重構挑戰。
目前HPC應用正從過去的傳統科研領域計算密集型,逐漸向新興的大數據、人工智能以及深度學習等方向進行融合和演進。繼而,數字時代無論是智能制造、智慧醫療、智慧城市、智能家居,HPC都將成為核心技術。特別是近兩年備受關注的人工智能領域,如自動駕駛汽車、無人機、人臉識別、醫療診斷以及金融分析和商業決策等,其核心是大數據支持,HPC成為人工智能模型訓練的重要支撐平臺。
HPC通過極快的處理速度,獲取大量數據進行復雜的運算,實現數據即時分析,達到快速決策的目標。因此,HPC集群對于存儲有著較高的性能要求,保證來自多個HPC服務器密集而多樣的分析行為。
同時,由于未分析的原始數據會越積越多,并且未來還會有更多的數據需要研究/處理,因此容量和擴展性也是重要的考慮因素。HPC的總體數據最終會達到PB級別,需要超大的存儲容量才能完成歸檔。
在多樣化的HPC場景下,日均產生的三維數據可達幾百TB甚至PB級,因此,對存儲性能有著更高的要求。在海量數據的處理過程中,一次數據處理需要經過文件、對象、大數據等多種格式的數據處理,這無疑是對傳統數據存儲方式發起了巨大的重構挑戰。就“自動駕駛”、“石油勘探”場景為例,數據采集的原始數據是NFS格式,需要先轉換為HDFS格式,才能利用大數據系統對數據進行預處理,最終將數據轉換為NFS格式導入進人工智能訓練集群及演練仿真集群 ,對數據進行深度挖掘,進一步調整自動駕駛策略。
在整個數據處理閉環中,數據轉換格式的時間占全過程的35%以上,如何提升多樣性格式數據的處理效率,逐漸成為存儲領域新型技術的主流趨勢。傳統存儲廠商仍通過共享硬件資源池,在一套硬件集群上劃分出多了獨立的邏輯資源池,分別部署對象、塊、文件系統的存儲池,實現硬件集群多樣化格式的共享存儲。但在該資源池中,每一個邏輯資源池僅僅只會支持一種訪問協議,對于跨協議訪問時,仍需要先行拷貝原格式的原始數據,再將其進行數據格式轉換,實現不同格式之間的數據相互轉換及交互。
在數據處理的過程中,數據拷貝產生的冗余副本不僅占用數據的存儲空間,同時在數據格式轉化的過程中,將會產生大量的數據丟失。因此,傳統的共享硬件資源池,僅能提高硬件資源的利用率,無法滿足格式差異化要求及數據處理效率,以滿足日均PB級的數據存儲需求。
? 共享硬件資源池,存儲多個邏輯資源池
? 頻繁跨協議訪問,無法滿足數據格式差異化處理效率
? 產生的冗余副本占用大量的存儲空間
? 語義翻譯過程中,存在數據丟失
柏科數據ISCloud分布式存儲可采用多種協議互通技術,重構底層邏輯架構,部署統一的增值服務,語義抽象層,對多格式的非結構化數據進行統一管理,實現真正意義上的協議互通特性,來解決HPC場景下數據結構多樣化的處理效率,滿足日均PB級的數據存儲需求。
? 提供統一的原生語義,保障語義無損
柏科數據ISCloud分布式存儲采用多種協議互通技術,在設計的過程中進一步重構底層邏輯架構,部署語義抽象層,面對多樣化結構數據提供適合文件、對象、塊及大數據的原生語義。通過原生的語義層可進一步簡化格式處理流程,打通語法上的缺失和限制。在頻繁跨協議訪問場景下,在底層的語義層直接對原數據進行格式預處理,滿足PB級數據格式差異化處理效率。
? 實現真正意義上的資源空間利用及性能保障
在柏科數據ISCloud分布式存儲中,通過部署原生的語義層可進一步簡化格式處理流程,去除原傳統的共享硬件資源池中,數據拷貝產生的冗余副本,在底層邏輯上對原多樣化格式數據處理。將原本復雜的多樣化格式轉化流程,簡化成與單一協議完全一樣的數據訪問路徑,實現不同格式之間的數據相互轉換及交互,實現真正意義上的資源空間利用及性能保障。