IDC此前的數(shù)據(jù)顯示,2018年,全球數(shù)據(jù)量為33ZB,而在2025年,全球數(shù)據(jù)量將達到175ZB,這其中有80%都是非結構化數(shù)據(jù)。
宏觀的數(shù)據(jù)趨勢令人驚嘆,存儲廠商的反應更真實。
過去十年以來,國內的存儲廠商陸續(xù)浮出水面,大部分都是瞄準非結構化數(shù)據(jù)的市場機遇,以應對互聯(lián)網(wǎng)、大數(shù)據(jù)、物聯(lián)網(wǎng)、機器學習等技術帶來的數(shù)據(jù)浪潮。
從競爭的維度看,傳統(tǒng)經(jīng)典的SAN塊存儲可以創(chuàng)新的空間越來越少,市場也被幾家老牌存儲廠商牢牢占據(jù),而以對象存儲和文件存儲為代表的非結構化數(shù)據(jù)存儲,可創(chuàng)新的空間更大。
本文將結合青云存儲QingStor的產(chǎn)品線調整,了解國內市場在非結構化數(shù)據(jù)存儲技術和應用方面的創(chuàng)新。
對象存儲與文件存儲融合
青云科技在成立之初主要提供公有云服務,在存儲方面,主打的就是云上的對象存儲。伴隨 2014 年進軍私有云市場,青云同步布局本地存儲。
青云在2017年推出了QingStor NeonSAN塊存儲,2018年,青云又推出了文件存儲。至此,三大存儲類型一應俱全,青云憑借QingStor產(chǎn)品線成為了企業(yè)級存儲市場的專業(yè)玩家。
熟悉存儲市場的人都知道,Gartner有個分布式文件和對象存儲魔力象限,它是將文件和對象存儲擺在一起說的,這是因為,文件存儲和對象存儲的數(shù)據(jù)有一些相似之處,都屬于非結構化數(shù)據(jù),用法相似,以至于很多人分不清楚兩者有什么根本性區(qū)別。
2022年,青云將對象存儲和文件存儲兩大產(chǎn)品線在產(chǎn)品層面上進行了一次融合,推出了一個叫QingStor U10000的非結構化存儲產(chǎn)品,光是看見這樣的名字就知道,它“很能存”!
青云科技存儲產(chǎn)品總監(jiān)馮相東表示,此次融合后,將不再單獨售賣QingStor對象存儲或者QingStor文件存儲,而是只提供QingStor U10000。但用戶可以單獨購買QingStor U10000的對象存儲或者文件存儲服務的授權,可以只選其中一個,也可以同時選兩個。
從實際應用的角度看,這種調整似乎更符合用戶的實際需求,不僅能降低產(chǎn)品選型的難度,還能降低IT架構管理的復雜度。
如果企業(yè)想選購用于數(shù)據(jù)庫、虛擬化場景的存儲,對于性能有很高要求,那就選QingStor NeonSAN 塊存儲。NeonSAN的I/O時延可以控制在50微秒左右,3臺NeonSAN的節(jié)點能穩(wěn)定輸出100 萬的 IOPS,QingStor NeonSAN支撐多家金融企業(yè)穩(wěn)定運行Oracle RAC集群。
除此之外的存儲需求,包括影像數(shù)據(jù)、音視頻數(shù)據(jù)、數(shù)據(jù)湖、大數(shù)據(jù)、物聯(lián)網(wǎng)等場景都可以由U10000來滿足。
U10000并不是為了融合而融合,得益于堅持自研的策略,青云將對象存儲和文件存儲在產(chǎn)品層次上深度融合后,開發(fā)出了一些新特性,特別是多協(xié)議無損互通這一特性。有了它,U10000可以更好地滿足一些新興場景的需求。
U10000的融合帶來了什么?
QingStor U10000同時提供對象存儲(S3)、文件存儲(NFS/SMB)、大數(shù)據(jù)(HDFS)存儲接口,與一些方案不同的是,U10000能在不同協(xié)議之間實現(xiàn)數(shù)據(jù)無損訪問互通,而大部分存儲產(chǎn)品不支持這一點。

并且U10000通過統(tǒng)一的索引架構實現(xiàn)多協(xié)議無損互通,這點非常重要。
馮相東表示,多協(xié)議無損互通指的是,不需要通過格式轉化就能讓對象存儲存進來的數(shù)據(jù),通過文件存儲方式來訪問,或者文件存儲存進來的數(shù)據(jù)可以通過對象存儲來訪問。存儲和讀取數(shù)據(jù)之間不需要經(jīng)過格式轉化,這樣就避免了性能和語義的損失。
除此之外,多協(xié)議無損互通還可以提高數(shù)據(jù)分析的效率。
馮相東解釋稱,一份數(shù)據(jù)在一個業(yè)務場景下可能需要多次利用,如果沒有協(xié)議互通的話,就需要多次Copy數(shù)據(jù)。比如,在A業(yè)務空間處理完后,再拷貝到B存儲空間,用另一種存儲協(xié)議來訪問,不僅需要進行數(shù)據(jù)遷移,還會額外占用存儲空間。
據(jù)介紹,這種一份數(shù)據(jù)需要經(jīng)過多個環(huán)節(jié)處理的場景越來越多,比如自動駕駛、基因測序等場景。
自動駕駛場景中,幾十輛路測車每天產(chǎn)生差不多1PB的路測數(shù)據(jù),這些數(shù)據(jù)通常需要四個處理環(huán)節(jié)。
第一個環(huán)節(jié)是上傳和導入,通常需要用S3和NFS協(xié)議;第二個環(huán)節(jié)是數(shù)據(jù)預處理,主要用HDFS大數(shù)據(jù)分析相關技術;第三個環(huán)節(jié)是AI訓練,以NFS協(xié)議為主;第四個環(huán)節(jié)涉及仿真測試,主要以NFS和SMB協(xié)議為主。
自動駕駛的完整數(shù)據(jù)鏈的處理環(huán)節(jié),需要一份數(shù)據(jù)通過不同的數(shù)據(jù)訪問協(xié)議來訪問,對接不同的計算框架,而協(xié)議互通明顯能提升數(shù)據(jù)分析的效率。
QingStor U10000作為一款分布式存儲,它具有所有分布式存儲必備的特征。比如:支持線性擴展。U10000最低3節(jié)點起步,隨著節(jié)點數(shù)量的增長,存儲容量和存儲集群的性能都會線性增長。
U10000的存儲效率比較高。通過可靈活配置的EC糾刪碼,能讓整個集群的物理磁盤可用空間達到90%以上,存儲效率對于U10000這種超大容量存儲來說,經(jīng)濟意義特別大。
U10000的性能表現(xiàn)也不錯,在支持線性擴展和EC糾刪碼技術的基礎上,能為海量小文件提供高性能讀寫,單桶單目錄能支持百億級小文件存儲,并且能做到性能不衰減。
海量小文件的性能表現(xiàn)受到越來越多關注,比如,在機器學習場景中,就需要大量小文件,一些訓練需要幾億甚至十幾億的文件,存儲性能問題會嚴重影響訓練效率。
馮相東表示,U10000基于Rust語言編寫,在性能和安全性上有較大提升。
在數(shù)據(jù)安全性機制方面,數(shù)據(jù)層面采用的是多副本技術,而元數(shù)據(jù)則進行了強一致性處理,元數(shù)據(jù)和存儲數(shù)據(jù)進行了分層設計。此外,U10000還有多重訪問安全機制、智能預警機制。
在運維管理方面,提供了友好的可視化管理界面,可以更好地對存儲集群進行各種配置、操作和監(jiān)控。
非結構數(shù)據(jù)存儲創(chuàng)新實踐
U10000 其實已經(jīng)在非結構數(shù)據(jù)存儲場景上有不少創(chuàng)新實踐。
慈銘體檢醫(yī)療集團的體檢服務從預約階段到報告獲取都轉到了線上,體檢報告除了可以查看體檢數(shù)據(jù),還可以查看健康態(tài)勢,背后依靠的是一套數(shù)據(jù)分析平臺。
青云幫助該醫(yī)療集團構建了業(yè)務承載平臺,使用了青云云易捷超融合平臺,存儲部分則是將數(shù)據(jù)與U10000對象存儲做對接后,實現(xiàn)了對PACS系統(tǒng)的影像數(shù)據(jù)進行實時調取和長期存儲,其中就用到了U10000協(xié)議互通的特性,實現(xiàn)了對象和文件互通,為AI醫(yī)療相關的創(chuàng)新應用提供了便利。
某智能駕駛科技公司,其自動駕駛研究業(yè)務的開展離不開高精度地圖,高精度地圖需要采集大量圖片和視頻數(shù)據(jù),采集而來的數(shù)據(jù)需要經(jīng)過多重處理,需要與各種數(shù)據(jù)分析和數(shù)據(jù)存儲平臺交互,在這種場景下,U10000協(xié)議互通的優(yōu)勢也能得到充分發(fā)揮。
在早期,其所有業(yè)務都運行在公有云上,處于安全方面的考慮,開始構建私有化的集群,由于該公司的規(guī)模比較大,對于服務提供商的能力要求也很高,青云的方案基本解決其高精度地圖從數(shù)據(jù)采集、生產(chǎn)、訓練整個生命周期的存儲和算力需求。
蘇州華興源創(chuàng)是一家工業(yè)自動測試設備與整線系統(tǒng)解決方案提供商,主要測試產(chǎn)品用于LCD、柔性OLED、半導體、新能源汽車電子等行業(yè)的生產(chǎn)廠家,以及為行業(yè)提供定制化的數(shù)據(jù)融合軟件平臺。
華興源創(chuàng)的數(shù)據(jù)挑戰(zhàn)來自自有數(shù)據(jù)中心的中臺、上層工廠流程再造、供應鏈優(yōu)化以及安全保障四個方面,涉及到上百套業(yè)務系統(tǒng),有各種各樣類型的數(shù)據(jù),業(yè)務平臺對存儲的需求也各不相同。
比如,關鍵業(yè)務數(shù)據(jù)需要有更多副本的存儲,對性能要求高的應用需要全閃存的存儲配置,數(shù)據(jù)增長快的應用需要擴展能力更強的存儲,而這些需求,絕大部分都由QingStor U10000來滿足,其余需求由NeonSAN塊存儲系統(tǒng)來滿足。
清華大學天津電子信息研究院是清華大學電子信息學科的 “產(chǎn)學研一體化”的成果轉化基地,其中的高端光電子芯片創(chuàng)新中心,從事芯片設計和開發(fā)方面工作,有許多EDA(電子設計自動化)設計需求,需要反復運算、驗證,所以,他們對于數(shù)據(jù)存儲系統(tǒng)的要求也很高。
EDA的前端設計階段會出現(xiàn)大量的隨機讀寫操作,后端設計階段需要大量順序讀寫操作,這對存儲系統(tǒng)的綜合能力要求很高,非常考驗分布式存儲架構的設計能力,實際上,U10000也能很好地滿足其需求。
結束語
當然,青云不純粹是一家存儲公司,它還有公有云、私有云、容器平臺、邊緣計算等各種方案,這些都決定了青云的存儲平臺不只是存儲,而是能對接各種算力平臺的,是一款經(jīng)過驗證的存儲平臺。
正如青云產(chǎn)品技術解決方案總監(jiān)張忠華所言,不能孤立地談存儲場景,而是要和多元化算力一起談,因為,如今的企業(yè)用戶越來越傾向于一個整體的方案,而不是組裝的方案。
換句話說,用戶可能并不關心存儲,而更關心一套方案能為自己帶來什么。而這,正是青云作為不純粹的存儲公司的優(yōu)勢。






