在2025年度的華為中國合作伙伴大會上,一場科技界的強強聯手震撼上演。華為攜手景聯文科技,共同推出了面向AI數據湖的數據工程聯合解決方案,這一創新方案旨在為AI行業注入強大的數據動能,推動智能化升級。
景聯文科技的CEO劉云濤在會上發表演講,他深刻指出:“AI的成功離不開高質量的數據支持。數據的優劣直接決定了AI大模型的表現。因此,提供高質量的數據集是AI行業發展的關鍵,也是數據要素交易繁榮的基石。”劉云濤還強調,精準全面的數據治理與可靠高效的數據基礎設施,在智能化進程中扮演著不可或缺的角色。
面向AI的數據處理,通常需歷經三大關鍵階段:從海量原始數據中提煉結構化數據集,再經過精細標注形成語料集,最終構建知識庫以支撐模型訓練及業務應用。然而,在這一過程中,業界面臨著多重嚴峻挑戰。數據擁有者往往缺乏便捷安全的數據匯聚托管系統,導致數據共享壁壘重重;原始數據類型多樣、格式復雜,增加了語料處理的難度;同時,數據作為風險資源,在流通中缺乏端到端的安全管控,存在被篡改、擴散的風險,加之區域間數據基礎設施發展不均,數據跨域流通效率低下。
針對這些挑戰,華為與景聯文科技攜手推出了創新的數據工程聯合解決方案。依托景聯文科技多年的數據工程經驗,以及華為在數據存儲領域的領先地位,這一方案將全方位提升數據處理效率。
在數據處理的全流程中,景聯文科技的Solar Data平臺采用AI Agent理念,與華為的全閃數據湖存儲緊密協作,支持異構數據的高效加工。平臺能自動或半自動化地清洗、解析、預處理30多種格式的數據,進行特征提取與初步分析。結合AI預標注與專業手工標注,最終整合出高質量的數據產品,全流程效率提升高達70%。

在數據流通與資源調度方面,華為DME(Omni-Dataverse)全局文件系統與可信數據空間的結合,實現了多源數據的無縫歸集,全局數據可視、可管、可流,確保了數據交換過程的可信、可證、可控。基于華為DCS的統一資源調度,Solar Data平臺的計算、存儲、網絡等資源實現了彈性服務與統一管理。通過ModelEngine AI使能工具鏈框架,數據集的開發進程得以加速。
該方案還采用了基于華為OceanStor Pacific分布式存儲底座的統一數據底座。在先進介質、協議互通、負載優化、分布式并行客戶端等領域,軟硬件協同創新,打造了業界領先的高密綠色數據基礎設施。這一基礎設施使得海量數據能夠更持久地存儲、更高效地訪問。

華為數據存儲部門表示,將持續深化與業界伙伴的合作,共同推動AI時代應用生態的繁榮發展。秉持“以數據為中心”的產業理念,華為將充分發揮數據在數字經濟中的核心驅動力作用,攜手合作伙伴共同開創AI數據處理的新篇章。






