
第三十八屆國際機器學習大會(ICML)于2021年7月18日正式召開。ICML作為由國際機器學習學會(IMLS)主辦的年度機器學習國際頂級會議,致力于展示和發表與人工智能、統計學和數據科學等密切相關領域以及重要應用領域的研究成果,推動人工智能分支機器學習的發展。
一年一度的ICML匯聚了眾多高水平的學者、工業研究人員、企業家以及工程師,共同分享科技領域的前沿資訊。格物鈦作為今年ICML 2021的主辦人之一,登臺ICML Expo分享大會,與機器學習領域內的研究者們共同探討開放數據的未來。

在Expo Talk上,格物鈦創始人兼CEO崔運凱從當前開放數據的一些痛點角度出發,分享了格物鈦對于公開數據集的思考以及解決方案。崔運凱表示:“在過去的幾十年里,ImageNet、KITTI 和 MNIST 等開放數據一直是人工智能研究的核心。隨著開放數據的興起,越來越多的研究人員開始意識到數據在人工智能發展中的重要性。行業專家吳恩達和許多其他開發人員正在倡導從以模型為中心的 AI 過渡到以數據為中心的 AI 開發。”
崔運凱總結了目前使用公開的數據集存在的主要痛點,包括了查找公開的數據集有難度,不是所有的公開數據集都標注完整,部分公開數據集的標注存在錯誤,以及數據集本身存在偏差。不僅如此,數據的托管、宣傳,社群的運營、互動也需要很多資源和精力。

基于公開數據集的重要性與行業現存的痛點,崔運凱認為,目前格物鈦推出的公開數據集平臺(Open Datasets)可以幫助開源數據的發布者與使用者有效的解決這些問題。對于發布者來說,他們可以在平臺上實現數據托管、用戶吸引以及社區互動等功能;對于使用者來說,他們可以高效搜索具有某類特征的數據集,明確詳細的數據使用協議,也可以篩選以及合并多個數據集。
在未來,以數據為中心(Data Centric)的開發模式中,數據必然會扮演越來越重要的角色。隨著更多更高質量數據集的開源,將為人工智能的發展帶來巨大的價值。
格物鈦定位為面向機器學習的數據平臺,致力于為 AI 開發者打造下一代新型基礎設施,從根本上改變其與非結構化數據的交互方式。通過非結構化數據管理工具TensorBay和開源數據集社區Open Datasets,幫助機器學習團隊和個人降低數據獲取、存儲和處理成本,加速 AI 開發和產品創新,為人工智能賦能千行百業、驅動產業升級提供堅實基礎。






