我們正值數(shù)據(jù)井噴時代,據(jù) IDC報告顯示,目前全球數(shù)據(jù)量正以平均年增長率50%的速度增長,預計到2025年全球數(shù)據(jù)總量將達到175ZB。1ZB相當于1萬億GB,假設每一個比特是一枚3毫米厚的1英鎊硬幣,一摞硬幣組成的1ZB將會有2550光年那么高,可以讓你到達最近的恒星系統(tǒng)半人馬座阿爾法星600次。
在數(shù)字化浪潮下,企業(yè)正在因為技術創(chuàng)新的應用產(chǎn)生海量非結構化數(shù)據(jù),如圖像、語音、視頻等,據(jù)統(tǒng)計80%的企業(yè)數(shù)據(jù)由非結構化數(shù)據(jù)組成,具有規(guī)模海量且分散、形式多樣、關系復雜等顯著特點。企業(yè)機構每年因糟糕的數(shù)據(jù)質(zhì)量而造成的平均損失達到1290萬美元。
“以數(shù)據(jù)為中心”的時代已然來臨,人工智能和機器學習領域國際最權威學者之一吳恩達在今年反復強調(diào)了這個觀點。他認為,整個AI行業(yè)正在由以模型為中心的開發(fā)模式,向著以數(shù)據(jù)為中心的開發(fā)模式發(fā)展,人們應該以數(shù)據(jù)為中心來開發(fā)機器學習系統(tǒng)。
決定AI模型效果的影響因素有兩個:數(shù)據(jù)和算法?,F(xiàn)實中的數(shù)據(jù)集往往都是有噪聲的,對于有噪聲的數(shù)據(jù),一種是修改算法,提出能處理噪聲、有泛化能力的算法,顯然難度較大;還有一種修改數(shù)據(jù)集,提升數(shù)據(jù)集的質(zhì)量。用工具鏈和系統(tǒng)化的方法來提升數(shù)據(jù)質(zhì)量,通過不斷地喂給高質(zhì)量數(shù)據(jù),讓模型保持輕微調(diào)整,這會使模型的效果批量提升成為可能。
可以看到,更好的數(shù)據(jù)可以帶來更優(yōu)的性能提升。Gartner預測到明年,70%的企業(yè)機構將通過指標來嚴格追蹤數(shù)據(jù)質(zhì)量水平并將數(shù)據(jù)質(zhì)量提高60%,以此顯著降低運營風險和成本。
格物鈦智能科技是一家專注打造人工智能新型基礎設施的初創(chuàng)企業(yè),定位為面向機器學習的數(shù)據(jù)平臺,致力于以數(shù)據(jù)為中心的開發(fā)方式,幫助AI開發(fā)者解決日益增長的非結構化數(shù)據(jù)難題。借助非結構化數(shù)據(jù)管理平臺TensorBay和開源數(shù)據(jù)集社區(qū)Open Datasets,機器學習團隊和個人可進行數(shù)據(jù)管理、查詢、協(xié)同、可視化和版本控制等高效操作,降低高質(zhì)量數(shù)據(jù)獲取、存儲和處理成本,加速AI開發(fā)和產(chǎn)品創(chuàng)新,釋放海量非結構化數(shù)據(jù)的商業(yè)價值。
據(jù)悉,格物鈦正在向全球AI創(chuàng)新企業(yè)及團隊、前沿高校實驗室和機器學習開發(fā)者社區(qū)提供數(shù)據(jù)平臺支持,涵蓋自動駕駛、智慧零售、智慧物流、智慧醫(yī)療、視頻直播等各業(yè)務場景。以自動駕駛為例,格物鈦TensorBay可以幫助企業(yè)把數(shù)據(jù)準備過程從原來的以月為單位縮短到以小時為單位。某物流企業(yè)使用TensorBay短短數(shù)月,模型識別率顯著提升30%之多。
“TensorBay是我們AI開發(fā)流程中的關鍵部分,不同于傳統(tǒng)的本地文件系統(tǒng)管理模式,它提供了一個全新的云端數(shù)據(jù)管理解決方案,讓我們看到了AI非結構化數(shù)據(jù)管理的全新未來,”格物鈦獲得客戶算法負責人高度評價,“強大的數(shù)據(jù)管理平臺能夠和我們的開發(fā)流程無縫銜接,為我們的數(shù)據(jù)準備過程提供了非常便利的功能和開發(fā)者工具。”通過優(yōu)化現(xiàn)有的AI項目工作流程來提升數(shù)據(jù)質(zhì)量,從而加速AI產(chǎn)品迭代開發(fā),格物鈦這一創(chuàng)新未來將在更多行業(yè)場景中產(chǎn)生長遠價值。