“產業智能化離不開數據治理這一基礎,數據治理在很大程度上也決定了產業智能化進程。”9月15日,“萬物智能——百度世界2020”在線上舉行,下午的智能云分論壇上,百度技術委員會理事長陳尚義從“智能數據治理”視角,闡述智能數據治理在產業智能化過程中的重要作用,并分享了百度在數據采集、標注及治理等領域所作出的探索。

(百度技術委員會理事長陳尚義:智能數據治理在推動產業智能化的過程中扮演著越來越重要的角色)
陳尚義表示,數據治理在產業智能化過程中起到至關重要的作用,但企業往往面臨很多困難,如數據獲取難、加工難等。為此,百度向業界提供了綜合的面向多場景、多種類型客戶的數據采標解決方案,幫助客戶釋放數據價值。
同時,在服務于企業的基礎上,百度進一步探索出了一條以數據采標基地、數據交易平臺為核心的數字經濟解決方案,幫助地方政府培育數字產業生態。

陳尚義介紹,百度智能云的數據采標解決方案,處于行業領先地位。
從數據采集能力來說,百度擁有業內領先的采集資源,采集主體覆蓋全球40多個國家和地區;僅國內的語音數據采集,就覆蓋全國八大方言區及不同年齡段的人群。
從數據標注能力來看,百度擁有支持全場景的標注工具、高效的流程管理平臺、智能化的標注算法,同時構建了龐大的標注資源為項目執行作支撐,能夠提供高質量、定制化的數據標注服務。
在數據采集和標注過程中,數據安全、數據質量等,是行業最關注的話題。在保證數據安全方面,百度在業內最早建立了完整的、符合全球各國數據法規的隱私合規流程,得到客戶安全部門的高度認可。在提升數據質量方面,百度設定了智能審核與人工質檢雙流程,準確率行業領先。此外,團隊創新性地引入了預標注算法與輔助標注算法,使得標注效率和準確率大幅提升。

這些能力,使百度能夠滿足幾乎所有場景的采集需求,覆蓋語音、圖片、視頻、文本、3D等多種標注類型。目前在典型場景中,人像每周采集可達3萬人,語音每周采集可達5萬人。
另一方面,在先進的智能技術支撐之外,面對巨大的數據加工量,產業發展仍然需要強大的人力資源支撐。陳尚義表示,百度智能云通過線上眾包和線下自建標注基地的方式,構建了業內人員最多、專業性最強的標注人力資源體系。
“目前,線上眾包人員已超過20萬人,線下簽約標注代理商超過300家,專業標注人員達到2萬人。”陳尚義介紹,“此外,百度還聯合山西省政府建立了山西數據標注基地,擁有2300名全職標注員,他們穩定、專業,可承擔自動駕駛、語音、圖像、人像等高難度數據標注任務。”
“龐大的標注資源為我們提供了業內最強的標注能力,如今,我們每天語音數據標注量超過500小時,圖像數據超過2萬張,自動駕駛道路數據超過4萬張。”陳尚義說。
“我們希望構建以人工智能非結構化數據為特色的數據交易平臺,加速區域數據流通與開放共享,釋放數據要素價值。”陳尚義表示,“我們致力于將數據開放平臺打造成為區域數字經濟發展的新型基礎設施,將數據作為區域支持創新創業的新型孵化器。
山西省工信廳副廳長劉勇出席了分論壇,他對雙方合作取得的成果表示認可。他表示,近年來,山西省大力實施大數據戰略,高點位謀劃、高位推動,山西大數據產業發展已取得長足進步。
“下一步,我們將以標注產業為牽引,集聚人工智能發展勢能,著力構建集數據采集、清洗、標注、交易、應用為一體的基礎數據服務體系,在轉型發展上率先趟出一條新路來。” 劉勇表示,真誠歡迎百度及各企業與山西攜手,共創共享大數據創新發展的美好未來。
陳尚義表示,未來百度將聯合地方政府和企業,匯聚雙方優勢資源,培育數據服務能力,解決區域數字經濟發展中面臨的數字環境缺失、數據要素流通難、數據價值挖掘難等問題,促進數據的開放、共享與流通,降低企業技術創新的門檻,構建數字產業發展新基礎設施。
“以數據為關鍵要素的數字經濟,將成為國家創新驅動的重要戰略載體。在數字經濟發展的浪潮中,百度智能云將與各位同行攜手,共建數據生態,促進產業智能化發展。”陳尚義說。






