人工智能的基礎理論由來已久,由深度學習引爆的第三次人工智能浪潮,以及算力的進步和數據的爆發,使得人工智能技術快速走向成熟,并逐步落地產業應用。目前,人工智能技術在營銷、金融、數字政府、零售、醫療等行業的落地持續推進,并開始帶來顯著的效益。
這些人工智能成果"翩翩起舞"的背后,不得不提到“數據”為AI落地提供的底層支撐與價值。AI數據采集標注是人工智能三大構成要素之一——“數據”的處理環節,它隨著AI產業需求發展進行著快速發展,目前處于規范化成長的階段。
近日,《互聯網周刊》&eNet研究院、德本咨詢聯合發布了《2021數據標注公司排行》,又一次將AI數據服務產業推到了人們眼前。我們通過剖析本次排行榜TOP1服務商——云測數據,來了解AI數據服務產業的發展脈絡及未來趨勢。
據《2020年中國AI數據服務行業研究報告》預測,中國AI數據服務行業正在加強專業化發展,隨著人工智能產業落地需求升級,理念更先進、技術更硬核、效率度極高的專業AI數據服務企業將成為主流趨勢。
云測數據作為Testin云測旗下AI數據采集標注的一個業務品牌,以高質量、場景化的AI數據服務而出名,擁有行業首創的數據場景實驗室和自建數據標注基地,為智能駕駛、智慧城市、新零售等眾多領域提供高質量的數據采集、數據標注服務。
首先,在雄厚實力的加持下,云測數據在人工智能所需要的視覺、語音和文本三大數據類型上實現了更高精確度的支持。在2020年的中國創新創業成果交易會上,云測數據正式向業界發布了他們在AI領域的最新成果——AI數據項目的最高交付精準度已近提升至99.99%。這個數字標志著,“數據”作為人工智能三大基石之一,已近邁入了高品質時代。從此,云測數據在行業內外也就成了高質量AI數據的代名詞。
以視覺類型的數據為例,云測數據的標注精度可以完成多高呢? 據云測數據總經理在某次采訪時透露,“一張人臉需要你準確地在內眼角上標注人臉關鍵點,在圖片上,內眼角也就不到100像素,而任務還會到標注到具體哪個像素上。”
其實,高精度的數據標注僅僅是AI需求復雜度上升的后半程的要求,人工智能對數據高質量的需求同樣體現在數據場景化的采集上。,隨著人工智能技術的不斷成熟,更多的場景和行業開始嵌入使用人工智能技術,AI行業應用場景逐漸趨于長尾和碎片化,產生了大量新興垂直領域的數據需求,如疫情期間的口罩識別應用等。
為了進一步攻克場景化數據這一難題, 云測數據開創“數據場景實驗室”,成為行業內第一個規范化進行場景化數據生產的數據服務商。如為了進行多角度多姿態的采集任務,云測數據專門在橫店設置了“數據場景實驗室”,進行特定動作和表情的捕捉。據了解,云測數據也是目前唯一聘請群眾演員進行人工智能數據采集的公司。
如在音頻領域,為保證音頻數據采集的質量,云測數據開發了“音頻檢測”功能,通過對音頻的底噪和能量值進行檢測,來保證底噪和能量值在閾值范圍之內。這種預處理方式可大幅提升數據的采集質量并切實提升數據采集的效率。
人工智能越深入發展,數據資產的重要性就越高,尤其是AI數據更加立體和豐富、精準度到達一個新的高度后,AI數據的價值變得更高,數據安全就更加成為客戶企業的剛需。對數據隱私安全的重視,導致不少數據標注企業至少在數據安全維護方面擁有可圈可點的技術耕耘,甚至不輸于其他被打上技術公司標簽的巨頭。
一個現實是,像云測數據這樣的頭部企業,數據精準度、場景化做得越好,就更看重數據隱私安全的保護。這些對數據安全的重視,是其實現高效的作業效率,甚至不斷引導行業的規范化發展的前提原則。據了解,除了流程和工作方式的嚴格控制,云測數據內部還開發了數據隔離、質量保障等一系列數據安全方面的技術,這也使得數據標注企業的“技術”標簽更加濃厚。
Testin云測CMO張鵬飛也強調,“從目前看來,AI數據行業關于安全、隱私等方面并沒有統一的標準。但從我們長遠角度出發,一直在隱私和安全防護角度下大力氣服務行業、樹立數據質量標桿,只有以這種負責的態度來服務客戶,我們的行業才能‘良幣驅除劣幣’,真正讓人工智能成為新一輪技術革命,改變整個社會和人類進程”。
當前,行業頭部企業將數據質量提升到一個“頂尖”時,馬太效應將愈發突出,企業間差異化趨勢愈發明顯。對于人工智能相關的企業來說,AI數據是否優質關乎著企業效率、用戶感受、價值回報等等,這也是以云測數據為代表的AI數據服務商們需要共同發展一起解決的問題。