近年來隨著數字經濟的高速發展和數字化轉型進程的不斷推進,AI技術在各個領域的應用落地也呈現出了大規模爆發的趨勢。作為AI市場中的最大分支之一,計算機視覺的應用領域幾乎涵蓋了時下所有行業的各個業務場景,成為產業、行業關注的焦點。
12月19至21日,由中國圖象圖形學學會(CSIG)、中國人工智能學會(CAAI)、中國計算機學會(CCF)和中國自動化學會(CAA)聯合主辦的第四屆中國模式識別與計算機視覺大會(PRCV2021)在珠海正式召開。作為國內頂級的模式識別和計算機視覺領域的學術盛會,PRCV2021匯聚了國內外從事相關領域研究的廣大科研工作者及業界同行,共同分享最新理論和技術成果,提供精彩的學術盛宴。
作為騰訊旗下頂級人工智能實驗室,聚焦計算機視覺的騰訊優圖實驗室也參與了本次大會,騰訊優圖實驗室高級研究員任玉強在會上作了主題為《騰訊優圖近期內容理解領域的研究與應用》的演講,向參會者分享了騰訊優圖在計算機視覺領域中的研究成果和應用實踐。
弱監督目標檢測與定位
一直以來,全監督目標檢測由于出色的效果一直廣泛應用于內容理解的各個任務中,但是標注成本一直很高,有統計顯示如果按照弱監督要求只標注image-level的類別標簽不標注bbox,標注速度可以提高數倍。為了提高效率降低成本,騰訊優圖在弱監督目標檢測和定位上進行了深入研究。
弱監督檢測主要是指訓練數據只標注類別標簽不標注具體位置框,模型通過訓練預測出目標的位置。自2014年MIT提出類別響應圖CAM以來,大多數的弱監督目標檢測方法主要基于Global Average Pooling (GAP)+Softmax分類網絡的輸出響應,從空間正則約束方面著手,配合閾值生成檢測框。但是這種方法存在2點缺陷:一是無限制的類別響應特征圖往往出現局部極高響應現象。二是結構信息丟失,GAP結構將前景目標與背景區域混為一談,限制了模型定位前景目標的能力。
對此,騰訊優圖將研究重點放在如何在隱層的網絡中發現更多的目標結構信息,及怎樣在網絡訓練不斷加深的情況下加強結構信息保持。首先設計了受限激活模塊緩解模型的結構信息彌失的問題,在訓練階段通過計算每個特征位置在類別響應圖上的方差分布得到粗略的偽Mask,用以區分前背景;然后利用Sigmoid操作對類別響應特征圖進行歸一化,最后利用提出的受限激活損失函數LRA引導模型關注目標前景區域。
在推理階段,騰訊優圖首先提出了高階相似性的定義,用以提取更加完整的目標區域。自相關圖生成模塊,將CAM的定位結果當做種子節點,分別提取前景與背景的相似性圖,通過聚合前背景相似性圖得到更精細完整的定位結果。目前騰訊優圖所采用的解決方案在兩個比較權威的弱監督檢測數據集上都取得了比較好的結果,響應圖的結構信息更加完整、定位更加準確。
多標簽識別
多標簽識別中的一個重要問題就是標簽之間的共現依賴,為了解決這一問題,之前的工作很多采用了RNN或者GCN的網絡結構來處理這種相互關系,但對于標簽共現依賴很相近的標簽很多研究都沒有考慮。
因此騰訊優圖提出:除共現依賴以外,空間依賴也是影響多標簽預測的重要因素,“滑雪板”和“滑板”在顏色紋理上比較接近,在共現依賴中也都與人的相關性很高,因此只關注共現依賴的方法無法很好的解決這種問題,而“滑雪板”和“滑板”的一個重要區別在于其周圍空間是什么,如果周圍是雪地,那大概率是“滑雪板”,如果周圍是街道,那大概率是“滑板”,因此本文在考慮共現依賴的基礎上,又引入對上下文空間依賴的建模,利用joint relation進一步提升多標簽識別的準確性。
針對以上討論的motivation,騰訊優圖提出一種基于Transformer的雙路互補關系學習框架來聯合學習空間依賴與共現依賴。針對空間依賴,使用跨尺度Transformer建模長距離空間上下文關聯。針對共現依賴,提出類別感知約束和空間關聯引導,基于圖神經網絡聯合建模動態語義關聯,最后聯合這兩種互補關系進行協同學習得到魯棒的多標簽預測結果。
細粒度識別
細粒度圖像解析是計算機視覺研究的前沿和熱點問題,其旨在將高度近似的同類物體區分為不同的子類。現有的細粒度識別算法,比如Bilinear pooling、Trilinear attention,通常使用通道間的高階特征獲取可區分性的細粒度表征,忽略了空間位置關系和不同語義特征間的相互關聯,在復雜背景或類間距較小情況下誤判較顯著。
騰訊優圖針對這一問題,創新性地提出了一種特征高階關系建模的方法,通過挖掘特征間的空間與語義關聯來建模高階關系,合并其中的相似關系得到區分度高的特征。
相較于現有的解決方法,騰訊優圖提出的方法有三個創新點:首先在relation-discovery module,通過構建異質的跨層網絡交互,利用混合高階特征引入內在的空域關聯,構建高維feature bank。其次,為了克服維度災難同時保留其可區分性,提出了基于圖相似度約束的分組算法,利用兩個不同的圖約束模塊,根據語義信息進行分組,最大化其內在似然度,將其約束為少量可區分性組織。
最后,在訓練策略上提出了一種平衡分組策略,將不同樣本按照中心化采樣,進行分組約束迭代,使圖像特征傾向于聚類原型,抑制異常樣本的表征。該方法在四個國際基準數據集CUB-200-2011, Stanford-Cars, FGVC-Aircrafts, NA-Birds 均達到了領先水平。
弱監督圖像描述與定位
弱監督Grounded Image Captioning近年來逐漸受到越來越多的關注。該任務是指對給定的圖像自動生成一句話描述圖像的內容,同時預測出其中名詞對應的目標位置。由于缺乏名詞與對應目標的監督信息,該項任務具有很大的難度。
已有的工作主要通過正則化技術依靠注意力機制在生成圖像描述的同時預測名詞對應的目標的位置。注意力機制的大部分預測結果往往集中于目標的最具判別性的局部位置,無法完整的預測目標的整體內容,導致定位過大、過小或者定位偏移的問題,其中定位過小和定位偏移的錯誤占絕大部分。
針對以上問題,騰訊優圖采用分布式注意力機制的新方法,首先,通過挖掘多個具有相同語義的候選框進行聚合得到最終的比較完整的目標框,來解決局部定位的問題。其次利用多個注意力機制聚合得到的候選框,同時可以降低前面所說的另外2種定位過大和偏移的情況,通過多個注意力機制同時互相校正,顯著降低定位錯誤的case。
視覺AI在業務場景中的應用示例
在內容理解領域中,由于 ACG 場景風格與通用場景之間的差異較大,導致通用模型在動畫、漫畫領域中的識別能力相對較弱,容易出現大量的漏過和誤判。為解決此類問題,騰訊優圖提出漸進式領域自適應方法,首先統計源域和目標域的特征分布,用 MMD 縮短通用特征與 ACG 特征分布間的距離,然后提出動態漸進式學習策略 PAS,由易到難進行學習,降低遷移難度。最后通過半監督學習快速迭代面向 ACG 場景的專用模型,極大程度上提升了該場景的識別效果。
在當前網絡上的各類違規廣告中,低俗、誘導點擊廣告是打擊的重點,其危害性大,隱秘性深。通過分析,目前網絡上存在的廣告內容為逃避純文本模型的審核,較少以單模態純文本的形式出現,而是雙模態圖像+水印文本,甚至文本做了對抗處理。針對這些強對抗性的違規廣告,騰訊優圖針對數據特點結合自監督預訓練技術,研發出一套多模態廣告識別模型,通過采用多模態融合+OCR優化兩個手段來緩解因單一模態的信息量不足且存在對抗性導致漏召回的問題。為了提高多模態識別效果,騰訊優圖構建了百萬級別的文本圖像對,采用無標注的自監督預訓練方式,進行跨模型預訓練,有效提升了基于Transformer特征融合的多模態效果。
互聯網內容創作越來越繁榮,劣質甚至違規內容也越來越多。炫富、惡搞營銷、暴力恐怖等不良現象受到各大內容平臺越來越多的重視,傳統內容理解解決方案只能做到檢測出敏感元素,至于元素是否惡意違規需要人工審核,效率很低。比如,對于平臺來說教材書本上的人民幣屬于正常情感傾向,人民幣炫富屬于惡意傾向,傳統目標檢測算法只能檢測出圖片中是否含有人民幣,無法區分正常傾向還是惡意傾向。同時,圖片情感豐富多變,同種元素表達出的情感程度也各不相同。
因此可以發現傳統離散的情感分類算法很難準確的表達所有情感傾向,于是,騰訊優圖基于image caption技術研發了能實現更詳細的圖像情感分析的系統,在進行情感傾向識別的同時還會輸出caption結果用以描述更詳細的圖像情感狀態。這一技術可以更好的幫助內容平臺實現更豐富的圖像內容理解。
復制內容