亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

導(dǎo)讀:視覺(jué)目標(biāo)跟蹤 (visual object tracking) 是計(jì)算機(jī)視覺(jué) (computer vision) 領(lǐng)域的一個(gè)重要研究問(wèn)題。通常來(lái)說(shuō),視覺(jué)目標(biāo)跟蹤是在一個(gè)視頻的后續(xù)幀中找到在當(dāng)前幀中定義的感興趣物體 (object of interest) 的過(guò)程,主要應(yīng)用于一些需要目標(biāo)空間位置以及外觀(形狀、顏色等)特性的視覺(jué)應(yīng)用中。本文旨在對(duì)跟蹤做一個(gè)盡量全面、細(xì)致和具有時(shí)效性的綜述,研究跟蹤的定義、應(yīng)用、架構(gòu)、算法以及評(píng)估等方面的內(nèi)容。聯(lián)合作者:圖希,恬寧,崇北,昆虛,明爍。

1、什么是視覺(jué)目標(biāo)跟蹤

視覺(jué)目標(biāo)跟蹤的定義

在計(jì)算機(jī)視覺(jué)領(lǐng)域中并沒(méi)有對(duì)視覺(jué)目標(biāo)跟蹤(簡(jiǎn)稱跟蹤,下同)的唯一定義。通常來(lái)說(shuō),跟蹤的目標(biāo)是視頻幀或圖像中的某個(gè)區(qū)域或物體,不需要其語(yǔ)義信息(類別等),此概念被形象地描述為“萬(wàn)物跟蹤”。同時(shí),也存在一些特例,通常被應(yīng)用在一些特定場(chǎng)景中對(duì)已知類型物體的跟蹤,例如工廠流水線監(jiān)控中對(duì)某些特定產(chǎn)品的跟蹤(如零部件等)。

很多學(xué)者對(duì)跟蹤有著不同的闡釋,包括:“跟蹤是視頻序列中識(shí)別感興趣區(qū)域 (region of interest) 的過(guò)程”[1],或者“給定目標(biāo)在視頻中某一幀的狀態(tài)(位置、尺寸等),跟蹤是估計(jì) (estimate) 該目標(biāo)在后續(xù)幀中的狀態(tài)”[2]等。這些定義看似大相徑庭,但其實(shí)有很多共同點(diǎn)。通過(guò)提取這些共同點(diǎn),我們將跟蹤問(wèn)題定義為:

跟蹤是在一個(gè)視頻的后續(xù)幀中找到在當(dāng)前幀中定義的感興趣物體 (object of interest) 的過(guò)程。

可以發(fā)現(xiàn),上述定義主要關(guān)注跟蹤的三方面問(wèn)題,即“找到”、“感興趣物體”、和“后續(xù)幀”。注意,這里的當(dāng)前幀可以是視頻中的任意一幀。通常來(lái)說(shuō),跟蹤是從視頻的第二幀開(kāi)始的,第一幀用來(lái)標(biāo)記目標(biāo)的初始位置 (ground truth)。下面,我們利用博爾特參加男子百米短跑的例子來(lái)解釋這三方面問(wèn)題。

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

圖1. 博爾特參加男子百米短跑的視頻截圖[3]

視覺(jué)目標(biāo)跟蹤的基本原理

“找到”:如何locate博爾特?

假設(shè)在視頻上一幀我們找到了博爾特所在的位置,我們要做的是在當(dāng)前幀中繼續(xù)找到博爾特所在的位置。如前所述,視覺(jué)是跟蹤問(wèn)題(視覺(jué)目標(biāo)跟蹤)的限定條件,其帶來(lái)了可以利用的性質(zhì)。在這里,我們可以利用的de facto rules是:在同一段視頻中,相同的物體在前后兩幀中的尺寸和空間位置不會(huì)發(fā)生巨大的變化[4]。比如我們可以做出如下判斷:博爾特在當(dāng)前幀中的空間位置大概率會(huì)在跑道中,而幾乎不可能在旁邊的草坪內(nèi)。也就是說(shuō),如果我們想知道博爾特在當(dāng)前幀中的空間位置,我們只需要在跑道中生成一些候選位置,然后在其中進(jìn)行尋找即可。上述過(guò)程引出了跟蹤中一個(gè)重要的子問(wèn)題,即candidate generation,通常被表述為候選框生成。

“感興趣物體”:如何shape博爾特?

博爾特就是圖像中個(gè)子最高,并且穿著黃色和綠色比賽服的人。但是,我們忽略了一個(gè)問(wèn)題,就是我們對(duì)于博爾特的“定義”其實(shí)已經(jīng)包含了很多高度抽象的信息,例如個(gè)子最高,還有黃色和綠色的比賽服。在計(jì)算機(jī)視覺(jué)領(lǐng)域中,我們通常將這些高度抽象的信息稱之為特征。對(duì)于計(jì)算機(jī)而言,如果沒(méi)有特征,博爾特和草坪、跑道、或者圖像中其他對(duì)于人類有意義的物體沒(méi)有任何區(qū)別。因此,想讓計(jì)算機(jī)對(duì)博爾特進(jìn)行跟蹤,特征表達(dá)/提取 (feature representation/extraction) 是非常重要的一環(huán),也是跟蹤中第二個(gè)重要的子問(wèn)題。

“后續(xù)幀”:如何distinguish博爾特 (from others) ?

在這里,我們將“后續(xù)幀”關(guān)注的問(wèn)題定義為如何利用前一幀中的信息在當(dāng)前幀中鑒別 (distinguish) 目標(biāo)。我們不僅需要在“后續(xù)幀”中的每一幀都能完成對(duì)目標(biāo)的跟蹤,還強(qiáng)調(diào)連續(xù)幀之間的上下文關(guān)系對(duì)于跟蹤的意義。直觀理解,該問(wèn)題的答案非常簡(jiǎn)單:在當(dāng)前幀中找到最像上一幀中的跟蹤結(jié)果的物體即可。這就引出了跟蹤中第三個(gè)重要的子問(wèn)題:決策 (decision making)。決策是跟蹤中最重要的一個(gè)子問(wèn)題,也是絕大多數(shù)研究人員最為關(guān)注的問(wèn)題。通常來(lái)說(shuō),決策主要解決匹配問(wèn)題,即將當(dāng)前幀中可能是目標(biāo)的物體和上一幀的跟蹤結(jié)果進(jìn)行匹配,然后選擇相似度最大的物體作為當(dāng)前幀的跟蹤結(jié)果。

聯(lián)系

在上述三個(gè)小節(jié)中我們分別介紹了跟蹤基本原理中的三個(gè)子問(wèn)題:候選框生成、特征表達(dá)/提取、及決策。需要注意的是,這三個(gè)子問(wèn)題并非彼此獨(dú)立。有時(shí)候,決策問(wèn)題的解決方案會(huì)包含更為精確的候選框生成和/或更為抽象的特征提取,利用端到端 (end-to-end) 的思想解決跟蹤問(wèn)題,來(lái)提高跟蹤系統(tǒng)和算法的性能。這在近幾年流行的基于深度學(xué)習(xí)的跟蹤算法中非常常見(jiàn)[1]。

視覺(jué)目標(biāo)跟蹤的應(yīng)用

從某種意義來(lái)說(shuō),在回答“視覺(jué)目標(biāo)跟蹤有哪些應(yīng)用”的問(wèn)題之前,我們應(yīng)該先討論學(xué)術(shù)研究方法論中“為什么”的問(wèn)題,即“為什么要做視覺(jué)目標(biāo)跟蹤”。

跟蹤在計(jì)算機(jī)視覺(jué)科學(xué)的經(jīng)典應(yīng)用領(lǐng)域,包括安防領(lǐng)域(車輛跟蹤、車牌識(shí)別等)、監(jiān)控領(lǐng)域(人臉識(shí)別、步態(tài)識(shí)別等)、巡檢領(lǐng)域(無(wú)人機(jī)追蹤、機(jī)器人導(dǎo)航等)、以及新興的智慧生活(人機(jī)交互、VR/AR等)、智慧城市(流量監(jiān)測(cè)等)、以及智慧工業(yè)(遠(yuǎn)程醫(yī)療等)等。跟蹤問(wèn)題的主要應(yīng)用可以總結(jié)為:

跟蹤主要應(yīng)用于對(duì)視頻或連續(xù)有語(yǔ)義關(guān)聯(lián)的圖像中任意目標(biāo)的空間位置、形狀和尺寸的獲知。

作為檢測(cè)算法的補(bǔ)充,其可以在視頻或連續(xù)有語(yǔ)義關(guān)聯(lián)的圖像中提供目標(biāo)的空間位置,降低整個(gè)系統(tǒng)的復(fù)雜度(例如檢測(cè)僅應(yīng)用于視頻第一幀識(shí)別出目標(biāo),以及后續(xù)幀中的某些幀來(lái)確定目標(biāo)位置,然后在其余幀中應(yīng)用跟蹤確定目標(biāo)位置)。

2、如何進(jìn)行視覺(jué)目標(biāo)跟蹤

視覺(jué)目標(biāo)跟蹤的系統(tǒng)架構(gòu)

候選框生成、特征表達(dá)/提取、和決策構(gòu)成了一條完整的邏輯鏈路。具體來(lái)說(shuō),對(duì)于視頻中的每一幀(通常不包括第一幀),跟蹤的系統(tǒng)流程可以用圖3中的架構(gòu)來(lái)表示:

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

圖3. 視覺(jué)跟蹤系統(tǒng)架構(gòu)[4, 有改動(dòng)]

如圖所示,在跟蹤系統(tǒng)中,上一幀(含跟蹤結(jié)果,如圖中input frame)和當(dāng)前幀會(huì)被作為系統(tǒng)輸入,然后分別經(jīng)過(guò)運(yùn)動(dòng)模型 (motion model)、特征模型 (feature model)、和觀測(cè)模型 (observation model),最終作為當(dāng)前幀對(duì)目標(biāo)位置的預(yù)測(cè) (final prediction) 輸出。其中,候選框生成、特征表達(dá)/提取、和決策三個(gè)子問(wèn)題分別在上述三個(gè)模型中被解決,其輸入與輸出的對(duì)應(yīng)關(guān)系如表1。

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

表1. 視覺(jué)跟蹤系統(tǒng)架構(gòu)中各模型的輸入與輸出

注意,圖3中的跟蹤系統(tǒng)架構(gòu)應(yīng)用了假設(shè)檢驗(yàn) (hypothesis testing) 模型。該模型是統(tǒng)計(jì)推斷中的常用方法,其基本原理是先對(duì)系統(tǒng)的特征做出某種假設(shè),然后通過(guò)研究抽樣的統(tǒng)計(jì)分布,判斷應(yīng)該接受還是拒絕此假設(shè)。該模型能夠很好地應(yīng)用于跟蹤問(wèn)題,即假設(shè)當(dāng)前幀的某個(gè)候選框是預(yù)測(cè)目標(biāo),然后通過(guò)特征表達(dá)/提取和決策,來(lái)判斷該候選框是否可以作為當(dāng)前幀目標(biāo)位置的合理預(yù)測(cè)。

運(yùn)動(dòng)模型 — where?

1)目標(biāo)表達(dá)形式

目標(biāo)在當(dāng)前幀中的大概位置是運(yùn)動(dòng)模型中主要被解決的問(wèn)題,即候選框生成 (where)。在討論如何生成的問(wèn)題之前,我們首先需要明確的是什么是候選框。候選框是對(duì)于目標(biāo)包圍盒 (bounding box) 的假設(shè) (hypothesis)。此處的表達(dá)與特征模型中的特征表達(dá)有所區(qū)別,其關(guān)注的主要是如何在視頻幀或圖像中“描繪”目標(biāo)。常見(jiàn)的表達(dá)形式如圖4所示。

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

圖 4. 視覺(jué)跟蹤目標(biāo)常用表達(dá)方式[5]

如圖所示,目標(biāo)可以被矩形框 (4c)、骨架 (4f)、或輪廓 (4h) 等不同形式所表達(dá)。其中,廣泛被計(jì)算機(jī)視覺(jué)研究中所采用的是如4(c)中的矩形框(即bounding box,一譯包圍盒)表達(dá)。這種表達(dá)形式的優(yōu)點(diǎn)包括易生成(如最小外接矩形)、易表達(dá)(如左上角+右下角坐標(biāo),或中心點(diǎn)坐標(biāo)+寬高)、易評(píng)估(如IOU (intersection over union),一譯交并比)等。詳細(xì)的信息見(jiàn)[5]。

2)De facto rules:尺寸變化小,位置移動(dòng)慢

在確定好目標(biāo)的表達(dá)形式(候選框)后,接下來(lái)我們需要關(guān)注如何生成候選框。在很多學(xué)術(shù)文章中,深度學(xué)習(xí)訓(xùn)練過(guò)程中的正負(fù)樣本生成有時(shí)也被稱作候選框生成。這種候選框生成和我們?cè)谠撔」?jié)中討論的候選框生成是兩個(gè)概念。下面介紹兩種候選框生成分別是什么,以及如何區(qū)分,避免混淆。

  • 推理過(guò)程:即圖3中的系統(tǒng)流程,用于預(yù)測(cè)當(dāng)前幀的目標(biāo)位置,任何跟蹤算法都需要。在該過(guò)程中,運(yùn)動(dòng)模型生成候選框,然后經(jīng)過(guò)特征模型進(jìn)行特征表達(dá)/提取,將含有特征的候選框輸入觀測(cè)模型進(jìn)行決策(對(duì)目標(biāo)位置的預(yù)測(cè))。如視覺(jué)目標(biāo)跟蹤的定義一節(jié)所述,de facto rules 是在同一段視頻中,相同的目標(biāo)在前后兩幀中的尺寸和空間位置不會(huì)發(fā)生巨大的變化。基于此,我們可以大大減少候選框的數(shù)量和種類,即我們只需要在上一幀預(yù)測(cè)的目標(biāo)位置附近生成和其尺寸近似的候選框,從而提高整個(gè)跟蹤系統(tǒng)的效率。
  • 訓(xùn)練過(guò)程:通常在基于判別式方法的跟蹤算法中需要,屬于跟蹤系統(tǒng)學(xué)習(xí)如何區(qū)分目標(biāo)和非目標(biāo)的過(guò)程,將在視覺(jué)目標(biāo)跟蹤的算法分類一節(jié)中詳述。在該過(guò)程中,所謂的候選框生成應(yīng)該被稱作“正負(fù)樣本生成”。在這里,正樣本可以近似地理解為目標(biāo),負(fù)樣本可以近似地理解為非目標(biāo)的干擾項(xiàng),例如背景或其他像目標(biāo)但不是目標(biāo)的物體。為了提高該類算法的跟蹤系統(tǒng)對(duì)于正負(fù)樣本的判別能力,在生成負(fù)樣本時(shí)通常會(huì)在整個(gè)圖像中尋找,而不僅限于上一幀預(yù)測(cè)的目標(biāo)位置附近。

總結(jié)來(lái)說(shuō),候選框生成被應(yīng)用在推理過(guò)程,用來(lái)生成當(dāng)前幀目標(biāo)的潛在位置;正負(fù)樣本生成被應(yīng)用在基于判別式方法的跟蹤算法的訓(xùn)練過(guò)程,用來(lái)生成正負(fù)樣本訓(xùn)練跟蹤系統(tǒng),使得系統(tǒng)習(xí)得區(qū)分目標(biāo)與分目標(biāo)的能力。

3)運(yùn)動(dòng)模型系統(tǒng)架構(gòu)與分類

圖5示出了運(yùn)動(dòng)模型的系統(tǒng)架構(gòu)以及如何得到候選框的方法分類。如圖所示,前一幀(第n幀)中預(yù)測(cè)目標(biāo)的位置被輸入模型中,輸出當(dāng)前幀(第n+1幀)的候選框。這些候選框可能有位置變化、尺度變化、和旋轉(zhuǎn)等,如圖中綠色和橙色虛線框所示。

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

圖 5. 運(yùn)動(dòng)模型系統(tǒng)架構(gòu)與分類

在運(yùn)動(dòng)模型中,主要的候選框生成方法有如下三種:

a) 概率采樣 (probabilistic sampling)

通過(guò)仿射變換生成候選框。具體來(lái)說(shuō),假設(shè)輸入的上一幀預(yù)測(cè)目標(biāo)的位置矩形框坐標(biāo)為 、仿射變換的參數(shù)矩陣為 、以及輸出的(一個(gè))候選框的坐標(biāo)為 ,則

其中, 中的參數(shù)包括候選框位置變換、尺度變換、旋轉(zhuǎn)變換、和長(zhǎng)寬比變換等信息,仿射變換的示例如圖5所示。這里,概率體現(xiàn)在上述參數(shù)都是符合某種概率分布(通常是高斯分布)的隨機(jī)變量,而采樣則體現(xiàn)在生成不同數(shù)量的候選框。

b) 滑窗 (sliding window)

如圖6所示,以某個(gè)形狀和大小的結(jié)構(gòu)元素(形象地被稱之為窗)在當(dāng)前幀中按一定的空間間隔移動(dòng),每次移動(dòng)后覆蓋的圖像中的相應(yīng)像素即為生成的候選框。通常來(lái)說(shuō),通過(guò)此種方法生成的候選框和前一幀的矩形框相比僅有位置變換,其他變化(如旋轉(zhuǎn)變換)需要進(jìn)行額外的處理。

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

圖 6. 劃窗生成候選框示例

c) 循環(huán)移位 (circulant shift)

如圖7所示,如果我們將上一幀預(yù)測(cè)的目標(biāo)位置的矩形框中的像素按照某種排列變成圖中base sample所示,那么每次右移一個(gè)像素,即可生成一個(gè)候選框的對(duì)應(yīng)排列。通過(guò)生成該排列的反變換,即可得到一個(gè)候選框。通常來(lái)說(shuō),通過(guò)此種方法生成的候選框和前一幀的矩形框相比僅有位置變換(如旋轉(zhuǎn)變換),其他變化需要進(jìn)行額外的處理。值得強(qiáng)調(diào)的是,循環(huán)移位是滑窗的一個(gè)特例,但是其在基于相關(guān)濾波的跟蹤算法中與快速傅里葉變換 (fast Fourier transformation) 結(jié)合能夠極大地提高算法效率,使其無(wú)需再使用傳統(tǒng)的滑窗操作生成候選框,因此在此被單列出來(lái)。

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

圖 7. 循環(huán)移位生成候選框示例[6]

特征模型 — how look like?

1)什么是圖像特征

對(duì)于人類來(lái)說(shuō),圖像特征是對(duì)于圖像的直觀感受。對(duì)于計(jì)算機(jī)來(lái)說(shuō),圖像特征是圖像內(nèi)的一些區(qū)域/整個(gè)圖像和其他區(qū)域/其他圖像的差異。常用的圖像特征包括顏色特征、形狀特征、空間特征、紋理特征、以及在深度學(xué)習(xí)中通過(guò)卷積神經(jīng)網(wǎng)絡(luò)得到的深度特征等。博爾特的黃色和綠色的比賽服即屬于顏色特征,而個(gè)子高則結(jié)合了空間特征和紋理特征。通常來(lái)說(shuō),特征越“深”(抽象且不直觀的的特征,如深度特征),對(duì)目標(biāo)的判別能力越好;反之,特征越“淺”(具體且直觀的特征,如顏色等),對(duì)目標(biāo)的空間位置信息保留越好。因此,特征表達(dá)/提取通常需要在兩者之間做權(quán)衡,才能達(dá)到更好的跟蹤效果。

2)什么是圖像特征表達(dá)

了解什么是圖像特征之后,特征表達(dá)/提取要解決的問(wèn)題是如何來(lái)描述這些特征,即用計(jì)算機(jī)能夠理解的語(yǔ)言來(lái)描述這些特征的數(shù)學(xué)特性的一個(gè)或多個(gè)維度。常用的特征表達(dá)/提取方法包括樸素方法(naive,如像素值)、統(tǒng)計(jì)方法(statistics,如直方圖)、和變換(transformation,如像素值的梯度)等。

特征和特征表達(dá)被統(tǒng)稱為特征模型。特征模型可以對(duì)從運(yùn)動(dòng)模型中得到的候選框進(jìn)行分析,得到相應(yīng)的候選框特征表達(dá)/提取,如圖8所示。

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

圖 8. 特征模型 = 特征 + 表達(dá)/提取

3)特征模型的分類

圖9示出了如何得到對(duì)特征進(jìn)行表達(dá)/提取的方法分類。可以看到的是,在應(yīng)用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 得到深度特征 (deep) 之前,手工的 (hand-crafted) 特征表達(dá)/提取方法是跟蹤問(wèn)題中對(duì)于圖像特征進(jìn)行處理的主流方法,其包括上述提到的各種特征和表達(dá)方式。在諸多特征和表達(dá)方式中,應(yīng)用最多的是顏色特征和梯度直方圖。顏色特征比較容易理解,其不僅符合人類對(duì)于圖像的直觀理解,同時(shí)也是最簡(jiǎn)單的計(jì)算機(jī)表征圖像的方法,即像素值。梯度直方圖是關(guān)于梯度的直方圖,其中梯度是圖像像素值在某個(gè)特定空間方向上的變化,例如水平相鄰像素之間的像素值差;而直方圖是一種常用的數(shù)據(jù)分布的圖像表示,可以直觀地表示出一組數(shù)據(jù)在其取值范圍內(nèi)的數(shù)量變化。請(qǐng)各位同學(xué)參考[7]獲取更多關(guān)于圖像特征的信息。目前,基于深度學(xué)習(xí)的方法逐漸成為跟蹤問(wèn)題研究的主流,其通過(guò)卷積神經(jīng)網(wǎng)絡(luò) (CNN) 得到的深度特征 (deep) 極大地提高了跟蹤算法對(duì)目標(biāo)的判別能力,所達(dá)到的性能也超過(guò)應(yīng)用手工特征的跟蹤算法。

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

圖 9. 特征與特征表達(dá)/提取方法的分類

觀測(cè)模型 — which?

1)如何做決策

在觀測(cè)模型中,如何在諸多候選框中選出一個(gè)作為我們對(duì)目標(biāo)位置在當(dāng)前幀的預(yù)測(cè)是在觀測(cè)模型需要解決的主要問(wèn)題,即做決策(“哪一個(gè)”)。直觀理解,我們只需要在當(dāng)前幀的候選框中找出最“像”前一幀的預(yù)測(cè)目標(biāo)的候選框就可以,然而最“像”并不是僅有一種定義。

通常來(lái)說(shuō),在計(jì)算機(jī)視覺(jué)領(lǐng)域中解決最“像”問(wèn)題可以被歸類為匹配問(wèn)題,即在候選框中找到和前一幀目標(biāo)最為匹配的那個(gè)。匹配問(wèn)題是整個(gè)跟蹤問(wèn)題的核心,也是絕大多數(shù)跟蹤算法解決的主要的問(wèn)題,其解決方案的效果直接影響整個(gè)跟蹤算法的性能。有時(shí)候,即使在候選框生成和特征表達(dá)/提取方面做得不夠好,例如候選框的形狀和尺寸與實(shí)際有出入,或提取的特征的判別程度不高,優(yōu)秀的匹配算法也可以在一定程度上彌補(bǔ)前兩個(gè)模型中存在的不足,維持跟蹤算法的整體性能。

2)如何做匹配

前述中提到的最“像”或匹配問(wèn)題在本質(zhì)上是一個(gè)相似度度量 (similarity measurement) 問(wèn)題。在解決相似度問(wèn)題的時(shí)候,我們需要一個(gè)衡量機(jī)制,來(lái)計(jì)算兩個(gè)相比較的個(gè)體的相似度。在跟蹤問(wèn)題中,被比較的個(gè)體通常是候選框和前一幀的預(yù)測(cè)結(jié)果(或者是ground truth),而衡量機(jī)制可以被抽象成距離 (distance)。這里的距離不僅僅是空間距離,即框與框之間在圖像中相隔多少個(gè)像素,還包括兩個(gè)概率分布的距離。

由于空間距離相對(duì)好理解,我們?cè)谶@里僅對(duì)概率分布距離稍作解釋:每一幀的跟蹤結(jié)果是一個(gè)預(yù)測(cè)值,即每一個(gè)候選框是目標(biāo)的概率。如果綜合所有候選框,就可以構(gòu)成一個(gè)概率分布。從概率分布的角度理解匹配問(wèn)題,跟蹤問(wèn)題就轉(zhuǎn)換成在當(dāng)前幀尋找和上一幀的候選框概率分布“最接近”的一組候選框分布,該“最接近”即是概率分布距離。常用的空間距離有Minkowski distance(Manhattan distance和Euclidean distance是其特殊情況),常用的概率分布距離有Kullback–Leibler (KL) 散度、Bhattacharyya distance、交叉熵、以及Wasserstein distance等。參考[8]。

3)觀測(cè)模型系統(tǒng)架構(gòu)與分類

圖10示出了觀測(cè)模型的系統(tǒng)架構(gòu)。如圖所示,前一幀(第n幀)中預(yù)測(cè)的目標(biāo)位置、當(dāng)前幀(第n+1幀)的候選框、和候選框的特征被輸入模型,輸出當(dāng)前幀(第n+1幀)的預(yù)測(cè)結(jié)果(目標(biāo)位置)。這些候選框可能有位置變化、尺度變化、和旋轉(zhuǎn)等,如圖中綠色和橙色虛線框所示。

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

圖 10. 觀測(cè)模型系統(tǒng)架構(gòu)

圖11示出了觀測(cè)模型的模塊拆解和分類。如圖所示,觀測(cè)模型的核心模塊是匹配 (match)。對(duì)于匹配方法的分類,業(yè)界的主流觀點(diǎn)是:生成式方法 (generative) 和判別式方法 (discriminative)[1, 2, 4, 9]。這兩種方法的主要區(qū)別在于是否有背景信息的引入。具體來(lái)說(shuō),生成式方法使用數(shù)學(xué)工具擬合目標(biāo)的圖像域特征,并在當(dāng)前幀尋找擬合結(jié)果最佳(通常是擬合后重建誤差最小的)的候選框。而判別式方法則是不同的思路,其將目標(biāo)視為前景,將不包含目標(biāo)的區(qū)域視為背景,從而將匹配問(wèn)題轉(zhuǎn)換成了將目標(biāo)從背景中分離的問(wèn)題。

對(duì)比起來(lái),判別式方法具有更好的判別能力,即將目標(biāo)和其他干擾項(xiàng)區(qū)分開(kāi)的能力,這也是這一類匹配方法得名的由來(lái)。作為上述觀點(diǎn)的論據(jù)支撐,應(yīng)用判別式方法的跟蹤算法的性能已經(jīng)大幅度超越應(yīng)用生成式方法的跟蹤算法,成為學(xué)術(shù)界研究的主流方向[9]。總結(jié)來(lái)說(shuō),生成式方法把跟蹤問(wèn)題建模成擬合或多分類問(wèn)題,而判別式方法把跟蹤問(wèn)題定義為二分類問(wèn)題。

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

圖 11. 觀測(cè)模型的模塊拆解和分類

此外,在圖11中我們注意到還有兩個(gè)虛線框示出的模塊,分別代表特征表達(dá)/提取 (feature representation/extraction) 和更新 (update)。在這里,虛線表示這兩個(gè)步驟不是必須被執(zhí)行的。對(duì)于有的算法而言,通過(guò)特征模型得到的特征會(huì)被進(jìn)一步抽象,來(lái)獲取目標(biāo)更深層次的特征信息,然后再被送進(jìn)匹配模塊執(zhí)行匹配算法。同時(shí),更新的步驟也非必須的,其存在的意義是獲得更為準(zhǔn)確的預(yù)測(cè)結(jié)果。

具體來(lái)說(shuō),匹配算法得到了一系列的參數(shù),應(yīng)用這些參數(shù)即可對(duì)當(dāng)前幀的目標(biāo)位置進(jìn)行預(yù)測(cè)。如果在后續(xù)所有幀的預(yù)測(cè)過(guò)程中都應(yīng)用這些參數(shù),可能會(huì)出現(xiàn)的結(jié)果是預(yù)測(cè)趨向不準(zhǔn)確,最終導(dǎo)致跟蹤的失敗。其可能的原因包括累積誤差、外因(如遮擋、光照變化)、以及內(nèi)因(如目標(biāo)外觀變化、快速運(yùn)動(dòng))等。如果引入更新模塊,在每若干幀之后根據(jù)之前的預(yù)測(cè)結(jié)果更新匹配算法的參數(shù),則可以減小誤差,提高跟蹤的準(zhǔn)確性。

視覺(jué)目標(biāo)跟蹤的算法分類

跟蹤算法根據(jù)其觀測(cè)模型被分為兩大類:生成式方法 (generative) 和判別式方法 (discriminative)。值得注意的是,在這里我們強(qiáng)調(diào)分類的依據(jù)是觀測(cè)模型,是為了將整個(gè)跟蹤系統(tǒng)架構(gòu)中的不同模型解耦合。具體來(lái)說(shuō),即使兩個(gè)算法分別應(yīng)用了生成式方法和判別式方法作為相似度匹配的解決方案,其可能都應(yīng)用了相同的特征,例如顏色直方圖。如果我們將應(yīng)用在跟蹤算法中的特征作為分類的依據(jù),這兩個(gè)算法應(yīng)該被歸為一類。很顯然,這是另一種算法分類的角度,但是卻存在將兩個(gè)大相徑庭的算法歸為一類的可能性。

在這里,我們并非否認(rèn)按照特征分類的合理性,而是將關(guān)注的重點(diǎn)放在算法本質(zhì)上的區(qū)別,即其觀測(cè)模型。然而,大多數(shù)跟蹤算法的綜述文章都直接將跟蹤算法簡(jiǎn)單的分為生成式和判別式,并沒(méi)有強(qiáng)調(diào)這僅僅是其觀測(cè)模型,讓人產(chǎn)生為什么應(yīng)用了相同特征的算法會(huì)被歸為不同的類別的疑問(wèn)。這種不明確對(duì)于剛開(kāi)始接觸跟蹤領(lǐng)域的同學(xué)是不友好的。

在明確了我們分類的前提之后,圖12示出了我們對(duì)于跟蹤算法的分類以及各分類下的一些經(jīng)典算法。值得注意的是,在這里我們僅將分類細(xì)化到第二層,即將生成式和判別式做進(jìn)一步分類。根據(jù)不同算法的具體細(xì)節(jié),圖中的分類可以繼續(xù)深化,但是這有別于此文的宗旨,即對(duì)跟蹤問(wèn)題的系統(tǒng)性的概括。

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

圖 12. 跟蹤算法根據(jù)觀測(cè)模型的分類和舉例

關(guān)于生成式方法,其核心思想即衡量前一幀的預(yù)測(cè)目標(biāo)與當(dāng)前幀候選框的相似度,然后選擇最為相似的候選框作為當(dāng)前幀的跟蹤結(jié)果(即預(yù)測(cè)目標(biāo)在當(dāng)前幀的位置)。生成式方法被進(jìn)一步分成下述三類:

1)空間距離 (spatial distance)

即用空間距離衡量相似度的解決方案,通常利用最優(yōu)化理論將跟蹤問(wèn)題轉(zhuǎn)換成空間距離最小化問(wèn)題。利用此方法的經(jīng)典算法包括IVT (Incremental learning Visual Tracking) [10] 和ASLA(Adaptive Structural Local sparse Appearance model tracking) [11]。其算法的核心思想是:計(jì)算當(dāng)前幀候選框的像素灰度值與上一幀預(yù)測(cè)目標(biāo)的像素灰度值之間的Euclidean distance,然后取距離最小的候選框作為當(dāng)前幀的預(yù)測(cè)目標(biāo)。在特征提取時(shí)應(yīng)用了奇異值分解等技術(shù)來(lái)減小計(jì)算復(fù)雜度。

2)概率分布距離 (probabilistic distribution distance)

即用概率分布距離衡量相似度的解決方案,通常利用最優(yōu)化理論將跟蹤問(wèn)題轉(zhuǎn)換成概率分布距離最小化問(wèn)題。利用此方法的經(jīng)典算法包括CBP (Color-Based Probabilistic) [12]和FRAG (robust FRAGments-based) [13]。其算法的核心思想是:計(jì)算當(dāng)前幀候選框的顏色直方圖分布與上一幀預(yù)測(cè)目標(biāo)的顏色直方圖分布之間的Bhattacharyya distance,然后取距離最小的候選框作為當(dāng)前幀的預(yù)測(cè)目標(biāo)。

3)綜合 (combinatorial)

這部分解決方案以MeanShift[14]和CamShift算法為代表,其模糊了對(duì)于相似度匹配的距離衡量,甚至沒(méi)有顯式地候選框生成過(guò)程,而是借鑒了機(jī)器學(xué)習(xí)中meanshift聚類算法的思想,在每一幀中利用上一幀預(yù)測(cè)目標(biāo)的顏色直方圖分布,計(jì)算該幀中相應(yīng)位置的像素的顏色直方圖分布,然后進(jìn)行聚類得到其分布的均值,其對(duì)應(yīng)的像素位置是該幀中預(yù)測(cè)目標(biāo)的中心位置,然后加上候選框?qū)捀叩刃畔⒓纯傻玫疆?dāng)前幀預(yù)測(cè)目標(biāo)的空間位置。在MeanShift算法中,寬高信息是固定的,因此其無(wú)法應(yīng)對(duì)目標(biāo)尺度和旋轉(zhuǎn)變化,而CamShift通過(guò)將圖像矩引入相似度匹配[7],得到目標(biāo)尺度和旋轉(zhuǎn)信息,進(jìn)一步提高了算法的性能。

如前所述,判別式方法側(cè)重于將目標(biāo)視作前景,然后將其從其它被視作背景的內(nèi)容中分離出來(lái)。從某種程度上來(lái)說(shuō),判別式方法應(yīng)用了分類算法的思想,將跟蹤問(wèn)題轉(zhuǎn)換成二分類問(wèn)題。眾所周知,基于經(jīng)典機(jī)器學(xué)習(xí)(即不包含深度學(xué)習(xí)的機(jī)器學(xué)習(xí))和深度學(xué)習(xí)的算法對(duì)于分類問(wèn)題有著非常出色的表現(xiàn),因此,這些算法的思想被引入跟蹤問(wèn)題的解決方案是非常自然的事情。此外,判別式方法的本質(zhì)仍然是解決匹配問(wèn)題,而一種解決匹配問(wèn)題非常有效的方法就是相關(guān) (correlation),即用一個(gè)模板與輸入進(jìn)行相關(guān)操作,通過(guò)得到的響應(yīng)(輸出)來(lái)判斷該輸入與模板的相似程度,即相關(guān)性。因此,基于相關(guān)操作的算法也同樣被引入跟蹤問(wèn)題的解決方案。判別式方法被進(jìn)一步分成下述三類:

1)經(jīng)典機(jī)器學(xué)習(xí)方法 (machine learning)

應(yīng)用機(jī)器學(xué)習(xí)算法的思想將目標(biāo)作為前景從背景中提取出來(lái)的方法。利用此方法的經(jīng)典算法包括STRUCK (STRUCtured output tracking with Kernels) [15]和Tracking-Learning-Detection (TLD) [16]。STRUCK和 TLD算法分別采用經(jīng)典機(jī)器學(xué)習(xí)算法中的支持向量機(jī) (support vector machine) 和集成學(xué)習(xí) (ensemble learning) 進(jìn)行分類,并采取了一系列優(yōu)化方法來(lái)提高算法的性能。

2)相關(guān)濾波方法 (correlation filter)

應(yīng)用相關(guān)操作計(jì)算候選框與預(yù)測(cè)目標(biāo)匹配度的方法。

3)深度學(xué)習(xí)方法 (deep learning)

上述提到的應(yīng)用深度學(xué)習(xí)算法的思想將目標(biāo)作為前景從背景中提取出來(lái)的方法。

更多優(yōu)秀的跟蹤算法參見(jiàn)[1, 2, 4, 5, 9, 23]。我們將上述提到的算法總結(jié)在表2中,包括了被應(yīng)用在這些算法中的運(yùn)動(dòng)模型、特征模型、和觀測(cè)模型。表2體現(xiàn)了我們對(duì)整個(gè)跟蹤系統(tǒng)架構(gòu)中的不同模型的解耦合。通過(guò)表2我們可以清晰地了解每個(gè)算法在不同模型中應(yīng)用了哪些方法,這有助于我們從不同的角度對(duì)算法進(jìn)行分類,提煉同類算法中的共同點(diǎn),以及對(duì)不同類算法進(jìn)行有效地區(qū)分和對(duì)比。

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

表2. 跟蹤算法總結(jié)

下圖展示了[17]對(duì)于跟蹤算法的總結(jié):

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

圖 13. 跟蹤算法總結(jié)[24]

3、如何評(píng)估視覺(jué)目標(biāo)跟蹤性能

評(píng)估指標(biāo)

在前面兩章討論的內(nèi)容中,我們已經(jīng)在不經(jīng)意間用到了一些評(píng)估跟蹤算法性能的指標(biāo),例如精度,速度等。在計(jì)算機(jī)視覺(jué)領(lǐng)域中,最常用的衡量指標(biāo)是精確率 (precision) 、召回率 (recall)、以及F值 (F-score)、幀率 (FPS) 等。在此,我們簡(jiǎn)單對(duì)前兩個(gè)指標(biāo)進(jìn)行介紹:這兩個(gè)指標(biāo)源自于統(tǒng)計(jì)學(xué),關(guān)注的是對(duì)正負(fù)樣本分類的情況。簡(jiǎn)單來(lái)說(shuō),精確率被定義為所有被預(yù)測(cè)成正樣本的樣本中真實(shí)的正樣本比率,而召回率被定義為所有真實(shí)的正樣本中被預(yù)測(cè)成正樣本的樣本比率。

在跟蹤問(wèn)題中,也有類似的定義。跟蹤系統(tǒng)和算法廣泛應(yīng)用矩形框 (bounding box) 的原因之一就是易評(píng)估,其評(píng)估的核心就是交并比,即IOU (intersection over union)。IOU有如下定義:

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

較大的IOU值從一定程度上反應(yīng)了兩個(gè)進(jìn)行比較的矩形框貼合程度較高。如果我們用預(yù)測(cè)目標(biāo)的矩形框和ground truth的矩形框計(jì)算IOU,我們就可以知道跟蹤算法的效果:IOU越大,表示跟蹤的效果越好。

VOT (visual object tracking) 競(jìng)賽中從2013年開(kāi)始舉辦,目前已經(jīng)發(fā)展成評(píng)估跟蹤算法的主流標(biāo)準(zhǔn),VOT中比較重要的兩個(gè)指標(biāo)是accuracy和robustness。實(shí)際上,競(jìng)賽中采用的第一指標(biāo)是EAO,即expected accuracy overlap,是對(duì)accuracy的一種加權(quán)求和,其本質(zhì)仍然是accuracy。Accuracy有如下定義:

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

即計(jì)算每一幀預(yù)測(cè)目標(biāo)的矩形框與ground truth的矩形框之間的IOU,然后對(duì)所有幀求和再做平均。其中N是總幀數(shù),可以是一段視頻的總幀數(shù),也可以是多段視頻,或者多段視頻重復(fù)測(cè)試多次。Robustness有如下定義:

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

即跟蹤失敗的幀數(shù)與總幀數(shù)的比值,其中跟蹤失敗定義為當(dāng)前幀預(yù)測(cè)目標(biāo)的矩形框與ground truth的矩形框的IOU為0。

上述兩個(gè)指標(biāo)從兩個(gè)方面體現(xiàn)了跟蹤算法的性能:accuracy體現(xiàn)了當(dāng)跟蹤成功時(shí),算法的精確度有多高,即找準(zhǔn)目標(biāo)的位置的概率,側(cè)重算法的精確性;robustness則體現(xiàn)了算法找到目標(biāo)位置的概率,側(cè)重算法的魯棒性。有了這兩個(gè)指標(biāo),不同的算法就可以在同一套衡量標(biāo)準(zhǔn)下進(jìn)行比較。

評(píng)估數(shù)據(jù)集

除了評(píng)估指標(biāo)以外,另一個(gè)對(duì)于跟蹤算法評(píng)估非常重要的部分就是數(shù)據(jù)集。VOT競(jìng)賽不僅提供了評(píng)估指標(biāo),其本身的數(shù)據(jù)集也是評(píng)估跟蹤算法的一個(gè)權(quán)威的數(shù)據(jù)集。除此之外,常用的評(píng)估數(shù)據(jù)集還包括OTB [2]、UAV123 [18]、以及GOT-10K [19] 等。不同的數(shù)據(jù)集對(duì)于評(píng)估指標(biāo)有著不同的定義,但是其思想都和評(píng)估指標(biāo)一節(jié)中提到的accuracy和robustness有著一定的共同點(diǎn):即全面考慮算法的精確性和魯棒性。

除了不同的評(píng)估指標(biāo),不同的數(shù)據(jù)集之間通常也有共同點(diǎn),同時(shí)也是衡量一個(gè)數(shù)據(jù)集是否適合作為評(píng)估數(shù)據(jù)集的標(biāo)準(zhǔn):視頻數(shù)量充足、目標(biāo)類別豐富、以及標(biāo)注信息準(zhǔn)確。如果沒(méi)有充足的視頻和足夠豐富的目標(biāo)類別,算法的性能很容易發(fā)生過(guò)擬合,即在少量的視頻和/或類別中表現(xiàn)很好,但是在其他視頻和/或類別中表現(xiàn)欠佳,因此無(wú)法準(zhǔn)確地衡量出算法的真實(shí)性能。標(biāo)注信息的準(zhǔn)確性則不言而喻,它直接影響到評(píng)估的正確性。對(duì)于其他類型的數(shù)據(jù)集,例如作為訓(xùn)練算法使用的數(shù)據(jù)集,包括ImageNet [20]、COCO [21]等,如果能夠滿足上述條件,也可以拓展成為評(píng)估數(shù)據(jù)集。

評(píng)估示例

我們以最新的2019年VOT 競(jìng)賽 (VOT challenge 2019) 作為跟蹤算法評(píng)估的示例。表3展示了競(jìng)賽的節(jié)選結(jié)果 [9]。通用的競(jìng)賽流程是:競(jìng)賽組委會(huì)開(kāi)放報(bào)名通道,參賽者可以通過(guò)該通道提交算法代碼,然后組委會(huì)統(tǒng)一收集代碼,再評(píng)估數(shù)據(jù)集上進(jìn)行測(cè)試,最后將競(jìng)賽結(jié)果以報(bào)告或白皮書(shū)的形式公布。

機(jī)器視覺(jué)——視覺(jué)目標(biāo)跟蹤漫談:從原理到應(yīng)用

 

表 3. VOT challenge 2019結(jié)果節(jié)選

表3中的體現(xiàn)了參賽算法在該年的評(píng)估數(shù)據(jù)集上取得的結(jié)果,包括了EAO、accuracy、和robustness等指標(biāo)。通常,競(jìng)賽結(jié)果是依據(jù)EAO進(jìn)行排名的,不過(guò)結(jié)果中也會(huì)標(biāo)注各單項(xiàng)指標(biāo)的前三名,如表3中用圓圈標(biāo)記的數(shù)字。

4、結(jié)語(yǔ)

目前,基于深度學(xué)習(xí)的算法逐漸成為視覺(jué)目標(biāo)跟蹤研究的主流。除了文中介紹的算法之外,無(wú)監(jiān)督學(xué)習(xí)、元學(xué)習(xí) (meta learning)、和其他人工智能領(lǐng)域的前沿算法也被引入視覺(jué)目標(biāo)跟蹤的學(xué)術(shù)研究。此外,基于深度學(xué)習(xí)的視覺(jué)目標(biāo)跟蹤算法也逐漸被應(yīng)用在工業(yè)界,通過(guò)包括模型壓縮在內(nèi)的優(yōu)化方法有效地降低其算法復(fù)雜度,從而達(dá)到并超越目前適合于實(shí)際計(jì)算機(jī)視覺(jué)應(yīng)用的跟蹤算法的性能。

參考

[1] Fiaz, Mustansar, et al. "Handcrafted and deep trackers: Recent visual object tracking approaches and trends." ACM Computing Surveys (CSUR) 52.2 (2019): 1-44.

[2] Wu, Yi, Jongwoo Lim, and Ming-Hsuan Yang. "Object tracking benchmark." IEEE Transactions on Pattern Analysis and Machine Intelligence 37.9 (2015): 1834-1848.

[3] VOT2018 dataset, http://www.votchallenge.net/vot2018/dataset.html.

文章來(lái)源于阿里機(jī)器智能 ,作者圖希

本文僅作學(xué)術(shù)分享,著作權(quán)歸作者所有,如有侵權(quán),請(qǐng)聯(lián)系后臺(tái)作刪文處理。

分享到:
標(biāo)簽:視覺(jué) 機(jī)器
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定