基于算法的業(yè)務(wù)或者說AI的應(yīng)用在這幾年發(fā)展得很快。但是,在實(shí)際應(yīng)用的場(chǎng)景中,我們經(jīng)常會(huì)遇到一些非常奇怪的偏差現(xiàn)象。例如,F(xiàn)acebook將黑人標(biāo)記為靈長(zhǎng)類動(dòng)物、城市圖像識(shí)別系統(tǒng)將公交車上的董明珠形象廣告識(shí)別為闖紅燈的人等。算法系統(tǒng)出現(xiàn)偏差的原因有很多。本篇博客將總結(jié)在數(shù)據(jù)獲取相關(guān)方面可能導(dǎo)致模型出現(xiàn)偏差的原因。
一個(gè)典型的AI系統(tǒng)(本文不區(qū)分算法和AI,雖然實(shí)際中二者的確不一樣)的工作過程包括:
- 收集數(shù)據(jù)
- 標(biāo)記數(shù)據(jù)
- 數(shù)據(jù)預(yù)處理
- 模型訓(xùn)練和測(cè)試
- 模型上線
因此,這些步驟中都可能會(huì)出現(xiàn)一些問題導(dǎo)致最終的應(yīng)用出現(xiàn)偏差。本文將主要聚焦前三種情況。
- 一、數(shù)據(jù)收集產(chǎn)生的偏差
- 二、標(biāo)記數(shù)據(jù)過程產(chǎn)生的偏差
- 三、數(shù)據(jù)預(yù)處理產(chǎn)生的偏差
- 四、總結(jié)
數(shù)據(jù)創(chuàng)造的偏差是最常見的問題,這里也包括幾種情況:數(shù)據(jù)收集階段產(chǎn)生的偏差、數(shù)據(jù)標(biāo)記過程產(chǎn)生的偏差和數(shù)據(jù)預(yù)處理過程中產(chǎn)生的偏差。
一、數(shù)據(jù)收集產(chǎn)生的偏差
一般來說,這是由于數(shù)據(jù)收集過程中由于一些錯(cuò)誤的認(rèn)知或者忽視,導(dǎo)致一開始就是從一個(gè)“特別的”地方收集了數(shù)據(jù)。最后導(dǎo)致了問題的產(chǎn)生。前幾年,AICon北京站中,小米的工程師分享了一個(gè)案例就是這個(gè)原因。大意是小米相機(jī)想推出一個(gè)“魔法換天”的功能。于是從數(shù)據(jù)收集開始準(zhǔn)備訓(xùn)練模型。但是數(shù)據(jù)收集的過程中忽略了大多數(shù)用戶并不是專業(yè)的攝影師,拍照的角度五花八門,也不規(guī)則。但是收集的數(shù)據(jù)確是比較準(zhǔn)確的攝影師的作品。這最終導(dǎo)致模型只認(rèn)識(shí)質(zhì)量很高的照片,最終實(shí)際應(yīng)用效果非常差。這就是典型的數(shù)據(jù)收集導(dǎo)致的偏差問題。在實(shí)際應(yīng)用中,我們需要盡可能針對(duì)應(yīng)用場(chǎng)景收集符合實(shí)際業(yè)務(wù)的數(shù)據(jù),避免產(chǎn)生意想不到的結(jié)果。
此外,除了一開始收集產(chǎn)生的偏差。有時(shí)候抽樣選擇也會(huì)導(dǎo)致偏差。抽樣選擇是數(shù)據(jù)收集的一個(gè)重要的過程。很多時(shí)候并不是所有的原始數(shù)據(jù)都會(huì)被使用,數(shù)據(jù)抽樣是一個(gè)重要的步驟。但是,抽樣一般容易產(chǎn)生偏差。例如,在一個(gè)淺色皮膚較多的照片中,如果抽樣對(duì)深色皮膚的圖像不夠重視,很容易出現(xiàn)最終的結(jié)果都是淺色人的圖像,進(jìn)而可能會(huì)產(chǎn)生Facebook那樣的錯(cuò)誤。
二、標(biāo)記數(shù)據(jù)過程產(chǎn)生的偏差
收集完數(shù)據(jù)之后,大多數(shù)的應(yīng)用需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。尤其是在分類預(yù)測(cè)的任務(wù)中,需要對(duì)數(shù)據(jù)進(jìn)行正確的劃分,才能有效地訓(xùn)練模型。在這個(gè)過程也是很容易出錯(cuò)的。當(dāng)前,在工業(yè)界,除了尋找公開的高質(zhì)量數(shù)據(jù)集進(jìn)行模型訓(xùn)練外,也會(huì)有很多企業(yè)嘗試自己標(biāo)注數(shù)據(jù)來適應(yīng)業(yè)務(wù)的發(fā)展。然而這個(gè)時(shí)候出現(xiàn)偏差的可能也很高。依然是小米的例子,在換天這樣的應(yīng)用中,一個(gè)很重要的步驟是需要將背景中天空的輪廓識(shí)別出來。最開始標(biāo)注數(shù)據(jù)的時(shí)候選擇的標(biāo)注工具和標(biāo)注人員都是很粗略的。導(dǎo)致天空輪廓標(biāo)記很粗糙。尤其是在有樹葉這種場(chǎng)景下,邊緣的模糊導(dǎo)致標(biāo)記結(jié)果非常粗糙。在實(shí)際訓(xùn)練中也就產(chǎn)生了很大的問題。因此,數(shù)據(jù)標(biāo)注如果要自己完成,一定需要注意質(zhì)量的問題。
數(shù)據(jù)標(biāo)記可能的偏差原因:
- 標(biāo)簽的差異(例如男性和男人,其實(shí)是一種標(biāo)簽,但是給了兩種單詞)
- 標(biāo)注者思想的差異:包括標(biāo)注者自身的文化、認(rèn)知、信仰等導(dǎo)致的差異
- 標(biāo)注者記憶的差異:這種情況主要發(fā)生在一些需要標(biāo)注者記憶的情況中,例如一些問卷或者是認(rèn)知識(shí)別的標(biāo)注,可能標(biāo)注者會(huì)出現(xiàn)前后不一致的情況
三、數(shù)據(jù)預(yù)處理產(chǎn)生的偏差
數(shù)據(jù)預(yù)處理過程產(chǎn)生的偏差有一點(diǎn)類似數(shù)據(jù)抽樣選擇過程。很多時(shí)候,數(shù)據(jù)預(yù)處理包括空值處理、異常值處理等步驟。在這些步驟中,對(duì)于一些錯(cuò)誤或者偏差較大的數(shù)據(jù),很多人習(xí)慣選擇用均值填補(bǔ)甚至是刪除的操作來對(duì)待錯(cuò)誤和異常數(shù)據(jù),但這是很容易出現(xiàn)偏差的地方。例如,假設(shè)我們?cè)谔幚硪环蓐P(guān)于流量歷史的數(shù)據(jù)。這種數(shù)據(jù)在一些突發(fā)時(shí)間或者特殊節(jié)點(diǎn)會(huì)出現(xiàn)很高的異常值的情況。大多數(shù)人愿意選擇刪除這些數(shù)據(jù)節(jié)點(diǎn)。當(dāng)然,在比賽中,這種操作通常會(huì)帶來總體性能的提升。但是在實(shí)際業(yè)務(wù)中卻可能會(huì)造成很大的錯(cuò)誤。例如,如果流量估計(jì)忽略了節(jié)假日因素,那么很多時(shí)候會(huì)讓我們的廣告投放或者是資源調(diào)度出現(xiàn)很大的問題。
四、總結(jié)
模型出現(xiàn)偏差,數(shù)據(jù)可能是最重要的原因。從數(shù)據(jù)收集開始,就有很多地方值得我們注意。避免使用錯(cuò)誤的數(shù)據(jù)和錯(cuò)誤的處理方式來產(chǎn)生壞結(jié)果。不僅浪費(fèi)時(shí)間,也浪費(fèi)感情。所以大家平時(shí)一定要注意。






