編輯：LRS

【新智元導(dǎo)讀】神經(jīng)網(wǎng)絡(luò)越大越好幾乎已成了共識，但這種想法和傳統(tǒng)的函數(shù)擬合理論卻相悖。最近微軟的研究人員在NeurIPS上發(fā)表了一篇論文，用數(shù)學(xué)證明了大規(guī)模神經(jīng)網(wǎng)絡(luò)的必要性，甚至應(yīng)該比預(yù)期的網(wǎng)絡(luò)規(guī)模還大。

當(dāng)神經(jīng)網(wǎng)絡(luò)的研究方向逐漸轉(zhuǎn)為超大規(guī)模預(yù)訓(xùn)練模型，研究人員的目標(biāo)似乎變成了讓網(wǎng)絡(luò)擁有更大的參數(shù)量，更多的訓(xùn)練數(shù)據(jù)，更多樣化的訓(xùn)練任務(wù)。

當(dāng)然，這個措施確實很有效，隨著神經(jīng)網(wǎng)絡(luò)越來越大，模型了解和掌握的數(shù)據(jù)也更多，在部分特定任務(wù)上已經(jīng)超越人類。

神經(jīng)網(wǎng)絡(luò)為何越大越好？NeurIPS論文證明：魯棒性是泛化的基礎(chǔ)

但在數(shù)學(xué)上，現(xiàn)代神經(jīng)網(wǎng)絡(luò)的規(guī)模實際上有些過于臃腫了，參數(shù)量通常遠遠超過了預(yù)測任務(wù)的需求，這種情況也被稱為過度參數(shù)化（overparameterization）。

NeurIPS上的一篇論文中最近就這一現(xiàn)象提出了一種全新的解釋。他們認為這種比預(yù)期規(guī)模更大的神經(jīng)網(wǎng)絡(luò)是完全有必要的，只有這樣才能避免某些基本問題，這篇論文中的發(fā)現(xiàn)也為這一問題提供一種更通用的見解。

論文地址：https://arxiv.org/abs/2105.12806

文章的第一作者Sébastien Bubeck在MSR Redmond管理機器學(xué)習(xí)基礎(chǔ)研究組，主要在機器學(xué)習(xí)和理論計算機科學(xué)中跨越各種主題進行交叉研究。

神經(jīng)網(wǎng)絡(luò)就該這么大

神經(jīng)網(wǎng)絡(luò)的一項常見任務(wù)是識別圖像中的目標(biāo)對象。

為了創(chuàng)建一個能夠完成該任務(wù)的網(wǎng)絡(luò)，研究人員首先為其提供許多圖像和對應(yīng)目標(biāo)標(biāo)簽，對其進行訓(xùn)練以學(xué)習(xí)它們之間的相關(guān)性。之后，網(wǎng)絡(luò)將正確識別它已經(jīng)看到的圖像中的目標(biāo)。

換句話說，訓(xùn)練過程使得神經(jīng)網(wǎng)絡(luò)記住了這些數(shù)據(jù)。

并且，一旦網(wǎng)絡(luò)記住了足夠多的訓(xùn)練數(shù)據(jù)，它還能夠以不同程度的準(zhǔn)確度預(yù)測它從未見過的物體的標(biāo)簽，這個過程稱為泛化。

網(wǎng)絡(luò)的大小決定了它能記憶多少東西。

可以用圖形化的空間來理解。假設(shè)有兩個數(shù)據(jù)點，把它們放在一個XY平面上，可以用一條由兩個參數(shù)描述的線來連接這些點：線的斜率和它與縱軸相交時的高度。如果其他人也知道這條直線的參數(shù)，以及其中一個原始數(shù)據(jù)點的X坐標(biāo)，他們可以通過觀察這條直線（或使用參數(shù)）來計算出相應(yīng)的Y坐標(biāo)。

也就是說，這條線已經(jīng)記住了這兩個數(shù)據(jù)點，神經(jīng)網(wǎng)絡(luò)做的就是差不多類似的事情。

例如，圖像是由成百上千的數(shù)值描述的，每個像素都有一個對應(yīng)的值。可以把這個由許多自由值組成的集合在數(shù)學(xué)上相當(dāng)于高維空間中一個點的坐標(biāo)，坐標(biāo)的數(shù)量也稱為維度。

傳統(tǒng)的數(shù)學(xué)結(jié)論認為，要用一條曲線擬合n個數(shù)據(jù)點，你需要一個有n個參數(shù)的函數(shù)。例如，在直線的例子中，兩個點是由一條有兩個參數(shù)的曲線描述的。

當(dāng)神經(jīng)網(wǎng)絡(luò)在20世紀(jì)80年代首次作為一種新模型出現(xiàn)時，研究人員也這么認為，應(yīng)該只需要n個參數(shù)來適應(yīng)n個數(shù)據(jù)點，而跟數(shù)據(jù)的維度無關(guān)。

德克薩斯大學(xué)奧斯汀分校的Alex Dimakis表示，現(xiàn)在實際情況已經(jīng)不是這樣了，神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量遠遠超過了訓(xùn)練樣本的數(shù)量，這說明了教科書上的內(nèi)容必須得重寫進行修正。

研究人員正在研究神經(jīng)網(wǎng)絡(luò)的魯棒性（robustness），即網(wǎng)絡(luò)處理小變化的能力。例如，一個不魯棒的網(wǎng)絡(luò)可能已經(jīng)學(xué)會了識別長頸鹿，但它會把一個幾乎沒有修改的版本誤標(biāo)為沙鼠。

2019年，Bubeck和同事們正在尋求證明關(guān)于這個問題的定理，當(dāng)時他們就意識到這個問題與網(wǎng)絡(luò)的規(guī)模有關(guān)。

在他們的新證明中，研究人員表明，過度參數(shù)化對于網(wǎng)絡(luò)的魯棒性是必要的。他們提出平滑性（smoothness），來指出需要多少個參數(shù)才能用一條具有等同于魯棒性的數(shù)學(xué)特性的曲線來擬合數(shù)據(jù)點。

要想理解這一點，可以再次想象平面上的一條曲線，其中x坐標(biāo)代表一個像素的顏色，y坐標(biāo)代表一個圖像標(biāo)簽。

由于曲線是平滑的，如果你稍微修改一下像素的顏色，沿著曲線移動一小段距離，相應(yīng)的預(yù)測值只會有少量的變化。另一方面，對于一條鋸齒狀的曲線，X坐標(biāo)（顏色）的微小變化會導(dǎo)致Y坐標(biāo)（圖像標(biāo)簽）的巨大變化，長頸鹿可以變成沙鼠。

Bubeck和Sellke在論文中證明，平滑擬合高維數(shù)據(jù)點不僅需要n個參數(shù)，而且需要n×d個參數(shù)，其中d是輸入的維度（例如，784個像素的圖像輸入維度為784）。

換句話說，如果你想讓一個網(wǎng)絡(luò)穩(wěn)健地記住它的訓(xùn)練數(shù)據(jù)，過度參數(shù)化不僅是有幫助的，而且是必須的。該證明依賴于一個關(guān)于高維幾何的事實，即隨機分布在球體表面的點幾乎都是彼此相距一個直徑的距離，點與點之間的巨大間隔意味著用一條光滑的曲線來擬合它們需要許多額外的參數(shù)。