欧美精品毛片,大陆一级毛片免费视频观看,91麻豆精品国产剧情

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會員：747

首頁 > 新聞資訊 > IT業(yè)界 >正文

Transformer它就是個(gè)支持向量機(jī)

發(fā)布時(shí)間：2023-09-30 21:07:23 作者：網(wǎng)友整理

編輯：蛋醬、小舟

SVM is all you need，支持向量機(jī)永不過時(shí)。

Transformer 是一個(gè)支持向量機(jī)（SVM）一種新型理論在學(xué)界引發(fā)了人們的討論。

上周末，一篇來自賓夕法尼亞大學(xué)、加州大學(xué)河濱分校的論文試圖研究大模型基礎(chǔ) Transformer 結(jié)構(gòu)的原理，其在注意力層的優(yōu)化幾何與將最優(yōu)輸入 token 與非最優(yōu) token 分開的硬邊界 SVM 問題之間建立了形式等價(jià)。

在 hackernews 上作者表示，這種理論解決了 SVM 將每個(gè)輸入序列中的「好」標(biāo)記與「壞」token 分開的問題。該 SVM 作為一個(gè)性能優(yōu)異的 token 選擇器，與傳統(tǒng)為輸入分配 0-1 標(biāo)簽的 SVM 本質(zhì)上不同。

這種理論也解釋了注意力如何通過 softmax 引起稀疏性：落在 SVM 決策邊界錯(cuò)誤一側(cè)的「壞」token 被 softmax 函數(shù)抑制，而「好」token 是那些最終具有非零 softmax 概率的 token。還值得一提的是，這個(gè) SVM 源于 softmax 的指數(shù)性質(zhì)。

論文上傳到 arXiv 上面之后，人們紛紛發(fā)表意見，有人表示：AI 研究的方向真是螺旋上升，難道又要繞回去了？

繞了一圈，支持向量機(jī)還是沒有過時(shí)。

自經(jīng)典論文《Attention is All You Need》問世以來，Transformer 架構(gòu)已為自然語言處理（NLP）領(lǐng)域帶來了革命性進(jìn)展。Transformer 中的注意力層接受一系列輸入 token X，并通過計(jì)算

評估 token 之間的相關(guān)性，其中 (K, Q) 是可訓(xùn)練的 key-query 參數(shù)，最終有效捕獲遠(yuǎn)程依賴關(guān)系。

現(xiàn)在，一篇名為《Transformers as Support Vector machines》的新論文在自注意力的優(yōu)化幾何和 hard-margin SVM 問題之間建立了一種形式等價(jià)，使用 token 對的外積線性約束將最優(yōu)輸入 token 與非最優(yōu) token 分開。

論文鏈接：https://arxiv.org/pdf/2308.16898.pdf

這種形式等價(jià)建立在 Davoud Ataee Tarzanagh 等人的論文《Max-Margin Token Selection in Attention Mechanism》的基礎(chǔ)上，它能夠描述通過梯度下降進(jìn)行優(yōu)化的 1 層 transformer 的隱式偏差（implicit bias）：

(1) 優(yōu)化由 (K, Q) 參數(shù)化的注意力層，通過消失正則化（vanishing regularization），收斂到一種 SVM 解決方案，其中最小化組合參數(shù)

的核范數(shù)（nuclear norm）。相反，直接通過 W 進(jìn)行參數(shù)化可以最小化 Frobenius 范數(shù) SVM 目標(biāo)。該論文描述了這種收斂，并強(qiáng)調(diào)它可以發(fā)生在局部最優(yōu)方向而不是全局最優(yōu)方向。

(2) 該論文還證明了 W 參數(shù)化在適當(dāng)?shù)膸缀螚l件下梯度下降的局部 / 全局方向收斂。重要的是，過度參數(shù)化通過確保 SVM 問題的可行性和保證沒有駐點(diǎn)（stationary points）的良性優(yōu)化環(huán)境來催化全局收斂。

(3) 雖然該研究的理論主要適用于線性預(yù)測頭，但研究團(tuán)隊(duì)提出了一種更通用的 SVM 等價(jià)物，可以預(yù)測具有非線性頭 / MLP 的 1 層 transformer 的隱式偏差。

總的來說，該研究的結(jié)果適用于一般數(shù)據(jù)集，可以擴(kuò)展到交叉注意力層，并且研究結(jié)論的實(shí)際有效性已經(jīng)通過徹底的數(shù)值實(shí)驗(yàn)得到了驗(yàn)證。該研究建立一種新的研究視角，將多層 transformer 看作分離和選擇最佳 token 的 SVM 層次結(jié)構(gòu)。

具體來說，給定長度為 T，嵌入維度為 d 的輸入序列

，該研究分析核心交叉注意力和自注意力模型：

其中，K、Q、V 分別是可訓(xùn)練的鍵、查詢、值矩陣，

；S (?) 表示 softmax 非線性，它逐行應(yīng)用于

。該研究假設(shè)將 Z 的第一個(gè) token（用 z 表示）用于預(yù)測。具體來說，給定一個(gè)訓(xùn)練數(shù)據(jù)集

，

，該研究使用遞減損失函數(shù)

進(jìn)行最小化：

這里，h (?) ：

是包含值權(quán)重 V 的預(yù)測頭。在這種表述中，模型 f (?) 精確地表示了一個(gè)單層 transformer，其中注意力層之后是一個(gè) MLP。作者通過設(shè)置

來恢復(fù) (2) 中的自注意力，其中 x_i 表示序列 X_i 的第一個(gè) token。由于 softmax 運(yùn)算的非線性性質(zhì)，它給優(yōu)化帶來了巨大挑戰(zhàn)。即使預(yù)測頭是固定和線性的，該問題也是非凸和非線性的。在本研究中，作者將重點(diǎn)放在優(yōu)化注意力權(quán)重（K、Q 或 W）上，并克服這些挑戰(zhàn)，從而建立 SVM 的基本等價(jià)性。

論文結(jié)構(gòu)如下：第 2 章介紹了自注意力和優(yōu)化的初步知識；第 3 章分析了自注意力的優(yōu)化幾何，表明注意力參數(shù) RP 收斂到最大邊際解；第 4 章和第 5 章分別介紹了全局和局部梯度下降分析，表明 key-query 變量 W 向 (Att-SVM) 的解決方案收斂；第 6 章提供了在非線性預(yù)測頭和廣義 SVM 等價(jià)性方面的結(jié)果；第 7 章將理論擴(kuò)展到順序預(yù)測和因果預(yù)測；第 8 章討論了相關(guān)文獻(xiàn)。最后，第 9 章進(jìn)行總結(jié)，提出開放性問題和未來研究方向。

論文的主要內(nèi)容如下：

注意力層的內(nèi)隱偏差（第 2-3 章）

正則化消失的情況下優(yōu)化注意力參數(shù)（K, Q），會在方向上收斂到

的最大邊際解，其核范數(shù)目標(biāo)是組合參數(shù)

。在直接用組合參數(shù) W 對交叉注意力進(jìn)行參數(shù)化的情況下，正則化路徑 (RP) 定向收斂于以 Frobenius 范數(shù)為目標(biāo)的（Att-SVM）解。

這是第一個(gè)正式區(qū)分 W 與（K，Q）參數(shù)化優(yōu)化動(dòng)態(tài)的結(jié)果，揭示了后者的低階偏差。該研究的理論清楚地描述了所選 token 的最優(yōu)性，并自然地?cái)U(kuò)展到了序列到序列或因果分類設(shè)置。

梯度下降的收斂（第 4-5 章）

通過適當(dāng)?shù)某跏蓟途€性頭 h (?)，組合 key-query 變量 W 的梯度下降（GD）迭代在方向上收斂到（Att-SVM）的局部最優(yōu)解（第 5 節(jié)）。要實(shí)現(xiàn)局部最優(yōu)，所選 token 必須比相鄰 token 得分更高。

局部最優(yōu)方向不一定是唯一的，可以根據(jù)問題的幾何特征來確定 [TLZO23]。作為一項(xiàng)重要貢獻(xiàn)，作者確定了保證向全局最優(yōu)方向收斂的幾何條件（第 4 章）。這些條件包括：

最佳 token 在分?jǐn)?shù)上有明顯區(qū)別；
初始梯度方向與最佳 token 一致。

除此以外，論文還展示了過度參數(shù)化（即維度 d 較大，以及同等條件）通過確保（1）（Att-SVM）的可行性，以及（2）良性優(yōu)化 landscape（即不存在靜止點(diǎn)和虛假的局部最優(yōu)方向）來催化全局收斂（見第 5.2 節(jié)）。

圖 1 和圖 2 對此進(jìn)行了說明。

SVM 等價(jià)的通用性（第 6 章）

當(dāng)使用線性 h (?) 進(jìn)行優(yōu)化時(shí)，注意力層會固有地偏向于從每個(gè)序列中選擇一個(gè) token（又稱硬注意力）。這反映在了 (Att-SVM) 中，表現(xiàn)為輸出 token 是輸入 token 的凸組合。與此相反，作者表明非線性頭必須由多個(gè) token 組成，從而突出了它們在 transformer 動(dòng)態(tài)過程中的重要性（第 6.1 節(jié)）。利用從理論中獲得的洞察力，作者提出了一種更通用的 SVM 等價(jià)方法。

值得注意的是，他們證明了在理論未涵蓋的普遍情況下（例如，h (?) 是一個(gè) MLP），本文的方法能準(zhǔn)確預(yù)測通過梯度下降訓(xùn)練的注意力的隱含偏差。具體來說，本文的通用公式將注意力權(quán)重解耦為兩個(gè)部分：一個(gè)是由 SVM 控制的定向部分，它通過應(yīng)用 0-1 掩碼來選擇標(biāo)記；另一個(gè)是有限部分，它通過調(diào)整 softmax 概率來決定所選 token 的精確組成。

這些發(fā)現(xiàn)的一個(gè)重要特點(diǎn)是，它們適用于任意數(shù)據(jù)集（只要 SVM 可行），并且可以用數(shù)字驗(yàn)證。作者通過實(shí)驗(yàn)廣泛驗(yàn)證了 transformer 的最大邊際等價(jià)性和隱含偏差。作者認(rèn)為，這些發(fā)現(xiàn)有助于理解作為分層最大邊際 token 選擇機(jī)制的 transformer，可為即將開展的有關(guān)其優(yōu)化和泛化動(dòng)態(tài)的研究奠定基礎(chǔ)。

參考內(nèi)容：

https://news.ycombinator.com/item?id=37367951

https://Twitter.com/vboykis/status/1698055632543207862

分享到：

標(biāo)簽：Transformer