亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

機(jī)器之心編輯部

訓(xùn)練一個(gè)媲美 MJ 的文生圖模型,26K 美元就能實(shí)現(xiàn)了。

當(dāng)前,最先進(jìn)的文本到圖像(T2I)模型需要大量的訓(xùn)練成本(例如,數(shù)百萬(wàn)個(gè) GPU 小時(shí)),這嚴(yán)重阻礙了 AIGC 社區(qū)的基礎(chǔ)創(chuàng)新,同時(shí)增加了二氧化碳排放。

現(xiàn)在,來(lái)自華為諾亞方舟實(shí)驗(yàn)室等研究機(jī)構(gòu)的研究者聯(lián)合提出了開創(chuàng)性的文本到圖像(T2I)模型 PixArt-α, 只需要 Stable Diffusion v1.5 訓(xùn)練時(shí)間的 10.8%(約 675 vs 約 6250 A100 GPU 天),省下近 30 萬(wàn)美元(26000 美元 vs 320000 美元)。與更大的 SOTA 模型 RAPHAEL 相比,PixArt-α 的訓(xùn)練成本僅為 1%,且支持直接生成高達(dá) 1024×1024 分辨率的高分辨率圖像。

PixArt-α 模型不僅大幅降低了訓(xùn)練成本,還顯著減少了二氧化碳排放,同時(shí)提供了接近商業(yè)應(yīng)用標(biāo)準(zhǔn)的高質(zhì)量圖像生成。PixArt-α 的出現(xiàn),為 AIGC 社區(qū)和初創(chuàng)公司提供了新的視角,以加速他們構(gòu)建自己的高質(zhì)量且低成本的生成模型。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

論文地址:

https://arxiv.org/abs/2310.00426

主頁(yè):

https://pixart-alpha.Github.io/

項(xiàng)目地址:

https://github.com/PixArt-alpha/PixArt-alpha

總的來(lái)說(shuō),PixArt-α 是一種基于 Transformer 的 T2I 擴(kuò)散模型,其圖像生成質(zhì)量可以與最先進(jìn)的圖像生成器(例如,Imagen [1],SDXL [2],甚至 Midjourney [3])相媲美,達(dá)到接近商業(yè)應(yīng)用的標(biāo)準(zhǔn)。此外,它支持高達(dá) 1024×1024 分辨率的高分辨率圖像的直接生成,訓(xùn)練成本低,如下圖 1 所示。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

圖表 1.PixArt-α 產(chǎn)生的樣本展示出了其卓越的質(zhì)量,其特點(diǎn)是高精確度和準(zhǔn)確性的圖像生成。

為了實(shí)現(xiàn)這個(gè)目標(biāo),該研究提出了三個(gè)核心設(shè)計(jì):

訓(xùn)練策略分解:該研究設(shè)計(jì)了三個(gè)獨(dú)特的訓(xùn)練步驟,分別優(yōu)化像素間依賴關(guān)系,文本圖像對(duì)齊和圖像美學(xué)質(zhì)量;

高效的 T2I Transformer 結(jié)構(gòu):該研究將跨注意力模塊整合到 Diffusion Transformer(DiT)[6] 中,以注入文本信息并簡(jiǎn)化計(jì)算復(fù)雜的類條件分支;

高信息密度數(shù)據(jù):該研究強(qiáng)調(diào)文本圖像對(duì)中概念密度的重要性,并利用大視覺語(yǔ)言模型自動(dòng)標(biāo)記密集的偽文本標(biāo)簽以協(xié)助文本圖像對(duì)齊學(xué)習(xí)。

大量的實(shí)驗(yàn)表明,PixArt-α 在圖像質(zhì)量、藝術(shù)性和語(yǔ)義控制方面表現(xiàn)出色。研究團(tuán)隊(duì)希望 PixArt-α 能為 AIGC 社區(qū)和初創(chuàng)公司提供新的思路,以加速他們從頭開始構(gòu)建自己的高質(zhì)量且低成本的生成模型。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

圖表 2.T2I 方法之間的二氧化碳排放和訓(xùn)練成本比較。PixArt-α 實(shí)現(xiàn)了極低的訓(xùn)練成本,僅為 26,000 美元。相比于 RAPHAEL,PixArt-α 的二氧化碳排放和訓(xùn)練成本分別僅為 1.1% 和 0.85%。

從現(xiàn)象看本質(zhì):從訓(xùn)練流程和數(shù)據(jù)的角度重新審視文生圖任務(wù)

從現(xiàn)有訓(xùn)練流程出發(fā):文本到圖像(T2I)生成任務(wù)可以分解為三個(gè)方面:建模像素間關(guān)系、文本與圖像的精確對(duì)齊以及高審美質(zhì)量生成。然而,現(xiàn)有方法將這三個(gè)問題混合在一起,并直接使用大量數(shù)據(jù)從零開始訓(xùn)練,導(dǎo)致訓(xùn)練效率低下。

從訓(xùn)練數(shù)據(jù)出發(fā):如圖 3 所示,現(xiàn)有的文本 - 圖像對(duì)常常存在文本 - 圖像不對(duì)齊、描述不足、包含大量不常見詞匯以及包含低質(zhì)量數(shù)據(jù)等問題。這些問題給訓(xùn)練帶來(lái)了困難,導(dǎo)致需要進(jìn)行數(shù)百萬(wàn)次迭代才能實(shí)現(xiàn)文本和圖像之間的穩(wěn)定對(duì)齊。為了解決這個(gè)挑戰(zhàn),該研究引入了一個(gè)創(chuàng)新的自動(dòng)標(biāo)注流程來(lái)生成精確的圖像標(biāo)題。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

圖表 3.LAION [6] 原生標(biāo)題 v.s. LLaVA 精細(xì)標(biāo)題的對(duì)比。LLaVA 提供了信息密度更高的文本,幫助模型在每次迭代中掌握更多概念,提高了文本 - 圖像對(duì)齊的效率。

解耦訓(xùn)練策略:不同數(shù)據(jù)獲取、強(qiáng)化不同能力

1. 像素間依賴學(xué)習(xí)

當(dāng)前 class-condition 的方法 [7] 在生成語(yǔ)義連貫且像素邏輯合理的圖像上展現(xiàn)出了卓越的性能。訓(xùn)練一個(gè)符合自然圖像分布的 class-condition 圖像生成模型,不僅訓(xùn)練相對(duì)簡(jiǎn)單,成本也較低。該研究還發(fā)現(xiàn),適當(dāng)?shù)某跏蓟梢詷O大地提升圖像生成模型的訓(xùn)練效率。因此,PixArt 模型采用了一個(gè) Imag.NET 預(yù)訓(xùn)練模型作為基礎(chǔ),來(lái)增強(qiáng)模型的性能。此外,該研究也提出了重參數(shù)化來(lái)兼容預(yù)訓(xùn)練權(quán)重,以確保最佳的算法效果。

2. 文本圖像對(duì)齊

從預(yù)訓(xùn)練的 class-condition 圖像生成模型過渡到基于文本的圖像生成模型的主要挑戰(zhàn)在于如何實(shí)現(xiàn)文本概念與圖像之間的精確對(duì)齊。這個(gè)對(duì)齊過程既耗時(shí),也具有挑戰(zhàn)性。為了有效地促進(jìn)這個(gè)過程,該研究構(gòu)建了一個(gè)高概念密度的由精確的文本 - 圖像對(duì)組成的數(shù)據(jù)集。通過使用精確且信息豐富的數(shù)據(jù),幫助模型在單次訓(xùn)練迭代中有效學(xué)習(xí)更多的概念,同時(shí)相較于之前的數(shù)據(jù)集,遇到的模糊性大大減少。這種策略性的方法賦予了 PixArt-α 高效地將文本描述與圖像對(duì)齊的能力。

3. 圖像美學(xué)質(zhì)量

在第三階段,該研究對(duì)模型進(jìn)行了微調(diào),利用了高質(zhì)量的美學(xué)數(shù)據(jù)并提高了模型的分辨率,使得模型具有生成高質(zhì)量圖像的能力。值得注意的是,研究團(tuán)隊(duì)觀察到模型在該階段的收斂速度顯著加快,這主要?dú)w功于前兩階段學(xué)習(xí)到的的強(qiáng)大的先驗(yàn)知識(shí)。

刪繁就簡(jiǎn):高效 T2I Transformer 架構(gòu)

PixArt-α 采用了 Diffusion Transformer (DiT) 作為基礎(chǔ)架構(gòu),如圖 4 所示,并創(chuàng)新地提出了以下幾個(gè)專門的設(shè)計(jì)方案來(lái)處理 T2I 任務(wù):

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

圖表 4.PixArt-α 模型架構(gòu)。

Cross-Attention layer 該研究在 DiT 模塊中加入了一個(gè)多頭交叉注意力層。它位于自注意力層和前饋層之間,使得模型能夠靈活地與從語(yǔ)言模型中提取的文本特征進(jìn)行交互。為了利用預(yù)訓(xùn)練權(quán)重,該研究將交叉注意力層的輸出投影層權(quán)重初始化為零,有效地作為恒等映射來(lái)保留輸入供后續(xù)層使用。

AdaLN-single 該研究發(fā)現(xiàn)在 DiT 的自適應(yīng)標(biāo)準(zhǔn)化層(adaLN)中,線性投影(MLP)占據(jù)了大量(27%)的參數(shù)。研究團(tuán)隊(duì)提出了 adaLN-single 模塊來(lái)降低模型的參數(shù)量,它只在噪聲進(jìn)入模型第一層之前,僅使用時(shí)間特征嵌入作為輸入進(jìn)行獨(dú)立控制(如圖 4 右側(cè)所示), 并在所有層中共享。研究團(tuán)隊(duì)為每一層設(shè)置了層特定的可學(xué)習(xí)特征嵌入,它可適應(yīng)性地調(diào)整不同層中的尺度和位移參數(shù)。

重參數(shù)化 該研究提出了重參數(shù)化技巧來(lái)保持與預(yù)訓(xùn)練權(quán)重的兼容性。

實(shí)驗(yàn)表明,通過整合全局 MLP 和層次嵌入來(lái)處理時(shí)間步信息,以及采用跨注意力層處理文本信息,可以在有效減小模型大小的同時(shí),保持模型的生成能力。

數(shù)據(jù)構(gòu)建:全新自動(dòng)化圖文對(duì)標(biāo)注工具

該研究發(fā)現(xiàn) LAION 數(shù)據(jù)集中存在大量簡(jiǎn)單的商品樣圖,并選擇使用專為多樣性目標(biāo)分割設(shè)計(jì)的 SAM 數(shù)據(jù)集 [8],其圖像中包含了豐富多樣的對(duì)象,即較高的信息 / 概念密度,更加貼合前文高信息密度數(shù)據(jù)可以幫助圖文對(duì)齊的論述。標(biāo)注流程如圖 5 所示。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

圖表 5.為 LAION(左圖)和 SAM(右圖)進(jìn)行自定義提示的自動(dòng)標(biāo)注功能。圖中綠色高亮的詞匯代表 LAION 中的原始標(biāo)題,而紅色標(biāo)注的則是 LLaVA 標(biāo)注的詳細(xì)信息。

研究團(tuán)隊(duì)對(duì) LAION 和 SAM 兩個(gè)數(shù)據(jù)集進(jìn)行了名詞統(tǒng)計(jì),如圖 6 所示。LAION 的名詞統(tǒng)計(jì)顯示,雖然其總的名詞種類多達(dá) 2451K 種,但有效名詞的比例僅為 8%,這意味著其中 91% 以上的名詞是不常見的,這可能會(huì)導(dǎo)致模型訓(xùn)練的不穩(wěn)定。相比之下,LAION-LLaVA 的統(tǒng)計(jì)結(jié)果顯示,有效名詞的比例有所提升,總名詞數(shù)量和每張圖像的平均名詞數(shù)量顯著增加。這表明,LLaVA 生成的標(biāo)簽?zāi)軌虮M量涵蓋每張圖片中更多的物體和概念。同樣的,在實(shí)際使用的 SAM 數(shù)據(jù)以及內(nèi)部數(shù)據(jù)中,各項(xiàng)指標(biāo)都有較 LAION-LLaVA 有更大的提升,這體現(xiàn)了更高的概念密度數(shù)據(jù)在訓(xùn)練中的重要性。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

圖表 6.不同數(shù)據(jù)集的名詞概念統(tǒng)計(jì)。VN:有效的不同名詞種類(出現(xiàn)次數(shù)超過10次);DN:總的不同名詞種類;Average:每張圖片的平均名詞數(shù)量。

量化指標(biāo)驗(yàn)證:指標(biāo)下的能力

該研究最終在 User study、T2ICompBench [9] 以及 MSCOCO Zero-shot FID 三項(xiàng)指標(biāo)上驗(yàn)證了 PixArt-α 的能力。更多評(píng)價(jià)結(jié)果與討論請(qǐng)參考原論文。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

圖表 7.根據(jù)對(duì) Ernie-vilg 2.0 [10] 的 300 個(gè)固定提示的用戶體驗(yàn)研究,比例值表示了偏好對(duì)應(yīng)模型的用戶百分比。PixArt-α 在質(zhì)量和對(duì)齊度方面都表現(xiàn)出超越其他模型的優(yōu)秀性能。

如下圖表 8 所示,在 T2I-CompBench 上進(jìn)行的對(duì)齊評(píng)估中,PixArt-α 在屬性綁定、對(duì)象關(guān)系和復(fù)雜組合方面展示出卓越的性能,這表明 PixArt-α 具有優(yōu)越的組合生成能力。其中,用藍(lán)色高亮表示最好的值,用綠色表示次優(yōu)的值。基線數(shù)據(jù)來(lái)源于 T2ICompBench。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

圖表 8

該研究全面比較了 PixArt-α 和最近的 T2I 模型,考慮了幾個(gè)關(guān)鍵因素:模型大小、訓(xùn)練圖像總量、COCO FID-30K 分?jǐn)?shù)(Zero-shot)以及計(jì)算成本(GPU 天數(shù)),結(jié)果如下圖表 9 所示。該研究提出的高效方法 PixArt-α 顯著減少了資源消耗,包括訓(xùn)練數(shù)據(jù)使用和訓(xùn)練時(shí)間。基線數(shù)據(jù)來(lái)源于 GigaGAN [11]。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

圖表 9

可視化驗(yàn)證:No cheery-pick battle

用于可視化的圖像文本均取自其他方法中,本文中的圖片全部隨機(jī)生成,無(wú)需 cheery-pick。

1. 與 Midjourney 對(duì)比

圖表 10 與 Midjourney 的比較:此次比較使用的提示是從網(wǎng)上隨機(jī)抽樣的。為了確保公平的比較,研究團(tuán)隊(duì)選擇了兩種模型生成的第一個(gè)結(jié)果進(jìn)行對(duì)比。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

圖表 10

2. 與更多文生圖方法的對(duì)比

圖表 11 PixArt-α 與近期代表性的方法對(duì)比,如 Stable Diffusion XL [2]、DeepFloyd [12]、DALL-E 2 [13]、ERNIE-ViLG 2.0 [10] 以及 RAPHAEL [5]。所有方法都使用了與 RAPHAEL 中相同的提示詞,其中人類藝術(shù)家希望在生成圖像中保留的詞語(yǔ)被用紅色高亮。各行的具體提示在圖示下方提供。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

圖表 11

3. 文本直接控制風(fēng)格

圖表 12 提示詞混合:PixArt-α 能夠直接通過文本提示操控圖像風(fēng)格。利用風(fēng)格控制物體,PixArt-α 生成了五個(gè)輸出樣本。例如,位于圖示左角的第一個(gè)例子的第二個(gè)圖片,使用的提示是 “Pixel Art of the black hole in the space”。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

圖表 12

方法可拓展性:ControlNet & Dreambooth

如下圖表 13 所示,PixArt-α 能夠與 Dreambooth [14] 結(jié)合使用。只需給定幾張圖片和文本提示,PixArt-α 就能生成高保真度的圖像,這些圖像能展示與環(huán)境的自然互動(dòng)(a)和精確的物體顏色修改(b)。這證明了 PixArt-α 能生成具有卓越質(zhì)量的圖像,并且在定制擴(kuò)展方面具有強(qiáng)大的能力。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

圖表 13

圖表 14:PixArt-α+ControlNet [15] 定制樣本。該研究使用輸入圖片生成相應(yīng)的 HED 邊緣圖像,并將它們作為 PixArt-α ControlNet 的控制信號(hào)。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

圖表 14

總結(jié)

總的來(lái)說(shuō),該研究提出了 PixArt-α,這是一種基于 Transformer 的文本到圖像(T2I)擴(kuò)散模型,它在顯著降低訓(xùn)練成本和二氧化碳排放的同時(shí),實(shí)現(xiàn)了超強(qiáng)的圖像生成質(zhì)量。PixArt-α 的三大核心設(shè)計(jì),包括訓(xùn)練策略的分解、高效的 T2I Transformer 架構(gòu)和高信息量的數(shù)據(jù),都為 PixArt-α 的成功做出了貢獻(xiàn)。通過大量的實(shí)驗(yàn),該研究證明了 PixArt-α 在圖像生成質(zhì)量上達(dá)到了接近商業(yè)應(yīng)用的標(biāo)準(zhǔn)。有了以上的設(shè)計(jì),PixArt-α 為 AIGC 社區(qū)和初創(chuàng)公司提供了新的視角,使他們能夠構(gòu)建自己的高質(zhì)量且低成本的 T2I 模型。研究團(tuán)隊(duì)希望這項(xiàng)工作能激發(fā)這個(gè)領(lǐng)域的進(jìn)一步創(chuàng)新和進(jìn)步。

[1] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. In NeurIPS, 2022.

[2] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Muller, Joe ¨ Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. In arXiv, 2023.

[3] Midjourney. Midjourney, 2023. URL https://www.midjourney.com.

[4] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2022.

[5] Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, and Ping Luo. Raphael: Text-to-image generation via large mixture of diffusion paths. In arXiv, 2023b.

[6] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, and Aran Komatsuzaki. Laion-400m: Open dataset of clip-filtered 400 million image-text pairs. In arXiv, 2021.

[7] William Peebles and Saining Xie. Scalable diffusion models with transformers. In ICCV, 2023.

[8] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. In ICCV, 2023.

[9] Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, and Xihui Liu. T2i-compbench: A comprehensive benchmark for open-world compositional text-to-image generation. In ICCV, 2023.

[10] Zhida Feng, Zhenyu Zhang, Xintong Yu, Yewei Fang, Lanxin Li, Xuyi Chen, Yuxiang Lu, Jiaxiang Liu, Weichong Yin, Shikun Feng, et al. Ernie-vilg 2.0: Improving text-to-image diffusion model with knowledge-enhanced mixture-of-denoising-experts. In CVPR, 2023.

[11] Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman, Sylvain Paris, and Taesung Park. Scaling up gans for text-to-image synthesis. In CVPR, 2023.

[12] DeepFloyd. Deepfloyd, 2023. URL https://www.deepfloyd.ai/

[13] OpenAI. Dalle-2, 2023. URLhttps://openai.com/dall-e-2.

[14] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In arXiv, 2022.

[15] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In ICCV, 2023.

分享到:
標(biāo)簽:PixArt
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定