亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52000
  • 待審:37
  • 小程序:12
  • 文章:1037587
  • 會(huì)員:756

聲明:本文來自于微信公眾號(hào) 機(jī)器之心(ID:almosthuman2014),作者:機(jī)器之心,授權(quán)轉(zhuǎn)載發(fā)布。

在被大規(guī)模采用后,Sora 的推理成本將很快超過訓(xùn)練成本。

OpenAI 推出的 Sora 模型能夠在各種場景下生成極其逼真的視頻,吸引了全世界的目光。

機(jī)器之心機(jī)動(dòng)組,贊56

近日,投資機(jī)構(gòu) factorial funds 發(fā)表了一篇博文,深入探討了 Sora 背后的一些技術(shù)細(xì)節(jié),并對(duì)這些視頻模型可能產(chǎn)生影響進(jìn)行了探討。

最后,文中還討論了對(duì)用于訓(xùn)練 Sora 等模型的算力的看法,并對(duì)訓(xùn)練計(jì)算與推理計(jì)算的算力比較進(jìn)行了預(yù)測,這對(duì)估計(jì)未來 GPU 需求具有重要意義。機(jī)器之心對(duì)此文進(jìn)行了整理。

本報(bào)告的主要調(diào)查結(jié)果總結(jié)如下:

  • Sora 是一個(gè)建立在擴(kuò)散 Transformers(DiT)、潛在擴(kuò)散模型之上的擴(kuò)散模型,模型和訓(xùn)練數(shù)據(jù)集似乎都更大更多。

  • Sora 證明,擴(kuò)大視頻模型是有效的,與大語言模型(LLM)類似,將模型做得更大將是快速改進(jìn)模型的主要驅(qū)動(dòng)力。

  • Runway、Genmo 和 Pika 等公司正在圍繞類 Sora 視頻生成模型構(gòu)建直觀的界面和工作流程。這將決定它們的用途和可用性。

  • Sora 需要大量的計(jì)算能力來訓(xùn)練,至少需要在4200~10500塊英偉達(dá) H100GPU 上訓(xùn)練1個(gè)月。

  • 推理階段,估計(jì)每個(gè) H100GPU 每小時(shí)最多可以生成約5分鐘的視頻。與 LLM 相比,像 Sora 這樣基于擴(kuò)散的模型推理成本要高幾個(gè)數(shù)量級(jí)。

  • 隨著類 Sora 模型的廣泛部署,推理計(jì)算消耗將多于訓(xùn)練計(jì)算消耗?!钙胶恻c(diǎn)」估計(jì)為1530萬至3810萬分鐘的視頻生成,之后在推理上花費(fèi)的計(jì)算會(huì)比原始訓(xùn)練更多。作為參考,TikTok 每天上傳1700萬分鐘的視頻,YouTube 每天上傳4300萬分鐘的視頻。

  • 假設(shè) TikTok(所有視頻時(shí)長的50%)和 YouTube(全部視頻時(shí)長的15%)等流行平臺(tái)上大量采用人工智能做視頻生成,考慮到硬件利用率和使用模式,本文估計(jì)推理階段的計(jì)算峰值需求約為72萬塊 Nvidia H100GPU。

總之,Sora 在視頻生成的質(zhì)量和能力方面取得了重大進(jìn)展,但也有可能大大增加對(duì) GPU 推理計(jì)算的需求。

Sora 的誕生背景

Sora 是一種擴(kuò)散模型。擴(kuò)散模型是圖像生成領(lǐng)域的熱門模型,著名的模型有 OpenAI 的 DALL?E 和 Stability AI 的 Stable Diffusion。最近,Runway、Genmo 和 Pika 等公司也在探索視頻生成,很可能也利用了擴(kuò)散模型。

從廣義上講,擴(kuò)散模型是一種生成式機(jī)器學(xué)習(xí)模型,它通過向數(shù)據(jù)中添加隨機(jī)噪聲來逐步反向?qū)W習(xí),最終學(xué)會(huì)創(chuàng)建與其所訓(xùn)練的數(shù)據(jù)(如圖像或視頻)相似的數(shù)據(jù)。這些模型從純粹的噪聲模式開始,逐步去除噪聲,再完善模型,直至將其轉(zhuǎn)化為連貫而詳細(xì)的輸出。

圖片

擴(kuò)散過程示意圖:噪聲被逐步去除,直至輸出清晰可見詳細(xì)的視頻。圖片摘自 Sora 技術(shù)報(bào)告。

這與大語言模型(LLM)在概念上的工作方式明顯不同:LLM 會(huì)一個(gè)接一個(gè)地反復(fù)生成 token(這被稱為自回歸采樣)。Token 一旦產(chǎn)生,就不會(huì)再改變。人們在使用 Perplexity 或 ChatGPT 等工具時(shí),可能已經(jīng)見識(shí)過這種效果:答案會(huì)一個(gè)字一個(gè)字地逐漸出現(xiàn),就像有人在打字一樣。

Sora 的技術(shù)細(xì)節(jié)

OpenAI 在發(fā)布 Sora 的同時(shí),還發(fā)布了一份技術(shù)報(bào)告。遺憾的是,這份報(bào)告的細(xì)節(jié)不多。不過,其設(shè)計(jì)似乎深受《Scalable Diffusion Models with Transformers》這篇研究論文的影響,該論文提出了一種基于 Transformer 的架構(gòu),稱為 DiT(Diffusion Transformers 的縮寫),用于圖像生成。Sora 似乎將這項(xiàng)工作擴(kuò)展到了視頻生成。因此,結(jié)合 Sora 技術(shù)報(bào)告和 DiT 論文,就可以相當(dāng)準(zhǔn)確地了解 Sora 模型的工作原理。

Sora 有三個(gè)重要部分:1)它不是在像素空間,而是在隱空間中執(zhí)行擴(kuò)散(又稱潛在擴(kuò)散);2)它使用 Transformers 架構(gòu);3)它似乎使用了一個(gè)非常大的數(shù)據(jù)集。

潛在擴(kuò)散

要理解第一點(diǎn),即潛在擴(kuò)散,可以考慮生成一幅圖像,并使用擴(kuò)散生成每個(gè)像素。然而,這樣做的效率非常低(例如,一幅512x512的圖像有262,144個(gè)像素)。取而代之的方法是,首先將像素映射成具有一定壓縮系數(shù)的隱空間表征,在這個(gè)更緊湊的隱空間中執(zhí)行擴(kuò)散,最后再將隱空間表征解碼回像素空間。這種映射大大降低了計(jì)算復(fù)雜度:以64位的隱空間為例,只需生成64x64=4,096個(gè)表征,而不必在512x512=262,144個(gè)像素上運(yùn)行擴(kuò)散過程。這一想法是《High-Resolution Image Synthesis with Latent Diffusion Models》論文中的關(guān)鍵突破,也是穩(wěn)定擴(kuò)散技術(shù)的基礎(chǔ)。

圖片

從像素(左側(cè))到潛在表示(右側(cè)的方框網(wǎng)格)的映射。圖片摘自 Sora 技術(shù)報(bào)告。

DiT 和 Sora 都采用了這種方法。對(duì)于 Sora 來說,另一個(gè)考慮因素是視頻具有時(shí)間維度:視頻是圖像的時(shí)間序列,也稱為幀。從 Sora 的技術(shù)報(bào)告中可以看出,從像素映射到隱空間的編碼步驟既發(fā)生在空間上(指壓縮每個(gè)幀的寬度和高度),也發(fā)生在時(shí)間上(指跨時(shí)間壓縮)。

Transformers

關(guān)于第二點(diǎn),DiT 和 Sora 都用普通的 Transformer 架構(gòu)取代了常用的 U-Net 架構(gòu)。這很重要,因?yàn)?DiT 論文的作者觀察到,使用 Transformer 能穩(wěn)定地?cái)U(kuò)大模型規(guī)模:隨著訓(xùn)練計(jì)算量的增加(訓(xùn)練模型的時(shí)間延長或模型增大,或兩者兼而有之),性能也會(huì)隨之提高。Sora 的技術(shù)報(bào)告也指出了同樣的情況也適用于視頻,并提供了一個(gè)說明。

圖片

關(guān)于模型質(zhì)量如何隨訓(xùn)練計(jì)算量的增加而提高的說明:基本計(jì)算量、4倍計(jì)算量和32倍計(jì)算量(從左到右)。視頻摘自 Sora 技術(shù)報(bào)告。

這種縮放自由度可以用所謂的縮放定律(scaling law)來量化,是一種重要的特性,以前在大語言模型(LLM)和其他模態(tài)的自回歸模型中都對(duì)其進(jìn)行過研究。應(yīng)用縮放以獲得更好模型的能力是 LLM 快速發(fā)展的主要推動(dòng)力之一。既然圖像和視頻生成也有同樣的特性,我們應(yīng)該期待同樣的縮放方法在這里也能發(fā)揮作用。

數(shù)據(jù)

訓(xùn)練像 Sora 這樣的模型所需的最后一個(gè)關(guān)鍵要素是標(biāo)注數(shù)據(jù),本文認(rèn)為這就是 Sora 的秘訣所在。要訓(xùn)練像 Sora 這樣的文本生成視頻模型,需要成對(duì)的視頻和文本描述。OpenAI 并沒有詳細(xì)介紹他們的數(shù)據(jù)集,但他們暗示數(shù)據(jù)集非常龐大:「我們從大語言模型中汲取靈感,這些模型通過在互聯(lián)網(wǎng)級(jí)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練,獲得了通用能力」。OpenAI 還發(fā)布了一種用詳細(xì)文本標(biāo)簽注釋圖像的方法,該方法曾被用于收集 DALLE?3數(shù)據(jù)集。其總體思路是在數(shù)據(jù)集的一個(gè)標(biāo)注子集上訓(xùn)練一個(gè)標(biāo)注模型,然后使用該標(biāo)注模型自動(dòng)標(biāo)注其余的數(shù)據(jù)集。Sora 的數(shù)據(jù)集似乎也采用了同樣的技術(shù)。

Sora 的影響分析

本文認(rèn)為 Sora 有幾個(gè)重要的影響,如下所示。

視頻模型開始真正有用

Sora 生成的視頻質(zhì)量有一個(gè)明顯的提升,在細(xì)節(jié)和時(shí)間一致性方面都是如此(例如,該模型能夠正確處理物體在暫時(shí)被遮擋時(shí)的持續(xù)性,并能準(zhǔn)確生成水中的倒影)。本文認(rèn)為,現(xiàn)在的視頻質(zhì)量已經(jīng)足以應(yīng)對(duì)某些類型的場景,可以在現(xiàn)實(shí)世界中應(yīng)用。Sora 可能很快就會(huì)取代部分視頻素材的使用。

圖片

視頻生成領(lǐng)域公司的市場分布圖。

但 Sora 還會(huì)面臨一些挑戰(zhàn):目前還不清楚 Sora 模型的可操控性。編輯生成的視頻既困難又耗時(shí),因?yàn)槟P洼敵龅氖窍袼?。此外,圍繞這些模型建立直觀的用戶界面和工作流程也是使其發(fā)揮作用的必要條件。Runway、Genmo 和 Pika 等公司以及更多公司(見上面的市場圖)已經(jīng)在著手解決這些問題。

模型縮放對(duì)視頻模型有效,可以期待進(jìn)一步的進(jìn)展

DiT 論文的一個(gè)重要觀點(diǎn)是,如上所述,模型質(zhì)量會(huì)隨著計(jì)算量的增加而直接提高。這與已觀察到的 LLM 的規(guī)律相似。因此,隨著視頻生成模型使用越來越多的計(jì)算能力進(jìn)行訓(xùn)練,我們應(yīng)該期待這類模型的質(zhì)量能快速提高。Sora 清楚地證明了這一方法確實(shí)有效,我們期待 OpenAI 和其他公司在這方面加倍努力。

數(shù)據(jù)生成與數(shù)據(jù)增強(qiáng)

在機(jī)器人和自動(dòng)駕駛汽車等領(lǐng)域,數(shù)據(jù)本來就稀缺:網(wǎng)上沒有機(jī)器人執(zhí)行任務(wù)或汽車行駛的實(shí)時(shí)數(shù)據(jù)。因此,解決這些問題的方法通常是進(jìn)行模擬訓(xùn)練或在現(xiàn)實(shí)世界中大規(guī)模收集數(shù)據(jù)(或兩者結(jié)合)。然而,由于模擬數(shù)據(jù)往往不夠真實(shí),這兩種方法都難以奏效。大規(guī)模收集真實(shí)世界的數(shù)據(jù)成本高昂,而且要為罕見事件收集足夠多的數(shù)據(jù)也具有挑戰(zhàn)性。

圖片

通過修改視頻的某些屬性對(duì)其進(jìn)行增強(qiáng)的示例,在本例中,將原始視頻(左)渲染為郁郁蔥蔥的叢林環(huán)境(右)。圖片摘自 Sora 技術(shù)報(bào)告。

本文認(rèn)為,類似 Sora 的模型在這方面會(huì)非常有用。類似 Sora 的模型有可能直接用于生成合成數(shù)據(jù)。Sora 還可用于數(shù)據(jù)增強(qiáng),將現(xiàn)有視頻轉(zhuǎn)換成不同的外觀。上圖展示了數(shù)據(jù)增強(qiáng)的效果,Sora 可以將行駛在森林道路上的紅色汽車視頻轉(zhuǎn)換成郁郁蔥蔥的叢林景色。使用同樣的技術(shù)可以重新渲染白天與夜晚的場景,或者改變天氣條件。

仿真和世界模型

一個(gè)前瞻的研究方向是學(xué)習(xí)所謂的世界模型。如果這些世界模型足夠精確,就可以直接在其中訓(xùn)練機(jī)器人,或者用于規(guī)劃和搜索。

像 Sora 這樣的模型似乎是直接從視頻數(shù)據(jù)中隱式地學(xué)習(xí)真實(shí)世界運(yùn)作的基本模擬。這種「涌現(xiàn)模擬機(jī)制」目前還存在缺陷,但卻令人興奮:它表明,我們或許可以通過視頻大規(guī)模地訓(xùn)練這些世界模型。此外,Sora 似乎還能模擬非常復(fù)雜的場景,如液體、光的反射、織物和頭發(fā)的運(yùn)動(dòng)。OpenAI 甚至將他們的技術(shù)報(bào)告命名為「作為世界模擬器的視頻生成模型」,這表明他們認(rèn)為這是他們模型最重要的價(jià)值。

最近,DeepMind 公司的 Genie 模型也展示了類似的效果:通過只在游戲視頻上進(jìn)行訓(xùn)練,該模型學(xué)會(huì)了模擬這些游戲(并制作了新的游戲)。在這種情況下,模型甚至可以在不直接觀察動(dòng)作的情況下學(xué)會(huì)對(duì)動(dòng)作進(jìn)行判斷。同樣,在這些模擬中直接進(jìn)行學(xué)習(xí)也是可以期待的。

圖片

谷歌 DeepMind 的「Genie:生成式交互環(huán)境」介紹視頻。

綜合來看,本文認(rèn)為 Sora 和 Genie 這樣的模型可能會(huì)非常有用,有助于最終在真實(shí)世界的任務(wù)中大規(guī)模地訓(xùn)練具身智能體(例如機(jī)器人)。不過,這些模型也有局限性:由于模型是在像素空間中訓(xùn)練的,因此它們會(huì)對(duì)每一個(gè)細(xì)節(jié)進(jìn)行建模,比如風(fēng)如何吹動(dòng)草葉,即使這與手頭的任務(wù)完全無關(guān)。雖然隱空間被壓縮了,但由于需要能夠映射回像素,因此隱空間仍需保留大量此類信息,因此目前還不清楚能否在隱空間中有效地進(jìn)行規(guī)劃。

Sora 的計(jì)算量估算

Factorial Funds 公司內(nèi)部喜歡評(píng)估模型在訓(xùn)練和推理階段分別使用了多少計(jì)算量。這很有用,因?yàn)檫@樣可以為預(yù)測未來需要多少計(jì)算量提供依據(jù)。不過,要估算出這些數(shù)據(jù)也很困難,因?yàn)橛嘘P(guān)用于訓(xùn)練 Sora 的模型大小和數(shù)據(jù)集的詳細(xì)信息非常少。因此,需要注意的是,本節(jié)中的估算結(jié)果具有很大的不確定性,因此應(yīng)謹(jǐn)慎對(duì)待。

根據(jù) DiT 估算Sora 的訓(xùn)練計(jì)算量

關(guān)于 Sora 的詳細(xì)資料非常少,通過再次查看 DiT 論文(這篇論文顯然是 Sora 的基礎(chǔ)),也可以根據(jù)其中提供的計(jì)算數(shù)字進(jìn)行推斷。最大的 DiT 模型 DiT-XL 有675M 個(gè)參數(shù),訓(xùn)練時(shí)的總計(jì)算預(yù)算約為10^21FLOPS。這相當(dāng)于約0.4臺(tái) Nvidia H100使用1個(gè)月(或一臺(tái) H100使用12天)。

現(xiàn)在,DiT 只是圖像模型,而 Sora 是視頻模型。Sora 可以生成長達(dá)1分鐘的視頻。如果我們假設(shè)視頻是以24fps 的速度編碼的,那么一段視頻最多由1,440幀組成。Sora 的像素到潛在空間映射似乎在空間和時(shí)間上都進(jìn)行了壓縮。如果假定采用 DiT 論文中相同的壓縮率(8倍),那么在潛空間中將有180幀。因此,當(dāng)簡單地將 DiT 推廣到視頻時(shí),得到的計(jì)算倍率是 DiT 的180倍。

本文還認(rèn)為,Sora 的參數(shù)要比675M 大得多。本文作者估計(jì)至少得有20B 的參數(shù),所需計(jì)算量是 DiT 的30倍。

最后,本文認(rèn)為 Sora 的訓(xùn)練數(shù)據(jù)集比 DiT 大得多。DiT 在 batch 大小為256的情況下進(jìn)行了三百萬次訓(xùn)練,即在總計(jì)7.68億張圖片上進(jìn)行了訓(xùn)練(請(qǐng)注意,由于 ImageNet 僅包含1,400萬張圖片,因此相同的數(shù)據(jù)被重復(fù)了很多次)。Sora 似乎是在混合圖像和視頻的基礎(chǔ)上進(jìn)行訓(xùn)練的,除此之外,我們對(duì)該數(shù)據(jù)集幾乎一無所知。因此,本文做了一個(gè)簡單的假設(shè),即 Sora 的數(shù)據(jù)集50% 是靜態(tài)圖像,50% 是視頻,而且數(shù)據(jù)集是 DiT 使用的數(shù)據(jù)集的10倍到100倍。然而,DiT 在相同的數(shù)據(jù)點(diǎn)上反復(fù)訓(xùn)練,如果有更大的數(shù)據(jù)集,可能性能還會(huì)更好。因此,本文認(rèn)為4-10倍的計(jì)算倍率的假設(shè)是更合理的。

綜上所述,考慮到額外數(shù)據(jù)集計(jì)算的低倍估算值和高倍估算值,本文得出以下計(jì)算結(jié)果:

  • 低倍數(shù)據(jù)集估計(jì)值:10^21FLOPS ×30×4× (180/2) ≈1.1x10^25FLOPS

  • 高倍數(shù)據(jù)集估計(jì)值:10^21FLOPS ×30×10× (180/2) ≈2.7x10^25FLOPS

這相當(dāng)于使用1個(gè)月的4,211-10,528臺(tái) Nvidia H100進(jìn)行訓(xùn)練。

推理與訓(xùn)練計(jì)算的比較

我們往往會(huì)考慮的另一個(gè)重要因素是訓(xùn)練計(jì)算與推理計(jì)算的比較。從概念上講,訓(xùn)練計(jì)算量非常大,但也是一次性成本,只產(chǎn)生一次。相比之下,推理計(jì)算量要小得多,但每次使用都會(huì)產(chǎn)生。因此,推理計(jì)算會(huì)隨著用戶數(shù)量的增加而增加,并且隨著模型的廣泛使用而變得越來越重要。

因此,研究「平衡點(diǎn)」是非常有用的,即推理所耗費(fèi)的計(jì)算量大于訓(xùn)練所耗費(fèi)的計(jì)算量。

圖片

DiT (左)和 Sora (右)的訓(xùn)練與推理計(jì)算結(jié)果對(duì)比。對(duì)于 Sora,本文的數(shù)據(jù)基于上一節(jié)的估計(jì),因此并不完全可靠。這里還顯示了訓(xùn)練計(jì)算的兩種估計(jì)值:一種是低估計(jì)值(假設(shè)數(shù)據(jù)集大小為4倍乘數(shù)),另一種是高估計(jì)值(假設(shè)數(shù)據(jù)集大小為10倍乘數(shù))。

本文再次使用了 DiT 來推斷 Sora。對(duì)于 DiT,最大的模型(DiT-XL)每步使用524×10^9FLOPS,DiT 使用250個(gè)擴(kuò)散步驟生成單幅圖像,總計(jì)131×10^12FLOPS。我們可以看到,在生成760萬張圖像后達(dá)到了平衡點(diǎn),之后推理計(jì)算占據(jù)了主導(dǎo)地位。作為參考,用戶每天在 Instagram 上傳大約9500萬張圖片(數(shù)據(jù)來源)。

對(duì)于 Sora,本文推斷 FLOPS 約為:524×10^9FLOPS ×30×180≈2.8×10^15FLOPS.。如果仍然假設(shè)每段視頻經(jīng)歷250次擴(kuò)散步驟,那么每段視頻的 FLOPS 總量就是708×10^15。在生成1530萬至3810萬分鐘的視頻后,就會(huì)達(dá)到平衡點(diǎn),此時(shí)所花費(fèi)的推理計(jì)算量將超過訓(xùn)練計(jì)算量。作為參考,每天約有4,300萬分鐘的視頻上傳到 YouTube。

需要注意的是,對(duì)于推理而言,F(xiàn)LOPS 并不是唯一重要的因素。例如,內(nèi)存帶寬是另一個(gè)重要因素。此外,關(guān)于如何減少擴(kuò)散步驟的數(shù)量的研究,可能會(huì)大大降低計(jì)算密集度,從而加快推理速度。FLOPS 利用率在訓(xùn)練和推理之間也會(huì)有所不同,在這種情況下,也需要考慮。

不同模型的推理計(jì)算比較

本文還對(duì)不同模型在不同模式下每單位輸出的推理計(jì)算量是如何表現(xiàn)的進(jìn)行了研究。這樣做的目的是為了了解不同類別模型的推理計(jì)算密集程度,這對(duì)計(jì)算規(guī)劃和需求有直接影響。需要強(qiáng)調(diào)的是,每個(gè)模型的輸出單位都會(huì)發(fā)生變化,因?yàn)樗鼈兪窃诓煌哪J较逻\(yùn)行的:對(duì)于 Sora,單次輸出是一段1分鐘長的視頻;對(duì)于 DiT,單次輸出是一張512x512px 的圖片;而對(duì)于 Llama2和 GPT-4,單個(gè)輸出被定義為包含1,000個(gè) token 的文本的單個(gè)文檔。

圖片

各模型每單位輸出的推理計(jì)算量比較(Sora 為1分鐘視頻,GPT-4和 LLama 為21000個(gè)文本 token,DiT 為一張512x512px 的圖片)??梢钥吹?,本文估計(jì) Sora 的推理計(jì)算成本要高出幾個(gè)數(shù)量級(jí)。

本文比較了 Sora、DiT-XL、LLama270B 和 GPT-4,并繪制了它們之間的對(duì)比圖(使用 FLOPS 的對(duì)數(shù)標(biāo)度)。對(duì)于 Sora 和 DiT,本文使用了上文的推理估計(jì)值。對(duì)于 Llama2和 GPT-4,本文使用「FLOPS =2× 參數(shù)數(shù)量 × 生成的 token 數(shù)」這一經(jīng)驗(yàn)公式估算 FLOPS 數(shù)。對(duì)于 GPT-4,本文假設(shè)該模型是一個(gè)專家混合(MoE)模型,每個(gè)專家有220B 個(gè)參數(shù),每個(gè)前向傳遞中有2個(gè)專家處于活動(dòng)狀態(tài)。不過對(duì)于 GPT-4,這些數(shù)字并未得到 OpenAI 的確認(rèn),因此仍需謹(jǐn)慎對(duì)待。

可以看到,像 DiT 和 Sora 這樣基于擴(kuò)散的模型的推理成本要高得多:DiT-XL(一個(gè)擁有675M 參數(shù)的模型)與 LLama2(一個(gè)擁有70B 參數(shù)的模型)消耗的推理計(jì)算量大致相同。我們還可以看到,在推理工作負(fù)載方面,Sora 甚至比 GPT-4更昂貴。

需要再次指出的是,上述許多數(shù)據(jù)都是估算值,依賴于簡化的假設(shè),沒有考慮到 GPU 的實(shí)際 FLOPS 利用率、內(nèi)存容量和內(nèi)存帶寬的限制以及推測解碼等高級(jí)技術(shù)。

類 sora 模型獲得顯著的市場份額之后所需的推理計(jì)算量

本節(jié)根據(jù) Sora 的計(jì)算需求推斷出了需要多少臺(tái) Nvidia H100才能大規(guī)模運(yùn)行類似 Sora 的模型,這意味著人工智能生成的視頻已經(jīng)在 TikTok 和 YouTube 等流行視頻平臺(tái)上實(shí)現(xiàn)顯著的市場滲透。

  • 假設(shè)每臺(tái) Nvidia H100每小時(shí)制作5分鐘視頻(詳見上文),換言之每臺(tái) H100每天制作120分鐘視頻。

  • TikTok :假設(shè)人工智能的滲透率為50%,則每天的視頻時(shí)長為1700萬分鐘(視頻總數(shù)為3400萬 × 平均時(shí)長為30s)

  • YouTube :每天4300萬分鐘視頻,假設(shè)人工智能的滲透率為15%(大部分為2分鐘以下的視頻)

  • 人工智能每天制作的視頻總量:850萬 +650萬 =1070萬分鐘

  • 支持 TikTok 和 YouTube 上的創(chuàng)作者社區(qū)所需的 Nvidia H100總量:1,070萬 /120≈89000

再基于以下各種因素考慮,這一數(shù)字可能有些保守:

  • 假設(shè) FLOPS 的利用率為100%,并且沒有考慮內(nèi)存和通信瓶頸。實(shí)際上,50% 的利用率更符合實(shí)際情況,即增加1倍。

  • 需求在時(shí)間上不是平均分布的,而是突發(fā)的。高峰需求尤其成問題,因?yàn)槟阈枰嗟?GPU 才能滿足所有流量的需求。本文認(rèn)為,高峰需求會(huì)使所需 GPU 的最大數(shù)量再增加1倍。

  • 創(chuàng)作者可能會(huì)生成多個(gè)候選視頻,然后從這些候選視頻中選出最佳視頻。我們做了一個(gè)保守的假設(shè),即平均每個(gè)上傳的視頻會(huì)生成2個(gè)候選視頻,這又增加了1倍。

  • 在峰值時(shí),總共需要大約720000塊 Nvidia H100GPU

這表明,隨著生成式人工智能模型變得越來越流行且實(shí)用,推理計(jì)算將占主導(dǎo)地位。對(duì)于像 Sora 這樣的基于擴(kuò)散的模型,更是如此。

還需要注意的是,擴(kuò)展模型將進(jìn)一步大大增加推理計(jì)算的需求。另一方面,其中一些問題可以通過更優(yōu)化的推理技術(shù)和跨堆棧的其他優(yōu)化方法來解決。

圖片

視頻內(nèi)容的創(chuàng)意驅(qū)動(dòng)了對(duì) OpenAI 的 Sora 等模型最直接的需求。

原文鏈接:https://www.factorialfunds.com/blog/under-the-hood-how-openai-s-sora-model-works?continueFlag=8d0858264bc384419d2c0c1cfdc7d065

分享到:
標(biāo)簽:Sora 短視頻
用戶無頭像

網(wǎng)友整理

注冊時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 52000

    網(wǎng)站

  • 12

    小程序

  • 1037587

    文章

  • 756

    會(huì)員

趕快注冊賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評(píng)定2018-06-03

通用課目體育訓(xùn)練成績評(píng)定