1. Sora?是啥意思?有啥含義沒?
Sora 在日語中是“天空”的意思,引申含義還有“自由”。
Sora 介紹頁丨AI target=_blank class=infotextkey>OpenAI
在 Sora 官方介紹頁里,你能看到在無數(shù)空中自由飛翔的紙飛機。它們看起來行動自主、探索自由,如果 OpenAI 最終造成 AGI(通用人工智能),應(yīng)該就是如此希冀的吧。
Sora 是一個 AI 視頻模型,你光打一串文字,就能生成一個以假亂真的純 AI 原創(chuàng)視頻。除此之外,你還可以輸入圖片轉(zhuǎn)成視頻,用視頻再轉(zhuǎn)成新的視頻……
僅僅只有 AI 生成視頻樣片以及技術(shù)論文的釋出,Sora 已經(jīng)在傳播層面引發(fā)“地震”,不少人高呼影視行業(yè)變天了,有人甚至把美國電影工業(yè)的象征好萊塢改成了這樣:
2. 人們吹爆它“炸裂”、“史詩級”、“現(xiàn)實不存在了”,根據(jù)是啥?
最直觀的,有些樣片太真實了——人物的臉沒那么“恐怖谷”,物體運動軌跡也很自然,畫面的清晰度和順暢程度,都像我們用手里的設(shè)備拍出來:
這太像我們用 GoPro 手持拍攝的畫面了丨Sora
相比競品,Sora 是“滅霸”級別。之前主流的 AI 生成視頻都在 4 到 16 秒,還“卡成 PPT”,而 Sora 彎道超車,直接將時長拉到 60 秒。后者的畫面表現(xiàn),已經(jīng)媲美視頻素材庫,放進視頻當(dāng)空鏡完全可行。
這讓人們懵圈,只能感慨技術(shù)的發(fā)展有跡可循,技術(shù)的突破節(jié)點卻較難預(yù)測。
3. 都嚷嚷著行業(yè)變天,人類下崗,Sora 除了第一眼好,還有啥驚人玩法?
多機位:
Sora 生成
自然融合兩種完全不相干的場景:
Sora 生成
視頻還可以往前擴展,向后擴展;如果你對視頻的局部(比如背景)不滿意,直接更換就可以了。
Sora 還能直接以文生圖,甚至還可以將圖片轉(zhuǎn)成動態(tài)視頻,而且還不是目前流行的“小動物跳舞”呈現(xiàn)的粗糙效果:
Sora 生成
4. 把《三體》輸進去,能直接出片嗎?
我知道你很急,但你先別急。
首先,目前就 Sora 所呈現(xiàn)的,雖然有多機位效果,但都是單一情節(jié)單一鏡頭。
而《三體》有多人視角,敘事復(fù)雜,靠 AI 生成一條龍搞定并不現(xiàn)實。據(jù)一些影視行業(yè)從業(yè)者所說,目前 AI 生成雖然高效,但可控性不夠,目前主要用在 demo 制作、概念設(shè)計、分鏡編排等環(huán)節(jié)。
5. 看到這里,你有一個大膽的想法?
打住!
OpenAI 正在評估 Sora 被濫用的風(fēng)險,所以目前還沒開放給公眾,只給一批在誤導(dǎo)信息、仇恨內(nèi)容和偏見等領(lǐng)域的專家,以及創(chuàng)意人士使用。
6. 每次技術(shù)狂潮,打工人都最先焦慮,這次咋整?
記住一點,販賣焦慮的,都是為了賺你的錢。雖然 Sora 都還沒公測呢,但已經(jīng)有人開始賣付費教程了。
目前的 Sora 也有“翻車”生成,如果這個能安慰到你的話丨Sora
AI 技術(shù)推陳出新太快了,你剛在 Pika 上學(xué)了幾個月怎么寫提示詞,結(jié)果“滅霸”Sora 出現(xiàn),此前積累的工具經(jīng)驗可能瞬間失效……既然如此,不如先別沉迷研究工具,而是在底層創(chuàng)作上多加操練?
7. 我對被取代恐懼,對 AI 變得更黑箱也害怕
繼文字(GPT 系列)以及畫像(DALL·E)后,OpenAI 這次又在視頻賽道“遙遙領(lǐng)先”……但這家將 AI 安全奉為初心的公司,在技術(shù)公開上卻越來越不 open 了,有人戲稱其為“ClosedAI”。
這次 Sora 發(fā)布,OpenAI 現(xiàn)任 CEO Sam Altman 在 X 上“在線接單”,幫網(wǎng)友生成視頻,結(jié)果有人給了這樣的提示詞,guess what,Sam 拉黑了他。
8. 以后真分不清現(xiàn)實和 AI 生成了嗎?
眼下有人讓 Gemini 1.5 觀看并分析以下這個 Sora 生成視頻,Gemini 指出:
Sora 生成
- 櫻花一般在春天開放,那時不下雪;
- 雪下得太均勻了;
- 雖然是下雪天,但人穿得很單薄。
于是,AI 判定這個不是真實影像。還得用魔法打敗魔法啊!
9. 為什么就 OpenAI 做出來了?
因為 OpenAI 有 GPT 和 DALL·E 的成功經(jīng)驗,在以往的技術(shù)范式之上,他們做出了新東西:不僅可以理解用戶在提示中提出的要求,還能理解它們在物理世界中的存在方式。
生成視頻效果如此好,也因為 Sora 能更好地理解用戶給的提示詞,OpenAI 是怎么做的呢?根據(jù)官方的說法,他們利用 DALL·E 3 的 re-captioning 功能,給訓(xùn)練用的視頻素材都加上了高質(zhì)量文本描述,表示這樣可以提高輸出視頻的整體質(zhì)量。另外,你給的簡短描述詞,AI 收到后會進一步擴寫,再交由 Sora 生成。
更重要的是,Sora 是一個 Diffusion Transformer,Transformers 被證明可以在語言建模、計算機視覺和圖像生成等都能有極好性能。
10. 視頻模型的訓(xùn)練很燒算力吧,OpenAI 耗得起嗎?
大概一周前,Sam Altman 宣布 OpenAI 啟動“造芯”計劃,因為目前 OpenAI 每天生成約 1000 億個單詞,需要大量的 GPU(圖形處理器)芯片進行訓(xùn)練計算。
他希望籌得 7 萬億美元。
Unsplash
這個天文數(shù)字,不僅相當(dāng)于全球 GDP 的 10%,等同于 2.5 個微軟、3.75 個谷歌、4 個英偉達、7 個 Meta,以及 11.5 個特斯拉的市值。
整理:malt
編輯:臥蟲