(ChinaZ.com) 5月9日消息:OpenAI 最近分享了他們?cè)趯⑽谋咎崾巨D(zhuǎn)化為 3D 物體方面的最新探索,名為 Shap-E。這款生成式 AI 工具提供了一種新的方式來(lái)生成 3D 物體,其制作的物體比去年發(fā)布的 Point-E 模型更好、更詳細(xì)、更準(zhǔn)確。
截自Shap-E GitHub 頁(yè)面
OpenAI 構(gòu)建了 Shap-E 作為文本到 3D 模型生成器,能夠生成細(xì)粒度紋理和復(fù)雜的詳細(xì)形狀。而 Point-E 根據(jù)文本提示生成 3D 點(diǎn)云,Shap-E 直接創(chuàng)建物體的輪廓,并采用了名為神經(jīng)輻射場(chǎng)(NeRFs)的特性來(lái)克服之前模型的模糊性。NeRFs 是虛擬和增強(qiáng)現(xiàn)實(shí)中使用的技術(shù),可以使三維場(chǎng)景看起來(lái)像是真實(shí)照片一樣。
Shap-E 將這項(xiàng)技術(shù)應(yīng)用于更常見(jiàn)的擴(kuò)散模型,以形成與文本提示所建議的物體形狀和紋理。該過(guò)程也比 Point-E 快得多。在單個(gè) NVIDIA V100 GPU 上,集合中的每個(gè) Shap-E 樣本生成時(shí)間約為 13 秒,而 Point-E 在相同硬件上渲染可能需要多達(dá)兩分鐘的時(shí)間。
研究人員解釋道:「我們發(fā)現(xiàn),在相同的數(shù)據(jù)集、模型架構(gòu)和訓(xùn)練計(jì)算資源的條件下,Shap·E 與類似的顯式生成模型相匹配或超越其性能。我們還發(fā)現(xiàn),我們的純文本條件模型可以生成多樣化、有趣的物體,而無(wú)需依賴圖像作為中間表示。這些結(jié)果突顯了生成隱式表示的潛力,特別是在像三維領(lǐng)域這樣的領(lǐng)域,隱式表示比顯式表示更具靈活性?!?/p>
Shap-E 的開(kāi)發(fā)者承認(rèn),與 Point-E 的點(diǎn)云方法相比,大規(guī)模使用的計(jì)算能力可能較高。這款 AI 在理解如何制作一些復(fù)雜物體方面仍然存在困難,但總體而言,其結(jié)果在成功方面非常顯著。