【ITBEAR】8月23日消息,近日,一份關(guān)于AI大模型發(fā)展趨勢(shì)及其對(duì)視頻與語音產(chǎn)業(yè)影響的專題報(bào)告引起了廣泛關(guān)注。該報(bào)告深入剖析了當(dāng)前AI大模型的演進(jìn)路徑,以及其在生成視頻和語音方面的應(yīng)用如何重塑相關(guān)產(chǎn)業(yè)格局。
報(bào)告總計(jì)22頁,詳細(xì)闡述了大模型的多個(gè)關(guān)鍵發(fā)展趨勢(shì)。其中,開源模型的迅猛發(fā)展尤為引人注目,其性能已接近甚至達(dá)到閉源產(chǎn)品的水平。例如,Llama3.1的表現(xiàn)力與GPT-4o和Claude 3.5 Sonnet不相上下,2024年以來,開源模型頻現(xiàn)且不斷刷新能力上限。同時(shí),大模型正朝著“輕量化”的方向發(fā)展,性價(jià)比顯著提升,這一趨勢(shì)吸引了眾多機(jī)構(gòu)和企業(yè)的關(guān)注。在端側(cè)模型方面,蘋果和三星等科技巨頭已開始布局AI硬件,蘋果的AI模型尤其受到人類評(píng)分者的青睞,并支持多種實(shí)用功能。
據(jù)ITBEAR了解,AI生成視頻領(lǐng)域也取得了顯著進(jìn)展。sora平臺(tái)打破了時(shí)長限制,樹立了新的行業(yè)標(biāo)準(zhǔn),并采用DiT思路展現(xiàn)了強(qiáng)大的“涌現(xiàn)”能力。自6月以來,多家團(tuán)隊(duì)相繼推出了AI視頻產(chǎn)品,標(biāo)志著該產(chǎn)業(yè)的加速發(fā)展。例如,快手的可靈產(chǎn)品多次升級(jí)并嘗試商業(yè)化運(yùn)營,智譜公司的“清影”作為大模型領(lǐng)域的新入局者,展現(xiàn)了強(qiáng)大的競(jìng)爭(zhēng)力。此外,Runway的Gen-3 Alpha在畫質(zhì)上領(lǐng)跑行業(yè),而Luma Dream Machine則憑借其豐富的3D資產(chǎn)經(jīng)驗(yàn)拓展了應(yīng)用場(chǎng)景。
在語音功能方面,GPT-4o語音為代表的技術(shù)相較于傳統(tǒng)TTS技術(shù)提供了更多信息,包括無延遲對(duì)話、理解和表達(dá)情感等。字節(jié)跳動(dòng)的Seed-TTS在表現(xiàn)力上已接近人類水平,而ChatTTS則能夠預(yù)測(cè)和控制韻律特征。在應(yīng)用端,語音功能的提升極大地增強(qiáng)了教育和情感陪伴應(yīng)用的用戶體驗(yàn)。例如,多鄰國、可汗學(xué)院和網(wǎng)易有道在教育場(chǎng)景中廣泛應(yīng)用了這些技術(shù),而Character AI則在情感陪伴方面獲得了用戶的好評(píng)。
整體上,報(bào)告看好AI技術(shù)對(duì)內(nèi)容產(chǎn)業(yè)的推動(dòng)作用,并預(yù)測(cè)未來游戲等應(yīng)用的改造、教育賽道以及情感陪伴與社交等領(lǐng)域?qū)⒂瓉硇碌陌l(fā)展機(jī)遇。以下是報(bào)告的部分節(jié)選內(nèi)容:













