7月6日至8日,2023世界人工智能大會(huì)(WAIC 2023)于上海舉辦。在大會(huì)中,騰訊多媒體實(shí)驗(yàn)室首次發(fā)布自研AI通用作曲框架XMusic,并獲選本屆世界人工智能大會(huì)“鎮(zhèn)館之寶”,成為大會(huì)關(guān)注的焦點(diǎn)。
WAIC 2023“鎮(zhèn)館之寶”今年進(jìn)一步提升評(píng)選能級(jí),從更專(zhuān)業(yè)的行業(yè)視角出發(fā),評(píng)選出極具科技含量、商業(yè)前景、通用性與社會(huì)經(jīng)濟(jì)效益的展品。此次入選“鎮(zhèn)館之寶”的XMusic生成式通用作曲框架,基于AIGC技術(shù),用戶只需上傳視頻、圖片、文字、標(biāo)簽、哼唱等任意內(nèi)容,即可生成情緒、曲風(fēng)、節(jié)奏可控的高質(zhì)量音樂(lè),能夠大幅降低音樂(lè)創(chuàng)作的門(mén)檻。
2023世界人工智能大會(huì)鎮(zhèn)館之寶-騰訊XMusic
隨時(shí)隨地實(shí)現(xiàn)AI輔助創(chuàng)作,打造專(zhuān)屬“行走的音樂(lè)庫(kù)”
在日常生活中,用戶對(duì)使用音樂(lè)有著多種多樣的需求。比如在視頻剪輯時(shí),需要應(yīng)用多樣的配樂(lè)來(lái)讓畫(huà)面更加生動(dòng),但音樂(lè)搜索一般只能用歌曲名字、歌手名字等指向性強(qiáng)的信息來(lái)搜索,需要耗費(fèi)大量的時(shí)間精力;亦或在商超、會(huì)場(chǎng)等場(chǎng)所布置時(shí),傳統(tǒng)的環(huán)境音樂(lè)選擇容易受到版權(quán)限制,很難獲得多樣且合法的音樂(lè)素材。
面對(duì)這些難題,騰訊多媒體實(shí)驗(yàn)室自研AI通用作曲框架XMusic可以隨時(shí)隨地利用AI輔助實(shí)現(xiàn)音樂(lè)創(chuàng)作,打造個(gè)人專(zhuān)屬的“行走的音樂(lè)庫(kù)”。一張圖片、一段文字、一個(gè)視頻,甚至是一段哼唱,XMusic都能夠?qū)?yīng)生成出樂(lè)曲優(yōu)美連貫、旋律起伏明顯、節(jié)奏強(qiáng)弱交替的高質(zhì)量音樂(lè)。比如輸入“逗趣橫生,讓人捧腹大笑”的描述,XMusic就會(huì)生成一段節(jié)奏俏皮、旋律歡快的音樂(lè)。
對(duì)于視頻創(chuàng)作者而言,XMusic無(wú)疑是解決配樂(lè)難題的一大利器。除此之外,針對(duì)互動(dòng)娛樂(lè)、輔助創(chuàng)作、音樂(lè)教育、互動(dòng)娛樂(lè)、音樂(lè)治療等諸多場(chǎng)景,XMusic也有著很高的實(shí)用價(jià)值。
以場(chǎng)景音樂(lè)生成為例,XMusic的商用級(jí)音樂(lè)生成能力可以有效解決線下展廳、體驗(yàn)展、餐廳商超等場(chǎng)景中的環(huán)境音樂(lè)版權(quán)問(wèn)題,為展廳提供多樣化的公播音樂(lè),并在體驗(yàn)展中融入多種智能音樂(lè)方案,提升展廳的科技感和體驗(yàn)感。
此外,XMusic也可以發(fā)揮重要的教學(xué)輔助能力,推進(jìn)線上音樂(lè)教育的發(fā)展。比如在智慧音樂(lè)課堂中,教師可以用XMusic生成多樣的節(jié)拍、節(jié)奏、音高練習(xí)曲目,結(jié)合實(shí)際教學(xué)場(chǎng)景,發(fā)揮AI生成音樂(lè)的教學(xué)輔助能力,為學(xué)生在演奏、練耳等多種場(chǎng)景中提供個(gè)性化的指導(dǎo)和訓(xùn)練,幫助學(xué)生更快地提升音樂(lè)技能。
全面AIGC能力矩陣支撐,實(shí)現(xiàn)音樂(lè)高效精準(zhǔn)創(chuàng)作
作為WAIC 2023展區(qū)中的亮點(diǎn)之一,XMusic背后的騰訊多媒體實(shí)驗(yàn)室也受到了廣泛關(guān)注,一位熱愛(ài)音樂(lè)的科學(xué)家,帶領(lǐng)一群同樣熱愛(ài)音樂(lè)的工程師們從零到一落地了XMusic項(xiàng)目。2019年,騰訊云副總裁、騰訊多媒體實(shí)驗(yàn)室負(fù)責(zé)人、騰訊杰出科學(xué)家、IEEE Fellow 劉杉博士帶領(lǐng)實(shí)驗(yàn)室開(kāi)展“基于多模態(tài)融合的智能內(nèi)容生產(chǎn)”相關(guān)技術(shù)能力研發(fā)并逐步完善AIGC能力矩陣。
此次獲選2023WAIC“鎮(zhèn)館之寶”的騰訊多媒體實(shí)驗(yàn)室自研AI通用作曲框架XMusic,是基于自研的多模態(tài)和序列建模技術(shù),可以將提示詞內(nèi)容解析至符號(hào)音樂(lè)要素空間,并以此為控制條件引導(dǎo)模型生成豐富、精準(zhǔn)、動(dòng)聽(tīng)的音樂(lè),達(dá)到商用級(jí)的音樂(lè)生成能力要求。
騰訊多媒體實(shí)驗(yàn)室負(fù)責(zé)人、騰訊杰出科學(xué)家、IEEE Fellow劉杉博士表示,人工智能技術(shù)的飛速發(fā)展對(duì)多媒體和相關(guān)領(lǐng)域產(chǎn)生深遠(yuǎn)影響。“騰訊多媒體實(shí)驗(yàn)室將繼續(xù)代表騰訊公司推動(dòng)人工智能和多媒體及相關(guān)領(lǐng)域的國(guó)際和國(guó)家標(biāo)準(zhǔn)制定,打造音視頻、互動(dòng)沉浸和智能媒體核心能力矩陣,通過(guò)騰訊云、騰訊視頻、騰訊游戲等業(yè)務(wù)平臺(tái)服務(wù)全球海量用戶并助力各行業(yè)發(fā)展并踐行科技向善。”
多媒體實(shí)驗(yàn)室還在展區(qū)展出前沿技術(shù)方面的三個(gè)項(xiàng)目:“全景'云'游東北虎豹國(guó)家公園”通過(guò)自研技術(shù)智能影像處理和自研VR360解決方案供所有人在“云端”走進(jìn)這片山林秘境;“虛實(shí)融合技術(shù)”產(chǎn)品,可將傳統(tǒng)虛擬制片的成本與難度大幅降低,無(wú)需傳感器,只通過(guò)一臺(tái)相機(jī)或手機(jī),就可將自己植入到虛擬世界中;“騰訊水墨畫(huà)”產(chǎn)品融合了視覺(jué)、音樂(lè)、文字等多種模態(tài),結(jié)合山水畫(huà)創(chuàng)作、智能作詩(shī)、音樂(lè)生成等多種技術(shù)能力,形成了多模態(tài)融合且能互動(dòng)娛樂(lè)的完整技術(shù)方案。
騰訊多媒體實(shí)驗(yàn)室專(zhuān)注于多媒體和相關(guān)領(lǐng)域的前沿技術(shù)探索、產(chǎn)品研發(fā)和應(yīng)用落地,其行業(yè)領(lǐng)先的視頻圖片壓縮和處理引擎、沉浸式VR系統(tǒng)和智能媒體能力矩陣,通過(guò)騰訊云、騰訊視頻、騰訊游戲等業(yè)務(wù)平臺(tái)服務(wù)全球海量用戶并助力傳媒、文化、旅游等行業(yè)的發(fā)展。同時(shí)代表騰訊參與多個(gè)國(guó)際及國(guó)家標(biāo)準(zhǔn)制定,數(shù)十人次擔(dān)任聯(lián)合主席、主編等核心職務(wù),數(shù)百項(xiàng)技術(shù)提案被國(guó)際標(biāo)準(zhǔn)采納,榮獲工程艾美獎(jiǎng)、技術(shù)盧米埃獎(jiǎng)、ISO/IEC杰出貢獻(xiàn)獎(jiǎng)等,享有國(guó)際盛譽(yù)。
未來(lái),騰訊多媒體實(shí)驗(yàn)室將以創(chuàng)新的視角和前瞻的思維,不斷探索多媒體技術(shù)與AIGC能力的融合,拓展多領(lǐng)域的應(yīng)用場(chǎng)景,為用戶提供更加智能、便捷和豐富的多媒體體驗(yàn)。