中國(guó)電信在多媒體與人工智能的交叉領(lǐng)域取得了突破性進(jìn)展,這一成就獲得了國(guó)際認(rèn)可。中國(guó)電信云計(jì)算研究院的常建慧博士所撰寫的論文《基于擴(kuò)散先驗(yàn)的生成式圖像編碼》在IEEE國(guó)際多媒體與博覽會(huì)議(ICME 2025)上榮獲“最佳論文獎(jiǎng)”。該論文提出了一種創(chuàng)新的思路,將擴(kuò)散模型應(yīng)用于生成式圖像編碼領(lǐng)域,有效打破了傳統(tǒng)方法在壓縮效率與圖像重建質(zhì)量之間的權(quán)衡難題。
生成式圖像和視頻編碼技術(shù)的突破,正引領(lǐng)通信系統(tǒng)從“傳輸數(shù)據(jù)”的傳統(tǒng)模式向“重建體驗(yàn)”的全新階段轉(zhuǎn)變。這不僅僅意味著壓縮率的提升,更重要的是,它能夠在極小的傳輸負(fù)載下,還原出高質(zhì)量的視覺(jué)內(nèi)容。常建慧博士在接受采訪時(shí),詳細(xì)闡述了此次技術(shù)突破的應(yīng)用價(jià)值和廣闊前景。
傳統(tǒng)圖像編碼技術(shù)在面對(duì)自然圖像與AI生成圖像的復(fù)雜混合時(shí),面臨著諸多挑戰(zhàn)。早期基于GAN和VAE的生成式編碼技術(shù),在控制力、穩(wěn)定性和重建質(zhì)量上存在一定的局限性。而近年來(lái),擴(kuò)散模型在圖像生成領(lǐng)域展現(xiàn)出了強(qiáng)大的能力,為圖像壓縮帶來(lái)了新的可能性。然而,現(xiàn)有的基于擴(kuò)散模型的圖像生成方法多由文本引導(dǎo),雖然能夠生成高質(zhì)量的圖像,但在保真度方面仍有不足,容易出現(xiàn)偏色、變形等問(wèn)題,難以滿足通信系統(tǒng)對(duì)編碼的“可控、穩(wěn)定、可還原”要求。
常建慧博士的研究團(tuán)隊(duì)提出的基于擴(kuò)散模型先驗(yàn)的生成式編碼框架,其核心在于將“生成能力”轉(zhuǎn)化為“可控的壓縮系統(tǒng)”。這一框架使模型在低碼率下仍能傳達(dá)明確有效的控制信號(hào),確保重建結(jié)果符合壓縮器的“指令”,從而在低碼率區(qū)間顯著提升了感知保真度。該框架采用通用編碼器與插件式適配器相結(jié)合的架構(gòu),并引入變碼率機(jī)制,支持多碼率壓縮與靈活對(duì)接多種預(yù)訓(xùn)練擴(kuò)散模型,從AIGC到自然圖像,再到特定領(lǐng)域的內(nèi)容,都表現(xiàn)出強(qiáng)大的適配性。
科研之路往往充滿挑戰(zhàn),這項(xiàng)技術(shù)的萌芽始于常建慧博士求學(xué)期間的思考與探索。她一直在尋求讓生成模型參與圖像壓縮的方法,雖然早期成果在細(xì)節(jié)保真和泛化能力上仍有瓶頸,但擴(kuò)散模型的發(fā)展為這一難題提供了新的解決方案。然而,從想法到可用方案的過(guò)程中,團(tuán)隊(duì)面臨著壓縮器表達(dá)能力與生成器可控性的雙重挑戰(zhàn)。經(jīng)過(guò)多輪嘗試與調(diào)整,團(tuán)隊(duì)最終引入了“變碼率編碼器+適配器+融合引導(dǎo)”的結(jié)構(gòu),成功建立了壓縮與生成之間的協(xié)同機(jī)制。
加入中國(guó)電信云計(jì)算研究院后,常建慧博士得到了強(qiáng)大的算力與實(shí)驗(yàn)條件支持。經(jīng)過(guò)反復(fù)實(shí)驗(yàn)與模型優(yōu)化,該方案逐漸趨于穩(wěn)定。研究院獨(dú)特的科研氛圍也為她提供了廣闊的發(fā)展空間,她與團(tuán)隊(duì)成員共同努力,不斷突破技術(shù)難關(guān),最終使這項(xiàng)技術(shù)得以成型并獲得了國(guó)際認(rèn)可。
這項(xiàng)技術(shù)的應(yīng)用前景廣闊,特別是在帶寬敏感或存儲(chǔ)成本高的場(chǎng)景中。例如,在醫(yī)療影像等冷數(shù)據(jù)圖像的長(zhǎng)期備份中,生成式編碼可以在極低碼率下保留結(jié)構(gòu)與感知細(xì)節(jié),有望大幅降低存儲(chǔ)開銷。然而,要實(shí)現(xiàn)規(guī)模化落地,還需在推理效率、系統(tǒng)集成能力和生態(tài)標(biāo)準(zhǔn)建設(shè)等方面取得突破。
中國(guó)電信云計(jì)算研究院計(jì)劃將該技術(shù)進(jìn)一步拓展到視頻編碼中,并探索多模態(tài)任務(wù)和多模態(tài)模型的應(yīng)用。常建慧博士表示,生成式編碼是一項(xiàng)面向未來(lái)的“通用視覺(jué)通信能力”,它將支撐泛在云向更智能、更高效、更感知驅(qū)動(dòng)的方向演進(jìn)。未來(lái),該技術(shù)有望在邊緣端降低圖像/視頻的回傳成本,提升算網(wǎng)協(xié)同效率;在中心云支持大規(guī)模感知優(yōu)先型視覺(jué)內(nèi)容的托管、分發(fā)與歸檔;在泛在場(chǎng)景中構(gòu)建出“生成驅(qū)動(dòng)”的新型通信機(jī)制。
中國(guó)電信云計(jì)算研究院已與天翼云、天翼視聯(lián)公司進(jìn)行了初步溝通,探討可能的落地應(yīng)用場(chǎng)景。未來(lái),這一創(chuàng)新技術(shù)將不僅局限于“云”領(lǐng)域,還將延伸至視聯(lián)網(wǎng)等更廣泛的領(lǐng)域,為“AI+通信”的融合浪潮注入新的活力。在團(tuán)隊(duì)的共同努力下,那些曾經(jīng)制約實(shí)踐的“不可能”正被一一擊破,中國(guó)電信的創(chuàng)新者正以扎實(shí)的根技術(shù),實(shí)踐著從“0”到“1”的突破。






