通義千問系列近期宣布了一項(xiàng)重大開源舉措,推出了一款名為Qwen-Image的圖像生成基礎(chǔ)模型。這款模型擁有20億參數(shù),采用了先進(jìn)的多模態(tài)擴(kuò)散變換器(MMDiT)技術(shù),不僅在復(fù)雜文本渲染和精確圖像編輯領(lǐng)域取得了重大突破,還在多個(gè)行業(yè)基準(zhǔn)測(cè)試中展現(xiàn)了卓越的性能。
Qwen-Image以其卓越的文本渲染能力尤為引人注目。它能夠支持多行布局和段落級(jí)文本生成,并能在細(xì)節(jié)呈現(xiàn)上達(dá)到極高的保真度。無論是英文還是中文,Qwen-Image都能游刃有余。例如,在渲染宮崎駿風(fēng)格的動(dòng)漫場(chǎng)景時(shí),無論是店鋪的牌匾、人物的姿勢(shì)神態(tài),還是酒缸上的微小文字,Qwen-Image都能精準(zhǔn)捕捉并完美呈現(xiàn)。在中文對(duì)聯(lián)的生成中,它不僅準(zhǔn)確繪制了對(duì)聯(lián)的左右聯(lián)和橫批,還巧妙融入了書法元素,令人贊嘆不已。
在英文文本渲染方面,Qwen-Image同樣表現(xiàn)出色。無論是書店櫥窗的展示信息,還是復(fù)雜的信息圖表,它都能準(zhǔn)確無誤地生成文本,并將其巧妙融入整體設(shè)計(jì)之中,展現(xiàn)出高度的藝術(shù)性和信息傳達(dá)能力。尤其在處理不同大小和數(shù)量的文字時(shí),Qwen-Image都能保持高度的清晰度和準(zhǔn)確性,如生成手中紙張上的長(zhǎng)段文字,或在玻璃板上呈現(xiàn)完整的手寫體段落。
除了文本渲染外,Qwen-Image在圖像編輯領(lǐng)域也展現(xiàn)出了非凡的實(shí)力。通過增強(qiáng)的多任務(wù)訓(xùn)練范式,它能夠在編輯過程中保持高度的一致性,支持風(fēng)格遷移、物體增減、細(xì)節(jié)增強(qiáng)以及人物姿態(tài)調(diào)整等多種操作。這使得普通用戶也能輕松實(shí)現(xiàn)專業(yè)級(jí)的圖像編輯效果,極大地降低了視覺內(nèi)容創(chuàng)作的門檻。
目前,Qwen-Image已在魔搭社區(qū)、Hugging Face和GitHub等平臺(tái)開源,并提供了詳盡的技術(shù)報(bào)告和演示示例。用戶可以通過訪問QwenChat的“圖像生成”功能,親身體驗(yàn)這款強(qiáng)大模型的出色表現(xiàn)。對(duì)于感興趣的開發(fā)者和研究者來說,ModelScope、Hugging Face和GitHub上的相關(guān)鏈接提供了豐富的資源和信息。
想要了解更多關(guān)于Qwen-Image的信息或親自體驗(yàn)其強(qiáng)大功能,請(qǐng)?jiān)L問以下鏈接:
ModelScope: https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face: https://huggingface.co/Qwen/Qwen-Image
GitHub: https://github.com/QwenLM/Qwen-Image
Demo展示: https://modelscope.cn/aigc/imageGeneration?tab=advanced






