(ChinaZ.com) 7月11日消息:作為人工智能領(lǐng)域的一項顯著進步,微軟 Azure 認(rèn)知服務(wù)研究中心和北卡羅來納大學(xué) NLP(自然語言處理)團隊的研究人員日前推出了 CoDi,這是一種尖端的生成模型,能夠跨多個領(lǐng)域無縫生成高質(zhì)量內(nèi)容。
圖片來自 Microsoft
這一突破性的發(fā)展為更全面地理解世界和人類理解提供了新的可能性,為沉浸式人機交互提供了平臺,改變了人類與計算機的互動方式。
這篇名為《Any-to-Any Generation via Composable Diffusion(通過可組合擴散進行任意到任意生成)》的研究論文將 CoDi 引入作為一種創(chuàng)新的生成模型,能夠同時處理和生成文本、圖像、視頻和音頻等多種模態(tài)的內(nèi)容。通過允許從不同輸入模態(tài)的多樣組合中進行協(xié)同生成內(nèi)容,CoDi 在追求集成和可組合的多模態(tài)人工智能系統(tǒng)的過程中邁出了重要一步。
CoDi 的出現(xiàn)是微軟雄心勃勃的 i-Code 項目的一部分,該項目致力于推進多模態(tài)人工智能能力的發(fā)展。憑借其無縫整合來自多種來源的信息并生成連貫輸出的能力,CoDi 有望徹底改變?nèi)藱C交互的多個領(lǐng)域。
探索 CoDi 人工智能模型的實際應(yīng)用
CoDi 在輔助技術(shù)領(lǐng)域具有變革性的潛力,使殘障人士能夠更有效地與計算機進行交互。通過在文本、圖像、視頻和音頻等多種模態(tài)下無縫生成內(nèi)容,CoDi 可以為用戶提供更沉浸、更易訪問的計算體驗。
此外,CoDi 還有潛力通過提供全面互動的學(xué)習(xí)環(huán)境來重塑定制化學(xué)習(xí)工具。學(xué)生可以接觸與各種來源整合的多模態(tài)內(nèi)容,增強對學(xué)科的理解和參與度。
環(huán)境計算的概念,即技術(shù)與我們的日常生活無縫集成,也可以從 CoDi 的能力中獲益匪淺。該模型能夠即時生成多模態(tài)內(nèi)容,為跨設(shè)備和環(huán)境的體驗創(chuàng)造更加沉浸和個性化的體驗,提升整體用戶體驗。
CoDi 也將徹底改變內(nèi)容生成。該模型能夠跨多種模態(tài)生成高質(zhì)量的輸出,從而簡化內(nèi)容創(chuàng)作流程并減輕創(chuàng)作者的負(fù)擔(dān)。無論是生成引人注目的社交媒體帖子、制作互動多媒體演示,還是打造引人入勝的故事體驗,CoDi 的能力有可能重塑內(nèi)容生成領(lǐng)域的格局。
隨著人工智能領(lǐng)域的不斷進展,像 CoDi 這樣的模型代表著多模態(tài)人工智能系統(tǒng)發(fā)展的重要里程碑。CoDi 能夠無縫生成文本、圖像、視頻和音頻的高質(zhì)量內(nèi)容,展示了打造更加身臨其境、互聯(lián)的人類人工智能未來的潛力。研究人員的工作使我們離釋放人工智能在各個領(lǐng)域的全部潛力和徹底改變我們與計算機交互的方式又近了一步。
微軟 CoDi 模型包含演示和代碼的項目頁面位于:codi-gen.github.io。