亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

點(diǎn)擊這里在線咨詢客服

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會員：747

首頁 > 新聞資訊 > IT業(yè)界 >正文

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

發(fā)布時(shí)間：2024-01-21 21:03:13 作者：網(wǎng)友整理

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

新智元報(bào)道

編輯：Aeneas

【新智元導(dǎo)讀】GPT-4V的開源替代方案來了！極低成本，性能卻類似，清華、浙大等中國頂尖學(xué)府，為我們提供了性能優(yōu)異的GPT-4V開源平替。

如今，GPT-4 Vision在語言理解和視覺處理方面展現(xiàn)出了非凡的能力。

然而，如果想在不影響性能的前提下，尋求具有成本效益的替代方案，開源方案就蘊(yùn)藏著無限可能。

國外的一位開發(fā)者Youssef Hosni為大家奉上了三種GPT-4V的開源替代方案，可訪問性絕對可以保障。

三種開源視覺語言模型LLaVa、CogAgent和BakLLaVA，在視覺處理領(lǐng)域具有極大的潛力。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

LLaVa

LLaVA是端到端訓(xùn)練的多模態(tài)大模型，來自威斯康星大學(xué)麥迪遜分校、微軟研究院以及哥倫比亞大學(xué)的研究人員，最初的版本在4月發(fā)布。

它將視覺編碼器和用于通用視覺和語言理解的Vicuna 結(jié)合在?起，實(shí)現(xiàn)了令人印象深刻的聊天能力。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

10月份，升級后的LLaVA-1.5的表現(xiàn)已經(jīng)接近多模態(tài)GPT-4，在Science QA數(shù)據(jù)集上取得了SOTA。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

13B模型的訓(xùn)練，只需要8個A100就可以在1天內(nèi)完成。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

可以看到，LLaVA能處理各類問題，且生成的回答既全面又富有邏輯。

LLaVA表現(xiàn)出一些接近GPT-4水平的多模態(tài)能力，在視覺聊天方面，GPT-4相對評分85%。

而在推理問答方面，LLaVA甚至達(dá)到了新SoTA——92.53%，擊敗多模態(tài)思維鏈。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

在視覺推理上，它的表現(xiàn)十分搶眼。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

提問：「如果有事實(shí)性錯誤，請指出來。如果沒有，請告訴我，沙漠中正在發(fā)生什么？」

LLaVA還無法完全回答正確。

升級后的LLaVA-1.5給出了完美答案：「圖中根本沒有沙漠，有的是棕櫚樹海灘、城市天際線和一大片水域。」

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

另外，LLaVA-1.5還可以從圖中提取信息，按照要求的格式進(jìn)行回答，比如以JSON格式輸出。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

給LLaVA-1.5一張滿是水果蔬菜的圖片，它也能像GPT-4V一樣，把圖片轉(zhuǎn)化JSON。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

下面這幅圖是什么意思？

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

這是一張根據(jù)諾蘭《盜夢空間》繪制的簡化草圖，為了提高難度，角色名字被改成了假名。

LLaVA-1.5驚艷答出：「這是一張關(guān)于電影《盜夢空間》的圖。它顯示了夢境世界中的不同層次，每一層次用一條線表示。圖寫在一張紙上，紙放在一個臺面上。」

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

一張食物圖直接發(fā)給LLaVA-1.5，它火速就給你生成一份菜譜。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

而且，LLaVA-1.5不用「越獄」就可以識別出驗(yàn)證碼。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

它還能檢測出，圖中是哪種硬幣。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

尤為令人印象深刻的是，LLaVA-1.5還能告訴你圖中的汪星人是什么品種。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

有網(wǎng)友用Bing生成了一張?jiān)陉柟饷髅牡南募竞┥洗┲就馓椎哪腥说膱D片，并請LLaVA 1.5指出圖中有哪些問題。它的慧眼十分犀利——

這是一張經(jīng)過處理或PS的照片，照片中一名男子穿著夾克，站在海灘上。該男子敞開外套，陽光照在他身上。這張圖片的問題在于，它并非真實(shí)的海灘場景。該男子實(shí)際上并沒有站在沙灘上，陽光也沒有照在他身上。這張圖是p出來的，營造出了一種海灘場景的假象，但它并沒有真實(shí)地再現(xiàn)這個場景。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

OCR識別，LLaVA的性能也很強(qiáng)大。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

CogAgent

CogAgent是在CogVLM基礎(chǔ)上改進(jìn)的開源視覺語言模型，來自清華的研究者。

CogAgent-18B有110億個視覺參數(shù)，和70億個語言參數(shù)。

論文地址：https://arxiv.org/pdf/2312.08914.pdf

在9個經(jīng)典的跨模態(tài)基準(zhǔn)（包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE）上，CogAgent-18B實(shí)現(xiàn)了最先進(jìn)的通用性能。

在AITW和Mind2Web等圖形用戶界面操作數(shù)據(jù)集上，它大大超過了現(xiàn)有模型。

除了CogVLM已有的所有功能（可視化多輪對話、可視化接地）外，CogAgent.NET還提供了更多的功能：

1.支持更高分辨率的視覺輸入和對話答題。支持1120x1120的超高分辨率圖像輸入。

2.具備可視化代理的能力，能夠在任何圖形用戶界面截圖上返回任何給定任務(wù)的計(jì)劃、下?步行動和帶有坐標(biāo)的具體操作。

3.增強(qiáng)了與圖形用戶界面相關(guān)的問題解答功能，使其能夠處理與網(wǎng)頁、PC應(yīng)用程序、移動應(yīng)用程序等任何圖形用戶界面截圖相關(guān)的問題。

4.通過改進(jìn)預(yù)培訓(xùn)和微調(diào)，增強(qiáng)了OCR相關(guān)任務(wù)的能力。

圖形用戶界面代理（GUI Agent）

利用CogAgent，它可以幫我們一步步找到CVPR23的最佳論文。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

可以幫我們把手機(jī)顯示調(diào)成明亮模式。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

這條推文有多少轉(zhuǎn)評贊，為什么如此受歡迎，CogAgent都能分析出來，甚至連回復(fù)一個“Brilliant”，它都能操作。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

從弗羅里達(dá)大學(xué)到好萊塢，怎樣選擇最快的路線？如果從早上8點(diǎn)出發(fā)，該如何評估需要花多長時(shí)間？CogAgent都可以回答。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

可以設(shè)定特定的主題，讓CogAgent往指定的郵箱里發(fā)郵件。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

想聽一首<You raise me up>，CogAgent可以一步步列出步驟。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

CogAgent能精準(zhǔn)地描述出《原神》中的畫面，還能引導(dǎo)你如何走到傳送點(diǎn)。

GPT-4V開源平替！清華浙大領(lǐng)銜，LLaVA等開源視覺模型大爆發(fā)

BakLLaVA

BakLLaVA1是使用LLaVA 1.5架構(gòu)增強(qiáng)的Mistral 7B基礎(chǔ)模型。

在第?個版本中，Mistral 7B基礎(chǔ)模型在多個基準(zhǔn)測試中優(yōu)于Llama 2 13B。

在他們的repo中，就可以運(yùn)行BakLLaVA-1了。頁面還在不斷更新中，以方便微調(diào)和推理。(https://Github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1是完全開源的，但在某些數(shù)據(jù)上進(jìn)行了訓(xùn)練，其中包括LLaVA的語料庫，因此不允許商用。

BakLLaVA 2采用了更大的數(shù)據(jù)集和更新的架構(gòu)，超越了當(dāng)前的LLaVa方法。BakLLaVA擺脫了BakLLaVA-1的限制，可以商用。

參考資料：

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5

分享到：

標(biāo)簽：GPT

網(wǎng)友整理

注冊時(shí)間：

網(wǎng)站：5 個小程序：0 個文章：12 篇

51998
網(wǎng)站
12
小程序
1030137
文章
747
會員

趕快注冊賬號，推廣您的網(wǎng)站吧！

文章分類

熱門網(wǎng)站

各百科-專業(yè)百科問答知識名網(wǎng)站 m.geelcn.com
免費(fèi)軟件,綠色軟件園,手機(jī)軟件下載,熱門游戲下載中心-中當(dāng)網(wǎng) m.deelcn.com
魔扣科技 www.430618.com
體育新聞_國際體育資訊_全球體育賽事-中名網(wǎng) www.feelcn.com/tiyu/tiyuxinwen/
食品安全_健康飲食_舌尖上的安全-中名網(wǎng) www.feelcn.com/shenghuo/shipinanquan/
中合網(wǎng) www.heelcn.com
中當(dāng)網(wǎng) www.deelcn.com
魔扣網(wǎng)站維護(hù)代運(yùn)營 www.430618.com/tg
中合網(wǎng)-健康養(yǎng)生知識科普名站 m.heelcn.com
各百科 www.geelcn.com

最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲，玩家需要根據(jù)9

答題星

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試

全階人生考試2018-06-03

各種考試題，題庫，初中，高中，大學(xué)四六

運(yùn)動步數(shù)有氧達(dá)人

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動步數(shù)，積累氧氣值。還可偷

每日養(yǎng)生app

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定

熱門文章