近期,科技界迎來了一則重磅消息,谷歌正式揭曉了其Gemini思考模型家族的最新力作——Gemini 2.5 Pro實驗版。這款模型一經(jīng)面世,便以卓越表現(xiàn)震驚業(yè)界,在多項基準測試中力壓群雄,包括OpenAI的o3-mini、Claude 3.7 Sonnet、Grok-3及DeepSeek-R1,以1443分的高分榮登大模型競技場榜首,領(lǐng)先第二名多達39分。
值得注意的是,盡管Gemini 2.5 Pro在多項測試中展現(xiàn)出強大實力,但谷歌并未提供它與OpenAI更早版本模型,如o1、o1-Pro及o3的直接對比數(shù)據(jù)。在智能體編程評估基準SWE-bench verified上,它的表現(xiàn)略遜于Claude 3.7 Sonnet。
然而,Gemini 2.5 Pro的輝煌成就遠不止于此。它不僅在大模型競技場這一衡量人類偏好的平臺上獨占鰲頭,還在編程、數(shù)學及科學基準測試中占據(jù)領(lǐng)先地位,尤其是在被譽為“人類最后考試”的超高難度測試中,相較于OpenAI o3-mini,其得分提升了近5%,提升幅度高達34%。更令人興奮的是,該模型現(xiàn)已支持100萬tokens的上下文窗口,并計劃不久的將來擴展至200萬tokens。
目前,開發(fā)者們已能在谷歌AI Studio平臺上體驗到Gemini 2.5 Pro的魅力,而普通用戶則需擁有Gemini Advanced訂閱賬號方能一探究竟。據(jù)悉,谷歌將在未來幾周內(nèi)公布該模型的定價策略,屆時用戶將有機會利用這一高性能模型進行大規(guī)模商用。
為了直觀展示Gemini 2.5 Pro的強大功能,谷歌DeepMind在其YouTube頻道上發(fā)布了一系列演示視頻,生動呈現(xiàn)了其編程能力與其他領(lǐng)域的深度融合。例如,該模型能夠根據(jù)用戶指令,在p5.js中探索曼德博集合,生成邊緣清晰、色彩過渡平滑的可視化效果。它還能根據(jù)提示詞創(chuàng)建互動式圖表,將人均GDP與健康數(shù)據(jù)巧妙結(jié)合,揭示兩者之間的微妙關(guān)系。
在編程領(lǐng)域,Gemini 2.5 Pro同樣展現(xiàn)出了非凡實力。無論是創(chuàng)建美觀的Web應(yīng)用,還是在智能體編程、代碼轉(zhuǎn)換與編輯任務(wù)中,它都表現(xiàn)出色。盡管在SWE-bench verified基準測試中,其得分低于Claude 3.7 Sonnet,但采用定制智能體配置仍取得了63.8%的亮眼成績。
作為Gemini模型家族的一員,Gemini 2.5 Pro繼承了原生多模態(tài)處理能力和超長上下文窗口的優(yōu)勢。目前,它能夠處理高達100萬tokens的上下文信息,并即將升級至200萬tokens,這意味著它將能夠解析更為復(fù)雜的數(shù)據(jù)集,處理來自文本、音頻、圖像、視頻乃至完整代碼庫等多元信息源的挑戰(zhàn)。

Gemini 2.5 Pro的發(fā)布與DeepSeek-V3新版本的問世幾乎同時發(fā)生,兩者都不約而同地提升了在編程、審美、數(shù)學等方面的能力,并將其作為核心亮點進行展示。這一趨勢表明,AI編程能力的提升已成為大模型廠商競相追逐的新前線,不僅將為用戶帶來更為直觀的使用體驗變化,更有望在生產(chǎn)場景中實現(xiàn)顯著的效益提升。






