沒想到,擁有“AI”后的世界已經(jīng)發(fā)展成這樣了!
自從去年ChatGPT面世后,今年5月谷歌也坐不住了,宣布要搞AI大模型,但由于種種原因,一直等到大半年后的今天,才正式發(fā)布了新一代大語言模型“Gemini”。
谷歌出手,就是不同凡響,雖然步子慢了,但成果很“硬核”。在官方演示中,Gemini可以非常自如地在圖像、音頻、視頻各模態(tài)之間轉(zhuǎn)換,其能力也讓人刮目相看,例如根據(jù)一張地圖和表情符號,就能設(shè)計出“猜國家”游戲;或者根據(jù)文字和圖像,猜出是哪部電影......
這還不夠,它還會教人念中文并區(qū)分四個聲調(diào),甚至能手把手教你做飯,有種上班是老師,下班秒變“小廚師”的感覺,任誰看了不直呼一句“厲害”!
難怪谷歌官方稱,Gemini是谷歌迄今為止“最大、最全能的AI模型”,它能夠進行更復雜的推理,理解更加細微的信息,甚至像人一樣理解周圍的世界。換句話說,它比之前任何技術(shù)都要牛!廢話不多說,下面我們就來看看,這個AI大模型有多厲害。
長話短說,谷歌將Gemini定義為一款“原生多模態(tài)”模型!直白點解釋就是,Gemini一出廠就是“全科發(fā)展”,多種感官在模型內(nèi)統(tǒng)一學習,而不是單獨學習再拼接到一起。
這里拿出OpenAI做典型,OpenAI的GPT-3.5一開始是純文字大語言模型,直到GPT-4才安排了視覺等多模態(tài)能力,這種組裝拼接吧,就好比先學了語文再學數(shù)學,極大可能帶來“偏科”問題。
但全面發(fā)展的Gemini就不同,它從第一天起就設(shè)計成原生多模態(tài)結(jié)構(gòu),相當于“所有科目一起學”,用谷歌的話講,它能無縫理解、操作不同類型的信息,包括文本、代碼、音頻、圖像和視頻等,不需要額外轉(zhuǎn)換,各種模態(tài)的性能也更為平衡。
這里再舉個簡單的例子:同樣是要理解圖像信息,像GPT-4這樣的非原生多模態(tài)結(jié)構(gòu)模型,需要先借助OCR(光學字符識別技術(shù))先“認出來”圖里是什么——轉(zhuǎn)成文本,再放到語言模型中進行語義理解。而Gemini能基于圖像馬上進行理解,這種端到端的理解,不會讓信息在“轉(zhuǎn)錄”過程中丟失。
這樣一對比,想必大家就都懂了。
看來,谷歌稱Gemini超越了GPT-4,還真不是瞎吹牛!值得一提的是,谷歌這次一口氣提供了Gemini的三個尺寸模型:Gemini Ultra、Gemini Pro、Gemini Nano ,并分別對其進行了優(yōu)化。
其中,Gemini Ultra版本功能最強大,能夠完成高度復雜的任務(wù),主要面向數(shù)據(jù)中心和企業(yè)級應(yīng)用;Gemini Pro則是性能最好的模型,可以執(zhí)行多種任務(wù),將通過谷歌的類ChatGPT聊天機器人Bard,為眾多谷歌AI服務(wù)提供支持,加持谷歌的Gmail、Maps Docs和YouTube等服務(wù)。
最后就是Gemini Nano,這是最高效的模型,用于設(shè)備端任務(wù),可以在Android/ target=_blank class=infotextkey>安卓設(shè)備上本地和離線運行。按照谷歌所說,該模型將首次內(nèi)置于谷歌手機Pixel 8 Pro上,支持錄音自動摘要、鍵盤智能回復兩項功能,未來預(yù)計將更多功能置于安卓手機離線運行。
鍵盤自動生成回復語▲
整體來看,Gemini的多樣化設(shè)計,使其能夠在各種設(shè)備上運行,從手機到大型數(shù)據(jù)中心均適用,其優(yōu)勢顯而易見。話雖這么說,但紙上談兵可沒有信服力!
既然是被拿來“硬剛”GPT-4的模型,Gemini當然少不了經(jīng)歷一番測試。
根據(jù)內(nèi)部消息,在推出Gemini之前,谷歌就對該模型進行過一系列標準測試。結(jié)果顯示,性能上,Gemini訓練所用的算力達到GPT-4的五倍,非常出色。其中,特別是在語言理解、推理、數(shù)學和編程測試中表現(xiàn)更佳。尤其是Gemini Ultra,在32個常用的學術(shù)基準的30個上,已經(jīng)超越GPT-4。
并且Gemini Ultra在大規(guī)模多任務(wù)語言理解任務(wù)上,得分高達90.0%,是首個超越人類專家的模型。
谷歌DeepMind CEO Demis Hassabis表示:“這是我們目前規(guī)模最大,性能最強的大模型,Gemini可以像我們一樣,理解我們周圍的世界。”確實,對于普通人而言,Gemini也大有用處,它可以同時識別和理解文本、圖像、音頻等各種形式的輸入內(nèi)容,因此能更好地理解細微的信息,回答與復雜主題相關(guān)的各類問題。
具體來看,對于圖像理解方面,根據(jù)谷歌在發(fā)布會放出的演示視頻,Gemini是玩“你畫我猜”的一把好手,不僅能準確地描繪出測試者在紙上畫出的圖形,還能根據(jù)測試者畫出的輪廓,猜測出她繪制的是什么東西。
此外,它還能根據(jù)給出的文字和圖像,正確猜出所指電影的名字;又或者根據(jù)所給的服裝圖像,告訴你使用場景,甚至為這套搭配取名。
甚至它還能把圖像,轉(zhuǎn)變成代碼......
而在音頻理解上,Gemini也是一把好手,例如用戶上傳了一段非英語的音頻,然后又錄了一段英語的音頻來提問。這聽起來似乎有點麻煩,但Gemini卻可以輕松解決,它能同時處理兩段不同語言的音頻,并精準輸出所需要的摘要內(nèi)容,讓人眼前一亮。
還沒完!Gemini還能根據(jù)指示,教工作人員“鴨子”的普通話發(fā)音,并解釋了漢語聲調(diào),點個贊!
更厲害的是,它還能教你做飯,例如煎個蛋?你可以用語音問Gemini,還可以把手頭有的食材拍個照片發(fā)過去,然后Gemini就會結(jié)合配圖中的食材,及所發(fā)送的音頻需求,來一步步教你怎么做出完美的煎蛋。沒想到,有一天AI也能指導做飯,各位不會做飯星人有救了。
重點來了,Gemini理解文本的能力也不容小覷,它尤其擅長解釋數(shù)學和物理等復雜科目中的推理。對于很多家長來說,輔導孩子作業(yè)也是下班后“必不可少的工作”,但有時一些題目自己也不會,或者因為一些別的事,沒時間輔導孩子,該怎么辦呢?答案很簡單,拍張圖交給Gemini就完事了。
它在給出正確答案的基礎(chǔ)上,還能針對解答過程中孩子不懂的步驟給出具體解釋,甚至它還可以指出孩子解答過程中具體出錯的點。最后,你還可以直接讓Gemini輸出一個和出錯類型相似的題目,讓孩子再鞏固一下知識點。
其它方面,Gemini在辨認環(huán)境、物體等場景,也不在話下。從谷歌演示來看,給它一張充滿陽光的房間照片,它就能推理出來這個房間是朝南朝北,甚至告訴你房間里的植物應(yīng)該要怎么照顧。整個交流過程十分順暢,可見Gemini在多語言環(huán)境下表現(xiàn)出眾,完全不亞于GPT-4。
官方介紹,在Gemini的三個尺寸模型中,Gemini Pro已率先被用在谷歌聊天機器Bard的升級上。經(jīng)過谷歌測試后,Gemini Pro的表現(xiàn)要優(yōu)于GPT-3.5。
而為了進一步展現(xiàn)升級后的Bard有多強,谷歌還請了油管教育博主Mark Rober,全程使用Bard作為輔助工具,從零開始畫圖紙,最后真的造出了一架巨大的紙飛機。
說了這么多,其實無論是指導做飯,還是輔助造紙飛機,都直觀說明了,Gemini確實給普通大眾的生活,帶來了一定幫助,讓AI真正融入日常。
當然,除了上面說到的這些之外,谷歌還展示了Gemini的很多能力,例如讀柱狀圖,生成表格;或者直接生成圖文并茂的博客;以及展示圖形邏輯的推理,還有更為復雜的編程等等,這些都很好說明了Gemini確實很聰明,智慧。
說了這么多,總之從谷歌公布的一系列參數(shù)和操作展示來看,Gemini的“AI能力”有目共睹,確實越來越像一位真正的“人類助手”!
現(xiàn)如今,人工智能迎來發(fā)展浪潮,對于谷歌而言,在AI即使早在AI領(lǐng)域深耕多年,擁有優(yōu)質(zhì)人才和深厚技術(shù)積累,卻被OpenAI搶了先,以至于后面不得不奮力追趕。
細數(shù)下來,今年3月OpenAI發(fā)布GPT-4,隨后谷歌搞了一款Bard的聊天機器人,但可惜這款對標ChatGPT的機器人并沒有獲得很大的市場聲量。后面的故事也不少,谷歌連續(xù)官宣戰(zhàn)略合作、緊急發(fā)布多個AI工具等等,這些大動作,無疑都表明了谷歌在強烈反擊。
直到“谷歌大腦”與Alphabet旗下的人工智能實驗室DeepMind合并后,數(shù)百名AI精兵瘋狂沖刺,才有了Gemini的誕生。現(xiàn)在憑借Gemini的強大實力,谷歌終于揚眉吐氣,據(jù)說Gemini官宣發(fā)布后,不少OpenAI的研究員也都發(fā)文祝賀谷歌。
而縱觀當下整個AI浪潮發(fā)展史,Gemini的發(fā)布無疑是AI界又一個里程碑,這意味著AI大模型浪潮進入到一個全新階段,比起大語言模型,這種多模態(tài)模型的運作模式,才是人類最自然的和世界交互的方式。
但話說回來,多模態(tài)領(lǐng)域還在技術(shù)探索初期,Gemini的發(fā)布也只是掀起了其中一角,但這也將直接導致全球的AI大模型競賽進入新一輪競爭,那么就期待下谷歌或OpenAI,會不會再掀起巨大水花吧。
本文由極果用戶極果媒體原創(chuàng)