在一段視頻中,一個(gè)男子做出后仰并躲避的慢動(dòng)作,AI馬上猜出:這是表演《黑客帝國》中“子彈時(shí)間”的場(chǎng)景。
當(dāng)人類拿起畫筆在一張紙上勾勒出一只鴨子,并為它涂上了藍(lán)色。這次AI說道:“這可不是鴨子常見的顏色。”
三個(gè)空杯并排放在桌子上,一張藍(lán)色紙團(tuán)被塞進(jìn)其中一個(gè)杯子里,在人類一番眼花繚亂的操作后,AI準(zhǔn)確地猜出:“紙團(tuán)在最左邊的杯子里!”
“喂”給AI一張手寫的物理題,它不僅能看懂,而且還能分辨手寫答案的對(duì)錯(cuò),并且給出解釋出一步一步解決問題的細(xì)節(jié)。
上傳食材圖像和語音輸入,AI不僅可以指導(dǎo)你做菜,還能在不同階段提出相應(yīng)的建議。
這些片段,是google演示其在12月6日最新出爐的AI大模型Gemini的場(chǎng)景。
“我們離新一代人工智能模型的愿景越來越近了。”進(jìn)行完一系列視頻演示后,Google DeepMind產(chǎn)品副總裁Eli Collins(伊萊·柯林斯)對(duì)包括第一財(cái)經(jīng)在內(nèi)的媒體說,這是Google迄今為止功能最強(qiáng)大、最通用的大模型。
和市面上現(xiàn)有大模型相比,Gemini從一開始就被創(chuàng)建為多模態(tài)的模型,這意味著它可以歸納并流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。在靈活度上,從數(shù)據(jù)中心到移動(dòng)設(shè)備上,它都能夠運(yùn)行。
Gemini被視作是Google在AI大模型領(lǐng)域放出的“大招“。多年前,Google憑借AlphaGo的驚艷表現(xiàn)在全球掀起了一波AI浪潮。但這一次,在OpenAI的ChatGPT所引發(fā)的AI新浪潮中,Google面臨不小的壓力。眼下,Google迫切需要一款現(xiàn)象級(jí)AI產(chǎn)品,證明自己在人工智能領(lǐng)域的實(shí)力。
能打敗GPT4嗎?
就在Google發(fā)布最新大模型之前,微軟剛剛宣布了旗下AI助手Copilot重大升級(jí),將接入OpenAI的最新模型GPT-4 Turbo。
“遲到總比不做好!終于有了OpenAI王座的有力競(jìng)爭(zhēng)者。”在Google公布消息后,英偉達(dá)AI科學(xué)家Jim Fan(范麟熙)就第一時(shí)間轉(zhuǎn)發(fā)并評(píng)論。
Google CEO Sundar Pichai(桑達(dá)爾?皮查伊) 評(píng)價(jià),Gemini這一新時(shí)代的模型代表了Google作為一家公司在科學(xué)和工程方面所做的最大努力之一。他同時(shí)提到,這也是Google今年早些時(shí)候成立 Google DeepMind 時(shí)的愿景首次實(shí)現(xiàn)。
今年4月,或許是感受到了 OpenAI 聯(lián)手微軟帶來的挑戰(zhàn),以及為了加速實(shí)現(xiàn)通用人工智能(AGI)的目標(biāo),Google將曾經(jīng)誕生了Tensorflow與Transformer 的Google Brain 團(tuán)隊(duì),和憑借AlphaGo掀起上一輪AI熱潮、創(chuàng)造了AlphaFold預(yù)測(cè)蛋白質(zhì)折疊的DeepMind 團(tuán)隊(duì)合并,成立 Google DeepMind,這一團(tuán)隊(duì)也被外界調(diào)侃是“AI復(fù)仇者聯(lián)盟”。原Google AI產(chǎn)品負(fù)責(zé)人Eli Collins就是在那時(shí)開始擔(dān)任起新團(tuán)隊(duì)的產(chǎn)品副總裁。
今日Google Deepmind發(fā)布第一個(gè)版本 Gemini 1.0 ,針對(duì)不同尺寸進(jìn)行了優(yōu)化,分別是Ultra、Pro 和 Nano。其中Gemini Ultra是目前Google規(guī)模最大、功能最強(qiáng)大的模型,適用于高度復(fù)雜的任務(wù);Gemini Pro是適用于可擴(kuò)展各種任務(wù)的模型;Gemini Nano主要是端側(cè)設(shè)備上的模型。
Gemini發(fā)布后,外界最關(guān)心的是其對(duì)OpenAI GPT4的挑戰(zhàn)。在采訪中,記者提問Eli Collins :“Gemini能打敗市面上包括GPT4在內(nèi)所有的大模型嗎?”
Eli Collins在回答中表示,團(tuán)隊(duì)一直在對(duì) Gemini 模型進(jìn)行嚴(yán)格的測(cè)試并評(píng)估其在各種任務(wù)中的性能。從自然圖像、音頻和視頻理解到數(shù)學(xué)推理,在被大型語言模型(LLM)研究和開發(fā)中廣泛使用的 32 項(xiàng)學(xué)術(shù)基準(zhǔn)中,Gemini Ultra 的性能有 30 項(xiàng)都超過了目前最先進(jìn)的水平。
他援引了來自MMLU的測(cè)試結(jié)果,稱Gemini Ultra 的得分率為 90%,是第一個(gè)在 MMLU測(cè)試中超過人類專家的模型,MMLU 綜合使用了數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理等 57 個(gè)科目,用于測(cè)試世界知識(shí)和解決問題的能力。作為對(duì)比,人類專家的得分率為89.8%,GPT4得分率為86.4%。
在多模態(tài)方面,Gemini Ultra在新的MMMU基準(zhǔn)測(cè)試中也獲得了59.4%的SOTA分?jǐn)?shù)。這項(xiàng)基準(zhǔn)測(cè)試是由跨不同領(lǐng)域的多模式任務(wù)組成,需要大模型進(jìn)行一個(gè)深思熟慮的推理過程。
Goolge Gemini大模型多模態(tài)背后的技術(shù)原理也引發(fā)業(yè)界關(guān)注。Goolge DeepMind首席科學(xué)家杰夫·迪恩團(tuán)隊(duì)為此撰寫了60頁技術(shù)報(bào)告來闡述。
到目前為止,創(chuàng)建多模態(tài)模型的標(biāo)準(zhǔn)方法是分別訓(xùn)練不同模態(tài)的組件,然后將它們拼接在一起,以粗略模擬某些功能。這些模型有時(shí)可以很好地完成描述圖像等特定任務(wù),但在概念性更強(qiáng)、更復(fù)雜的推理方面卻顯得力不從心。
據(jù)DeepMind CEO Demis Hassabis(戴密斯·哈薩比斯)透露,團(tuán)隊(duì)將 Gemini 設(shè)計(jì)為原生多模態(tài),從一開始就在不同模態(tài)上進(jìn)行預(yù)訓(xùn)練。然后,利用額外的多模態(tài)數(shù)據(jù)對(duì)其進(jìn)行微調(diào),以進(jìn)一步提高其有效性。這有助于 Gemini 從最初階段就能對(duì)輸入的各種內(nèi)容順暢地進(jìn)行理解和推理,并優(yōu)于現(xiàn)有的多模態(tài)模型。
復(fù)雜的多模態(tài)推理能力能夠幫助理解復(fù)雜的書面和視覺信息。這使得它可以在海量的數(shù)據(jù)中發(fā)掘難以辨別的知識(shí)內(nèi)容,回答與復(fù)雜主題相關(guān)的問題,尤其擅長解釋數(shù)學(xué)和物理等復(fù)雜科目中的推理。
以解題為例,利用Gemini的多模態(tài)推理能力,AI能夠讀懂字跡凌亂的手寫內(nèi)容,正確理解問題的表述,還能夠把問題和解決方案都轉(zhuǎn)換為數(shù)字排版,識(shí)別出人類在解決問題時(shí)出錯(cuò)的具體推理步驟,并一步步給出問題的正確解決方案。
此外,它擁有通過閱讀、過濾以及理解信息,從數(shù)十萬份文件中提取數(shù)據(jù)集和觀點(diǎn)的能力,有助于在從科學(xué)到金融等多個(gè)領(lǐng)域以數(shù)字化速度實(shí)現(xiàn)新的突破。
而在Gemini的背后,是由 Google 自研的云芯片 TPUs v4 和 v5e ,在通過 AI 優(yōu)化過的基礎(chǔ)設(shè)施上,對(duì) Gemini 1.0 進(jìn)行了大規(guī)模訓(xùn)練。
當(dāng)天,Google還發(fā)布了最新的 TPU 系統(tǒng) Cloud TPU v5p,稱訓(xùn)練速度比前代快2.8倍,有望幫助開發(fā)者和企業(yè)客戶更快地訓(xùn)練大規(guī)模生成式 AI 模型。
應(yīng)用層比拼剛剛開始
目前看起來,在“跑分”上Google Gemini更勝一籌,但接下來,更重要的是各家大模型在實(shí)際應(yīng)用中的比拼。
Eli Collins 在接受第一財(cái)經(jīng)等媒體采訪時(shí)說,Google希望建立新一代AI模型,它是由人們對(duì)世界的理解和互動(dòng)而激發(fā)的,人工智能更像是一個(gè)樂于助人的合作者,而不像是一個(gè)聰明的軟件。
目前,Google旗下的聊天機(jī)器人Bard已經(jīng)集成Gemini Pro的微調(diào)版本,在170多個(gè)國家和地區(qū)提供英語服務(wù),并且計(jì)劃在未來幾個(gè)月內(nèi)擴(kuò)展不同的模態(tài),并支持新的語言和地區(qū)。明年年初,Google還將推出Bard Advanced,提供Gemini Ultra模型的最佳性能。
在移動(dòng)設(shè)備端,Google的Pixel 8 Pro成為首款搭載Gemini Nano的智能手機(jī),它可以支持錄音總結(jié)、智能回復(fù)等AI功能,明年還將推出更多信息應(yīng)用。
基于定制版的Gemini,谷歌推出了代碼生成系統(tǒng)AlphaCode 2。Google稱,在面對(duì)不僅涉及編程,還涉及復(fù)雜的數(shù)學(xué)和計(jì)算機(jī)科學(xué)理論等領(lǐng)域的問題時(shí),AlphaCode 2都表現(xiàn)出了卓越的性能。
未來幾個(gè)月,Gemini 將應(yīng)用于Google更多的產(chǎn)品和服務(wù),如 Search、Ads、Chrome 和 Duet AI。
據(jù)透露,Google已經(jīng)開始在 Search 中試驗(yàn) Gemini,它能夠?yàn)橛脩籼峁└斓乃阉魃审w驗(yàn)(SGE),用戶在美國的英語搜索延遲降低了 40%,同時(shí)在質(zhì)量方面也有所提高。
而對(duì)于Google采取哪些努力來防止Gemini產(chǎn)生幻覺和事實(shí)錯(cuò)誤,或被用來創(chuàng)造危險(xiǎn)的工具和其他不道德的用途,Google方面人士也對(duì)記者進(jìn)行了解答。
Google基礎(chǔ)設(shè)施與系統(tǒng)副總裁Amin Vahdat(阿明·瓦達(dá)特)對(duì)記者表示,Gemini在開發(fā)的各個(gè)階段都會(huì)考慮潛在的風(fēng)險(xiǎn),并努力進(jìn)行測(cè)試和降低這些風(fēng)險(xiǎn)。
他透露,Gemini的安全評(píng)估包括偏見和毒性評(píng)估,并應(yīng)用了 Google Research 的對(duì)抗性測(cè)試技術(shù),幫助在部署 Gemini 之前檢測(cè)關(guān)鍵的安全問題。
例如,為了在 Gemini 的訓(xùn)練階段診斷內(nèi)容安全問題,并確保其輸出符合政策,Google團(tuán)隊(duì)使用了一些基準(zhǔn)測(cè)試,例如真實(shí)毒性提示(Real Toxicity Prompts),這是一套由 Allen Institute of AI 的專家開發(fā)的基準(zhǔn)測(cè)試,包含了從網(wǎng)絡(luò)上提取的 10 萬條具有不同程度毒性的提示。
此外,為了減少傷害,團(tuán)隊(duì)還構(gòu)建了專門的安全分類器來識(shí)別、標(biāo)記和篩選涉及暴力或負(fù)面刻板印象等方面的內(nèi)容。“此外,我們正繼續(xù)解決模型面臨的已知挑戰(zhàn),例如事實(shí)性、基礎(chǔ)、歸因性以及協(xié)作性。”
Google沒有透露未來是否會(huì)專門為Gemini定制應(yīng)用程序,但高管對(duì)記者表示,更加希望看到用戶在這種技術(shù)的基礎(chǔ)上創(chuàng)建更多的應(yīng)用程序。
Google透露,從 12 月 13 日開始,開發(fā)者和企業(yè)客戶可以通過 Google AI Studio 或Google Cloud Vertex AI中的 Gemini API 獲取 Gemini Pro。
目前Google正對(duì) Gemini Ultra 完成大規(guī)模的信任和安全檢查,包括由可信賴的外部團(tuán)隊(duì)進(jìn)行紅隊(duì)測(cè)試,并在其被廣泛應(yīng)用前通過微調(diào)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)一步完善模型。在這一過程中,Google 將向部分客戶、開發(fā)者、合作伙伴以及安全和責(zé)任專家提供 Gemini Ultra,以供其進(jìn)行早期試驗(yàn)和提供反饋。
據(jù)記者了解,Google將在明年初向開發(fā)者和企業(yè)客戶提供該模型。






