在AI技術(shù)的前沿探索中,阿里巴巴達(dá)摩院近期公布了一項(xiàng)名為“零搜索”的突破性技術(shù),該技術(shù)有望徹底改變AI模型的訓(xùn)練成本問(wèn)題。5月7日,阿里巴巴達(dá)摩院在arXiv平臺(tái)上發(fā)布的一篇論文詳細(xì)闡述了這一創(chuàng)新。
據(jù)悉,“零搜索”技術(shù)通過(guò)模擬搜索引擎的訓(xùn)練機(jī)制,使得大型AI模型無(wú)需依賴(lài)真實(shí)的搜索引擎API,即可自主發(fā)展出強(qiáng)大的檢索能力。這一技術(shù)的問(wèn)世,打破了長(zhǎng)久以來(lái)對(duì)科技巨頭API服務(wù)的依賴(lài),為開(kāi)發(fā)者提供了前所未有的數(shù)據(jù)質(zhì)量控制手段。

阿里巴巴達(dá)摩院的研究團(tuán)隊(duì)指出,“零搜索”技術(shù)已經(jīng)面向公眾開(kāi)源,代碼已上傳至GitHub和Hugging Face平臺(tái),并支持包括Qwen-2.5、LLaMA-3.2在內(nèi)的主流模型架構(gòu),既適用于基礎(chǔ)版模型,也適用于經(jīng)過(guò)指令微調(diào)的版本。尤為初創(chuàng)企業(yè)僅需配備四塊A100顯卡,即可搭建起高精度訓(xùn)練環(huán)境。
在綜合測(cè)評(píng)中,“零搜索”技術(shù)展現(xiàn)出了驚人的表現(xiàn)。研究團(tuán)隊(duì)在NQ、TriviaQA、PopQA、HotpotQA等七大主流問(wèn)答數(shù)據(jù)集上進(jìn)行了測(cè)試,結(jié)果顯示,基于“零搜索”技術(shù)訓(xùn)練的140億參數(shù)大模型,在搜索準(zhǔn)確率上超越了谷歌,同時(shí)訓(xùn)練成本降低了近九成。這一成績(jī),無(wú)疑是對(duì)傳統(tǒng)AI訓(xùn)練模式的一次重大顛覆。
具體成本節(jié)約方面,據(jù)VentureBeat報(bào)道,原本需要花費(fèi)586.70美元(約合人民幣4240.74元)調(diào)用商業(yè)搜索引擎API的訓(xùn)練任務(wù),現(xiàn)在僅需70.80美元(約合人民幣510.17元)即可完成。這意味著,開(kāi)發(fā)者可以節(jié)省高達(dá)88%的成本,同時(shí)獲得與商業(yè)搜索引擎相媲美甚至更優(yōu)的檢索能力。
阿里巴巴的研究團(tuán)隊(duì)進(jìn)一步發(fā)現(xiàn),經(jīng)過(guò)海量預(yù)訓(xùn)練的大型模型已經(jīng)具備了生成擬真文檔的能力。通過(guò)監(jiān)督微調(diào),這些大語(yǔ)言模型可以被轉(zhuǎn)化為檢索模塊,按需生成相關(guān)或無(wú)關(guān)的文檔組合。在強(qiáng)化學(xué)習(xí)階段,系統(tǒng)通過(guò)逐步降低生成文檔質(zhì)量的“教學(xué)策略”,迫使模型不斷優(yōu)化檢索精度,從而形成一個(gè)自主進(jìn)化的閉環(huán)。
在TriviaQA等七大主流問(wèn)答數(shù)據(jù)集的測(cè)試中,“零搜索”技術(shù)展現(xiàn)出了強(qiáng)大的實(shí)力。基于通義千問(wèn)2.5、LLaMA3.2等架構(gòu)的模型在數(shù)學(xué)視覺(jué)推理測(cè)試中得分超過(guò)了OpenAI的模型,展現(xiàn)出了卓越的圖形與數(shù)學(xué)結(jié)合分析能力。特別是在事實(shí)準(zhǔn)確性指標(biāo)上,140億參數(shù)模型超越了谷歌搜索2.3個(gè)百分點(diǎn),而70億參數(shù)模型則與商業(yè)搜索引擎持平。在相同的訓(xùn)練量下,模擬方案較谷歌搜索API節(jié)省了88%的開(kāi)支。
阿里巴巴達(dá)摩院的這一突破,不僅有望大幅降低AI模型的訓(xùn)練成本,還可能對(duì)AI開(kāi)發(fā)價(jià)值鏈產(chǎn)生深遠(yuǎn)影響。隨著自模擬技術(shù)的不斷成熟,未來(lái)或?qū)⒂楷F(xiàn)出更多創(chuàng)新的AI訓(xùn)練方案,推動(dòng)整個(gè)產(chǎn)業(yè)進(jìn)入低成本、自主進(jìn)化的新階段。這一技術(shù)的問(wèn)世,無(wú)疑為AI技術(shù)的未來(lái)發(fā)展開(kāi)辟了新的道路。






