阿里巴巴在人工智能領(lǐng)域再次邁出重要一步,正式向公眾開放了全新的千問3向量模型系列——Qwen3-Embedding。這一開源舉措基于千問3的強(qiáng)大底座,專為文本表征、檢索及排序等應(yīng)用場(chǎng)景進(jìn)行了深度優(yōu)化,彰顯了阿里巴巴在AI技術(shù)研發(fā)上的強(qiáng)勁實(shí)力。
Qwen3-Embedding相較于其前身,在文本檢索、聚類及分類等核心功能上實(shí)現(xiàn)了顯著提升,性能提高超過40%。這一顯著進(jìn)步不僅鞏固了其在技術(shù)領(lǐng)域的領(lǐng)先地位,更在MTEB等專業(yè)評(píng)測(cè)中超越了包括谷歌Gemini Embedding、OpenAI的text-embedding-3-large以及微軟multilingual-e5-large-instruct在內(nèi)的眾多頂尖模型,榮獲同類模型中的最佳表現(xiàn)(SOTA)。
向量模型作為AI的“語(yǔ)言轉(zhuǎn)換器”,通過將文本、圖片等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為機(jī)器易于理解的向量形式,極大地提升了信息分類、檢索及排序的效率。阿里巴巴的通義團(tuán)隊(duì)利用對(duì)比訓(xùn)練、SFT以及模型融合等先進(jìn)技術(shù),成功研發(fā)出這一新型向量模型,其中不僅包含文本嵌入模型Qwen3-Embedding,還涵蓋了文本排序模型Qwen3-Reranker。
千問3向量模型的一大亮點(diǎn)是其強(qiáng)大的多語(yǔ)言能力,支持超過100種語(yǔ)言,包括多種編程語(yǔ)言,展現(xiàn)出卓越的多語(yǔ)言、跨語(yǔ)言及代碼檢索能力。這一特性為全球開發(fā)者提供了更為豐富的應(yīng)用場(chǎng)景和更廣闊的開發(fā)空間。
此次開源的千問3向量模型系列共有9款,涵蓋不同尺寸(如0.6B、4B、8B等)及GGUF版本,開發(fā)者可以根據(jù)實(shí)際需求選擇合適的模型,并自由組合模塊。開發(fā)者還可以自定義向量或指令,以實(shí)現(xiàn)對(duì)特定任務(wù)、語(yǔ)言和場(chǎng)景的深度優(yōu)化。這一高度的靈活性將極大地提升開發(fā)效率。
目前,Qwen3-Embedding和Qwen3-Reranker模型已在魔搭社區(qū)、Hugging Face及GitHub等多個(gè)平臺(tái)上開放源代碼,開發(fā)者還可以通過阿里云的百煉平臺(tái)直接使用API服務(wù)。自4月29日開源以來,千問3大模型已在多個(gè)國(guó)際評(píng)測(cè)中取得開源冠軍的優(yōu)異成績(jī)。






