【ITBEAR科技資訊】5月10日消息,SuperCLUE中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)正式發(fā)布。該基準(zhǔn)旨在針對(duì)中文可用的通用大模型,使用多個(gè)維度能力進(jìn)行測(cè)試,評(píng)估這些模型在不同任務(wù)上的效果情況,并與國(guó)際上的代表性模型進(jìn)行比較。
據(jù)了解,該評(píng)測(cè)榜單分為總榜單、基礎(chǔ)能力榜單、中文特性榜單三個(gè)部分。其中,基礎(chǔ)能力榜單包括了常見(jiàn)的有代表性的模型能力,如語(yǔ)義理解、對(duì)話、邏輯推理、角色模擬、代碼、生成與創(chuàng)作等10項(xiàng)能力。專(zhuān)業(yè)能力榜單則涵蓋了中學(xué)、大學(xué)與專(zhuān)業(yè)考試,共計(jì)50多項(xiàng)能力。中文特性榜單則針對(duì)有中文特點(diǎn)的任務(wù),包括了中文成語(yǔ)、詩(shī)歌、文學(xué)、字形等10項(xiàng)多種能力。
據(jù)ITBEAR科技資訊了解,首次公布的榜單顯示,近期發(fā)布的星火認(rèn)知大模型在國(guó)內(nèi)大模型中表現(xiàn)最佳,總分達(dá)到53.58分。相較于GPT-4,星火認(rèn)知大模型的差距達(dá)到23個(gè)百分點(diǎn),在總分上與GPT-3.5-turbo相比也有13個(gè)百分點(diǎn)的差距。
訊飛星火認(rèn)知大模型在對(duì)話、百科知識(shí)、角色模擬、計(jì)算能力、語(yǔ)義理解、邏輯推理方面,已經(jīng)達(dá)到GPT 3.5平齊的水準(zhǔn)。在語(yǔ)義理解方面,訊飛星火認(rèn)知大模型甚至得到了100分的滿分,超過(guò)了GPT-4。
該評(píng)測(cè)榜單的發(fā)布對(duì)于中國(guó)大模型的發(fā)展具有重要意義,它為評(píng)估中文通用大模型提供了重要的參考,同時(shí)也為模型的改進(jìn)提供了指導(dǎo)。在未來(lái),相信中國(guó)大模型將繼續(xù)迎來(lái)發(fā)展,并在不斷提高性能的同時(shí),應(yīng)用于更多領(lǐng)域,為各行各業(yè)的人們帶來(lái)更好的服務(wù)。






