亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

新智元報(bào)道

編輯:拉燕

【新智元導(dǎo)讀】國外計(jì)算機(jī)科學(xué)家自測LLM代碼生成,結(jié)果竟然是這樣!

最近,Matthias PlAppert的一篇推文點(diǎn)燃了LLMs圈的廣泛討論。

Plappert是一位知名的計(jì)算機(jī)科學(xué)家,他在HumanEval上發(fā)布了自己對(duì)AI圈主流的LLM進(jìn)行的基準(zhǔn)測試結(jié)果。

他的測試偏向代碼生成方面。

結(jié)果令人大為不震撼,又大為震撼。

意料之內(nèi)的是,GPT-4毫無疑問霸榜,摘得第一。

意料之外的是,OpenAI的text-davinci-003異軍突起,拿了個(gè)第二。

Plappert表示,text-davinci-003堪稱一個(gè)「寶藏」模型。

而耳熟能詳?shù)腖LaMA在代碼生成方面卻并不出色。

OpenAI霸榜

Plappert表示,GPT-4的性能表現(xiàn)甚至比文獻(xiàn)中的數(shù)據(jù)還要好。

論文中GPT-4的一輪測試數(shù)據(jù)是67%的通過率,而Plappert的測試則達(dá)到了73%。

在分析成因時(shí),他表示,數(shù)據(jù)上存在差異有不少可能性。其中之一是他給到GPT-4的prompt要比論文作者測試的時(shí)候好上那么一些。

另一個(gè)原因是,他猜測論文在測試GPT-4的時(shí)候模型的溫度(temperature)不是0。

「溫度」是一個(gè)用于調(diào)整模型生成文本時(shí)創(chuàng)造性和多樣性的參數(shù)。「溫度」是一個(gè)大于0的數(shù)值,通常在 0 到 1 之間。它影響模型生成文本時(shí)采樣預(yù)測詞匯的概率分布。

當(dāng)模型的「溫度」較高時(shí)(如 0.8、1 或更高),模型會(huì)更傾向于從較多樣且不同的詞匯中選擇,這使得生成的文本風(fēng)險(xiǎn)性更高、創(chuàng)意性更強(qiáng),但也可能產(chǎn)生更多的錯(cuò)誤和不連貫之處。

而當(dāng)「溫度」較低時(shí)(如 0.2、0.3 等),模型主要會(huì)從具有較高概率的詞匯中選擇,從而產(chǎn)生更平穩(wěn)、更連貫的文本。

但此時(shí),生成的文本可能會(huì)顯得過于保守和重復(fù)。

因此在實(shí)際應(yīng)用中,需要根據(jù)具體需求來權(quán)衡選擇合適的「溫度」值。

接下來,在點(diǎn)評(píng)text-davinci-003時(shí),Plappert表示這也是OpenAI旗下一個(gè)很能打的模型。

雖然不比GPT-4,但是一輪測試有62%的通過率還是能穩(wěn)穩(wěn)拿下第二名的寶座。

Plappert強(qiáng)調(diào),text-davinci-003最好的一點(diǎn)是,用戶不需要使用ChatGPT的API。這意味著給prompt的時(shí)候能簡單一點(diǎn)。

此外,Plappert也給予了Anthropic AI的claude-instant模型比較高的評(píng)價(jià)。

他認(rèn)為這個(gè)模型的性能不錯(cuò),比GPT-3.5能打。GPT-3.5的通過率是46%,而claude-instant是54%。

當(dāng)然,Anthropic AI的另一個(gè)LLM——claude,沒有claude-instant能打,通過率只有51%。

Plappert表示,測試兩個(gè)模型用的prompt都一樣,不行就是不行。

除了這些耳熟能詳?shù)哪P停琍lappert也測試了不少開源的小模型。

Plappert表示,自己能在本地運(yùn)行這些模型,這點(diǎn)還是不錯(cuò)的。

不過從規(guī)模上看,這些模型顯然沒有OpenAI和Anthropic AI的模型大,所以硬拿它們對(duì)比有點(diǎn)以大欺小了。

LLaMA代碼生成?拉胯

當(dāng)然,Plappert對(duì)LLaMA的測試結(jié)果并不滿意。

從測試結(jié)果來看,LLaMA在生成代碼方面表現(xiàn)很差勁。可能是因?yàn)樗麄冊(cè)趶腉ithub收集數(shù)據(jù)時(shí)采用了欠采樣的方法(under-sampling)。

就算和Codex 2.5B相比,LLaMA的性能也不是個(gè)兒。(通過率10% vs. 22%)

最后,他測試了Replit的3B大小的模型。

他表示,表現(xiàn)還不錯(cuò),但和推特上宣傳的數(shù)據(jù)相比差點(diǎn)意思(通過率16% vs. 22%)

Plappert認(rèn)為,這可能是因?yàn)樗跍y試這個(gè)模型時(shí)所用的量化方式讓通過率掉了幾個(gè)百分比。

在測評(píng)的最后,Plappert提到了一個(gè)很有意思的點(diǎn)。

某位用戶在推特上發(fā)現(xiàn),當(dāng)使用Azure平臺(tái)的Completion API(補(bǔ)全API)(而不是Chat API)時(shí),GPT-3.5-turbo的性能表現(xiàn)更好。

Plappert認(rèn)為這種現(xiàn)象具有一定合理性,因?yàn)橥ㄟ^Chat API輸入prompt可能會(huì)相當(dāng)復(fù)雜。

參考資料:

https://Twitter.com/mplappert/status/1663892732652273664

分享到:
標(biāo)簽:模型
用戶無頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績?cè)u(píng)定