亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

 許多大模型在處理早期數(shù)據(jù)時(shí)展現(xiàn)出的優(yōu)異表現(xiàn),實(shí)際上是受到了‘任務(wù)污染’的影響,回答問題全靠記,而非純粹基于學(xué)習(xí)理解能力。

  ChatGPT發(fā)布一年多,已經(jīng)在全世界累積了超過1.8億用戶。而隨著越來越多的人們開始頻繁使用它,近幾個(gè)月關(guān)于GPT-4在“變笨”、“變懶”的說法不絕于耳。

  大家發(fā)現(xiàn)這個(gè)昔日大聰明在回答提問時(shí)逐漸失去了最初的理解力和準(zhǔn)確性,時(shí)不時(shí)給出“驢唇不對馬嘴”的答案,或是干脆擺爛、拒絕回答。

  對于GPT-4降智的原因,用戶們有許多自己的猜測。而最近,來自加州大學(xué)圣克魯茲分校的一篇論文,給出了學(xué)術(shù)界的最新解釋。

“GPT-4變傻”不只是OpenAI的苦惱,所有大模型與人類交往越久就會越蠢?

  ‘我們發(fā)現(xiàn),在LLM訓(xùn)練數(shù)據(jù)創(chuàng)建日期之前發(fā)布的數(shù)據(jù)集上,LLM的表現(xiàn)出奇地好于之后的數(shù)據(jù)集。’       

“GPT-4變傻”不只是OpenAI的苦惱,所有大模型與人類交往越久就會越蠢?

  eLLM訓(xùn)練數(shù)據(jù)收集日期之前和之后發(fā)布的數(shù)據(jù)集,對零樣本(藍(lán)色)和少樣本(綠色)任務(wù)的準(zhǔn)確率對比。

  也就是說,大模型在它們之前“見過”的任務(wù)上表現(xiàn)優(yōu)秀,在新任務(wù)上則相對拉垮。這更像是一種檢索的模擬智能方法,回答問題全靠記,而非純粹基于學(xué)習(xí)理解能力。

  因此論文認(rèn)為,許多大模型在處理早期數(shù)據(jù)時(shí)展現(xiàn)出的優(yōu)異表現(xiàn),實(shí)際上是受到了‘任務(wù)污染’的影響。

  我們知道,大語言模型之所以強(qiáng)大,是因?yàn)樵诟鞣N零樣本和少樣本任務(wù)中表現(xiàn)出色,顯示出處理復(fù)雜和多樣化問題的靈活性。

  而‘任務(wù)污染’就是一種對零樣本或少樣本評估方法的污染,指在預(yù)訓(xùn)練數(shù)據(jù)中已包含了任務(wù)訓(xùn)練示例——你以為GPT初次回答就這么得心應(yīng)手?No!其實(shí)它在訓(xùn)練過程中就已經(jīng)“見過”這些數(shù)據(jù)了。

  評估的模型與數(shù)據(jù)集

  由于封閉模型不會公開訓(xùn)練數(shù)據(jù),開放模型也僅提供了數(shù)據(jù)源,爬取網(wǎng)站去獲取數(shù)據(jù)并非易事,所以想簡單驗(yàn)證是困難的。

  為了實(shí)測任務(wù)污染的范圍,論文中共評估了12種不同的模型,包括5個(gè)GPT-3系列封閉模型和FAIrseq MoE、Bloom、LLaMA等7個(gè)開放模型,并列出訓(xùn)練集創(chuàng)建和模型發(fā)布日期。

“GPT-4變傻”不只是OpenAI的苦惱,所有大模型與人類交往越久就會越蠢?

  在數(shù)據(jù)集上則劃分為兩類:2021年之前和2021年之后發(fā)布的數(shù)據(jù)集。以此來對比新老數(shù)據(jù)集之間的零樣本或少樣本任務(wù)性能差異。

“GPT-4變傻”不只是OpenAI的苦惱,所有大模型與人類交往越久就會越蠢?

  四種測量方法

  基于以上樣本,研究人員采用了四種方法來衡量大模型的任務(wù)污染范圍。

  1. 訓(xùn)練數(shù)據(jù)檢查:直接搜索訓(xùn)練數(shù)據(jù)以找到任務(wù)訓(xùn)練示例。

  發(fā)現(xiàn)經(jīng)過微調(diào)的Llama模型Alpaca和Vicuna,在訓(xùn)練中加入少量任務(wù)示例后,對比原版Llama性能有所提升。

  2. 任務(wù)示例提取:從現(xiàn)有模型中提取任務(wù)示例。

  具體方法是通過提示詞指令,讓模型生成訓(xùn)練示例。由于在零樣本或少樣本評估中,模型本不應(yīng)該接受任何任務(wù)示例訓(xùn)練,所以只要LLM能夠根據(jù)提示生成訓(xùn)練示例,就是任務(wù)污染的證據(jù)。

  結(jié)果發(fā)現(xiàn),從GPT-3第一代davinci-001到后來的3.5-T,代表可以生成訓(xùn)練示例的紅色X越來越多了,證明任務(wù)污染越發(fā)嚴(yán)重。

“GPT-4變傻”不只是OpenAI的苦惱,所有大模型與人類交往越久就會越蠢?

  3. 成員身份推斷:僅適用于生成任務(wù),核心是檢查模型為輸入示例生成的內(nèi)容是否與原始數(shù)據(jù)集完全相同。如果一致,就可以認(rèn)定這個(gè)示例是LLM訓(xùn)練數(shù)據(jù)的成員。

  因?yàn)槿绻陂_放式生成任務(wù)中出現(xiàn)這種精準(zhǔn)匹配,那模型無異于具備了預(yù)知能力,能準(zhǔn)確復(fù)現(xiàn)數(shù)據(jù)集中的具體措辭,表現(xiàn)可以說是“天秀”了,這就強(qiáng)烈暗示了模型在訓(xùn)練時(shí)已經(jīng)學(xué)習(xí)過這些內(nèi)容。

  結(jié)果顯示在GPT-3系列和最近開源的大模型中,這種生成內(nèi)容與原始數(shù)據(jù)完全相同的情況普遍存在,且污染程度隨時(shí)間呈上升趨勢。

“GPT-4變傻”不只是OpenAI的苦惱,所有大模型與人類交往越久就會越蠢?

  4. 時(shí)間序列分析:對于已知訓(xùn)練數(shù)據(jù)收集時(shí)間的模型,測量其在已知發(fā)布日期的數(shù)據(jù)集上的性能,并使用時(shí)間序列證據(jù)檢查污染的證據(jù)。

  通過對所有數(shù)據(jù)集和LLM進(jìn)行全球性的時(shí)間序列分析,發(fā)現(xiàn)對于在LLM發(fā)布之前收集的數(shù)據(jù)集(左側(cè)),無論是零樣本還是少樣本任務(wù)中,擊敗多數(shù)基線的可能性都遠(yuǎn)遠(yuǎn)更大。

“GPT-4變傻”不只是OpenAI的苦惱,所有大模型與人類交往越久就會越蠢?

  最終結(jié)論

  在所有實(shí)驗(yàn)過后,論文給出如下關(guān)鍵結(jié)論:

  • 由于任務(wù)污染,閉源模型在零樣本或少樣本評估中的性能表現(xiàn)被夸大了,特別是那些經(jīng)過人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)或指令微調(diào)的模型。由于污染程度仍然未知,我們需要謹(jǐn)慎對待。
  • 在實(shí)驗(yàn)中,對于沒有展示出污染可能性的分類任務(wù),大模型在零樣本和少樣本設(shè)置里很少顯示出相對多數(shù)基線在統(tǒng)計(jì)學(xué)意義上的顯著性改進(jìn)。
  • 隨著時(shí)間推移,GPT-3系列模型在許多下游任務(wù)的零樣本或少樣本性能上的提升很可能是由于任務(wù)污染造成的。
  • 即使是開源的LLM,出于多種原因,檢查訓(xùn)練數(shù)據(jù)的任務(wù)污染也可能是困難的。
  • 鼓勵(lì)公開訓(xùn)練數(shù)據(jù)集,以便更容易診斷污染問題。

  GPT“變笨”不孤單,所有大模型殊途同歸?

  讀過論文后,許多網(wǎng)友也悲觀地表示:降智沒準(zhǔn)兒是目前所有大模型的共同命運(yùn)。

  對于沒有持續(xù)學(xué)習(xí)能力的機(jī)器學(xué)習(xí)模型來說,其權(quán)重在訓(xùn)練后被凍結(jié),但輸入分布卻不斷漂移。近兩億用戶五花八門的新問題日夜不間斷,如果模型不能持續(xù)適應(yīng)這種變化,其性能就會逐步退化。

“GPT-4變傻”不只是OpenAI的苦惱,所有大模型與人類交往越久就會越蠢?

  就比如基于大模型的編程工具,也會隨著編程語言的不斷更新而降級。

  而持續(xù)重新訓(xùn)練這些模型的成本很高,人們遲早會放棄這種效率低下的方法。就目前的LLM來說,很難構(gòu)建可以在不嚴(yán)重干擾過去知識的情況下,連續(xù)適應(yīng)新知識的機(jī)器學(xué)習(xí)模型。

  有網(wǎng)友認(rèn)為:“圍繞人工智能的所有炒作大多是基于這樣一個(gè)假設(shè):人工智能將會越來越好。但按照這些大型語言模型的設(shè)計(jì)方式,實(shí)現(xiàn)通用人工智能幾乎是不可能的。在特定場景下的小眾用例是這項(xiàng)技術(shù)的最佳使用方式。”

“GPT-4變傻”不只是OpenAI的苦惱,所有大模型與人類交往越久就會越蠢?

  而持續(xù)學(xué)習(xí),恰恰是生物神經(jīng)網(wǎng)絡(luò)的優(yōu)勢。由于生物網(wǎng)絡(luò)具有強(qiáng)大的泛化能力,學(xué)習(xí)不同的任務(wù)可以進(jìn)一步增強(qiáng)系統(tǒng)的性能,從一個(gè)任務(wù)中獲得的知識有助于提升整個(gè)學(xué)習(xí)過程的效率——這種現(xiàn)象也稱為元學(xué)習(xí)。

  “本質(zhì)上講,你解決的問題越多,就會變得越好,而大模型雖然每天被數(shù)以百萬計(jì)的問題所觸發(fā),它們并不會自動地在這些任務(wù)上變得更加出色,因?yàn)樗鼈兊膶W(xué)習(xí)能力被凍結(jié)在了某一時(shí)刻。”

“GPT-4變傻”不只是OpenAI的苦惱,所有大模型與人類交往越久就會越蠢?

  不過想來一個(gè)有些矛盾的現(xiàn)實(shí)是,現(xiàn)在的人們越來越依賴于AI生成的內(nèi)容,用退化中的大模型提供的答案去解決生活中的實(shí)際問題。未來大模型爬到的數(shù)據(jù),將會越來越多會是它自己創(chuàng)造的東西,而不是來自人腦。

  AI用AI的產(chǎn)出去自我訓(xùn)練,最終結(jié)果又會走向何方呢?如果不著手從根本上解決數(shù)據(jù)污染和持續(xù)學(xué)習(xí)能力的問題,未來的世界會和大模型一起變笨嗎?

  本文作者:Jessica,本文來源:硅星人Pro,原文標(biāo)題:《“GPT-4變傻”不只是OpenAI的苦惱,所有大模型與人類交往越久就會越蠢?》

分享到:
標(biāo)簽:GPT
用戶無頭像

網(wǎng)友整理

注冊時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定