免费观看日本视频,国产亚洲精品一区二区久久,性视频一区二区三区免费

　許多大模型在處理早期數(shù)據(jù)時(shí)展現(xiàn)出的優(yōu)異表現(xiàn)，實(shí)際上是受到了‘任務(wù)污染’的影響，回答問題全靠記，而非純粹基于學(xué)習(xí)理解能力。

　　ChatGPT發(fā)布一年多，已經(jīng)在全世界累積了超過1.8億用戶。而隨著越來越多的人們開始頻繁使用它，近幾個(gè)月關(guān)于GPT-4在“變笨”、“變懶”的說法不絕于耳。

　　大家發(fā)現(xiàn)這個(gè)昔日大聰明在回答提問時(shí)逐漸失去了最初的理解力和準(zhǔn)確性，時(shí)不時(shí)給出“驢唇不對馬嘴”的答案，或是干脆擺爛、拒絕回答。

　　對于GPT-4降智的原因，用戶們有許多自己的猜測。而最近，來自加州大學(xué)圣克魯茲分校的一篇論文，給出了學(xué)術(shù)界的最新解釋。

　　‘我們發(fā)現(xiàn)，在LLM訓(xùn)練數(shù)據(jù)創(chuàng)建日期之前發(fā)布的數(shù)據(jù)集上，LLM的表現(xiàn)出奇地好于之后的數(shù)據(jù)集。’

　　eLLM訓(xùn)練數(shù)據(jù)收集日期之前和之后發(fā)布的數(shù)據(jù)集，對零樣本（藍(lán)色）和少樣本（綠色）任務(wù)的準(zhǔn)確率對比。

　　也就是說，大模型在它們之前“見過”的任務(wù)上表現(xiàn)優(yōu)秀，在新任務(wù)上則相對拉垮。這更像是一種檢索的模擬智能方法，回答問題全靠記，而非純粹基于學(xué)習(xí)理解能力。

　　因此論文認(rèn)為，許多大模型在處理早期數(shù)據(jù)時(shí)展現(xiàn)出的優(yōu)異表現(xiàn)，實(shí)際上是受到了‘任務(wù)污染’的影響。

　　我們知道，大語言模型之所以強(qiáng)大，是因?yàn)樵诟鞣N零樣本和少樣本任務(wù)中表現(xiàn)出色，顯示出處理復(fù)雜和多樣化問題的靈活性。

　　而‘任務(wù)污染’就是一種對零樣本或少樣本評估方法的污染，指在預(yù)訓(xùn)練數(shù)據(jù)中已包含了任務(wù)訓(xùn)練示例——你以為GPT初次回答就這么得心應(yīng)手？No！其實(shí)它在訓(xùn)練過程中就已經(jīng)“見過”這些數(shù)據(jù)了。

　　評估的模型與數(shù)據(jù)集

　　由于封閉模型不會公開訓(xùn)練數(shù)據(jù)，開放模型也僅提供了數(shù)據(jù)源，爬取網(wǎng)站去獲取數(shù)據(jù)并非易事，所以想簡單驗(yàn)證是困難的。

　　為了實(shí)測任務(wù)污染的范圍，論文中共評估了12種不同的模型，包括5個(gè)GPT-3系列封閉模型和FAIrseq MoE、Bloom、LLaMA等7個(gè)開放模型，并列出訓(xùn)練集創(chuàng)建和模型發(fā)布日期。

　　在數(shù)據(jù)集上則劃分為兩類：2021年之前和2021年之后發(fā)布的數(shù)據(jù)集。以此來對比新老數(shù)據(jù)集之間的零樣本或少樣本任務(wù)性能差異。

　　四種測量方法

　　基于以上樣本，研究人員采用了四種方法來衡量大模型的任務(wù)污染范圍。

　　1．訓(xùn)練數(shù)據(jù)檢查：直接搜索訓(xùn)練數(shù)據(jù)以找到任務(wù)訓(xùn)練示例。

　　發(fā)現(xiàn)經(jīng)過微調(diào)的Llama模型Alpaca和Vicuna，在訓(xùn)練中加入少量任務(wù)示例后，對比原版Llama性能有所提升。

　　2．任務(wù)示例提取：從現(xiàn)有模型中提取任務(wù)示例。

　　具體方法是通過提示詞指令，讓模型生成訓(xùn)練示例。由于在零樣本或少樣本評估中，模型本不應(yīng)該接受任何任務(wù)示例訓(xùn)練，所以只要LLM能夠根據(jù)提示生成訓(xùn)練示例，就是任務(wù)污染的證據(jù)。

　　結(jié)果發(fā)現(xiàn)，從GPT-3第一代davinci-001到后來的3.5-T，代表可以生成訓(xùn)練示例的紅色X越來越多了，證明任務(wù)污染越發(fā)嚴(yán)重。

　　3．成員身份推斷：僅適用于生成任務(wù)，核心是檢查模型為輸入示例生成的內(nèi)容是否與原始數(shù)據(jù)集完全相同。如果一致，就可以認(rèn)定這個(gè)示例是LLM訓(xùn)練數(shù)據(jù)的成員。

　　因?yàn)槿绻陂_放式生成任務(wù)中出現(xiàn)這種精準(zhǔn)匹配，那模型無異于具備了預(yù)知能力，能準(zhǔn)確復(fù)現(xiàn)數(shù)據(jù)集中的具體措辭，表現(xiàn)可以說是“天秀”了，這就強(qiáng)烈暗示了模型在訓(xùn)練時(shí)已經(jīng)學(xué)習(xí)過這些內(nèi)容。

　　結(jié)果顯示在GPT-3系列和最近開源的大模型中，這種生成內(nèi)容與原始數(shù)據(jù)完全相同的情況普遍存在，且污染程度隨時(shí)間呈上升趨勢。

　　4．時(shí)間序列分析：對于已知訓(xùn)練數(shù)據(jù)收集時(shí)間的模型，測量其在已知發(fā)布日期的數(shù)據(jù)集上的性能，并使用時(shí)間序列證據(jù)檢查污染的證據(jù)。

　　通過對所有數(shù)據(jù)集和LLM進(jìn)行全球性的時(shí)間序列分析，發(fā)現(xiàn)對于在LLM發(fā)布之前收集的數(shù)據(jù)集（左側(cè)），無論是零樣本還是少樣本任務(wù)中，擊敗多數(shù)基線的可能性都遠(yuǎn)遠(yuǎn)更大。

　　最終結(jié)論

　　在所有實(shí)驗(yàn)過后，論文給出如下關(guān)鍵結(jié)論：

由于任務(wù)污染，閉源模型在零樣本或少樣本評估中的性能表現(xiàn)被夸大了，特別是那些經(jīng)過人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）或指令微調(diào)的模型。由于污染程度仍然未知，我們需要謹(jǐn)慎對待。
在實(shí)驗(yàn)中，對于沒有展示出污染可能性的分類任務(wù)，大模型在零樣本和少樣本設(shè)置里很少顯示出相對多數(shù)基線在統(tǒng)計(jì)學(xué)意義上的顯著性改進(jìn)。
隨著時(shí)間推移，GPT-3系列模型在許多下游任務(wù)的零樣本或少樣本性能上的提升很可能是由于任務(wù)污染造成的。
即使是開源的LLM，出于多種原因，檢查訓(xùn)練數(shù)據(jù)的任務(wù)污染也可能是困難的。
鼓勵(lì)公開訓(xùn)練數(shù)據(jù)集，以便更容易診斷污染問題。

　　GPT“變笨”不孤單，所有大模型殊途同歸？

　　讀過論文后，許多網(wǎng)友也悲觀地表示：降智沒準(zhǔn)兒是目前所有大模型的共同命運(yùn)。

　　對于沒有持續(xù)學(xué)習(xí)能力的機(jī)器學(xué)習(xí)模型來說，其權(quán)重在訓(xùn)練后被凍結(jié)，但輸入分布卻不斷漂移。近兩億用戶五花八門的新問題日夜不間斷，如果模型不能持續(xù)適應(yīng)這種變化，其性能就會逐步退化。

　　就比如基于大模型的編程工具，也會隨著編程語言的不斷更新而降級。

　　而持續(xù)重新訓(xùn)練這些模型的成本很高，人們遲早會放棄這種效率低下的方法。就目前的LLM來說，很難構(gòu)建可以在不嚴(yán)重干擾過去知識的情況下，連續(xù)適應(yīng)新知識的機(jī)器學(xué)習(xí)模型。

　　有網(wǎng)友認(rèn)為：“圍繞人工智能的所有炒作大多是基于這樣一個(gè)假設(shè)：人工智能將會越來越好。但按照這些大型語言模型的設(shè)計(jì)方式，實(shí)現(xiàn)通用人工智能幾乎是不可能的。在特定場景下的小眾用例是這項(xiàng)技術(shù)的最佳使用方式。”

　　而持續(xù)學(xué)習(xí)，恰恰是生物神經(jīng)網(wǎng)絡(luò)的優(yōu)勢。由于生物網(wǎng)絡(luò)具有強(qiáng)大的泛化能力，學(xué)習(xí)不同的任務(wù)可以進(jìn)一步增強(qiáng)系統(tǒng)的性能，從一個(gè)任務(wù)中獲得的知識有助于提升整個(gè)學(xué)習(xí)過程的效率——這種現(xiàn)象也稱為元學(xué)習(xí)。

　　“本質(zhì)上講，你解決的問題越多，就會變得越好，而大模型雖然每天被數(shù)以百萬計(jì)的問題所觸發(fā)，它們并不會自動地在這些任務(wù)上變得更加出色，因?yàn)樗鼈兊膶W(xué)習(xí)能力被凍結(jié)在了某一時(shí)刻。”