亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務,提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

(ChinaZ.com)6月14日 消息:隨著越來越多的人使用 AI 來制作和發(fā)布內(nèi)容,一個明顯的問題出現(xiàn)了:當 AI 生成的內(nèi)容在互聯(lián)網(wǎng)上激增并且 AI 模型開始使用AI生成的內(nèi)容進行訓練,會發(fā)生什么?

來自英國和加拿大的一組研究人員已經(jīng)研究了這個問題,并且最近在開放獲取期刊 arXiv 上發(fā)表了一篇相關論文。他們的發(fā)現(xiàn)令當前的生成式 AI 技術及其未來令人擔憂:“我們發(fā)現(xiàn)在訓練中使用模型生成的內(nèi)容會導致生成的模型出現(xiàn)不可逆轉(zhuǎn)的缺陷。”

研究人員專門研究了文本到文本和圖像到圖像 AI 生成模型的概率分布,得出結(jié)論:“從其他模型生成的數(shù)據(jù)中學習會導致模型崩潰——一個退化過程,隨著時間的推移,模型會忘記真正的底層數(shù)據(jù)分布……這個過程是不可避免的,即使對于具有近乎理想的長期學習條件的情況也是如此。”

AI,機器人打架,撕逼,戰(zhàn)斗

“隨著時間的推移,生成數(shù)據(jù)中的錯誤會復合并最終迫使從生成數(shù)據(jù)中學習的模型進一步錯誤地感知現(xiàn)實,我們驚訝地觀察到模型崩潰發(fā)生的速度有多快:模型可以迅速忘記他們最初從中學習的大部分原始數(shù)據(jù)。”該論文的主要作者之一 Ilia Shumailov解釋道。

換句話說:當 AI 訓練模型接觸到更多 AI 生成的數(shù)據(jù)時,它的性能會隨著時間的推移而變差,在其生成的響應和內(nèi)容中產(chǎn)生更多錯誤,并在其響應中產(chǎn)生更少的非錯誤多樣性。

“模型崩潰”是如何發(fā)生的

本質(zhì)上,當 AI 模型生成的數(shù)據(jù)最終污染了后續(xù)模型的訓練集時,就會發(fā)生模型崩潰。

Shumailov 通過一個假設場景說明了這個問題,其中機器學習模型在包含100只貓的圖片的數(shù)據(jù)集上進行訓練——其中10只貓的皮毛是藍色的,90只貓的皮毛是黃色的。該模型了解到黃貓更普遍,被要求生成新數(shù)據(jù)時返回一些綠貓結(jié)果。隨著時間的推移,藍色毛皮的原始特征會在連續(xù)的訓練周期中逐漸消失,從藍色變成綠色,最后變成黃色。這種漸進的扭曲和少數(shù)數(shù)據(jù)特征的最終丟失就是模型崩潰。為防止這種情況,重要的是要確保少數(shù)群體在數(shù)據(jù)集中的公平代表性,無論是在數(shù)量上還是在對獨特特征的準確描述方面。

AI 生成數(shù)據(jù)的這種“污染”導致模型對現(xiàn)實產(chǎn)生了扭曲的感知。即使研究人員訓練模型不要產(chǎn)生過多的重復響應,他們發(fā)現(xiàn)模型崩潰仍然會發(fā)生,因為模型會開始編造錯誤的響應以避免過于頻繁地重復數(shù)據(jù)。

“還有許多其他方面會導致更嚴重的影響,例如基于性別、種族或其他敏感屬性的歧視,”Shumailov 說,特別是如果生成式人工智能隨著時間的推移學會在其反應中產(chǎn)生一個種族,而“忘記”他人存在。

重要的是要注意,這種現(xiàn)象不同于“災難性遺忘”,模型會丟失以前學到的信息。相比之下,模型崩潰涉及模型根據(jù)他們強化的信念誤解現(xiàn)實。

這篇論文背后的研究人員發(fā)現(xiàn),即使10% 的原始人類創(chuàng)作數(shù)據(jù)被用來訓練后代的模型,“模型崩潰仍然會發(fā)生,只是不會那么快”Shumailov說道。

幸運的是,即使使用現(xiàn)有的轉(zhuǎn)換器和 LLM,也有一些方法可以避免模型崩潰。

研究人員強調(diào)了兩種具體方式。第一個是保留原始的完全或名義上由人工生成的數(shù)據(jù)集的副本,并避免與 AI 生成的數(shù)據(jù)相混淆。然后,模型可以根據(jù)這些數(shù)據(jù)定期重新訓練,或者從頭開始用它完全刷新。

避免響應質(zhì)量下降并減少 AI 模型中不需要的錯誤或重復的第二種方法是將新的、干凈的、人類生成的數(shù)據(jù)集重新引入到他們的訓練中。

然而,正如研究人員指出的那樣,這需要內(nèi)容制作者或人工智能公司采用某種大規(guī)模標簽機制或努力來區(qū)分人工智能生成的內(nèi)容和人類生成的內(nèi)容。

“為了阻止模型崩潰,我們需要確保原始數(shù)據(jù)中的少數(shù)群體在后續(xù)數(shù)據(jù)集中得到公平的代表,”Shumailov 說道。

這些發(fā)現(xiàn)對人工智能領域具有重要意義,強調(diào)需要改進方法以隨著時間的推移保持生成模型的完整性。他們強調(diào)了未經(jīng)檢查的生成過程的風險,并可能指導未來的研究制定策略來防止或管理模型崩潰。

很明顯,模型崩潰是 ML 的一個問題,必須采取一些措施來確保生成 AI 繼續(xù)改進。

分享到:
標簽:AI訓練 AI頭條 AI模型
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定