亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

(ChinaZ.com)5月5日 消息:一項研究指出了當今大型語言模型的另一個潛在版權問題和文化挑戰:一本書越有名和越受歡迎,語言模型就越能記住其內容。

加州大學伯克利分校的研究人員測試了ChatGPTGPT-4和 BERT 的“背誦”能力。根據這項研究,語言模型記住了“大量受版權保護的材料”。一本書的內容在網上越受歡迎多,語言模型就越能記住其內容。

image.png

根據這項研究,OpenAI 的模型特別擅長記憶科幻小說、奇幻小說和暢銷書。其中包括 《1984》、《德古拉》和《弗蘭肯斯坦》等經典作品,以及《哈利波特與魔法石》等近期作品。

研究人員將谷歌的 BERT 與 ChatGPT 和 GPT-4進行了比較。“BookCorpus”是一套據稱由未知作者創作的免費書籍的訓練集,其中包括《丹·布朗》或《五十度灰》的作品。BERT 會記住這些書中的信息,因為這些都數據的一部分。

研究人員寫道,一本書在網絡上出現的次數越多,大型語言模型對它的記憶就越詳細。記憶決定了語言模型執行有關一本書的下游任務的能力:一本書越為人所知,語言模型就越有可能成功地執行諸如命名出版年份或正確識別書中字符等任務。

研究人員主要關注的不是版權問題。相反,他們關心的是使用大規模語言模型進行文化分析的潛在機會和問題,特別是通俗科幻小說和奇幻作品中的共同敘事所造成的社會偏見。

文化分析研究可能會受到大規模語言模型的嚴重影響,并且根據培訓材料中書籍的存在而產生的不同表現可能會導致研究出現偏差。

在此背景下,研究團隊有一個明確的訴求:訓練數據的公開。

研究人員寫道,這些模型特別擅長從流行的敘述中學習,但這些敘述并不代表大多數人的經歷。這一事實如何影響大規模語言模型的輸出,以及它們作為文化分析工具的有用性,需要進一步研究。

此外,該團隊表示,研究表明流行書籍并不是大型語言模型的良好性能測試,它們可能會表現更為出色。

分享到:
標簽:ChatGPT GPT-4 AI頭條
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定