(ChinaZ.com)5月5日 消息:一項研究指出了當今大型語言模型的另一個潛在版權問題和文化挑戰:一本書越有名和越受歡迎,語言模型就越能記住其內容。
加州大學伯克利分校的研究人員測試了ChatGPT、GPT-4和 BERT 的“背誦”能力。根據這項研究,語言模型記住了“大量受版權保護的材料”。一本書的內容在網上越受歡迎多,語言模型就越能記住其內容。
根據這項研究,OpenAI 的模型特別擅長記憶科幻小說、奇幻小說和暢銷書。其中包括 《1984》、《德古拉》和《弗蘭肯斯坦》等經典作品,以及《哈利波特與魔法石》等近期作品。
研究人員將谷歌的 BERT 與 ChatGPT 和 GPT-4進行了比較。“BookCorpus”是一套據稱由未知作者創作的免費書籍的訓練集,其中包括《丹·布朗》或《五十度灰》的作品。BERT 會記住這些書中的信息,因為這些都數據的一部分。
研究人員寫道,一本書在網絡上出現的次數越多,大型語言模型對它的記憶就越詳細。記憶決定了語言模型執行有關一本書的下游任務的能力:一本書越為人所知,語言模型就越有可能成功地執行諸如命名出版年份或正確識別書中字符等任務。
研究人員主要關注的不是版權問題。相反,他們關心的是使用大規模語言模型進行文化分析的潛在機會和問題,特別是通俗科幻小說和奇幻作品中的共同敘事所造成的社會偏見。
文化分析研究可能會受到大規模語言模型的嚴重影響,并且根據培訓材料中書籍的存在而產生的不同表現可能會導致研究出現偏差。
在此背景下,研究團隊有一個明確的訴求:訓練數據的公開。
研究人員寫道,這些模型特別擅長從流行的敘述中學習,但這些敘述并不代表大多數人的經歷。這一事實如何影響大規模語言模型的輸出,以及它們作為文化分析工具的有用性,需要進一步研究。
此外,該團隊表示,研究表明流行書籍并不是大型語言模型的良好性能測試,它們可能會表現更為出色。