近期,一項(xiàng)涉及斯坦福大學(xué)、康奈爾大學(xué)及西弗吉尼亞大學(xué)研究人員的聯(lián)合研究揭示了meta旗下Llama3.1 AI模型的一個(gè)驚人能力:它能夠幾乎一字不差地復(fù)制大量受版權(quán)保護(hù)的書籍內(nèi)容。這一發(fā)現(xiàn)為meta帶來了潛在的巨大法律風(fēng)險(xiǎn)。
據(jù)研究顯示,Llama3.170B模型在測試中成功重現(xiàn)了《哈利波特:神秘的魔法石》近42%的文本,這一比例遠(yuǎn)超初代Llama模型的4.4%。這一發(fā)現(xiàn)引發(fā)了業(yè)界對AI模型版權(quán)邊界的新一輪討論。
OpenAI的ChatGPT和meta的Llama等AI模型通常通過大規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練,旨在識(shí)別并生成新的語言模式。然而,此次研究發(fā)現(xiàn),Llama模型似乎并不僅限于學(xué)習(xí)語言模式,而是能夠近乎“完整記憶”特定書籍,如《哈利波特》和《1984》。斯坦福大學(xué)的法律專家馬克·萊姆利指出,若AI能夠生成訓(xùn)練數(shù)據(jù)的完整摘錄,那么它就不再被視為基于學(xué)習(xí)的“創(chuàng)新作品”,而更像是一個(gè)存儲(chǔ)版權(quán)作品的“大型壓縮包”,允許用戶隨意提取。
萊姆利的研究團(tuán)隊(duì)在測試多家公司的AI模型時(shí),發(fā)現(xiàn)meta的Llama是唯一能夠準(zhǔn)確復(fù)述書籍內(nèi)容的模型。除了《哈利波特》首部作品,Llama還展現(xiàn)了對《了不起的蓋茨比》和《1984》等經(jīng)典作品的顯著記憶能力。
meta使用受版權(quán)保護(hù)材料訓(xùn)練AI的做法一直備受爭議。目前,該公司正面臨多起版權(quán)訴訟,其中包括知名作家(如喜劇演員莎拉·西爾弗曼)提起的訴訟,指控meta的模型基于非法獲取的“Books3”數(shù)據(jù)集進(jìn)行訓(xùn)練。該數(shù)據(jù)集包含近20萬份受版權(quán)保護(hù)的出版物。法庭文件顯示,一名meta工程師在下載種子文件時(shí)曾表達(dá)過不安。
萊姆利估計(jì),如果“Books3”數(shù)據(jù)集中僅有3%的內(nèi)容被認(rèn)定為侵權(quán),meta可能面臨近10億美元的法定賠償。若侵權(quán)比例更高,其法律責(zé)任將更加沉重。值得注意的是,萊姆利曾代表meta在之前的生成式AI版權(quán)訴訟中進(jìn)行辯護(hù),但此次研究結(jié)果似乎改變了他的立場。今年早些時(shí)候,他宣布不再代理meta,以抗議該公司及其首席執(zhí)行官馬克·扎克伯格的某些行為。
對于萊姆利的最新研究發(fā)現(xiàn),meta拒絕發(fā)表評論。






