人工智能領(lǐng)域的飛速發(fā)展,正逐漸揭開(kāi)其背后數(shù)據(jù)使用的復(fù)雜面紗。近年來(lái),大型AI模型的構(gòu)建過(guò)程中,數(shù)據(jù)源的合法性爭(zhēng)議愈發(fā)激烈,尤其是涉及未授權(quán)版權(quán)內(nèi)容的使用。多家科技巨頭在構(gòu)建AI模型時(shí),被指采用大量未經(jīng)許可的版權(quán)材料,這一行為如同在業(yè)界投下了一顆震撼彈。
2023年,一場(chǎng)法律風(fēng)暴悄然醞釀。《紐約時(shí)報(bào)》率先向OpenAI和微軟發(fā)起訴訟,直指其AI模型訓(xùn)練數(shù)據(jù)的版權(quán)問(wèn)題。緊接著,meta因Llama模型被控使用盜版書(shū)籍而陷入集體訴訟漩渦,Anthropic的Claude模型也因訓(xùn)練數(shù)據(jù)問(wèn)題遭到指控。這一系列事件,將硅谷的科技大亨們推向了法律的風(fēng)口浪尖。
2025年6月,Anthropic案的一紙判決,為這場(chǎng)版權(quán)風(fēng)波帶來(lái)了關(guān)鍵轉(zhuǎn)折。法院明確指出,盡管AI模型訓(xùn)練被視為一種創(chuàng)新性的使用方式,但若數(shù)據(jù)源涉及盜版,則無(wú)法逃避侵權(quán)的法律責(zé)任。據(jù)悉,Anthropic可能面臨天文數(shù)字的賠償,高達(dá)7500億美元,這一消息無(wú)疑在整個(gè)AI行業(yè)引發(fā)了巨大震動(dòng)。
面對(duì)數(shù)據(jù)需求的巨大缺口,AI公司們各顯神通,甚至不惜游走于法律邊緣。OpenAI利用爬蟲(chóng)技術(shù)廣泛搜集網(wǎng)絡(luò)內(nèi)容,并在抓取過(guò)程中刻意抹去版權(quán)信息。隨著高質(zhì)量文本資源的日益稀缺,這些公司又將目光投向了視頻、紙質(zhì)書(shū)籍等其他數(shù)據(jù)格式,利用各種技術(shù)手段進(jìn)行提取。
更為極端的是,一些公司直接采用了盜版書(shū)籍作為訓(xùn)練數(shù)據(jù)。meta在訓(xùn)練Llama模型時(shí),就被曝出使用了來(lái)自“影子圖書(shū)館”的盜版書(shū)籍。相比之下,蘋(píng)果等謹(jǐn)慎派企業(yè)則選擇了合法授權(quán)和自有數(shù)據(jù),以規(guī)避潛在的法律風(fēng)險(xiǎn)。
隨著法律訴訟的不斷推進(jìn),版權(quán)方的策略也在悄然變化。他們不再糾結(jié)于AI如何使用數(shù)據(jù),而是將焦點(diǎn)轉(zhuǎn)向了數(shù)據(jù)的獲取途徑是否合法。法院的判決表明,盡管AI訓(xùn)練行為本身可能不構(gòu)成直接侵權(quán),但對(duì)盜版資源的使用將受到法律的嚴(yán)懲。
如今,AI行業(yè)正置身于一場(chǎng)前所未有的版權(quán)紛爭(zhēng)之中。如何在法律的框架內(nèi)尋求創(chuàng)新,成為了科技巨頭們亟待解決的棘手問(wèn)題。






