亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

聲明:本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:機器之心,授權轉載發布。

雖然提示詞只是要生成「動畫版的玩具」,但結果和《玩具總動員》沒有區別。

不久之前,《紐約時報》指控 OpenAI 涉嫌違規使用其內容用于人工智能開發的事件引起了社區極大的關注與討論。

GPT-4輸出的許多回答中,幾乎逐字逐句地抄襲了《紐約時報》的報道:

圖片

圖中紅字是 GPT-4與《紐約時報》報道重復的部分。

對此,各個專家分別有不同的看法。

圖片

機器學習領域權威學者吳恩達對 OpenAI 和微軟表示了同情,他懷疑 GPT「存在抄襲」的原因并不只是模型訓練集使用了未經授權的文章,而是來自類似于 RAG(檢索增強生成)的機制。ChatGPT 瀏覽網絡以搜索相關信息,并下載了一篇文章來回答用戶的問題。他發現,沒有 RAG 類似機制的 LLM,在預訓練中的輸出通常是對輸入的轉換,幾乎從未逐字逐句地「抄襲」。

而紐約大學教授 Gary Marcus 有不同的觀點,他說在視覺生成領域的「抄襲」和 RAG 毫不相干。

圖片

他在近日 IEEE Spectrum 發表的文章中,明確指出「Generative AI Has a Visual Plagiarism Problem」。

下面,就讓我們看下這篇文章講了什么。

LLM 對其訓練數據的「記憶力」長期以來一直是個問題。最近的實證研究表明,在某些情況下,LLM 能夠再現,或者在稍作修改的情況下再現其訓練集中的大量文本。

例如,Milad Nasr 等研究者在2023年發表的一篇論文中提出,LLM 可以在輸入某些提示詞時泄露如郵件和電話號碼等私人信息。來自谷歌 Deepmind 的 Carlini 也在最近的研究中得出了較大的聊天機器人模型有時會逐字逐句地反芻大量文本,小模型則未出現此現象。

最近《紐約時報》指控 OpenAI 涉嫌違規使用其內容用于人工智能開發,《紐約時報》提供的申訴書中提供了大量重復抄襲證據。

Marcus 稱這種近乎逐字逐句的輸出為「抄襲輸出」。如果這些內容的作者是人類,那么肯定會被認定是抄襲。雖然無法計算出「抄襲輸出」出現的頻率,或者抄襲在什么情況下發生。但是這些直觀的結果為「生成式人工智能系統可能會抄襲」提供了強有力的證據。即使用戶沒有直接要求 AI 這么做,也面臨版權方的侵權索賠。

人工智能的抄襲問題說不清,也道不明,其原因在于 LLM 對于人類來說還是「黑匣子」。我們不完全了解輸入(訓練數據)和輸出之間的關系,輸出也可能在某一時刻發生不可預測的變化?!赋u輸出」普遍出現的可能很大程度上取決于模型的大小和訓練集等具體因素。

由于 LLM 的黑匣子特性,關于「抄襲輸出」的問題只能通過實驗來驗證。這些實驗可能也只能得出一些不確定的結論。

然而但「抄襲輸出」引發了許多重要問題,在技術方面,是否能夠通過技術手段來避免「抄襲輸出」?在法律層面,這些輸出是否構成侵犯版權?在實際應用中,用戶 LLM 生成內容時,是否有方法可以讓不希望侵權的用戶確信他們沒有侵權?

《紐約時報》和 OpenAI 的訴訟案對生成式人工智能領域未來的發展具有關鍵影響。

在計算機視覺領域,抄襲問題依然存在。模型是否也能基于受版權保護的圖片,產生「抄襲輸出」呢?

Midjourney v6中的抄襲視覺輸出

Marcus 的答案是肯定的,甚至不需要直接向模型輸入抄襲的提示。

只需給出與某些商業電影相關的簡短提示,Midjourney v6就能生成許多「抄襲輸出」。從下面的例子中,可以發現,Midjourney 生成的圖片與《復仇者聯盟》、《沙丘》等知名電影還有電子游戲中的鏡頭幾乎完全相同。

圖片

他們還發現了,卡通角色特別容易被復制,正如下面的《辛普森一家》,即使輸入的提示詞是「90年代流行的黃皮膚的動畫」,完全與《辛普森一家》無關,但生成結果和原動畫看不出什么區別。

根據這些結果,幾乎可以肯定 Midjourney V6是基于受版權保護的材料上訓練的。目前尚不清楚 Midjourney V6是否獲得了版權方的許可,但 Midjourney 可用于侵犯原作者權利的創造。

在上述許多示例中,本文作者驗證了 Midjourney 可以故意復制受版權保護的素材,但還未確定:在不故意的情況下,是否有人因此而侵犯了版權。

在《紐約時報》的訴訟中,其中有一點很引人注目。如下圖所示,《紐約時報》提供的證據表明,在不使用「您能否以《紐約時報》的風格撰寫關于某某的文章」的提示詞,而是通過給出文章前幾個字,GPT-4還是給出了和原文一模一樣的回答。這表明模型可以在不故意抄襲的情況下引發「抄襲輸出」。

圖片

t few words of an actual article.

當給提供了一篇《紐約時報》的文章的前幾個詞時,它輸出了看似存在抄襲的回答。

在視覺生成領域中,這個問題的答案也是肯定的。在下面展示的例子中,他們沒有在提示詞中涉及《星球大戰》或者角色,但是 Midjourney 卻生成了達斯?維德、盧克?天行者、R2-D2等家喻戶曉的經典形象。

圖片

《玩具總動員》、小黃人、索尼克、馬里奧,這些耳熟能詳的大 IP 也沒能逃過「無意識的抄襲輸出」。

圖片

即使沒有直接提名,Midjourney 生成了這些辨識度很高的電影和游戲角色的相關圖像。

在沒有直接指示的情況下喚出電影般的畫面

在第三個實驗中,Marcus 等人探索了 Midjourney 能否在沒有提示詞的情況下,輸出和電影原出處相似的整個電影幀。同樣,這個問題的答案是肯定的。

圖片

最終,他們發現,在輸入「screencap」的提示詞時,即使沒有輸入任何具體的電影,角色或者演員,但是卻產生了明顯的侵權內容。以下圖片都是使用「screencap」作為提示,Midjourney 生成了與電影中的一幀極其相似的結果。

雖然 Midjourney 可能會很快修補這個特定的提示詞,但 Midjourney 產生潛在侵權行為的能力是顯而易見的。Marcus 和他的同伴發現了以下被「抄襲」的受害者,更多電影、演員和游戲的名單將在他們的 YouTube 頻道發布。

圖片

Midjourney 的抄襲問題

通過以上的實驗,可以得到如下結論:Midjourney 違規使用了受版權保護的素材訓練模型,一些生成式人工智能系統可能會產生「抄襲輸出」,即使提示詞不涉及抄襲行為,也可能使用戶面臨版權侵權索賠。最近的新聞也支持同樣的結論。Midjourney 最近收到了4700多名藝術家的聯合起訴,因為 Midjourney 在未經同意的情況下使用了他們的作品用于訓練 AI。

Midjourney 的訓練數據中有多少是未經許可使用的版權材料?尚未可知。該公司對其原始材料以及哪些材料獲得了適當許可都未公開。

事實上,該公司在一些公開評論中對抄襲問題持不屑一顧的態度。當 Midjourney 的首席執行官接受《福布斯》雜志采訪時,對版權相關的問題回答道:「沒有一種方法可以在獲得一億張圖片的同時知道它們的來源。」

如果未獲得原素材許可,可能會使 Midjourney 面臨來自電影工作室、視頻游戲發行商、演員等的大量訴訟。

版權和商標法的要點是限制未經授權的商業再使用,以保護內容創作者。由于 Midjourney 收取訂閱費,并且可以被視為與視覺內容工作室的競爭者,這可能是版權方的起訴原因。

Midjourney 顯然試圖壓制 Marcus 的發現。在他發布了一些實驗結果后,文章被 Midjourney 要求撤稿。

但是并非所有使用受版權保護素材的行為都是非法的。例如,在美國,如果使用時間短,或素材被用于批評、評論、科學評估或模仿,那么使用未經授權的素材是被允許的。Marcus 認為 Midjourney 可能在訴訟中依靠這些論據。

更糟糕的是,Marcus 發現有證據表明 Midjourney 的一名高級軟件工程師在2022年2月參與了一場關于如何通過「通過微調代碼」來「洗白」數據以逃避版權法的對話。

另一名不能確定是否為 Midjourney 工作的參與者隨后說:「在某種程度上,在版權法看來,真的無法追蹤什么是衍生作品?!?/p>

圖片

圖片

就 Marcus 所知,Midjourney 被懲罰,做出賠償的可能性很大。有消息人士稱,Midjourney 可能創建了一個很長的藝術家名單,為他們支付沒有獲得許可將其作品用于訓練的報酬。

此外,Midjourney 對 Marcus 的合作者進行了封號,在他創建小號后依舊禁止他訪問。

隨后,Midjourney 更改了其服務條款,加入了:「您不得使用該服務試圖侵犯他人的知識產權,包括版權、專利或商標權。這樣做可能會使您受到包括法律訴訟或永久禁止使用該服務等處罰。」的提示語。

這一修改通常是阻礙甚至排除對生成式 AI 限制進行安全調查的常見做法,這種做法是幾家大型 AI 公司在2023年與白宮達成的協議中承諾的一部分。

除此之外,Marcus 并不認為 Midjourney 是目前的圖像生成 AI 中能生成最精細結果的軟件。因此,他們還提出了「隨著能力的提高,AI 創造抄襲圖像的傾向是否會增加」的猜想。

根據已有研究者在文本輸出領域的研究表明,這可能是真的。憑直覺而言,系統掌握的數據越多,它就越能掌握統計的相關性,但也可能越容易精確地重建訓練集中的數據。如果這種猜測是正確的,那么隨著生成式人工智能公司收集的數據越來越多,模型越來越大,那么模型也可能更具抄襲性。

DALL?E3的抄襲

與 Midjourney 一樣,即使沒有有指向性的具體提示詞, DALL?E3也能夠創建近乎與原作完全的復制品。

如下圖所示,通過以下簡單的提示詞:「動畫玩具」, DALL?E3就創建了一系列潛在的侵權作品。

圖片

與 Midjourney 一樣,OpenAI 的 DALL?E3似乎也借鑒了大量受版權保護的來源。OpenAI 似乎非常清楚其軟件可能侵犯版權的事實,并在去年11月提出為用戶的版權侵權訴訟提供賠償??紤]到 Marcus 發現的侵權規模,OpenAI 似乎要「大出血」。

同時,也有人猜測 OpenAI 一直在實時地更改其系統,以排除 Marcus 的文章中揭露的某些行為。

解決大模型「抄襲的問題」有多難?

可能的解決方案:移除版權材料

最干凈的解決方案是在不使用受版權保護的材料的情況下重新訓練圖像生成模型,或者限制訓練僅限于獲得適當許可的數據集。

只在收到投訴后刪除受版權保護的材料,類似于 YouTube 上的下架請求,其實施成本非常高。無法以任何簡單的方式從現有模型中刪除特定受版權保護的材料。大型神經網絡不是數據庫,其中可以輕松刪除違規記錄,每次「下架」幾乎相當于重新訓練。

因此,生成式 AI 公司可能希望修補其現有系統,來限制某些類型的查詢和某些類型的輸出。如下圖所示,他們已經看到了一些跡象,但這注定是一場艱苦的戰斗。

圖片

OpenAI 可能正試圖在實時情況下逐個解決這些問題。一位 X 用戶分享了一個 DALL?E3提示,該提示首先生成了 C-3PO 的圖像,但 GPT 稱無法生成需要的圖像。

同時,Marcus 還提供了兩種不需要重新訓練模型的解決方法。首先是過濾掉可能侵犯版權的查詢。

雖然像「不要生成蝙蝠俠」這樣的低級任務可以被過濾掉,但是如下圖所示,跨越多個查詢的生成結果根本防不住:

圖片

經驗表明,文本生成系統中的護欄在某些情況下往往過于寬松,而在另一些情況下又過于嚴格。圖像生成可能也面臨類似的困難。例如向必應查詢「在陽光炙烤下的荒蕪風景中有一座廁所」。必應拒絕回答,并返回了一個令人困惑的「檢測到不安全的圖像內容」的提示。

此外也有網友發現了如何突破 OpenAI 的內容防護護欄,來讓 DALL?E3生成部分圖像的方法。他們的做法是讓提示詞「包括區分角色的具體細節,如不同的發型、面部特征和身體紋理」和「使用顏色暗示原始圖像中獨特的色調、圖案和排列」。

Reddit 上的網友 Pitt.LOVEGOV 分享如何讓 ChatGPT 生成布拉德皮特的圖像。

Marcus 提供的第二種思路是過濾版權圖片來源。

在推特上已經有網友嘗試通過讓 ChatGPT 和 Google 反向圖像搜索識別來源,但這種方法成功率不高,特別是對于數據集中使用的比較新或者作者不是很知名的素材。這種方法的可靠性還有待觀察。

重要的是,雖然一些人工智能公司和現狀的捍衛者建議過濾掉侵權輸出作為補救措施,但這種過濾機制絕不應該是解決方案的全部。根據國際法保護知識產權和人權的意旨,任何創作者的作品都不應未經同意用于商業用途。

更多詳細內容,請參閱原博客。

參考鏈接:

https://spectrum.ieee.org/midjourney-copyright

https://www.deeplearning.ai/the-batch/issue-230/

分享到:
標簽:文生圖
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定