就在不久前,分析師們還公開(kāi)猜測(cè),人工智能(AI)是否會(huì)導(dǎo)致面向創(chuàng)意人士的軟件開(kāi)發(fā)商Adobe衰落。像Dall-E 2和MidTrik這樣的新工具,可以根據(jù)提示文本生成相應(yīng)的圖片,它們似乎讓Adobe的圖像編輯功能變得多余。就在今年4月,金融新聞網(wǎng)站Seeking Alpha還發(fā)表了題為《人工智能會(huì)是Adobe殺手嗎?》的文章。

但在現(xiàn)實(shí)中,事實(shí)距離分析師們的假設(shè)尚遠(yuǎn)。Adobe利用其數(shù)以?xún)|計(jì)的庫(kù)存照片數(shù)據(jù)庫(kù)構(gòu)建了自己的人工智能工具套件,名為Firefly。該公司高管達(dá)納·拉奧(Dana Rao)表示,自3月份發(fā)布以來(lái),F(xiàn)irefly已被用于創(chuàng)建超過(guò)10億張圖像。通過(guò)避免像競(jìng)爭(zhēng)對(duì)手那樣在互聯(lián)網(wǎng)上挖掘圖像,Adobe避開(kāi)了目前困擾著整個(gè)行業(yè)的、日益加深的版權(quán)糾紛。自Firefly推出以來(lái),Adobe股價(jià)已經(jīng)上漲了36%。
一場(chǎng)數(shù)據(jù)爭(zhēng)奪戰(zhàn)正在拉開(kāi)序幕
Adobe干翻所謂“末日殺手”的勝利表明,在快速發(fā)展的人工智能工具市場(chǎng)上爭(zhēng)奪主導(dǎo)地位具有更廣泛的意義。為最新一波所謂的“生成式人工智能”提供動(dòng)力的超大模型依賴(lài)于海量的數(shù)據(jù)。此前,模型構(gòu)建者多數(shù)時(shí)候從互聯(lián)網(wǎng)抓取數(shù)據(jù)(通常是未經(jīng)許可的)?,F(xiàn)在,他們正在尋找新的數(shù)據(jù)來(lái)源來(lái)維持這種瘋狂的訓(xùn)練模式。與此同時(shí),擁有大量新式數(shù)據(jù)的公司正在權(quán)衡如何最好地從中獲利。一場(chǎng)數(shù)據(jù)爭(zhēng)奪戰(zhàn)正在拉開(kāi)序幕。
人工智能模型的兩個(gè)基本要素就是數(shù)據(jù)集和處理能力,系統(tǒng)在數(shù)據(jù)集上接受訓(xùn)練,模型通過(guò)處理能力檢測(cè)這些數(shù)據(jù)集內(nèi)外部之間的關(guān)系。在某種程度上,這兩大基本要素可以相互替代:一個(gè)模型可以通過(guò)吸收更多數(shù)據(jù)或增加更多處理能力加以改進(jìn)。然而,在專(zhuān)業(yè)人工智能芯片短缺的情況下,后者正變得越來(lái)越困難,這導(dǎo)致模型構(gòu)建者加倍專(zhuān)注于尋找數(shù)據(jù)。
研究機(jī)構(gòu)Epoch AI認(rèn)為,對(duì)數(shù)據(jù)的需求將會(huì)急劇增加,以至于可用于訓(xùn)練的高質(zhì)量文本可能會(huì)在2026年耗盡。據(jù)悉,谷歌和Meta這兩家科技巨頭的最新人工智能模型已經(jīng)接受了超過(guò)1萬(wàn)億個(gè)單詞的訓(xùn)練。相比之下,在線百科全書(shū)Wikipedia上的英語(yǔ)單詞總數(shù)約為40億個(gè)。
重要的不僅僅是數(shù)據(jù)集的大小。數(shù)據(jù)越好,利用其進(jìn)行訓(xùn)練的模型表現(xiàn)也會(huì)越好。數(shù)據(jù)初創(chuàng)公司Scale AI的拉塞爾·卡普蘭(Russell Kaplan)指出,基于文本的模型的理想訓(xùn)練對(duì)象是篇幅夠長(zhǎng)、文筆良好、事實(shí)準(zhǔn)確的作品。輸入這些信息的模型更有可能產(chǎn)生類(lèi)似的高質(zhì)量輸出。
同樣,當(dāng)被要求一步一步地解釋它們的工作時(shí),人工智能聊天機(jī)器人會(huì)給出更好的答案,這也增加了對(duì)教科書(shū)等資源的需求。專(zhuān)用的信息集也變得更有價(jià)值,因?yàn)樗鼈冊(cè)试S對(duì)模型進(jìn)行“微調(diào)”,以適應(yīng)更小眾的應(yīng)用。微軟在2018年以75億美元收購(gòu)了軟件代碼存儲(chǔ)庫(kù)Github,并利用其開(kāi)發(fā)了一種編寫(xiě)代碼的人工智能工具。
數(shù)據(jù)版權(quán)官司激增,AI公司忙著簽授權(quán)協(xié)議
隨著對(duì)數(shù)據(jù)需求的增長(zhǎng),獲取數(shù)據(jù)缺變得越來(lái)越棘手,內(nèi)容創(chuàng)作者現(xiàn)在要求對(duì)被人工智能模型吸收的材料給與補(bǔ)償。在美國(guó),已經(jīng)有許多針對(duì)模型構(gòu)建者發(fā)起的侵犯版權(quán)案件。包括喜劇演員莎拉·西爾弗曼(Sarah Silverman)在內(nèi)的一群作家,正在起訴人工智能聊天機(jī)器人ChatGPT開(kāi)發(fā)商O(píng)penAI和Facebook母公司Meta。此外,一群藝術(shù)家也同樣起訴了Stability AI和Midjourney,這兩家公司致力于開(kāi)發(fā)文本轉(zhuǎn)圖像的工具。
所有這一切導(dǎo)致的結(jié)果是,隨著人工智能公司競(jìng)相獲取數(shù)據(jù)源,出現(xiàn)了一連串的交易。今年7月,OpenAI與美聯(lián)社簽署了一項(xiàng)協(xié)議,以獲取該機(jī)構(gòu)的新聞檔案。最近,該公司還擴(kuò)大了與圖片庫(kù)提供商Shutterstock的協(xié)議,Meta也與后者達(dá)成了協(xié)議。
8月初有報(bào)道稱(chēng),谷歌正在與唱片公司環(huán)球音樂(lè)(Universal Music)進(jìn)行談判,希望后者授權(quán)藝術(shù)家的聲音以用于幫助開(kāi)發(fā)歌曲創(chuàng)作人工智能工具。資產(chǎn)管理公司富達(dá)(Fidelity)表示,許多科技公司曾與該公司接洽,要求獲取其財(cái)務(wù)數(shù)據(jù)。有傳言稱(chēng),人工智能實(shí)驗(yàn)室正在接洽英國(guó)公共廣播公司(BBC),以獲取其圖像和電影檔案。另一個(gè)受關(guān)注的目標(biāo)是JSTOR,這是一個(gè)學(xué)術(shù)期刊的數(shù)字圖書(shū)館。
這些信息持有者正在利用他們更大的議價(jià)能力。論壇Reddit和備受程序員歡迎的問(wèn)答網(wǎng)站Stack Overflow都提高了訪問(wèn)其數(shù)據(jù)的成本。這兩個(gè)網(wǎng)站都特別有價(jià)值,因?yàn)橛脩?hù)會(huì)給喜歡的答案“點(diǎn)贊”,幫助模型知道哪些是最相關(guān)的內(nèi)容。社交媒體網(wǎng)站X(前身為推特)已經(jīng)采取措施,限制機(jī)器人抓取該網(wǎng)站信息的能力,現(xiàn)在任何想要訪問(wèn)其數(shù)據(jù)的人都要付費(fèi)。X老板埃隆·馬斯克(Elon Musk)正計(jì)劃利用這些數(shù)據(jù)建立自己的人工智能業(yè)務(wù)。
因此,模型構(gòu)建者正在努力提高他們已經(jīng)擁有的數(shù)據(jù)的質(zhì)量。許多人工智能實(shí)驗(yàn)室雇傭大量的數(shù)據(jù)注釋者來(lái)執(zhí)行標(biāo)記圖像和評(píng)級(jí)答案等任務(wù)。其中一些工作很復(fù)雜,甚至需要招聘擁有生命科學(xué)專(zhuān)業(yè)的碩士或博士求職者。但其中大部分工作都很普通,而且正在外包給肯尼亞等國(guó)的廉價(jià)勞動(dòng)力。
人工智能公司也通過(guò)用戶(hù)與他們工具的互動(dòng)來(lái)收集數(shù)據(jù)。其中,許多工具都有某種形式的反饋機(jī)制,由用戶(hù)指出哪些輸出是有用的。Firefly的文本轉(zhuǎn)圖像生成器允許用戶(hù)從四個(gè)選項(xiàng)中做出選擇。谷歌的聊天機(jī)器人巴德(Bard)同樣提供了三個(gè)答案。
當(dāng)ChatGPT回復(fù)查詢(xún)時(shí),用戶(hù)可以給它豎起大拇指點(diǎn)贊。這些信息可以作為輸入反饋到底層模型中,形成創(chuàng)業(yè)公司Contextual AI聯(lián)合創(chuàng)始人杜威·基拉(Douwe Kiela)所說(shuō)的“數(shù)據(jù)飛輪”。他補(bǔ)充說(shuō),衡量聊天機(jī)器人回答質(zhì)量的一個(gè)更強(qiáng)的信號(hào)是,用戶(hù)是否復(fù)制文本并將其粘貼到其他地方。分析這些信息有助于谷歌迅速改進(jìn)其翻譯工具。
開(kāi)拓新領(lǐng)域,企業(yè)客戶(hù)內(nèi)部數(shù)據(jù)成香餑餑
然而,有一個(gè)數(shù)據(jù)來(lái)源在很大程度上仍未被開(kāi)發(fā),即存在于科技公司企業(yè)客戶(hù)內(nèi)部的信息。許多企業(yè)往往在不知不覺(jué)中擁有大量有用的數(shù)據(jù),從呼叫中心記錄到客戶(hù)支出記錄等。這些信息特別有價(jià)值,因?yàn)樗梢詭椭⒄{(diào)特定商業(yè)目的模型,比如幫助呼叫中心的工作人員回答客戶(hù)的問(wèn)題,或者幫助業(yè)務(wù)分析師找到提振銷(xiāo)售的方法。
然而,利用這種豐富的資源并不容易。咨詢(xún)公司貝恩的分析師羅伊·辛格(Roy Singh)指出,從歷史上看,大多數(shù)公司很少關(guān)注那些將被證明對(duì)訓(xùn)練人工智能工具最有用的龐大但非結(jié)構(gòu)化的數(shù)據(jù)集。這些數(shù)據(jù)通常分布在多個(gè)系統(tǒng)中,隱藏在公司服務(wù)器中,而不是在云端。
解鎖這些信息將有助于企業(yè)定制人工智能工具,以更好地滿(mǎn)足他們的特定需求。亞馬遜和微軟這兩家科技巨頭現(xiàn)在都提供工具,以幫助其他企業(yè)更好地管理非結(jié)構(gòu)化數(shù)據(jù)集,谷歌也是如此。數(shù)據(jù)庫(kù)公司Snowflake的克里斯蒂安·克萊納曼(Christian Kleinerman)說(shuō),隨著客戶(hù)希望“打破數(shù)據(jù)孤島”,該領(lǐng)域正在蓬勃發(fā)展。
初創(chuàng)公司也正在蜂擁至這個(gè)新領(lǐng)域。今年4月,專(zhuān)注于人工智能的數(shù)據(jù)庫(kù)公司W(wǎng)eaviate融資5000萬(wàn)美元,估值達(dá)到2億美元。僅僅一周后,其競(jìng)爭(zhēng)對(duì)手PineCone就以7.5億美元的估值籌集了1億美元資金。本月早些時(shí)候,另一家數(shù)據(jù)庫(kù)初創(chuàng)公司Neon也獲得了4600萬(wàn)美元的融資。顯然,對(duì)數(shù)據(jù)的爭(zhēng)奪才剛剛開(kāi)始。(文/金鹿)






