思思91精品国产综合在线,今野由爱毛片在线播放,久久久久国产一级毛片高清板

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁(yè) > 新聞資訊 > IT業(yè)界 >正文

AI要被卡脖子了？訓(xùn)練大模型的數(shù)據(jù)或在2026年耗盡

發(fā)布時(shí)間：2023-09-30 21:08:26 作者：網(wǎng)友整理

就在不久前，分析師們還公開(kāi)猜測(cè)，人工智能（AI）是否會(huì)導(dǎo)致面向創(chuàng)意人士的軟件開(kāi)發(fā)商Adobe衰落。像Dall-E 2和MidTrik這樣的新工具，可以根據(jù)提示文本生成相應(yīng)的圖片，它們似乎讓Adobe的圖像編輯功能變得多余。就在今年4月，金融新聞網(wǎng)站Seeking Alpha還發(fā)表了題為《人工智能會(huì)是Adobe殺手嗎?》的文章。

但在現(xiàn)實(shí)中，事實(shí)距離分析師們的假設(shè)尚遠(yuǎn)。Adobe利用其數(shù)以?xún)|計(jì)的庫(kù)存照片數(shù)據(jù)庫(kù)構(gòu)建了自己的人工智能工具套件，名為Firefly。該公司高管達(dá)納·拉奧(Dana Rao)表示，自3月份發(fā)布以來(lái)，F(xiàn)irefly已被用于創(chuàng)建超過(guò)10億張圖像。通過(guò)避免像競(jìng)爭(zhēng)對(duì)手那樣在互聯(lián)網(wǎng)上挖掘圖像，Adobe避開(kāi)了目前困擾著整個(gè)行業(yè)的、日益加深的版權(quán)糾紛。自Firefly推出以來(lái)，Adobe股價(jià)已經(jīng)上漲了36%。

一場(chǎng)數(shù)據(jù)爭(zhēng)奪戰(zhàn)正在拉開(kāi)序幕

Adobe干翻所謂“末日殺手”的勝利表明，在快速發(fā)展的人工智能工具市場(chǎng)上爭(zhēng)奪主導(dǎo)地位具有更廣泛的意義。為最新一波所謂的“生成式人工智能”提供動(dòng)力的超大模型依賴(lài)于海量的數(shù)據(jù)。此前，模型構(gòu)建者多數(shù)時(shí)候從互聯(lián)網(wǎng)抓取數(shù)據(jù)（通常是未經(jīng)許可的）?，F(xiàn)在，他們正在尋找新的數(shù)據(jù)來(lái)源來(lái)維持這種瘋狂的訓(xùn)練模式。與此同時(shí)，擁有大量新式數(shù)據(jù)的公司正在權(quán)衡如何最好地從中獲利。一場(chǎng)數(shù)據(jù)爭(zhēng)奪戰(zhàn)正在拉開(kāi)序幕。

人工智能模型的兩個(gè)基本要素就是數(shù)據(jù)集和處理能力，系統(tǒng)在數(shù)據(jù)集上接受訓(xùn)練，模型通過(guò)處理能力檢測(cè)這些數(shù)據(jù)集內(nèi)外部之間的關(guān)系。在某種程度上，這兩大基本要素可以相互替代：一個(gè)模型可以通過(guò)吸收更多數(shù)據(jù)或增加更多處理能力加以改進(jìn)。然而，在專(zhuān)業(yè)人工智能芯片短缺的情況下，后者正變得越來(lái)越困難，這導(dǎo)致模型構(gòu)建者加倍專(zhuān)注于尋找數(shù)據(jù)。

研究機(jī)構(gòu)Epoch AI認(rèn)為，對(duì)數(shù)據(jù)的需求將會(huì)急劇增加，以至于可用于訓(xùn)練的高質(zhì)量文本可能會(huì)在2026年耗盡。據(jù)悉，谷歌和Meta這兩家科技巨頭的最新人工智能模型已經(jīng)接受了超過(guò)1萬(wàn)億個(gè)單詞的訓(xùn)練。相比之下，在線百科全書(shū)Wikipedia上的英語(yǔ)單詞總數(shù)約為40億個(gè)。

重要的不僅僅是數(shù)據(jù)集的大小。數(shù)據(jù)越好，利用其進(jìn)行訓(xùn)練的模型表現(xiàn)也會(huì)越好。數(shù)據(jù)初創(chuàng)公司Scale AI的拉塞爾·卡普蘭(Russell Kaplan)指出，基于文本的模型的理想訓(xùn)練對(duì)象是篇幅夠長(zhǎng)、文筆良好、事實(shí)準(zhǔn)確的作品。輸入這些信息的模型更有可能產(chǎn)生類(lèi)似的高質(zhì)量輸出。

同樣，當(dāng)被要求一步一步地解釋它們的工作時(shí)，人工智能聊天機(jī)器人會(huì)給出更好的答案，這也增加了對(duì)教科書(shū)等資源的需求。專(zhuān)用的信息集也變得更有價(jià)值，因?yàn)樗鼈冊(cè)试S對(duì)模型進(jìn)行“微調(diào)”，以適應(yīng)更小眾的應(yīng)用。微軟在2018年以75億美元收購(gòu)了軟件代碼存儲(chǔ)庫(kù)Github，并利用其開(kāi)發(fā)了一種編寫(xiě)代碼的人工智能工具。

數(shù)據(jù)版權(quán)官司激增，AI公司忙著簽授權(quán)協(xié)議

隨著對(duì)數(shù)據(jù)需求的增長(zhǎng)，獲取數(shù)據(jù)缺變得越來(lái)越棘手，內(nèi)容創(chuàng)作者現(xiàn)在要求對(duì)被人工智能模型吸收的材料給與補(bǔ)償。在美國(guó)，已經(jīng)有許多針對(duì)模型構(gòu)建者發(fā)起的侵犯版權(quán)案件。包括喜劇演員莎拉·西爾弗曼(Sarah Silverman)在內(nèi)的一群作家，正在起訴人工智能聊天機(jī)器人ChatGPT開(kāi)發(fā)商O(píng)penAI和Facebook母公司Meta。此外，一群藝術(shù)家也同樣起訴了Stability AI和Midjourney，這兩家公司致力于開(kāi)發(fā)文本轉(zhuǎn)圖像的工具。

所有這一切導(dǎo)致的結(jié)果是，隨著人工智能公司競(jìng)相獲取數(shù)據(jù)源，出現(xiàn)了一連串的交易。今年7月，OpenAI與美聯(lián)社簽署了一項(xiàng)協(xié)議，以獲取該機(jī)構(gòu)的新聞檔案。最近，該公司還擴(kuò)大了與圖片庫(kù)提供商Shutterstock的協(xié)議，Meta也與后者達(dá)成了協(xié)議。

8月初有報(bào)道稱(chēng)，谷歌正在與唱片公司環(huán)球音樂(lè)(Universal Music)進(jìn)行談判，希望后者授權(quán)藝術(shù)家的聲音以用于幫助開(kāi)發(fā)歌曲創(chuàng)作人工智能工具。資產(chǎn)管理公司富達(dá)(Fidelity)表示，許多科技公司曾與該公司接洽，要求獲取其財(cái)務(wù)數(shù)據(jù)。有傳言稱(chēng)，人工智能實(shí)驗(yàn)室正在接洽英國(guó)公共廣播公司（BBC），以獲取其圖像和電影檔案。另一個(gè)受關(guān)注的目標(biāo)是JSTOR，這是一個(gè)學(xué)術(shù)期刊的數(shù)字圖書(shū)館。

這些信息持有者正在利用他們更大的議價(jià)能力。論壇Reddit和備受程序員歡迎的問(wèn)答網(wǎng)站Stack Overflow都提高了訪問(wèn)其數(shù)據(jù)的成本。這兩個(gè)網(wǎng)站都特別有價(jià)值，因?yàn)橛脩?hù)會(huì)給喜歡的答案“點(diǎn)贊”，幫助模型知道哪些是最相關(guān)的內(nèi)容。社交媒體網(wǎng)站X(前身為推特)已經(jīng)采取措施，限制機(jī)器人抓取該網(wǎng)站信息的能力，現(xiàn)在任何想要訪問(wèn)其數(shù)據(jù)的人都要付費(fèi)。X老板埃隆·馬斯克(Elon Musk)正計(jì)劃利用這些數(shù)據(jù)建立自己的人工智能業(yè)務(wù)。

因此，模型構(gòu)建者正在努力提高他們已經(jīng)擁有的數(shù)據(jù)的質(zhì)量。許多人工智能實(shí)驗(yàn)室雇傭大量的數(shù)據(jù)注釋者來(lái)執(zhí)行標(biāo)記圖像和評(píng)級(jí)答案等任務(wù)。其中一些工作很復(fù)雜，甚至需要招聘擁有生命科學(xué)專(zhuān)業(yè)的碩士或博士求職者。但其中大部分工作都很普通，而且正在外包給肯尼亞等國(guó)的廉價(jià)勞動(dòng)力。

人工智能公司也通過(guò)用戶(hù)與他們工具的互動(dòng)來(lái)收集數(shù)據(jù)。其中，許多工具都有某種形式的反饋機(jī)制，由用戶(hù)指出哪些輸出是有用的。Firefly的文本轉(zhuǎn)圖像生成器允許用戶(hù)從四個(gè)選項(xiàng)中做出選擇。谷歌的聊天機(jī)器人巴德(Bard)同樣提供了三個(gè)答案。

當(dāng)ChatGPT回復(fù)查詢(xún)時(shí)，用戶(hù)可以給它豎起大拇指點(diǎn)贊。這些信息可以作為輸入反饋到底層模型中，形成創(chuàng)業(yè)公司Contextual AI聯(lián)合創(chuàng)始人杜威·基拉(Douwe Kiela)所說(shuō)的“數(shù)據(jù)飛輪”。他補(bǔ)充說(shuō)，衡量聊天機(jī)器人回答質(zhì)量的一個(gè)更強(qiáng)的信號(hào)是，用戶(hù)是否復(fù)制文本并將其粘貼到其他地方。分析這些信息有助于谷歌迅速改進(jìn)其翻譯工具。

開(kāi)拓新領(lǐng)域，企業(yè)客戶(hù)內(nèi)部數(shù)據(jù)成香餑餑

然而，有一個(gè)數(shù)據(jù)來(lái)源在很大程度上仍未被開(kāi)發(fā)，即存在于科技公司企業(yè)客戶(hù)內(nèi)部的信息。許多企業(yè)往往在不知不覺(jué)中擁有大量有用的數(shù)據(jù)，從呼叫中心記錄到客戶(hù)支出記錄等。這些信息特別有價(jià)值，因?yàn)樗梢詭椭⒄{(diào)特定商業(yè)目的模型，比如幫助呼叫中心的工作人員回答客戶(hù)的問(wèn)題，或者幫助業(yè)務(wù)分析師找到提振銷(xiāo)售的方法。

然而，利用這種豐富的資源并不容易。咨詢(xún)公司貝恩的分析師羅伊·辛格(Roy Singh)指出，從歷史上看，大多數(shù)公司很少關(guān)注那些將被證明對(duì)訓(xùn)練人工智能工具最有用的龐大但非結(jié)構(gòu)化的數(shù)據(jù)集。這些數(shù)據(jù)通常分布在多個(gè)系統(tǒng)中，隱藏在公司服務(wù)器中，而不是在云端。

解鎖這些信息將有助于企業(yè)定制人工智能工具，以更好地滿(mǎn)足他們的特定需求。亞馬遜和微軟這兩家科技巨頭現(xiàn)在都提供工具，以幫助其他企業(yè)更好地管理非結(jié)構(gòu)化數(shù)據(jù)集，谷歌也是如此。數(shù)據(jù)庫(kù)公司Snowflake的克里斯蒂安·克萊納曼（Christian Kleinerman）說(shuō)，隨著客戶(hù)希望“打破數(shù)據(jù)孤島”，該領(lǐng)域正在蓬勃發(fā)展。

初創(chuàng)公司也正在蜂擁至這個(gè)新領(lǐng)域。今年4月，專(zhuān)注于人工智能的數(shù)據(jù)庫(kù)公司W(wǎng)eaviate融資5000萬(wàn)美元，估值達(dá)到2億美元。僅僅一周后，其競(jìng)爭(zhēng)對(duì)手PineCone就以7.5億美元的估值籌集了1億美元資金。本月早些時(shí)候，另一家數(shù)據(jù)庫(kù)初創(chuàng)公司Neon也獲得了4600萬(wàn)美元的融資。顯然，對(duì)數(shù)據(jù)的爭(zhēng)奪才剛剛開(kāi)始。（文/金鹿）

分享到：

標(biāo)簽：模型