劃重點:
1. 高質(zhì)量數(shù)據(jù)對AI至關(guān)重要:強(qiáng)大、準(zhǔn)確和高質(zhì)量的AI算法需要大量高質(zhì)量的數(shù)據(jù)來進(jìn)行訓(xùn)練。
2. AI數(shù)據(jù)可能告急:研究人員預(yù)測,如果當(dāng)前的AI訓(xùn)練趨勢繼續(xù)下去,高質(zhì)量文本數(shù)據(jù)可能在2026年之前告急,而低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)也將在未來告急。
3. 解決數(shù)據(jù)短缺問題的方法:為了解決數(shù)據(jù)短缺問題,AI開發(fā)人員可以改進(jìn)算法,更有效地利用已有數(shù)據(jù)。此外,他們可以使用AI生成合成數(shù)據(jù)來訓(xùn)練系統(tǒng),以適應(yīng)特定的AI模型。
(ChinaZ.com)11月8日 消息:隨著人工智能(AI)達(dá)到巔峰,研究人員警告稱,AI行業(yè)可能會面臨訓(xùn)練數(shù)據(jù)告急的問題,這是強(qiáng)大AI系統(tǒng)的燃料。這可能會減緩AI模型的增長,特別是大型語言模型,并可能改變AI革命的軌跡。
為了訓(xùn)練強(qiáng)大、準(zhǔn)確和高質(zhì)量的AI算法,我們需要大量數(shù)據(jù)。例如,ChatGPT是基于570千兆字節(jié)的文本數(shù)據(jù)(大約3000億字)進(jìn)行訓(xùn)練的。類似地,stable diffusion算法(驅(qū)動許多AI圖像生成應(yīng)用,如DALL-E、Lensa和Midjourney)是基于包含58億圖像-文本對的LIAON-5B數(shù)據(jù)集進(jìn)行訓(xùn)練的。如果算法的訓(xùn)練數(shù)據(jù)不足,將會產(chǎn)生不準(zhǔn)確或低質(zhì)量的輸出。因此,訓(xùn)練數(shù)據(jù)的質(zhì)量同樣重要。低質(zhì)量數(shù)據(jù),如社交媒體帖子或模糊照片,容易獲取,但不足以訓(xùn)練高性能的AI模型。

圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
AI行業(yè)一直在不斷擴(kuò)大數(shù)據(jù)集的規(guī)模,這就是為什么我們現(xiàn)在擁有高性能模型,如ChatGPT或DALL-E3。與此同時,研究顯示,用于訓(xùn)練AI的在線數(shù)據(jù)庫增長速度遠(yuǎn)遠(yuǎn)慢于AI所需的數(shù)據(jù)集。在去年發(fā)表的一篇論文中,一組研究人員預(yù)測,如果當(dāng)前的AI訓(xùn)練趨勢繼續(xù)下去,我們將在2026年之前用盡高質(zhì)量文本數(shù)據(jù),而低質(zhì)量的語言數(shù)據(jù)將在2030年至2050年之間耗盡,低質(zhì)量的圖像數(shù)據(jù)將在2030年至2060年之間告急。盡管AI有望在未來幾年內(nèi)更有效地利用已有數(shù)據(jù)來訓(xùn)練高性能AI系統(tǒng),從而降低數(shù)據(jù)需求,但數(shù)據(jù)短缺問題仍需解決。
如何解決數(shù)據(jù)短缺問題?
雖然上述問題可能讓一些AI愛好者感到擔(dān)憂,但情況可能沒有看上去那么糟糕。關(guān)于AI模型未來的發(fā)展,還有許多未知因素,但有一些方法可以解決數(shù)據(jù)短缺的風(fēng)險。一種機(jī)會是讓AI開發(fā)人員改進(jìn)算法,使其更有效地利用已有數(shù)據(jù)。未來幾年內(nèi),他們有望能夠使用更少的數(shù)據(jù)和可能更少的計算能力來訓(xùn)練高性能AI系統(tǒng),這也將有助于減少AI的碳足跡。
另一種選擇是使用AI來生成合成數(shù)據(jù)以訓(xùn)練系統(tǒng)。換句話說,開發(fā)人員可以簡單地生成他們需要的數(shù)據(jù),以適應(yīng)其特定的AI模型。已經(jīng)有幾個項目正在使用合成內(nèi)容,通常是從數(shù)據(jù)生成服務(wù)中獲取的,這將在未來變得更加普遍。
開發(fā)人員還在尋找在線空間以外的內(nèi)容,如大型出版商和離線存儲庫中的內(nèi)容。想象一下在互聯(lián)網(wǎng)之前出版的數(shù)百萬篇文本,如果以數(shù)字形式提供,它們可能為AI項目提供新的數(shù)據(jù)來源。例如,新聞集團(tuán)(News Corp)是全球最大的新聞內(nèi)容所有者之一,最近表示正在與AI開發(fā)人員洽談內(nèi)容交易。這些交易將迫使AI公司為訓(xùn)練數(shù)據(jù)付費,而他們迄今大多免費從互聯(lián)網(wǎng)上獲取數(shù)據(jù)。內(nèi)容創(chuàng)作者已經(jīng)抗議允許未經(jīng)授權(quán)使用其內(nèi)容來訓(xùn)練AI模型,一些公司如微軟、OpenAI和Stability AI已被起訴。獲得對其工作的報酬可能有助于恢復(fù)創(chuàng)意工作者和AI公司之間存在的一些權(quán)力失衡。






