大多數(shù)人可能并不知道,我們?yōu)g覽和創(chuàng)建的網(wǎng)站上充斥著各種數(shù)字蜘蛛。其中最活躍的蜘蛛可能就是谷歌爬蟲(chóng),它自動(dòng)收集網(wǎng)頁(yè)信息,以便谷歌可以在搜索結(jié)果中對(duì)其進(jìn)行排名和展示。
就在此刻,這些蜘蛛正在爬行并收集我所寫(xiě)的每一個(gè)字,這種想法確實(shí)有些令人毛骨悚然。
然而,這些數(shù)字蜘蛛也是非常有用的。舉個(gè)例子,假設(shè)我在2003年寫(xiě)了一本旅行書(shū)。當(dāng)谷歌的爬蟲(chóng)爬過(guò)我的書(shū)籍網(wǎng)頁(yè)時(shí),我會(huì)感到非常高興,因?yàn)檫@意味著當(dāng)人們搜索旅行書(shū)籍時(shí),他們可能會(huì)被引導(dǎo)到我的書(shū)籍頁(yè)面。這樣,他們就有可能購(gòu)買(mǎi)并閱讀我的書(shū)籍。
這是互聯(lián)網(wǎng)經(jīng)濟(jì)蓬勃發(fā)展的偉大交易:谷歌爬取您的內(nèi)容并為您帶來(lái)流量,從而激勵(lì)您繼續(xù)在網(wǎng)絡(luò)上發(fā)布信息。
然而,如今,新興的生成式人工智能(AI)和大型語(yǔ)言模型正在破壞這種交易。最近,OpenAI承認(rèn)他們有一只名為GPTbot的這種爬蟲(chóng)在網(wǎng)上活動(dòng),用于收集在線內(nèi)容以進(jìn)行AI模型訓(xùn)練。未來(lái)的大型模型GPT-5很可能會(huì)基于這個(gè)機(jī)器人收集的數(shù)據(jù)進(jìn)行訓(xùn)練。
GPT-4、ChatGPT和其他強(qiáng)大的模型可以即時(shí)智能地回答問(wèn)題,這降低了用戶查看原始信息來(lái)源的需求。這對(duì)用戶體驗(yàn)來(lái)說(shuō)可能是非常好的,但同時(shí)也削弱了共享高質(zhì)量免費(fèi)在線內(nèi)容的激勵(lì)。
那么,作為免費(fèi)在線內(nèi)容的生產(chǎn)者,為什么要允許OpenAI爬取我們的材料,并將這些數(shù)據(jù)用于訓(xùn)練未來(lái)的語(yǔ)言模型呢?您可能已經(jīng)注意到這種行為,因?yàn)樵絹?lái)越少的人訪問(wèn)Stack Overflow來(lái)獲取軟件編碼的幫助。
OpenAI的爬蟲(chóng)程序潛伏在網(wǎng)絡(luò)上已經(jīng)有一段時(shí)間了,我們還不清楚具體有多久。該公司最近宣布了使用常見(jiàn)協(xié)議robots.txt來(lái)阻止GPTbot的方法。一些創(chuàng)作者已經(jīng)采取了這個(gè)方法,盡管有些人懷疑OpenAI是否已經(jīng)在秘密地搜集了所有人幾個(gè)月甚至幾年的在線數(shù)據(jù)。
對(duì)于那些依賴(lài)廣告和流量的網(wǎng)站來(lái)說(shuō),OpenAI的行為可能會(huì)對(duì)他們的收入產(chǎn)生負(fù)面影響。如果人們通過(guò)OpenAI的模型獲得他們網(wǎng)站的回答,那么這些網(wǎng)站的廣告收入可能會(huì)減少。
總的來(lái)說(shuō),OpenAI的爬蟲(chóng)行為引發(fā)了對(duì)數(shù)字蜘蛛的討論。一方面,這些爬蟲(chóng)為用戶提供了更好的體驗(yàn),使他們能夠快速獲得所需的信息。但另一方面,它們可能削弱了創(chuàng)作者的激勵(lì),使他們難以獲得流量和收入。
如今,創(chuàng)作者們面臨著一個(gè)重要的決策:是否允許OpenAI爬取他們的內(nèi)容,并為他們的語(yǔ)言模型提供數(shù)據(jù)。這是一個(gè)復(fù)雜的問(wèn)題,需要綜合考慮創(chuàng)作者自身的利益以及整個(gè)互聯(lián)網(wǎng)生態(tài)系統(tǒng)的健康。
無(wú)論您對(duì)數(shù)字蜘蛛持何種態(tài)度,它們已經(jīng)成為互聯(lián)網(wǎng)世界中不可或缺的一部分。我們需要找到一種平衡,既能夠滿足用戶的需求,又能夠保護(hù)創(chuàng)作者的權(quán)益。這是一個(gè)需要全球社區(qū)共同努力的挑戰(zhàn)。