亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52003
  • 待審:43
  • 小程序:12
  • 文章:1047590
  • 會(huì)員:762

白交 衡宇 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

首個(gè)AI程序員,演示視頻大幅度造假???

不久之前震撼硅谷的Devin,再度震撼硅谷——但這次是被打假。

事情是這樣的:油管程序員博主Inte.NET of Bugs(以下簡(jiǎn)稱光頭哥)對(duì)Devin的視頻進(jìn)行了逐幀分析,逐一舉證說(shuō)明了Devin并不如演示中那般神奇。

甚至有“自己現(xiàn)寫bug然后當(dāng)場(chǎng)修復(fù)”的騷操作。

其它“罪證”,包括但不限于:

  • 號(hào)稱能解決任何Upwork任務(wù),但演示中解決的問(wèn)題并不是prompt要解決的那一個(gè),做無(wú)用功;

  • 看起來(lái)在修復(fù)bug,實(shí)際上修復(fù)的bug人類程序員根本就不會(huì)犯;

  • 沒(méi)有意識(shí)到簡(jiǎn)單兩步就能解決問(wèn)題,花里胡哨一頓操作,其實(shí)是自己把任務(wù)搞復(fù)雜了;

  • 修改代碼的水平一言難盡。

此外,光頭哥花了半個(gè)多小時(shí),把Devin演示視頻中的upwork任務(wù)完成了一遍——而Devin完成任務(wù)可能用時(shí)6個(gè)多小時(shí)。

啊這這這,真是好、大、一、口、瓜!

要知道,其背后公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當(dāng)月宣布成功融資2100萬(wàn)美金。

推特和YC上已經(jīng)吵翻天了,讓這件事的討論度高居不下。

我請(qǐng)問(wèn)呢?真的很討厭演示造假,讓demo看起來(lái)輕松達(dá)到意料之外的技術(shù)進(jìn)步。

還有人表示自己很受傷,再也不會(huì)相信各種冒出來(lái)的創(chuàng)業(yè)公司的東西了。

emmmm……我還是把期待值全部留給OpenAI、Anthropic、DeepMind、FAIR這些公司和機(jī)構(gòu)吧。

完整詳情,一起接著往下看。

35年從業(yè)者逐幀驗(yàn)證

此次出來(lái)聲張正義的光頭哥,從事軟件行業(yè)已經(jīng)35年。他首先聲明自己的立場(chǎng):我并不反對(duì)高科技,但我確實(shí)反對(duì)過(guò)度炒作。

他自己也經(jīng)常使用Github Copilot、ChatGPT、LIama2、Stable Diffusion。

事實(shí)上,在Devin剛推出時(shí)候,他就反對(duì)過(guò)“世界上第一個(gè)AI軟件工程師”這一說(shuō)法。

此次則主要針對(duì)的是一些更為具體的說(shuō)法。

比如之前Devin號(hào)稱能夠靠處理upwork任務(wù)來(lái)賺錢的。但在真正的演示中Devin并沒(méi)有做到這一點(diǎn)。

不信?沒(méi)關(guān)系,光頭哥帶著逐幀的證據(jù)來(lái)了。

總結(jié)如下:

  • Devin所處理的任務(wù)并非隨機(jī),而是精心挑選;

  • 與客戶實(shí)際需求有很大的出入;

  • 實(shí)際操作過(guò)程,數(shù)次自己創(chuàng)造bug然后再修復(fù);

  • 很多毫無(wú)意義的操作,相當(dāng)于幾十年前在C語(yǔ)言中才用的方法;

    ???

首先,來(lái)到了演示視頻的2.936秒處,在屏幕左上角有顯示他們搜索過(guò)這個(gè)內(nèi)容。因此,這不是所謂“隨機(jī)”選擇的任務(wù)。

再來(lái)看客戶給到的具體需求。真正需求為“我想要利用這個(gè)庫(kù)來(lái)進(jìn)行推理。你需要提供詳細(xì)的操作指南。我不想討論完成這項(xiàng)工作預(yù)計(jì)需要的時(shí)間。”

但給到Devin的需求卻是:我希望利用這個(gè)模型在這個(gè)庫(kù)中進(jìn)行推理。請(qǐng)自己弄明白。

最后視頻末尾出現(xiàn)的Devin生成報(bào)告中,也沒(méi)有提及客戶實(shí)際需要的內(nèi)容。

那么,這份工作的最終交付成果應(yīng)該包括什么呢?

但Devin實(shí)際做了什么?

Devin第一次真正的嘗試,是它修改了一個(gè)名為requirements.txt文件,其中規(guī)定了代碼所依賴的庫(kù)版本。視頻中提到它正在更新代碼,但實(shí)際上更像是修改配置文件。

然后根據(jù)需求,需要Devin能建立自己的推理能力,并僅需使用樣例數(shù)據(jù)即可。但實(shí)際項(xiàng)目要比這個(gè)復(fù)雜得多。

結(jié)果很快,Devin就遇到了第一個(gè)命令行錯(cuò)誤——打開圖像失敗、文件未找到、無(wú)此文件或目錄等。但在光頭哥實(shí)際復(fù)現(xiàn)時(shí)并沒(méi)有出現(xiàn),結(jié)果研究發(fā)現(xiàn),代碼倉(cāng)庫(kù)壓根就不存在這個(gè)文件。

這相當(dāng)于Devin自己創(chuàng)建了個(gè)bug,然后再修復(fù)bug。在接下來(lái)的操作中,Devin經(jīng)歷了很多次這樣的“自建自修”。

不能說(shuō)十分有用,只能說(shuō)完全沒(méi)有必要。

接下來(lái),再來(lái)看看代碼庫(kù)中這樣一個(gè)readme文件。正如視頻所展示的那樣,readme文件清晰地說(shuō)明了該文件的功能和用法。在頁(yè)面右側(cè),甚至還有一個(gè)小按鈕,點(diǎn)擊它就可以復(fù)制整條命令,然后粘貼到命令行窗口中,按下回車即可運(yùn)行。

但Devin完全沒(méi)能理解,而又是自創(chuàng)了個(gè)項(xiàng)目。而寫的那段從緩沖區(qū)讀取數(shù)據(jù)的代碼十分糟糕。

于是光頭哥發(fā)出了靈魂拷問(wèn):

這不就是幾十年前在C語(yǔ)言等中才用的方法嗎???

這種做法顯然已經(jīng)過(guò)時(shí),正常人用Python/ target=_blank class=infotextkey>Python誰(shuí)還會(huì)再寫這個(gè)代碼。這種代碼很難調(diào)試,它邏輯復(fù)雜,難以理解,很容易出現(xiàn)細(xì)微的錯(cuò)誤。

此外,代碼庫(kù)中還存在一個(gè)真正的錯(cuò)誤,但Devin既沒(méi)有發(fā)現(xiàn)也沒(méi)有修復(fù)。

然后光頭哥用谷歌搜索,按照GitHub 上一條相關(guān)評(píng)論修改了代碼,只花了1分07秒,問(wèn)題就解決了。

最終光頭哥總共花了35分55秒復(fù)現(xiàn)了Devin的工作,而Devin實(shí)際花了多長(zhǎng)時(shí)間呢?

如果細(xì)看視頻Demo,就會(huì)發(fā)現(xiàn)Devin處理工作前后有6個(gè)小時(shí)20分鐘的間隔。

視頻的前部分顯示的是3月9日下午3:25 的時(shí)間戳,但后半部分卻顯示的是當(dāng)天晚上9:41。

而逐幀細(xì)看就有會(huì)發(fā)現(xiàn)一些奇怪且毫無(wú)意義的操作。

比如head -N 5 results.json | tail -N 5這個(gè)命令,它表示取這個(gè)JSON 文件的前五行,然后再取這些行的最后五行。

正確的做法應(yīng)該是”head-5 results.json”。那個(gè)-N 是多余的。只要說(shuō) -5 就可以,不需要那些多余的東西。

最后光頭哥銳評(píng),AI現(xiàn)在生成的內(nèi)容有很多都十分愚蠢,反倒會(huì)讓事情變得更為復(fù)雜。

當(dāng)看到它的任務(wù)列表時(shí),會(huì)覺(jué)得:哇,Devin做了很多事情。但實(shí)際上可能并非如此。

網(wǎng)友:至少掌握了看起來(lái)很忙的技巧

對(duì)于此次Devin造假翻車,不少網(wǎng)友對(duì)現(xiàn)階段AI產(chǎn)品炒作嗤之以鼻。

我真的很討厭現(xiàn)在演示造假變得如此正常化

甚至還列出了三大炒作典范:Devin、rabbit、Humane。

也有網(wǎng)友調(diào)侃:Devin至少掌握了看起來(lái)很忙的技巧。

嗯?打工人有被內(nèi)涵到。

不過(guò)也有一些支持的網(wǎng)友,比如這位沃頓商學(xué)院的教授Ethan Mollick。

他聲稱自己有早期訪問(wèn)權(quán),在體驗(yàn)中發(fā)現(xiàn)真的很有趣。

他認(rèn)為現(xiàn)在將Agent視作“炒作”為時(shí)尚早,未來(lái)幾個(gè)月Agent的能力將十分強(qiáng)大。

號(hào)稱“世界首個(gè)完全自主的AI軟件工程師”

有意思的是,演示造假事件爆出來(lái)的時(shí)間,距離Cognition AI推出Devin僅過(guò)去了一個(gè)月。

咱們一起來(lái)回顧一下。

一個(gè)月前的3月13日,Cognition AI在推特上介紹了自家推出的Devin,并稱其為“世界上首個(gè)AI軟件工程師”。

只需一句指令,它可端到端地處理整個(gè)開發(fā)項(xiàng)目。

主創(chuàng)介紹,Devin在長(zhǎng)程推理和規(guī)劃上面下了很大功夫,可以規(guī)劃和執(zhí)行需要數(shù)千個(gè)決策才能完成的復(fù)雜軟件工程任務(wù)。

具體來(lái)說(shuō)有6大功能:

端到端構(gòu)建和部署程序,可以解決的不只是代碼問(wèn)題,還包括與之相關(guān)的整個(gè)工作流;

  • 自主查找并修復(fù)bug;

  • 訓(xùn)練和微調(diào)自己的AI模型;

  • 修復(fù)開源庫(kù);

  • 為成熟的生產(chǎn)庫(kù)做貢獻(xiàn);

  • 超強(qiáng)學(xué)習(xí)能力,實(shí)時(shí)補(bǔ)足知識(shí)和能力短板。

Devin完整技術(shù)報(bào)告中顯示,在SWE-bench基準(zhǔn)測(cè)試中,無(wú)需人類輔助,Devin可解決13.86%的問(wèn)題

——這個(gè)數(shù)據(jù)看起來(lái)不高,但其實(shí)已經(jīng)超過(guò)了此前所有AI大模型的成績(jī)。

目前數(shù)一數(shù)二的GPT-4,在同個(gè)測(cè)試中的成績(jī)只有1.74%,且必須配備一個(gè)人類,提示它要處理哪些文件。

當(dāng)時(shí)的Devin團(tuán)隊(duì)一副沒(méi)在怕的樣子。

雖然沒(méi)開放公測(cè),但陸陸續(xù)續(xù)給出了一些內(nèi)測(cè)名額。

在互聯(lián)網(wǎng)上搜索一番,發(fā)現(xiàn)上手體驗(yàn)過(guò)的人給的買家秀反饋是這樣的:

熱衷AI的沃頓商學(xué)院教授Ethan Molick試過(guò)后,認(rèn)為其新穎的實(shí)時(shí)交互方式是最值得關(guān)注的。

他要求Devin開發(fā)一個(gè)解釋“創(chuàng)業(yè)公司融資中的股權(quán)稀釋”的網(wǎng)站,隨后透露,AI還無(wú)法在沒(méi)有任何幫助的情況下,自主且無(wú)差錯(cuò)地完成這項(xiàng)工作。。

但也有人直接表示,體驗(yàn)過(guò)后確實(shí)是有被震撼到。

巧的是,截圖中的這個(gè)首批內(nèi)測(cè)體驗(yàn)者Bubna哥,是AI基礎(chǔ)設(shè)施創(chuàng)業(yè)公司Modal Labs的CTO。

后來(lái)他和Devin還聯(lián)手搞了個(gè)新聞。Devin用自家老板的賬號(hào),潛入Modal Labs的工作群,和Bubna哥一番交流過(guò)后,根據(jù)回復(fù)調(diào)整了代碼方案,解決了一個(gè)技術(shù)問(wèn)題。

△圖中的發(fā)言人背后其實(shí)是Devin

當(dāng)然,除了看上去哄哄的技術(shù),Devin還鍍了一層光環(huán),那就是背后公司Cognition,雖然是個(gè)小初創(chuàng),但在招人信息中明晃晃寫著:

我們團(tuán)隊(duì)手里握著10塊IOI金牌呢~

技術(shù)演示和團(tuán)隊(duì)背景都吸睛Max,直接給Devin的傳播力度添磚加瓦。

也正是因?yàn)閷?duì)Devin的關(guān)注,代碼生成領(lǐng)域在過(guò)去一段時(shí)間里進(jìn)展是突飛猛進(jìn)。

暫時(shí)無(wú)法在飛書文檔外展示此內(nèi)容

比如,GitHub三萬(wàn)Star項(xiàng)目MetaGPT就上新了“開源版Devin”,名為數(shù)據(jù)解釋器(Data Interpreter):

阿里Qwen成員Binyan Hui等人開啟了OpenDevin項(xiàng)目,一個(gè)月過(guò)去已經(jīng)在GitHub攬星21.5k;

普林斯頓那邊動(dòng)作更快,用GPT-4打造了開源SWE-agent,開箱即用,可修復(fù)GitHub存儲(chǔ)庫(kù)中真實(shí)bug。

在25%的SWE-bench測(cè)試集上,它實(shí)現(xiàn)了與Devin演示視頻中相似的準(zhǔn)確度—— 解決了12.29%的問(wèn)題。

還有各個(gè)大廠也開始入駐自己的AI程序員……

One More Thing

結(jié)果現(xiàn)在發(fā)生這件事兒,怎么說(shuō)呢……

往好了想,真是救大命了,所有的程序員們都要松口氣了,還好還好,AI暫時(shí)還無(wú)法端到端端走我的飯碗。

往壞了想,真是要了命了,這么一個(gè)備受關(guān)注的明星項(xiàng)目居然是個(gè)只能活在視頻里的demo。

難道世界真的是個(gè)巨大的草臺(tái)班子???

參考鏈接:

[1]https://Twitter.com/oran_ge/status/1778968102610546762?s=46&t=S65Q3TssMnzcxLETGqaDFQ

[2]https://twitter.com/0interestrates/status/1779268441226256500

[3]https://news.ycombinator.com/item?id=40008109

[4]https://www.YouTube.com/watch?v=tNmgmwEtoWE

分享到:
標(biāo)簽:AI程序員
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 52003

    網(wǎng)站

  • 12

    小程序

  • 1047590

    文章

  • 762

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定