亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢(xún)客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

新智元報(bào)道

編輯:潤(rùn) 好困

【新智元導(dǎo)讀】最近,兩位哈佛輟學(xué)生共同創(chuàng)立的AI芯片公司,估值已達(dá)3400萬(wàn)美元,并計(jì)劃明年交付一款名為「Sohu」的AI推理加速芯片——其LLM推理性能達(dá)到H100的10倍,而單價(jià)吞吐量更是高達(dá)140倍。

像Pika一樣的神級(jí)創(chuàng)業(yè)故事又要再次上演了?

兩位哈佛退學(xué)的年輕人,想要制造一款專(zhuān)用于大語(yǔ)言模型加速的AI加速器芯片,將于2024年第三季度交付,推理性能達(dá)H100的10倍。

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

在今年6月份,兩位創(chuàng)始人Gavin Uberti和Chris Zhu創(chuàng)立了Etched.ai,獲得了包括Ebay前CEO Devin Wenig在內(nèi)一眾風(fēng)投機(jī)構(gòu)的536萬(wàn)美元的種子輪投資。

公司估值更是高達(dá)3400萬(wàn)美元!

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

根據(jù)公司官網(wǎng)上放出的數(shù)據(jù),這款芯片將在硬件層面上集成Transformer構(gòu)架,將推理速度相比于英偉達(dá)H100提升了8-10倍!

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

他們將第一款LLM加速芯片命名為「Sohu」,號(hào)稱(chēng)可以在毫秒級(jí)別的時(shí)間里處理數(shù)千個(gè)單詞。

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

芯片還支持通過(guò)樹(shù)搜索更好地編碼,能夠并行比較數(shù)百個(gè)響應(yīng)。

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

還支持多重推測(cè)解碼(Multicast speculative decoding),可以實(shí)時(shí)生成新的內(nèi)容。

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

根據(jù)官方公布的具體細(xì)節(jié),這款芯片只有一個(gè)核心,但是配備了144GB的HBM3e顯存:

- 完全開(kāi)源的軟件棧,可擴(kuò)展至100T參數(shù)型號(hào)

- 支持波束搜索(Beam search)和MCTS解碼

- 支持MoE和Transformer的各種變體

兩個(gè)哈佛輟學(xué)本科生挑戰(zhàn)芯片行業(yè)最頂尖業(yè)務(wù)

兩人原本計(jì)劃從哈佛休學(xué)一年,在一家芯片公司找到了一份負(fù)責(zé)ApacheTVM開(kāi)源編譯器和微內(nèi)核的工作。

但在工作中,他們發(fā)現(xiàn)Arm的指令集中的一些低效設(shè)計(jì)使得他們的工作效率很差。

當(dāng)他們思考如何系統(tǒng)性地解決這個(gè)問(wèn)題時(shí),發(fā)現(xiàn)可以利用這個(gè)思路來(lái)設(shè)計(jì)一款針對(duì)當(dāng)下爆火的AI加速芯片。

在創(chuàng)始人之一的Uberti看來(lái),通用設(shè)計(jì)無(wú)法獲得他們正在研發(fā)的專(zhuān)有加速芯片所能帶來(lái)的那種性能提升:

「必須在單一架構(gòu)上下大力氣,讓芯片處理AI任務(wù),目標(biāo)太大了,必須要針對(duì)更具體的任務(wù)來(lái)設(shè)計(jì)芯片......我們認(rèn)為英偉達(dá)最終會(huì)這么做。」

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

在他們兩人看來(lái),這個(gè)市場(chǎng)機(jī)會(huì)太大了,一定不能錯(cuò)過(guò)。

「如果你回顧四年前的GPT-2,與Meta最近的 Llama模型相比,只有兩個(gè)區(qū)別——大小和激活函數(shù)。訓(xùn)練方式存在差異,但這對(duì)于推理來(lái)說(shuō)并不重要?!?/p>

Transformer的基本組件是固定的,雖然存在細(xì)微差別,但他們并不擔(dān)心短期之內(nèi)就會(huì)出現(xiàn)新的構(gòu)架代替Transformer。

所以他們決定做一個(gè)Transformer構(gòu)架的專(zhuān)用集成電路(ASIC),在未來(lái)和英偉達(dá)等一系列芯片巨頭在大模型推理市場(chǎng)中競(jìng)爭(zhēng)。

他們認(rèn)為,Etched.ai推出的第一款芯片,相比于H100,單位價(jià)格內(nèi)將獲得140倍的吞吐量性能!

二到底是什么樣的背景,能讓兩個(gè)本科還沒(méi)有畢業(yè)的學(xué)生,敢于挑戰(zhàn)芯片業(yè)目前最炙手可熱的賽道呢?

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

創(chuàng)始人兼公司CEO Gavin Uberti自從2020進(jìn)入哈佛之后,就一直在校外兼職,在2022年底,成立了Etched.ai。

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

在進(jìn)入大學(xué)之前,他參與了美國(guó)最著名的青少年科技創(chuàng)新大賽FIRST Tech Challenge,團(tuán)隊(duì)獲得了Top 10獎(jiǎng)項(xiàng)。團(tuán)隊(duì)開(kāi)發(fā)的自動(dòng)駕駛軟件排在600個(gè)參賽團(tuán)隊(duì)第二名。

另一位創(chuàng)始人Chris Zhu,也是在哈佛就讀時(shí)就在校外瘋狂實(shí)習(xí),甚至還沒(méi)有從哈佛畢業(yè),就已經(jīng)成為兼職教員。

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

AMD MI300X決戰(zhàn)NVIDIA H100

而英偉達(dá)和AMD這邊,最近打得更是熱火朝天,甚至連官方都直接下場(chǎng)寫(xiě)博客硬剛。

就在前段時(shí)間,AMD高調(diào)發(fā)布了自家最強(qiáng)的AI芯片MI300X。

PPT顯示,由8塊MI300X組成的服務(wù)器在大模型推理方面的表現(xiàn),要比同樣規(guī)模的H100速度最高提升1.6倍之多。

對(duì)于AMD來(lái)說(shuō),這種直接對(duì)標(biāo),實(shí)屬罕見(jiàn)。

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

對(duì)此,英偉達(dá)很快就發(fā)表了一篇博客文章,駁斥AMD的評(píng)測(cè)不客觀。

英偉達(dá)表示,如果H100 GPU使用了優(yōu)化過(guò)的軟件進(jìn)行正確的基準(zhǔn)測(cè)試,它的性能將大大超過(guò)MI300X。

作為回應(yīng),英偉達(dá)展示了采用TensorRT-LLM優(yōu)化設(shè)置后,兩款GPU在Llama 2 70B上的比較結(jié)果。

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

文章地址:https://developer.nvidia.com/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/

可以看到,當(dāng)批處理大小設(shè)置為1時(shí),H100的性能達(dá)到了MI300X的2倍。

甚至,當(dāng)采用與AMD相同的2.5秒延遲時(shí),H100的性能可以達(dá)到MI300X的14倍之多。

英偉達(dá)表示,AMD采用的替代軟件不支持Hopper的Transformer Engine,并且忽略了TensorRT-LLM中的關(guān)鍵優(yōu)化功能。而這些都可以在Github上免費(fèi)獲取。

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

AMD毫不示弱

見(jiàn)狀,AMD也發(fā)文表示,既然要用優(yōu)化,那就大家都用。

而即便是在這種情況下,MI300X的性能依然比H100強(qiáng)了30%。

文章地址:https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304

具體來(lái)說(shuō):

1. 在同樣采用vLLM FP16的設(shè)置時(shí),相比于發(fā)布會(huì)上展示的1.4倍性能,AMD最新的優(yōu)化已經(jīng)讓這一優(yōu)勢(shì)擴(kuò)大到了2.1倍。

2. 與使用TensorRT-LLM優(yōu)化的H100相比,使用vLLM的MI300X實(shí)現(xiàn)了1.3倍的延遲改善。

3. 相比于采用低精度FP8和TensorRT-LLM的H100,使用vLLM和高精度FP16的MI300X在絕對(duì)延遲方面,表現(xiàn)更好。

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

AMD指出,英偉達(dá)在H100上進(jìn)行基準(zhǔn)測(cè)試時(shí)使用的是自家專(zhuān)有的技術(shù)TensorRT-LLM,而非更廣泛使用的vLLM。

此外,在延遲方面,英偉達(dá)只關(guān)注吞吐量的性能,卻忽視了實(shí)際工作中的延遲問(wèn)題。

最后,AMD表示,之所以選擇使用FP16,是因?yàn)樗浅A餍校夷壳皏LLM還不支持FP8。

GPU大戰(zhàn)進(jìn)入白熱化

在人工智能加速器領(lǐng)域,一些公司擁有針對(duì)特定工作負(fù)載的專(zhuān)門(mén)架構(gòu)。

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

數(shù)據(jù)中心的專(zhuān)用架構(gòu)主要集中在DLRM(深度學(xué)習(xí)推薦模型),因?yàn)镚PU很難加速這類(lèi)任務(wù)。

Meta最近宣布已經(jīng)構(gòu)建了自己的DLRM推理芯片,并且已經(jīng)得到廣泛部署。

而對(duì)于Transformer構(gòu)架的加速,英偉達(dá)是通過(guò)在H100 GPU中部署Transformer Engine的軟件功能來(lái)實(shí)現(xiàn)的。

Transformer Engine使得LLM推理無(wú)需進(jìn)一步量化即可進(jìn)行,大大加速了GPU推理LLM的效果。

而Etched.ai要做的就是更近一步,在硬件層面完成這個(gè)設(shè)計(jì),從而使得LLM的推理速度和能效都更上一層樓。

而投資人之所以愿意給兩位本科輟學(xué)生投入如此之大的一筆錢(qián),更重要的是迄今為止,所有人都認(rèn)為現(xiàn)在LLM推理的成本過(guò)高,其中一定有創(chuàng)新的空間。

除了這樣的明星初創(chuàng)公司以外,傳統(tǒng)巨頭對(duì)于大模型推理市場(chǎng)同樣抱有很高的期待。

蘇媽在各種場(chǎng)合不斷表示,未來(lái)大模型推理市場(chǎng)的規(guī)模將遠(yuǎn)遠(yuǎn)大于模型訓(xùn)練市場(chǎng)。所以AMD也一直在強(qiáng)調(diào)自己的產(chǎn)品已經(jīng)對(duì)這個(gè)市場(chǎng)做好了充分地準(zhǔn)備。

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

從英偉達(dá)和AMD首次公開(kāi)對(duì)比自家產(chǎn)品的性能這件事來(lái)看,GPU領(lǐng)域的競(jìng)爭(zhēng)顯然正在加劇。

目前,英偉達(dá)除了要面對(duì)AMD的挑戰(zhàn)之外,還需要考慮英特爾和Cerebras取得的快速進(jìn)展。

就在12月14日,首席執(zhí)行官Pat Gelsinger展示了英特爾最新的AI芯片——采用5nm工藝制程,性能提升了1.5倍的Gaudi 3。

相比于上一代Gaudi 2,Gaudi 3的BFloat16性能提升了4倍,計(jì)算能力提升2倍,顯存容量提升50%達(dá)到144GB,并且采用的是HBM3或HBM3e。

推理性能超H100十倍!21歲華裔小哥哈佛輟學(xué)開(kāi)發(fā)AI加速芯片「Sohu」,2人公司估值3400萬(wàn)刀

同樣,英偉達(dá)也計(jì)劃在明年初推出GH200超級(jí)芯片。

鑒于競(jìng)爭(zhēng)如此激烈,AMD可能會(huì)被諸如微軟、Meta和甲骨文這些已經(jīng)宣布將其技術(shù)集成到數(shù)據(jù)中心的公司,視為備選方案。

Gelsinger預(yù)測(cè),到2027年,GPU市場(chǎng)規(guī)模將達(dá)到驚人的4000億美元,這無(wú)疑為激烈的競(jìng)爭(zhēng)提供了廣闊的舞臺(tái)。

Cerebras Systems的CEO Andrew Feldman更是毫不遮掩自己的野心:「我們正在努力超越英偉達(dá),到明年,我們將構(gòu)建高達(dá)36 exaflops的AI算力?!?/p>

參考資料:

https://www.etched.ai/

https://analyticsindiamag.com/gpu-battle-nvidia-vs-amd/

https://www.eetimes.com/harvard-dropouts-raise-5-million-for-llm-accelerator/

分享到:
標(biāo)簽:AI
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定