來(lái)源:Mangesh Gothankar
在本文中,我們將了解如何從零開(kāi)始構(gòu)建 LLM(大型語(yǔ)言模型)。你可能會(huì)問(wèn),為什么要做這樣的事情?是這樣的,LLM 在無(wú)數(shù)應(yīng)用中都非常有用,從頭開(kāi)始構(gòu)建一個(gè) LLM,你就能了解底層的 ML 技術(shù),并根據(jù)自己的特定需求定制 LLM。
內(nèi)容目錄:
語(yǔ)言在人類交流中起著基礎(chǔ)性作用,在當(dāng)今數(shù)據(jù)不斷增長(zhǎng)的網(wǎng)絡(luò)時(shí)代,創(chuàng)建工具來(lái)分析、理解和連貫地交流是不可避免的。
這就是LLM的由來(lái)。
大型語(yǔ)言模型是一種 ML 模型,可以完成各種自然語(yǔ)言處理任務(wù),從創(chuàng)建內(nèi)容到將文本從一種語(yǔ)言翻譯成另一種語(yǔ)言。大型 "一詞表征了語(yǔ)言模型在學(xué)習(xí)期間可改變的參數(shù)數(shù)量,令人驚訝的是,成功的大型語(yǔ)言模型擁有數(shù)十億個(gè)參數(shù)。
本文揭示LLM 發(fā)展背后的情況,了解它們聞所未聞的能力,并理解它們是如何重塑語(yǔ)言處理世界的。
主要啟示:
-
了解有關(guān) LLM 的一切及其目前的技術(shù)水平
-
了解不同類型的 LLM,并評(píng)估它是否是一種時(shí)尚或流行
-
發(fā)現(xiàn)從頭開(kāi)始訓(xùn)練 LLM 的最佳方法,并對(duì)其進(jìn)行分析
什么是大型語(yǔ)言模型
通俗地說(shuō),"大型語(yǔ)言模型 "是一種經(jīng)過(guò)訓(xùn)練的深度學(xué)習(xí)模型,它能以類似人類的方式理解和生成內(nèi)容。在大舞臺(tái)的背后,大型變換器模型創(chuàng)造了奇跡。
大型語(yǔ)言模型是一種深度學(xué)習(xí)算法,可以完成多項(xiàng)自然語(yǔ)言處理任務(wù)。
大型語(yǔ)言模型被稱為神經(jīng)網(wǎng)絡(luò),因?yàn)槿四X為這些系統(tǒng)提供了靈感。這些神經(jīng)網(wǎng)絡(luò)使用分層節(jié)點(diǎn)網(wǎng)絡(luò)工作,非常類似神經(jīng)元。
此外,大型學(xué)習(xí)模型必須經(jīng)過(guò)預(yù)先訓(xùn)練,然后進(jìn)行微調(diào),以教授人類語(yǔ)言,從而解決文本分類、文本生成挑戰(zhàn)、問(wèn)題解答和文檔摘要等問(wèn)題。Top 12 大型語(yǔ)言模型在解決各種問(wèn)題方面的潛力可應(yīng)用于從金融、醫(yī)療保健到娛樂(lè)等領(lǐng)域,這些模型服務(wù)于一系列 NLP 應(yīng)用,如人工智能助手、聊天機(jī)器人、翻譯等。
大型語(yǔ)言模型由難以計(jì)數(shù)的參數(shù)組成,類似于模型在訓(xùn)練過(guò)程中學(xué)習(xí)收集的記憶。您可以將這些參數(shù)視為模型的知識(shí)庫(kù)。
快速回顧變革者模型
2017 年,一切都變了。
瓦斯瓦尼(Vaswani)發(fā)表了(我更喜歡傳說(shuō)中的)論文《Attention is All You Need》,其中使用了一種新穎的架構(gòu),他們稱之為 "轉(zhuǎn)換器(Transformer)"。
如今,轉(zhuǎn)換器模型是大型語(yǔ)言模型最常見(jiàn)的架構(gòu)。轉(zhuǎn)換器模型通過(guò)對(duì)輸入進(jìn)行標(biāo)記化處理數(shù)據(jù),并通過(guò)數(shù)學(xué)公式來(lái)識(shí)別標(biāo)記之間的關(guān)系,這樣,計(jì)算系統(tǒng)就能看到人類在收到相同查詢時(shí)會(huì)注意到的模式。
此外,轉(zhuǎn)換器模型還具有自我注意機(jī)制,這使得模型的學(xué)習(xí)速度比傳統(tǒng)的擴(kuò)展短期記憶模型更快。自我注意機(jī)制允許轉(zhuǎn)換器模型封裝序列的不同部分或完整句子,從而進(jìn)行預(yù)測(cè)。
總而言之,轉(zhuǎn)換器模型在自然語(yǔ)言處理中發(fā)揮了重要作用。隨著各公司開(kāi)始利用這一革命性技術(shù)并開(kāi)發(fā)自己的大型語(yǔ)言模型,企業(yè)和技術(shù)專業(yè)人士都必須了解這項(xiàng)技術(shù)的工作原理。尤其關(guān)鍵的是,要了解這些模型如何處理自然語(yǔ)言查詢,使其能夠準(zhǔn)確地響應(yīng)人類的問(wèn)題和請(qǐng)求。
因此,讓我們深入了解大型語(yǔ)言模型的世界,探索是什么讓它們?nèi)绱藦?qiáng)大。
大型語(yǔ)言模型的關(guān)鍵要素
大型語(yǔ)言模型由多個(gè)神經(jīng)網(wǎng)絡(luò)層組成。這些定義好的層協(xié)同工作,處理輸入文本并創(chuàng)建理想的輸出內(nèi)容。
讓我們來(lái)看看。
嵌入層(The embedding layer)
該層是大型學(xué)習(xí)模型的關(guān)鍵要素。嵌入層接收輸入(一串單詞),并將每個(gè)單詞轉(zhuǎn)化為矢量表示。單詞的向量表示捕捉了單詞的含義及其與其他單詞的關(guān)系。
前饋層(The feedforward layer)
LLM 的前饋層由幾個(gè)完全連接的層組成,用于轉(zhuǎn)換輸入嵌入。同時(shí),這些層允許模型提取更高層次的抽象概念,即識(shí)別用戶輸入文本的意圖。
遞歸層(Recurrent Layer)
遞歸層允許 LLM 學(xué)習(xí)依賴關(guān)系,并生成語(yǔ)法正確、語(yǔ)義豐富的文本。
注意機(jī)制(The attention mechanism)
大語(yǔ)言模型中的注意力機(jī)制可讓人專注于輸入文本中的某個(gè)元素,以驗(yàn)證其與手頭任務(wù)的相關(guān)性。此外,這些層還能使模型創(chuàng)建最精確的輸出。
大型語(yǔ)言模型的類型
通常,大型語(yǔ)言模型會(huì)根據(jù)其所執(zhí)行的任務(wù)進(jìn)行分類:
- 自回歸大型語(yǔ)言模型
- 基于變換器的大型語(yǔ)言模型
- 多語(yǔ)言模型
-
混合模型
自回歸大型語(yǔ)言模型(預(yù)測(cè)下一個(gè)單詞)(Autoregressive LLM)
大型學(xué)習(xí)模型的訓(xùn)練目的是建議輸入文本中的下一個(gè)詞序,簡(jiǎn)單地說(shuō),它們的唯一任務(wù)就是續(xù)寫文本。
例如,在文本 "你好嗎?"中,大型學(xué)習(xí)模型可能會(huì)完成 "你好嗎?"或 "你好嗎?我很好 "這樣的句子。
屬于這一類的大型學(xué)習(xí)模型有 Transformers、LaMDA、X.NET、BERT 和 GPT-3。
-
GPT-3- GPT-3 是一種革命性的語(yǔ)言模型,有可能根據(jù)所提供的描述提供高質(zhì)量的類人文本。此外,GPT-3 還使用了數(shù)十億個(gè)參數(shù)和技術(shù)來(lái)創(chuàng)建類人句子。
-
LaMDA- LaMDA 是一種事實(shí)性語(yǔ)言模型,經(jīng)過(guò)訓(xùn)練可創(chuàng)建不同的創(chuàng)意文本模式,如詩(shī)歌、代碼、腳本、音樂(lè)作品、電子郵件、信件等,并能非正式地回答您的問(wèn)題。
-
XLNet- XLNet 是一種自回歸語(yǔ)言模型,可理解文本序列的無(wú)監(jiān)督表示。
這些 LLM 面臨的唯一挑戰(zhàn)是,它在完成文本而不僅僅是回答方面的能力令人難以置信,很多時(shí)候,我們期待的是答案而不是完成。
將上面討論的例子 "你好嗎?"作為輸入,大型學(xué)習(xí)模型會(huì)嘗試用 "在做什么?"或 "我很好 "這樣的文字來(lái)完成文本。這就說(shuō)明,回答可以是完成語(yǔ),也可以是答案,這也正是對(duì)話優(yōu)化 LLM 出現(xiàn)的原因。
基于變換器的 LLM(對(duì)話優(yōu)化型)
這些類型的 LLM 會(huì)回答問(wèn)題,而不是完成問(wèn)題。因此,當(dāng)輸入 "你好嗎?"時(shí),這類 LLM 通常會(huì)回答 "我很好",而不是完成句子。
經(jīng)過(guò)對(duì)話優(yōu)化的 LLM 包括 ChatGPT、BERT、BARD、InstructorGPT、Falcon-40B-instruct 等。
-
BERT-BERT(Bidirectional Encoder Representation from Transformers)是一種基于深度神經(jīng)工作的動(dòng)態(tài)自動(dòng)回歸 LLM。它的主要重點(diǎn)是理解單詞之間的關(guān)系,而不是關(guān)注一個(gè)單詞的含義。
多語(yǔ)言模型
多語(yǔ)言模型在不同的語(yǔ)言數(shù)據(jù)集上進(jìn)行訓(xùn)練,可以處理和生成不同語(yǔ)言的文本。它們有助于完成跨語(yǔ)言信息檢索、多語(yǔ)言機(jī)器人或機(jī)器翻譯等任務(wù)。
-
XLM-XLM 是由 Facebook 創(chuàng)建的跨語(yǔ)言語(yǔ)言模型。
混合模型
混合模型是不同架構(gòu)的混合體,可提高性能。例如,基于變壓器的架構(gòu)與遞歸神經(jīng)網(wǎng)絡(luò)(RNN)相結(jié)合,用于順序數(shù)據(jù)處理。
-
UniLM(統(tǒng)一語(yǔ)言模型)是一種混合大型語(yǔ)言模型,它結(jié)合了自動(dòng)回歸和序列到序列建模方法。
還有更多。尤其是如果你想獲得最終的成功,這篇文章就更不能省略了。
生成式人工智能與大型語(yǔ)言模型的微妙區(qū)別
生成式人工智能(Generative AI)是一個(gè)龐大的術(shù)語(yǔ);簡(jiǎn)單地說(shuō),它是一個(gè)統(tǒng)稱,指的是有可能創(chuàng)建內(nèi)容的人工智能模型。此外,生成式人工智能還可以創(chuàng)建代碼、文本、圖像、視頻、音樂(lè)等。一些流行的生成式人工智能工具有 Midjourney、DALL-E 和 ChatGPT。
大型語(yǔ)言模型是生成式人工智能的一種,它在文本上進(jìn)行訓(xùn)練并生成文本內(nèi)容。ChatGPT 就是生成式文本人工智能的一個(gè)節(jié)選。
所有大型語(yǔ)言模型都是生成式人工智能。
現(xiàn)在,如果您正在猶豫不決,想知道在哪里、做什么以及如何從頭開(kāi)始構(gòu)建和訓(xùn)練 LLM,別擔(dān)心,繼續(xù)來(lái)了解下面的內(nèi)容。
構(gòu)建大型語(yǔ)言模型
現(xiàn)在是創(chuàng)建 LLM 的時(shí)候了。
我們將使用 TensorFlow 或 PyTorch 等機(jī)器學(xué)習(xí)框架來(lái)創(chuàng)建模型,這些框架提供了用于創(chuàng)建和訓(xùn)練 LLM 的預(yù)建工具和庫(kù),因此幾乎不需要重新發(fā)明輪子。
我們將首先概述 LLM 的架構(gòu)。此外,您還需要選擇要使用的模型類型,例如遞歸神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換器,以及層數(shù)和每層的神經(jīng)元數(shù)。
接下來(lái)就是使用收集到的預(yù)處理數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。
如何從零開(kāi)始訓(xùn)練 LLM
對(duì)于不同類型的 LLM,訓(xùn)練 LLM 的方法也不同。假設(shè)您想建立一個(gè)連續(xù)文本 LLM,那么與對(duì)話優(yōu)化的 LLM 相比,方法將完全不同。
這兩點(diǎn)是影響 LLM 性能的關(guān)鍵因素。因此,讓我們來(lái)討論一下訓(xùn)練 LLM 所涉及的不同步驟。
自回歸 LLM(Autoregressive LLMs )
延續(xù)文本的 LLM 的訓(xùn)練過(guò)程被稱為相關(guān) LLM。這些 LLM 在自我監(jiān)督的學(xué)習(xí)環(huán)境中進(jìn)行訓(xùn)練,以預(yù)測(cè)文本中的下一個(gè)單詞。以下是從頭開(kāi)始訓(xùn)練 LLMs 的每個(gè)步驟:
步驟 1:收集數(shù)據(jù)集
訓(xùn)練 LLM 的第一步也是最重要的一步是收集大量文本數(shù)據(jù)。畢竟,數(shù)據(jù)集對(duì)大型學(xué)習(xí)模型的性能起著至關(guān)重要的作用。
最近,受 LLaMA-13B 啟發(fā)的最新對(duì)話優(yōu)化大型語(yǔ)言模型 "OpenChat "在 Vicuna GPT-4 評(píng)估中取得了 105.7% 的 ChatGPT 分?jǐn)?shù)。
其成功背后的秘訣是高質(zhì)量的數(shù)據(jù),該模型在 ~6K 數(shù)據(jù)上進(jìn)行了微調(diào)。
用于訓(xùn)練的數(shù)據(jù)收集自互聯(lián)網(wǎng),主要來(lái)自社交媒體、網(wǎng)站、平臺(tái)、學(xué)術(shù)論文等。所有這些語(yǔ)料庫(kù)確保了訓(xùn)練數(shù)據(jù)盡可能地分類,最終為大規(guī)模語(yǔ)言模型描繪出改進(jìn)的通用跨領(lǐng)域知識(shí)。
因此,利用高質(zhì)量的數(shù)據(jù)釋放 LLM 的潛能是毫無(wú)疑問(wèn)的!
步驟 2:數(shù)據(jù)集預(yù)處理和清理
接下來(lái)是數(shù)據(jù)集預(yù)處理和清理步驟。
由于數(shù)據(jù)集是從眾多網(wǎng)頁(yè)和不同來(lái)源抓取的,因此數(shù)據(jù)集很有可能包含各種細(xì)微的差異。因此,消除這些細(xì)微差別并為模型訓(xùn)練提供高質(zhì)量的數(shù)據(jù)集至關(guān)重要。
具體步驟主要取決于您目前正在處理的數(shù)據(jù)集。標(biāo)準(zhǔn)的預(yù)處理措施包括:
- 解決拼寫錯(cuò)誤。
- 刪除有毒/有偏見(jiàn)的數(shù)據(jù)。
- 將表情符號(hào)轉(zhuǎn)化為等效文本。
-
數(shù)據(jù)重復(fù)。
訓(xùn)練數(shù)據(jù)可能有重復(fù)或幾乎相同的句子,因?yàn)檫@些數(shù)據(jù)僅從互聯(lián)網(wǎng)上的眾多數(shù)據(jù)源收集而來(lái)。因此,出于兩個(gè)重要原因,堅(jiān)持重復(fù)數(shù)據(jù)刪除的做法是不可避免的:
- 它有助于模型避免每次都記住相同的數(shù)據(jù)。
-
它有助于更好地評(píng)估 LLM,因?yàn)闇y(cè)試和訓(xùn)練數(shù)據(jù)包含非重復(fù)信息。
步驟 3:準(zhǔn)備數(shù)據(jù)
數(shù)據(jù)集準(zhǔn)備是對(duì)數(shù)據(jù)進(jìn)行清理、轉(zhuǎn)換和組織,使其成為機(jī)器學(xué)習(xí)的理想數(shù)據(jù)。這是任何機(jī)器學(xué)習(xí)項(xiàng)目中必不可少的一步,因?yàn)閿?shù)據(jù)集的質(zhì)量會(huì)直接影響模型的性能。
在預(yù)訓(xùn)練階段,LLM 被訓(xùn)練為預(yù)測(cè)文本中的下一個(gè)標(biāo)記。因此,輸入和輸出對(duì)也相應(yīng)地進(jìn)行了開(kāi)發(fā)。
步驟 4:定義模型架構(gòu)
下一步是 "定義模型架構(gòu)和訓(xùn)練 LLM"。
目前,正在開(kāi)發(fā)大量 LLM。您可以在 Hugging Face Open LLM Leaderboard 上了解所有 LLM 的概況。首先,研究人員在創(chuàng)建 LLM 時(shí)會(huì)遵循一個(gè)明確的流程。
通常,研究人員會(huì)從現(xiàn)有的大型語(yǔ)言模型架構(gòu)(如 GPT-3)以及模型的實(shí)際超參數(shù)開(kāi)始。然后,對(duì)模型架構(gòu)/超參數(shù)/數(shù)據(jù)集進(jìn)行調(diào)整,最終形成新的 LLM。
步驟 5:超參數(shù)調(diào)整
毫無(wú)疑問(wèn),超參數(shù)調(diào)整是一件既費(fèi)錢又費(fèi)時(shí)的事情。
不用擔(dān)心!例如,如果您使用的是 GPT-3,那么請(qǐng)使用其相應(yīng)架構(gòu)的超參數(shù),然后在小范圍內(nèi)確定最佳超參數(shù),再將其插值到最終模式中。
這項(xiàng)實(shí)驗(yàn)包括以下任何一項(xiàng)或全部?jī)?nèi)容:
- 位置嵌入
- 學(xué)習(xí)率
- 權(quán)重初始化
- 優(yōu)化器
- 激活
- 損失函數(shù)
- 層數(shù)、參數(shù)和注意頭
-
密集層與稀疏層的分組
以下是一些行之有效的超參數(shù)實(shí)踐:
- 學(xué)習(xí)率調(diào)度器 - 行之有效的方法是在訓(xùn)練過(guò)程中盡量降低學(xué)習(xí)率,因?yàn)檫@樣可以克服局部最小值,提高模型的穩(wěn)定性。
- 正則化 - LLM 通常容易出現(xiàn)過(guò)度擬合。因此,有必要使用 Dropout、Batch Normalization 和 L1/L2 正則化等技術(shù)來(lái)避免模型的過(guò)度擬合。
- 批量大小 - 理想情況下,選擇適合 GPU 內(nèi)存的大批量大小。
- 權(quán)重初始化 - 模型的收斂性很大程度上取決于訓(xùn)練前初始化的權(quán)重。畢竟,初始化合適的權(quán)重可以加快收斂速度。但請(qǐng)記住,只有在定義自己的 LLM 架構(gòu)時(shí)才使用權(quán)重初始化。
對(duì)話優(yōu)化 LLM(Dialogue-optimized LLM)
在對(duì)話優(yōu)化 LLM 中,首要步驟與預(yù)訓(xùn)練 LLM 相同,一旦完成預(yù)訓(xùn)練,LLMs 就有可能完成文本。
此外,為了生成特定問(wèn)題的答案,LLM 還需要在包括問(wèn)題和答案在內(nèi)的監(jiān)督數(shù)據(jù)集上進(jìn)行微調(diào),到這一步結(jié)束時(shí),您的 LLM 就可以為所提問(wèn)題創(chuàng)建解決方案了。
例如,ChatGPT 是一種對(duì)話優(yōu)化 LLM,其訓(xùn)練過(guò)程與上述步驟類似。唯一不同的是,除了預(yù)訓(xùn)練和監(jiān)督微調(diào)外,它還包括一個(gè)額外的 RLHF(從人類反饋中強(qiáng)化學(xué)習(xí))步驟。
LLM 訓(xùn)練完成后,就是評(píng)估其性能的時(shí)候了。讓我們來(lái)看看如何評(píng)估!
如何評(píng)估大型學(xué)習(xí)模型?
大型語(yǔ)言模型評(píng)估不能主觀臆斷,相反它必須是一個(gè)評(píng)估 LLM 性能的邏輯過(guò)程。
考慮到在分類或回歸挑戰(zhàn)的情況下進(jìn)行評(píng)估,比較實(shí)際表格和預(yù)測(cè)標(biāo)簽有助于了解模型的性能如何,為此我們通常會(huì)查看混淆矩陣。但 LLM 又是什么情況呢?它們會(huì)生成文本。
不用擔(dān)心!評(píng)估 LLM 有兩種方法--內(nèi)在方法和外在方法。
內(nèi)在方法
傳統(tǒng)的語(yǔ)言模型使用內(nèi)在方法進(jìn)行評(píng)估,如每字符比特?cái)?shù)、復(fù)雜度、BLUE 分?jǐn)?shù)等。這些度量參數(shù)跟蹤語(yǔ)言方面的性能,即模型預(yù)測(cè)下一個(gè)單詞的能力。
- 復(fù)雜度:易混度是 LLM 預(yù)測(cè)詞序中下一個(gè)詞的能力的度量。易混度越低,表示性能越好。
- BLEU 分?jǐn)?shù):BLEU 分?jǐn)?shù)用于衡量 LLM 生成的文本與參考文本的相似程度。BLEU 分?jǐn)?shù)越高,表示性能越好。
-
人工評(píng)估:人工評(píng)價(jià)包括請(qǐng)人工評(píng)委對(duì) LLM 生成的文本質(zhì)量進(jìn)行評(píng)分。這可以通過(guò)使用各種不同的評(píng)估來(lái)實(shí)現(xiàn),如流暢性、連貫性和相關(guān)性。
此外,同樣重要的是,沒(méi)有放之四海而皆準(zhǔn)的評(píng)價(jià)指標(biāo),每種衡量標(biāo)準(zhǔn)都有自己的優(yōu)缺點(diǎn)。因此,必須使用各種不同的評(píng)估方法,以全面了解 LLM 的表現(xiàn)。
以下是評(píng)估 LLM 的一些額外注意事項(xiàng):
- 數(shù)據(jù)集偏差:LLM 是在大型文本和代碼數(shù)據(jù)集上進(jìn)行訓(xùn)練的。如果這些數(shù)據(jù)集存在偏差,那么 LLM 也將受到限制。必須意識(shí)到數(shù)據(jù)集可能存在偏差,并采取措施加以緩解。
- 安全性:LLM 可用于生成有害內(nèi)容,如仇恨言論和錯(cuò)誤信息。必須建立保護(hù)機(jī)制,防止本地語(yǔ)言學(xué)習(xí)工具被用于制作有害內(nèi)容。
- 透明度:對(duì)本地語(yǔ)言學(xué)習(xí)者的培訓(xùn)和評(píng)估方式保持透明至關(guān)重要。這將有助于建立對(duì)本地語(yǔ)言學(xué)習(xí)者的信任,確保他們得到負(fù)責(zé)任的使用。
外在方法
隨著當(dāng)今LLM的進(jìn)步,外在方法正成為評(píng)估法律碩士表現(xiàn)的首選。評(píng)估 LLM 的建議方法是考察它們?cè)谕评?、解決問(wèn)題、計(jì)算機(jī)科學(xué)、數(shù)學(xué)問(wèn)題、競(jìng)爭(zhēng)性考試等不同任務(wù)中的表現(xiàn)。
EleutherAI 推出了一個(gè)名為 Language Model Evaluation Harness 的框架,用于比較和評(píng)估 LLM 的性能,HuggingFace 整合了該評(píng)估框架,以衡量社區(qū)創(chuàng)建的開(kāi)源 LLM。
該框架通過(guò)四個(gè)不同的數(shù)據(jù)集對(duì) LLM 進(jìn)行評(píng)估,最終得分是每個(gè)數(shù)據(jù)集得分的累積。以下是參數(shù):
- A12 Reasoning(A12 推理)- 這是為小學(xué)生設(shè)計(jì)的科學(xué)問(wèn)題集。
- MMLU - 這是一項(xiàng)評(píng)估文本模型多任務(wù)精確度的綜合測(cè)試。它包含 57 個(gè)不同的任務(wù),包括美國(guó)歷史、數(shù)學(xué)、法律等科目。
- TruthfulQA - 該測(cè)試評(píng)估模型創(chuàng)建準(zhǔn)確答案和跳過(guò)生成網(wǎng)上常見(jiàn)虛假信息的傾向。
-
HellaSwag- 這是一項(xiàng)挑戰(zhàn)最新模型的測(cè)試,以 95% 的精確度做出對(duì)人類來(lái)說(shuō)很容易的常識(shí)性推斷。
部署 LLM
最后,是在生產(chǎn)環(huán)境中部署 LLM 的時(shí)候了。
您可以選擇Lambda 或 google Cloud Functions 等無(wú)服務(wù)器技術(shù),將模型部署為網(wǎng)絡(luò)服務(wù)。此外,您還可以使用 Docker 等容器化技術(shù),將模型及其依賴項(xiàng)打包到一個(gè)容器中。
最后......是時(shí)候更進(jìn)一步了!
大型語(yǔ)言模型(如 ChatGPT 或谷歌的 PaLM)在人工智能領(lǐng)域掀起了一場(chǎng)風(fēng)暴,然而,大多數(shù)公司在訓(xùn)練這些模型方面還沒(méi)有任何進(jìn)展,只能依賴少數(shù)幾家科技巨頭作為技術(shù)提供商。
如果您也在原地踏步,并計(jì)劃走得更遠(yuǎn),我們或許能幫到您多走一英里。