【ITBEAR科技資訊】7月31日消息,用戶所使用的語言對于大型語言模型(LLM)的費(fèi)用有著重要的影響,可能在英語使用者和其它語言使用者之間造成人工智能鴻溝。一項(xiàng)最新研究顯示,由于OpenAI等服務(wù)所采用的服務(wù)器成本衡量和計(jì)費(fèi)方式,英語輸入和輸出的費(fèi)用遠(yuǎn)低于其他語言。例如,簡體中文的費(fèi)用約為英語的兩倍,西班牙語為英語的1.5倍,而緬甸的撣語則高達(dá)英語的15倍。
該研究還揭示,讓一個(gè)LLM處理一句緬甸語句子需要198個(gè)詞元(tokens),然而,相同的句子用英語寫只需要17個(gè)詞元。詞元代表了通過API(如OpenAI的ChatGPT或Anthropic的Claude 2)訪問LLM所需的計(jì)算力成本,這意味著緬甸語句子使用這種服務(wù)的成本比英語句子高出11倍。
據(jù)ITBEAR科技資訊了解,這種巨大的費(fèi)用差異主要源于詞元化模型,即人工智能公司將用戶輸入轉(zhuǎn)換為計(jì)算成本的方式。不同語言的結(jié)構(gòu)復(fù)雜程度不同,例如中文的語法和字符數(shù)量較多,導(dǎo)致它們需要更高的詞元化率。舉例來說,同樣表示"你的愛意(your affection)"的文本,在英語中只需要兩個(gè)詞元,而在簡體中文中需要八個(gè)詞元。盡管簡體中文文本只有4個(gè)字符,而英文有14個(gè)字符。
這樣的費(fèi)用差異可能會(huì)對人工智能技術(shù)在不同語言社區(qū)中的普及和發(fā)展產(chǎn)生影響。由于成本較高,可能導(dǎo)致一些語言受限于獲取高質(zhì)量的自然語言處理技術(shù)。因此,引起了關(guān)于語言平等和包容性的擔(dān)憂,以及人工智能在全球范圍內(nèi)的普及問題。未來需要加強(qiáng)研究,尋求解決這種語言費(fèi)用差異的辦法,推動(dòng)人工智能技術(shù)更好地服務(wù)于全球各地的用戶。






