近期,麻省理工學(xué)院(MIT)的一項新研究揭示了人工智能(AI)在理解否定詞上的顯著短板,這一發(fā)現(xiàn)對醫(yī)療等重要領(lǐng)域提出了嚴(yán)峻挑戰(zhàn)。據(jù)研究顯示,盡管AI在疾病診斷、詩歌創(chuàng)作及自動駕駛等領(lǐng)域取得了顯著進(jìn)展,但在處理“no”和“not”等否定詞時,卻顯得力不從心。
在MIT博士生Kumail Alhamoud的帶領(lǐng)下,研究團隊攜手OpenAI和牛津大學(xué),對包括ChatGPT、Gemini和Llama在內(nèi)的主流AI模型進(jìn)行了深入分析。結(jié)果顯示,這些模型在處理否定語句時,往往傾向于忽視否定含義,而默認(rèn)與肯定相關(guān)聯(lián)。
研究指出,AI在醫(yī)療場景中的潛在危害尤為突出。例如,AI可能會錯誤地解讀“無骨折”(no fracture)或“未擴大”(not enlarged)等關(guān)鍵信息,進(jìn)而可能導(dǎo)致嚴(yán)重的醫(yī)療失誤。這一發(fā)現(xiàn)無疑為AI在醫(yī)療領(lǐng)域的應(yīng)用敲響了警鐘。
據(jù)分析,問題的根源不在于數(shù)據(jù)量的不足,而在于AI的訓(xùn)練方式。斯坦福大學(xué)深度學(xué)習(xí)兼職教授Kian Katanforoosh指出,大多數(shù)AI語言模型依賴于模式預(yù)測,而非邏輯推理。這意味著,在面對如“不好”(not good)這樣的否定表達(dá)時,AI仍可能因“good”一詞的存在而誤判為正面情緒。
Lagrange Labs首席研究工程師Franklin Delehelle也表達(dá)了類似的觀點。他認(rèn)為,AI擅長模仿訓(xùn)練數(shù)據(jù)中的模式,但缺乏創(chuàng)新和應(yīng)對訓(xùn)練數(shù)據(jù)之外情境的能力。這導(dǎo)致AI在面對復(fù)雜的否定語句時,往往難以做出準(zhǔn)確的判斷。
為了改進(jìn)AI模型在處理否定語句方面的表現(xiàn),研究團隊嘗試通過合成否定數(shù)據(jù)(synthetic negation data)來進(jìn)行訓(xùn)練。雖然這種方法取得了一定成效,但細(xì)粒度的否定差異仍然是一個具有挑戰(zhàn)性的難題。
Katanforoosh警告稱,AI對否定的誤解不僅是一項技術(shù)缺陷,更可能在法律、醫(yī)療和人力資源等多個領(lǐng)域引發(fā)關(guān)鍵錯誤。他呼吁業(yè)界在提升AI模型時,應(yīng)更加注重結(jié)合統(tǒng)計學(xué)習(xí)與結(jié)構(gòu)化思維,以增強模型的邏輯推理能力。
研究還指出,AI在處理否定語句時的不足,也揭示了AI在理解和應(yīng)用人類語言方面的局限性。這要求我們在推動AI技術(shù)發(fā)展的同時,必須保持警惕,確保AI在關(guān)鍵領(lǐng)域的應(yīng)用不會因語言理解的缺陷而引發(fā)風(fēng)險。






