在人工智能領域,一項由蘋果科研團隊發起的研究揭示了大型推理模型(LRM)在應對復雜任務時的局限性,為這一熱門研究方向帶來了意外的冷靜思考。
研究聚焦于Claude3.7Thinking和Deepseek-R1等推理模型,這些模型旨在通過模擬思維過程來提升問題解決能力。然而,在實際測試中,它們的表現卻令人失望。研究選取了四種經典的邏輯謎題——漢諾塔、跳棋、渡河和積木世界,這些謎題因能夠精確調控任務難度,而被視為評估語言模型推理能力的理想工具。
測試結果顯示,在簡單任務上,傳統的標準大型語言模型(LLM)表現得更為準確且高效。隨著任務復雜度的提升,雖然推理模型的表現略有改善,但最終還是在高復雜度任務面前全面崩潰。更令人驚訝的是,當面對最復雜的任務時,這些模型不僅準確率驟降至零,而且使用的推理標記(tokens)數量也顯著減少,表明它們在“思考”的意愿和能力上都出現了衰退。
研究團隊進一步分析了模型在不同復雜度下的推理軌跡,發現兩種典型的失敗模式:一種是“過度思考”,即在簡單問題中,模型找到正確答案后仍持續生成錯誤的備選方案;另一種是“思考崩潰”,在高復雜度問題中,模型的推理過程突然中斷,甚至無法嘗試生成任何解決方案。
一直以來,推理模型通過引入“思路鏈”和“自我反思”等機制,被視為通往通用人工智能(AGI)的關鍵一步。然而,蘋果的研究指出,這些機制在擴展性上存在根本缺陷。當前的推理模型無法制定出具有通用性的策略,其所謂的“思考”更多是基于統計的生成,而非真正的邏輯演繹。
研究還發現,模型在不同謎題上的表現與訓練數據密切相關。例如,在訓練數據中頻繁出現的“漢諾塔”任務,其準確率普遍高于復雜度相似但數據較少的“渡河”任務。這進一步凸顯了當前模型對訓練數據分布的嚴重依賴。
蘋果研究人員指出,當前推理模型的“思維能力”存在與問題復雜度相對的不對稱擴展性問題,在結構上無法支撐高階任務的解決。他們呼吁,應對推理模型的核心設計原則進行重新思考,以克服這些根本性的技術挑戰。
這一發現對人工智能行業產生了深遠的影響。隨著AI模型規模擴展的收益逐漸趨于飽和,推理能力被視為推動AI邁向下一階段革命的關鍵。包括OpenAI在內的多家頭部企業,都在這一方向上投入了大量資源。然而,蘋果的研究提醒我們,在通往真正“理解”和“推理”的道路上,AI仍然面臨著嚴峻的技術障礙。






