研究指出,像GPT-4這樣的大模型,在某些情況下其回答可靠性甚至不如前一代模型GPT-3。這一發現引發了公眾和學術界的熱烈討論,人們開始重新審視大型語言模型的發展路徑。
研究還發現,新模型在面對超出其能力范圍的問題時,更傾向于給出錯誤的答案,而不是像早期模型那樣選擇回避。這一變化可能導致用戶在不知情的情況下依賴錯誤的模型輸出。
該研究還探討了人類監督在糾正模型錯誤中的作用。然而,結果顯示,人類監督并不能有效解決模型的不可靠性問題。在人類認為困難的操作區域中,他們經常將錯誤的輸出視為正確,這進一步加劇了模型的不可靠性。
為了解決這些問題,論文提出了一些可能的解決方案,包括使用人類難度預期進行更好的訓練或微調模型,以及教會模型如何規避超出自身能力范圍的問題。
這一研究為人工智能領域帶來了新的挑戰和思考,如何在模型擴展和提升的過程中確保其可靠性,成為了未來研究的重要方向。