AI越聊越笨？最新研究指：愈深入對話，表現愈差

By Shiney Xu on 23 May 2025

AI聊天機械人，初見驚艷，再談卻常「甩轆」？你是否也曾感受過，與AI對話越深入，它反而越顯迷糊，甚至前後矛盾？這可不是偶發的程式錯誤！一項涵蓋GPT-4.1、Claude 3.7等15種主流模型的最新研究揭示，AI在多輪對話中表現急劇下滑（從初輪90%成功率驟降至60%），是普遍存在的結構性缺陷。

「幻覺問題」的深層成因

近期由Microsoft和Salesforce聯合進行，模擬了高達20萬筆對話的研究，揭示了AI對話「越聊越不對勁」的具體原因。研究結果令人矚目：即便如GPT-4.1、Claude 3.7、Gemini 2.5 Pro等頂尖模型，在首輪對話中表現堪稱完美，成功率高達90%。然而，一旦對話延續至第二、三輪，成功率便如同高台跳水般跌至約60%。這種現象並非單純的「健忘」，而是AI在面對不完整資訊時，傾向於「急於表現」並迅速下定論。

這種倉促的判斷一旦在對話初期發生偏差，後續的邏輯便會「一路錯到底」，並且AI會固執地「自我強化」這些錯誤結論，不斷堆砌看似合理實則荒謬的細節，這便是所謂「AI幻覺」的深層機制之一。更棘手的是，目前AI缺乏人類的「懷疑與修正」機制，無法意識到「我可能錯了」，導致錯誤持續累積。這種結構性缺陷，使得調整溫度參數、擴展記憶體或強化推理模組等常規手段，都難以根治此問題。

人機互動設計需轉向

目前大型語言模型的設計仍偏重處理「一次性任務」，訓練數據多為「一問一答」的範例，與現實中模糊、漸進的深度對話模式差異極大。這就像只會背標準答案的學生，突然面對即席辯論時難以應對。要讓AI成為真正的助手，未來設計必須轉變——不僅追求「更準確回答」，更要訓練它「學會等待與釐清」。

例如，AI應能辨識提問中的不確定性，主動反問：「您是指A還是B？」或在資訊不足時坦承：「我目前無法完全理解，能否提供更多細節？」這種「引導式對話」能提升效率，並在模糊階段協助使用者釐清問題，而非急於給出可能錯誤的答案。這才是邁向智慧對話的關鍵。

企業與使用者信賴度拉警報

當AI在多輪對話中頻頻「卡殼」甚至「強辯」，不僅影響使用者體驗，更可能引發「AI信任危機」。企業若投入大量資源部署的AI客服或分析工具，在處理複雜、連續任務時表現不穩，甚至因早期錯誤導致後續連鎖失誤，其潛在損失與風險極大。例如，財務分析AI若誤解指令產出錯誤報表，或醫療輔助AI因誤判病患描述而導向錯誤診斷，後果嚴重。