download BusinessFocus app
AI越聊越笨?最新研究指:愈深入對話,表現愈差

AI越聊越笨?最新研究指:愈深入對話,表現愈差

Tech Business News
By Shiney Xu on 23 May 2025

AI聊天機械人,初見驚艷,再談卻常「甩轆」?你是否也曾感受過,與AI對話越深入,它反而越顯迷糊,甚至前後矛盾?這可不是偶發的程式錯誤!一項涵蓋GPT-4.1、Claude 3.7等15種主流模型的最新研究揭示,AI在多輪對話中表現急劇下滑(從初輪90%成功率驟降至60%),是普遍存在的結構性缺陷。

 「幻覺問題」的深層成因

 近期由Microsoft和Salesforce聯合進行,模擬了高達20萬筆對話的研究,揭示了AI對話「越聊越不對勁」的具體原因。研究結果令人矚目:即便如GPT-4.1、Claude 3.7、Gemini 2.5 Pro等頂尖模型,在首輪對話中表現堪稱完美,成功率高達90%。然而,一旦對話延續至第二、三輪,成功率便如同高台跳水般跌至約60%。這種現象並非單純的「健忘」,而是AI在面對不完整資訊時,傾向於「急於表現」並迅速下定論。

 這種倉促的判斷一旦在對話初期發生偏差,後續的邏輯便會「一路錯到底」,並且AI會固執地「自我強化」這些錯誤結論,不斷堆砌看似合理實則荒謬的細節,這便是所謂「AI幻覺」的深層機制之一。更棘手的是,目前AI缺乏人類的「懷疑與修正」機制,無法意識到「我可能錯了」,導致錯誤持續累積。這種結構性缺陷,使得調整溫度參數、擴展記憶體或強化推理模組等常規手段,都難以根治此問題。

 人機互動設計需轉向

 目前大型語言模型的設計仍偏重處理「一次性任務」,訓練數據多為「一問一答」的範例,與現實中模糊、漸進的深度對話模式差異極大。這就像只會背標準答案的學生,突然面對即席辯論時難以應對。要讓AI成為真正的助手,未來設計必須轉變——不僅追求「更準確回答」,更要訓練它「學會等待與釐清」。  

 例如,AI應能辨識提問中的不確定性,主動反問:「您是指A還是B?」或在資訊不足時坦承:「我目前無法完全理解,能否提供更多細節?」這種「引導式對話」能提升效率,並在模糊階段協助使用者釐清問題,而非急於給出可能錯誤的答案。這才是邁向智慧對話的關鍵。

 企業與使用者信賴度拉警報

 當AI在多輪對話中頻頻「卡殼」甚至「強辯」,不僅影響使用者體驗,更可能引發「AI信任危機」。企業若投入大量資源部署的AI客服或分析工具,在處理複雜、連續任務時表現不穩,甚至因早期錯誤導致後續連鎖失誤,其潛在損失與風險極大。例如,財務分析AI若誤解指令產出錯誤報表,或醫療輔助AI因誤判病患描述而導向錯誤診斷,後果嚴重。

 對一般用戶而言,若AI無法可靠完成需多次溝通的任務(如規劃複雜行程或協作詳細報告),其實用性將大幅降低,用戶信賴感也會隨之減弱。此次研究顯示,AI的「聰明」仍不夠「謙虛」與「謹慎」。若AI無法坦承「不確定」並有效處理不確定性,它在關鍵決策與長期合作中的角色將持續受到質疑。

 

Text by BusinessFocus Editorial

免責聲明:本網頁一切言論並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦,讀者務請運用個人獨立思考能力自行作出投資決定,如因相關言論招致損失,概與本公司無涉。投資涉及風險,證券價格可升可跌。

【了解更多最快最新的財經、商業及創科資訊】

👉🏻 追蹤 WhatsApp 頻道 BusinessFocus

👉🏻 下載 BusinessFocus APP

👉🏻 立即Follow Instagram businessfocus.io

最新 金融投資熱話專頁 MarketFocus