AI新霸主？Anthropic首個混合推理模型玩Pokémon打敗三館主 Claude 3.7 Sonnet識快思慢想如人腦

By Ella Wan on 27 Feb 2025

Feature Reporter

近年來，人工智慧領域發展迅速，各科技公司紛紛推出自家模型，力求在競爭激烈的市場中佔據一席之地。近日，由OpenAI前成員所創立的新創公司Anthropic，推出其最新模型Claude 3.7 Sonnet，聲稱為是市場上首個混合推理模型，引起廣泛關注。

何謂混合推理模型？

傳統的人工智慧模型往往需要在速度與深度之間做出取捨，即時反應快速的模型，通常在深度思考方面有所欠缺，而擅長深度分析的模型則在即時性方面表現不足。但Claude 3.7 Sonnet 獨特之處在於，能夠結合即時反應與深度思考，模擬人類大腦的運作方式，在一個模型中實現快速反應與深度分析的無縫切換。這種混合推理能力使使用者能夠在各種應用場景中，獲得更流暢、更高效的體驗。

Pokémon對戰

為了驗證Claude 3.7 Sonnet的推理能力，Anthropic團隊進行了一項有趣的實驗：讓該模型挑戰Game Boy版初代《Pokémon Red》遊戲，結果令人驚訝。Claude 3.7 Sonnet不僅成功超越了常青森林，抵達枯葉道館，更擊敗了三位道館館主，展現卓越推理能力和策略規劃能力。相較之下，以往的Claude模型甚至無法通過遊戲初始階段，更遑論挑戰道館館主。

基準測試：數學解難準確度高達96.2%

除了在寶可夢對戰中展現出色的推理能力外，Claude 3.7 Sonnet在傳統的基準測試中也表現亮眼。在推理、多模式能力、代理編碼等方面，Claude 3.7 Sonnet均都接近或能追上其他模型。值得一提的是，Claude 3.7 Sonnet在數學解難方面的準確度高達96.2%，充分證明了其在邏輯推理和問題解決方面的強大能力。