download BusinessFocus app
全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代

Market Information PR Newswire
By PR Newswire on 06 Oct 2025
PR Newswire (www.prnasia.com), a Cision company, is the premier global provider of media monitoring platforms and news distribution services that marketers, corporate communicators and investor relations professionals leverage to engage key audiences. Having pioneered the commercial news distribution industry since 1954, PR Newswire today provides end-to-end solutions to produce, distribute, target and measure text and multimedia content across traditional, digital, mobile and social channels. Combining the world's largest multi-channel content distribution and optimization network with comprehensive workflow tools and platforms, PR Newswire powers the stories of organizations around the world. PR Newswire serves tens of thousands of clients from offices in the Americas, Europe, Middle East, Africa and Asia-Pacific regions.

北京2025年10月6日 /美通社/ -- 2025年,Agent無疑是AI圈的熱詞。行業普遍認為:真正有用的Agent,必須學會使用手機和電腦,像人一樣操作GUI。

近日,中國企業級大模型與數據智能企業——明略科技推出的專有GUI大模型 Mano在行業公認的Mind2Web和OSWorld兩大基準測試中,均取得了創紀錄的SOTA成績。通過在線強化學習和訓練數據自動採集兩大核心創新,Mano為GUI智能體領域提供了一套可擴展、可持續進化的新範式。

Mano在OSWorld-Verified榜單的Foundation E2E GUI & Specialized Model評測中取得SOTA。
Mano在OSWorld-Verified榜單的Foundation E2E GUI & Specialized Model評測中取得SOTA。

榜單鏈接:https://os-world.github.io/
技術報告鏈接:https://www.mininglamp.com/news/6394/

關鍵突破:

1.Mind2Web:Mind2Web覆蓋137個網站、2350+真實任務,旨在考察智能體能否在複雜多變的DOM結構裡精準找到目標元素,並完成整個操作鏈。Mano展示出「看得準、做得成」的核心優勢。

技術報告顯示,Mano的元素精度 (Ele.Acc)和步驟成功率(Step SR)指標遙遙領先,在準確識別、定位界面元素,以及成功執行多步任務能力上達到新高度。Mano的操作F1 (Op.F1) 指標與此前頂尖模型持平甚至略高,能夠真正將複雜任務轉化為成功的操作序列。

2. OSWorld-Verified:更難的挑戰來自桌面端。OSWorld-Verified涵蓋了369個跨應用任務,覆蓋10類應用,包含瀏覽器,辦公軟件等多個類型,每一個操作都和真實桌面場景無縫對接。

技術報告顯示,在OSWorld-Verified榜單的Foundation E2E GUI & Specialized Model 評測中,Mano直接把成功率提升到 41.6±0.7%,超過qwen、GUI-Owl、opencua等模型。

技術創新:

亮點一:首次提出「在線強化學習」

DeepSeek橫空出世以來,GRPO已經成為強化學習黃金範式。現有的模型訓練大多局限在離線強化學習的範疇,深度依賴事先收集好的數據集。但在GUI交互智能體領域,任何操作都與真實的系統交互環境密切相關。

因此,Mano在GUI交互領域首次提出「在線強化學習」的訓練範式,並推出訓練數據自動採集的「探索器」,讓智能體時刻依賴最新數據進行學習,並在「嘗試新的行動以獲取信息」和「基於已有知識採取最優行動」之間取得平衡。

為了在真實的交互環境中不斷強化以提高適應性和靈活性,明略科技建立了一個模擬環境池,包括瀏覽器環境(BUA)和桌面環境(CUA),讓模型在真實交互中採集更多樣化的環境數據,彌補了離線軌跡分佈稀疏的局限性,最終在多樣化的Web GUI場景中展現出更強的魯棒性。

同時,採用在線採樣 + 離線過濾的創新方式:先收集軌跡,再過濾噪聲數據,動態調節任務難度分佈,有效避免了因失敗軌跡導致學習效率低下的問題。

消融實驗結果顯示,加入在線強化學習後,模型在OSWorld-Verified數據集的平均分數產生了質的飛躍,相比離線強化學習的模型結果提升了 7.9,達到 41.6。

亮點二:智能探索,採集真實環境軌跡

儘管大模型能夠理解籠統的指令,但在多步驟操作的目標驅動型任務中,往往無法將大目標分解為具體的執行步驟。因此,研發人員需要為交互任務構建專用的模型和智能體。在這一過程中,海量的高質量交互軌跡數據不可或缺。過去,這類數據往往需要人工構建或標注,成本高、耗時長。對此,明略科技設計了訓練數據自動採集的方法,從根本上提升了數據收集的效率和準確性,這正是Mano的第二大創新。

明略科技搭建了一個可擴展的虛擬環境集群,用於模擬多種交互場景。針對每個目標應用,大模型自動生成目標清單,並對目標進行優先級排序,過濾掉使用頻率極低的功能,為後續探索提供明確的上下文指導。

元素提取方面,明略科技為網頁環境定制了Chrome插件「Mano-C」,全面提取網頁中的交互元素,捕捉其空間坐標與語義屬性。針對桌面環境,技術團隊則採用A11y Tree解析與 OmniParseV2協同過濾的方法,確保覆蓋更多交互元素。

數據標注方面,明略科技利用大模型為每個提取的元素生成語義標籤、功能描述,以及交互類別,形成結構化的語義對齊數據,為後續訓練提供有效監督。

為了提升數據採集的智能程度,技術團隊設計了基於Prompt的探索模塊,用於智能選擇交互元素,並引入顯式約束,避免路徑循環和冗余分支。在探索過程中,採用深度優先搜索(DFS)策略,系統會截取截圖並保存帶註釋的交互數據。完成探索後,通過軌跡評估機制,篩選出高質量的交互序列。整個過程不斷循環,每一步都會檢查是否達到最大探索深度。

Mano的SOTA表現,得益於明略科技多年來在大模型領域的積累。2024年,明略科技的超圖多模態大語言模型(HMLLM)和Video-SME數據集在腦電圖、眼動等非標模態數據處理領域取得顯著突破,榮獲ACM MM 2024最佳論文提名。2025年,明略科技推出企業級商業數據分析可信智能體DeepMiner,Mano作為DeepMiner的自動化執行引擎,讓智能體真正學會了「看」與「點」,在複雜的軟件與瀏覽器環境下實現了精細化操作。展望未來,明略科技將進一步優化Mano在應用和端側部署能力,加速企業智能化轉型進程。

【了解更多最快最新的財經、商業及創科資訊】

👉🏻 追蹤 WhatsApp 頻道 BusinessFocus

👉🏻 下載 BusinessFocus APP

👉🏻 立即Follow Instagram businessfocus.io

最新 金融投資熱話專頁 MarketFocus