全球首個大一統多模態視頻模型可靈O1發佈

By PR Newswire on 02 Dec 2025

PR Newswire (www.prnasia.com), a Cision company, is the premier global provider of media monitoring platforms and news distribution services that marketers, corporate communicators and investor relations professionals leverage to engage key audiences. Having pioneered the commercial news distribution industry since 1954, PR Newswire today provides end-to-end solutions to produce, distribute, target and measure text and multimedia content across traditional, digital, mobile and social channels. Combining the world's largest multi-channel content distribution and optimization network with comprehensive workflow tools and platforms, PR Newswire powers the stories of organizations around the world. PR Newswire serves tens of thousands of clients from offices in the Americas, Europe, Middle East, Africa and Asia-Pacific regions.

香港2025年12月2日 /美通社/ -- 領先的內容社區及社交平台快手科技（「快手」或「公司」；港幣櫃台股份代號：01024 / 人民幣櫃台股份代號：81024）宣佈，12月1日，可靈AI正式發佈其全新產品「可靈O1」，定位為首個大一統的多模態創作工具。可靈O1基於全新的視頻和圖像模型，整合文字、視頻、圖片、主體等多模態輸入，將所有生成和編輯任務融合於一個全能引擎之中。可靈O1的推出，徹底解決了AI視頻生成中角色、場景等一致性難題，為影視、自媒體、廣告電商等應用場景，提供了深度適配的一站式解決方案。

大一統模型，解決視頻創作的所有難題

作為首個大一統多模態視頻模型，可靈O1基於多模態視覺語言（MVL）理念，突破傳統單一視頻生成任務的模型邊界，將參考生視頻、文生視頻、首尾幀生視頻、視頻內容增刪、視頻修改變換、風格重繪、鏡頭延展等多種任務，融合於同一個全能引擎之中，用戶無需切換模型及工具，即可一站式完成從生成到編輯的全流程創作。

憑藉深層語義理解力，可靈O1可將用戶上傳的圖片、視頻、主體、文字均視為指令。模型打破了模態限制，能夠從不同視角綜合理解一張照片、一段視頻或一個主體，精準生成各項細節。

可靈O1的多模態指令輸入區，讓繁瑣的剪輯後期變成了簡單的對話。使用者無需手動遮罩或輸入關鍵幀，只需輸入「移除路人」、「將白天改為黃昏」或「替換主角服裝」等指令，模型即可讀懂影像邏輯，實現從局部主體替換到整體風格重繪的像素級語義重構。此外，它也全面支援圖片/主體參考、視頻內容編輯、鏡頭切換、首尾幀生成及文生視頻等多種能力。

針對AI視頻落地中常見的角色與場景不一致的痛點，可靈O1底層強化了對輸入圖像及視頻的理解。它能像人類導演一樣，「記住」主角、道具和場景，確保主體特徵在鏡頭變化中始終保持穩定。此外，該模型展現了強大的多主體融合能力。用戶可以自由組合多個不同主體，或將主體與參考圖混搭。即便是在複雜的群像戲或互動場景中，模型也能獨立鎖定並保持每一位角色或道具的特徵，確保「主角」在不同鏡頭中實現工業級的特徵統一。

可靈O1支援「技能組合」，不再局限於單點任務。使用者可以指令其「在視頻中增加主體的同時修改背景」，或者「在圖片參考生成時，同步修改風格」。這種一次生成多種創意變化的能力，極大地拓展了創作的自由度，讓創意的化學反應成為可能。

在時長控制上，可靈O1將定義時間的權力交還給創作者，支援3-10秒自由生成。無論是短促的視覺衝擊，還是悠長的故事鋪陳，都由使用者自由掌控。值得一提的是，作為統一模型的一部分，可靈O1的首尾幀能力也將支持3-10秒的生成時長選擇（即將發佈），進一步增強敘事的張弛度。

同時發佈的還有可靈圖像O1模型，可實現從基礎圖像生成到高階細節編輯全鏈路無縫銜接，用戶既可通過純文本生成圖像，也可上傳最多10張參考圖進行融合再創作。該模型具備四大核心優勢：特徵高度保持，讓主體元素穩定不偏差；細節修改精準響應，讓每一處調整都符合預期；風格調性準確把控，讓畫面氛圍始終統一；超豐富想像力，讓創意呈現更具張力，真正實現「所想即所得」。

一個模型覆蓋多創作場景：影視、自媒體、廣告電商

全新的可靈O1集生成與編輯於一體，廣泛適用於影視、自媒體、廣告電商等多種場景。無論是從零構建的敘事生成，還是對既有素材的深度重塑，可靈O1都能根據不同需求，靈活調用其參考、編輯的能力，輕鬆完成創作。

在影視創作領域，可靈O1憑藉強大一致性的圖片（主體）參考，結合主體庫功能，可以精準鎖定每個分鏡的角色及服化道，輕鬆生成多個連貫的影視鏡頭。對於視頻後期、自媒體創作者而言，只需輸入「刪除背景中的路人」、「讓天空變藍」等簡單對話指令，就能讓可靈O1自動完成像素級的智能修補與重構。

針對傳統線下廣告實拍成本高，製作週期長的問題，用戶現在只需上傳商品、模特和場景圖，輔以簡單指令，即可快速生成多個酷炫的商品展示廣告，大幅降低實拍成本。針對模特約拍麻煩與換裝難題，可靈O1可搭建永不落幕的虛擬T台：上傳模特和服裝實拍圖，輸入指令，便能完美還原服飾的質感和細節，批量生產高品質的Lookbook視頻。

可靈O1能實現上述強大而全面的功能，源於在技術底座的深層創新。全新的可靈視頻O1模型打破視頻模型在生成、編輯與理解上的功能割裂，構建了全新的生成式底座。通過融合多模態理解的Multimodal Transformer和多模態長上下文，實現了多任務的深度融合與統一。

關於快手

快手作為中國乃至全球領先的內容社區及社交平台，致力於成為全球最癡迷於為客戶創造價值的公司。作為一家以人工智能為核心驅動和技術依託的科技公司，快手專注於通過持續的技術創新和產品升級，不斷豐富服務和應用場景，為客戶創造價值。在快手，用戶通過短視頻和直播來記錄和分享他們的生活，發現所需，發揮所長。通過與內容創作者和企業緊密合作，快手提供的技術、產品和服務可滿足用戶的多元化的需求，包括娛樂、線上營銷服務、電商、本地生活、遊戲等。

前瞻性聲明

除過往事實的陳述外，本新聞稿載有若干前瞻性陳述。前瞻性陳述一般可透過所使用前瞻性詞彙識別，例如「或會」、「可能」、「可」、「可以」、「將」、「將會」、「預期」、「認為」、「繼續」、「估計」、「預計」、「預測」、「打算」、「計劃」、「尋求」或「時間表」。該等前瞻性陳述受風險、不確定因素及假設的影響，可能包括業務展望、財務表現預測、業務計劃預測、發展策略及對我們行業預期趨勢的預測。該等前瞻性陳述是根據本集團現有的資料，亦按本新聞稿刊發之時的展望為基準，在本新聞稿內載列。該等前瞻性陳述是根據若干預測、假設及前提作出，當中許多涉及主觀因素或不受我們控制。該等前瞻性陳述或會證明為不正確及可能不會在將來實現。該等前瞻性陳述涉及大量風險及不明朗因素。鑒於上述風險及不明朗因素，本新聞稿內所載列的前瞻性陳述不應視為董事會或本公司聲明該等計劃及目標將會實現，故投資者不應過於依賴該等陳述。除法律要求的情形外，我們並無責任公開發佈可能反映本新聞稿日期後發生的事件或情況或可能反映意料之外事件的該等前瞻性陳述的任何修訂。