商湯推視頻生成模型VIMI 憑一張照片可生成一分鐘短片挑戰OpenAI? 試用要排隊 唔知等幾耐
視頻生成模型成AI當中重要科技。中國AI晶片龍頭商湯(0020),近日於2024世界人工智能大會(WAIC 2024 ),推出可控人物視頻生成大模型Vimi,憑一張照片便可以生成一分鐘短片。商湯推出的Vimi,視頻長度可與OpenAI年初推出的Sora看齊,惟未知效果如何。
Vimi目前已可試玩,但要透過微信WeChat排隊預約。記者以內地電話註冊,暫時未知要排多久才可試玩。根據介紹,Vimi支持多種驅動方式,可通過人物照片、影片、動畫、聲音、文字等多種元素驅動。
商湯表示,讓照片中人物動起來已非新鮮事,但目前市面上的產品實際應用仍存在挑戰,例如人物動作或表情動作無法精準控制、效果不穩定、時長限制在3至4秒等。商湯表示,Vimi是基於商湯「日日新大模型」(SenseNova)的能力,一張照片可生成長達1分鐘的人物短片,突破目前市面上只能生成3至4秒的技術。影片質素方面,Vimi不但可實現精準的人物表情控制,還可控制照片中人物上半身的自然肢體動作,並自動生成與人物相符的頭髮、服飾及背景變化。
網民就對有關的技術議論紛紛,有網民就質疑,「以後有影片也未必會有真相」
商湯與香港有很大淵源,創辦人湯曉鷗為前香港中文大學信息工程系教授,2014年創辦商湯,發展至國內成AI科技龍頭。商湯科技亦在香港科技園設有辦公室。湯曉鷗於去年年底已去世。商湯近年股票經歷大波動,與2020年相比大幅下挫,今年表現才較佳。股票現報1.31元,今年至今升27%。
今年世界人工智能大會圍繞核心技術、智慧終端、應用賦能三大領域,聚焦大語言模型(LLM)、算力、機械人、自動駕駛等。據內地媒體報道,本屆大會將現場展示百款LLM,首度發表超過50款LLM新品。今年大會的展覽規模、參展企業數、首發新品數均創新高。
OpenAI於一月中推出Sora,亦可以憑指令製作一分鐘的短片。OpenAI創辦人Sam Altman亦在社交平台親身示範Sora生成的視頻,輸入“A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view”(一場在海洋上舉行的自行車比賽,不同的動物作為運動員騎著自行車,通過無人機攝像機視角進行拍攝),可生成相關一分鐘視頻,效果亦相當迫真。
中國方面,百度的「文心一言」,早於去年加入生成一分鐘短片的功能。今年四月底,清華大學聯合北京生數科技有限公司,發布文字描述生成影片的人工智慧模型「Vidu」,能夠一鍵生成長達16秒、畫質1080P的高清影片內容。