download BusinessFocus app
阿里雲推AI繪畫模型「通義萬相」 開放企業測試 理解能力較文心一言完善 惟人臉生成有待加強

阿里雲推AI繪畫模型「通義萬相」 開放企業測試 理解能力較文心一言完善 惟人臉生成有待加強

Business
By Valerie on 10 Jul 2023
Digital Editor

繼今年4月發布語言大模型「通義千問」後,阿里雲緊接著於上周五(7日)正式推出AI繪畫創作大模型「通義萬相」,並發放邀請碼讓内地企業測試, 有報道稱其生成的人物圖面部雖看著猙獰,卻也不會像「文心一言」生成的校服美少女一般扭曲,因此推斷其理解能力較為完善。

阿里雲推出的AI繪畫創作大模型「通義萬相」具有基礎文生圖能力、相似圖生成,及圖片風格遷移功能。Photo from 騰訊網

《騰訊網》報道,阿里雲於上周五(7日)在上海召開「2023世界人工智能大會」(WAIC),並正式推出了可協助企業和社群釋放更大創造力及生產力的「通義萬相」,開啟定向邀測讓内地企業先行測試其功效。

阿里雲智能首席技術官周靖人表示,「通義萬相」是基於阿里雲「通義」大模型能力打造,提供高度可控性和極大自由度的圖像生成效果,將進一步協助電子商務、遊戲、設計和廣告等領域的企業開展創新的AI藝術創作和創意表達。

輸入「各色奧特曼環成一圈,舉手歡呼的場景」的「通義萬相」生成圖。Photo from 騰訊網

據報,「通義萬相」的3個主要功能為基礎文生圖能力、相似圖生成,及圖片風格遷移功能,用戶可輸入中文或英文的關鍵提示詞生成圖像,或直接上載原圖讓其生成風格類似的新圖片,還可以再加上另一張視覺風格迥異的圖片,在保留原圖内容的情況下轉換其風格,達到2張圖片的風格與内容相融合的效果。

輸入「各色奧特曼環成一圈,舉手歡呼的場景」的「文心一言」生成圖。Photo from 騰訊

報道稱,在測試「通義萬相」的基礎文生圖功能時,記者輸入了「各色奧特曼環成一圈,舉手歡呼的場景」的提示詞,生成的圖片顯示奧特曼聚集在一個圓形傳送門中,雖沒達到理想,卻也不算太偏離主軸,而記者同時利用「文心一言」生成同樣内容的圖片,結果卻顯示多雙五顔六色的手圍繞著一個奧特曼,完全不符合輸入的提示詞,讓記者直呼「離譜」,因此推斷「通義萬相」的理解能力更為完善。

左為原圖,右為生成圖。Photo from 騰訊網

另外,在提供原圖並生成相似新圖片的功能上,「通義萬相」在生成人臉圖上似乎還有待加強,因為新圖片中多數人臉的五官模糊,少數擁有完整五官的人臉則都睜不開眼睛,看起來有些許猙獰;至於風格遷移功能,有網民提供了2張分別是素描及水彩形式的麋鹿圖,生成的新圖片較素描圖多了色彩、較水彩圖多了線條細節,是目前為止收穫最多好評的功能。

風格遷移功能保留第一張原圖的内容,再根據第二章原圖的風格轉換,達到2張原圖相融合的效果。Photo from 騰訊網

同時,阿里雲亦在WAIC上宣布推出通用框架ModelScopeGPT,協助用戶免費使用該平台上的多元AI模型完成各類複雜度高和專業性強的AI任務,例如開發語言、影片和語音等。據悉,開源模型即服務(Model-as-a-Service)平台ModelScope於去年推出,目前已有超過900個AI模型。

另根據阿里雲數據顯示,「通義千問」發布3個月以來,已收到來自金融科技、電子、運輸、時尚和乳製品等多個行業企業、超過 30 萬個內部測試申請。

 

Text by BusinessFocus Editorial

【了解更多最快最新的財經、商業及創科資訊】

👉🏻 追蹤 WhatsApp 頻道 BusinessFocus

👉🏻 下載 BusinessFocus APP

👉🏻 立即Follow Instagram businessfocus.io

最新 金融投資熱話專頁 MarketFocus