阿里雲推AI繪畫模型「通義萬相」開放企業測試理解能力較文心一言完善惟人臉生成有待加強

By Valerie on 10 Jul 2023

Digital Editor

繼今年4月發布語言大模型「通義千問」後，阿里雲緊接著於上周五（7日）正式推出AI繪畫創作大模型「通義萬相」，並發放邀請碼讓内地企業測試，有報道稱其生成的人物圖面部雖看著猙獰，卻也不會像「文心一言」生成的校服美少女一般扭曲，因此推斷其理解能力較為完善。

Photo from 騰訊網

《騰訊網》報道，阿里雲於上周五（7日）在上海召開「2023世界人工智能大會」（WAIC），並正式推出了可協助企業和社群釋放更大創造力及生產力的「通義萬相」，開啟定向邀測讓内地企業先行測試其功效。

阿里雲智能首席技術官周靖人表示，「通義萬相」是基於阿里雲「通義」大模型能力打造，提供高度可控性和極大自由度的圖像生成效果，將進一步協助電子商務、遊戲、設計和廣告等領域的企業開展創新的AI藝術創作和創意表達。

Photo from 騰訊網

據報，「通義萬相」的3個主要功能為基礎文生圖能力、相似圖生成，及圖片風格遷移功能，用戶可輸入中文或英文的關鍵提示詞生成圖像，或直接上載原圖讓其生成風格類似的新圖片，還可以再加上另一張視覺風格迥異的圖片，在保留原圖内容的情況下轉換其風格，達到2張圖片的風格與内容相融合的效果。

Photo from 騰訊

報道稱，在測試「通義萬相」的基礎文生圖功能時，記者輸入了「各色奧特曼環成一圈，舉手歡呼的場景」的提示詞，生成的圖片顯示奧特曼聚集在一個圓形傳送門中，雖沒達到理想，卻也不算太偏離主軸，而記者同時利用「文心一言」生成同樣内容的圖片，結果卻顯示多雙五顔六色的手圍繞著一個奧特曼，完全不符合輸入的提示詞，讓記者直呼「離譜」，因此推斷「通義萬相」的理解能力更為完善。

Photo from 騰訊網

另外，在提供原圖並生成相似新圖片的功能上，「通義萬相」在生成人臉圖上似乎還有待加強，因為新圖片中多數人臉的五官模糊，少數擁有完整五官的人臉則都睜不開眼睛，看起來有些許猙獰；至於風格遷移功能，有網民提供了2張分別是素描及水彩形式的麋鹿圖，生成的新圖片較素描圖多了色彩、較水彩圖多了線條細節，是目前為止收穫最多好評的功能。

Photo from 騰訊網

同時，阿里雲亦在WAIC上宣布推出通用框架ModelScopeGPT，協助用戶免費使用該平台上的多元AI模型完成各類複雜度高和專業性強的AI任務，例如開發語言、影片和語音等。據悉，開源模型即服務（Model-as-a-Service）平台ModelScope於去年推出，目前已有超過900個AI模型。