新京報貝殼財經(jīng)訊(記者羅亦丹)1月9日,阿里云通義萬相攜2.1版本升級殺入了視頻生成大模型的競技場,并在權(quán)威評測集VBench上登頂。此次升級,通義萬相在大幅度復(fù)雜運動、物理規(guī)律遵循、藝術(shù)表現(xiàn)等方面全面提升。


版本升級后,新版的通義萬象在視頻生成領(lǐng)域的權(quán)威評測集VBench登上榜首位置,超越混元、海螺AI、Gen3、Pika等國內(nèi)外視頻生成模型。具體來看,VBench一共有16個評分維度,而通義萬相在運動幅度、多對象生成、空間關(guān)系等關(guān)鍵能力上拿下最高分,最終以總分84.7%的成績斬獲第一。


目前,精準理解和模擬物理世界是當下視頻生成模型的核心難題,現(xiàn)有模型生成的視頻在大幅運動、物理復(fù)雜場景表現(xiàn)較差,容易生成肢體扭曲、違背物理定律的視頻。針對這一難題,通義萬相團隊采用自研VAE和DiT架構(gòu),有效增強了時空上下文關(guān)系建模能力。


在DiT的設(shè)計中,全新通義萬相使用時空全注意機制,這一機制讓模型能夠更準確地模擬現(xiàn)實世界的復(fù)雜動態(tài);團隊還引入了參數(shù)共享機制,不僅提升了模型的性能,還有效降低了訓(xùn)練成本;此外,針對文本的嵌入進行優(yōu)化,實現(xiàn)更優(yōu)的文本可控性的同時也減少了計算需求。


在視頻VAE方面,通義萬相設(shè)計了一種創(chuàng)新的視頻編解碼方案。通過將視頻拆分成若干塊(Chunk)并緩存中間特征的方式,代替直接對長視頻的E2E編解碼過程,實現(xiàn)顯存的使用與原始視頻長度無關(guān),從而能夠支持無限長1080P視頻的高效編解碼,這一關(guān)鍵技術(shù)為任意時長視頻的訓(xùn)練提供了新的路徑。


在全新架構(gòu)下,通義萬相在大幅度的肢體運動和肢體旋轉(zhuǎn)場景的視頻生成上表現(xiàn)更穩(wěn)定,即便是花樣滑冰、游泳、跳水等運動視頻也能保持肢體協(xié)調(diào)并符合正常運動軌跡。通義萬相在文字視頻生成上實現(xiàn)了突破,成為首個支持中文文字生成能力、且同時支持中英文文字特效生成的視頻生成模型,可滿足廣告設(shè)計、短視頻等領(lǐng)域的創(chuàng)作需求。


上圖為用戶輸入“平拍一位女性花樣滑冰運動員在冰場上進行表演的全景。她穿著紫色的滑冰服,腳踩白色的滑冰鞋,正在進行一個旋轉(zhuǎn)動作。她的手臂張開,身體向后傾斜,展現(xiàn)了她的技巧和優(yōu)雅”后,通義萬相生成的內(nèi)容。


目前,該模型已全面開放,用戶可在通義萬相官網(wǎng)直接免費使用,個人開發(fā)者和企業(yè)用戶可在阿里云百煉調(diào)用通義萬相API。


編輯 徐雨婷

校對 趙琳