Skip to content Skip to footer
  • 開源語音生視頻模型
  • 圖片音頻生成動畫
  • 低算力穩定長片生成

阿里巴巴(09988)宣布發布並開源全新 Wan2.2-S2V 語音驅動生視頻(Speech-to-Video)模型,主打數字人視頻創作。該模型可由單張人像圖片與一段音頻生成具備電影級質感的主體形象,支持說話、唱歌與表演等多樣動作,滿足更豐富的敘事與設計場景。

作為 Wan2.2 視頻生成系列的一員,Wan2.2-S2V 可依據文本指引動態生成人物動作與場景元素,並提供肖像、半身、全身等多種畫幅形式,協助專業內容創作者精準呈現視覺表現。在同一場景中,模型亦能無縫處理多角色,從自然對話到音樂演奏皆能流暢呈現,同時支持卡通、動物與風格化等多元主體形象,進一步擴展創作邊界。

在輸出規格方面,技術靈活支持 480P 與 720P 解析度,兼顧社交媒體與專業展示的畫面需求,確保生成內容在不同平台與工作流程中皆具備可用性與一致性。

技術創新是本次升級的核心。Wan2.2-S2V 結合文本引導的全局運動控制與音頻驅動的細顆粒度局部運動,不僅超越傳統「數字人口型同步」範式,更能在複雜、具挑戰性的場景中維持自然而富表現力的角色動態。另一項關鍵突破是創新的幀處理技術:模型可將任意長度的歷史幀壓縮為單一且緊湊的隱層特徵,大幅降低計算消耗,實現長視頻的穩定生成,為長時段動畫內容製作提供有效解法。

這些能力得益於完善的訓練流程與數據基礎。阿里巴巴研究團隊針對影視製作場景構建了大規模音視頻數據集,並採用混合並行訓練,使模型能靈活適配不同格式與比例,從豎屏短視頻到傳統橫屏影視作品均能勝任。

目前,用戶可在 Hugging Face、GitHub 以及阿里雲開源社區 ModelScope 下載 Wan2.2-S2V。作為全球開源生態的重要貢獻者,阿里巴巴已於今年 2 月開源 Wan2.1 系列,並於同年 7 月開源 Wan2.2 系列。截至目前,Wan 系列在 Hugging Face 與 ModelScope 的總下載量已突破 690 萬次,顯示其在生成式視頻領域的廣泛影響力與實際應用價值。



Sign Up to Our Newsletter

Be the first to know the latest updates

馬上訂閱以獲取最新資訊。