阿里巴巴近日正式推出Wan2.7-Video視頻生成系列模型,該系列包含四大核心模塊:文生視頻、圖生視頻、參考生視頻及視頻編輯,標(biāo)志著AI視頻創(chuàng)作從單一素材生成向全流程控制邁出關(guān)鍵一步。這一突破性技術(shù)將創(chuàng)作權(quán)限從“表演者”擴展至“導(dǎo)演”,通過多模態(tài)輸入與全鏈路控制,重新定義了AI視頻的生產(chǎn)范式。
針對傳統(tǒng)AI視頻工具在敘事連貫性、劇情可控性及后期編輯靈活性方面的不足,Wan2.7-Video通過四大專業(yè)模型的協(xié)同工作構(gòu)建起完整創(chuàng)作生態(tài)。其中,文生視頻模塊支持從文本描述直接生成720P至1080P分辨率、2-15秒時長的視頻內(nèi)容;圖生視頻模塊則允許用戶通過上傳圖片精準(zhǔn)控制畫面元素;參考生視頻模塊可復(fù)刻動作、運鏡及特效,最多支持5個視頻主體同時參考;視頻編輯模塊更實現(xiàn)“一句話改視頻”的革命性突破,通過自然語言指令即可完成元素增刪、場景切換及風(fēng)格轉(zhuǎn)換等操作。
在核心編輯能力方面,該系列模型展現(xiàn)出驚人的創(chuàng)作自由度。創(chuàng)作者可通過文本指令調(diào)整角色表情、行為及臺詞,系統(tǒng)自動匹配口型與音色;拍攝參數(shù)如機位、視角、景別等均可重新定義,同一素材可衍生出完全不同的敘事視角。技術(shù)團(tuán)隊特別開發(fā)的黑白上色與老片修復(fù)功能,進(jìn)一步拓展了AI在影視修復(fù)領(lǐng)域的應(yīng)用場景。參考生視頻模塊的復(fù)刻精度達(dá)到行業(yè)領(lǐng)先水平,即使復(fù)雜動作也能穩(wěn)定還原,多模態(tài)輸入支持同時鎖定角色外觀、音色及動作軌跡。
從劇本創(chuàng)作到成片輸出,Wan2.7-Video構(gòu)建起智能化生產(chǎn)管線。用戶輸入簡短文字描述后,系統(tǒng)可自動生成分鏡腳本、編排劇情節(jié)奏并設(shè)計鏡頭語言,支持希區(qū)柯克變焦、360度環(huán)繞等數(shù)十種專業(yè)運鏡方案。為解決AI視頻常見的“首尾割裂”問題,技術(shù)團(tuán)隊創(chuàng)新性地引入視頻續(xù)寫與尾幀控制聯(lián)合機制,使創(chuàng)作者既能保持動態(tài)連貫性,又能精準(zhǔn)控制畫面結(jié)構(gòu)。在視聽表現(xiàn)層面,該模型可衍生出上千種風(fēng)格組合,覆蓋2D卡通、水墨、黏土動畫等多元視覺語言,音頻模塊則通過預(yù)訓(xùn)練技術(shù)顯著提升音畫同步質(zhì)量與音樂表現(xiàn)力。
據(jù)技術(shù)文檔披露,Wan2.7-Video的突破源于對創(chuàng)作全鏈路的深度重構(gòu)。通過將生成能力與編輯能力深度融合,該模型不僅支持從零開始的完整創(chuàng)作,更能對現(xiàn)有素材進(jìn)行精細(xì)化改造。在動作復(fù)刻場景中,系統(tǒng)可同時處理5個視頻主體的運動軌跡,其多模態(tài)理解能力能準(zhǔn)確識別圖像、視頻及音頻中的關(guān)鍵信息。這種全模態(tài)輸入輸出體系,使得文本、圖像、視頻、音頻的混合創(chuàng)作成為現(xiàn)實,為專業(yè)影視制作與個人創(chuàng)意表達(dá)開辟了新的可能性空間。















