中國視頻生成領(lǐng)域迎來新突破,昆侖萬維旗下Skywork AI近日推出多模態(tài)視頻基礎(chǔ)模型SkyReels V4。該模型宣稱是全球首個(gè)同時(shí)具備多模態(tài)輸入、音視頻聯(lián)合生成以及統(tǒng)一處理生成、修復(fù)、編輯任務(wù)能力的視頻模型,標(biāo)志著國內(nèi)企業(yè)在這一賽道的技術(shù)競爭進(jìn)入新階段。
第三方評測機(jī)構(gòu)Artificial Analysis數(shù)據(jù)顯示,SkyReels V4在"文生視頻(帶音頻)歷史模型"榜單中躍居第四位,超越多數(shù)國際知名產(chǎn)品。測試樣本顯示,基于官方參考圖生成的15秒視頻片段,鏡頭切換流暢,音畫同步效果達(dá)到短劇制作水準(zhǔn),在AA榜單模型中展現(xiàn)出顯著優(yōu)勢。
技術(shù)架構(gòu)方面,該模型采用雙流多模態(tài)擴(kuò)散Transformer(MMDiT)核心設(shè)計(jì),實(shí)現(xiàn)1080p分辨率、32幀率、15秒時(shí)長音視頻同步輸出。其功能覆蓋主體替換、動作遷移、屬性修改、背景更換等編輯需求,支持中、英、日、韓、德、法等多語種文本合成,中文語音合成效果尤為突出,多項(xiàng)指標(biāo)達(dá)到行業(yè)領(lǐng)先。
針對視頻生成工具的三大痛點(diǎn),研發(fā)團(tuán)隊(duì)提出創(chuàng)新解決方案。傳統(tǒng)工具存在音畫不同步問題,SkyReels V4的雙流架構(gòu)讓視頻與音頻從任務(wù)初始便協(xié)同工作,通過雙向跨注意力機(jī)制提升角色嘴型、動作與聲音匹配度。面對高清長視頻生成算力消耗大的難題,模型采用"低分辨率全序列+高分辨率關(guān)鍵幀"聯(lián)合生成策略,先快速生成低分辨率完整視頻和高分辨率關(guān)鍵幀,再通過專用模塊重構(gòu)高質(zhì)量視頻,顯著降低制作門檻與成本。針對剪輯需多軟件切換的問題,模型整合生成、編輯、處理功能,提出通道拼接與時(shí)序拼接的統(tǒng)一范式,減少工具依賴提升效率。
行業(yè)生態(tài)變化為技術(shù)突破帶來新挑戰(zhàn)。上月字節(jié)跳動發(fā)布的Seedance2.0因版權(quán)問題遭遇國際訴訟,美國電影協(xié)會及六大制片廠聯(lián)合發(fā)函要求停止侵權(quán)。該模型隨后出現(xiàn)視頻質(zhì)量下降、產(chǎn)出不穩(wěn)定現(xiàn)象,演員王勁松公開控訴其形象被用于AI生成視頻,擔(dān)憂深度偽造技術(shù)可能成為詐騙工具。這類事件暴露出創(chuàng)作平權(quán)與版權(quán)保護(hù)的矛盾——當(dāng)普通用戶無意使用IP素材生成視頻時(shí),侵權(quán)行為將難以追責(zé)。
SkyReels V4的突破性進(jìn)展與Seedance2.0的版權(quán)風(fēng)波形成鮮明對比。中國AI企業(yè)想要在國際市場站穩(wěn)腳跟,需要突破算力算法優(yōu)勢之外的新維度,在數(shù)據(jù)合法性、合規(guī)成本等方面構(gòu)建競爭壁壘。技術(shù)競賽與規(guī)則賽跑的格局,正在重塑視頻生成領(lǐng)域的全球競爭版圖。















