字節(jié)跳動(dòng)近日正式推出全新音視頻生成模型Seedance 1.5 pro,這款模型突破傳統(tǒng)生成模式,首次實(shí)現(xiàn)從文本或圖像直接生成帶同步音頻的視頻內(nèi)容。該技術(shù)通過(guò)音視頻聯(lián)合生成框架,將語(yǔ)音合成與動(dòng)態(tài)畫(huà)面創(chuàng)作整合為單一流程,為內(nèi)容創(chuàng)作者提供更高效的工具。
技術(shù)團(tuán)隊(duì)透露,模型采用基于MMDiT架構(gòu)的深度學(xué)習(xí)框架,通過(guò)多階段數(shù)據(jù)鏈路優(yōu)化與強(qiáng)化學(xué)習(xí)算法,顯著提升音畫(huà)同步精度。在語(yǔ)音表現(xiàn)上,該系統(tǒng)支持中、英、日等多語(yǔ)種輸出,并能精準(zhǔn)模擬四川話(huà)、粵語(yǔ)等方言的語(yǔ)音特征,口型匹配誤差率較前代降低40%。畫(huà)面生成方面,模型具備自主運(yùn)鏡能力,可自動(dòng)完成長(zhǎng)鏡頭跟隨、希區(qū)柯克式變焦等復(fù)雜鏡頭運(yùn)動(dòng),使靜態(tài)畫(huà)面產(chǎn)生電影級(jí)動(dòng)態(tài)效果。
實(shí)際應(yīng)用測(cè)試顯示,Seedance 1.5 pro在影視劇本可視化、廣告創(chuàng)意制作、互動(dòng)短劇開(kāi)發(fā)等領(lǐng)域展現(xiàn)潛力。測(cè)試案例中,模型生成的短視頻在指令遵循度、音質(zhì)清晰度等指標(biāo)上獲得提升,尤其在多語(yǔ)言敘事場(chǎng)景中表現(xiàn)突出。不過(guò)研發(fā)團(tuán)隊(duì)指出,當(dāng)前版本在處理高速運(yùn)動(dòng)物體的物理模擬、多角色對(duì)話(huà)場(chǎng)景的邏輯連貫性等方面仍需優(yōu)化,后續(xù)將通過(guò)擴(kuò)展訓(xùn)練數(shù)據(jù)集與算法迭代持續(xù)改進(jìn)。
該模型的推出標(biāo)志著生成式AI向多媒體一體化創(chuàng)作邁出重要一步。相比傳統(tǒng)分階段制作流程,Seedance 1.5 pro將聲畫(huà)創(chuàng)作整合為端到端生成,理論上可將內(nèi)容制作周期縮短60%以上。目前研發(fā)團(tuán)隊(duì)正與多家影視機(jī)構(gòu)合作,探索AI輔助創(chuàng)作的工業(yè)化應(yīng)用路徑,重點(diǎn)攻關(guān)復(fù)雜場(chǎng)景下的物理引擎優(yōu)化與多模態(tài)交互設(shè)計(jì)。















