字節(jié)跳動(dòng)推出Seedance 1.5 pro：多語(yǔ)種方言支持音視頻同步生成新突破-資訊速遞-媒體界

字節(jié)跳動(dòng)推出Seedance 1.5 pro：多語(yǔ)種方言支持音視頻同步生成新突破

發(fā)布時(shí)間：2025-12-17 00:07 來(lái)源：快訊作者：鄭浩

字節(jié)跳動(dòng)近日正式推出全新音視頻生成模型Seedance 1.5 pro，這款模型突破傳統(tǒng)生成模式，首次實(shí)現(xiàn)從文本或圖像直接生成帶同步音頻的視頻內(nèi)容。該技術(shù)通過(guò)音視頻聯(lián)合生成框架，將語(yǔ)音合成與動(dòng)態(tài)畫(huà)面創(chuàng)作整合為單一流程，為內(nèi)容創(chuàng)作者提供更高效的工具。

技術(shù)團(tuán)隊(duì)透露，模型采用基于MMDiT架構(gòu)的深度學(xué)習(xí)框架，通過(guò)多階段數(shù)據(jù)鏈路優(yōu)化與強(qiáng)化學(xué)習(xí)算法，顯著提升音畫(huà)同步精度。在語(yǔ)音表現(xiàn)上，該系統(tǒng)支持中、英、日等多語(yǔ)種輸出，并能精準(zhǔn)模擬四川話(huà)、粵語(yǔ)等方言的語(yǔ)音特征，口型匹配誤差率較前代降低40%。畫(huà)面生成方面，模型具備自主運(yùn)鏡能力，可自動(dòng)完成長(zhǎng)鏡頭跟隨、希區(qū)柯克式變焦等復(fù)雜鏡頭運(yùn)動(dòng)，使靜態(tài)畫(huà)面產(chǎn)生電影級(jí)動(dòng)態(tài)效果。

實(shí)際應(yīng)用測(cè)試顯示，Seedance 1.5 pro在影視劇本可視化、廣告創(chuàng)意制作、互動(dòng)短劇開(kāi)發(fā)等領(lǐng)域展現(xiàn)潛力。測(cè)試案例中，模型生成的短視頻在指令遵循度、音質(zhì)清晰度等指標(biāo)上獲得提升，尤其在多語(yǔ)言敘事場(chǎng)景中表現(xiàn)突出。不過(guò)研發(fā)團(tuán)隊(duì)指出，當(dāng)前版本在處理高速運(yùn)動(dòng)物體的物理模擬、多角色對(duì)話(huà)場(chǎng)景的邏輯連貫性等方面仍需優(yōu)化，后續(xù)將通過(guò)擴(kuò)展訓(xùn)練數(shù)據(jù)集與算法迭代持續(xù)改進(jìn)。

該模型的推出標(biāo)志著生成式AI向多媒體一體化創(chuàng)作邁出重要一步。相比傳統(tǒng)分階段制作流程，Seedance 1.5 pro將聲畫(huà)創(chuàng)作整合為端到端生成，理論上可將內(nèi)容制作周期縮短60%以上。目前研發(fā)團(tuán)隊(duì)正與多家影視機(jī)構(gòu)合作，探索AI輔助創(chuàng)作的工業(yè)化應(yīng)用路徑，重點(diǎn)攻關(guān)復(fù)雜場(chǎng)景下的物理引擎優(yōu)化與多模態(tài)交互設(shè)計(jì)。

更多>同類(lèi)內(nèi)容

字節(jié)跳動(dòng)推出Seedance 1.5 pro：多語(yǔ)種方言支持 音視頻同步生成新突破

字節(jié)跳動(dòng)推出Seedance 1.5 pro：多語(yǔ)種方言支持音視頻同步生成新突破