國內(nèi)首個開源音視頻模型MOVA問世，邱錫鵬詳解與Seedance2.0的差異化之路

發(fā)布時間：2026-02-28 15:13 來源：快訊作者：孫雅

近日，上海創(chuàng)智學院與模思智能聯(lián)合推出的國內(nèi)首個開源高質(zhì)量音視頻同步生成模型MOVA引發(fā)行業(yè)熱議。這款模型不僅填補了國內(nèi)開源領域在音視頻生成基礎模型方面的空白，更以全棧開源的姿態(tài)為中小團隊和學術研究提供了低成本落地的可能性。與此同時，字節(jié)跳動發(fā)布的商用化模型Seedance2.0也因馬斯克在社交平臺X上的評價"發(fā)展速度太快了"而備受關注，兩大模型的差異化競爭成為科技界焦點。

MOVA項目負責人、復旦大學計算與智能創(chuàng)新學院教授邱錫鵬在接受專訪時表示，MOVA與Seedance2.0雖同屬音畫一體生成技術，但在技術路線和應用定位上存在顯著差異。從生成效果來看，MOVA支持最長8秒、720p分辨率的視頻輸出，而Seedance2.0已實現(xiàn)15秒時長與2K高清分辨率。但MOVA的核心優(yōu)勢在于其完全開源的特性——不僅開放了360p和720p兩個基礎模型，還公開了微調(diào)、推理、生成工作流等全鏈路組件，支持二次開發(fā)和本地部署，為動漫、游戲等垂直場景提供了可定制化的技術底座。

這種開源策略與當前行業(yè)主流的閉源模式形成鮮明對比。據(jù)介紹，全球音視頻生成領域中，包括Seedance2.0在內(nèi)的絕大多數(shù)模型均不公開技術細節(jié)，不提供模型文件下載，也不允許本地部署。邱錫鵬坦言："開源是MOVA與這些模型最大的不同。我們希望通過技術普惠吸引更多研究者參與，既推動技術快速迭代，也助力國內(nèi)開源生態(tài)建設。"這種理念在其團隊過往項目中已有體現(xiàn)——2023年2月發(fā)布的類ChatGPT對話模型MOSS，在兩個月后即成為國內(nèi)首個支持搜索、畫圖、計算等插件的開源對話模型。

在技術架構上，MOVA采用了混合專家創(chuàng)新設計，在保證生成質(zhì)量的同時提升了推理效率。邱錫鵬將其團隊定位為"挑戰(zhàn)者"："Seedance2.0代表商用導向的工業(yè)級投入，而MOVA更注重構建開放社區(qū)。"這種定位背后是巨大的技術挑戰(zhàn)——音視頻模型的數(shù)據(jù)規(guī)模遠超文本模型，且訓練所需的底層基礎設施尚不完善。邱錫鵬透露，項目推進過程中最大的困難在于算法層面缺乏可借鑒內(nèi)容，而數(shù)據(jù)工程能力也非高校和科研機構的傳統(tǒng)強項。

突破這些瓶頸得益于上海創(chuàng)智學院"研創(chuàng)學"融合的育人模式。學院為學生提供參與重大項目的實戰(zhàn)機會，使原本缺乏人工智能基礎的學生在半年內(nèi)展現(xiàn)出創(chuàng)新能力。同時，學院孵化的模思智能憑借企業(yè)優(yōu)勢攻克了數(shù)據(jù)工程關鍵難題。這種產(chǎn)學研協(xié)同機制為MOVA的研發(fā)提供了重要支撐。據(jù)透露，MOVA1.5版本預計在3月底推出，性能將有顯著提升。

更多>同類內(nèi)容