近日,上海創(chuàng)智學院與模思智能聯(lián)合推出的國內(nèi)首個開源高質(zhì)量音視頻同步生成模型MOVA引發(fā)行業(yè)熱議。這款模型不僅填補了國內(nèi)開源領域在音視頻生成基礎模型方面的空白,更以全棧開源的姿態(tài)為中小團隊和學術研究提供了低成本落地的可能性。與此同時,字節(jié)跳動發(fā)布的商用化模型Seedance2.0也因馬斯克在社交平臺X上的評價"發(fā)展速度太快了"而備受關注,兩大模型的差異化競爭成為科技界焦點。
MOVA項目負責人、復旦大學計算與智能創(chuàng)新學院教授邱錫鵬在接受專訪時表示,MOVA與Seedance2.0雖同屬音畫一體生成技術,但在技術路線和應用定位上存在顯著差異。從生成效果來看,MOVA支持最長8秒、720p分辨率的視頻輸出,而Seedance2.0已實現(xiàn)15秒時長與2K高清分辨率。但MOVA的核心優(yōu)勢在于其完全開源的特性——不僅開放了360p和720p兩個基礎模型,還公開了微調(diào)、推理、生成工作流等全鏈路組件,支持二次開發(fā)和本地部署,為動漫、游戲等垂直場景提供了可定制化的技術底座。
這種開源策略與當前行業(yè)主流的閉源模式形成鮮明對比。據(jù)介紹,全球音視頻生成領域中,包括Seedance2.0在內(nèi)的絕大多數(shù)模型均不公開技術細節(jié),不提供模型文件下載,也不允許本地部署。邱錫鵬坦言:"開源是MOVA與這些模型最大的不同。我們希望通過技術普惠吸引更多研究者參與,既推動技術快速迭代,也助力國內(nèi)開源生態(tài)建設。"這種理念在其團隊過往項目中已有體現(xiàn)——2023年2月發(fā)布的類ChatGPT對話模型MOSS,在兩個月后即成為國內(nèi)首個支持搜索、畫圖、計算等插件的開源對話模型。
在技術架構上,MOVA采用了混合專家創(chuàng)新設計,在保證生成質(zhì)量的同時提升了推理效率。邱錫鵬將其團隊定位為"挑戰(zhàn)者":"Seedance2.0代表商用導向的工業(yè)級投入,而MOVA更注重構建開放社區(qū)。"這種定位背后是巨大的技術挑戰(zhàn)——音視頻模型的數(shù)據(jù)規(guī)模遠超文本模型,且訓練所需的底層基礎設施尚不完善。邱錫鵬透露,項目推進過程中最大的困難在于算法層面缺乏可借鑒內(nèi)容,而數(shù)據(jù)工程能力也非高校和科研機構的傳統(tǒng)強項。
突破這些瓶頸得益于上海創(chuàng)智學院"研創(chuàng)學"融合的育人模式。學院為學生提供參與重大項目的實戰(zhàn)機會,使原本缺乏人工智能基礎的學生在半年內(nèi)展現(xiàn)出創(chuàng)新能力。同時,學院孵化的模思智能憑借企業(yè)優(yōu)勢攻克了數(shù)據(jù)工程關鍵難題。這種產(chǎn)學研協(xié)同機制為MOVA的研發(fā)提供了重要支撐。據(jù)透露,MOVA1.5版本預計在3月底推出,性能將有顯著提升。















