螞蟻開源Ming-Flash-Omni 2.0：全模態(tài)大模型性能領先，開啟多模態(tài)應用新篇

發(fā)布時間：2026-02-12 02:56 來源：快訊作者：顧雨柔

螞蟻集團近日宣布開源全模態(tài)大模型Ming-Flash-Omni 2.0，該模型在視覺語言理解、語音可控生成及圖像編輯等核心領域展現(xiàn)出卓越性能，部分指標甚至超越國際頂尖模型Gemini 2.5 Pro，成為開源領域全模態(tài)技術的新標桿。這一成果標志著螞蟻集團在多模態(tài)人工智能領域的技術積累進入全新階段。

作為業(yè)界首個實現(xiàn)全場景音頻統(tǒng)一生成的模型，Ming-Flash-Omni 2.0突破性地將語音、環(huán)境音效與音樂融合于單一音軌。用戶通過自然語言指令即可精準調(diào)控音色、語速、語調(diào)乃至方言特征，模型更支持零樣本音色克隆技術。在效率方面，該模型以3.1Hz的推理幀率實現(xiàn)分鐘級長音頻的實時高保真生成，在成本控制與處理速度上達到行業(yè)領先水平。實測數(shù)據(jù)顯示，其在復雜音頻場景下的生成質(zhì)量已接近專業(yè)音頻工作站標準。

技術架構(gòu)層面，模型基于Ling-2.0架構(gòu)（MoE，100B-A6B）構(gòu)建，通過系統(tǒng)性訓練優(yōu)化實現(xiàn)三大核心突破：視覺模塊采用億級細粒度數(shù)據(jù)訓練，顯著提升對近緣物種、文物細節(jié)等復雜對象的識別精度；音頻模塊突破傳統(tǒng)分離式生成模式，實現(xiàn)多要素協(xié)同創(chuàng)作；圖像編輯模塊強化動態(tài)場景處理能力，支持光影調(diào)整、場景替換等高級功能的同時保持畫面連貫性。這些特性使其在醫(yī)療影像分析、文化遺產(chǎn)數(shù)字化等場景具有廣泛應用潛力。

螞蟻集團百靈模型負責人周俊指出，全模態(tài)技術的核心價值在于通過統(tǒng)一架構(gòu)實現(xiàn)多維度能力的深度融合。此次開源將模型權(quán)重與推理代碼同步釋放至Hugging Face等平臺，開發(fā)者可基于單一框架調(diào)用視覺、語音、生成等全棧能力，較傳統(tǒng)多模型串聯(lián)方案降低60%以上的開發(fā)成本。配套上線的Ling Studio平臺更提供可視化操作界面，用戶無需深厚技術背景即可完成復雜多模態(tài)任務。

該模型的演進路徑體現(xiàn)了螞蟻集團的技術戰(zhàn)略布局：早期版本聚焦多模態(tài)基礎能力建設，中期版本驗證規(guī)模效應，2.0版本則通過10萬小時級音頻數(shù)據(jù)與千萬級圖像數(shù)據(jù)的訓練優(yōu)化，在保持通用性的同時實現(xiàn)專項能力突破。特別是在語音克隆領域，其僅需3秒音頻樣本即可生成高度擬真的語音，在隱私保護前提下為無障礙溝通、個性化內(nèi)容創(chuàng)作等場景提供技術支撐。

目前，開發(fā)者可通過螞蟻百靈官方平臺直接調(diào)用模型API，或下載開源代碼進行本地化部署。這種開放策略不僅加速了技術創(chuàng)新迭代，更為金融、醫(yī)療、教育等垂直領域的應用開發(fā)提供了標準化解決方案。隨著工具鏈與評測體系的持續(xù)完善，全模態(tài)技術有望在智能客服、內(nèi)容生產(chǎn)、輔助診斷等領域?qū)崿F(xiàn)規(guī)模化落地。

更多>同類內(nèi)容