国产精品自拍视频在线-亚洲一区二区三区品视频-日本一区二区三区麻烦视频-国偷自产视频一区二区三区久-巨乳少妇av中文字幕-日韩最新免费中文字幕在线观看-成人污污污视频在线免费观看-污污污网站在线免费看-国产欧美高清在线观看视频

媒體界 - 推動中國媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

螞蟻集團(tuán)開源全模態(tài)大模型Ming-Flash-Omni 2.0,多領(lǐng)域能力領(lǐng)先且支持在線體驗(yàn)

   發(fā)布時間:2026-02-12 02:52 作者:馮璃月

螞蟻集團(tuán)近日宣布開源其最新研發(fā)的全模態(tài)大模型——Ming-Flash-Omni 2.0,這一成果標(biāo)志著全場景音頻統(tǒng)一生成技術(shù)邁入新階段。該模型在視覺語言理解、語音可控生成、圖像編輯等多個領(lǐng)域展現(xiàn)出卓越性能,多項(xiàng)公開基準(zhǔn)測試結(jié)果顯示其關(guān)鍵能力已達(dá)到行業(yè)領(lǐng)先水平。

作為業(yè)界首個實(shí)現(xiàn)全場景音頻統(tǒng)一生成的模型,Ming-Flash-Omni 2.0突破性地在單條音軌中同步生成語音、環(huán)境音效與音樂元素。用戶通過自然語言指令即可精準(zhǔn)調(diào)控音色、語速、語調(diào)、音量及情緒參數(shù),甚至支持方言定制。該模型在推理效率上實(shí)現(xiàn)重大突破,3.1Hz的極低幀率配合分鐘級長音頻的實(shí)時高保真生成能力,在成本控制與處理速度方面均處于行業(yè)前沿。

技術(shù)團(tuán)隊(duì)通過系統(tǒng)性訓(xùn)練優(yōu)化,將模型能力推向新高度。基于Ling-2.0架構(gòu)(MoE,100B-A6B)構(gòu)建的模型,在視覺識別領(lǐng)域融合億級細(xì)粒度數(shù)據(jù)與難例訓(xùn)練策略,顯著提升對近緣物種、工藝細(xì)節(jié)等復(fù)雜對象的識別精度;音頻生成模塊支持零樣本音色克隆技術(shù),實(shí)現(xiàn)語音、音效、音樂的同軌無縫合成;圖像編輯功能則強(qiáng)化了復(fù)雜場景的穩(wěn)定性,新增光影調(diào)整、場景替換等實(shí)用功能,即使在動態(tài)畫面中仍能保持細(xì)節(jié)真實(shí)度。

全模態(tài)技術(shù)的核心挑戰(zhàn)在于平衡通用性與專業(yè)性。螞蟻集團(tuán)通過持續(xù)迭代Ming-Omni系列模型,逐步構(gòu)建起統(tǒng)一的多模態(tài)能力底座。早期版本聚焦基礎(chǔ)能力整合,中期版本驗(yàn)證規(guī)模效應(yīng),最新2.0版本則通過大規(guī)模數(shù)據(jù)訓(xùn)練與架構(gòu)優(yōu)化,在保持開源模型開放性的同時,部分領(lǐng)域性能已超越專用模型。

此次開源將模型權(quán)重與推理代碼同步發(fā)布至Hugging Face等社區(qū),開發(fā)者可通過螞蟻百靈官方平臺Ling Studio在線體驗(yàn)。百靈模型負(fù)責(zé)人周俊指出,統(tǒng)一架構(gòu)設(shè)計(jì)使視覺、語音、生成能力可高效復(fù)用,大幅降低多模型串聯(lián)的開發(fā)成本。技術(shù)團(tuán)隊(duì)正持續(xù)優(yōu)化視頻時序理解、長音頻實(shí)時生成等關(guān)鍵模塊,并完善配套工具鏈與評測體系。

該模型的開放策略引發(fā)行業(yè)廣泛關(guān)注。通過提供可復(fù)用的技術(shù)底座,螞蟻集團(tuán)為端到端多模態(tài)應(yīng)用開發(fā)開辟了新路徑。目前已有開發(fā)者基于該框架構(gòu)建智能教育、內(nèi)容創(chuàng)作等領(lǐng)域的創(chuàng)新應(yīng)用,驗(yàn)證了其在降低技術(shù)門檻、提升開發(fā)效率方面的顯著價值。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新