小米凌晨官宣重磅成果！三大自研MiMo-V2系列模型上線賦能Agent時代

發布時間：2026-03-19 09:43 來源：快訊作者：李娜

小米技術官方近日宣布，正式推出三大自研MiMo-V2系列模型，涵蓋旗艦Pro、全模態基座Omni以及語音合成TTS，為智能交互領域帶來突破性進展。此次發布標志著小米在多模態大模型領域的技術積累進入新階段，為Agent時代的智能化應用提供了核心支撐。

其中，Xiaomi MiMo-V2-TTS語音合成模型以全模態交互為核心設計目標，通過自主研發的Audio Tokenizer技術及多碼本語音-文本聯合建模架構，實現了對語音風格的精細化控制。該模型不僅支持從整體語調到局部情緒的逐層調節，還能精準還原人類說話的自然節奏，甚至在歌唱場景中也能準確捕捉音高變化與節奏韻律，展現出接近真實人類的語音表現力。這一突破為智能客服、有聲內容生成等領域提供了更自然的交互解決方案。

面向復雜Agent應用場景，小米同步推出全模態基座模型Xiaomi MiMo-V2-Omni。該模型整合了文本、視覺、語音的多模態感知能力，并內置工具調用、函數執行及圖形界面操作等行動模塊，可無縫適配各類Agent開發框架。在匿名測試階段，Omni模型憑借其強大的跨模態推理能力，在OpenRouter平臺的日均調用量突破百萬次，并在OpenClaw測評榜單中以綜合得分第一的成績領先同類模型。其低門檻接入特性顯著降低了全模態Agent的開發成本，加速了智能化應用的落地進程。

針對高負載Agent工作場景，小米發布的旗艦基座模型Xiaomi MiMo-V2-Pro展現出更強性能。該模型參數量超過1萬億，支持100萬 tokens的超長上下文處理，通過參數規模與算力的協同優化，實現了從代碼生成到復雜任務執行的廣泛能力覆蓋。在全球權威大模型評測中，Pro模型以綜合智能排名全球第八、國內第二的成績，驗證了其在長文本理解、邏輯推理等關鍵維度的技術優勢。目前，Omni與Pro模型已開放API服務，并與多家主流Agent開發平臺達成合作，為全球開發者提供限時免費的接口支持。

更多>同類內容