當(dāng)小米正式發(fā)布MiMo-V2-Pro大模型時(shí),科技圈的目光并未完全聚焦在這家以硬件見(jiàn)長(zhǎng)的公司身上,反倒是馬斯克旗下的xAI被推上了輿論的風(fēng)口浪尖。這個(gè)成立僅三年的AI初創(chuàng)企業(yè),盡管坐擁500億美元融資和來(lái)自O(shè)penAI、DeepMind等頂尖機(jī)構(gòu)的聯(lián)合創(chuàng)始人團(tuán)隊(duì),卻在最新發(fā)布的Grok 4.20 Beta上遭遇了滑鐵盧——在Artificial Analysis Intelligence Index評(píng)測(cè)中僅獲得48分,而小米的MiMo-V2-Pro卻以49分的成績(jī)實(shí)現(xiàn)了反超。
小米的AI征程始于2023年4月成立的AI實(shí)驗(yàn)室大模型團(tuán)隊(duì),但真正發(fā)力通用基礎(chǔ)大模型是在2024年底至2025年初。雷軍親自掛帥,為這個(gè)被寄予厚望的Core團(tuán)隊(duì)定下了"投入不設(shè)上限"的基調(diào)。初代MiMo在2025年4月問(wèn)世時(shí),7B的參數(shù)量被業(yè)界戲稱為"玩具級(jí)",但這個(gè)看似不起眼的模型卻在數(shù)學(xué)推理和代碼生成領(lǐng)域擊敗了OpenAI的o1-mini,為小米AI戰(zhàn)略打響了第一槍。更令人意外的是,小米以"Hunter Alpha"為代號(hào)在OpenRouter平臺(tái)悄然上線的大模型,僅用一周時(shí)間就登頂日調(diào)用量榜首,全球開(kāi)發(fā)者在不知情的情況下用腳投票,直到小米官方深夜發(fā)文承認(rèn)這是自家產(chǎn)品。
從技術(shù)架構(gòu)看,MiMo-V2-Pro的1T參數(shù)、42B激活參數(shù)和100萬(wàn)token上下文窗口并不突出,其采用的MoE混合專家架構(gòu)、混合注意力機(jī)制和多token預(yù)測(cè)技術(shù)也都是行業(yè)通用方案。真正讓這個(gè)模型脫穎而出的是三項(xiàng)后訓(xùn)練技術(shù):首先是小米首創(chuàng)的MOPD(多教師在線策略蒸餾)技術(shù),通過(guò)讓學(xué)生模型在生成回答時(shí)同時(shí)接受多個(gè)領(lǐng)域?qū)<医處煹膶?shí)時(shí)監(jiān)督,成功解決了傳統(tǒng)大模型訓(xùn)練中"蹺蹺板效應(yīng)"的行業(yè)難題。數(shù)據(jù)顯示,經(jīng)過(guò)MOPD訓(xùn)練的模型在AIME 2025數(shù)學(xué)競(jìng)賽中取得94.1分,甚至超越了其教師模型的水平。
第二項(xiàng)突破是真實(shí)環(huán)境的agentic RL訓(xùn)練體系。小米構(gòu)建了覆蓋代碼、終端、網(wǎng)頁(yè)開(kāi)發(fā)和通用四大類場(chǎng)景的12萬(wàn)個(gè)真實(shí)交互環(huán)境,其中代碼agent直接從GitHub Issues中提取訓(xùn)練數(shù)據(jù),要求模型在完整的開(kāi)發(fā)循環(huán)中完成讀文件、改代碼、運(yùn)行測(cè)試的全流程。這種訓(xùn)練方式使得模型在多樣化agent環(huán)境中獲得的強(qiáng)化學(xué)習(xí)收益能夠泛化到數(shù)學(xué)推理等其他任務(wù),形成通用問(wèn)題解決能力。與傳統(tǒng)的"做卷子"式訓(xùn)練相比,這種"實(shí)習(xí)"模式培養(yǎng)出的模型更懂得如何應(yīng)對(duì)真實(shí)世界的復(fù)雜任務(wù)。
第三項(xiàng)創(chuàng)新來(lái)自小米與北京大學(xué)計(jì)算機(jī)學(xué)院聯(lián)合研發(fā)的ARL-Tangram訓(xùn)練基礎(chǔ)設(shè)施系統(tǒng)。針對(duì)agent訓(xùn)練中外部資源利用率低下的痛點(diǎn),該系統(tǒng)將每次外部調(diào)用視為原子動(dòng)作,實(shí)現(xiàn)資源的動(dòng)態(tài)分配和即時(shí)釋放。實(shí)測(cè)數(shù)據(jù)顯示,在AI編程任務(wù)中,外部資源平均利用率從47%提升至接近100%,訓(xùn)練步驟時(shí)間加速最高達(dá)1.5倍,資源消耗降低71.2%。這意味著在相同硬件投入下,小米能夠支撐數(shù)倍于競(jìng)爭(zhēng)對(duì)手的訓(xùn)練量。
對(duì)于小米而言,MiMo-V2-Pro的意義遠(yuǎn)不止于技術(shù)突破。在智能駕駛領(lǐng)域,小米汽車正在全面轉(zhuǎn)向端到端大模型技術(shù)路線,而MiMo-V2-Pro作為云端"教師模型",將通過(guò)知識(shí)蒸餾技術(shù)將其能力壓縮到端側(cè)小模型中,實(shí)現(xiàn)"云-邊-端"協(xié)同。這種布局與特斯拉形成鮮明對(duì)比:雖然Grok在2025年底進(jìn)入了特斯拉車機(jī)系統(tǒng),但目前僅能承擔(dān)導(dǎo)航和簡(jiǎn)單對(duì)話功能,與FSD的聯(lián)動(dòng)僅限于導(dǎo)航鏈路,而特斯拉車內(nèi)控制座艙的AI系統(tǒng)實(shí)際上與xAI并無(wú)直接關(guān)聯(lián)。馬斯克在2026年3月提出的"Digital Optimus"計(jì)劃,試圖讓Grok充當(dāng)"高層推理大腦",但這種協(xié)同路徑的清晰度遠(yuǎn)不及小米的蒸餾方案。
然而,MiMo-V2-Pro的崛起之路并非一帆風(fēng)順。在備受關(guān)注的SWE-bench Verified編程測(cè)試集中取得78.0%的成績(jī)固然亮眼,但這個(gè)測(cè)試集已被OpenAI等機(jī)構(gòu)證實(shí)存在數(shù)據(jù)污染問(wèn)題。小米尚未公布在更嚴(yán)格的SWE-bench Pro測(cè)試集上的表現(xiàn),而該測(cè)試集目前最高得分僅為57.7%。MiMo-V2-Pro缺席了ARC-AGI-2推理泛化測(cè)試、Frontier Math數(shù)學(xué)推理測(cè)試和LiveCodeBench v6編程評(píng)測(cè)等新一代基準(zhǔn)測(cè)試。在開(kāi)源策略上,雖然MiMo-V2-Flash已開(kāi)源,但V2-Pro的權(quán)重仍未開(kāi)放,官方解釋稱需要等待模型足夠穩(wěn)定。這些短板提醒我們,小米的AI轉(zhuǎn)型仍處在關(guān)鍵階段,其技術(shù)成果能否真正轉(zhuǎn)化為商業(yè)優(yōu)勢(shì),還需要時(shí)間來(lái)驗(yàn)證。















