評測機構ClawBench最新發布的大型模型榜單引發行業關注,北京三家人工智能企業的四款模型成功躋身全球前十。其中,智譜科技的GLM-5-Turbo以93.9分的成績登頂榜首,字節跳動旗下的豆包模型Doubao-Seed-2.0-lite緊隨其后位列第二,并憑借最低使用成本成為全榜單中最具性價比的選擇。小米公司則憑借MiMo-V2系列兩款模型實現突破,MiMo-V2-Omni和MiMo-V2-Pro分別占據第九和第五名。
小米官方披露的技術細節顯示,MiMo-V2-Pro在復雜邏輯推理、長指令執行和多輪對話穩定性等核心指標上表現突出。該模型在Model Rank全球排名中位列第五,同時在實驗室綜合研發能力評估體系LabRank中取得雙料佳績:在Text Arena(ArenaExpert)榜單中排名全球第四,Code Arena榜單中排名全球第五,綜合研發實力僅次于Anthropic、OpenAI和谷歌三家國際頂尖機構。
ClawBench榜單的評測機制具有顯著創新性,其關聯的Text Arena榜單采用雙盲測試模式,通過隱藏模型身份的方式,由全球真實用戶根據回答質量直接投票評選。這種設計有效規避了傳統評測中針對特定數據集優化導致的"刷榜"現象,使得評測結果更能反映模型在實際應用場景中的表現。字節跳動的豆包模型正是憑借這種評測機制下的成本優勢,在保持高性能的同時實現了更低的使用門檻。















