硅谷科技機(jī)構(gòu)OpenRouter與知名風(fēng)投公司a16z聯(lián)合發(fā)布的《AI發(fā)展態(tài)勢:基于百萬億Token的實證研究》報告,在科技圈引發(fā)廣泛關(guān)注。該報告以O(shè)penRouter平臺2024年11月至2025年11月期間300余個模型的使用數(shù)據(jù)為樣本,涵蓋GPT系列、Claude、Gemini、DeepSeek等國內(nèi)外主流模型,通過分析真實Token消耗量而非傳統(tǒng)基準(zhǔn)測試分?jǐn)?shù),揭示了AI發(fā)展的新趨勢。
報告核心結(jié)論顯示,開源模型與閉源模型的關(guān)系正從替代轉(zhuǎn)向互補(bǔ)。預(yù)計到2025年底,開源模型使用量將占整體三分之一,其中中國開源模型表現(xiàn)尤為亮眼,其周使用量占比從1.2%飆升至30%,平均占比達(dá)13%,與全球其他地區(qū)開源模型的13.7%份額形成分庭抗禮之勢。值得注意的是,開源市場格局已發(fā)生深刻變化——DeepSeek雖仍為最大貢獻(xiàn)者,但其主導(dǎo)地位隨MiniMax M2、Kimi K2等新模型涌現(xiàn)而被削弱,預(yù)計年底將形成5-7個模型均分市場的格局。
模型形態(tài)演變方面,中型模型正成為市場新寵。報告將模型分為大型(700億參數(shù)以上)、中型(150-700億參數(shù))和小型(150億參數(shù)以下)三類,發(fā)現(xiàn)小型模型逐漸失寵,中型與大型模型補(bǔ)位趨勢明顯。以Qwen2.5-Coder-32B發(fā)布為轉(zhuǎn)折點,Mistral Small 3、GPT-OSS 20B等中型模型持續(xù)涌入,推動該細(xì)分市場成為新的競爭焦點。報告指出:"小模型主導(dǎo)的時代已過去,市場正分化為新興中型模型與頂級大型模型兩極。"
語言模型的功能升級成為另一大趨勢。推理模型使用量從年初的微不足道躍升至超50%,其中馬斯克旗下xAI的Grok Code Fast 1占據(jù)最大推理流量份額,Gemini 2.5 Pro和Flash系列緊隨其后。工具調(diào)用功能同樣呈現(xiàn)爆發(fā)式增長,年初僅GPT-4o-mini和Claude 3.5等少數(shù)模型支持,年中后超半數(shù)模型具備該能力,Claude 4.5 Sonnet和Grok Code Fast等新玩家表現(xiàn)突出。報告強(qiáng)調(diào):"缺乏可靠工具調(diào)用能力的模型,將在企業(yè)級應(yīng)用中逐漸邊緣化。"
使用場景變革方面,AI正從"聊天機(jī)器人"向"智能代理"轉(zhuǎn)型。用戶任務(wù)復(fù)雜度顯著提升,從生成短文轉(zhuǎn)向分析整份文檔或代碼庫,提示詞長度增加4倍,模型推理消耗的Token量增長近3倍。典型應(yīng)用場景中,編程與角色扮演占據(jù)主導(dǎo)地位——編程查詢量從年初11%躍升至超50%,Claude系列雖仍保持60%以上份額,但OpenAI市場份額從2%增至8%,谷歌穩(wěn)定在15%,Qwen、Mistral等開源模型穩(wěn)步上升,MiniMax更成為近期增長最快的新秀;角色扮演領(lǐng)域,開源模型占比達(dá)52%,DeepSeek超三分之二流量來自該場景,顯示其消費者端強(qiáng)粘性。
用戶行為研究提出"水晶鞋效應(yīng)"理論:每代前沿模型發(fā)布時,會鎖定一批任務(wù)需求與模型能力完美匹配的核心用戶,這些用戶留存率顯著高于平均水平。如Claude 4 Sonnet和Gemini 2.5 Pro發(fā)布5個月后仍保持40%留存率,得益于其在工具調(diào)用和推理能力的突破。報告指出:"首個用突破性能力解決關(guān)鍵問題的模型,即使后續(xù)被超越,也能憑借早期積累的用戶習(xí)慣和系統(tǒng)集成保持優(yōu)勢。"
地域分布上,AI發(fā)展呈現(xiàn)多極化趨勢。亞洲地區(qū)付費使用量占比從13%翻倍至31%,北美雖仍為最大市場但份額降至不足50%。語言使用方面,英語占比82%居首,簡體中文以近5%份額位列第二。價格敏感度分析顯示,模型定價影響遠(yuǎn)低于預(yù)期——價格下降10%僅帶動使用量增長0.5%-0.7%,且總支出未必減少,符合"杰文斯悖論":當(dāng)模型變得便宜好用時,用戶會在更多場景高頻調(diào)用,導(dǎo)致總Token量飆升。
報告同時承認(rèn)局限性:OpenRouter數(shù)據(jù)主要反映開發(fā)者和服務(wù)端API調(diào)用行為,未涵蓋ChatGPT等App/Web端直接訪問流量;平臺定價策略可能影響模型選擇偏好。盡管如此,這份基于百萬億Token的實證研究,仍為理解AI發(fā)展動態(tài)提供了獨特視角。















