Meta閉源新篇：Muse Spark“偏科”逆襲，AI賽道開啟新角逐？

發(fā)布時間：2026-04-10 18:55 來源：快訊作者：鄭佳

meta全新大模型Muse Spark的登場，猶如一顆重磅炸彈投入科技圈，激起層層漣漪。這款內(nèi)部代號為Avocado的模型，不僅是meta超級智能實(shí)驗(yàn)室（MSL）成立9個月后的首個成果，更是扎克伯格在經(jīng)歷Llama 4的挫折后，大刀闊斧進(jìn)行組織與戰(zhàn)略調(diào)整后的首份答卷。令人意外的是，曾經(jīng)高舉“開源對抗閉源”大旗的meta，此次給Muse Spark貼上了“閉源”標(biāo)簽，API也僅向少數(shù)指定合作伙伴開放預(yù)覽。

回顧Llama 4的發(fā)布，可謂開局不利。它承載著meta的厚望，卻很快陷入信譽(yù)危機(jī)。社區(qū)質(zhì)疑聲不斷，更有爆料稱meta在基準(zhǔn)測試中弄虛作假，用針對特定任務(wù)微調(diào)的“特供版”刷榜，而普通用戶使用的版本表現(xiàn)大相徑庭。這一事件對meta AI品牌造成了致命打擊，就連圖靈獎得主、meta前首席科學(xué)家Yann LeCun離職后也承認(rèn)，Llama 4的測試結(jié)果“確實(shí)被修飾了一點(diǎn)”。

扎克伯格對此怒不可遏，據(jù)外媒報道，他對相關(guān)人員失去信心，直接架空了整個生成式AI團(tuán)隊，大批人員離開。這不僅僅是某個模型的失敗，更意味著過去從模型架構(gòu)到研發(fā)流程，從開源路線到組織文化的道路可能都行不通了。扎克伯格面臨艱難抉擇，最終選擇全部推翻，在廢墟上重建。

2025年夏天，扎克伯格做出震驚硅谷的決策，以143億美元的天價拿下數(shù)據(jù)標(biāo)注巨頭Scale AI 49%的無投票權(quán)股份。更關(guān)鍵的是，時年不到30歲的華裔創(chuàng)始人Alexandr Wang被請進(jìn)meta，出任首席AI官，統(tǒng)管全新組建的MSL。這位MIT輟學(xué)、19歲創(chuàng)立Scale AI、26歲躋身億萬富豪行列的年輕人，被扎克伯格評價為“同輩創(chuàng)業(yè)者中最杰出的一位，深刻理解超級智能的歷史重要性”。

Alexandr Wang上任后雷厲風(fēng)行，從OpenAI、谷歌DeepMind、Anthropic等競爭對手那里，以天價薪酬挖來一整支“復(fù)仇者聯(lián)盟”。翻看MSL首批11人名單，7位核心研究員都有華人背景，包括浙大校友畢樹超、清華校友趙晟佳、中科大校友于佳慧等業(yè)內(nèi)頂尖高手。這支“億元天團(tuán)”的目標(biāo)明確，就是從零開始，重寫meta的AI命運(yùn)。

Muse Spark究竟實(shí)力如何？meta此次態(tài)度格外坦誠，在官方博客里列出了一張優(yōu)缺點(diǎn)分明的成績單。在醫(yī)療和視覺多模態(tài)領(lǐng)域，Muse Spark表現(xiàn)堪稱驚艷。在極高難度的醫(yī)學(xué)開放式問答評測HealthBench Hard中，它取得42.8分，而GPT - 5.4只有40.1分，Gemini 3.1 Pro僅20.6分，差距明顯。這得益于meta與超過1000名專業(yè)醫(yī)生合作整理訓(xùn)練數(shù)據(jù)，為模型配備了強(qiáng)大的專家顧問團(tuán)。在科研論文圖表的深度理解測試（CharXiv Reasoning）中，Muse Spark以86.4分力壓GPT - 5.4的82.8和Gemini 3.1 Pro的80.2。

Muse Spark的應(yīng)用場景也十分豐富。官方案例顯示，對著食物拍照，它能分析出每種食物的卡路里；能識別瑜伽動作，指出發(fā)力肌群并糾正姿態(tài)；甚至還會操作咖啡機(jī)。可以想象，若應(yīng)用在AI眼鏡上，將帶來極大便利。

然而，Muse Spark并非完美無缺。在純邏輯推理和代碼編程方面，它的表現(xiàn)不盡如人意。在ARC AGI 2抽象推理測試中，僅拿到42.5分，與Gemini 3.1 Pro（76.5分）和GPT - 5.4（76.1分）差距巨大。在軟件工程實(shí)測（SWE - bench Pro）中，通過率（52.4%）也略遜于GPT - 5.4的57.7%。

Muse Spark背后真正令人矚目的，是meta公布的一項技術(shù)數(shù)據(jù)。在新重建的技術(shù)棧下，它達(dá)到與上一代Llama 4 Maverick同等性能水平所需的計算量，減少了超過一個數(shù)量級，實(shí)現(xiàn)了10倍以上的效率躍升。這得益于MSL團(tuán)隊提出的“思維壓縮”（Thought Compression）核心技術(shù)。在強(qiáng)化學(xué)習(xí)訓(xùn)練階段，引入“思考時間懲罰”機(jī)制，模型回答問題時若思考過久就會被“扣分”，從而被迫進(jìn)化，學(xué)會用更少的推理token、更短的邏輯鏈條解決復(fù)雜問題，且準(zhǔn)確率不降反升。Muse Spark還推出多Agent并行推理的“沉思模式”（Contemplating Mode），傳統(tǒng)推理模式是一個模型獨(dú)自思考，而它是同時拉起多個子智能體處理不同維度信息后匯總，在相近響應(yīng)時間內(nèi)，在Humanity‘s Last Exam等評測中表現(xiàn)出色。

Muse Spark雖不完美，但用9個月時間將meta從Llama 4的輿論困境中拉出，重新回到與GPT - 5.4、Gemini 3.1 Pro同場競技的第一梯隊。對于扎克伯格和這支“華人天團(tuán)”來說，它更像是一個宣言，標(biāo)志著靠開源攢口碑的meta已成為過去，一個更務(wù)實(shí)、更有技術(shù)野心的新meta正嶄露頭角。

更多>同類內(nèi)容