国产精品自拍视频在线-亚洲一区二区三区品视频-日本一区二区三区麻烦视频-国偷自产视频一区二区三区久-巨乳少妇av中文字幕-日韩最新免费中文字幕在线观看-成人污污污视频在线免费观看-污污污网站在线免费看-国产欧美高清在线观看视频

媒體界 - 推動中國媒體行業(yè)創(chuàng)新,促進業(yè)內(nèi)人士交流分享!

馬斯克點贊背后:Kimi挑戰(zhàn)11年未變組件,AI架構(gòu)迎新突破?

   發(fā)布時間:2026-03-17 16:31 作者:陳陽

科技領(lǐng)域近日因一則動態(tài)引發(fā)廣泛討論:特斯拉創(chuàng)始人馬斯克在社交平臺X上,對一家中國AI企業(yè)的技術(shù)成果公開表達贊賞。他評論稱“月之暗面團隊做出了令人印象深刻的工作”,這一表態(tài)迅速引發(fā)行業(yè)關(guān)注。作為以直言不諱著稱的科技領(lǐng)袖,馬斯克此前曾多次批評OpenAI、Anthropic等機構(gòu),此次對中國團隊的認可顯得尤為特別。

引發(fā)關(guān)注的成果并非新模型,而是一篇聚焦底層架構(gòu)的技術(shù)論文。月之暗面團隊提出用“注意力殘差”替代Transformer架構(gòu)中自2015年沿用至今的“殘差連接”機制。傳統(tǒng)殘差連接通過將各層輸出直接相加傳遞信息,但隨著模型深度增加,早期層的信息會被稀釋,導(dǎo)致訓(xùn)練不穩(wěn)定。這一設(shè)計雖被廣泛采用,卻始終存在理論缺陷。

研究團隊從Transformer的注意力機制獲得靈感,提出讓模型動態(tài)決定各層信息的權(quán)重。新方案通過可學(xué)習的查詢向量,對歷史層輸出進行注意力計算,生成加權(quán)組合而非簡單求和。這相當于為模型配備“智能篩選器”,能根據(jù)輸入內(nèi)容選擇性地提取關(guān)鍵信息。實驗數(shù)據(jù)顯示,采用該架構(gòu)的模型在科學(xué)問答、數(shù)學(xué)推理等任務(wù)中表現(xiàn)顯著提升,且訓(xùn)練效率相當于傳統(tǒng)方法1.25倍計算量的效果。

為解決大規(guī)模部署的內(nèi)存瓶頸,團隊進一步提出“塊注意力殘差”優(yōu)化方案。通過將模型分層分組,僅在組間應(yīng)用注意力機制,內(nèi)存占用降低90%以上,推理延遲增加不足2%。這種“分而治之”的策略,使理論創(chuàng)新成功轉(zhuǎn)化為工程實踐。論文通過統(tǒng)一的結(jié)構(gòu)化矩陣分析證明,此前所有殘差連接變體本質(zhì)上都是該方案的線性特例。

這項突破正值月之暗面融資關(guān)鍵期。2025年末至2026年初,該公司連續(xù)完成三輪融資,估值從43億美元飆升至180億美元。其K2.5模型發(fā)布首月收入即超2025全年總和,個人訂閱用戶支付訂單數(shù)連續(xù)兩月環(huán)比增長超100倍,躋身全球支付平臺Stripe榜單前十。但高速發(fā)展也伴隨爭議——近期推出的云端部署服務(wù)Kimi Claw,因數(shù)據(jù)存儲方式與開源項目OpenClaw的“本地優(yōu)先”理念沖突,遭到該項目創(chuàng)始人公開質(zhì)疑。

馬斯克的點贊恰逢爭議發(fā)酵期,為這場討論增添新維度。盡管其表態(tài)未必涉及商業(yè)合作,但在資本市場敘事中,頂級科技領(lǐng)袖的認可往往具有特殊分量。該論文發(fā)布后,原本聚焦應(yīng)用層的研究者開始重新審視底層架構(gòu)創(chuàng)新,這場持續(xù)十一年的技術(shù)組件革新,或?qū)⒁l(fā)行業(yè)連鎖反應(yīng)。目前,研究團隊已開放代碼庫,全球多個實驗室正嘗試復(fù)現(xiàn)其實驗結(jié)果。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新