国产精品自拍视频在线-亚洲一区二区三区品视频-日本一区二区三区麻烦视频-国偷自产视频一区二区三区久-巨乳少妇av中文字幕-日韩最新免费中文字幕在线观看-成人污污污视频在线免费观看-污污污网站在线免费看-国产欧美高清在线观看视频

媒體界 - 推動中國媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

大模型賽道新風(fēng)向:阿里、Kimi、螞蟻競逐,混合注意力成破局關(guān)鍵?

   發(fā)布時間:2026-03-20 21:03 作者:鄭浩

在人工智能大模型領(lǐng)域,一場關(guān)于效率與性能的深度變革正在悄然發(fā)生。隨著商業(yè)化場景對推理效率和成本控制的要求日益嚴(yán)苛,傳統(tǒng)以Softmax為核心注意力計算機(jī)制的架構(gòu)逐漸暴露出局限性。這種機(jī)制在處理長文本時,計算量隨文本長度呈平方級增長,還需存儲大量KV緩存,給顯存帶來巨大壓力,難以滿足實際應(yīng)用需求。

面對這一挑戰(zhàn),業(yè)界積極探索新的技術(shù)路徑,主要形成了三條探索方向。稀疏注意力通過“少算”“有重點地算”提升效率,以DeepSeek為代表;滑動窗口注意力仍用Softmax計算,但只關(guān)注固定窗口內(nèi)鄰近token,提高計算效率;線性注意力則徹底改寫Softmax公式,將復(fù)雜度從O(N2)降至O(N),推理成本大幅下降。然而,這三條路徑各有局限,如今業(yè)界紛紛轉(zhuǎn)向混合架構(gòu),尤其是混合線性注意力架構(gòu),成為行業(yè)探索的新焦點。

國內(nèi)眾多大模型企業(yè)紛紛投身混合線性注意力架構(gòu)的探索。2025年初,MiniMax率先發(fā)布Text - 01模型,采用1:7的混合線性注意力,在456B參數(shù)模型上成功落地,隨后MiniMax - M1模型也沿用此架構(gòu)。當(dāng)時團(tuán)隊判斷混合架構(gòu)將成為主流,但面臨基礎(chǔ)設(shè)施等瓶頸。

2025年下半年,探索迎來爆發(fā)期。去年9月,阿里通義實驗室發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3 - Next,在80B模型上完成驗證。該模型用線性注意力和門控注意力組合替換標(biāo)準(zhǔn)注意力,在1:3混合比例下性能超越單一架構(gòu),且線性注意力上下文學(xué)習(xí)能力更強(qiáng)。同樣在9月,螞蟻百靈團(tuán)隊開源Ring - mini - linear - 2.0與Ring - flash - linear - 2.0,驗證Lightning Linear線性注意力在工業(yè)規(guī)模訓(xùn)練和長上下文推理中的可用性,兩款模型采用1:7混合比例,高FLOP預(yù)算下表現(xiàn)優(yōu)于純Softmax結(jié)構(gòu)。螞蟻百靈還進(jìn)行架構(gòu)創(chuàng)新與基礎(chǔ)設(shè)施系統(tǒng)工程優(yōu)化協(xié)同,打造FP8融合算子,將FP8混合精度訓(xùn)練計算效率提升至原來的1.5 - 1.7倍,開發(fā)高效線性注意力融合算子提升推理引擎吞吐,使兩款Ring - linear模型在深度推理場景下成本僅為同尺寸稠密模型的約1/10,相較原有Ring系列成本下降超50%。

去年10月,月之暗面開源混合線性注意力架構(gòu)Kimi Linear,其核心Kimi Delta Attention(KDA)是新型線性注意力模塊,通過細(xì)粒度設(shè)計改進(jìn)門控delta規(guī)則,采用1:3混合比例,減少內(nèi)存占用同時超越全注意力模型質(zhì)量。

盡管這些探索在多維度驗證了混合線性注意力架構(gòu)潛力,但多數(shù)成果停留在中小規(guī)模。真實應(yīng)用中,大模型需面對萬億級參數(shù)、百萬級上下文窗口、高并發(fā)推理等工程挑戰(zhàn),下一步關(guān)鍵是將技術(shù)探索推向超大規(guī)模模型,在工業(yè)級應(yīng)用中驗證其可靠性、可擴(kuò)展性與經(jīng)濟(jì)價值。

將混合線性注意力架構(gòu)推向萬億參數(shù)量級工程落地正在穩(wěn)步推進(jìn)。月之暗面創(chuàng)始人兼CEO楊植麟對混合線性注意力前景充滿信心,其團(tuán)隊在Kimi Linear等項目中積累大量研究,計劃在下一代模型Kimi K3中引入更多架構(gòu)優(yōu)化,相信Kimi K3性能會有顯著提升。螞蟻百靈團(tuán)隊也成果豐碩,接連推出超大型混合線性注意力架構(gòu)模型Ling - 2.5 - 1T和全球首個混合線性注意力架構(gòu)的萬億參數(shù)思考模型Ring - 2.5 - 1T。螞蟻百靈團(tuán)隊通過增量訓(xùn)練構(gòu)建Ling 2.5架構(gòu),將GQA + Lightning Linear升級為MLA + Lightning Linear組合,壓縮KV緩存同時保留模型表達(dá)能力,采用1:7混合比例,保留QK Norm、Partial RoPE等核心機(jī)制確保性能不退化。在降本增效方面,Ling - 2.5 - 1T表現(xiàn)突出,僅需約6000個token平均輸出長度就能完成復(fù)雜任務(wù),訪存規(guī)模壓縮至傳統(tǒng)架構(gòu)1/10,生成吞吐量提升至3倍。

對混合線性注意力架構(gòu)的探索,不僅關(guān)乎性能提升,更重新劃定大模型應(yīng)用邊界與商業(yè)形態(tài)。當(dāng)推理成本下降、token使用效率優(yōu)化,模型調(diào)用成本不再是大規(guī)模落地核心瓶頸,應(yīng)用范式將自然轉(zhuǎn)變。企業(yè)可將模型作為默認(rèn)能力嵌入更多業(yè)務(wù)環(huán)節(jié),實現(xiàn)更廣泛深入的效率提升。在搜索、推薦、智能客服等場景,大模型有望從傳統(tǒng)系統(tǒng)補充模塊轉(zhuǎn)變?yōu)楹诵尿?qū)動引擎,成為底層基礎(chǔ)設(shè)施。

不過,混合線性注意力架構(gòu)探索之路并非一帆風(fēng)順。不同技術(shù)路線仍在博弈驗證,如MiniMax在階段性探索后選擇回歸全注意力模型,優(yōu)先保證復(fù)雜場景下穩(wěn)定性與可靠性。但大模型競爭正從“暴力堆參數(shù)”轉(zhuǎn)向“工程效率的精算”這一趨勢愈發(fā)明顯,架構(gòu)細(xì)微差異將在企業(yè)級落地中放大為成本優(yōu)勢與體驗差距,推動大模型從“可用”邁向“好用”,走向廣泛普及。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新