百度近日正式推出并上線了其原生全模態(tài)大模型文心5.0,標志著人工智能技術(shù)邁向新的里程碑。這款模型擁有高達2.4萬億的參數(shù)規(guī)模,采用創(chuàng)新的原生全模態(tài)統(tǒng)一建模技術(shù),能夠同時處理文本、圖像、音頻和視頻等多種信息形式,實現(xiàn)了跨模態(tài)的深度理解與生成能力。
與市場上常見的“后期融合”多模態(tài)方案不同,文心5.0通過統(tǒng)一的自回歸架構(gòu),將不同模態(tài)的數(shù)據(jù)在同一模型框架內(nèi)進行聯(lián)合訓(xùn)練。這種技術(shù)路線使得多模態(tài)特征能夠在統(tǒng)一架構(gòu)下充分融合,從而實現(xiàn)了原生的全模態(tài)理解與生成能力。在權(quán)威基準評測中,文心5.0的語言與多模態(tài)理解能力已超越Gemini-2.5-Pro、GPT-5-High等國際領(lǐng)先模型,穩(wěn)居全球第一梯隊。
文心5.0不僅在技術(shù)上取得突破,還在模型效率上進行了優(yōu)化。其采用超大規(guī)模混合專家結(jié)構(gòu),激活參數(shù)比低于3%,在保持強大能力的同時顯著提升了推理效率。通過大規(guī)模工具環(huán)境合成長程任務(wù)軌跡數(shù)據(jù),并采用端到端多輪強化學(xué)習(xí)訓(xùn)練,模型的智能體和工具調(diào)用能力得到顯著提升。
在應(yīng)用層面,百度構(gòu)建了以文心基礎(chǔ)大模型為核心的矩陣模型和專精模型體系。矩陣模型面向通用場景快速落地,包括文心Lite模型、視頻大模型和語音大模型;專精模型則針對行業(yè)應(yīng)用和垂直場景,如搜索閃電專精模型、電商蒸汽機模型等。這些模型共同構(gòu)成了百度AI應(yīng)用的生態(tài)閉環(huán)。
百度應(yīng)用模型研發(fā)部負責人賈磊在發(fā)布會上分享了文心應(yīng)用模型的最新進展。他強調(diào),模型的價值在于應(yīng)用,而非模型本身。百度致力于讓模型在真實場景中“跑得穩(wěn)、答得對、用得起”。為此,百度推出了三項技術(shù)突破:基于聲音Token的端到端合成大模型、5分鐘超越真人的直播技術(shù),以及實時交互數(shù)字人技術(shù)。
其中,實時交互數(shù)字人技術(shù)采用三態(tài)Token聯(lián)動架構(gòu),實現(xiàn)了文本、語音、視頻的流式控制。這一技術(shù)突破了傳統(tǒng)數(shù)字人三個模態(tài)串聯(lián)的制作模式,通過系統(tǒng)自動完成動作銜接、編排與狀態(tài)重組,并由聲音Token實時驅(qū)動表情與口型,輸出三態(tài)合一的視頻流。百度羅永浩數(shù)字人便是基于這項技術(shù)開發(fā),具有低延遲、低成本和高表現(xiàn)力的特點。
為了推動大模型在產(chǎn)業(yè)中的落地,百度千帆平臺提供了全周期、穩(wěn)定支持多場景業(yè)務(wù)的運行環(huán)境。平臺集成文心5.0及全場景150+SOAT模型服務(wù),并配備百度AI搜索等工具及MCP和Agent工具鏈,結(jié)合數(shù)據(jù)管理和企業(yè)級服務(wù),顯著降低了企業(yè)Agent創(chuàng)新門檻。目前,千帆平臺上已累計開發(fā)超130萬個Agents,工具日均調(diào)用量突破千萬次。
百度憑借其“芯云模體”全棧自研生態(tài)閉環(huán),正持續(xù)探索AI賦能行業(yè)的解決方案。從芯片到智能云,再到模型支撐的各類智能體應(yīng)用,百度正以技術(shù)實力推動AI在真實世界與行業(yè)中的廣泛應(yīng)用。















