百度近日正式推出原生全模態(tài)大模型文心5.0,標(biāo)志著其在人工智能領(lǐng)域的技術(shù)突破邁入新階段。該模型采用統(tǒng)一的自回歸架構(gòu)進(jìn)行原生全模態(tài)建模,將文本、圖像、視頻、音頻等多源數(shù)據(jù)在同一框架下聯(lián)合訓(xùn)練,實(shí)現(xiàn)了真正的多模態(tài)統(tǒng)一理解與生成。與傳統(tǒng)的“后期融合”方案不同,這一技術(shù)路線使多模態(tài)特征在統(tǒng)一架構(gòu)下充分融合,避免了拼接式處理的局限性。
文心5.0的參數(shù)規(guī)模達(dá)2.4萬億,通過超大規(guī)模混合專家結(jié)構(gòu)實(shí)現(xiàn)超稀疏激活,激活參數(shù)比低于3%,在保持強(qiáng)大能力的同時(shí)顯著提升了推理效率。模型還引入了基于思維鏈和行動(dòng)鏈的端到端多輪強(qiáng)化學(xué)習(xí)訓(xùn)練方法,結(jié)合大規(guī)模工具環(huán)境合成的長(zhǎng)程任務(wù)軌跡數(shù)據(jù),大幅增強(qiáng)了智能體和工具調(diào)用能力。在40余項(xiàng)權(quán)威基準(zhǔn)測(cè)試中,其語言與多模態(tài)理解能力超越Gemini-2.5-Pro、GPT-5-High等國(guó)際主流模型,圖像與視頻生成能力與垂直領(lǐng)域?qū)>P拖喈?dāng),整體處于全球領(lǐng)先水平。
應(yīng)用層面,文心5.0已構(gòu)建起覆蓋通用場(chǎng)景與行業(yè)需求的模型矩陣。矩陣模型包括文心Lite、視頻大模型和語音大模型,面向產(chǎn)品級(jí)應(yīng)用快速落地;專精模型則針對(duì)搜索、電商、數(shù)字人等垂直領(lǐng)域開發(fā),如搜索閃電專精模型、電商蒸汽機(jī)模型等。百度應(yīng)用模型研發(fā)部負(fù)責(zé)人透露,基于聲音Token的端到端合成大模型通過離散語音表示、MoE韻律建模和Unet自重構(gòu)特征等技術(shù),實(shí)現(xiàn)了高質(zhì)量語音合成;5分鐘直播技術(shù)通過少量音色采樣和韻律模式匹配,使合成語音具備直播帶貨所需的情緒感染力;實(shí)時(shí)交互數(shù)字人技術(shù)采用三態(tài)Token聯(lián)動(dòng)架構(gòu),突破傳統(tǒng)模態(tài)串聯(lián)模式,實(shí)現(xiàn)文本、語音、視頻的流式控制,百度羅永浩數(shù)字人即基于此技術(shù)開發(fā)。
為推動(dòng)大模型在產(chǎn)業(yè)中的落地,百度千帆平臺(tái)推出Agent Infra解決方案,提供包括文心5.0在內(nèi)的150余個(gè)全場(chǎng)景模型服務(wù),集成百度AI搜索等工具及MCP和Agent工具鏈,結(jié)合數(shù)據(jù)管理和企業(yè)級(jí)服務(wù),為企業(yè)提供全周期、多場(chǎng)景的業(yè)務(wù)運(yùn)行環(huán)境。目前,千帆平臺(tái)已累計(jì)開發(fā)超130萬個(gè)Agents,以百度AI搜索為代表的工具日均調(diào)用量突破千萬次。此前,百度數(shù)字人技術(shù)已在直播帶貨等領(lǐng)域廣泛應(yīng)用,2025年羅永浩數(shù)字人直播曾創(chuàng)下行業(yè)紀(jì)錄。
作為國(guó)內(nèi)大模型領(lǐng)域的先行者,百度正通過“芯云模體”全棧自研生態(tài)閉環(huán)持續(xù)探索AI賦能行業(yè)的路徑。該生態(tài)以芯片為底座、智能云為平臺(tái)框架、模型為支撐,形成覆蓋硬件、算法、應(yīng)用的完整鏈條,為AI技術(shù)從實(shí)驗(yàn)室走向真實(shí)場(chǎng)景提供了可復(fù)制的解決方案。當(dāng)前,全球AI行業(yè)正加速向應(yīng)用層拓展,如何讓技術(shù)真正服務(wù)于產(chǎn)業(yè)需求成為關(guān)鍵課題,百度的實(shí)踐為這一方向提供了重要參考。















