百度近日正式推出文心5.0原生全模態(tài)大模型,標(biāo)志著國(guó)內(nèi)人工智能領(lǐng)域在多模態(tài)技術(shù)方向上取得重大突破。該模型參數(shù)規(guī)模達(dá)2.4萬(wàn)億,采用創(chuàng)新的原生全模態(tài)統(tǒng)一建模架構(gòu),突破傳統(tǒng)多模態(tài)技術(shù)"后期融合"的局限,實(shí)現(xiàn)文本、圖像、視頻、音頻等多元數(shù)據(jù)在統(tǒng)一模型框架中的深度協(xié)同訓(xùn)練。這一技術(shù)路線使模型具備原生全模態(tài)理解與生成能力,在40余項(xiàng)權(quán)威基準(zhǔn)測(cè)試中,語(yǔ)言與多模態(tài)理解能力超越國(guó)際主流模型,穩(wěn)居全球第一梯隊(duì)。
在技術(shù)架構(gòu)層面,文心5.0創(chuàng)新性地采用超大規(guī)模混合專家結(jié)構(gòu),通過(guò)超稀疏激活參數(shù)設(shè)計(jì)將激活參數(shù)比控制在3%以下,在保持模型強(qiáng)大性能的同時(shí)顯著提升推理效率。模型開發(fā)團(tuán)隊(duì)基于大規(guī)模工具環(huán)境構(gòu)建長(zhǎng)程任務(wù)軌跡數(shù)據(jù),結(jié)合思維鏈與行動(dòng)鏈的端到端強(qiáng)化學(xué)習(xí)訓(xùn)練方法,使模型在智能體交互和工具調(diào)用能力上實(shí)現(xiàn)質(zhì)的飛躍。這種技術(shù)突破為AI在復(fù)雜場(chǎng)景中的應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。
百度集團(tuán)副總裁吳甜在發(fā)布會(huì)上強(qiáng)調(diào),文心5.0的技術(shù)路線與業(yè)界普遍采用的"后期融合"方案存在本質(zhì)差異。通過(guò)將多源數(shù)據(jù)在統(tǒng)一自回歸架構(gòu)中進(jìn)行聯(lián)合訓(xùn)練,模型實(shí)現(xiàn)了多模態(tài)特征的深度融合與協(xié)同優(yōu)化,這種原生全模態(tài)建模方式使模型能夠更自然地處理跨模態(tài)任務(wù)。例如在圖像生成場(chǎng)景中,模型可以同時(shí)理解文字描述、語(yǔ)音指令和參考圖像,生成更符合用戶預(yù)期的視覺內(nèi)容。
應(yīng)用模型研發(fā)部負(fù)責(zé)人賈磊現(xiàn)場(chǎng)展示了三項(xiàng)突破性技術(shù):基于聲音Token的端到端合成大模型通過(guò)離散語(yǔ)音表示、MoE韻律建模和Unet聲學(xué)編碼等技術(shù),實(shí)現(xiàn)了更自然的語(yǔ)音合成效果;5分鐘直播技術(shù)通過(guò)少量音色采樣和韻律模式匹配,使合成語(yǔ)音具備專業(yè)主播的情緒表現(xiàn)力;實(shí)時(shí)交互數(shù)字人技術(shù)采用三態(tài)Token聯(lián)動(dòng)架構(gòu),突破傳統(tǒng)數(shù)字人制作模式,實(shí)現(xiàn)文本、語(yǔ)音、視頻的流式控制,顯著降低制作成本。這些技術(shù)已應(yīng)用于羅永浩數(shù)字人直播等場(chǎng)景,創(chuàng)造行業(yè)新紀(jì)錄。
為推動(dòng)大模型技術(shù)落地,百度千帆平臺(tái)推出Agent Infra解決方案,提供包含文心5.0在內(nèi)的150余個(gè)場(chǎng)景化模型服務(wù),集成百度AI搜索等工具鏈,結(jié)合數(shù)據(jù)管理和企業(yè)級(jí)服務(wù)能力,為企業(yè)打造全周期、多場(chǎng)景的業(yè)務(wù)運(yùn)行環(huán)境。目前平臺(tái)已孵化超130萬(wàn)個(gè)智能體應(yīng)用,以百度AI搜索為代表的工具日均調(diào)用量突破千萬(wàn)次,形成完整的"芯云模體"技術(shù)生態(tài)閉環(huán)。
相較于國(guó)際主流AI應(yīng)用仍以對(duì)話交互為主的現(xiàn)狀,文心5.0的技術(shù)突破為AI在真實(shí)行業(yè)場(chǎng)景中的深度應(yīng)用開辟新路徑。通過(guò)構(gòu)建從芯片到智能云,再到模型應(yīng)用的完整技術(shù)棧,百度正在探索一條具有中國(guó)特色的AI發(fā)展道路。這種全棧自研的生態(tài)閉環(huán),不僅提升了技術(shù)自主性,更為金融、醫(yī)療、教育等垂直領(lǐng)域提供了可定制化的智能解決方案。















