百度近日正式推出并上線了其原生全模態(tài)大模型文心5.0正式版,這一舉措標志著國內(nèi)人工智能領(lǐng)域在多模態(tài)技術(shù)上邁出了重要一步。該模型擁有高達2.4萬億的參數(shù)規(guī)模,通過原生全模態(tài)統(tǒng)一建模技術(shù),實現(xiàn)了對文本、圖像、音頻、視頻等多種信息的全面理解與生成能力,為AI應用提供了更為廣闊的可能性。
除了原生全模態(tài)技術(shù)外,文心5.0還采用了超大規(guī)模混合專家結(jié)構(gòu),具備超稀疏激活參數(shù),激活參數(shù)比低于3%。這一設計在保持模型強大能力的同時,有效提升了推理效率,為大規(guī)模應用提供了有力支持。該模型還基于大規(guī)模工具環(huán)境合成長程任務軌跡數(shù)據(jù),并通過基于思維鏈和行動鏈的端到端多輪強化學習訓練,顯著提升了智能體和工具調(diào)用能力。
在應用層面,百度構(gòu)建了矩陣模型和專精模型兩大體系。矩陣模型面向產(chǎn)品級應用和通用場景快速落地,包括文心Lite模型、視頻大模型和語音大模型等;專精模型則面向行業(yè)應用和垂直場景,如搜索閃電專精模型、電商蒸汽機模型、文心數(shù)字人大模型及行業(yè)大模型等。這些模型共同構(gòu)成了百度AI應用的豐富生態(tài)。
在文心5.0的發(fā)布會上,百度應用模型研發(fā)部負責人賈磊分享了三項令人矚目的技術(shù)突破。首先是基于聲音Token的端到端合成大模型,該模型通過離散表示定義聲音token,以MoE大語言模型建模韻律,實現(xiàn)了高質(zhì)量的聲音合成。其次是5分鐘超越真人的直播技術(shù),該技術(shù)通過對目標音色的少量采樣和臉譜化妝,使合成語音具備直播帶貨所需的情緒、節(jié)奏與感染力。最后是實時交互數(shù)字人技術(shù),該技術(shù)采用三態(tài)Token聯(lián)動架構(gòu),實現(xiàn)文本、語音、視頻的流式控制,具有低延遲、低成本和高表現(xiàn)力的特點。
為了推動大模型在產(chǎn)業(yè)中的落地應用,百度還推出了千帆平臺。該平臺專為行業(yè)落地打造,提供包括文心5.0及全場景150+SOAT模型服務在內(nèi)的豐富資源。同時,千帆平臺還集成了包括百度AI搜索在內(nèi)的眾多工具及MCP和Agent工具鏈,并結(jié)合數(shù)據(jù)管理和企業(yè)級服務,為企業(yè)提供全周期、穩(wěn)定支持多場景業(yè)務的運行環(huán)境。這一舉措顯著降低了企業(yè)Agent創(chuàng)新門檻,加速了AI技術(shù)在各行各業(yè)的應用進程。
目前,千帆平臺上已累計開發(fā)超130萬個Agents,以百度獨家能力“百度AI搜索”為代表的工具日均調(diào)用量已突破千萬次。這些數(shù)據(jù)充分證明了百度在AI應用領(lǐng)域的強大實力和廣泛影響力。隨著文心5.0的正式上線和千帆平臺的不斷完善,百度正持續(xù)探索賦能行業(yè)的AI解決方案,為全球AI行業(yè)的發(fā)展貢獻著中國智慧和中國力量。















