商湯科技近日宣布,正式開源兩款多模態(tài)自主推理模型——SenseNova-MARS-8B與SenseNova-MARS-32B。這兩款模型在多模態(tài)搜索與推理的核心基準(zhǔn)測試中表現(xiàn)突出,性能超越了Gemini 3 Pro、GPT-5.2等知名專有模型,標(biāo)志著多模態(tài)AI領(lǐng)域的技術(shù)突破。
SenseNova-MARS系列模型的核心優(yōu)勢在于其動(dòng)態(tài)視覺推理與圖文搜索深度融合的能力。作為首個(gè)支持此類功能的Agentic VLM(視覺語言模型),它能夠在多輪推理過程中主動(dòng)調(diào)用圖像搜索、文本搜索及圖像裁剪工具。例如,當(dāng)需要分析圖片細(xì)節(jié)時(shí),模型可通過放大或裁剪圖像定位關(guān)鍵信息,再結(jié)合外部知識(shí)庫完成背景查詢,整個(gè)過程無需人工干預(yù)。這一特性使其在處理復(fù)雜任務(wù)時(shí)展現(xiàn)出接近人類思維的連貫性。
在基準(zhǔn)測試中,SenseNova-MARS的表現(xiàn)令人矚目。在MMSearch、HR-MMSearch、FVQA等搜索導(dǎo)向型測試中,32B版本分別取得74.3和54.4的得分,超越Gemini-3-Pro與GPT-5.2;在知識(shí)密集型任務(wù)中,其依賴外部搜索工具的比例高達(dá)90%,僅10%依賴局部感知,體現(xiàn)了對(duì)全局信息的精準(zhǔn)把握。而在高分辨率感知測試如V Bench中,32B版本同樣優(yōu)于Qwen3-VL-235B-A22B等模型,證明其在視覺理解與推理能力上的均衡性。
技術(shù)實(shí)現(xiàn)層面,SenseNova-MARS采用雙階段流水線并行訓(xùn)練策略。第一階段通過系統(tǒng)框架訓(xùn)練(SFT)構(gòu)建基礎(chǔ)能力:針對(duì)跨模態(tài)數(shù)據(jù)稀缺問題,研發(fā)團(tuán)隊(duì)設(shè)計(jì)自動(dòng)化數(shù)據(jù)合成引擎,利用細(xì)粒度視覺錨點(diǎn)與多跳檢索機(jī)制,動(dòng)態(tài)生成高復(fù)雜度推理鏈路,并通過閉環(huán)校驗(yàn)剔除低質(zhì)量數(shù)據(jù)。第二階段引入強(qiáng)化學(xué)習(xí)(RL),模型在決策正確時(shí)獲得獎(jiǎng)勵(lì),錯(cuò)誤時(shí)調(diào)整策略,配合BN-GSPO算法避免“偏科”,確保在簡單與復(fù)雜任務(wù)中均能穩(wěn)定進(jìn)步。這種訓(xùn)練方式使模型不僅學(xué)會(huì)使用工具,更能根據(jù)場景靈活組合工具結(jié)果。
實(shí)際應(yīng)用中,SenseNova-MARS的閉環(huán)解題能力可顯著提升產(chǎn)業(yè)效率。例如,在工業(yè)質(zhì)檢場景,模型能通過裁剪圖像定位產(chǎn)品缺陷,結(jié)合搜索工具追溯生產(chǎn)批次信息;在金融風(fēng)控領(lǐng)域,它可分析合同文本與關(guān)聯(lián)圖表,自動(dòng)驗(yàn)證數(shù)據(jù)一致性;在科研輔助中,模型能從論文配圖中提取實(shí)驗(yàn)參數(shù),跨數(shù)據(jù)庫檢索相關(guān)研究,加速假設(shè)驗(yàn)證。這些場景此前因AI缺乏多步驟推理與工具協(xié)作能力而難以落地,而SenseNova-MARS的開源為行業(yè)提供了可定制的解決方案。
目前,商湯已將SenseNova-MARS的模型、代碼及數(shù)據(jù)集全量開源,開發(fā)者可通過GitHub獲取資源。這一舉措不僅推動(dòng)了多模態(tài)AI技術(shù)的普及,也為跨領(lǐng)域應(yīng)用創(chuàng)新提供了基礎(chǔ)框架。隨著模型在真實(shí)場景中的持續(xù)優(yōu)化,其潛力有望進(jìn)一步釋放,助力更多行業(yè)實(shí)現(xiàn)智能化轉(zhuǎn)型。















