商湯開源多模態(tài)模型SenseNova-MARS，搜索推理能力超越Gemini 3 Pro等專有模型

發(fā)布時(shí)間：2026-01-30 17:45 來源：快訊作者：沈如風(fēng)

商湯科技近日宣布，正式開源兩款多模態(tài)自主推理模型——SenseNova-MARS-8B與SenseNova-MARS-32B。這兩款模型在多模態(tài)搜索與推理的核心基準(zhǔn)測試中表現(xiàn)突出，性能超越了Gemini 3 Pro、GPT-5.2等知名專有模型，標(biāo)志著多模態(tài)AI領(lǐng)域的技術(shù)突破。

SenseNova-MARS系列模型的核心優(yōu)勢在于其動(dòng)態(tài)視覺推理與圖文搜索深度融合的能力。作為首個(gè)支持此類功能的Agentic VLM（視覺語言模型），它能夠在多輪推理過程中主動(dòng)調(diào)用圖像搜索、文本搜索及圖像裁剪工具。例如，當(dāng)需要分析圖片細(xì)節(jié)時(shí)，模型可通過放大或裁剪圖像定位關(guān)鍵信息，再結(jié)合外部知識(shí)庫完成背景查詢，整個(gè)過程無需人工干預(yù)。這一特性使其在處理復(fù)雜任務(wù)時(shí)展現(xiàn)出接近人類思維的連貫性。

在基準(zhǔn)測試中，SenseNova-MARS的表現(xiàn)令人矚目。在MMSearch、HR-MMSearch、FVQA等搜索導(dǎo)向型測試中，32B版本分別取得74.3和54.4的得分，超越Gemini-3-Pro與GPT-5.2；在知識(shí)密集型任務(wù)中，其依賴外部搜索工具的比例高達(dá)90%，僅10%依賴局部感知，體現(xiàn)了對(duì)全局信息的精準(zhǔn)把握。而在高分辨率感知測試如V Bench中，32B版本同樣優(yōu)于Qwen3-VL-235B-A22B等模型，證明其在視覺理解與推理能力上的均衡性。

技術(shù)實(shí)現(xiàn)層面，SenseNova-MARS采用雙階段流水線并行訓(xùn)練策略。第一階段通過系統(tǒng)框架訓(xùn)練（SFT）構(gòu)建基礎(chǔ)能力：針對(duì)跨模態(tài)數(shù)據(jù)稀缺問題，研發(fā)團(tuán)隊(duì)設(shè)計(jì)自動(dòng)化數(shù)據(jù)合成引擎，利用細(xì)粒度視覺錨點(diǎn)與多跳檢索機(jī)制，動(dòng)態(tài)生成高復(fù)雜度推理鏈路，并通過閉環(huán)校驗(yàn)剔除低質(zhì)量數(shù)據(jù)。第二階段引入強(qiáng)化學(xué)習(xí)（RL），模型在決策正確時(shí)獲得獎(jiǎng)勵(lì)，錯(cuò)誤時(shí)調(diào)整策略，配合BN-GSPO算法避免“偏科”，確保在簡單與復(fù)雜任務(wù)中均能穩(wěn)定進(jìn)步。這種訓(xùn)練方式使模型不僅學(xué)會(huì)使用工具，更能根據(jù)場景靈活組合工具結(jié)果。

實(shí)際應(yīng)用中，SenseNova-MARS的閉環(huán)解題能力可顯著提升產(chǎn)業(yè)效率。例如，在工業(yè)質(zhì)檢場景，模型能通過裁剪圖像定位產(chǎn)品缺陷，結(jié)合搜索工具追溯生產(chǎn)批次信息；在金融風(fēng)控領(lǐng)域，它可分析合同文本與關(guān)聯(lián)圖表，自動(dòng)驗(yàn)證數(shù)據(jù)一致性；在科研輔助中，模型能從論文配圖中提取實(shí)驗(yàn)參數(shù)，跨數(shù)據(jù)庫檢索相關(guān)研究，加速假設(shè)驗(yàn)證。這些場景此前因AI缺乏多步驟推理與工具協(xié)作能力而難以落地，而SenseNova-MARS的開源為行業(yè)提供了可定制的解決方案。

目前，商湯已將SenseNova-MARS的模型、代碼及數(shù)據(jù)集全量開源，開發(fā)者可通過GitHub獲取資源。這一舉措不僅推動(dòng)了多模態(tài)AI技術(shù)的普及，也為跨領(lǐng)域應(yīng)用創(chuàng)新提供了基礎(chǔ)框架。隨著模型在真實(shí)場景中的持續(xù)優(yōu)化，其潛力有望進(jìn)一步釋放，助力更多行業(yè)實(shí)現(xiàn)智能化轉(zhuǎn)型。

更多>同類內(nèi)容