HiMo-CLIP來(lái)襲：讓AI精準(zhǔn)捕捉長(zhǎng)文本關(guān)鍵，圖像檢索準(zhǔn)確率大幅提升-峰會(huì)論壇-媒體界

HiMo-CLIP來(lái)襲：讓AI精準(zhǔn)捕捉長(zhǎng)文本關(guān)鍵，圖像檢索準(zhǔn)確率大幅提升

發(fā)布時(shí)間：2025-12-03 06:00 來(lái)源：快訊作者：趙磊

在圖像檢索領(lǐng)域，傳統(tǒng)模型處理復(fù)雜文本描述時(shí)常常力不從心。以CLIP為代表的現(xiàn)有技術(shù)面對(duì)"白色福特F250皮卡配備有色車(chē)窗和超大輪胎"這類(lèi)包含多個(gè)細(xì)節(jié)的查詢時(shí)，往往難以精準(zhǔn)匹配目標(biāo)圖像。這種"描述越詳細(xì)匹配越差"的現(xiàn)象，成為制約技術(shù)發(fā)展的關(guān)鍵瓶頸。

中國(guó)聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院團(tuán)隊(duì)推出的HiMo-CLIP模型，通過(guò)創(chuàng)新性的動(dòng)態(tài)語(yǔ)義指紋技術(shù)破解了這一難題。該模型搭載的HiDe模塊采用統(tǒng)計(jì)學(xué)方法，能在海量文本中自動(dòng)識(shí)別最具區(qū)分度的特征。例如在汽車(chē)檢索場(chǎng)景中，系統(tǒng)會(huì)優(yōu)先捕捉"超大輪胎"這類(lèi)核心特征，而非泛化的"有色車(chē)窗"描述，使匹配準(zhǔn)確率提升至89.3%。

研發(fā)團(tuán)隊(duì)設(shè)計(jì)的MoLo損失機(jī)制構(gòu)建了雙重保障體系，既確保整體語(yǔ)義匹配，又強(qiáng)化核心特征對(duì)齊。這種設(shè)計(jì)使模型在處理長(zhǎng)文本時(shí)得分隨信息量增加而提升，徹底改變了"多說(shuō)多錯(cuò)"的行業(yè)痛點(diǎn)。在MSCOCO-Long測(cè)試集上，新模型的mAP指標(biāo)較前代提升近20%，同時(shí)在Flickr30K短文本測(cè)試中保持98.3%的原始性能。

技術(shù)落地應(yīng)用已顯現(xiàn)顯著成效。京東商品搜索系統(tǒng)接入該模型后，用戶使用"黑色連帽衛(wèi)衣帶白色抽繩和刺繡logo"等復(fù)雜描述時(shí)，搜索轉(zhuǎn)化率提升27%。自動(dòng)駕駛領(lǐng)域正探索將其用于解析"前方施工區(qū)域有黃色警示牌和穿橙色背心的工人"等場(chǎng)景描述，幫助車(chē)載系統(tǒng)更精準(zhǔn)識(shí)別環(huán)境要素。

這個(gè)開(kāi)源項(xiàng)目在GitHub上線半年即獲得2.3k星標(biāo)，字節(jié)跳動(dòng)、商湯科技等企業(yè)已開(kāi)展技術(shù)驗(yàn)證。當(dāng)前版本在處理"碳纖維車(chē)身包圍"等專(zhuān)業(yè)術(shù)語(yǔ)時(shí)仍存在局限，研發(fā)團(tuán)隊(duì)計(jì)劃2026年第三季度推出多語(yǔ)言版本，屆時(shí)將支持外語(yǔ)描述的精準(zhǔn)匹配。該成果標(biāo)志著中國(guó)團(tuán)隊(duì)在AI基礎(chǔ)研究領(lǐng)域取得重要突破，其模擬人類(lèi)認(rèn)知邏輯的創(chuàng)新思路，為多模態(tài)智能發(fā)展提供了新方向。

更多>同類(lèi)內(nèi)容