在圖像檢索領(lǐng)域,傳統(tǒng)模型處理復(fù)雜文本描述時(shí)常常力不從心。以CLIP為代表的現(xiàn)有技術(shù)面對(duì)"白色福特F250皮卡配備有色車(chē)窗和超大輪胎"這類(lèi)包含多個(gè)細(xì)節(jié)的查詢時(shí),往往難以精準(zhǔn)匹配目標(biāo)圖像。這種"描述越詳細(xì)匹配越差"的現(xiàn)象,成為制約技術(shù)發(fā)展的關(guān)鍵瓶頸。
中國(guó)聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院團(tuán)隊(duì)推出的HiMo-CLIP模型,通過(guò)創(chuàng)新性的動(dòng)態(tài)語(yǔ)義指紋技術(shù)破解了這一難題。該模型搭載的HiDe模塊采用統(tǒng)計(jì)學(xué)方法,能在海量文本中自動(dòng)識(shí)別最具區(qū)分度的特征。例如在汽車(chē)檢索場(chǎng)景中,系統(tǒng)會(huì)優(yōu)先捕捉"超大輪胎"這類(lèi)核心特征,而非泛化的"有色車(chē)窗"描述,使匹配準(zhǔn)確率提升至89.3%。
研發(fā)團(tuán)隊(duì)設(shè)計(jì)的MoLo損失機(jī)制構(gòu)建了雙重保障體系,既確保整體語(yǔ)義匹配,又強(qiáng)化核心特征對(duì)齊。這種設(shè)計(jì)使模型在處理長(zhǎng)文本時(shí)得分隨信息量增加而提升,徹底改變了"多說(shuō)多錯(cuò)"的行業(yè)痛點(diǎn)。在MSCOCO-Long測(cè)試集上,新模型的mAP指標(biāo)較前代提升近20%,同時(shí)在Flickr30K短文本測(cè)試中保持98.3%的原始性能。
技術(shù)落地應(yīng)用已顯現(xiàn)顯著成效。京東商品搜索系統(tǒng)接入該模型后,用戶使用"黑色連帽衛(wèi)衣帶白色抽繩和刺繡logo"等復(fù)雜描述時(shí),搜索轉(zhuǎn)化率提升27%。自動(dòng)駕駛領(lǐng)域正探索將其用于解析"前方施工區(qū)域有黃色警示牌和穿橙色背心的工人"等場(chǎng)景描述,幫助車(chē)載系統(tǒng)更精準(zhǔn)識(shí)別環(huán)境要素。
這個(gè)開(kāi)源項(xiàng)目在GitHub上線半年即獲得2.3k星標(biāo),字節(jié)跳動(dòng)、商湯科技等企業(yè)已開(kāi)展技術(shù)驗(yàn)證。當(dāng)前版本在處理"碳纖維車(chē)身包圍"等專(zhuān)業(yè)術(shù)語(yǔ)時(shí)仍存在局限,研發(fā)團(tuán)隊(duì)計(jì)劃2026年第三季度推出多語(yǔ)言版本,屆時(shí)將支持外語(yǔ)描述的精準(zhǔn)匹配。該成果標(biāo)志著中國(guó)團(tuán)隊(duì)在AI基礎(chǔ)研究領(lǐng)域取得重要突破,其模擬人類(lèi)認(rèn)知邏輯的創(chuàng)新思路,為多模態(tài)智能發(fā)展提供了新方向。















