谷歌近日正式推出其首款原生多模態(tài)嵌入模型——Gemini Embedding 2,該模型突破傳統(tǒng)文本處理邊界,首次實(shí)現(xiàn)文本、圖像、視頻、音頻及文檔的統(tǒng)一向量空間映射。這一技術(shù)突破標(biāo)志著人工智能在跨模態(tài)語(yǔ)義理解領(lǐng)域邁出關(guān)鍵一步,為復(fù)雜數(shù)據(jù)場(chǎng)景下的智能應(yīng)用提供全新解決方案。
與專(zhuān)注于內(nèi)容生成的Gemini 3等模型不同,嵌入模型的核心價(jià)值在于數(shù)據(jù)解析能力。通過(guò)將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為數(shù)學(xué)向量,該技術(shù)使機(jī)器能夠精準(zhǔn)捕捉語(yǔ)義關(guān)聯(lián)。例如在法律文書(shū)檢索場(chǎng)景中,系統(tǒng)可同時(shí)分析監(jiān)控視頻畫(huà)面、通話錄音片段與文字記錄,快速定位關(guān)鍵證據(jù)。測(cè)試數(shù)據(jù)顯示,在處理數(shù)百萬(wàn)條多模態(tài)數(shù)據(jù)時(shí),新模型將檢索準(zhǔn)確率提升23%,視頻內(nèi)容召回率提高41%。
該模型支持100種語(yǔ)言的語(yǔ)義意圖識(shí)別,并設(shè)定了明確的技術(shù)邊界:文本處理上下文窗口達(dá)8192個(gè)token,圖像支持單次6張PNG/JPEG格式文件,視頻可處理120秒內(nèi)的MP4/MOV素材,音頻數(shù)據(jù)無(wú)需轉(zhuǎn)錄即可直接分析,PDF文檔則限定在6頁(yè)以?xún)?nèi)。這種設(shè)計(jì)既保證處理效率,又確保多模態(tài)數(shù)據(jù)的協(xié)同分析效果。
在技術(shù)實(shí)現(xiàn)層面,谷歌通過(guò)創(chuàng)新的多模態(tài)編碼架構(gòu),使不同類(lèi)型數(shù)據(jù)在向量空間保持語(yǔ)義一致性。這種特性使得"圖片+文字描述"的混合檢索成為可能,例如在電商場(chǎng)景中,用戶(hù)可用自然語(yǔ)言結(jié)合產(chǎn)品圖片進(jìn)行精準(zhǔn)搜索。該模型已開(kāi)放Gemini API和Vertex AI預(yù)覽接口,開(kāi)發(fā)者可將其集成至語(yǔ)義搜索、情感分析、數(shù)據(jù)聚類(lèi)等應(yīng)用場(chǎng)景。
為滿(mǎn)足不同用戶(hù)需求,谷歌保留了舊版gemini-embedding-001模型,繼續(xù)為純文本處理場(chǎng)景提供服務(wù)。新模型則通過(guò)多模態(tài)融合能力,為智能客服、數(shù)字取證、多媒體內(nèi)容管理等領(lǐng)域開(kāi)辟新的技術(shù)路徑。法律行業(yè)測(cè)試表明,在處理復(fù)雜訴訟材料時(shí),多模態(tài)嵌入技術(shù)使關(guān)鍵證據(jù)定位時(shí)間縮短67%,顯著提升辦案效率。















