雷軍宣布小米AI創(chuàng)新成果閃耀ICASSP 2026，多領域技術突破引領未來

發(fā)布時間：2026-01-22 15:29 來源：快訊作者：鄭佳

小米在人工智能領域再獲突破，其多項AI創(chuàng)新成果成功入選國際頂級學術會議ICASSP 2026。這一會議作為全球音頻領域最具權威性和影響力的學術盛會之一，自1976年在美國費城首次舉辦以來，已有近50年歷史。ICASSP 2026將于今年5月在西班牙巴塞羅那舉行，小米的入選標志著其在音頻及相關AI領域的技術實力獲得國際認可。

在音頻理解領域，小米團隊推出了ACAVCaps數(shù)據(jù)集，旨在突破現(xiàn)有數(shù)據(jù)集在規(guī)模與描述粒度上的瓶頸。該數(shù)據(jù)集通過創(chuàng)新的自動化管線，從多維度、多視角對音頻內(nèi)容進行精細化刻畫，利用多個專家模型并行提取聲音事件、音樂特征、說話人屬性等關鍵元數(shù)據(jù)，并引入大語言模型進行邏輯整合。ACAVCaps包含約470萬條音頻-文本對，推動音頻AI從簡單的“特征識別”向深度的“語義理解”發(fā)展，并將于近期全面開源。

針對聯(lián)邦學習中的域泛化和類別泛化問題，小米提出了FedDCG框架。該框架通過域分組策略和類特定協(xié)作訓練機制，首次在聯(lián)邦學習設置下聯(lián)合解決類別和域泛化問題，顯著提升了模型在未知環(huán)境中的準確性與魯棒性。實驗表明，F(xiàn)edDCG在多個數(shù)據(jù)集上的表現(xiàn)優(yōu)于當前最先進的基線方法，尤其在低采樣率設置下仍保持領先，為跨域圖像分類和隱私保護下的模型部署提供了可行路徑。

在文本到音樂生成系統(tǒng)的感知評估方面，小米提出了FUSEMOS架構。該架構融合CLAP與MERT兩大預訓練模型，通過雙編碼器策略實現(xiàn)更精準、更貼近人類聽覺感知的評估。FUSEMOS引入排名感知復合損失函數(shù)，顯著增強模型對人類偏好相對順序的理解能力，在Musiceval基準上的實驗結(jié)果驗證了其有效性。

GLAP模型實現(xiàn)了跨音頻領域與跨語言的音頻-文本對齊，支持RAG形式的音頻搜索。該模型首次通過單一框架同時優(yōu)化語音、音樂及聲音事件的檢索與分類性能，在多個語音和聲音檢索基準上保持領先競爭力。GLAP具備多語言泛化能力，無需目標語種微調(diào)即可在50種語言的關鍵詞識別中展現(xiàn)Zero-shot能力，可直接賦能小米“人車家全生態(tài)”中的跨模態(tài)理解場景。

在視頻同步音效生成領域，小米提出了MeanFlow模型。該模型通過平均速度場建模替代傳統(tǒng)流匹配模型的瞬時速度建模，實現(xiàn)推理階段的一步生成，并引入標量重縮放機制緩解失真問題。實驗表明，MeanFlow在實現(xiàn)推理速度大幅提升的同時，精準保障音效生成質(zhì)量，可直接賦能影視后期配音、短視頻智能音效生成等實際場景。

小米還提出了一種統(tǒng)一的多任務學習框架，將“找圖、找文、意圖理解”整合到兩個模型中。該框架通過文本編碼器對齊圖像和文本的語義空間，并通過跨注意力機制與NLU模型進行語義交互，實現(xiàn)意圖感知和語義增強。實驗表明，該框架在多模態(tài)檢索任務上表現(xiàn)優(yōu)異，為小米手機場景下的多模態(tài)檢索提供了輕量化、高性能的解決方案。

更多>同類內(nèi)容