近日,小米在人工智能領域取得重大突破,其多項AI創新成果成功入選國際頂級學術會議ICASSP 2026。ICASSP作為全球音頻領域最具權威性與影響力的學術會議之一,自1976年在美國費城首次舉辦以來,已有近50年歷史。此次會議將于今年5月在西班牙巴塞羅那舉行,小米的入選成果涵蓋了音頻理解、音樂生成評估、通用音頻-文本預訓練、視頻到音頻合成等多個AI領域。
在音頻理解領域,小米推出了ACAVCaps數據集,旨在突破現有數據集在規模與描述粒度上難以兼得的瓶頸。當前主流數據集普遍存在“規模大但描述簡略”或“描述詳盡但規模受限”的問題。ACAVCaps通過創新的自動化管線,從多維度、多視角對音頻內容進行精細化刻畫。該數據集構建了一套多級自動化標注框架,利用多個專家模型并行提取原始音頻中的聲音事件、音樂特征、說話人屬性及語音內容等關鍵元數據,并引入大語言模型(LLM)和思維鏈推理策略,將碎片化的結構化信息進行邏輯整合。ACAVCaps包含約470萬條音頻-文本對,推動了音頻AI從簡單的“特征識別”向深度的“語義理解”發展,該數據集近期將全面開源。
在聯邦學習領域,小米提出了FedDCG方法,以解決視覺語言模型在高效微調中面臨的域泛化和類別泛化問題。傳統方法通常單獨處理未見的類別或未見的域,導致在測試數據同時包含未見類別和未見域的復雜場景下性能受限。FedDCG通過域分組策略和類特定協作訓練機制,首次在聯邦學習設置下聯合解決類別和域泛化問題。該方法在Office-Home和MiniDomainNet等數據集上的實驗表明,在ImageNet-R和ImageNet-A等零樣本評估基準上均優于當前最先進的基線方法,證明了其在數據稀缺場景下的有效性,適用于移動端智能處理等資源受限場景。
在音樂生成評估領域,小米提出了FUSEMOS雙編碼器架構,以提升文本到音樂(TTM)生成系統的感知評估能力。現有自動音樂感知評估方法主要依賴單一音頻編碼器提取音頻特征,難以捕捉音樂中復雜結構與細粒度特征。FUSEMOS融合了CLAP與MERT兩大預訓練模型,通過晚期融合策略和排名感知復合損失函數,實現了更精準、更貼近人類聽覺感知的評估。在Musiceval基準上的實驗結果表明,FUSEMOS在均方誤差和排序相關性等關鍵指標上均顯著優于現有方法。
在通用音頻-文本預訓練領域,小米開發的GLAP模型實現了跨音頻領域(語音/音樂/環境音)與跨語言的音頻-文本對齊,支持RAG形式的音頻搜索。GLAP首次通過單一框架同時優化語音、音樂及聲音事件的檢索與分類性能,解決了傳統CLAP模型領域割裂的問題。該模型在LibriSpeech和AISHELL-2語音檢索上達到約94%與99%的recall@1,同時在AudioCaps等聲音檢索基準保持SOTA競爭力。GLAP具備多語言泛化能力,無需目標語種微調,即可在50種語言的關鍵詞識別中展現Zero-shot能力,可直接賦能小米“人車家全生態”中的跨模態理解場景。
在視頻到音頻合成領域,小米提出的MeanFlow模型實現了視頻同步音效生成場景中推理效率與生成質量的雙重突破。MeanFlow首次在V2A任務中通過平均速度場建模替代傳統流匹配模型的瞬時速度建模,解決了多步迭代采樣導致的推理速度瓶頸,實現推理階段的一步生成。針對無分類器引導應用時易出現的一步生成失真問題,創新引入標量重縮放機制,有效緩解失真現象。實驗驗證表明,該模型在實現推理速度大幅提升的同時,可穩定保持優質的音效輸出,確保音視頻語義對齊與時間同步性,綜合性能處于領域領先水平。
在多模態檢索領域,小米提出了一種統一的多任務學習框架,將“找圖、找文、意圖理解”這三個任務整合到兩個模型中。傳統檢索中,這三個任務通常是獨立訓練的模型,導致同一查詢被重復編碼檢索,且語義空間未對齊。該框架通過文本編碼器同時對齊圖像和文本的語義空間,并通過跨注意力機制與NLU模型進行語義交互,實現意圖感知和語義增強。該框架在找圖與找文任務上均達到或超過現有最優方法,在多語言測試中也表現出色,為小米手機場景下的多模態檢索提供了輕量化、高性能的解決方案。















