国产精品自拍视频在线-亚洲一区二区三区品视频-日本一区二区三区麻烦视频-国偷自产视频一区二区三区久-巨乳少妇av中文字幕-日韩最新免费中文字幕在线观看-成人污污污视频在线免费观看-污污污网站在线免费看-国产欧美高清在线观看视频

媒體界 - 推動中國媒體行業(yè)創(chuàng)新,促進業(yè)內(nèi)人士交流分享!

雷軍宣布小米AI創(chuàng)新成果閃耀ICASSP 2026,多領域技術突破引領未來

   發(fā)布時間:2026-01-22 15:29 作者:鄭佳

小米在人工智能領域再獲突破,其多項AI創(chuàng)新成果成功入選國際頂級學術會議ICASSP 2026。這一會議作為全球音頻領域最具權威性和影響力的學術盛會之一,自1976年在美國費城首次舉辦以來,已有近50年歷史。ICASSP 2026將于今年5月在西班牙巴塞羅那舉行,小米的入選標志著其在音頻及相關AI領域的技術實力獲得國際認可。

在音頻理解領域,小米團隊推出了ACAVCaps數(shù)據(jù)集,旨在突破現(xiàn)有數(shù)據(jù)集在規(guī)模與描述粒度上的瓶頸。該數(shù)據(jù)集通過創(chuàng)新的自動化管線,從多維度、多視角對音頻內(nèi)容進行精細化刻畫,利用多個專家模型并行提取聲音事件、音樂特征、說話人屬性等關鍵元數(shù)據(jù),并引入大語言模型進行邏輯整合。ACAVCaps包含約470萬條音頻-文本對,推動音頻AI從簡單的“特征識別”向深度的“語義理解”發(fā)展,并將于近期全面開源。

針對聯(lián)邦學習中的域泛化和類別泛化問題,小米提出了FedDCG框架。該框架通過域分組策略和類特定協(xié)作訓練機制,首次在聯(lián)邦學習設置下聯(lián)合解決類別和域泛化問題,顯著提升了模型在未知環(huán)境中的準確性與魯棒性。實驗表明,F(xiàn)edDCG在多個數(shù)據(jù)集上的表現(xiàn)優(yōu)于當前最先進的基線方法,尤其在低采樣率設置下仍保持領先,為跨域圖像分類和隱私保護下的模型部署提供了可行路徑。

在文本到音樂生成系統(tǒng)的感知評估方面,小米提出了FUSEMOS架構。該架構融合CLAP與MERT兩大預訓練模型,通過雙編碼器策略實現(xiàn)更精準、更貼近人類聽覺感知的評估。FUSEMOS引入排名感知復合損失函數(shù),顯著增強模型對人類偏好相對順序的理解能力,在Musiceval基準上的實驗結(jié)果驗證了其有效性。

GLAP模型實現(xiàn)了跨音頻領域與跨語言的音頻-文本對齊,支持RAG形式的音頻搜索。該模型首次通過單一框架同時優(yōu)化語音、音樂及聲音事件的檢索與分類性能,在多個語音和聲音檢索基準上保持領先競爭力。GLAP具備多語言泛化能力,無需目標語種微調(diào)即可在50種語言的關鍵詞識別中展現(xiàn)Zero-shot能力,可直接賦能小米“人車家全生態(tài)”中的跨模態(tài)理解場景。

在視頻同步音效生成領域,小米提出了MeanFlow模型。該模型通過平均速度場建模替代傳統(tǒng)流匹配模型的瞬時速度建模,實現(xiàn)推理階段的一步生成,并引入標量重縮放機制緩解失真問題。實驗表明,MeanFlow在實現(xiàn)推理速度大幅提升的同時,精準保障音效生成質(zhì)量,可直接賦能影視后期配音、短視頻智能音效生成等實際場景。

小米還提出了一種統(tǒng)一的多任務學習框架,將“找圖、找文、意圖理解”整合到兩個模型中。該框架通過文本編碼器對齊圖像和文本的語義空間,并通過跨注意力機制與NLU模型進行語義交互,實現(xiàn)意圖感知和語義增強。實驗表明,該框架在多模態(tài)檢索任務上表現(xiàn)優(yōu)異,為小米手機場景下的多模態(tài)檢索提供了輕量化、高性能的解決方案。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新