小米公司近日在人工智能領(lǐng)域取得重大突破,其研發(fā)團隊的多項創(chuàng)新成果成功入選國際聲學(xué)、語音與信號處理頂級會議ICASSP 2026。這些成果覆蓋音頻理解、音樂生成評估、通用音頻-文本預(yù)訓(xùn)練及視頻轉(zhuǎn)音頻合成等前沿方向,標(biāo)志著小米在智能聲學(xué)領(lǐng)域的技術(shù)實力獲得國際學(xué)術(shù)界高度認(rèn)可。
據(jù)小米官方披露,此次入選的音頻理解技術(shù)實現(xiàn)了對復(fù)雜聲學(xué)場景的精準(zhǔn)解析,音樂生成評估體系則構(gòu)建了全球首個多維度量化標(biāo)準(zhǔn)。在跨模態(tài)研究方面,團隊開發(fā)的通用音頻-文本預(yù)訓(xùn)練模型突破傳統(tǒng)架構(gòu)限制,顯著提升了多語言環(huán)境下的語義理解能力。視頻轉(zhuǎn)音頻合成技術(shù)更是在保真度與實時性上達到行業(yè)領(lǐng)先水平,可應(yīng)用于影視制作、虛擬現(xiàn)實等多個領(lǐng)域。
作為全球信號處理領(lǐng)域最具影響力的學(xué)術(shù)會議之一,ICASSP 2026將于今年5月在西班牙巴塞羅那舉行。會議組委會特別指出,小米提交的論文在創(chuàng)新性、技術(shù)深度及產(chǎn)業(yè)化潛力等方面均表現(xiàn)出色,其研究成果有望推動智能設(shè)備聲學(xué)交互體驗的全面升級。此次入選也延續(xù)了小米近年來在AI領(lǐng)域的技術(shù)攻勢,此前該公司已在語音識別、計算機視覺等領(lǐng)域取得多項突破。















