国产精品自拍视频在线-亚洲一区二区三区品视频-日本一区二区三区麻烦视频-国偷自产视频一区二区三区久-巨乳少妇av中文字幕-日韩最新免费中文字幕在线观看-成人污污污视频在线免费观看-污污污网站在线免费看-国产欧美高清在线观看视频

媒體界 - 推動(dòng)中國(guó)媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

雷軍宣布小米AI創(chuàng)新成果閃耀I(xiàn)CASSP 2026 涵蓋多領(lǐng)域技術(shù)突破

   發(fā)布時(shí)間:2026-01-23 06:02 作者:劉敏

近日,小米在人工智能領(lǐng)域取得重大突破,其多項(xiàng)AI創(chuàng)新成果成功入選全球音頻領(lǐng)域極具權(quán)威性與影響力的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議ICASSP 2026。ICASSP自1976年在美國(guó)費(fèi)城首次舉辦以來(lái),已有近50年歷史,此次會(huì)議將于今年5月在西班牙巴塞羅那舉行。小米入選的成果涵蓋音頻理解、音樂(lè)生成評(píng)估、通用音頻 - 文本預(yù)訓(xùn)練、視頻到音頻合成等多個(gè)AI領(lǐng)域。

在音頻理解領(lǐng)域,小米團(tuán)隊(duì)推出了ACAVCaps數(shù)據(jù)集。當(dāng)前主流音頻數(shù)據(jù)集存在“規(guī)模大但描述簡(jiǎn)略”或“描述詳盡但規(guī)模受限”的局限,ACAVCaps通過(guò)創(chuàng)新自動(dòng)化管線,從多維度、多視角對(duì)音頻內(nèi)容進(jìn)行精細(xì)化刻畫。它構(gòu)建了多級(jí)自動(dòng)化標(biāo)注框架,利用多個(gè)專家模型并行提取原始音頻中的聲音事件、音樂(lè)特征等關(guān)鍵元數(shù)據(jù),再引入大語(yǔ)言模型并采用思維鏈推理策略整合信息。該數(shù)據(jù)集包含約470萬(wàn)條音頻 - 文本對(duì),推動(dòng)音頻AI從“特征識(shí)別”向“語(yǔ)義理解”發(fā)展,且近期將全面開源。

音樂(lè)生成評(píng)估方面,小米提出了FUSEMOS雙編碼器架構(gòu)。現(xiàn)有自動(dòng)音樂(lè)感知評(píng)估方法依賴單一音頻編碼器,捕捉音樂(lè)復(fù)雜結(jié)構(gòu)與細(xì)粒度特征能力有限。FUSEMOS融合CLAP與MERT兩大預(yù)訓(xùn)練模型,CLAP強(qiáng)化音頻與文本語(yǔ)義對(duì)齊,MERT有效建模音樂(lè)內(nèi)在結(jié)構(gòu)特征。采用晚期融合策略,引入排名感知復(fù)合損失函數(shù),在Musiceval基準(zhǔn)上的實(shí)驗(yàn)表明,其在關(guān)鍵指標(biāo)上顯著優(yōu)于現(xiàn)有方法。

通用音頻 - 文本預(yù)訓(xùn)練領(lǐng)域,小米的GLAP模型實(shí)現(xiàn)了跨音頻領(lǐng)域(語(yǔ)音/音樂(lè)/環(huán)境音)與跨語(yǔ)言的音頻 - 文本對(duì)齊,支持RAG形式的音頻搜索。它首次通過(guò)單一框架同時(shí)優(yōu)化語(yǔ)音、音樂(lè)及聲音事件的檢索與分類性能,解決了傳統(tǒng)CLAP模型領(lǐng)域割裂的問(wèn)題。在語(yǔ)音檢索上成績(jī)優(yōu)異,還具備多語(yǔ)言泛化能力,無(wú)需目標(biāo)語(yǔ)種微調(diào),在50種語(yǔ)言的關(guān)鍵詞識(shí)別中展現(xiàn)Zero - shot能力。該模型可直接賦能小米“人車家全生態(tài)”中需跨模態(tài)理解的場(chǎng)景,降低下游產(chǎn)品線音頻AI研發(fā)門檻。

在視頻到音頻合成方面,MeanFlow模型為多模態(tài)音頻生成任務(wù)構(gòu)建高效基座模型,實(shí)現(xiàn)視頻同步音效生成場(chǎng)景中推理效率與生成質(zhì)量的雙重突破,還具備跨任務(wù)穩(wěn)定泛化能力。它首次在V2A任務(wù)中通過(guò)平均速度場(chǎng)建模替代傳統(tǒng)流匹配模型的瞬時(shí)速度建模,解決推理速度瓶頸,實(shí)現(xiàn)一步生成。引入標(biāo)量重縮放機(jī)制緩解失真問(wèn)題,實(shí)驗(yàn)驗(yàn)證其在推理速度大幅提升的同時(shí)保障音效生成質(zhì)量。該模型可直接賦能影視后期、短視頻平臺(tái)等實(shí)際場(chǎng)景,推動(dòng)實(shí)時(shí)音效生成技術(shù)規(guī)模化落地。

在檢索領(lǐng)域,小米提出統(tǒng)一多任務(wù)學(xué)習(xí)框架,解決傳統(tǒng)檢索中“找圖、找文、意圖理解”三個(gè)獨(dú)立訓(xùn)練模型的問(wèn)題。該框架將三個(gè)任務(wù)整合到兩個(gè)模型、一個(gè)架構(gòu)中,文本編碼器同時(shí)對(duì)齊圖像和文本語(yǔ)義空間,通過(guò)跨注意力機(jī)制與NLU模型進(jìn)行語(yǔ)義交互。此設(shè)計(jì)節(jié)省模型數(shù)量、降低系統(tǒng)內(nèi)存占用,增強(qiáng)模型間語(yǔ)義能力,支持多語(yǔ)言輸入,實(shí)現(xiàn)跨模態(tài)、跨語(yǔ)言高效語(yǔ)義對(duì)齊,為小米手機(jī)場(chǎng)景下的多模態(tài)檢索提供輕量化、高性能解決方案,在多個(gè)數(shù)據(jù)集上表現(xiàn)優(yōu)異。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新