在人工智能領(lǐng)域的前沿探索中,小米團(tuán)隊(duì)近期取得多項(xiàng)突破性進(jìn)展,其多篇研究成果成功入選國際頂級會議ICLR 2026。這一會議以推動人工智能理論與方法創(chuàng)新為核心目標(biāo),小米團(tuán)隊(duì)的入選成果覆蓋多模態(tài)推理、強(qiáng)化學(xué)習(xí)、智能體交互、自動駕駛及音頻生成等關(guān)鍵方向,展現(xiàn)了該公司在AI技術(shù)全棧布局中的深厚積累。
針對強(qiáng)化學(xué)習(xí)領(lǐng)域長期存在的訓(xùn)練效率瓶頸,小米團(tuán)隊(duì)提出的《Shuffle-R1》框架通過動態(tài)重組數(shù)據(jù)流實(shí)現(xiàn)突破。該研究創(chuàng)新性引入成對軌跡采樣與優(yōu)勢值批次重排序技術(shù),有效解決了多模態(tài)大模型訓(xùn)練中的優(yōu)勢坍縮與軌跡沉默問題。實(shí)驗(yàn)數(shù)據(jù)顯示,在保持極低計(jì)算開銷的同時(shí),該框架在多個(gè)基準(zhǔn)測試中超越現(xiàn)有強(qiáng)化學(xué)習(xí)基線模型,為復(fù)雜場景下的智能決策提供了新范式。
在移動智能體交互領(lǐng)域,《MobileIPL》研究構(gòu)建了迭代偏好學(xué)習(xí)框架,通過Thinking-level DPO技術(shù)實(shí)現(xiàn)思考步驟的精細(xì)化優(yōu)化。其獨(dú)創(chuàng)的三階段指令演化機(jī)制突破了高質(zhì)量軌跡數(shù)據(jù)稀缺的制約,在AITZ等主流GUI-Agent測試中刷新性能紀(jì)錄。該成果特別在分布外場景中展現(xiàn)出顯著增強(qiáng)的魯棒性,為智能設(shè)備的人機(jī)交互提供了更可靠的解決方案。
端到端自動駕駛研究方面,《ReCogDrive》項(xiàng)目實(shí)現(xiàn)了多技術(shù)模塊的深度融合。研究團(tuán)隊(duì)通過分層認(rèn)知數(shù)據(jù)流水線注入駕駛領(lǐng)域知識,結(jié)合認(rèn)知引導(dǎo)擴(kuò)散規(guī)劃器生成物理可行軌跡,并首創(chuàng)DiffGRPO強(qiáng)化學(xué)習(xí)算法直接優(yōu)化駕駛策略。閉環(huán)測試表明,該方案在NAVSIM與Bench2Drive等平臺上的表現(xiàn)全面領(lǐng)先現(xiàn)有技術(shù)路線,為自動駕駛系統(tǒng)的認(rèn)知能力提升開辟了新路徑。
其他創(chuàng)新成果同樣引人注目:《ThinkOmni》研究實(shí)現(xiàn)了文本推理能力向視覺、語音等多模態(tài)的零成本遷移;《Flow2GAN》通過融合流匹配與對抗生成技術(shù),在保持音頻高保真度的同時(shí)將合成步數(shù)大幅壓縮;《WorldSplat》則突破4D動態(tài)駕駛場景生成技術(shù),為自動駕駛仿真測試提供更真實(shí)的虛擬環(huán)境。這些成果共同構(gòu)成了小米在人工智能領(lǐng)域的技術(shù)矩陣,彰顯其從基礎(chǔ)研究到應(yīng)用落地的全鏈條創(chuàng)新能力。















