小米首席語音科學(xué)家Daniel Povey：AI演進(jìn)似生物進(jìn)化，開源是關(guān)鍵加速器

發(fā)布時(shí)間：2025-12-16 12:02 來源：快訊作者：陳陽

在近期舉辦的智能未來大會上，著名語音科學(xué)家Daniel Povey以獨(dú)特的視角，將AI技術(shù)發(fā)展與生物進(jìn)化過程進(jìn)行了深度類比，引發(fā)了與會者的廣泛關(guān)注。作為小米集團(tuán)首席語音科學(xué)家，他提出，AI技術(shù)的演進(jìn)路徑與生物進(jìn)化有著驚人的相似性，都遵循著不斷試錯(cuò)、篩選最優(yōu)解的底層邏輯。

Daniel Povey指出，AI“配方”的設(shè)計(jì)本質(zhì)上是一個(gè)持續(xù)迭代的過程。科研人員提出新理論、發(fā)布新論文，但最終能落地的往往是那些經(jīng)過實(shí)踐檢驗(yàn)的“配方”。這一過程與生物進(jìn)化中的自然選擇極為相似：生命體通過基因突變產(chǎn)生變異，環(huán)境則篩選出適應(yīng)度更高的個(gè)體。在AI領(lǐng)域，這種篩選機(jī)制體現(xiàn)在不同模型架構(gòu)的競爭與淘汰中，只有性能更優(yōu)的方案才能被廣泛采用。

他進(jìn)一步解釋，AI發(fā)展的節(jié)奏也與生物進(jìn)化的“間斷平衡”理論吻合。歷史上，生物進(jìn)化曾長期處于停滯狀態(tài)，直到某些關(guān)鍵突破引發(fā)劇變。例如，光合作用的出現(xiàn)徹底改變了地球生態(tài)。AI領(lǐng)域同樣存在類似現(xiàn)象：Transformer架構(gòu)的誕生，原本為語言模型設(shè)計(jì)，卻意外推動了計(jì)算機(jī)視覺、語音識別等多個(gè)領(lǐng)域的革新。這種跨領(lǐng)域的突破，正是AI技術(shù)實(shí)現(xiàn)躍遷的重要動力。

在談到技術(shù)演進(jìn)的速度時(shí)，Daniel Povey強(qiáng)調(diào)了開源的重要性。他以自身經(jīng)歷為例，2012年因工業(yè)界對開源的抵觸轉(zhuǎn)投學(xué)術(shù)界，而如今小米等企業(yè)積極擁抱開源文化，為他提供了理想的研究環(huán)境。他直言，若沒有開源，AI研究的速度可能降低千倍。開源社區(qū)的協(xié)作模式，使得研究人員無需重復(fù)造輪子，而是能站在前人的基礎(chǔ)上快速迭代，這種效率提升對技術(shù)突破至關(guān)重要。

對于AI的未來方向，他提出“通才”與“專才”的平衡策略。自然界中，熊貓等專才在穩(wěn)定環(huán)境中占據(jù)優(yōu)勢，而老鼠等通才則能在環(huán)境劇變時(shí)生存。AI領(lǐng)域同樣需要保留多種技術(shù)路線：一方面，利用Transformer等成熟架構(gòu)賦能現(xiàn)有產(chǎn)品；另一方面，投入資源探索未知方向，為下一個(gè)顛覆性技術(shù)儲備可能性。他透露，自己的團(tuán)隊(duì)正在研發(fā)名為Zapformer的通用聲音基座模型，旨在突破傳統(tǒng)語音識別的局限，實(shí)現(xiàn)從“人聲”到“萬聲”的跨越。

Daniel Povey坦言，探索性研究的成功率極低，但他堅(jiān)信“廣撒網(wǎng)”的策略終將有所回報(bào)。他以自身經(jīng)歷為例，早年提出的類似LayerNorm的歸一化模塊，雖未在當(dāng)時(shí)引起關(guān)注，卻為后續(xù)研究提供了靈感。這種對長期價(jià)值的堅(jiān)持，也體現(xiàn)在小米的AI戰(zhàn)略中：既通過SOTA級技術(shù)賦能“人車家全生態(tài)”，又支持團(tuán)隊(duì)在語音、模型架構(gòu)等領(lǐng)域開展前沿探索。在他看來，這種“雙軌制”是大公司在技術(shù)競爭中保持活力的關(guān)鍵。

更多>同類內(nèi)容