在2025年科大訊飛全球1024開(kāi)發(fā)者節(jié)上,一位名為“小飛”的數(shù)字人成為全場(chǎng)焦點(diǎn)。這位具備多模態(tài)超擬人交互能力的數(shù)字人,不僅能聽(tīng)會(huì)看、精準(zhǔn)識(shí)別對(duì)話(huà)者身份,還能根據(jù)歷史對(duì)話(huà)提供個(gè)性化提醒,甚至支持一鍵訂票、外語(yǔ)交流等復(fù)雜功能。更令人驚嘆的是,當(dāng)它化身數(shù)字人林黛玉時(shí),清麗的形象與惟妙惟肖的語(yǔ)氣,讓在場(chǎng)觀(guān)眾仿佛穿越時(shí)空。
在多人對(duì)話(huà)場(chǎng)景中,“小飛”展現(xiàn)出強(qiáng)大的環(huán)境適應(yīng)能力。通過(guò)融合語(yǔ)音、人臉、姿態(tài)等多維度信息,系統(tǒng)能精準(zhǔn)鎖定說(shuō)話(huà)人位置,即使身處5米外的嘈雜環(huán)境,也能實(shí)現(xiàn)0dB遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別。其獨(dú)創(chuàng)的說(shuō)話(huà)人引導(dǎo)注意力增強(qiáng)方案,可對(duì)交互區(qū)域進(jìn)行細(xì)粒度視覺(jué)分析,配合局部檢索增強(qiáng)技術(shù),即便在遠(yuǎn)場(chǎng)條件下也能精準(zhǔn)識(shí)別物體細(xì)節(jié)。這種技術(shù)突破,讓數(shù)字人真正具備了“耳聰目明”的感知能力。
認(rèn)知層面的革新同樣顯著。基于對(duì)話(huà)歷史與語(yǔ)音活動(dòng)狀態(tài)分析,系統(tǒng)能準(zhǔn)確判斷交互時(shí)機(jī)與用戶(hù)意圖,在多人對(duì)話(huà)中既不會(huì)“搶答”也不會(huì)“冷場(chǎng)”。更值得關(guān)注的是其情感解析能力,通過(guò)分鐘級(jí)情緒識(shí)別技術(shù),數(shù)字人能深度共情對(duì)話(huà)者的真實(shí)心緒,在某次演示中,當(dāng)用戶(hù)提及工作壓力時(shí),“小飛”不僅調(diào)整了回復(fù)語(yǔ)氣,還主動(dòng)推薦了附近的減壓場(chǎng)所。
表達(dá)層面的溫度感源于技術(shù)創(chuàng)新。多情感語(yǔ)音合成技術(shù)通過(guò)上下文信息建模,能感知對(duì)話(huà)中的情感變化,并自適應(yīng)調(diào)整合成聲音的情緒語(yǔ)氣。在演示中,當(dāng)用戶(hù)連續(xù)詢(xún)問(wèn)天氣與交通狀況時(shí),數(shù)字人的回復(fù)從平和逐漸轉(zhuǎn)為關(guān)切,語(yǔ)音節(jié)奏與停頓也相應(yīng)變化。這種自然流暢的交互體驗(yàn),得益于分層式動(dòng)態(tài)記憶體架構(gòu),該架構(gòu)可實(shí)現(xiàn)長(zhǎng)短期記憶協(xié)同,使數(shù)字人既能記住用戶(hù)偏好,又能進(jìn)行邏輯推理。
技術(shù)突破的背后,是扎實(shí)的產(chǎn)業(yè)積累。科大訊飛自主研發(fā)的星火大模型為數(shù)字人提供了認(rèn)知理解基礎(chǔ),而其在語(yǔ)音、自然語(yǔ)言處理領(lǐng)域的全棧技術(shù)積累,則構(gòu)建了交互系統(tǒng)的基石。此前,訊飛AI虛擬人交互平臺(tái)已通過(guò)中國(guó)信通院最高等級(jí)L5認(rèn)證,這為其參與國(guó)際標(biāo)準(zhǔn)制定提供了關(guān)鍵依據(jù)。在瑞士日內(nèi)瓦召開(kāi)的ITU-T SG21全體會(huì)議上,由科大訊飛與中國(guó)信通院共同編輯的兩項(xiàng)數(shù)字人國(guó)際標(biāo)準(zhǔn)順利結(jié)項(xiàng),標(biāo)志著中國(guó)技術(shù)實(shí)踐正式成為全球產(chǎn)業(yè)規(guī)范。
技術(shù)價(jià)值最終要體現(xiàn)在應(yīng)用場(chǎng)景中。訊飛智作平臺(tái)已構(gòu)建超10萬(wàn)數(shù)字分身與500萬(wàn)聲音復(fù)刻庫(kù),覆蓋教培、金融、文旅等領(lǐng)域。某銀行客戶(hù)通過(guò)該平臺(tái)生成的數(shù)字員工,不僅能準(zhǔn)確解答業(yè)務(wù)問(wèn)題,還能根據(jù)客戶(hù)情緒調(diào)整溝通策略,使咨詢(xún)轉(zhuǎn)化率提升37%。而訊飛AI虛擬人交互平臺(tái)則提供軟硬一體化解決方案,其智能交互機(jī)已部署在200余個(gè)政務(wù)服務(wù)中心,日均服務(wù)量突破10萬(wàn)人次。
從技術(shù)突破到標(biāo)準(zhǔn)制定,再到場(chǎng)景落地,科大訊飛在數(shù)字人領(lǐng)域構(gòu)建了完整生態(tài)鏈。這種閉環(huán)發(fā)展模式正在產(chǎn)生連鎖反應(yīng):在文旅場(chǎng)景中,數(shù)字導(dǎo)游可同時(shí)服務(wù)50名游客;在醫(yī)療領(lǐng)域,虛擬護(hù)士能24小時(shí)監(jiān)測(cè)患者狀態(tài);在教育場(chǎng)景,AI教師可實(shí)現(xiàn)個(gè)性化教學(xué)。隨著技術(shù)持續(xù)進(jìn)化,數(shù)字人正在從交互工具進(jìn)化為真正的智能伙伴。















