近日,AI領(lǐng)域迎來一項重要突破——Anuttacon技術(shù)團隊發(fā)布了名為LPM 1.0的基于視頻的角色表演模型。該模型由24位研究人員共同參與開發(fā),能夠?qū)崿F(xiàn)實時說話、唱歌、傾聽、反應(yīng)及表情生成,為角色對話、虛擬直播、游戲NPC等場景提供了全新的技術(shù)解決方案。
據(jù)介紹,LPM 1.0是面向單人全雙工音視頻對話的表演大模型,針對現(xiàn)有視頻生成模型在表現(xiàn)力、實時推理和長時身份穩(wěn)定性等方面的不足進行了針對性優(yōu)化。團隊構(gòu)建了以人為中心的多模態(tài)數(shù)據(jù)集,通過訓(xùn)練17B參數(shù)的Base LPM并蒸餾為低延遲流式的Online LPM,實現(xiàn)了無限時長下身份一致的實時視頻生成與細膩擬人化表演。團隊還打造了首個交互角色表演基準LPM-Bench,在各項評估中取得領(lǐng)先成果,為對話代理、直播角色和游戲NPC提供了通用視覺引擎。
從技術(shù)實現(xiàn)來看,LPM 1.0支持多模態(tài)輸入,用戶可通過1張圖片、可選參考圖片、音頻及文本生成角色表演視頻。模型采用全局外觀參考、多視角身體圖像與面部表情參考素材等多維度身份穩(wěn)定要素,有效規(guī)避了牙齒、表情紋路等細節(jié)的錯誤生成問題。同時,該模型無需微調(diào)即可支持寫實、2D動漫、3D游戲及非類人生物等不同角色風格,展現(xiàn)出強大的泛化能力。
在互動體驗方面,LPM 1.0支持全雙工實時對話,雙方可同時說話、傾聽并隨時打斷,模型會通過停頓、身體節(jié)奏和目光轉(zhuǎn)移等細節(jié)增強真實感。非對話場景中,角色獨處時也會展現(xiàn)自然的呼吸節(jié)奏和情感表達。與同類技術(shù)相比,LPM 1.0在視覺忠實度、口型精準度、身份保護及自然感等方面表現(xiàn)突出,且支持任意長度內(nèi)容生成,突破了Kling-Avatar 2.0和OmniHuman 1.5等模型30秒的時長限制。
盡管技術(shù)優(yōu)勢顯著,但Anuttacon團隊目前并無公開模型權(quán)重、源代碼或在線演示的計劃。此次發(fā)布主要用于展示研究進展,供學(xué)術(shù)交流使用。不過,這一動作被解讀為團隊擴大AI人才招聘的信號。據(jù)悉,Anuttacon由米哈游創(chuàng)始人蔡浩宇創(chuàng)辦,其技術(shù)探索方向與米哈游在AI領(lǐng)域的布局密切相關(guān)。例如,米哈游此前已在《崩壞:星穹鐵道》中嘗試應(yīng)用AI工具管理角色行為、優(yōu)化3D建模及生成NPC臺詞,并計劃通過AI驅(qū)動實現(xiàn)“對話永不重復(fù)的智能NPC”。
米哈游的AI布局不僅限于游戲開發(fā)。2025年,該公司發(fā)布崩壞IP項目組AI專項招募計劃,聚焦“AI驅(qū)動提效”與“AI驅(qū)動創(chuàng)新”,已搭建AI Agent平臺Echo及多個游戲開發(fā)管線應(yīng)用。米哈游三位創(chuàng)始人還通過捐贈助力上海交通大學(xué)“AI未來基石基金”,為技術(shù)人才儲備鋪路。從試驗性AI游戲《Whispers from the Star》到AI聊天產(chǎn)品AnuNeko,再到如今的LPM 1.0,米哈游的技術(shù)進化路徑逐漸清晰。其生活模擬新作《星布谷地》首次測試中已推出支持自由文字對話的AI NPC,進一步驗證了AI與游戲結(jié)合的可行性。















