蔡浩宇A(yù)I公司發(fā)力：LPM 1.0視頻大模型亮相探索虛擬世界新可能

發(fā)布時間：2026-04-11 15:11 來源：快訊作者：陳麗

近日，AI領(lǐng)域迎來一項重要突破——Anuttacon技術(shù)團隊發(fā)布了名為LPM 1.0的基于視頻的角色表演模型。該模型由24位研究人員共同參與開發(fā)，能夠?qū)崿F(xiàn)實時說話、唱歌、傾聽、反應(yīng)及表情生成，為角色對話、虛擬直播、游戲NPC等場景提供了全新的技術(shù)解決方案。

據(jù)介紹，LPM 1.0是面向單人全雙工音視頻對話的表演大模型，針對現(xiàn)有視頻生成模型在表現(xiàn)力、實時推理和長時身份穩(wěn)定性等方面的不足進行了針對性優(yōu)化。團隊構(gòu)建了以人為中心的多模態(tài)數(shù)據(jù)集，通過訓(xùn)練17B參數(shù)的Base LPM并蒸餾為低延遲流式的Online LPM，實現(xiàn)了無限時長下身份一致的實時視頻生成與細膩擬人化表演。團隊還打造了首個交互角色表演基準LPM-Bench，在各項評估中取得領(lǐng)先成果，為對話代理、直播角色和游戲NPC提供了通用視覺引擎。

從技術(shù)實現(xiàn)來看，LPM 1.0支持多模態(tài)輸入，用戶可通過1張圖片、可選參考圖片、音頻及文本生成角色表演視頻。模型采用全局外觀參考、多視角身體圖像與面部表情參考素材等多維度身份穩(wěn)定要素，有效規(guī)避了牙齒、表情紋路等細節(jié)的錯誤生成問題。同時，該模型無需微調(diào)即可支持寫實、2D動漫、3D游戲及非類人生物等不同角色風格，展現(xiàn)出強大的泛化能力。

在互動體驗方面，LPM 1.0支持全雙工實時對話，雙方可同時說話、傾聽并隨時打斷，模型會通過停頓、身體節(jié)奏和目光轉(zhuǎn)移等細節(jié)增強真實感。非對話場景中，角色獨處時也會展現(xiàn)自然的呼吸節(jié)奏和情感表達。與同類技術(shù)相比，LPM 1.0在視覺忠實度、口型精準度、身份保護及自然感等方面表現(xiàn)突出，且支持任意長度內(nèi)容生成，突破了Kling-Avatar 2.0和OmniHuman 1.5等模型30秒的時長限制。

盡管技術(shù)優(yōu)勢顯著，但Anuttacon團隊目前并無公開模型權(quán)重、源代碼或在線演示的計劃。此次發(fā)布主要用于展示研究進展，供學(xué)術(shù)交流使用。不過，這一動作被解讀為團隊擴大AI人才招聘的信號。據(jù)悉，Anuttacon由米哈游創(chuàng)始人蔡浩宇創(chuàng)辦，其技術(shù)探索方向與米哈游在AI領(lǐng)域的布局密切相關(guān)。例如，米哈游此前已在《崩壞：星穹鐵道》中嘗試應(yīng)用AI工具管理角色行為、優(yōu)化3D建模及生成NPC臺詞，并計劃通過AI驅(qū)動實現(xiàn)“對話永不重復(fù)的智能NPC”。

米哈游的AI布局不僅限于游戲開發(fā)。2025年，該公司發(fā)布崩壞IP項目組AI專項招募計劃，聚焦“AI驅(qū)動提效”與“AI驅(qū)動創(chuàng)新”，已搭建AI Agent平臺Echo及多個游戲開發(fā)管線應(yīng)用。米哈游三位創(chuàng)始人還通過捐贈助力上海交通大學(xué)“AI未來基石基金”，為技術(shù)人才儲備鋪路。從試驗性AI游戲《Whispers from the Star》到AI聊天產(chǎn)品AnuNeko，再到如今的LPM 1.0，米哈游的技術(shù)進化路徑逐漸清晰。其生活模擬新作《星布谷地》首次測試中已推出支持自由文字對話的AI NPC，進一步驗證了AI與游戲結(jié)合的可行性。

更多>同類內(nèi)容