京東JoyAI-Image-Edit圖像模型開源，引領(lǐng)AI圖像編輯進(jìn)入三維空間新時(shí)代

發(fā)布時(shí)間：2026-04-08 03:01 來源：快訊作者：趙靜

在AI圖像編輯領(lǐng)域，傳統(tǒng)模型長期面臨空間邏輯混亂的瓶頸：移動(dòng)物體時(shí)出現(xiàn)幾何變形、視角切換時(shí)場景結(jié)構(gòu)斷裂、調(diào)整物體層次時(shí)遮擋關(guān)系錯(cuò)亂。京東探索研究院近日推出的開源模型JoyAI-Image-Edit，通過構(gòu)建三維空間理解體系，實(shí)現(xiàn)了從平面修圖到空間重塑的技術(shù)躍遷。該模型首次將空間智能深度融入圖像生成流程，在物體位移精度、多視角一致性等核心指標(biāo)上達(dá)到國際領(lǐng)先水平。

研發(fā)團(tuán)隊(duì)突破性構(gòu)建了空間理解數(shù)據(jù)與任務(wù)體系，涵蓋空間位置建模、相機(jī)參數(shù)感知、場景幾何推理等八大維度。通過創(chuàng)新的空間坐標(biāo)變換算法，模型可精準(zhǔn)控制物體在三維場景中的位移、旋轉(zhuǎn)和縮放，同時(shí)自動(dòng)維護(hù)光影一致性、遮擋合理性等物理規(guī)律。實(shí)驗(yàn)數(shù)據(jù)顯示，在物體移動(dòng)任務(wù)中，該模型的空間變形率較傳統(tǒng)方法降低82%，多視角圖像序列的幾何誤差控制在3%以內(nèi)。

該模型三大核心能力重新定義了AI圖像編輯范式：視角變換功能支持通過自然語言指令調(diào)整相機(jī)參數(shù)，在保持場景結(jié)構(gòu)完整的前提下生成新視角圖像；空間漫游技術(shù)可連續(xù)生成邏輯連貫的多視角序列，實(shí)現(xiàn)虛擬場景中的"自由行走"；物體關(guān)系操控允許用戶精準(zhǔn)調(diào)整特定物體的空間屬性，系統(tǒng)自動(dòng)優(yōu)化周邊元素的遮擋與光影關(guān)系。這些能力與15類通用編輯功能深度融合，形成覆蓋內(nèi)容創(chuàng)作全流程的解決方案。

在電商領(lǐng)域，該模型可自動(dòng)生成多角度商品展示圖，將傳統(tǒng)3D建模周期從72小時(shí)壓縮至8分鐘；在創(chuàng)意設(shè)計(jì)場景，設(shè)計(jì)師通過文本指令即可完成復(fù)雜場景的空間重組，創(chuàng)作效率提升5倍以上。特別在具身智能領(lǐng)域，模型提供的空間感知能力為機(jī)器人環(huán)境理解提供了關(guān)鍵技術(shù)支撐，相關(guān)應(yīng)用已在倉儲物流機(jī)器人中開展測試。

此次開源包含完整的模型架構(gòu)、訓(xùn)練代碼和推理引擎，開發(fā)者可基于現(xiàn)有框架快速構(gòu)建空間感知類應(yīng)用。配套發(fā)布的空間編輯工具包已集成至京東云平臺，支持一鍵部署和二次開發(fā)。與同期開源的JoyAI-LLM Flash大模型形成技術(shù)協(xié)同，京東正在構(gòu)建覆蓋文本、圖像、3D空間的多模態(tài)AI技術(shù)矩陣。

在產(chǎn)業(yè)應(yīng)用層面，京東云"龍蝦"系列產(chǎn)品憑借該模型的空間處理能力，實(shí)現(xiàn)智能圖像處理服務(wù)的周調(diào)用量增長455%。正在建設(shè)的全球最大具身數(shù)據(jù)采集中心，將通過該模型生成海量標(biāo)準(zhǔn)化空間數(shù)據(jù)，加速機(jī)器人視覺系統(tǒng)的訓(xùn)練優(yōu)化。這些布局彰顯了京東以空間智能為突破口，推動(dòng)AI技術(shù)深度融入實(shí)體經(jīng)濟(jì)的戰(zhàn)略決心。

更多>同類內(nèi)容