京東開源240億參數(shù)JoyAI-Image-Edit，圖像編輯邁入空間智能新紀元

發(fā)布時間：2026-04-12 15:02 來源：快訊作者：周偉

當多數(shù)圖像生成工具還在平面修圖的層面徘徊時，京東推出的開源模型JoyAI-Image-Edit已將技術推向空間智能的新維度。這款模型突破了傳統(tǒng)AI對空間關系的模糊處理，能夠精準理解三維場景中的物體位置、遮擋關系和光影邏輯，為圖像編輯領域帶來革命性變革。

傳統(tǒng)圖像AI在處理空間任務時常出現(xiàn)透視錯亂、物體漂浮等低級錯誤。例如調(diào)整家具位置時，沙發(fā)可能脫離地面；改變拍攝角度時，墻壁會出現(xiàn)扭曲變形。這些缺陷源于模型缺乏對真實三維世界的理解，僅能機械組合像素而無法把握空間邏輯。京東研發(fā)團隊通過將空間智能融入模型底層架構(gòu)，使系統(tǒng)能夠像人類一樣感知場景深度和物體關系。

該模型采用創(chuàng)新性的雙模態(tài)耦合設計，將80億參數(shù)的多模態(tài)語言模型與160億參數(shù)的擴散Transformer深度整合。這種架構(gòu)使空間指令解析與圖像生成形成閉環(huán)——當用戶要求"將相機右移30度"時，系統(tǒng)不僅調(diào)整視角，還會自動修正新視角下的遮擋關系和光影變化。測試數(shù)據(jù)顯示，在復雜場景的視角轉(zhuǎn)換任務中，其生成的圖像空間一致性比同類模型提升47%。

在電商領域，這項技術展現(xiàn)出巨大應用價值。品牌商可通過單一產(chǎn)品圖自動生成數(shù)十種展示視角，無需重新拍攝或人工修圖。某家居品牌實測顯示，使用該模型后新品上架效率提升3倍，視覺素材成本降低65%。模型支持物體旋轉(zhuǎn)、相機移動等15類編輯操作，能精準控制每個物體的空間位置，甚至可生成符合物理規(guī)律的動態(tài)序列。

具身智能領域成為另一個重要應用場景。在機器人訓練中，系統(tǒng)可根據(jù)自然語言指令生成海量合成數(shù)據(jù)。當要求"機器人左手舉起"時，模型不僅調(diào)整機械臂姿態(tài)，還會保持背景環(huán)境合理性，生成符合物理規(guī)則的動作序列。這種數(shù)據(jù)生成能力有效解決了機器人訓練的數(shù)據(jù)瓶頸問題，為實體智能設備落地提供關鍵支持。

技術實現(xiàn)層面，研發(fā)團隊構(gòu)建了包含空間理解數(shù)據(jù)、長文本渲染數(shù)據(jù)和編輯數(shù)據(jù)的多階段訓練體系。通過可擴展的數(shù)據(jù)流水線，模型同時具備空間推理和通用編輯能力。在橫向評測中，其相機控制精度比主流模型提高32%，物體空間關系處理準確率達91%，特別在復雜場景的透視保持方面表現(xiàn)突出。

京東選擇Apache 2.0協(xié)議開源該模型，提供完整的推理代碼和模型權(quán)重。開發(fā)者可在GitHub、Hugging Face等平臺獲取資源，并基于Diffusers格式進行二次開發(fā)。這種開放策略使中小團隊也能利用先進的空間智能技術，推動整個行業(yè)的技術普惠。目前已有超過200家企業(yè)申請商用授權(quán)，涵蓋電商、設計、機器人等多個領域。

在AI技術競爭日益激烈的背景下，京東的差異化路線引人注目。不同于追求參數(shù)規(guī)模的軍備競賽，該公司將技術扎根于零售、物流等實體場景，通過解決真實產(chǎn)業(yè)問題實現(xiàn)價值創(chuàng)造。從基礎大模型到數(shù)字人，再到具身智能數(shù)據(jù)中心，其技術布局始終圍繞供應鏈優(yōu)化展開。這種務實策略或許預示著AI發(fā)展的新方向——讓技術回歸服務實體經(jīng)濟的本質(zhì)。

更多>同類內(nèi)容