大象新闻记者 李莉 张迪驰
6月3日,京东通告开源JoyAI-Echo长音视频生成框架。JoyAI-Echo惩处了行业三大痛点:变装难踏实一致、音色变化难放手、视频生成速率慢,杀青了长视频生成“又快又好”。此外,JoyAI-Echo的“边聊边改”模式,让视频创作从 "静态生成" 形成 "动态结合"。
幸运彩app2026世界杯中国官方下载
JoyAI-Echo在种种视频创作、数字东说念主直播、品牌营销、锻真金不怕火和游戏本色分娩等规模有弘大的愚弄后劲,它的推出,象征着京东在长视频生陋习模杀青要紧突破,进入专家第一梯队。
四大期间翻新 惩处长视频生成三浩劫题
在AI视频规模,十几秒短视频的生成质料越来越熟谙,但行业头疼的瓶颈也曾存在:难以向分钟级长视频突破。AI视频一但拉到这一时长,就会出现以下问题:合并个变装,在不同镜头里长得不通常;语言东说念主的音色忽高忽低以至倏得变声;生成速率慢到离谱,等几分钟以至半小时才气出终局。
以上问题,径直导致 AI 长视频停留在 "玩物" 阶段,很难着实参加分娩、创造价值。JoyAI-Echo 的出现,透顶糟蹋这个僵局。JoyAI-Echo 有四项期间翻新:
一是跨模态音视频追想库,让变装再也不 "变脸"。这亦然JoyAI-Echo 最要津的突破。模子框架内置了一个挑升的追想库,能在多镜头生成过程中,握续保存并调用变装的外不雅特征和语言东说念主音色信息。在长达 5 分钟的视频里,变装身份、视觉形象和声息音色王人能保握高度一致,再也不会出现 "合并个东说念主演着演着形成另一个东说念主" 的烦扰情况。
二是追想运转后执行,速率径直提高 7.5 倍。研发团队翻新提倡了追想运转后执行经由,鸠合 SFT、跨模态 RLHF 和 Distribution Matching Distillation(DMD)期间,大幅提高了生成质料,更杀青了惊东说念主的推理加快。
其中,仅 DMD 一项期间就带来了约 7.5 倍的速率提高,让长视频生成从 "等半天" 形成 "秒出片"。
三是加入智能 "导演助理"——Director Agent,凤凰彩票中国官网入口让长视频第一次杀青 "对话式裁剪"。JoyAI-Echo 不再是 "输入教导词,一次性出终局" 的传统器具。你用当然语言说需求,它会自动帮你拆分红脚本、变装、场景和镜头。那里恼恨奋,径直用对话的形式告诉它修改,它只从头生成有问题的局部镜头,无谓重跑整条视频,让长视频创作从 "静态生成" 形成了 "动态结合"。
四是轻量化及时超分,高清输出不卡顿。为了霸道专科本色分娩的需求,JoyAI-Echo 配套了挑升的及时超分模块,撑握两档远隔率提高(736×1280 → 1152×1920,736×1280 → 1472×2560)。模块通过单步超分就能生成高远隔率视频和淡雅化音频,即使在流式延伸的敛迹下,也能保握踏实的高清进展。
各相貌的全面跨越行业 “AI 长视频期间"到来
为了客不雅评估 JoyAI-Echo 的性能,研发团队基于 100 个故事、3000 个镜头构建了长音视频生成评测集,从多个维度进行了全面测试。终局浮现,JoyAI-Echo 在跨镜头一致性、视频质料、文本一致性和语音本色准确率等统共中枢主义上王人赢得了跨越进展,其汉文音本色准确率更是高达0.8646,大幅跨越行业其它同类模子。
在与行业同类模子对比中,用户以为JoyAI-Echo音频质料偏好的比例为81.7%,教导词校服偏好为80.6%,视觉好意思学偏好为63.6%,IP 一致性偏好为59.4%。
JoyAI-Echo 的推出凤凰彩票中国官网入口,意味着AI 视频生成的 "长视频期间"来了。它为造谣故事创作和动漫制作、数字东说念主本色分娩和直播、品牌营销视频快速迭代、互动锻真金不怕火课件生成等规模带来了全新可能,将大幅优化行业本钱恶果。JoyAI-Echo也预示着明天东说念主类不错像聊天通常,握续创作、修改和完善长视频本色,让高一致性、高画质、可交互的视频生成,着实走进每一个本色创作家的责任经由。
