科极网(科技网)-中国领先的新锐科技媒体,最具商业价值和影响力的科技资讯,科技新闻,科技网,科技博客,引领科技潮流_中国科技资讯门户网站

热门搜索: 苹果  苹果  魅族
您的位置: 主页 > 新闻> 正文

Soul张璐团队推出 SoulX-LiveAct,在实时流式生成与长时一致性上实现突破

Soul张璐团队推出SoulX-LiveAct,在实时流式生成与长时一致性上实现突破Soul张璐团队推动实时数字人生成迈向长时稳定,发布开源模型SoulX-LiveAct近日,SoulApp创始人张璐带领的A

Soul张璐团队推出 SoulX-LiveAct在实时流式生成与长时一致性上实现突破

Soul张璐团队推动实时数字人生成迈向长时稳定发布开源模型 SoulX-LiveAct

近日,Soul App创始人张璐带领的 AI团队(Soul AI Lab)发布了一项新的实时数字人生成方案——开源模型SoulX-LiveAct。通过对自回归扩散(AR Diffusion)范式的系统性优化,该模型使实时数字人生成从“可运行”进一步迈向“可长期稳定运行”。这一进展不仅回应了行业在长视频生成中的关键挑战,也为数字人技术的实际应用提供了更加可行的路径。

在既有技术体系中,AR diffusion 虽具备流式生成能力,但在长时间运行时常面临显存增长与稳定性下降的双重问题。随着生成时长增加,传统 KV cache 机制需要不断累积历史信息,导致显存占用线性上升,从而影响生成质量。SoulX-LiveAct从条件传播方式与历史记忆管理两个层面入手,对这一问题进行了结构性改进,使模型在长时间运行中依然能够保持稳定表现。

在实时性能方面,SoulX-LiveAct在512×512分辨率条件下,仅需2张H100/H200即可实现20 FPS的实时流式推理能力,端到端延迟约为0.94秒。同时,其单帧计算成本降低至27.2 TFLOPs / frame,在兼顾实时性的同时有效控制算力消耗。这一性能表现为模型在实际部署中的成本控制提供了更具可行性的参考。

上述性能的实现,主要依托于Neighbor Forcing与ConvKV Memory两项核心机制。Neighbor Forcing通过在自回归过程中对齐同一扩散步的上下文信息,使模型在上下文与当前预测保持在一致的噪声语义空间,从而降低跨步传播带来的分布偏差问题。相比传统方法,该机制有助于模型更好地捕捉稳定的时序关系。

与此同时,ConvKV Memory对历史信息进行了分层处理:短期记忆保留高精度信息,以保证局部细节与连续性;长期记忆则通过轻量卷积进行压缩,把历史信息压缩进固定长度表示。这种“精确+压缩”的组合方式,使模型在维持全局一致性的同时避免显存无限增长。此外,模型还通过RoPE Reset机制对位置编码进行对齐,进一步缓解长序列中的位置漂移问题。

在训练策略上,SoulX-LiveAct强调与推理过程的一致性。模型在训练阶段即引入与推理相同的记忆机制与上下文组织方式,使其能够在压缩历史信息的条件下仍保持稳定表现。同时,通过对连续chunk的构造,模拟长时生成过程中的误差积累与修正,使模型具备应对长序列不稳定因素的能力。

从评测结果来看,SoulX-LiveAct在多个指标上体现出较为均衡的表现。在HDTF数据集上,其Sync-C达到9.40,Sync-D为6.76,同时在分布相似性指标上达到10.05 FID与69.43 FVD,并在VBench中取得97.6的Temporal Quality与63.0的Image Quality,VBench-2.0中的Human Fidelity达到99.9。在EMTD数据集上,其Sync-C为8.61,Sync-D为7.29,同时在VBench中达到97.3的Temporal Quality与65.7的Image Quality,Human Fidelity为98.9。这些结果反映出模型在口型同步、动作表达以及整体一致性方面的综合能力。

在应用层面,SoulX-LiveAct的特性使其适用于多种需要长时间在线运行的场景。例如,在数字人直播、AI教育、知识付费及播客录制等场景中,模型能够支持持续输出稳定内容。在开放世界交互环境中,角色需要在长时间内保持语言与动作的一致性,该模型在全身动作与表情表达方面的能力,使其具备支持此类场景的基础条件。

SoulX-LiveAct在长时稳定性与实时性能上的改进,为实时数字人技术提供了更具工程可行性的解决方案。通过持续推进开源,Soul 张璐团队为开发者与行业提供了多样化的技术选择,使不同硬件条件与应用需求下的开发实践具备更多可行路径。

来源:
推荐图文

全站头条

广告也精彩