首页 抖音推荐文章正文

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

抖音推荐 2025年09月29日 06:03 1 cc

在阅读此文之前,辛苦您点击一下“关注”既方便您进行讨论和分享,又能给您带来不一样的参与感,,感谢您的支持!

编辑:康康

过去,具身智能(智能体通过身体与环境的动态交互实现自主学习和进化)的赛道上,所有玩家都面临一两难处境:想追求真实感就得多花钱,想省钱质量又太差。

大家不是没想过办法。换了新的渲染技术、重新打光、上了新材质,看起来是好起来了,可开销大到让人望而却步。但凡放点水,视频里恼人的闪烁和跳变又让人抓狂。

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

如此一来,效果、稳定、成本,这似乎成了一个无解的不等式。

然而,就在全行业抓狂之时,中科院自动化所张兆翔教授团队的TC-Light却突然横空出世,在全球AI科技领域再次掀起一股飓风。

那么张兆翔教授团队是如何平衡那看似无解的三大核心要素?

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

聪明的懒人先抄作业

TC-Light的第一步棋,走得相当务实,甚至可以说是“聪明地偷懒”。它没有从零开始构建一个庞大的新模型,而是选择站在巨人的肩膀上,把业界已经验证过的顶尖技术拿来,做了一次巧妙的整合。

这套方案的基座,融合了两个明星项目的DNA。一个是图像重渲染领域的SOTA模型IC-Light,它保证了单帧画面的处理能力和效果底线。

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

另一个则是视频生成模型VidToMe,它的核心优势在于懂得如何高效处理视频序列——通过在自注意力模块前后,把不同帧里相似的信息块聚合起来处理再拆分回去,大大降低了计算量,提升了效率。

简单说,就是把最会画画的手,嫁接到最会省力的身体上。但这还不够,真正的点睛之笔在于对一个叫Slicedit的技术进行了魔改。

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

Slicedit的思路很有趣,它把视频看成一堆XY平面的图像,再从侧面“切”出另一堆YT平面的时空切片。TC-Light借用了这个想法,并引入了一个名为“DecayedMulti-AxisDenoising”的关键模块。

这个模块厉害在它在去噪时,一组指令让AI按照新的文本要求去渲染,另一组则用空指令,让AI尽量保持原视频的动态。然后,它并不粗暴地把两者混合,而是先对这两组噪声的统计特性做个“对齐”,让它们在风格上先统一,避免冲突。

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

更绝的是,它还加了个“衰减”机制。随着去噪步骤的推进,从时空切片(也就是原视频光影信息)里来的那部分噪声权重会指数级下降。

这就好比一个画家临摹,刚开始会多看几眼原作,找到骨架,但越到后期越要发挥自己的创意,不能被原作的细节束缚。这样一来,既利用了原视频的运动信息,又巧妙地摆脱了原视频光影纹理的“污染”,为后续的精细化调整打下了坚实的基础。

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

两分钟快充效果拉满

如果说第一步是打好地基,那接下来这套“先粗后精”的两阶段优化流程,就是TC-Light真正的杀手锏。它彻底绕开了传统方案那种动辄需要十几分钟甚至半小时进行3D重建的笨重路径,用一种极其轻量化的方式,实现了堪称“质变”的效果飞跃。

初步渲染的结果虽然不错,但细看之下,光照和纹理在时间线上还是会有一些不和谐的跳变。第一阶段优化,目标就是快刀斩乱麻,解决最扎眼的全局问题。研究团队给每一帧画面都引入了一个“外观嵌入”的调节器,用来统一整体的曝光和色调。

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

同时,他们还借助光流信息——也就是像素在前后帧之间的运动轨迹——来约束帧间的动态一致性。这些光流信息既可以由仿真器直接提供,也可以通过一个叫MemFlow的工具快速估算出来。整个过程行云流水,处理一个300帧、960x540分辨率的视频,在A100显卡上仅仅需要几十秒。

但这只是开胃菜,真正让效率实现数量级提升的是第二阶段的细节精调。这里的核心思想是一次漂亮的“降维打击”。团队没有去优化海量的视频像素,而是先将整个视频快速压缩成一个极其精简的码本,他们称之为“UniqueVideoTensor”。

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

这个压缩过程非常聪明。它不像传统方法那样只根据颜色相似性来聚类,而是结合了光流和像素的空间位置信息,为每个像素分配码本里的索引。

这意味着,时空上有关联的像素,在码本里也是“邻居”。这么一来,优化对象就从庞大的视频本身,变成了一个小巧且蕴含时空信息的码本。

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

接下来,所有的优化都围绕这个码本进行。同时,为了确保在提升一致性的同时不“画蛇添足”,还加上了两个辅助的约束:一个叫TVLoss,用来抑制可能产生的噪点。

另一个叫SSIMLoss,用来确保优化后的画面结构和第一阶段的结果保持相似。整个精调过程,处理同样规格的视频,也仅仅花费大约2分钟。相比NeRF或3DGS方案动辄半小时的训练时间,这简直是火箭般的速度。

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

是骡子是马拉出来遛遛

当然了,理论说得再天花乱坠,最终还是要看实际效果。TC-Light团队显然也深谙此道,他们设计了极其严苛且全面的实验来验证自己的成果。

首先是场景的广度。他们从多个主流的自动驾驶和机器人数据集中,包括CARLA、Waymo、AgiBot-DigitalWorld以及DROID,收集了整整58个包含复杂剧烈运动的长视频序列。这些场景覆盖了从城市街道到室内环境的各种挑战,足以证明TC-Light的普适性。

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

其次是评估的深度。团队还使用了带有真值的VirtualKITTI数据集进行测试。这意味着AI渲染的结果可以直接和“标准答案”进行像素级的比较,通过CLIP-T、SSIM、LPIPS这些客观量化指标,来评判谁做得更逼真、更稳定。

结果不出所料,无论是在哪个数据集上,TC-Light都在重渲染效果、时序一致性和计算开销这三个关键维度上,取得了最佳的平衡。

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

更有说服力的是可视化的直接对比。在放出的Demo视频中,可以看到Slicedit等算法有时会出现不自然的光影效果,而TC-Light则过度平滑。一些追求效率的方法会产生模糊失真的问题,TC-Light的画面则始终保持锐利。

即便是作为其技术基础的IC-Light和VidToMe,单独使用时也无法避免时序上的跳变和闪烁,而TC-Light则完美地解决了这些问题。

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

结语

回过头来看,TC-Light的成功,并非源于某个单一的、颠覆性的理论突破,而是一次工程思维的彻底胜利。

它向我们展示了,在AI技术快速迭代的今天,如何通过务实的“基础继承+核心优化”组合策略,去解开那些看似无解的产业难题。

它没有陷入对单一指标的极致追求,而是像一位经验丰富的工程师,精确地计算着每一分成本与收益,最终找到了那个让质量、一致性与成本三者和谐共存的“甜点区”。

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

随着论文、代码、项目主页和视频Demo的全面公开,TC-Light已经不仅仅是一项优秀的研究成果,它更是一个即插即用的强大工具。

它的出现,无疑将为身处数据瓶颈的具身智能领域注入一剂强心针,让Sim2Real和Real2Real的数据增强变得前所未有的高效和廉价,从而加速整个AI产业的进化步伐。

发表评论

德业号 网站地图 Copyright © 2013-2024 德业号. All Rights Reserved.