人生就像是一道缓缓流淌的长河,年轻时风浪翻涌,到了六十岁,河水变得温柔安静。那个年纪的女人,早已褪去年轻时的浮躁和幻想,把生活过得细水长流,也终于明白...
2025-09-26 0
机器之心报道
机器之心编辑部
AI 视频生成行业天花板再次被拉高。
百度杀入 AI 视频生成赛道后,就一直加班加点卷个不停。
7 月初,百度第一次正式官宣蒸汽机 1.0 模型,以极致指令遵循能力惊艳亮相;8 月底,百度又发布全球首个中文音视频一体化模型百度蒸汽机 2.0,实现生成视频中人物口型、表情、动作的毫秒级同步。
而现在,距离上次发布仅短短一个月,百度蒸汽机 2.0 又迎来重磅升级,推出了行业首个通用 AI 长视频生成功能。
此次升级,百度蒸汽机不仅突破了 5 秒和 10 秒的生成时长限制,理论上可生成任意长度的长视频,还引入交互式需求表达功能,允许在生成过程中实时更新提示词。这意味着创作者可以随时调整视频内容,创作体验更为灵活高效。
长视频生成对 AI 模型提出了更高要求,模型需要具备对时间、空间的深度理解能力,同时要能精确控制信息密度和视觉连贯性,这一直是该领域的技术难点。
为延长视频时长,业内普遍采用「首尾帧续写」技术,或者视频延长的简单续写能力,虽然能勉强填补时长空白,但容易导致视频缺乏连贯性,画质和细节呈现不稳定,难以承载复杂的创作需求。同时首尾帧续写需要用户每个镜头上传图片以及提示词,一个镜头普遍 1-6 秒,生成几十秒成片可能需要 10 组以上图片和提示词描述,操作门槛非常高,且很难实现无限时生成。
与这一浅层技术方案不同,百度蒸汽机采用流式生成技术,用户只需输入图像和提示词,就能生成任意时长的视频,并可以在生成过程中随时调整提示词,实时续写内容或指定任意帧继续生成,用户无需复杂操作,只需要一张图 + 提示词,即可完成无限时视频生成。如果对于前面的内容不满意,可以马上暂停调整,不需要完整推理过程结束,区别于行业其他长视频技术能力,百度蒸汽机的长视频生成能力不仅仅大幅度提升了创作效率,还可以实现灵活、流畅的创作体验。
首尾帧续写长视频能力
百度蒸汽机流式生成长视频能力
百度蒸汽机的这次迭代升级,不仅是技术上的一次革新,也在商业应用层面带来新的可能性。创作者可以在短时间内完成高质量长视频制作,降低了创作成本,提高内容产出效率,为各行业内容创作提供了新的工具和商业价值。
在下面这段蒸汽机长视频生成的视频中,小鸭子划水、上岸等动作连贯流畅,没有出现卡顿或不自然的现象,水面的涟漪、小鸭子的羽毛等细节也都处理得细腻逼真。
提示词:小鸭子在水中嬉戏,有几只喝水,有几只划水,接下来排着队往前游,游到了岸边,拍打着小翅膀,往前边的草地上走去。
再比如,蒸汽机长视频模型还成功生成了一段西部牛仔风格视频,效果堪比电影大片。
该模型能够精准执行复杂的镜头运动与人物动作,在提示词的指引下,以一镜到底的方式呈现出牛仔走向马车、推门而入等场景转换。
镜头跟随、人物动作以及视角切换的衔接都很丝滑,尤其是在人物向前走和镜头右摇的场景中,模型能够精确控制镜头的角度与人物的位置变化,保持画面的自然过渡。
提示词:1-5s 镜头跟随,牛仔走向右方马车。6-10s 人物向前走,镜头跟随。11-15s 人物向前走,镜头跟随,右摇 16-20s 镜头跟随,牛仔推开门进去。
在另一段长视频中,蒸汽机 2.0 真实还原了水流的动态变化以及小纸船在水面上漂动的轨迹,画面没有任何破绽或失真的情况,细节把控也很到位。提示词:小纸船在小河里漂流。
本次百度蒸汽机还发布了首尾帧功能,支持用户提供首尾帧2张图片和提示词可完成图片的理解和5S视频生成,为创作者提供更便利的视频片段生成能力。
提示词:黄色折纸在工作台上逐步折叠,变形为彩色折纸猴,定格动画逐帧展现折纸过程,固定镜头。
我们只需上传首尾帧图片并输入提示词,蒸汽机 2.0 便能「脑补」出中间的剧情,实现完整的画面衔接。
比如一段电影风格的镜头中,平静的水面突然冒出三个全副武装、手持冲锋枪的士兵,生成的画面几乎可以以假乱真:
提示词:固定镜头,平静的水面荡起波纹,三个士兵慢慢露出水面,他警惕的看着四周。
还有这个动漫风格的镜头,即使二次元小姐姐转个圈也能保持前后人物一致性,角色面部不会崩坏:
提示词:镜头环绕着人物
首尾帧功能特别适用于延时摄影。蒸汽机生成了一段树木从秋季黄叶到冬季积雪的自然变化,季节过渡平滑自然,树叶飘落与雪花覆盖的细节也处理得很细腻。
提示词:固定镜头大延时摄影,天⽓变化到冬天,背景云雾变化。
在商业化场景中,百度蒸汽机还能制作各类广告大片。在下面的案例中,只见镜头慢慢拉远,光泽感十足的耳机被拿在手中,流线型的反射效果显得极具质感,生成的手部非常自然,手指与物体的衔接部分也毫无违和感。
提示词:耳机合上盖子,伸出一只手拿着耳机。
此外,百度蒸汽机在 8 月还率先推出「多人对话音视频一体化生成」能力,也是全球首个中文音视频一体化生成模型,该模型基于多模态信息的精准同步与自然交互,支持多角色自然对话,并保持高画质输出、大师级运镜。依托海量中文语料深度训练,中文语音细节还原度超 98%。
现在,所有用户都可以通过百度搜索、百度 APP 或访问「绘想」平台进行体验。
体验链接:https://huixiang.baidu.com
可交互长视频生成的难点在哪?
现阶段,AI 视频生成虽然发展迅猛,目前行业内视频生成均集中在 5s/10s,且由于视频生成多采用基于 transformer 的扩散模型,在生成时长和实时性方面仍然存在很大的局限(生成时间长,且生成成本随生成时长呈平长级膨胀,不支持实时生成也无法交互)。较短的视频在应用上主要在工具层面,集中在视频片段、视频素材制作上,而互动视频、直播场景对视频时长和实时性都提出了更高的要求。同时,可交互的长视频生成技术可能重塑人类与媒介的互动方式,从「被动消费」转向「共同创作」,甚至催生全新的艺术形式与商业模式。
挑战 1 :时长
长视频生成中存在长上下文记忆难题,模型需在长时间范围内有效保留和检索关键事件,同时避免信息崩溃或漂移。
遗忘的问题:模型在生成长视频时,难以长期记忆早期帧的内容,导致时间维度上存在不一致
漂移的问题:生成过程中误差逐帧累积,导致生成的视觉质量逐渐下降。随着生成时长的增加,简单续写的方式,累积误差问题逐渐加剧,生成视频质量不断衰减,主体一致性逐渐下降。
挑战 2 :成本
由于视频生成模型中 Transformer 的二次复杂度,导致计算成本随着视频生成时长呈平方级增长。直接训练或推理更长视频,对 GPU 显存和计算效率提出更高要求,成本膨胀严重。
蒸汽机的解法与思考:
从分治到全局,引入自回归扩散模型
结合自回归长序列能力和扩散一致性强的优点
1.引入长时间一致性建模技术,解决长的问题:连续性 + 一致性
动态缓冲区管理:通过「移动缓冲区」机制实时管理多帧画面,允许模型同时处理模糊草图、半完成帧与高精度画面,实现「边生成边调整」的实时交互。
独立噪声:基于时间步采样,为视频扩散模型的每一帧添加不同强度的噪声。根据噪声调度器曲线,每一个预测 chunk 被分配不同的噪声级别(与推理期间使用的噪声调度保持一致)
2.引入历史参考帧,保障片段生成与前序内容的连续性,让动作像「接力赛」一样流畅
「零」噪声片引入:Diffusion Forcing 给了我们启发,基于 noise as masking 的思路。训练过程中可直接将历史参考帧引入与生成目标帧一起训练,提升生成的连续性。
多样性与鲁棒性:进行历史帧的概率扰动,提升模型的自我纠错能力,缓解自回归模型的累积误差问题。
历史帧压缩:a) 按时间临近性、帧重要度进行采样,提升全局 history 对当前视频生成的有效控制。b) 注意力门控机制:模型根据当前帧内容动态选择相关历史帧进行参考,避免无关信息的干扰,提升记忆效率。
抗偏移的方法:在生成中同时生成首尾的部分帧,后续一起用来预测后续帧,逐步往后生成。
以上技术的突破让蒸汽机长视频生成能力变得更大,正如百度商业体系商业研发总经理刘林所表示的:长时一致性和实时性问题的解决,使得用户可以随时进行交互,并且在交互过程中,用户可以不断调整输入 prompt,直到生成自己满意的视频为止。
在中文场景适配层面,如前文所述,百度蒸汽机 2.0 在语音还原度上超过 98%,这对用户而言意味着可以获得更自然、更沉浸的交互体验。无论是在长视频配音、虚拟角色对白,还是个性化讲解,用户都能听到几乎与真人无异的中文表达。同时,高精度的语音还原也让情绪(如喜悦、惊讶)传递更加细腻。对于内容创作者而言,这不仅降低了后期配音和剪辑的门槛,还大幅提升了成品的质量与效率。
值得一提的是,百度蒸汽机 2.0 在画质和运镜上也不输专业团队。通过多条件协同建模,端到端人物生成,以及百万级专业运镜数据微调,从而实现电影级画质、大师级复杂运镜。这也意味着过去需要庞大团队与昂贵设备才能实现的镜头效果,如今只需一段提示即可完成。毫不夸张地说,百度蒸汽机 2.0 让人人都能拍电影成为可能。
可以看出,百度蒸汽机 2.0 此次升级,并不是单点突破,而是在多个维度优化与创新的结果,它不仅解决了传统视频生成中短时长、不连贯、缺乏叙事的痛点,还将专业团队级别的影像表现力带到普通创作者手中。
结语
前段时间,香港老牌电视台 TVB 掀起了一场「AI 风暴」。
他们推出了香港电视界首部全 AI 生成的青春爱情短剧《在我心中,你是独一无二》,从男女主角到剧情,再到场景,100% 由 AI 生成。由此可见,AI 技术在影视制作中有着巨大潜力和经济价值。
百度蒸汽机长视频能力的升级推出,则进一步推动了这一趋势。
作为行业首个通用 AI 长视频生成模型,蒸汽机打破了时长限制,实现了任意时长的长视频生成。这种跨越式提升,使得 AI 视频生成不再只是炫技式的片段演示,而是真正具备了内容生产力,既能满足广告、影视预演等专业场景的需求,也能为大众创作者释放出前所未有的创作自由度。
文中视频链接:https://mp.weixin.qq.com/s/9NHzO11CCdHIHpVd9c-kSg
相关文章
人生就像是一道缓缓流淌的长河,年轻时风浪翻涌,到了六十岁,河水变得温柔安静。那个年纪的女人,早已褪去年轻时的浮躁和幻想,把生活过得细水长流,也终于明白...
2025-09-26 0
一纸伪造的病历,竟成为贪腐罪犯逃避刑罚的“通行证”。本应在高墙内服刑的郝某某,凭借精心策划的尿毒症、严重心脏病等虚假诊断,长达四年非法逍遥于监外。检察...
2025-09-26 0
“上岸第一剑,先斩意中人”18 岁女孩奔赴北京,一天三份工只为供男友读书早上摊煎饼、中午打零工、晚上送外卖,7年下来女孩熬坏了身体但被女孩供应了本科四...
2025-09-26 0
2025年的北京,一位97岁的老人仍保持着每日读报的习惯。当阳光透过纱窗洒在泛黄的《机械工业年鉴》上,邹家华的手指总会轻轻抚过那些记载着中国工业变革的...
2025-09-26 1
机器之心报道机器之心编辑部AI 视频生成行业天花板再次被拉高。百度杀入 AI 视频生成赛道后,就一直加班加点卷个不停。7 月初,百度第一次正式官宣蒸汽...
2025-09-26 1
六旬老汉三个月打赏女主播50万?老伴儿一辈子吃苦受罪,女儿这回坚决支持父母离婚!一、一句话讲清楚河南周口一位62岁的何老汉,最近三个月把种地攒下的50...
2025-09-26 1
八国联军侵华时,有七个国家一心想瓜分中国,只有一个国家坚决反对,如今这个国家成了超级大国。有人猜这个国家是日本,也有人觉得是德国。那它到底是哪个国家?...
2025-09-26 2
乌克兰今年反攻卡壳,泽连斯基跑到联合国大会甩锅中国,说“北京给莫斯科递刀子”,话音没落,拜登又塞给他3.25亿美元军火,还夹带被禁的贫铀弹——这剧情比...
2025-09-26 2
发表评论