从特斯拉ICCV分享看未来：端到端自动驾驶的下半场将如何演绎？

抖音推荐 2025年12月22日 23:28 2 cc

Tesla AI副总裁Ashok在ICCV 2025的分享揭示了FSD V14背后的端到端架构如何突破自动驾驶领域的三大终极挑战：维度灾难、可解释性与评测壁垒。从20亿输入Token到2个输出Token的因果映射，到3D高斯重建与语言解释系统的结合，这场分享不仅展示了Tesla的技术深度，更预示了世界模型终局下自动驾驶的未来竞争格局。

Tesla AI副总裁Ashok在ICCV 2025的分享，不仅是FSD V14的技术预告，更是端到端（E2E）架构进入深水区后的实战复盘。对于行业而言，这次分享的价值在于它揭示了Tesla如何系统性地解决E2E面临的三大终极拷问：维度灾难、可解释性与评测壁垒。

视频：https：//www.youtube.com/watch？v=45wwLSWvgJg

01 回归第一性：Tesla的端到端哲学

从V12起，Tesla彻底转向“Photon In， Control Out”架构，这不仅是技术栈的重构，而是对传统级联（Modular）架构弊端的彻底清算。该架构的核心价值在于利用Scaling Law，通过移除规则代码减少了中间规则处理环节，使得模型训练的梯度能够从输出端无缝反向传播至感知端，从而实现模型各部分的整体协同优化。

此次分享中详细介绍了Tesla AI采用E2E方案解决自动驾驶问题的关键原因。

1.1规则无法穷尽的“价值博弈”

驾驶本质上是无数个微观“电车难题”的集合。Ashok举例：面对积水车道，是“压线绕行”还是“车道内涉水”？这种涉及安全与效率权衡的微妙价值判断，传统Rule-based代码根本无法完美定义。端到端的核心优势在于，它能从海量人类老司机的驾驶数据中，隐式学习到这种复杂的价值权衡（Value Judgement），而非依赖工程师写死在if-else里。

1.2接口定义的“信息熵减”

传统架构最大的痛点是感知与规控间的“接口瓶颈”。Ashok展示的“鸡与鹅”典型案例：感知模块输出的Bounding Box丢失了关键语义——“鸡在过马路（需等待）”与“鹅在路边发呆（可绕行）”的区别。传统接口导致的信息丢失是不可逆的，而端到端通过高维特征流（Latent Features）传递，保留了环境的完整语义，让决策模块能获取无损的“上帝视角”。

分段式自动驾驶功能模块间通过预设接口进行通信

左图：⼀群鸡正在过马路，自驾汽车能理解，等待最后⼀只鸡过马路之后再走

右图：⼀群鹅站在路边，自驾汽车理解完之后，决定绕行

1.3确定性与规模效应

除了解决Corner Case，端到端架构带来了两大工程红利：

确定性延迟：固定参数量的模型结构保证了单帧推理耗时的恒定，消除了传统规划求解器因场景复杂度波动带来的延迟抖动。
顺应Bitter Lesson：端到端自动驾驶是彻底的数据驱动范式，摒弃了人为设计的规则和评价指标（如Sutton在“Bitter Lesson”中提及“人为添加的归纳偏误更可能形成结构性限制”），使得系统性能上限仅受限于算力与数据规模，完美契合AI时代的摩尔定律。

02 直面端到端落地的三大挑战

Ashok将E2E的工程落地拆解为三个核心难题：维度灾难（怎么训）、可解释性（怎么信）、以及评测（怎么测）。

2.1 维度灾难：20亿到2的因果映射

Ashok指出，理想的E2E模型面临着极端的输入输出不对称：

1）输入token：

过去30s的时间窗口， 36hz采集的7路500万像素摄像头视频等，信息维度相当于20亿token
7台摄像头 × 36帧/秒 × 500万像素 × 30秒历史数据 / (5×5像素patch)
导航地图及未来数英里路线
100Hz运动学数据（如速度、惯性测量单元、里程计等）
48kHz音频数据 (可能是FSD14新增）

2）输出token：

3）学习20亿token→2token的正确因果映射关系

因此端到端方案要解决的是一个从高维到低维的映射问题，且还要反馈正确的逻辑，训练难度可想而知。

Tesla搭建强大的数据引擎（Data Engine）收集大量高质量数据，而非盲目堆砌里程，通过复杂的触发器（如“影子模式”预测偏差、用户接管数据、甚至专用模型采集特殊数据）定向挖掘长尾与高价值样本。而高效的数据筛选与回传机制，使得Tesla能收集海量的极端场景和主动避险数据，确保FSD模型具备极强的泛化能力。