🚗 一、首先：成熟厂商的 BEV 和传统“环视鸟瞰 BEV”完全不是一回事

算法类型	环视 BEV（4–6 路环视拼接）	自动驾驶 BEV（BEV 感知）
目的	给人看的 3D 环视	给算法看的世界统一表达
输入	鱼眼相机图像	前向感知相机、环视相机、毫米波雷达、激光雷达（部分）
依赖	几何映射 + LUT	端到端深度学习网络
输出	静态鸟瞰图	BEV 语义地图、目标框、占用网络、运动预测、道路拓扑结构
在自动驾驶中的地位	UI 辅助	整个自动驾驶的核心信息结构（中间体）

现代自动驾驶厂商的 BEV，本质是：

一个统一的世界表达结构（Bird-Eye-View World Model / Occupancy Grid），
是整个感知、预测、规划的核心接口。

🚀 二、成熟自动驾驶架构中 BEV 的位置（顶层结构）

成熟厂商（如 Tesla 2023+、Waymo、Cruise）采用如下整体结构：

传感器输入    ↓
多模态前端（图像 backbone / 雷达 encoder / 激光特征）
    ↓
多相机+多模态融合到 BEV 空间（BEV Encoder）
    ↓
BEV 表示（占用/深度/语义/动态物体）
    ↓
预测模块（Trajectory Prediction）
    ↓
规划模块（Behavior + Motion Planning）
    ↓
控制

其中 BEV 是承上启下的核心表达，相当于自动驾驶系统内部的“世界坐标系”。

🌐 三、成熟厂商的 BEV 感知是怎么做的（技术核心）

现代 BEV 感知系统一般分为 4 个层次：

① 多相机几何投影 + 深度估计（Lift / Projection）

例如 Tesla、XPeng、华为、小鹏使用：

🔸 Lift-Splat-Shoot（LSS）

相机特征 map 通过 深度分布 转换成 3D voxel 或者 BEV 特征。
核心思想：
每个相机像素不是直接投到 BEV，而是先估深度，再投射到 3D 空间。

🔸 Tesla Occupancy Network（2023+）

完全不用传统检测框，而输出 分布式 occupancy（可占用概率）。
预测 静态环境 + 动态物体 的三维占用。

🔸 BEVFormer / BEVFusion

Transformer 结构，通过 attention 从多个相机获取特征。

成熟自动驾驶基本都从 LSS-like 演化而来。

② 多相机融合（Multi-View Fusion）

多摄像头视角不连续，因此 BEV 空间需要融合。

融合机制：

空间对齐（基于外参）
特征拼接/求和
Transformer 全局融合（BEVFormer 风格）
或者 CNN 跨尺度融合（简单高效）

③ 输出 BEV-level 世界模型（统一表达）

输出内容包括：

📦 Occupancy Grid（占用栅格）——核心

0~1 概率 grid：该位置是否被占用
（Tesla、Waymo、华为、高阶厂商都使用）

🛣️ 车道线、道路边界、可行驶区域（BEV semantic）

替代传统分割
是规划的直接输入

🚘 动态目标（3D Box 或 occupancy flow）

物体位置
速度、加速度
轨迹分布

↔ 运动流场（Flow）

Tesla 使用 Occupancy Flow
直接预测所有点未来 3 秒的运动趋势

成熟自动驾驶厂商的 BEV 是 完整的世界模型，不是简单地图。

④ 时序融合（Tracking + Motion）

关键是：

BEV 是世界坐标，因此不同时间帧的 BEV 可以直接做对齐。

成熟厂商做法：

Ego-motion 估计把上一帧 BEV warp 到当前帧
多帧 BEV 融合，提升稳定性
Transformer 输出连续时间的动态空间预测

🏗 四、在整个自动驾驶系统中 BEV 的集成方式

下面从系统架构角度说清楚 BEV 在自动驾驶软件中的地位。

1. 感知层（BEV 是核心输出）

早期自动驾驶架构：

检测 → 跟踪 → 预测 → 规划

现在（成熟厂商）：

原始传感器 → 统一 BEV 表示                ↓
           （检测、跟踪、分割、语义、占用）

也就是说：

感知直接输出 BEV 世界模型，而不是一个个物体框。

这简化了下游模块，也提升鲁棒性。

2. 预测层（基于 BEV 世界模型）

预测模块接收 BEV：

Occupancy Grid
物体轨迹分布
语义道路拓扑
车辆动态状态

预测模块输出：

多目标多轨迹分布
目标未来 3–6s 的行为意图（切换车道、转向）
占用未来演化（flow）

规划模块依赖预测结果。

3. 规划层（将 BEV 转为决策输入）

BEV → Planning：

栅格可行驶区域 → 约束地图
动态目标占用/位置 → 安全约束（collision check）
道路几何（lane boundary）→ 决策状态机

规划通常分两层：

(1) 行为决策（Behavior Planning）

如：

是否变道
是否超车
是否跟车
是否等待行人

(2) 运动规划（Motion Planning）

如：

产生轨迹（优化器 + RRT + sampling）
避障
速度规划

规划并不直接使用图像，而是使用 BEV 栅格化世界模型——非常简洁。

4. 控制层（执行规划轨迹）

BEV → planning → control → 方向盘/油门/刹车。

BEV 不直接进入控制。

🔧 五、总结成熟厂商 BEV 在架构中的角色（最重要）

自动驾驶系统内部的世界统一表示（World Model）

全系统共享一个世界坐标 BEV。

感知、预测、规划全部围绕 BEV 组织

从 pipeline 变成 graph-based 世界模型。

BEV 是 “AI 地图” 或 “动态 HD 地图”

提供实时更新的道路结构。

BEV 消灭了大量传统模块

不再需要 2D 分割
不再需要单独 3D 检测器
不再需要复杂规则融合

取而代之的是：

一个统一 BEV 网络输出全部信息，成为自动驾驶核心。

PonyTechLab

关于自动驾驶项目开发过程中的一些资料记录【BEV相关知识点】